本章では、この研究全体を通すと何を明らかにしたことになるのか、全体の結論とし て何がいえるのかについて述べる。本研究の目的は、コーパスを使用した計量的な言語 分析において、これまで当然視されてきた基本概念や基本的な分析法を再考し、文字、
単語、文などの言語単位を観察単位と考えてきたこれまでの分析法に替わって、統計学 的にも言語学的にも有効な分析法を体系的に提案することにあった。本研究の問いは
「コーパスを使用した計量的な言語分析において、どのような分析を行えば統計学的に も言語学的にも有効な分析ができるのか」ということであり、その答えを3点に要約し て述べれば、「①個体(文書や学習者)を観察単位として分析する、②分布図を地図と して分析する、③かく乱要因に留意して分析する」ということである。第1節では、こ れまでのコーパス分析の課題と本研究の位置づけについて簡単にまとめる。第2節~第 4節では、本研究の結論として①個体(文書や学習者)を観察単位として分析する意義 と方法(第2節)、②分布図を地図として分析する意義と方法(第3節)、③かく乱要因 に留意して分析する意義と方法(第4節)についてまとめる。第5節では、本研究全体 の意義と今後の課題を述べる。
第1節 これまでのコーパス分析の課題と本研究の位置づけ
第1章ではコーパスをブラックボックスに例えた二人の研究者の言葉を引用した。
このようにして近い将来に日本語のコーパスが広く使われるようになるこ とは極めて望ましいことである。それを十分に活用するためには,それが存在 するだけでは不十分であり,利用者の側にその活用に必要な知識と技能を得よ うとする主体的な努力が要求される。コーパスは手軽に情報を得ることができ るブラックボックスではないのであり,その性質を十分に理解した上で扱わな ければ意味のある結論には結びつかないからである。 (後藤,2007:53)
コーパスを統計処理するときに,一番さけたいことは,コーパスの内容も知 らず,プログラムの処理内容も知らないままで,それらしい統計データを出す ことである.いわば,ブラックボックスのコーパスをブラックボックスのプロ グラムで処理するわけであるが,その場合,それを行っている人間はいったい 何をしたことになるのか. (伊藤,2005:96)
185
ここから読み取れるのは、何の知識や技能もなしにコーパスを使用した分析を行って も、コーパスはブラックボックスにしかならないということである。コーパスのブラッ クボックスたるゆえんは、使い方がよく分からなくても、「手軽な情報」や「それらし い結果」が得られるところにある。しかし、コーパスの中身やその調べ方がよく分から ないまま使っても、得られた情報や結果が何を意味しているのか、実のところは不明で ある。それにも関わらず、コーパスから得られた情報や統計結果を「意味のある結論」
と結びつけて論じることが、少なからず行われてきた。この二つの引用はそのような風 潮に対する警鐘である。
それでは、コーパスの活用に必要な知識と技能とは何だろうか。コーパスの設計内容 や統計プログラムの処理内容を理解することだろうか。確かにこれらも重要な知識や技 能には違いない。しかし、設計内容は、コーパスをどのように製作したかという製作者 側の情報であり、完成したコーパスが実際にどのような「性質」を持つに至ったかは、
コーパスを使用してはじめて明らかになることが多い。つまり、コーパスを使用しなが らコーパスの性質を観察する技能も必須の技能といえる。さらにいえば、設計内容や使 用観察で明らかになった性質も、単なる知識で終わっては意味がない。その性質に対し てどのような対処を行えば有効な言語分析ができるのかという対処法が明らかになっ てこそ、有益な知識となり得る。また、統計プログラムの処理内容の理解にしても、最 も必要とされているのはプログラミングの技能ではなく、自分が明らかにしたい研究目 的に適しているのはどのような統計分析なのか、自分が用意したデータは、その統計処 理を行うのに適切なデータとなっているのかが判断できる統計学の知識とその分析を 適切に行っていくための技能であろう。つまり、どうすればコーパスの性質を把握でき るか、その性質に対処するには、どんなデータを準備し、どんな分析を行えば、統計学 的にも言語学的にも有効な分析ができるのかという問いに対する知識と技能こそが、切 実に必要とされているのである。
しかし、これまでのコーパス言語学では、計量的な分析を行う上で最も基礎となるこ のような知識や技能を明確にするための議論が、あいまいにされたまま研究が行われて きた。本研究は、統計の原理に合致した分析法とはどのような分析法なのか、どのよう な分析を行えば、言語学的に有効な分析ができるのかについて検討し、統計学的にも言 語学的にも有効と考えられる分析法を提案した。本研究は、コーパスを使用した計量的 な言語研究分野における最も基礎的な分析方法の原理と方法を体系化した研究に位置 づけられる。
186
第2節 文書や学習者を観察単位とする分析法の意義と方法
コーパスを使用して統計学的にも言語学的にも有効な分析を行うために最も重要な ポイントは、コーパスの個体(文書や学習者)を観察単位として統計分析を行うことで ある。文書や学習者を観察単位として分析する意義は、それが統計の根本原理に合致し ている点にある。本研究が最も重視する統計の根本原理は、次の3点である。
①母集団から無作為抽出された母集団の構成要素が個体である。
②個体は独立していなければならない。
③統計分析の目的は、個体の観測値の分布からデータの特徴や性質をつかむことである。
コーパスの研究では、これまで文字・単語・文などの言語単位を使用して分析が行わ れてきた。これは、コーパスの個体を言語単位だと考えていることを意味している。し かし、第2章で検討したように、BrownコーパスでもBCCWJでも、実質的に無作為抽 出されているのは出版物(の一部の文書)である。考え方によっては、文書の構成要素 である言語単位も、集落抽出法によって無作為抽出されていると見なすことが可能かも 知れない。しかし、文書の中で、文字や単語は一定の法則性に従って使用されており、
独立していない。また、文字や単語の出現数にかかわる観測値は、出現したという意味 で考えればすべて1であり、個体レベルでは分布しない。つまり、たとえ言語単位が無 作為抽出されていると考えたとしても、言語単位を使用して有効な統計分析を行うこと は難しい。
文書とは、コーパスを構築する際に抽出単位となった一定量のテキストのことである。
この文書は、その抽出元である書籍や新聞などの性質を受け継いでいる。文書の性質を 最も直接的に決定づけているのは、その文書を書いた執筆者だが、その執筆者も、どの ような媒体にどのような目的で何を執筆するのか、執筆する文字数はどれぐらい与えら れているかなどのさまざまな条件で書き方が変わる。つまり文書とは、ある執筆者があ る条件を与えられたときに使用する言葉遣いを性質に持つサンプルである。このサンプ ルが大量にあれば、何らかの性質を持った執筆者が、何らかの条件を与えられたときに 使用する言葉遣いが偏りなく集積できる。これが代表性を持ったコーパスである。
この文書を抽出するに当たって、ある文書の選択に他の文書の選択は何も影響を与え ていない。つまり、文書は独立している。また、文書では、その文書に使用された言葉 遣いを反映して、たとえば名詞が多く使用されているとか、助動詞が少なく使用されて
187
いるなど、観測値がそれぞれに異なる。つまり、文書の観測値は分布するため、この分 布を基に分析を行えば、母集団の性質が合理的に推定できる。文書は、個体としての条 件を満たし、文書を観察単位とした分析を行えば、統計分析の原理に合致した分析がで きる。
広義コーパスの一種である学習者コーパスでは、無作為抽出が行われていない。この ため、ある学習者コーパスから得られた分析結果は、その学習者コーパスだけに当ては まる結果であり、一般化することは難しい。しかし、学習者コーパスをどのような考え 方に従って分析していけばよいかは、基本的に上記の分析法と同じである。
最も重要な視点は、学習者コーパスの個体とは何かを考えることである。学習者コー パスを製作する場合は、まず、学習者を集め、その学習者に作文を書いてもらったり、
インタビューに答えてもらったりして学習者の言語データを集めている。コーパスによ っては、一人の学習者から複数の作文や発話データを集めることがある。これらの言語 データは、電子的に処理できるように文字化されるため、これらを文書と呼んでもいい だろう。
それでは、学習者コーパスの個体は、この文書なのだろうか。学習者コーパスでは、
まず、学習者が選抜されている。学習者に作文やインタビューを課すのは、学習者の言 語的特徴を反映したデータが欲しいからである。また、一人の学習者が複数の作文を書 いた場合、それらの作文は共通する特徴を持っていて独立していない。このため、学習 者コーパスにおける個体は、文書ではなく学習者と考えるのが妥当である。
学習者単位で集約した文書から、調査対象の観測値を合計すると、その値は学習者の 性質を反映してさまざまに分布する。この分布から有益な情報を取り出すのが、統計分 析の目的である。
コーパスにおける個体が文書や学習者であると考えると、カイ二乗分析で何を検定し ているのかも理解しやすくなる。第6章で検討した表6.1は、格助詞「が」の使用率を
BCCWJ 出版書籍と白書で比較し、カイ二乗検定を行った際の分割表である。これまで
は表6.1のように、単語などの言語単位を使用してカイ二乗検定が行われていた。しか し、先に述べたように単語は文書の中で文法や文脈に影響されて出現するため、独立し ていない。表6.1は、7,404,994語を一つ一つ調べて、それが「が」か「が」以外の単語 かを調べたことを意味しているが、単語はいわば文書単位で数珠つなぎになってまとま っているため、一つ一つの単語が独立して取り出せるわけではない。