結論 - コーパスの計量的分析法再考

本章では、この研究全体を通すと何を明らかにしたことになるのか、全体の結論として何がいえるのかについて述べる。本研究の目的は、コーパスを使用した計量的な言語分析において、これまで当然視されてきた基本概念や基本的な分析法を再考し、文字、

単語、文などの言語単位を観察単位と考えてきたこれまでの分析法に替わって、統計学的にも言語学的にも有効な分析法を体系的に提案することにあった。本研究の問いは

「コーパスを使用した計量的な言語分析において、どのような分析を行えば統計学的にも言語学的にも有効な分析ができるのか」ということであり、その答えを3点に要約して述べれば、「①個体（文書や学習者）を観察単位として分析する、②分布図を地図として分析する、③かく乱要因に留意して分析する」ということである。第1節では、これまでのコーパス分析の課題と本研究の位置づけについて簡単にまとめる。第2節～第 4節では、本研究の結論として①個体（文書や学習者）を観察単位として分析する意義と方法（第2節）、②分布図を地図として分析する意義と方法（第3節）、③かく乱要因に留意して分析する意義と方法（第4節）についてまとめる。第5節では、本研究全体の意義と今後の課題を述べる。

第1節これまでのコーパス分析の課題と本研究の位置づけ

第1章ではコーパスをブラックボックスに例えた二人の研究者の言葉を引用した。

このようにして近い将来に日本語のコーパスが広く使われるようになることは極めて望ましいことである。それを十分に活用するためには，それが存在するだけでは不十分であり，利用者の側にその活用に必要な知識と技能を得ようとする主体的な努力が要求される。コーパスは手軽に情報を得ることができるブラックボックスではないのであり，その性質を十分に理解した上で扱わなければ意味のある結論には結びつかないからである。（後藤，2007:53）

コーパスを統計処理するときに，一番さけたいことは，コーパスの内容も知らず，プログラムの処理内容も知らないままで，それらしい統計データを出すことである．いわば，ブラックボックスのコーパスをブラックボックスのプログラムで処理するわけであるが，その場合，それを行っている人間はいったい何をしたことになるのか．（伊藤，2005:96）

185

ここから読み取れるのは、何の知識や技能もなしにコーパスを使用した分析を行っても、コーパスはブラックボックスにしかならないということである。コーパスのブラックボックスたるゆえんは、使い方がよく分からなくても、「手軽な情報」や「それらしい結果」が得られるところにある。しかし、コーパスの中身やその調べ方がよく分からないまま使っても、得られた情報や結果が何を意味しているのか、実のところは不明である。それにも関わらず、コーパスから得られた情報や統計結果を「意味のある結論」

と結びつけて論じることが、少なからず行われてきた。この二つの引用はそのような風潮に対する警鐘である。

それでは、コーパスの活用に必要な知識と技能とは何だろうか。コーパスの設計内容や統計プログラムの処理内容を理解することだろうか。確かにこれらも重要な知識や技能には違いない。しかし、設計内容は、コーパスをどのように製作したかという製作者側の情報であり、完成したコーパスが実際にどのような「性質」を持つに至ったかは、

コーパスを使用してはじめて明らかになることが多い。つまり、コーパスを使用しながらコーパスの性質を観察する技能も必須の技能といえる。さらにいえば、設計内容や使用観察で明らかになった性質も、単なる知識で終わっては意味がない。その性質に対してどのような対処を行えば有効な言語分析ができるのかという対処法が明らかになってこそ、有益な知識となり得る。また、統計プログラムの処理内容の理解にしても、最も必要とされているのはプログラミングの技能ではなく、自分が明らかにしたい研究目的に適しているのはどのような統計分析なのか、自分が用意したデータは、その統計処理を行うのに適切なデータとなっているのかが判断できる統計学の知識とその分析を適切に行っていくための技能であろう。つまり、どうすればコーパスの性質を把握できるか、その性質に対処するには、どんなデータを準備し、どんな分析を行えば、統計学的にも言語学的にも有効な分析ができるのかという問いに対する知識と技能こそが、切実に必要とされているのである。

しかし、これまでのコーパス言語学では、計量的な分析を行う上で最も基礎となるこのような知識や技能を明確にするための議論が、あいまいにされたまま研究が行われてきた。本研究は、統計の原理に合致した分析法とはどのような分析法なのか、どのような分析を行えば、言語学的に有効な分析ができるのかについて検討し、統計学的にも言語学的にも有効と考えられる分析法を提案した。本研究は、コーパスを使用した計量的な言語研究分野における最も基礎的な分析方法の原理と方法を体系化した研究に位置づけられる。

186

第2節文書や学習者を観察単位とする分析法の意義と方法

コーパスを使用して統計学的にも言語学的にも有効な分析を行うために最も重要なポイントは、コーパスの個体（文書や学習者）を観察単位として統計分析を行うことである。文書や学習者を観察単位として分析する意義は、それが統計の根本原理に合致している点にある。本研究が最も重視する統計の根本原理は、次の3点である。

①母集団から無作為抽出された母集団の構成要素が個体である。

②個体は独立していなければならない。

③統計分析の目的は、個体の観測値の分布からデータの特徴や性質をつかむことである。

コーパスの研究では、これまで文字・単語・文などの言語単位を使用して分析が行われてきた。これは、コーパスの個体を言語単位だと考えていることを意味している。しかし、第2章で検討したように、BrownコーパスでもBCCWJでも、実質的に無作為抽出されているのは出版物（の一部の文書）である。考え方によっては、文書の構成要素である言語単位も、集落抽出法によって無作為抽出されていると見なすことが可能かも知れない。しかし、文書の中で、文字や単語は一定の法則性に従って使用されており、

独立していない。また、文字や単語の出現数にかかわる観測値は、出現したという意味で考えればすべて1であり、個体レベルでは分布しない。つまり、たとえ言語単位が無作為抽出されていると考えたとしても、言語単位を使用して有効な統計分析を行うことは難しい。

文書とは、コーパスを構築する際に抽出単位となった一定量のテキストのことである。

この文書は、その抽出元である書籍や新聞などの性質を受け継いでいる。文書の性質を最も直接的に決定づけているのは、その文書を書いた執筆者だが、その執筆者も、どのような媒体にどのような目的で何を執筆するのか、執筆する文字数はどれぐらい与えられているかなどのさまざまな条件で書き方が変わる。つまり文書とは、ある執筆者がある条件を与えられたときに使用する言葉遣いを性質に持つサンプルである。このサンプルが大量にあれば、何らかの性質を持った執筆者が、何らかの条件を与えられたときに使用する言葉遣いが偏りなく集積できる。これが代表性を持ったコーパスである。

この文書を抽出するに当たって、ある文書の選択に他の文書の選択は何も影響を与えていない。つまり、文書は独立している。また、文書では、その文書に使用された言葉遣いを反映して、たとえば名詞が多く使用されているとか、助動詞が少なく使用されて

187

いるなど、観測値がそれぞれに異なる。つまり、文書の観測値は分布するため、この分布を基に分析を行えば、母集団の性質が合理的に推定できる。文書は、個体としての条件を満たし、文書を観察単位とした分析を行えば、統計分析の原理に合致した分析ができる。

広義コーパスの一種である学習者コーパスでは、無作為抽出が行われていない。このため、ある学習者コーパスから得られた分析結果は、その学習者コーパスだけに当てはまる結果であり、一般化することは難しい。しかし、学習者コーパスをどのような考え方に従って分析していけばよいかは、基本的に上記の分析法と同じである。

最も重要な視点は、学習者コーパスの個体とは何かを考えることである。学習者コーパスを製作する場合は、まず、学習者を集め、その学習者に作文を書いてもらったり、

インタビューに答えてもらったりして学習者の言語データを集めている。コーパスによっては、一人の学習者から複数の作文や発話データを集めることがある。これらの言語データは、電子的に処理できるように文字化されるため、これらを文書と呼んでもいいだろう。

それでは、学習者コーパスの個体は、この文書なのだろうか。学習者コーパスでは、

まず、学習者が選抜されている。学習者に作文やインタビューを課すのは、学習者の言語的特徴を反映したデータが欲しいからである。また、一人の学習者が複数の作文を書いた場合、それらの作文は共通する特徴を持っていて独立していない。このため、学習者コーパスにおける個体は、文書ではなく学習者と考えるのが妥当である。

学習者単位で集約した文書から、調査対象の観測値を合計すると、その値は学習者の性質を反映してさまざまに分布する。この分布から有益な情報を取り出すのが、統計分析の目的である。

コーパスにおける個体が文書や学習者であると考えると、カイ二乗分析で何を検定しているのかも理解しやすくなる。第6章で検討した表6.1は、格助詞「が」の使用率を

BCCWJ 出版書籍と白書で比較し、カイ二乗検定を行った際の分割表である。これまで

は表6.1のように、単語などの言語単位を使用してカイ二乗検定が行われていた。しかし、先に述べたように単語は文書の中で文法や文脈に影響されて出現するため、独立していない。表6.1は、7,404,994語を一つ一つ調べて、それが「が」か「が」以外の単語かを調べたことを意味しているが、単語はいわば文書単位で数珠つなぎになってまとまっているため、一つ一つの単語が独立して取り出せるわけではない。

ドキュメント内コーパスの計量的分析法再考 (ページ 190-200)