カイ二乗検定の方法 - コーパスの計量的分析法再考

本章では、コーパス言語学で最も多用されてきたカイ二乗検定を有効に行うための方法を考察する。コーパスのデータを使用したカイ二乗検定では、これまで主に二つの問題が指摘されてきた。一つはコーパスのような大規模データを使用すると、実質的には意味のない差でも有意になるという問題（Kilgarriff，1997；Oakes，1998:28-29）、もう一つは言語データには統計的検定の前提となる独立性が欠如しているという問題である（Kilgarriff，2005；Evert，2006）。本章では、これまでコーパス言語学で行われてきたカイ二乗検定の問題を検討し、統計学的にも言語学的にも有効なカイ二乗検定の方法を提案する。データには、BCCWJ出版 SC 書籍レジスター（出版書籍）、特定目的SC 白書（白書）、図書館SC（図書館書籍）の短単位データを使用する。

第1節では統計的有意差に関する誤解と大規模データを使用した場合、効果量が有効に評価できない場合が多いという問題を指摘する。第2節では従来の方法を使用してカイ二乗検定のケーススタディを行い、第1節で指摘した問題点を具体的に観察する。第 3節では言語データを使用したカイ二乗検定における独立性の問題を考察する。第4節では、コーパスにおける独立した個体は文書であるとする本研究の考え方に従ってカイ二乗検定を行い、文書を観察単位とした分析法の有効性を検討する。最後に第5節でまとめを述べる。

第1節統計的検定における有意差と効果量の問題点

本節では、統計的に有意であれば言語学的にも有意義な差があると考えるのは誤解であること（第 1.1 項）、コーパスデータのような大規模データを使用した場合、効果量が有効に評価できない場合が多いこと（第1.2項）を指摘する。

第1.1項統計的検定における有意差の誤解

統計的有意差と言語学的に有意義な差とは、基本的に無関係である。したがって、異なったコーパス間で、ある単語の使用率についてカイ二乗検定を行った際、検定結果が有意であれば使用率にも言語学的に有意義な差が存在すると考えるのは誤解である。統計的検定は標本で観察された現象が母集団でも成立するかどうかを確かめているに過ぎない。このため、ある単語の使用率の差が統計的に有意であるからといって、言語学的に意味のある差が存在しているとは限らない。特に統計的検定には「データ数が多ければ実質的にはほとんど意味がないと判断されるようなわずかな差でも統計的には有

127

意であることになってしまう」という性質が存在する（吉田，2001:240）。コーパス同士の語数が同じ場合、1,000語のコーパスなら4.4%の差、10,000語のコーパスなら1.4%

の差で有意となる。数百万語を超えるコーパスであれば、実質的な差がほとんどなくて

もp値は5%水準で有意となる。このためBCCWJのような大規模コーパスのデータを

使用した場合、統計的検定を行う意味はそれほど高くない（吉田，2001:240）。

サンプルサイズが大きくなればなるほど実質的な差がない現象まで簡単に有意になりやすいというKilgarriff（1997）等で指摘されている問題は、このような統計的検定の性質に根ざしており、基本的には有意義な差があるかどうかの評価をp値ではなく、次に述べる効果量を使用して行うことで解決できる。

第1.2項効果量とその評価基準の問題

効果量（effect size）とは、サンプルサイズによって変化することのない、標準化された効果の大きさを示す指標である（水本・竹内， 2008:58-9）。水本・竹内（2008，2011）

では、欧米の学術誌において効果量の報告が義務化されている例などをあげながら、各種の統計的検定に対応した効果量の求め方とその効果量の判断の目安が啓蒙的に紹介されている。カイ二乗検定の効果量の一つであるクラメールの連関係数V（Cramer’s V ）の場合、American Psychological Association (APA) Publication Manual 第5版（2001）の記述に従って、効果量の目安は、小が.10、中が.30、大が.50という水準が示されている（水本・竹内，2008:62，2011:51）。これ以後この目安をAPAの目安と呼ぶ。これに従えば、

コーパス間における使用率の差もCramer’s V が.10以下の場合、実質的な差は小さいと考えられる。

（6.1式）Cramer’s V＝

ところが日本語で書かれた代表的な言語統計分析の入門書である石川・前田・山崎

（編）（2010:60-7）などで紹介されているカイ二乗検定の方法でCramer’s V を求めると、

大規模コーパスのデータを使用した多くのケースでCramer’s V は.10を下回るごく小さな値となり、効果量を有効に評価するのが難しくなる（石川，2008:83-97；石川，

2012:119-124；赤野・堀・投野，2014:210-3 なども同様のカイ二乗検定の方法を紹介し

ている）。この効果量の問題は、効果量の報告自体が一般化していないためか、これま

128 でそれほど問題視されてこなかった。

第2節単語頻度を使用したカイ二乗検定のケーススタディ

本節では、前節で指摘した統計的有意差と効果量の問題点について、具体的なケーススタディを行って観察する。第2.1項では、分析の枠組み、第2.2項では分析結果について述べ、第2.3項で統計的有意差と効果量の問題点を確認する。

第2.1項分析の枠組み

本項ではBCCWJ出版書籍と白書を使用して、格助詞「が」の使用率の差をカイ二乗

検定する分析の枠組みについて述べる。

丸山（2015）は、BCCWJと『日本語話し言葉コーパス』を使用して、現代語の代表的な格助詞が書籍、新聞、雑誌、白書などの媒体や書き言葉と話し言葉でどのように用いられているのかを観察した研究である。その観察の一つに格助詞「が」の使用率が出版書籍と白書で大きく相違するという興味深い現象がある。先に述べたように、出版書籍は国立国会図書館に所蔵されている書籍のうち、2001年から2005年に発行された約 30 万冊を母集団とし、その中のおよそ 1 万冊から文書を抽出したコーパスである。白書は1976年から2005年までの30年間に発行された40タイトル1,006冊の白書を母集団とし、そこから1,500の文書を抽出したコーパスである。丸山（2015）の観察した現象は、これらの母集団の性質の相違によって生じていると考えられる。そこでここでは

「が」の頻度を使用してカイ二乗検定を行い、Cramer’s V を算出して効果量の観察を行う。

また出版書籍と白書の効果量を評価するため、母集団の性質が類似していると思われ

る図書館 SC（以下、図書館書籍と呼ぶ）の効果量も算出し、二つの結果を比較して効

果量の問題点を考える。図書館書籍は東京都内にある 13の自治体の公立図書館で共通所蔵されている書籍のうち1986年から2005年に発行された約30万冊を母集団とし、

その中のおよそ1万冊から文書を抽出したコーパスである。出版書籍と図書館書籍の主な違いは、発行年の期間と、書籍が出版されたもの全てを含むか（出版書籍）、よく売れている・公共性が高いなどの選択基準で選ばれたものか（図書館書籍）という違いである。

丸山（2015）ではデータにBCCWJのコアデータ・短単位が使用されている。コアデータとは機械学習用に人手で形態素解析のチェックがなされた、解析精度の高い小規模

129

データである。ただし統計分析には固定長が適しているとされているため（丸山・柏野，

2014:26；国立国語研究所コーパス開発センター，2015:30）、本研究では固定長・短単位

を使用して分析を行う。

第2.2項分析結果

表 6.1 は石川・前田・山崎（編）（2010:60-7）の分析法に従って出版書籍と白書における格助詞「が」の比較を行った分割表である。これをもとにカイ二乗検定を行い、効果量としてCramer’s Vを求めた。これらの値は表の下に示している。表6.2は同様の観察を出版書籍と図書館書籍で行った結果である。

表6.1 「が」の比較：出版書籍と白書表6.2 「が」の比較：出版書籍と図書館書籍

「が」「が」以外総語数

出版書籍 152,010 6,211,425 6,363,435 2.39% 97.61% 100.00%

白書 16,888 1,024,671 1,041,559 1.62% 98.38% 100.00%

合計 168,898 7,236,096 7,404,994 2.28% 97.72% 100.00%

χ²=2364.841 p =.000 Cramer's V =.018

「が」「が」以外総語数

出版書籍 152,010 6,211,425 6,363,435 2.39% 97.61% 100.00%

図書館書籍 161,361 6,510,818 6,672,179 2.42% 97.58% 100.00%

合計 313,371 12,722,243 13,035,614 2.40% 97.60% 100.00%

χ²=12.172 p =.001 Cramer's V =.001

なお固定長は、基本的に約1,000字の文書を集積したデータではあるが、第4章で観察したように、図書館書籍の場合、4,000 字を超える文書が二つ含まれている。これらにおける「が」の頻度は 126 語と47語と多くなるため、表 6.2では外れ値と認定して分析から除いている。表 6.1、表 6.2では、p 値がそれぞれ.000 と.001 になり、ともに

5%水準で有意であった。Cramer’s V はそれぞれ.018と.001であり、APAの効果量の目

安で「小」に当たる.10を大きく下回った。

第2.3項有意差と効果量の問題点

はじめに、表 6.1、表 6.2 における効果量と統計的な有意差の問題点を確認する。表 6.1 の出版書籍と白書における使用率の違いは 0.77%である。使用率の差では互いの相違が分かりにくいためこれを割合に直すと、白書では出版書籍の67.8%の使用率となっている。これは言語学的に見ても意味のある差だと思われる。しかしCramer’s Vは.018 であり、APAの目安からすれば実質的な差はほとんどないことになる。表6.2における出版書籍と図書館書籍における使用率の差は0.03%である。これも割合に直すと図書館

ドキュメント内コーパスの計量的分析法再考 (ページ 132-151)