• 検索結果がありません。

カイ二乗検定の方法

ドキュメント内 コーパスの計量的分析法再考 (ページ 132-151)

本章では、コーパス言語学で最も多用されてきたカイ二乗検定を有効に行うための方 法を考察する。コーパスのデータを使用したカイ二乗検定では、これまで主に二つの問 題が指摘されてきた。一つはコーパスのような大規模データを使用すると、実質的には 意味のない差でも有意になるという問題(Kilgarriff,1997;Oakes,1998:28-29)、もう 一つは言語データには統計的検定の前提となる独立性が欠如しているという問題であ る(Kilgarriff,2005;Evert,2006)。本章では、これまでコーパス言語学で行われてき たカイ二乗検定の問題を検討し、統計学的にも言語学的にも有効なカイ二乗検定の方法 を提案する。データには、BCCWJ出版 SC 書籍レジスター(出版書籍)、特定目的SC 白書(白書)、図書館SC(図書館書籍)の短単位データを使用する。

第1節では統計的有意差に関する誤解と大規模データを使用した場合、効果量が有効 に評価できない場合が多いという問題を指摘する。第2節では従来の方法を使用してカ イ二乗検定のケーススタディを行い、第1節で指摘した問題点を具体的に観察する。第 3節では言語データを使用したカイ二乗検定における独立性の問題を考察する。第4節 では、コーパスにおける独立した個体は文書であるとする本研究の考え方に従ってカイ 二乗検定を行い、文書を観察単位とした分析法の有効性を検討する。最後に第5節でま とめを述べる。

第1節 統計的検定における有意差と効果量の問題点

本節では、統計的に有意であれば言語学的にも有意義な差があると考えるのは誤解で あること(第 1.1 項)、コーパスデータのような大規模データを使用した場合、効果量 が有効に評価できない場合が多いこと(第1.2項)を指摘する。

第1.1項 統計的検定における有意差の誤解

統計的有意差と言語学的に有意義な差とは、基本的に無関係である。したがって、異 なったコーパス間で、ある単語の使用率についてカイ二乗検定を行った際、検定結果が 有意であれば使用率にも言語学的に有意義な差が存在すると考えるのは誤解である。統 計的検定は標本で観察された現象が母集団でも成立するかどうかを確かめているに過 ぎない。このため、ある単語の使用率の差が統計的に有意であるからといって、言語学 的に意味のある差が存在しているとは限らない。特に統計的検定には「データ数が多け れば実質的にはほとんど意味がないと判断されるようなわずかな差でも統計的には有

127

意であることになってしまう」という性質が存在する(吉田,2001:240)。コーパス同 士の語数が同じ場合、1,000語のコーパスなら4.4%の差、10,000語のコーパスなら1.4%

の差で有意となる。数百万語を超えるコーパスであれば、実質的な差がほとんどなくて

p値は5%水準で有意となる。このためBCCWJのような大規模コーパスのデータを

使用した場合、統計的検定を行う意味はそれほど高くない(吉田,2001:240)。

サンプルサイズが大きくなればなるほど実質的な差がない現象まで簡単に有意にな りやすいというKilgarriff(1997)等で指摘されている問題は、このような統計的検定の 性質に根ざしており、基本的には有意義な差があるかどうかの評価をp値ではなく、次 に述べる効果量を使用して行うことで解決できる。

第1.2項 効果量とその評価基準の問題

効果量(effect size)とは、サンプルサイズによって変化することのない、標準化され た効果の大きさを示す指標である(水本・竹内, 2008:58-9)。水本・竹内(2008,2011)

では、欧米の学術誌において効果量の報告が義務化されている例などをあげながら、各 種の統計的検定に対応した効果量の求め方とその効果量の判断の目安が啓蒙的に紹介 されている。カイ二乗検定の効果量の一つであるクラメールの連関係数V(Cramer’s V ) の場合、American Psychological Association (APA) Publication Manual 第5版(2001)の記 述に従って、効果量の目安は、小が.10、中が.30、大が.50という水準が示されている(水 本・竹内,2008:62,2011:51)。これ以後この目安をAPAの目安と呼ぶ。これに従えば、

コーパス間における使用率の差もCramer’s V が.10以下の場合、実質的な差は小さいと 考えられる。

(6.1式)Cramer’s V=

ところが日本語で書かれた代表的な言語統計分析の入門書である石川・前田・山崎

(編)(2010:60-7)などで紹介されているカイ二乗検定の方法でCramer’s V を求めると、

大規模コーパスのデータを使用した多くのケースでCramer’s V は.10を下回るごく小さ な値となり、効果量を有効に評価するのが難しくなる(石川,2008:83-97;石川,

2012:119-124;赤野・堀・投野,2014:210-3 なども同様のカイ二乗検定の方法を紹介し

ている)。この効果量の問題は、効果量の報告自体が一般化していないためか、これま

128 でそれほど問題視されてこなかった。

第2節 単語頻度を使用したカイ二乗検定のケーススタディ

本節では、前節で指摘した統計的有意差と効果量の問題点について、具体的なケース スタディを行って観察する。第2.1項では、分析の枠組み、第2.2項では分析結果につ いて述べ、第2.3項で統計的有意差と効果量の問題点を確認する。

第2.1項 分析の枠組み

本項ではBCCWJ出版書籍と白書を使用して、格助詞「が」の使用率の差をカイ二乗

検定する分析の枠組みについて述べる。

丸山(2015)は、BCCWJと『日本語話し言葉コーパス』を使用して、現代語の代表 的な格助詞が書籍、新聞、雑誌、白書などの媒体や書き言葉と話し言葉でどのように用 いられているのかを観察した研究である。その観察の一つに格助詞「が」の使用率が出 版書籍と白書で大きく相違するという興味深い現象がある。先に述べたように、出版書 籍は国立国会図書館に所蔵されている書籍のうち、2001年から2005年に発行された約 30 万冊を母集団とし、その中のおよそ 1 万冊から文書を抽出したコーパスである。白 書は1976年から2005年までの30年間に発行された40タイトル1,006冊の白書を母集 団とし、そこから1,500の文書を抽出したコーパスである。丸山(2015)の観察した現 象は、これらの母集団の性質の相違によって生じていると考えられる。そこでここでは

「が」の頻度を使用してカイ二乗検定を行い、Cramer’s V を算出して効果量の観察を行 う。

また出版書籍と白書の効果量を評価するため、母集団の性質が類似していると思われ

る図書館 SC(以下、図書館書籍と呼ぶ)の効果量も算出し、二つの結果を比較して効

果量の問題点を考える。図書館書籍は東京都内にある 13の自治体の公立図書館で共通 所蔵されている書籍のうち1986年から2005年に発行された約30万冊を母集団とし、

その中のおよそ1万冊から文書を抽出したコーパスである。出版書籍と図書館書籍の主 な違いは、発行年の期間と、書籍が出版されたもの全てを含むか(出版書籍)、よく売 れている・公共性が高いなどの選択基準で選ばれたものか(図書館書籍)という違いで ある。

丸山(2015)ではデータにBCCWJのコアデータ・短単位が使用されている。コアデ ータとは機械学習用に人手で形態素解析のチェックがなされた、解析精度の高い小規模

129

データである。ただし統計分析には固定長が適しているとされているため(丸山・柏野,

2014:26;国立国語研究所コーパス開発センター,2015:30)、本研究では固定長・短単位

を使用して分析を行う。

第2.2項 分析結果

表 6.1 は石川・前田・山崎(編)(2010:60-7)の分析法に従って出版書籍と白書にお ける格助詞「が」の比較を行った分割表である。これをもとにカイ二乗検定を行い、効 果量としてCramer’s Vを求めた。これらの値は表の下に示している。表6.2は同様の観 察を出版書籍と図書館書籍で行った結果である。

表6.1 「が」の比較:出版書籍と白書 表6.2 「が」の比較:出版書籍と図書館書籍

「が」 「が」以外 総語数

出版書籍 152,010 6,211,425 6,363,435 2.39% 97.61% 100.00%

白書 16,888 1,024,671 1,041,559 1.62% 98.38% 100.00%

合計 168,898 7,236,096 7,404,994 2.28% 97.72% 100.00%

χ2 =2364.841 p =.000 Cramer's V =.018

「が」 「が」以外 総語数

出版書籍 152,010 6,211,425 6,363,435 2.39% 97.61% 100.00%

図書館書籍 161,361 6,510,818 6,672,179 2.42% 97.58% 100.00%

合計 313,371 12,722,243 13,035,614 2.40% 97.60% 100.00%

χ2 =12.172 p =.001 Cramer's V =.001

なお固定長は、基本的に約1,000字の文書を集積したデータではあるが、第4章で観 察したように、図書館書籍の場合、4,000 字を超える文書が二つ含まれている。これら における「が」の頻度は 126 語と47語と多くなるため、表 6.2では外れ値と認定して 分析から除いている。表 6.1、表 6.2では、p 値がそれぞれ.000 と.001 になり、ともに

5%水準で有意であった。Cramer’s V はそれぞれ.018と.001であり、APAの効果量の目

安で「小」に当たる.10を大きく下回った。

第2.3項 有意差と効果量の問題点

はじめに、表 6.1、表 6.2 における効果量と統計的な有意差の問題点を確認する。表 6.1 の出版書籍と白書における使用率の違いは 0.77%である。使用率の差では互いの相 違が分かりにくいためこれを割合に直すと、白書では出版書籍の67.8%の使用率となっ ている。これは言語学的に見ても意味のある差だと思われる。しかしCramer’s Vは.018 であり、APAの目安からすれば実質的な差はほとんどないことになる。表6.2における 出版書籍と図書館書籍における使用率の差は0.03%である。これも割合に直すと図書館

ドキュメント内 コーパスの計量的分析法再考 (ページ 132-151)

関連したドキュメント