本章では、調査対象の文書分布を観察することにより、データクリーニングが必要な 外れ値を発見するとともに、調査対象の言語的特徴を把握する方法を検討する。データ
にはBCCWJ図書館SC を使用する。第1節では文書の文字数がほぼ1,000字に固定さ
れている固定長を使用し、文書度数折れ線を描くことで分布観察を行う方法を検討する。
第2節では、文字数が文書ごとに異なる統合形式を使用し、語数と頻度の散布図を描く ことで分布観察を行う方法を検討する。固定長の文書度数分布図と統合形式の散布図で は、同じ単語でも分布の状態に違いが見られる。そこで第3節では固定長と統合形式の 文書内で単語がどのように出現しているのかを観察し、固定長と統合形式のどちらが母 集団の縮図に近い分布となっているかについて考察する。第4節では文書ごとの語数を 一定に平準化する個別調整頻度について考察し、統合形式を使用して文書度数折れ線を 描く方法を検討する。第5節では、そもそもどれぐらいの文書数があれば母平均の正確 な推定が可能になるのかという必要文書数の見積もりを行い、コーパスを使用して有意 義な分析ができる調査対象の目安について考察する。最後に第6節で本章のまとめを述 べる。
第1節 文書度数折れ線による固定長の文書分布観察
本節では、文字数がほぼ一定である固定長を使用し、文書度数折れ線を描くことによ って文書分布を観察する方法を検討する。
文書度数分布図とは、すべての文書における調査対象の頻度(観測値)に対して、単 語頻度0の文書度数、頻度1の文書度数、頻度2の文書度数、・・・、のように、単語 の頻度ごとに文書の度数をまとめて並べたグラフのことである。コーパスで単語を検索 すると、その単語の用例が出力される。それらの用例を、その用例が出現した文書ごと に集約すると、文書ごとの頻度が確定できる。度数分布表とは、頻度順にその頻度を持 つ文書数をまとめた表であり、それをグラフに描いたものが分布図である。度数分布図 はヒストグラムで描かれることが多いが、ヒストグラムの場合、度数が少ないと棒線の 存在が分かりにくいため、本研究では度数分布を度数折れ線(折れ線グラフ)で図示す る。
度数分布図の観察は、調査対象の分布の特徴を捉えるために行われる。コーパスで無 作為抽出された個体を単語と見なすと、単語はコーパスという巨大な単語の袋(Bag of Words)にランダムに散らばって存在していると考えられる。これがコーパスにおける
54
最も素朴な単語分布のイメージである。しかし、実際のコーパスは文書の集合体である ため、単語が分布しているのではなく、文書が分布している。文書には小説や論説文な どの種類や児童書、専門書のようにそれが書かれた対象、目的、難易度など、さまざま な特徴が備わっている。このため、調査対象がそれぞれの文書に何語含まれているかと いう観測値に基づいて分布図を描くと、特徴の似た文書が近くにまとまり、一定の分布 を示すようになる。この分布を観察することで、調査対象の特徴を捉えることができる。
第1章で引用した小島(2006:17)で、「分布」観察の意義をもう一度確認しておこう。
(筆者注:図表1-1女子大生80人の身長(㎝)は)「日本人の成人女性」の 一部という集団を扱っていますが、属するメンバーの身長は、さまざまな数値 をとります。この「さまざまな数値をとる」ということを、専門の言葉で「分 布する」といいます。分布が生じるのは、その数値が決まる背後に何らかの「不 確実性」が働いているからに、ほかなりません。不確実性のメカニズムが、ま ちまちな身長の数値を生み出すと考えるのです。ところが、「不確実」と一口 にいっても、それらには固有の「特徴」や「癖」があることがわかっています。
その固有の特徴や癖を「分布の特性」と呼びます。
さて、この身長のデータに固有の特徴や癖は何でしょうか。データ解析にな じみのある方なら、数値をじっとにらんでいるだけで、多くの特徴や癖を引き 出せるのでしょうが、普通の人にはただの数字の羅列にしか見えないに違いあ りません。
そこで、この生データ、つまり「生の現実」から、何かその分布の特徴や癖 を引き出すための手法が必要になります。それが「統計」という手法なのです。
(小島,2006:17)
小島(2006:17-8)では、この統計手法として、①グラフ化して特徴を捉えることと、
②一つの数字で特徴を代表させることをあげている。これからも分かるとおり、度数分 布表を作図して観察することは、その図から分布の特徴を捉えるために行われる。
この度数分布図を観察することで、どんな特徴が明らかにできるのか、以下で具体的 な調査対象の分布を観察してみる。調査対象は、選択が恣意的にならないように、
BCCWJ 図書館SC・固定長・長単位の語彙頻度表で順位 1位の格助詞「の」、100位の
代名詞「そこ」、500位の名詞「社会」、998位の動詞「戦う」、3,010位の形容詞「興味
55
深い」、9,890 位の名詞「乗り物」、20,000 位の名詞「虫歯」を取り上げる。順位が半端 な単語があるのは、同順位の単語が複数あって、1,000 位や 3,000 位など、区切りの良 い順位が存在しないことによる。
図4.1は、頻度順位1位の「の」の度数折れ線である。「の」の場合、図書館SC10,551 文書のうち、1回も出現しない文書は一つだけで、残りの文書にはすべて出現する。頻
度合計は340,436、1文書当たりの平均は32.3、標準偏差10.3である。標準偏差を平均
値で割った値で、ばらつきの大きさを表す変動係数は0.32と、非常に小さい。つまり、
文書ごとの観測値はばらつきが小さく、概ね似た値になっている。固定長の目安となっ
ている1,000字は、文庫本にすると約2ページ強の長さである。図書館SCの長単位平
均では約523.6語になる。図書館に収蔵されている書籍では、文庫本約2ページ当たり
で「の」を32回程度使用しているものが多く、そこから±10回程度の範囲で全ての書
籍の70%近くを占めると考えられる。
図4.1 「の」の文書度数折れ線
図4.1から分かることは、日本語の書き言葉において「の」の頻度はかなり似通った 使われ方をしているということである。その一方で、中にはほとんど「の」を使用しな かったり、平均の 2 倍以上も使用したりする文書も存在し、「の」の使用には多様性が ある。分布図は正規分布に近い形をしているが、右裾が厚く、平均より「の」を多用す る文書の方が多い。「の」の頻度は、このように、どのような頻度の文書がどのように 分布しているかによって決定される。コーパスをBag of Wordsのように考えると、「の」
は単語の袋の中にまんべんなく散らばっているように思われるが、実は、図書館SCの 中にどんな言葉遣いをする文書がどのように分布しているかによって決まる値なので
56 ある。
次に、図4.1における外れ値の検討を行う。図4.1では、「の」が出現しない文書が1 文書存在していた。(1)は、この文書の一部である。
(1) 拜啓先年御世話被下候千住ノ碑出來候由安心仕候黑木君ヘハ當時小生ヨリ薄
儀呈置候處千住ヨリハ「御心安キ中ユヱ謝儀ハ不仕」ト申來候千住ヨリ來次第 黑木君ヘモ改テ御禮可申考居候ニ右ノ如クニシテ少シアテガハヅレ候
(LBd9_00189,森鷗外,『鴎外全集』)
この文書は、森鷗外の書簡で、漢字カタカナ交じり文で書かれている。BCCWJ では 漢字カタカナ交じり文がうまく形態素解析できておらず、単語の多くが「カタカナ文」
という品詞名で解析されている。(1)の 1 文目を例にすると、「拜啓先年」「御世話被下 候」「千住」「ノ」「碑出來候」のまとまりで長単位として認定され、その品詞名がカタ カナ文になっている。これは、形態素解析の誤りだと思われる。このような文書では研 究者の判断で「の」の頻度を数え直すか、この文書は外れ値と考えて分析から除くこと を検討する必要がある(本章では分布観察が目的であるため、第 2 節以降の分析でも、
外れ値を含めて分析を行う)。
BCCWJ には、この他にも「の」がカタカナ文として解析されている単語を含む文書
が36文書あり、文書の全体が漢字カタカナ交じり文で書かれている文書から、文書の 一部に漢字カタカナ交じり文が出現するものまでさまざまなパターンが存在している。
ちなみに「の」の頻度が少ない2番目の文書も漢字カタカナ交じり文であり、これらを 除いて最も「の」の出現が少ない文書は、山田太一『ふぞろいの林檎たち』(LBf9_00007)
の5回である。この文書は、会話を主体としたテレビドラマの脚本であることから、「の」
の出現が少なくなっていると考えられる。
頻度が少ない文書とは反対に、図4.1では頻度が180と241と、非常に多く出現して いる文書も観察される。頻度180の文書は、吉増剛造『この時代の縁で』(LBm9_00253)
で、固定長・長単位の語数が2,098語である。頻度214の文書は、ジェイムズ・ジョイ ス(著)丸谷才一(訳)『ユリシーズ』(LBr9_00057)で、語数が4,108語である。固定 長では文が途中で切れるのを避けるため、1,000 字を超えて文が終了するところまでが 抽出されている。この二つの文書は、どこが文末か簡単には判断できなかったため、長 大な長さになってしまった固定長である(田野村2014:124-5)。次の用例(2)、(3)はこの