本章では、文書を観察単位として分析する場合、どのような手順で分析を行えば有効 な分析ができるのか、本研究で扱う分析法を何にするのかという分析法の枠組みについ て検討する。第1節では、この検討に入る前に、本研究の分析に使用する「頻度」と「文 書度数」という用語を定義する。第2節では、本研究で扱う分析法とその手順について 検討する。
第1節 頻度と文書度数の定義
はじめに、分析に使用する用語を定義する。コーパス言語学では、コーパスに出現し た文字、単語、文などの言語単位の個数を頻度と呼んでいる。しかし、本研究ではコー パスにおける個体は文書と考え、個体に出現した言語単位の観測値は変数と考える。つ まり単語の個数は値であるから、これを頻度と呼ぶことは適切ではない。
ある値を示したデータの個数(対象の数)を,その値の度数(frequency)と いいます。たとえば,“3”というデータが全部で 12 個あったら,そのまま,
“3という値の度数は12である”といいます。質的変数の場合には,“各カテ ゴリーに分類されたデータの個数”と表現した方が分かりやすいかもしれませ ん。そして,どのような値(ないし,カテゴリー)のデータが何個ずつあるの かといった,各値とそれぞれの度数を対応させたものを,度数分布(frequency distribution)といいます。 (吉田,2001:27)
これに従えば、単語の個数はある文書に出現した「値」であり、たとえば 12文書に 単語Aがそれぞれ3語ずつ含まれていた場合、「単語Aの値が3の度数は12である」
という言い方が適切である。しかし、コーパス言語学では言語単位の出現回数を「頻度」
と呼ぶ習慣が定着しているため、これを異なる名称で呼ぶとかえって混乱を招く恐れが ある。このため、本研究では言語単位の個数はそのまま「頻度」と呼ぶ。その上で、本 来「頻度」も「度数」も同じ frequencyを意味するものの、ある値を示した文書の個数 は「文書度数」と呼び分け、これらに関する用語を以下のように定義する。
(1) 頻度:言語単位の個数。基本的にはコーパスに出現した全個数を指すが、あるジ
ャンルやある文書に出現した個数も頻度と呼ぶ。また、言語単位を単語に限定する
49
場合は「単語頻度」、文に限定する場合は「文頻度」などと呼ぶ場合がある。
(2) 文書度数:ある値やあるカテゴリーに合致した文書の個数。「単語の値が3の度数
は12である」という言い方の場合、「単語頻度が3の文書度数は12である」のよ うに表現する。
(3) 文書数:一般的な文書の個数。たとえばコーパスで検索したある単語の合計頻度
が50である場合、10文書で50になる場合もあれば、20文書で50になる場合もあ る。この場合の10文書や20文書はすべてが同じ頻度の文書とは限らないため、文 書度数ではなく、文書数と呼ぶ。
第2節 本研究で扱う分析法の内容と手順
本節では、本研究で扱う分析法の内容と手順について検討する。統計分析の入門書で は、データ分析に際して行うべき最も基礎的な手順として、①データに異常がないかど うかを観察するデータクリーニング、②度数分布表の記述と観察、③代表値を使用した 数値要約によるデータの記述と観察をあげているものが多い(Woods, Fletcher, & Hughes,
1986;吉田,2001;市原・岩本,2006;小島,2006;石川・前田・山崎,2010 など)。
②、③は記述統計と呼ばれ、観測されたデータの特徴を分かりやすい形で記述・観察す る分析法である。文書を観察単位とした分析においても、これらの手順を踏んで分析を 行うことが有効だと考えられる。
データを分析する前に行われる作業がデータクリーニングで、たとえば質問紙調査で あれば、協力者がまじめに記入していないため、どの項目も同じ番号になっているとか、
質問文が適切でなかったため一つだけ選択してほしい設問で選択肢が複数選択されて いる項目があるなど、何らかの異常を見つけて対処することをいう。コーパスでも、デ ータに全く異常がないことは考えられないため、データクリーニングを行う必要がある が、大規模に集積されたコーパスの場合、使用者がそのデータの全てに目を通してチェ ックすることは実質的には不可能である。また、全ての文書を読んでチェックしたとし ても、どのような文書を異常だと判断するのか、認定基準を作ることも難しい。
データクリーニングの対象を検索した用例だけに絞っても、その用例が大量である場 合、それを目視で丹念にチェックすることは困難である。このため、小規模なコーパス で文字列検索を行った場合などでは、調査対象外用例のチェック等のデータクリーニン グが行われているが、BCCWJのように形態素解析済みの大規模コーパスの場合、それ ほど丹念なデータクリーニングは行われていないのが実情だと思われる。また、たとえ
50
目視による用例チェックを行ったとしても、検索された用例を文単位で読むだけでは、
用例を文書単位でまとめた場合にはじめて明らかになる異常を発見することは困難で ある。
しかし、文書を観察単位とした分析法では、外れ値(「データ集合の中で他の観測値 と全く異なる観測値」,Upton & Cook,2011:301)となっている文書に異常が見られる ことが多いため、文書の度数分布を観察することで、異常な個体を発見しやすい。外れ 値となっている文書が見つかった場合、その文書の内容をチェックすることによって、
異常なデータなのか、特異ではあっても正常なデータなのかを判断することが可能にな る。つまり、コーパスのデータの全てに目を通すのは不可能でも、分布観察で外れ値と なっている文書が特定できれば、効率よくデータチェックを行うことができる。一般的 な統計分析の手順では、データチェックを行った後に度数分布の観察へと進むことが多 いが、コーパス分析の場合、文書度数分布を観察しながら、データチェックを同時に行 う方法が有効だと考えられる。
この文書度数分布の観察では、外れ値の発見だけでなく、当然ながら調査対象の言語 現象がコーパス内にどのように分布しているかという特徴が観察できる。また、特徴的 な文書のテキストを選抜して分析することで、そのような分布の特徴がなぜ生じるかに ついても、ある程度の予測が可能になる。従来の言語単位を観察単位とした分析法では、
調査対象の頻度は十分なチェックを経ないまま、母集団を反映した頻度という信頼性が 仮定されて分析されるが、文書を観察単位とした分析法では、その頻度に異常がないか どうかをチェックし、なぜそのような頻度になるのかという理由についても、ある程度 把握しながら分析することが可能になると思われる。
しかし、コーパスから何らかの対象を検索した場合、出力されるのは用例単位のデー タである。まず、これを文書単位に集約する必要がある。また、文書の語数が均一でな い場合、粗頻度で度数分布をまとめても有効な分析はできない。語数の違いを考慮に入 れながら、分布を観察する必要がある。これらの方法は先行研究で十分に明らかにされ ているとはいえないため、分析の第一段階として、どのような分析法を用いれば有効な 度数分布観察ができるかを、明らかにしていく必要がある。
度数分布観察の次の段階は、代表値によるデータの特徴記述である。これは、平均値 や中央値などの代表値によってデータを要約し、特徴をつかみやすくする分析である。
文書を観察単位とした場合、たとえば文書Aには調査対象が3、文書Bには調査対象が 5出現するなど、文書ごとに調査対象の観測値(変数)が異なる。このため、平均値や
51
ばらつきの指標である標準偏差などが算出できる。しかし言語単位を観察単位とした場 合、個体ごとに変化する観測値は存在しない。あえていうなら個体の値は検索によって 出現したという意味で、全て1である。この場合、個体の平均値も中央値も1になるた め、平均値や中央値を使用する分析は考えにくかった。これに替わって行われてきたの が、カテゴリーごとに算出した調整頻度による比較である。これはカテゴリーごとに個 体数を合計し、カテゴリー間の比較が可能になるように語数を調整した値で、つまると ころカテゴリーの合計数の比較である。しかし文書を観察単位とした分析法では、個体 の観測値(変数)はそれぞれ異なるため、そのばらつきや分布を考慮に入れた平均値や 中央値の分析も可能になる。このため、このような代表値による分析の有効性を検討し てみることが必要である。
これらの分析によって言語学的に意味のある頻度差が見つかった場合、その次に求め られるのは、その頻度差がそのコーパスだけに限定される違いなのか、それとも母集団 でも成立している違いなのかを推測する統計的検定であろう。コーパス言語学では、カ イ二乗検定がこれまで最も多く使用されてきた。しかし、従来の単語や文などの言語単 位を観察単位とした分析法では、独立性の仮定を満たしていないため、有効な検定がで きないと考えられる。このため、文書を観察単位とした場合、従来のカイ二乗検定の問 題が克服できるかどうかを検討し、コーパス分析に有効なカイ二乗検定の方法を明らか にする必要がある。
言語学的に意味のある頻度差が母集団でも成立する可能性が高いと判断できた場合、
その次に求められるのは、そのような頻度差がなぜ生じているのかという因果関係の解 明だと思われる。相関関係に基づいて行われる回帰分析は、このような因果関係の解明 で最も多用されている分析法である。このため、回帰分析においても、従来の分析法の ように言語単位を観察単位とするのがよいか、本研究のように文書を観察単位とするの がよいかという問題を検討し、コーパス分析で有効な回帰分析の方法を明らかにする必 要がある。
以上のように、度数分布の観察から回帰分析までの方法が明らかになれば、文書を観 察単位とした分析法の基礎ができあがる。このため、本研究においては、「文書分布と 代表値の観察による有効な頻度差の発見(第 4、5章)→それが母集団でも成立する可 能性の検定(第6章)→頻度差が生じる因果関係の解明(第7章)」という枠組みで研 究を行うこととする。これらの分析では、それぞれ言語単位を観察単位とした従来の分 析法と本研究が主張する文書を観察単位とした分析法のどちらが有効であるかについ