本研究が対象とする分析法の概要 - コーパスの計量的分析法再考

本章では、文書を観察単位として分析する場合、どのような手順で分析を行えば有効な分析ができるのか、本研究で扱う分析法を何にするのかという分析法の枠組みについて検討する。第1節では、この検討に入る前に、本研究の分析に使用する「頻度」と「文書度数」という用語を定義する。第2節では、本研究で扱う分析法とその手順について検討する。

第1節頻度と文書度数の定義

はじめに、分析に使用する用語を定義する。コーパス言語学では、コーパスに出現した文字、単語、文などの言語単位の個数を頻度と呼んでいる。しかし、本研究ではコーパスにおける個体は文書と考え、個体に出現した言語単位の観測値は変数と考える。つまり単語の個数は値であるから、これを頻度と呼ぶことは適切ではない。

ある値を示したデータの個数（対象の数）を，その値の度数（frequency）といいます。たとえば，“3”というデータが全部で 12 個あったら，そのまま，

“3という値の度数は12である”といいます。質的変数の場合には，“各カテゴリーに分類されたデータの個数”と表現した方が分かりやすいかもしれません。そして，どのような値（ないし，カテゴリー）のデータが何個ずつあるのかといった，各値とそれぞれの度数を対応させたものを，度数分布（frequency distribution）といいます。（吉田，2001:27）

これに従えば、単語の個数はある文書に出現した「値」であり、たとえば 12文書に単語Aがそれぞれ3語ずつ含まれていた場合、「単語Aの値が3の度数は12である」

という言い方が適切である。しかし、コーパス言語学では言語単位の出現回数を「頻度」

と呼ぶ習慣が定着しているため、これを異なる名称で呼ぶとかえって混乱を招く恐れがある。このため、本研究では言語単位の個数はそのまま「頻度」と呼ぶ。その上で、本来「頻度」も「度数」も同じ frequencyを意味するものの、ある値を示した文書の個数は「文書度数」と呼び分け、これらに関する用語を以下のように定義する。

(1) 頻度：言語単位の個数。基本的にはコーパスに出現した全個数を指すが、あるジ

ャンルやある文書に出現した個数も頻度と呼ぶ。また、言語単位を単語に限定する

場合は「単語頻度」、文に限定する場合は「文頻度」などと呼ぶ場合がある。

(2) 文書度数：ある値やあるカテゴリーに合致した文書の個数。「単語の値が3の度数

は12である」という言い方の場合、「単語頻度が3の文書度数は12である」のように表現する。

(3) 文書数：一般的な文書の個数。たとえばコーパスで検索したある単語の合計頻度

が50である場合、10文書で50になる場合もあれば、20文書で50になる場合もある。この場合の10文書や20文書はすべてが同じ頻度の文書とは限らないため、文書度数ではなく、文書数と呼ぶ。

第2節本研究で扱う分析法の内容と手順

本節では、本研究で扱う分析法の内容と手順について検討する。統計分析の入門書では、データ分析に際して行うべき最も基礎的な手順として、①データに異常がないかどうかを観察するデータクリーニング、②度数分布表の記述と観察、③代表値を使用した数値要約によるデータの記述と観察をあげているものが多い（Woods, Fletcher, & Hughes，

1986；吉田，2001；市原・岩本，2006；小島，2006；石川・前田・山崎，2010 など）。

②、③は記述統計と呼ばれ、観測されたデータの特徴を分かりやすい形で記述・観察する分析法である。文書を観察単位とした分析においても、これらの手順を踏んで分析を行うことが有効だと考えられる。

データを分析する前に行われる作業がデータクリーニングで、たとえば質問紙調査であれば、協力者がまじめに記入していないため、どの項目も同じ番号になっているとか、

質問文が適切でなかったため一つだけ選択してほしい設問で選択肢が複数選択されている項目があるなど、何らかの異常を見つけて対処することをいう。コーパスでも、データに全く異常がないことは考えられないため、データクリーニングを行う必要があるが、大規模に集積されたコーパスの場合、使用者がそのデータの全てに目を通してチェックすることは実質的には不可能である。また、全ての文書を読んでチェックしたとしても、どのような文書を異常だと判断するのか、認定基準を作ることも難しい。

データクリーニングの対象を検索した用例だけに絞っても、その用例が大量である場合、それを目視で丹念にチェックすることは困難である。このため、小規模なコーパスで文字列検索を行った場合などでは、調査対象外用例のチェック等のデータクリーニングが行われているが、BCCWJのように形態素解析済みの大規模コーパスの場合、それほど丹念なデータクリーニングは行われていないのが実情だと思われる。また、たとえ

目視による用例チェックを行ったとしても、検索された用例を文単位で読むだけでは、

用例を文書単位でまとめた場合にはじめて明らかになる異常を発見することは困難である。

しかし、文書を観察単位とした分析法では、外れ値（「データ集合の中で他の観測値と全く異なる観測値」，Upton & Cook，2011:301）となっている文書に異常が見られることが多いため、文書の度数分布を観察することで、異常な個体を発見しやすい。外れ値となっている文書が見つかった場合、その文書の内容をチェックすることによって、

異常なデータなのか、特異ではあっても正常なデータなのかを判断することが可能になる。つまり、コーパスのデータの全てに目を通すのは不可能でも、分布観察で外れ値となっている文書が特定できれば、効率よくデータチェックを行うことができる。一般的な統計分析の手順では、データチェックを行った後に度数分布の観察へと進むことが多いが、コーパス分析の場合、文書度数分布を観察しながら、データチェックを同時に行う方法が有効だと考えられる。

この文書度数分布の観察では、外れ値の発見だけでなく、当然ながら調査対象の言語現象がコーパス内にどのように分布しているかという特徴が観察できる。また、特徴的な文書のテキストを選抜して分析することで、そのような分布の特徴がなぜ生じるかについても、ある程度の予測が可能になる。従来の言語単位を観察単位とした分析法では、

調査対象の頻度は十分なチェックを経ないまま、母集団を反映した頻度という信頼性が仮定されて分析されるが、文書を観察単位とした分析法では、その頻度に異常がないかどうかをチェックし、なぜそのような頻度になるのかという理由についても、ある程度把握しながら分析することが可能になると思われる。

しかし、コーパスから何らかの対象を検索した場合、出力されるのは用例単位のデータである。まず、これを文書単位に集約する必要がある。また、文書の語数が均一でない場合、粗頻度で度数分布をまとめても有効な分析はできない。語数の違いを考慮に入れながら、分布を観察する必要がある。これらの方法は先行研究で十分に明らかにされているとはいえないため、分析の第一段階として、どのような分析法を用いれば有効な度数分布観察ができるかを、明らかにしていく必要がある。

度数分布観察の次の段階は、代表値によるデータの特徴記述である。これは、平均値や中央値などの代表値によってデータを要約し、特徴をつかみやすくする分析である。

文書を観察単位とした場合、たとえば文書Aには調査対象が3、文書Bには調査対象が 5出現するなど、文書ごとに調査対象の観測値（変数）が異なる。このため、平均値や

ばらつきの指標である標準偏差などが算出できる。しかし言語単位を観察単位とした場合、個体ごとに変化する観測値は存在しない。あえていうなら個体の値は検索によって出現したという意味で、全て1である。この場合、個体の平均値も中央値も1になるため、平均値や中央値を使用する分析は考えにくかった。これに替わって行われてきたのが、カテゴリーごとに算出した調整頻度による比較である。これはカテゴリーごとに個体数を合計し、カテゴリー間の比較が可能になるように語数を調整した値で、つまるところカテゴリーの合計数の比較である。しかし文書を観察単位とした分析法では、個体の観測値（変数）はそれぞれ異なるため、そのばらつきや分布を考慮に入れた平均値や中央値の分析も可能になる。このため、このような代表値による分析の有効性を検討してみることが必要である。

これらの分析によって言語学的に意味のある頻度差が見つかった場合、その次に求められるのは、その頻度差がそのコーパスだけに限定される違いなのか、それとも母集団でも成立している違いなのかを推測する統計的検定であろう。コーパス言語学では、カイ二乗検定がこれまで最も多く使用されてきた。しかし、従来の単語や文などの言語単位を観察単位とした分析法では、独立性の仮定を満たしていないため、有効な検定ができないと考えられる。このため、文書を観察単位とした場合、従来のカイ二乗検定の問題が克服できるかどうかを検討し、コーパス分析に有効なカイ二乗検定の方法を明らかにする必要がある。

言語学的に意味のある頻度差が母集団でも成立する可能性が高いと判断できた場合、

その次に求められるのは、そのような頻度差がなぜ生じているのかという因果関係の解明だと思われる。相関関係に基づいて行われる回帰分析は、このような因果関係の解明で最も多用されている分析法である。このため、回帰分析においても、従来の分析法のように言語単位を観察単位とするのがよいか、本研究のように文書を観察単位とするのがよいかという問題を検討し、コーパス分析で有効な回帰分析の方法を明らかにする必要がある。

以上のように、度数分布の観察から回帰分析までの方法が明らかになれば、文書を観察単位とした分析法の基礎ができあがる。このため、本研究においては、「文書分布と代表値の観察による有効な頻度差の発見（第 4、5章）→それが母集団でも成立する可能性の検定（第6章）→頻度差が生じる因果関係の解明（第7章）」という枠組みで研究を行うこととする。これらの分析では、それぞれ言語単位を観察単位とした従来の分析法と本研究が主張する文書を観察単位とした分析法のどちらが有効であるかについ

ドキュメント内コーパスの計量的分析法再考 (ページ 54-59)