回帰分析の方法 - コーパスの計量的分析法再考

本章では、コーパスを使用して統計学的にも言語学的にも有効な回帰分析を行う方法を検討する。回帰分析は、調査対象の相関関係に基づいて因果関係の解明を行う最も基本的な分析法の一つであり、コーパスを使用した言語分析においても積極的に活用することが望まれる。しかし、単語などの言語単位を観察単位とした場合、一つ一つの単語に頻度情報としての変数は存在しないため、個体レベルの回帰分析を行うことは難しい。

森（2011:50）では、相関分析の解説の中で「コーパス調査で相関を調べるというのは難しいため、アンケート調査か言語使用調査のデータを扱うことになる」と述べられている。このため、コーパスを使用して相関関係を観察する場合は、書籍や新聞などの出版媒体や、文学や哲学などのジャンルのように何らかのカテゴリーで頻度を集約し、集団レベルの相関係数を求める分析が行われている（石川・前田・山崎（編），2010:85-104）。

しかし、本研究の分析法では、個体レベルの回帰分析が可能になる。本章ではこれまでコーパス言語学で行われてきた集団レベルの回帰分析と、本研究が提案する文書を観察単位とした個体レベルの回帰分析の比較を行い、個体レベルの分析を行う重要性を示す。分析にはBCCWJ固定長・長単位データを使用する。

第1節では、集団レベルの回帰分析と個体レベルの回帰分析を比較し、これらが本質的に異なる分析であることを確認する。第2節では、集団レベルで分析すると、本当は相関がないのに相関があるかのように誤って推論する生態学的誤謬（Robinson，1950；

森，1987）や分割相関に配慮しない分析によって誤謬が起きる例を示す。第3節～第5 節では、文書を観察単位とすると、データのかく乱要因を避けるために変数を精緻化したり、文体分析に不向きな文書を除くことが可能になり、精度の高い回帰分析が行えるという個体レベルの分析法のメリットを示す。最後に第6節で、本節のまとめを述べる。

第1節集団レベルと個体レベルの回帰分析の違い

本節では、樺島（1955）に準拠して、集団レベルと個体レベルの回帰分析を行い、これらが本質的に異なる研究であることを確認する。第1.1項では、先行研究の分析例を通し、集団レベルと個体レベルの回帰分析の違いが認識されにくいことを述べる。第 1.2項では、樺島（1955）に準拠した分析を行うためのデータについて説明する。第1.3 項では、分析結果を検討し、集団レベルと個体レベルの回帰分析では、何がどのように異なるのかを観察する。

146 第1.1項先行研究と分析の目的

回帰分析は、集団レベルで行われる場合と個体レベルで行われる場合があるが、これらの分析レベルの違いは、簡単には認識されにくい。たとえば樺島（1955）と樺島・寿岳（1965:29）は、ともに日本語の品詞構成比率を扱った回帰分析の研究であるが、結論がよく似ているため、これらの研究の違いが簡単には認識されにくい。樺島（1955）

は、樺島（1954）の結果に追試を加え、名詞の比率を説明変数、他の品詞群の比率を目的変数として回帰分析を行った研究で、日本語の品詞構成比率には一定の傾向性が存在することを明らかにした。日本語の品詞グループの出現比率を定式化した数式は樺島の法則と呼ばれている。図7.1は樺島（1955）のデータを使用して描いた散布図と回帰直

（曲）線である。一方、これとよく似た研究に、樺島・寿岳（1965:29）の回帰分析がある。図 7.2は樺島・寿岳（1965:29）所載の図2.1と同様に、付表A（pp.219-222）に基づいて作成した散布図である²²。

図7.1 樺島（1955）第一表に基づく散布図図7.2樺島・寿岳（1965:219-22）

付表Aに基づく散布図

この二つの研究は、分析レベルが異なり、図7.1は集団レベル、図7.2は個体レベルの分析を行っている。樺島（1955）では、文章の種類というカテゴリー別に300文（和歌・俳句は118句）が無作為抽出され、カテゴリー別に計算された品詞比率が回帰分析に使用されている。これは、観察単位が文単位、分析レベルが集団レベルである。図 7.1 の散布図のマーカーは左から順に日常会話、小説会話、哲学書、小説地の文、自然科学書、和歌、俳句、新聞記事の品詞比率となっている。一方、樺島・寿岳（1965:29）

は100編の小説を観察単位とし、作品別の品詞比率を分析に使用している。これは観察

22 樺島・寿岳（1965:29）所載の図2.1は、付表Aに対し、ややマーカーの位置にずれが見られる。このため、図7.2は、樺島・寿岳（1965:29）所載の図2.1とは、若干形状が異なっている。

147

単位が小説の作品、分析レベルが個体レベルである。

この二つの分析は同じ品詞比率を扱ってはいても、分析の内容も結果も異なる。しかし、これらの論文で主張されている内容はよく似ている。

以上のように、條件を一定にした文において、名詞の百分率がわかれば、他の類別された品詞の百分率が算出できること、及び條件が異なる文を比較すると、名詞の百分率に差が見られることから、次の事が考えられる。

即ち、名詞の百分率をもつて、文章の特性を計る尺度となし得る（後略）

（樺島，1955:386）

この図からわかるように名詞 N の比率がわかれば，他の品詞の組がどのような比率をもつかはだいたい見当がつく．

また名詞は品詞中もっとも大きな比率をもつから，品詞比率の代表値として名詞の比率を使うことができる．（樺島・寿岳，1965:29）

樺島・寿岳（1965:29-36）では、集団レベルの分析である樺島（1963）²³の分析結果に基づいて、個別の小説作品の名詞比率が論じられており、集団レベルの分析と個体レベルの分析が特に区別されていない。このためか、先行研究の中には樺島の法則を、個体レベルの法則だと考えるケースが見られる。白井・三浦（2012）は、日本語の文書のジャンル分類に、品詞分布を使用した研究である。この中で、樺島の法則について「ジャンルによる品詞分布の特性を考慮していないため、当てはまりがあまり良くない」と述べられている。白井・三浦（2012）は、文書分類という個体レベルの研究を行っているのに、集団レベルの研究結果である樺島の法則を使用したため、「当てはまりがあまり良くない」という結論になったと思われる。

文書分類とは、文書のジャンル等を機械的に判定し、文書を分類する研究分野である。

文書の品詞比率は形態素解析技術によって機械的に求めることが可能だが、その文書が属するジャンルは、基本的には人間が読んで判断するしかない。それを機械的に分類できるようにするのが文書分類の研究目的である。白井・三浦（2012）では、図7.1のグラフを使用すれば文書のジャンル判定ができると考えたと思われるが、このような目的であれば、図7.2のような個体レベルのグラフを、小説以外のさまざまなジャンルでも

23 樺島（1954，1955）と同様の分析をもう一度行った研究である。

148

作成し、それら複数の回帰式から推定するのが妥当だと思われる。樺島の法則は、ジャンル平均という集団の分布を表しているため、同じジャンルの文書を数十～数百集めてその平均を出した時にはこのグラフに当てはまる可能性はあるが、一つの文書という個体レベルのジャンル判定が行えるような研究の枠組みにはなっていない。

このように、集団レベルの回帰分析と個体レベルの回帰分析は、類似した分析に見えても異なった研究であり、集団レベルの回帰分析を行ったからといって、個体レベルの因果関係が解明できるわけではない。

本節では、集団レベルの回帰分析と個体レベルの回帰分析では、何がどのように異なるのか、なぜ集団レベルの回帰式を使用すると、個体の判定精度が高くならないのかについて、樺島（1955）に準拠した簡易的な調査を行い、その仕組みを観察する。

第1.2項分析データの説明

分析には BCCWJ 図書館書籍の一部と新聞の固定長を使用する。言語単位は樺島

（1955）に合わせ、文節を基準として認定された長単位を使用する²⁴。樺島（1955）では1文単位でデータが集積され、300文の平均が使用されている。しかし、本節の分析目的は樺島（1955）の完全な追試ではなく、集団レベルと個体レベルの回帰分析の違いを観察することにあるため、これまでと同様に文書を観察単位とした分析を行う。

樺島（1955）では8種類のカテゴリーに分けた言語データが使用されているが、本節では「対話」379文書、「哲学」522 文書、「自然」642文書、「新聞」1,473文書の4 種類で観察を行う。「対話」は、国立国語研究所（2015）『BCCWJ 図書館サブコーパスの文体情報』（第1版）²⁵の分類に従い、図書館書籍に含まれている文書で対談やインタビュー、シナリオなど基本的に対話とみなせる文書を使用する。国立国語研究所（2015）

は、複数の研究者が図書館書籍の 10,551 文書を一つ一つ読んで判断した文体情報を付与したデータで、その詳細は柏野（2013）で紹介されている。哲学書、自然科学書は、

図書館書籍に付与された日本十進分類法（NDC）に従って認定し、名称は「哲学」、「自

24 山崎（2016:132）は「樺島（1954）（1955）には，品詞の計測に際して文節を使用したとする記載は見当たらない」という慎重な立場を取るが，樺島（1954:15）には「文節数＝自立語数」，「所謂自立語と総称される品詞（名詞・動詞・・・・）」とあり、樺島（2009:95）では樺島の法則の説明に「品詞を，橋本進吉が定義した文節に含まれる自立語を単位として判定し」とあるため、本研究では樺島（1954）とその追試である樺島（1955）は、文節に基づいた分析だと考える。

25 http://pj.ninjal.ac.jp/corpus_center/anno/の「サンプルに対する文体指標（sty）」の項目下で、

BCCWJ_LB_Stylistics-1.0.zipのファイルが公開されている。

ドキュメント内コーパスの計量的分析法再考 (ページ 151-190)