現代英語で書かれた文学作品の文体特徴の計量(1) : 語長分布と著者推定

全文

(1)Title. 現代英語で書かれた文学作品の文体特徴の計量(1) : 語長分布と著者推定. Author(s). 福田, 薫. Citation. 北海道教育大学紀要. 人文科学・社会科学編, 68(2): 13-22. Issue Date. 2018-02. URL. http://s-ir.sap.hokkyodai.ac.jp/dspace/handle/123456789/9697. Rights. Hokkaido University of Education.

(2) 北海道教育大学紀要（人文・社会科学編）第68巻第２号 Journal of Hokkaido University of Education（Humanities and Social Sciences）Vol. 68. No.2. 平成 30 年２月 February, 2018. 現代英語で書かれた文学作品の文体特徴の計量⑴ ― 語長分布と著者推定 ―. 福田薫北海道教育大学函館校言語科学研究室. Statistical Stylistic Analyses of Modern English Fictions ⑴: Word Spectrum and Authorship. FUKUDA Kaoru Department of Linguistic Science, Hakodate Campus, Hokkaido University of Education. 概要 Mendenhall（1901）やBrinegar（1963）などの研究を通して，当該テキストで使用されている語の長さの分布，すなわち「ワードスペクトル」が著者を推定する際に有力な手掛かりになりうることが指摘されている。本稿は，現代英語で書かれた文学作品を対象に，「ワードスペクトル」と呼ばれる文体項目に焦点を当て，この文体項目と著者推定の関係を統計的な観点から検討する。その結果，テキストのワードスペクトルを用いた書き手の識別や分類は一定程度有効ではあるものの，この文体項目だけでは精度の高い著者識別や分類にはなお不十分であることを指摘する。. １．はじめに. いて，後の計量文献学の端緒となったとされるメンデンホールの研究が紹介されている。Mendenhall. 経験的には，書かれた文章からその書き手を推. （1901）は，作品で使用されている語の長さの分. 定できることもある。書き手の本質が「ことばづ. 布が書き手に応じて特徴的な分布を示すことに注. かい」の上に何らかの形で反映されるからである。. 目して，いわゆる「シェイクスピア・ベーコン同. ただし，文章の表面に現れた文体上の特徴を手掛. 一作家説」を検討した。両者の著作とされるテキ. かりにしてその書き手をどの程度確実に推定でき. ストの「ワードスペクトル」を作成し，統計学の. るかは，科学的に追究されるべき経験的問題であ. 手法を用いて，同一人物説を否定した。. る。. 村上（1994:67-69）および村上（2004:57-61）. 村上（1994:55-57）や村上（2004:48-50）にお. では，Brinegar（1963）による著者推定の研究が. 13.

(3) 福田薫. 紹介されている。Brinegar（1963）もまた語長分. ピングにどの程度対応するか。語長分布は著者. 布の統計解析に基づいて，著者不明の『Q.C.Sレ. 分類にどの程度貢献するか。. ター』と呼ばれるテキストがアメリカの小説家. 以下，第2節では，本稿で使用するデータにつ. Mark Twainによって書かれたかどうかを検討. いて概述する。第3節以降では，上記の5点の検. し，否定的な結論を出している。. 討項目を順に取り上げることにする。検討の結果. Mendenhall（1901）やBrinegar（1963）など. として，語長分布は著者の推定に一定程度有効で. の研究を通して，テキストの語長分布，別名「ワー. あるといえる。しかし，文体特徴をとらえやすい. ドスペクトル」が著者推定の有力な手掛かりにな. と期待される文学作品といえども，著者の推定は. りうることが実証されてきた。特に，職業的作家. かなり複雑な問題であり，データとして語長分布. の文体は比較的安定しているため，書き手に特徴. のみを用いる分析では満足できる著者推定は達成. 的な語長分布が得られやすいだろうと予想でき. できないことを指摘する。. る。ただし，この文体項目がどの程度に信頼できる指標といえるかは，実際に多くのテキストで著者推定を行ってから，評価する必要がある。. ２．データ. そこで本稿では，現代英語で書かれた文学作品. この節では，本稿での分析で使用するデータに. を対象にして，各テキストの語長分布が著者の異. ついて説明する。. 同の判別や分類に対して，どれくらい妥当な結果. まず，対象のテキストは現代英語で書かれたテ. を与えるかを調査することにする。具体的な検討. キストのうち，語長分布が著者ごとに比較的安定. 項目は以下の5点である。. していると期待できる文学作品とする。対象とし. ⑴ Mendenhall（1901）では，語長分布の最頻. て選定したのは，表１に示すように，19世紀から. 値の異同を根拠にしているが，最頻値はどれく. 20世紀に活躍した11名の英米作家によって書かれ. らい著者識別に貢献するか。. た102作品である。. ⑵ Brinegar（1963）は，χ2乗適合度検定を用いて2つの語長分布の異同を判定している。比較的多くの著者によって書かれた作品を対象に. Carrol, Lewis (1832-1898) ５作品. したとき，語長分布のχ2乗検定は著者の異同. Alice’s Adventure in Wonderland, The Hunting of. 判定にどの程度有効であるか。. the Snark, Through the Looking-Glass, Sylvie and Bruno, A Tangled Tale. ⑶ χ2乗検定は，その性質上，標本サイズが大きくなると有意差が出やすい傾向がある。 Mendenhall（1901）やBrinegar（1963）は1,000 語あたりの語長分布データを用いているが，著者判定において高い正解率を得るには，どの程度の大きさの標本が必要か。 ⑷ Mendenhall（1901）やBrinegar（1963）では，１文字から13文字，および14文字以上の語長カテゴリを設定している。これらのうちどの語長カテゴリが著者識別にもっとも貢献すると言えるか。 ⑸ 語長分布データに基づいて，個体テキスト間の距離を2次元に配置したとき，著者のグルー. 14. 表１対象作品のリスト. Christie, Agatha (1890-1976) ２作品 The Mysterious Affair at Styles, The Secret Adversary Conrad, Joseph (1857-1924) 12作品 The Arrow of Gold, Heart of Darkness, Amy Forster, Lord Jim, The Nigger of the Narcissus, Nostromo, An Outcast of the Islands, The Secret Agent, To-morrow, Typhoon, Victory, Under Western Eyes Dickens, Charles (1812-1870) 10作品 A Tale of Two Cities, Bleak House, A Christmas Carol, David Copperfield, The Old Curiosity Shop, Little Dorrit, Great Expectations, Hard Times, Our Mutual Friend, The Pickwick Papers.

(4) 現代英語で書かれた文学作品の文体特徴の計量⑴. Doyle, Conan (1859-1930) 12作品 The Adventures of Sherlock Holmes, The Hound. したテキストを電子化して公開しているWEBサイトから入手することができる。それらのファイ. of the Baskervilles, The Adventure of the Dying Detective, His Last Bow, Memoirs of Sherlock Holmes, The Parasite, The Captain of the Polestar, The Return of Sherlock Holmes, The Sign of the Four, A Study in Scarlet, The Valley of Fear. ルをダウンロードした後，作品本文以外の部分を. Hardy, Thomas (1840-1928) 12作品. て，１から13文字，および14文字以上の語長カテ. A Pair of Blue Eyes, The Mayor of Casterbridge, Under the Greenwood Tree, Jude the Obscure, A Laodicean: A Story of To-day, The Son’s Veto, Far from the Madding Crowd, Desperate Remedies, The Return of the Native, Tess of the D’Urbervilles, Two on a Tower, The WellBeloved. ゴリに属するトークンの頻度を集計した。. James, Henry (1843-1916) 10作品 The Ambassadors, The American, The Aspern Papers, The Beast in the Jungle, Daisy Miller, The Europeans, What Masie Knew, The Portrait of a Lady, The Turn of the Screw, The Wings of the Dove Joyce, James (1882-1941) ４作品 Chamber Music, Dubliners, A Portrait of the Artist as a Young Man, Ulysses. 手作業で除去した。次に，本文中で使用されているすべてのトークン（表層語）を切り出し，それぞれのトークンを構成する文字の数をカウントし. 次に，対象作品のサイズ，すなわち，総語数が異なっていても分布を比較できるように， Mendenhall（1901）やBrinegar（1963）などの先行研究に倣って，作品全体の語長分布を1,000 語当たりに換算した。テキストからトークンの切り出し，文字数のカウント，語長カテゴリの頻度集計，および1,000語当たりの語長分布への換算は，いずれも，プログラミング言語ＡＷＫで書かれたスクリプトを作成して，作業を行った。下の表2は，語長分布データの一部で，表1における最初の3作家による最初に挙げられている作品のデータである。. Melville, Herman (1819-1891) 10作品 Bartleby the Scrivener, The Confidence-Man: His Masquerade, I and My Chimney, Israel Potter, Moby Dick, Omoo, The Piazza Tales, Pierre, Redburn, His First Voyage, Typee. 表２対象作品の1,000語当たりの語長分布データ. Twain, Mark (1835-1910) 12作品. Carrol01. Christie01. Conrad01. １文字語. 39.58. 51.79. 56.53. ２文字語. 156.71. 182.90. 179.63. ３文字語. 258.00. 229.84. 220.94. ４文字語. 214.42. 179.82. 184.90. ５文字語. 126.19. 94.62. 105.64. ６文字語. 75.08. 82.55. 73.88. ７文字語. 61.64. 60.64. 62.10. ８文字語. 28.65. 41.84. 41.69. ９文字語. 17.67. 30.87. 29.54. Wodehouse, P.J. (1881-1975) 13作品. 10文字語. 7.49. 22.55. 19.22. The Man with Two Left Feet, Three Men and a Maid, The Adventures of Sally, Love among the Chickens, A Damsel in Distress, Death at the Excelsior, Mike: A Public School Story, My Man Jeeves, Piccadilly Jim, Psmith in the City, Right Ho, Jeeves, Something New, Uneasy Money. 11文字語. 4.87. 8.46. 8.99. 12文字語. 2.06. 7.59. 5.68. 13文字語. 0.67. 2.63. 3.24. 14文字以上の語. 6.96. 3.91. 8.00. 計. 999.99. 1000.1. 999.98. A Connecticut Yankee in King Arthur’s Court, A Double Barrelled Detective Story, Huckleberry Finn, Innocents Abroad, The Prince and the Pauper, Tom Sawyer Abroad, Tom Sawyer Detective, The Stolen White Elephant, The Mysterious Stranger, The Adventures of Tom Sawyer, The Tragedy of Pudd’nhead Wilson, A Tramp Abroad. これらの作品は，Project Gutenberg（www: Gutenberg. org）をはじめとする，著作権の消滅. 表2のように，分析のもととなる語長データは，. 15.

(5) 福田薫. 語長カテゴリ14行と対象作品102列からなる，表. 13と比較して増加を示すことが多い。. 形式のデータである。このデータを統計解析環境. 実際に，表1に挙げた102作品の語長分布デー. Ｒ（バージョン3.2.2）上に読み込んで，その後の. タにおける最頻値の分布を調べたところ，実に. 統計解析を行った。. 101作品（99%）において語長3の語が最も多く使用されていた1。このことは，対象作品がまさし. ２．語長分布の最頻値. く現代英語の語彙を使って書かれているゆえに，現代英語での高頻度語の語長が語長分布の最頻値. すでに第１節で触れたように，Mendelhall. を占めるのは当然の結果といえる。この結果から. （1901）は「シェイクスピア＝ベーコン同一人物. すると，少なくとも現代英語で書かれた作品に関. 説」を検証する際に，両者によって書かれた作品. しては，語長分布の最頻値が著者の異同を判定す. の語長分布を調べた。その結果，シェイクスピア. る際の有力な手掛かりとはなりえないことは明白. 作品の語長の最頻値が4，ベーコン作品では3で. である2。. あることから，同一著者説を否定した。この節では，語長分布の最頻値データが著者の異同を判断する際に有効であるかどうかを検討していく。. ３．χ2乗適合度検定. 下の図1は，表2の3作品（Carrol01， Christie01，. Brinegar（1963）は，χ2乗適合度検定を用い. Conrad01）における語長分布を示したグラフで. て，Mark Twainの著作と『Q.C.S.レター』の語. ある。図1が示すように，現代英語で書かれた散. 長分布の異同を判定している。χ2乗適合度検定. 文の場合，語長分布の最頻値が3であることが多. では，一方の語長分布をモデル分布に見立て，も. い。これは，定冠詞のthe，前置詞のfor，接続詞. う一方の語長分布がモデル分布から得られる確率. のandやbut，代名詞のyouやsheをはじめとして，. を求めて，有意に異なるかどうかを判断する。. 現代英語における最上位の高頻度語の多くが3文. Brinegarの研究では比較の対象は2つの作品群だ. 字語で占められるからである。図１の語長分布が. けであったが，本稿では比較的多くの著者によっ. 典型的に示すように，語長1から語長3まで急な. て書かれた作品を比較の対象とする。以下では，. 上昇を示すが，語長3から語長6まで対称的な急. 語長分布のχ2乗検定を多くの作品に適用したと. 降下を示し，語長6以降は徐々に下降していく。. き，この手法が著者の異同判定にどの程度有効で. 「語長14以上」は合成カテゴリであるため，語長. あるかを検討してみたい。本稿では11名の作家による102作品の語長分布データを検定の対象にするが，102作品から2作品を選ぶ組み合わせは，102C2=5,151通りである。表1に示すように，対象作品の数が作家ごとに異なるため，同一作家による2作品の組み合わせは 494通り，別作家による2作品の組み合わせは. 1 唯一の例外は，JoyceのChamber Musicで，最頻値は語長４であった。対象作品の中で唯一の韻文作品である。 2 書かれた時代の異なる作品や異なる言語で書かれた作品を比較するときには語長の最頻値が有効になるかもしれないが，その場合でも，他の指標に比べて重要. 図１３作品の語長分布グラフ. 16. な情報を提供するとは考えにくい。.

(6) 現代英語で書かれた文学作品の文体特徴の計量⑴. 4,657通りとなる。. 表４標本数の変化と一致・不一致数の変化. 102作品の1,000語当たりの語長頻度データから. 実際に同一（494件）実際に別（4,657件）. 選び出した2作品のデータに対してχ2乗検定を. 標本数. 一致. 不一致. 一致. 不一致. 総当たり方式で適用し，有意水準５%レベルで語. 1,000. 419. 75. 1,123. 3,534. 長分布間に有意差があるかどうかを判断した。す. 2,000. 324. 170. 2,349. 2,308. なわち，χ2乗検定の結果得られた p値が0.05未満. 3,000. 243. 251. 3,167. 1,490. 4,000. 190. 304. 3,627. 1,030. 5,000. 159. 335. 3,965. 692. であれば「別作家」，p値が0.05以上であれば「同一作家」によって書かれたと判断した。下の表3 は，そのような判断が実際の作家の異同と合致する，あるいは合致しない数を集計したものである。. 検定による有意差判定が実際の作家の異同と一致した回数を，パタンごとに示している。. 表３ 1000語当たり語長分布のχ2乗検定の結果. 表４から，実際が同一作家である場合，標本数の増加により実際と一致する（正予測）数が減少. χ2乗検定の結果実際. 同一作家. 別作家. 計. し，不一致（誤予測）数が徐々に増加することが. 同一作家. 419（84.8%）. 75（15.2%）. 494. 読み取れる。逆に，実際は別作家である場合の判. 別作家. 3,534（75.9%） 1,123（24.1%）. 4,657. 断は，標本数の増加に伴って一致数が増加し，不. 計. 3,953（76.7%） 1,198（23.3%）. 5,151. 一致数が減少していく。図2は，標本数の増加につれて，全体の一致率，同一作家2作品の場合の. 表3のカッコ内の数字は行合計に対する割合を. 一致率，および別作家2作品の場合の一致率の推. 示す。これらの数字が示すように，同一作家によっ. 移を図示したグラフである。. て書かれた2作品に対するχ2乗検定の結果は，一致率が比較的高い（84.8%）。他方，χ2乗検定は，実際は別作家による2作品を正しく識別できない割合が高い（75.9%）。つまり，今回の調査では別作家による作品が多い（90.4%）が，本来なら別作家の作品と判断されるべき作品がχ2乗検定ではそのように判断されないことが多い（76.7%）。その結果，全体としての一致率は3割程度（29.9%）に過ぎない。. ４．検定力と標本数. 図２標本数の増加と一致率の変化. まず，語長分布の標本サイズが大きくなるに伴って，χ2乗検定の結果，別作家の作品と判断. 図2から明らかなように，全体の一致率の上昇. される割合がどのように増加し，実際との一致率. は，別作家2作品の比較における一致率の上昇を. がどのように変化するかを調べた。. 反映している。今回の調査において，比較対象の. 具体的には，標本数を1,000語から5,000語まで. 2作品が別作家である事例の割合が圧倒的に多い. 1,000語刻みに5セットの語長頻度データを準備. （5,151件中4,657件で90.4%）。このため，標本数. し，2作品総当たり方式で，有意水準を５％に設. が増えてχ2乗検定における有意差が感知されや. 定してχ2乗検定を実行した。下の表4は，χ2乗. すくなると，結果的に正解数が増えていく。. 17.

(7) 福田薫. 実験や調査を遂行するには様々な制約が存在す. 次に，標本効果量として上の値を想定した場合. るので，検出力や有意水準を保ちながら検定を行. の，語長分布に対するχ2乗検定の検定力を求め. うための最小標本サイズを予め定めておくことが. る。pwrパッケージのpwr.chisq.test関数の引数. 実際的見地からは重要である。豊田（2009）は，. ̂ として，w=0.12908，標本数 N =1,000，自由度. 検定のタイプごとに実例を挙げながら，検定力分. df =13，有意水準α=0.05を与えると，検定力. 析の重要性を論証している。具体的な手順は，は. power=0.7645629が得られる。達成すべき検定力. じめに標本から効果量を推定し，次にその効果量. の目安が0.8とされているので，ほぼ満足すべき. を想定した場合に必要となる最小の標本サイズを. 検定力をもっていると推定される。言い換えると，. 算出する。. 効果量として0.12程度を想定できるならば，有意. χ2乗適合度検定の検定力分析では，帰無仮説. 水準0.05で検定力0.8を達成するためには1,000語. と対立仮説となるそれぞれの分布の比率データに. の標本数があればよいといえる。. 基づき，効果量を算出する。これを語長分布のχ2 ̂ 乗適合度検定に当てはめると，標本効果量wは次の式で算出される。. ５．語長カテゴリと残差分析今回の調査では，先行研究に倣って，1文字か. ∑ m. ̂ w＝ . i=1. 2 ̂1i−P0 i）（P χ2値＝ P0 i 総度数. . （豊田 2009:91）. ら13文字，および14文字以上の語長カテゴリを設定した。この節では，これら14個の語長カテゴリのうちどのカテゴリが著者識別に貢献しているかを検討してみたい。. 上の式において，P0 iはモデルとみなされる作. 一般に，大きなばらつきを示す集団は，ばらつ. 品におけるm個の語長カテゴリの比率データを表 ̂0 iは比較する別作品における対応する比率し，P. きの小さい集団よりも，そこに属する個体を識別. データを表す。. 長カテゴリが著者識別に有用な指標であるといえ. 豊田は統計解析環境R上で利用できるpwrパッ. る。下の図3は，語長カテゴリごとのばらつきに. ケージを開発して研究者向けに公開している。こ. 関しておおよその様子を図示した箱ひげ図であ. こでは，pwrパッケージ内のES.w1関数を用い. る4。. しやすい。この意味で，大きなばらつきを示す語. て，標本効果量を算出した。例えば，表2に掲載した3作品の語長分布データから標本効果量を計 ̂ 算すると，Carrol01とChristie01では w＝0.20245， ̂ Carrol01とConrad01では w＝0.16845，Christie01 ̂ とConrad01では w＝0.12908という値が得られた。このように，比較する2作品に応じて効果量の値が変動するので，ここでは暫定的に3つの中での ̂ 最小値であるw＝0.12908を語長データの標本効果量とみなすことにする3。. 3 豊田（2009）によると，コーエンは0.1，0.3，0.5を. 図３ 1,000語当たり語長分布における語長カテゴリの箱ひげ図. それぞれ効果量小・中・大の慣習的基準して提案している。この目安に従うと，効果量0.129という値は小と中の中間程度の大きさに該当する。. 18. 4 図３の箱ひげ図において，箱の中の太い線は中央値，箱の上辺と下辺はそれぞれ75％点と25％点の値，ひげ.

(8) 現代英語で書かれた文学作品の文体特徴の計量⑴. 図3を見ると，語長2，３，4のデータが比較. このことから，文字数の多い，長い語は，作品. 的大きくばらついているように見受けられる。し. の中で使用される頻度や全体の中での割合は少な. かし，これらの語長カテゴリにおけるばらつきの. いけれども，これらの語の使用割合は作品やその. 大きさはもともと中央値や平均値が比較的大きい. 著者の特徴をよく示す指標と考えられ，著者識別. ために生じているので，平均値の異なる他の語長. において有効であると考えられる。. カテゴリよりもデータの変動が大きいとは限らな. 上の推定の妥当性を検証するために，χ2乗検. い。. 定の残差を分析することにする。第3節では，. そこで，1,000語当たりの語長分布データにつ. 1,000語当たりの語長分布データから，2作品の. いて，語長カテゴリごとに，平均値，標準偏差，. 語長分布が全体として有意に異なるかどうかを判. 変動係数の値を求め，その結果を表5に示した。. 定するためにχ2乗適合度検定を実施した。包括. 標準偏差は集団内のばらつきの大きさを表す指標. 的検定であるχ2乗検定の結果が有意であるとき，. である。変動係数は，標準偏差を平均値で除した. 各セルの残差の大きさを分析することによって，. 値で，平均値が異なる集団同士でばらつきの大き. どのセルが有意判定に貢献しているかを調べるこ. さを比較できるようにした値である。. とができる。残差の種類の一つとして標準化残差. 表5を見ると，たしかに語長2，３，4のカテ. があり，その値は次の⑺式で算出される。. ゴリはもっとも大きな標準偏差を示すが，それらの変動係数の値はもっとも小さい。語長6以降では，語長が長くなるにつれて変動係数の値が大きくなり，14文字以上の語において最大となってい. （observed−expected） ⑺ standardized residue＝ √residuecell variance . （Agresti 2007:38）. る。この標準化残差は，従来のピアソン残差よりも表５語長分布の平均，標準偏差，変動係数. 標準正規分布によりよく近似することが知られて. 語長. 平均値. 標準偏差. 変動係数. いることから，Agresti（2007:38）はこれを用い. １文字語. 43.2. 9.3. 0.22. て残差分析を行うことを推奨している。つまり，. ２文字語. 175.5. 11.2. 0.06. あるセルの標準残化を算出して，その絶対値が. ３文字語. 233.5. 15.0. 0.06. 1.96以上であれば，そのセルは帰無仮説から期待. ４文字語. 185.2. 12.4. 0.07. ５文字語. 108.9. 8.3. 0.08. される値と有意に異なり，分布全体の有意差に貢. ６文字語. 79.1. 4.6. 0.06. ７文字語. 63.2. 6.7. 0.11. ８文字語. 41.0. 5.8. 0.14. ９文字語. 28.3. 5.6. 0.20. 10文字語. 16.9. 4.3. 0.25. 11文字語. 9.2. 3.3. 0.35. 12文字語. 5.7. 2.7. 0.47. 準化残差の値が得られた5。. 13文字語. 3.1. 1.8. 0.57. 標準化残差は，信頼性の高い，客観的な判定基. 14文字以上の語. 7.2. 12.7. 1.76. 献していると判断できる。たとえば，Carrol01の語長分布をモデルと想定したとき，χ2乗検定を用いてChristie01あるいは Conrad01の語長分布の適合度を判定すると，いずれも５％レベルで有意であった。この結果を受けて残差分析を行ったところ，表6に示される標. 準を提供するという点で有用である。というのは，. 5 Christie01とConrad01の語長分布は，χ2乗適合度検の長さは箱の縦の長さの1.5倍の位置，ひげの先にある. 定の結果有意でなかったため，事後検定としての残差. 点ははずれ値を示す。. 分析を行っていない。. 19.

(9) 福田薫. 第2節で提示した表1の生データや図2のグラフ. 表７残差分析の結果：有意判定の回数と割合. からは，比較する作品のどの語長カテゴリの頻度. 語長. 有意回数. 割合（%）. に有意な差があるのかを見分けるのはきわめて難. １文字語. 287. 24.0. しい。これに対し，表6の標準化残差の値を読み. ２文字語. 119. 9.9. 取ることにより，Carrol01とChristie01の比較で. ３文字語. 318. 26.5. は語長5と語長10にみられる差が有意であること. ４文字語. 232. 19.4. が判断できる。同様に，Carrol01とConrad01の. ５文字語. 95. 7.9. 比較では，語長10での差が顕著であり，これを根. ６文字語. 1. 0.1. 拠にして別作家であるとの判定につながると言え. ７文字語. 147. 12.3. る。. ８文字語. 211. 17.6. ９文字語. 382. 31.9. 10文字語. 357. 29.8. 11文字語. 347. 29.0. 12文字語. 261. 21.8. 13文字語. 211. 17.6. 14文字以上の語. 745. 62.2. 表６ Carrol01との残差分析語長. 標準化残差. 標準化残差. Christie01. Conrad01. １文字語. 1.27. 1.76. ２文字語. 1.53. 1.36. ３文字語. -1.48. -1.95. ４文字語. -1.93. -1.63. ５文字語. -2.23. -1.40. ６文字語. 0.65. -0.09. ７文字語. -0.10. -0.01. ８文字語. 1.56. 1.57. ９文字語. 1.87. 1.75. 10文字語. 2.94. 2.37. 11文字語. 0.83. 1.07. 12文字語. 1.90. 1.42. 13文字語. 1.00. 1.00. 14文字以上の語. -0.91. 0.26. これは，比較的に文字数の多い，長い語の使用頻度の差が作品の識別に有用であることを示している。同時に，語長3と語長4のような，平均頻度の高い語長カテゴリは，変動係数から判断すると作品の識別にそれほど有効と考えられなかったけれども，残差分析の結果を踏まえると，作品の識別に有力に貢献していると言える。. ６．語長分布による作品分類これまでの節では，作品の語長分布から著者を. そこで，標準化残差を用いて，どの語長カテゴ. 識別することを念頭において，データの検定に主. リが別作家判定にもっとも貢献するかを調査し. 眼を置いて論じてきた。この節では，語長分布デー. た。すなわち，語長分布データのχ2乗検定にお. タを集約することで作品を分類することを行い，. いて有意差があると判定されたケース（1,198件）. それが著者の推定に有効であるかどうかを検証し. において，引き続き残差分析を行った。有意水準. てみたい。. 5％で標準化残差の値が有意である語長カテゴリ. 金（2009）では，多数の調査項目に関して収集. を特定し，語長カテゴリごとに有意となった回数. されたデータを集約する統計的手法が紹介されて. を集計した。表7は，集計の結果をまとめたもの. いるが，ここでは，そのうちの一つである多次元. である。. 尺度法を用いて，語長分布データを集約して作品. 表7の数値を見ると，14文字以上の語のカテゴ. の分布パタンを探ることにする。. リの値が際立って高い。加えて，9文字語から13. 多次元尺度法（Multi-Dimensional Scaling, MDS）. 文字語のカテゴリも比較的高い値を示している。. とは，個体間の親近性データを2次元，あるいは. 20.

(10) 現代英語で書かれた文学作品の文体特徴の計量⑴. 図４語長分布データによる102作品の分布（多次元尺度法）. 3次元空間に，類似したものを近く，そうでない. （TW）はほぼ第3象限に，Jamesの作品（JM）. ものを遠くに配置することにより，データの構造. は第2象限に，Melvilleの作品（ME）は第1と. やパタンの形成などを推察する方法（金 2009:97）. 第4象限に，Doyleの作品（DO）はほぼ第1と. である。この手法では，まず，データの個体間の. 第4象限に，Joyceの作品（JY）は第3と第4象. 類似度，あるいは距離を求め，次に，その距離デー. 限に分布する。. タを２～３次元平面上にプロットする。. 図4における作品の配置は，作品と作家の間の. 本稿では，102作品の1,000語当たり語長分布. どんな関係を示唆しているだろうか。図の左端に. データを対象として，Rのstatパッケージで提供. は語長3と4の使用頻度が高いCarrolやTwainの. されているdist関数を利用して，データ個体間の. 作品が，図の上端には１文字語の使用頻度の高い. ユークリッド距離を算出した。次に，同パッケー. DoyleやDickensの作品が，また図の右側には10. ジのcmdscale関数を用いて，その距離データを. 文字以上の長い語が多く使用されるHardyや. 2次元上の座標軸データに変換した。図4は，各. Melvilleの作品が，それぞれ，位置しているよう. 作品の座標軸データをプロットした散布図であ. に見受けられる。. 6. る。作家ごとのグルーピングが形成されているかどうかを見るために，図4では，各作品の座標上にその著者名（アルファベット2文字）を表記している。図4から観察できることは，第１に，作品の位置から作家ごとのグルーピングが明瞭には読み取. 6 Wodehouseの作品（WD）は，図４において広い範囲にわたって分布している。特に，図４の右下にある作品（Right, Ho, Jeeves）では語長14以上の頻度が特. れないことである。特に，図の原点付近（-20か. 異的に多いが，それは“1-2-3-4-5-6-7-8-9”のような，. ら+20の範囲）には，異なる作家の作品が雑然と. 数字とハイフンの連鎖からなる，特殊な形式のトーク. 入り混じっているように見える。しかし，第2点として，作家ごとに見ると，いくつかの特徴的な配置が認められる。たとえば，Twainの作品. ンが多用されているためでる。その結果として，⒤数字を語構成文字に含めるかどうか，ⅱ語長分布の多様性あるいは不安定性を作家の文体上の特徴とみなすかどうか，という扱いのむずかしい問題を提起する。. 21.

(11) 福田薫. ７．結びにかえて本稿では，作品の語長分布データの分析が作家の識別や分類の問題にどの程度有効であるかを検討してきた。本稿で行った調査と分析，およびその結果に対する考察は，両面的に評価されるであろう。一面では，書かれた作品の文体特性から作家を識別するのは複雑で困難な作業であり，語長分布を用いる分析は満足できる結果を生み出せないと言える。他方，それでもなお，語長分布データに基づく作家の識別や推定は一定程度有効であることが実証されたとも言える。いずれの場合でも，今後に残された課題のひとつは，語長分布だけでなく，他の文体項目のデータも同時に取り込むことによって，作家の識別と推定の精度を改善，向上させていくことであろう。複数の文体項目データを用いて著者推定を行うこと，および，そうすることで達成される精度の向上を正確に測定し評価する方法に関しては，次の機会に検討することにしたい。. 参照文献 Agresti, A. (2007) An Introduction to Categorical Data Analysis, 2nd edition, New York: John Wiley and Sons. Brinegar, C. S. (1963) “Mark Twain and the Quintus Curtius Snodgrass letters: A statistical test of authorship,” Journal of the American Statistical Association, 58 (301), 85-96. 金明哲（2009）『テキストデータの統計科学入門』，東京：岩波書店。 Mendenhall, T. C. (1901) “A mechanical solution of a literary problem,” Popular Science Monthly, 60 ⑵, 97105. 村上征勝（1994）『真贋の科学』，東京：朝倉書店。村上征勝（2004）『シェイクスピアは誰ですか？―計量文献学の世界』，東京：文藝春秋。豊田秀樹（2009）『検定力分析入門―Ｒで学ぶ最新データ学』，東京：東京図書。. （函館校教授）. 22.

(12)