現代英語で書かれた文学作品の文体特徴の計量⑵ : 複数の指標を用いた著者判定

全文

(1)Title. 現代英語で書かれた文学作品の文体特徴の計量⑵ : 複数の指標を用いた著者判定. Author(s). 福田, 薫. Citation. 北海道教育大学紀要. 人文科学・社会科学編, 71(2): 63-75. Issue Date. 2021-02. URL. http://s-ir.sap.hokkyodai.ac.jp/dspace/handle/123456789/11721. Rights. Hokkaido University of Education.

(2) 北海道教育大学紀要（人文科学・社会科学編）第71巻第2号 Journal of Hokkaido University of Education（Humanities and Social Sciences）Vol. 71, No.2. 令和 3 年 2 月 February, 2021. 現代英語で書かれた文学作品の文体特徴の計量⑵ ― 複数の指標を用いた著者判定 ―. 福田薫北海道教育大学函館校言語科学研究室. Statistical Stylistic Analyses of Modern English Fictions ⑵: Authorship Detection Using Multiple Style Indices. FUKUDA Kaoru Department of Linguistic Science, Hakodate Campus, Hokkaido University of Education. 概要 11名の作家によって書かれた現代英語の文学作品102テキストを対象にして，複数項目の文体指標を用いて著者推定を行うと単数の項目の場合よりも推定精度が向上するかどうかを検証する。比較の方法として，多次元尺度法によって対象作品を2次元平面上に散布したときに，同一作家の作品を結んでできる多角形の面積を計測し，また，その作品多角形の外側に位置する他作家の作品数を計数する。作品多角形の面積比率と，外側作品数の比率の差を統計的に検定した結果，いずれの比較方法においても，総じて，単項目のデータを用いる分析よりも，多くの項目を用いる分析の方が著者推定の精度が高まることを報告する。同時に，今後の研究に向けて，解決すべき課題を指摘する。. 1.はじめにテキストで使用される語の文字数の分布はワードスペクトラムと呼ばれ，Mendenhall (1901) や. 度まで正しく著者を推定できるかを調査した。その結果，一定程度の有効性が見られるものの，精度の高い著者識別や分類には不十分と考えられると指摘した。. Brinegar (1963) などの研究を通して，その有用. 一つの文体指標を用いる著者推定には一定の限. 性が実証されてきた。前稿の福田(2018）におい. 界があるように思われる。前稿の末尾に記したよ. て，私はこの語長分布という文体特性を使って，. うに，著者推定の際に用いる文体指標の数を一つ. 11人の作家によって書かれた102の現代英語の文. ではなくて複数にすると，推定精度の向上を期待. 学作品を対象にして，この文体指標だけでどの程. できるかもしれない。. 63.

(3) 福田薫. 語長スペクトラムの他にも，文体上の特徴を計測するための指標が提案されてきている。たとえ. 2.調査の目的と方法. ば，テキストを構成する文の長さの分布を分析す. この節では，今回の調査の目的，調査の対象，. ることもできよう。テキストの一定範囲内に使用. 調査で用いる文体指標の内容，および，単項目デー. されている異なり語の数から，語彙の豊富さを測. タを用いる著者推定のモデルと多項目データを用. 定することができるだろう。テキスト中の語を名. いるモデルの精度を比較する方法について説明す. 詞，動詞，形容詞，副詞などの品詞に分類して，. る。. その使用割合を測れば，有用な文体指標となるだ 2.1 調査の目的. ろう。特定の語彙の使用頻度のほかに，疑問文，否定. テキストの著者推定を行う際，一つの文体指標. 文，感嘆文などの文の使用頻度や，受動文，従属. だけを調査項目として用いる分析を単項目モデル. 副詞節，関係節などの統語的な構文の使用頻度も，. と呼び，複数の文体指標を用いる分析を多項目モ. 1. 文体を特徴づける指標となりうるだろう。. デルと呼ぶことにする。本調査の目的は，両モデ. そこで本稿では，複数の文体指標を用いて著者. ルによる著者推定の結果を比較し，多項目モデル. 推定を行うと，一つの指標を用いる場合と比較し. が単項目モデルよりも推定精度が高いと言えるか. て推定の精度が実際に向上するのかどうかを検証. どうかを検証することである。使う物差しの数が. してみたい。精度の向上が観察されるとすればど. 多いほど精度の良い結果が得られるのは一見する. の程度であるか，また，用いる指標の数と精度の. と自明であるようにも見える。たしかに，人の認. 向上がどのように関連するかを量的に測定してみ. 識においては目元だけで判断するよりも，背丈や. たい。. 声の調子，歩き方，ことば遣いなど，多くの指標. 以下，第2節では，調査の目的と方法，特に，. を用いて総合的に判断する方が良いかもしれな. 今回の調査において使用する68項目の文体指標，. い。しかし，汗の匂いだけ，あるいは指紋の形だ. および，著者推定の精度を比較する方法について. けでその人と十分に正しく特定できることもあ. 説明する。第3節では，作品多角形の面積の比率. る。逆に，多くの指標を投入しても互いに打ち消. を比較した結果と，多角形の外側に位置する作品. しあって期待される効果を挙げられないこともあ. 数の比率を比較した結果を提示する。これらの分. りうる。したがって，これは実際に検証してみる. 析結果に基づき，多項目データを用いる著者推定. べき課題である。. は，実際に，単項目データを用いる場合よりも推定の精度がおおむね向上することを示す。第4節では，分析に用いる調査項目の数に応じて，著者. 2.2 調査の対象今回，調査の対象とするテキストは，前稿(2018）. 推定の精度がどのように変化するかを検討し，お. と同じく，11名の作家による現代英語で書かれた. およその傾向を提示する。第5節では今回の調査. 102の文学作品である。表1は対象作家と作品数. を要約し，あわせて今後の課題点を指摘する。. である2。. 2 前稿の福田(2018，pp.14-15)に作品名のリストを掲載してあるので，ここでは割愛する。「現代英語」 1 樺島・寿岳(1965，p.35)は，名詞の比率と名詞以. (Present-day English)は20世紀以降の英語と定義さ. 外の品詞間の比率に基づいて，日本語で書かれた文学. れるのが通例である。本稿で対象とするテキストの中. 作品を要約的な文章と描写的な文章に大別し，さらに. には19世紀後半に書かれた作品も含まれているけれど. 後者をありさま描写的な文章，動き描写的な文章に分. も，20世紀前半に書かれた作品との文法的な差異はほ. 類している。. とんどないので，これらを合わせて「現代英語で書か. 64.

(4) 現代英語で書かれた文学作品の文体特徴の計量⑵. 表1 調査対象テキストの作家と対象作品数作家名. 2.3 調査項目 Biber (1988) は，67項目の文体指標を設定し. 生没年. 作品数. Carrol, Lewis. 1832-1898. 5. て，話しことばや書きことがで書かれた各種の英. Christie, Agatha. 1890-1976. 2. 語テキストにおける頻度を調査し，因子分析を通. Conrad, Joseph. 1857-1924. 12. 1812-1870. 10. して話しことばと書きことばの間の変異を特徴づ. Dickens, Charles Doyle, Conan. 1859-1930. 12. Hardy, Thomas. 1840-1928. 12. James, Henry. 1843-1916. 10. Joyce, James. 1882-1941. 4. とにした。以下では，指標をカテゴリに分類して，. Melville, Herman. 1819-1891. 10. 各指標の内容について説明していく。. Twain, Mark. 1835-1910. 12. ⑴ 時制・相の標識（3項目）. Wodehouse, P. J.. 1881-1975. 13. けている。今回の調査では，おもにBiber (1988）と金(2008）を参照して，以下の68項目の文体指標を設定し，対象テキスト中の頻度を調査するこ. 対象テキスト1,000語あたりの，現在時制，過去時制，完了相の使用頻度。. これらの作品の電子化されたテキストをProject Gutenberg: Free Booksからダウンロードした 3. ⑵ 代名詞・代動詞の類（7項目）対象テキスト1,000語あたりの，1人称・2人. 後，いわゆるスモールプリントを除去して，残り. 称・3人称代名詞，非人称のit，指示代名詞，不. の本文テキストを分析の対象とした。今回の調査. 定代名詞および，do it, do that, do soの代動詞類. では，特定の品詞の使用頻度を集計するため，対. の使用頻度。Biber (1988, p.225) によると，1人. 象テキストに品詞タグを予め付与する必要があ. 称の使用率は話しことばと書きことばの比較のた. る。そこで，今回の調査では，Helmut Schmid氏. めに多くの研究で利用されている。また，3人称. 4. が開発したTree Taggerをダウンロードして，品. の多用は，語り(narrative）などの報告の文体. 詞タグ付けを行った。このソフトは付属の英語辞. の標識と見なしうる。. 書ファイルを参照しながら，Penn Treebank. ⑶ 名詞表現（4項目）. Project方式に沿って品詞タグ付けを行うもので 5. ある。. 対象テキスト1,000語あたりの，派生名詞，動名詞とそれ以外の名詞，およびすべての名詞形の. 品詞情報を付加した対象テキストに関して，次. 使用頻度。派生名詞の集計では，派生接辞 -tion,. 節で説明する68項目の文体指標の使用頻度を調査. -ment, -ness, -ance, -ence, -al, -ityが付加された. した。テキスト処理に優れたプログラミング言語. 派生名詞の単数，複数形を対象とする。これら. AWKによるプログラムを作成して，対象テキス. の派生名詞や動名詞表現は，概念化された高度な. トに含まれる調査項目を検索し，それぞれの使用. 抽象性を示す（Biber 1988, pp.228-9）。. 頻度を集計した。. ⑷ 動詞下位類（6項目）対象テキスト1,000語あたりの，be動詞の叙述的用法，存在のthere構文，公的動詞類，私的動. れた文学作品」と呼ぶことに大きな支障はないと思われる。. 詞類，勧誘動詞類，および繰り上げ動詞類の使用頻度。公的動詞(public verb）とは，agree, claim,. 3 https://www.gutenberg.org/. explain, reply, suggestなど，主に発話行為を表. 4 http://www.cis.unimuenchen.de/～schmid/tools/. す公的に観察可能な動詞の類であり，一方，私的. TreeTagger/ 5 開発者であるMitchell Marcus氏らによるタガーの. 動詞(private verb）とは，anticipate, decide, doubt,. 説明が下のWEBサイト上に公開されている。https://. expect, presumeなど，知的状態や観察できない知. catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html. 的活動を表す動詞の類である。勧誘動詞（suasive. 65.

(5) 福田薫. verb）とは，demand, desire, insist, require, urge. ⑺ 疑問文・否定文（4項目）. など，将来における何らかの変化を引き起こす意. 対象テキスト1,000語当たりの，Yes-No疑問. 思を含意する動詞類である。繰り上げ動詞（raising. 文，WH直接疑問文，および総合的no否定文，分. verb）とは，appear, seem, happenなど，理由付. 析的not否定文の使用頻度。疑問文は対人関係へ. 6. け過程に根拠があることを示す動詞である。. の配慮，相手との関与を示す（Biber 1988 p.227）。. ⑸ 法助動詞類（3項目）. 話ことばでは書きことばの約2倍多く否定文が使. 対象テキスト1,000語当たりの，3種類の法助動詞. 用される（Biber 1988, p.245）。総合的否定文は. の使用頻度。Biber（1988, pp.241-2）に従い，can,. 文語的でより統合的な文体を示す一方，分析的否. may, might, couldなどの可能性（possibility），. 定文は口語的で非計画的な文体の特徴を示す。. ought, should, mustなどの必要性（necessity），. ⑻ 受動文（2項目）. およびwill, would, shallなどの予測性（predictive）. 対象テキスト1,000語あたりの，動作主を表す. を表す法助動詞の使用頻度を集計する。. by句が現れる受動文とそれが現れない受動文の. ⑹ 前置詞・形容詞・副詞の類（12項目）. 使用頻度。受動文は書き言葉に典型的に多い構文. 対象テキスト1,000語あたりの，前置詞，叙述. と見なされ，多くの研究者が文体研究に利用して. 用法の形容詞，限定用法の形容詞，副詞全般，お. きている。. よび特定機能の副詞表現の使用頻度。特定の機能. ⑼ 補文と分詞構文（6項目）. を表す副詞類には，consequently, nevertheless,. 対象テキスト1,000語あたりの，WH間接疑問. for exampleなど，節の論理的関係を表わす接続. 文，to不定詞補文，現在分詞・過去分詞から始ま. 副詞（conjunct）の類，abroad, nearby, upstairs. る分詞構文，および名詞を後位修飾する現在分. などの場所を表す副詞表現，lately, presently,. 詞・過去分詞表現の使用頻度。埋め込み節は構造. soon, yesterdayなどの時を表す副詞表現のほか7，. 的複雑さを示し，書きことばに典型的な特徴と見. almost, merely, somewhatなど，動詞の効果を薄. なされている。. める働きをするdowntonerや，反対に，completely,. ⑽ 関係節（3項目）. highlyなど，動詞の効果を強める働きをする. 対象テキスト1,000語あたりの，主格thatで導か. amplifierの他，maybe, kind ofなど，命題を不確. れる関係節，主格whichで導かれる関係節，およ. 実なものとみなすhedge類や，just, really, for. び前置詞＋wh関係詞による随伴（pied piped）. sureなど，命題の確実さを強調するemphaticsお. 関係節の使用頻度。単純な決定辞つきの名詞句へ. よびwell, now, anywayなど，談話の一貫性を保. の言及は非計画的な談話で多いのに対し，関係詞. 8. つ働きをする標識が含まれる。. 付きの名詞句はより正確で明示的な言及を表し，話しことばよりも書きことばでより多く使用される。 ⑾ 副詞節（4項目）. 6 これら4つの類に属する動詞のリストはQuirk et al. (1985, p.1179ff) に記載されている。 7 場所を表す副詞表現はQuirk et al. (1985, p.514ff). 譲歩（though, although），条件（if）およびその. に，時を表す副詞表現はQuirk et al (1985, p.526ff) に，. 他の副詞的従属節の使用頻度。. それぞれリストされている。. ⑿ 語長と文長，語彙レベル（3項目）. 8 conjunctおよびdowntonerから談話標識までの副詞類は，発話命題に対する話し手の態度を表すので，態度副詞類（stance adverb）と呼ばれる。これらの副詞表現のリストはBiber (1988, pp.239-241) に記載されている。. 66. 対象テキスト1,000語あたりの，理由（because），. 対象テキストで使用されている語の平均文字数，および文の平均語数。語彙レベルは，ALC社の標準語彙水準SVL.

(6) (12) 語長と文長，語彙レベル（３項目）. る標識が. 対象テキストで使用されている語の平均文字数，および文の平均語数．. 現代英語で書かれた文学作品の文体特徴の計量⑵. 語彙レベルは，ALC 社の標準語彙水準 SVL12,000. 疑問文，. ，分析的. への配慮，. ことばで. 9 9 12,000を参照して，対象テキストで使用されていを参照して，対象テキストで使用されている語の. 項目モデルである。この節では，単項目モデルと. る語のレベルの平均値を算出する。レベルの平均値を算出する．. 多項目モデルにおける著者推定の精度を比較する. ⒀ 語彙の豊富さを示す指標（4項目） (13) 語彙の豊富さを示す指標（４項目）. ための2つの方法と手順を述べる。. 用される. のべ・異なり語数比（type-token ratio, TTR）：のべ・異なり語数比 (type-token ratio, TTR)：対象テ. でより統. キスト 400 語ごとの延べ語数 N と異なり語数 V の比対象テキスト400語ごとの延べ語数 N と異なり語. 語的で非. の平均値．数 V の比の平均値。. を表す by. まず，それぞれのデータを多次元尺度法で分析. ユールの (Yule’s characteristic K)：対象テユールのKK特性値特性値（Yule’s characteristic K）：. して，102の作品を2次元散布図上にプロットす. キスト中に xi 回使用される語を f i 個，延べ語数を N 対象テキスト中に x i 回使用される語を f i 個，延べ. る。多次元尺度法（Multi-deminsional Scaling,. とするとき，次の式で計算される値．語数を N とするとき，次の式で計算される値。. MDS）とは，金（2017，pp.97-106）によると，. の使用頻. � � 10�. と見なさ. ∑ 𝑥𝑥� � 𝑓𝑓� � 𝑁𝑁 𝑁𝑁 �. ギローの R)：延べ語数 N，異なり語数ギローのRR(Guiraud’s (Guiraud’s R）：延べ語数 N ，異な. ている．. V とするとき，次の式で算出される値．り語数 V とするとき，次の式で算出される値。. 接疑問文，. 𝑉𝑉 √𝑁𝑁. ��. まる分詞. ハーダンの C (Herdan’s C)：延べ語数 N，異なり語ハーダンの C (Herdan’s C）：延べ語数 N ，異数 V とするとき，次の式で算出される値．なり語数 V とするとき，次の式で算出される値。. ・過去分. 雑さを示. ��. に，時を表れリストさ. (14) 縮約形（３項目） ⒁ 縮約形（3項目）. 副詞類は，態度副詞類のリストは. log 𝑉𝑉 log 𝑁𝑁. 個体間の親近性データを2次元，あるいは3次元空間に，類似したものを近く，そうでないものを遠くに配置する方法である。今回の調査では，データ間の距離や類似性の計算，および2次元空間へのプロットの作業は統合的統計解析環境Rを用いて行った10。ここで問題となるのは，単項目モデルとして平均語長データを用いる場合，多次元尺度法によって2次元散布図の作成が事実上困難になることである。すなわち，入力された1種類のデータはほとんどX軸に反映される。このため，Y軸の値に. 対象テキスト 1,000 語あたりの，代名詞，助動詞対象テキスト1,000語あたりの，代名詞，助動. 変動がほとんどなく，図1のように，作品がほぼ. 詞（be動詞を含む），および否定辞notの縮約形の. 直線上に並ぶ。1次元のデータを2次元に散布す. https://www.alc.co.jp/vocgram/article/svl/ 使用頻度。縮約形の使用率は，レジスターに依存. ることは基本的に無理なのである。このため，同. して連続的に分布する。会話で最も多く，学術で. 一作家の作品の座標を結んで作品多角形を描くこ. 最もすくない，放送・演説・新聞記事はその中間. とがほぼ不可能である。. 9. 4. 2.4.1 作品多角形. に位置する（Biber 1988, p.243）。 ⒂ 品詞率（4項目）対象テキストの冒頭5,000語における名詞，動詞，形容詞，数詞の使用頻度を1,000語あたりに（be 動詞を含む），および否定辞 not の縮約形の使用換算した値。. そこで，単項目モデルを次のように修正する。すなわち，語長分布データの中から，語長4文字と語長14文字以上の語の，テキスト1,000当たりの使用頻度データを単項目モデルの代用として用無理なのである．このため，同一作家の作品の座標. 頻度．縮約形の使用率は，レジスターに依存して連続的に分布する．会話で最も多く，学術で最もすく 2.4 精度比較の方法. ない，放送・演説・新聞記事はその中間に位置する品詞タグ付けされた102の対象テキストに対. (Biber 1988, p. 243)．. し，68項目の文体指標に関する使用頻度データを. (15)作成した。これを複数の文体指標を用いる著者推品詞率（４項目）対象テキストの冒頭 5,000 語における名詞，動詞，定の多項目モデルとする。一方，精度比較の対象形容詞，数詞の使用頻度を 1,000 語あたりに換算しとなるのは，1つの文体指標，すなわち，102の対象テキストの平均語長のデータのみを用いる単た値．. 2.4 9 https://www.alc.co.jp/vocgram/article/svl/ 精度比較の方法. 図１１図１平均語長データのMDS散布図平均語長データの MDS 散布図 10 使用したRのバージョンは，R2. 13. 2である。を結んで作品多角形を描くことがほぼ不可能である．. 品詞タグ付けされた 102 の対象テキストに対し，. そこで，単項目モデルを次のように修正する．すな. 68 項目の文体指標に関する使用頻度データを作成し. わち，語長分布データの中から，語長４文字と語長. た．これを複数の文体指標を用いる著者推定の多項. 14 文字以上の語の，テキスト 1,000 当たりの使用頻. 67.

(7) に対し，. そこで，単項目モデルを次のように修正する．すな. を作成し. わち，語長分布データの中から，語長４文字と語長. 定の多項. 14 文字以上の語の，テキスト 1,000 当たりの使用頻. るのは，. 度データを単項目モデルの代用として用いる．語長. 軸に向かって. いる。語長4文字は語長分布の最頻値であり，語４文字は語長分布の最頻値であり，語長 14 文字以上. 垂線で，頂点. 下の図３は，図２の座標軸をを平行移動させた後11， C. Dickens の 10 作品の座標を結んで描画した作品多 12. 角形である．. 福田薫. キストの. 面積を求めるている．. 図４のよう. 長14文字以上の語の使用頻度は作品間の変動が大の語の使用頻度は作品間の変動が大きい．厳密な意きい。厳密な意味では，このデータは単項目モデ味では，このデータは単項目モデルというより，む. ルである．. における. ルというより，むしろ2つの文体指標を用いた多しろ２つの文体指標を用いた多項目モデルの一種と項目モデルの一種と考えられる。真の単項モデル考えられる．真の単項モデルのデータでは２次元散. 法と手順. のデータでは2次元散布図を作成できないという布図を作成できないという問題を避けるための措置問題を避けるための措置として，このデータを多として，このデータを多項モデルの比較対象とする項モデルの比較対象とすることにする。ことにする．下の図2は，2項目の語長分布データに多次元下の図２は，２項目の語長分布データに多次元尺. で分析し. トする．. 尺度法を適用し，各作品の類似性を表した散布図度法を適用し，各作品の類似性を表した散布図であである。Y軸の値の変動はそれほど大きくはないる．Y 軸の値の変動はそれほど大きくはないが，同が，同一作家の作品の座標を結んで作品多角形を一作家の作品の座標を結んで作品多角形を描画でき描画できそうである。そうである．. S)とは，. 性データ. したもの. る方法で. 類似性の. 業は統合. して平均. よって２. 図４４図３３ C. の 10 作品の座標を結んだ多角形図３ C. Dickens Dickensの10作品の座標を結んだ多角形（調査項目数２）（調査項目数２）. 2.4.2 多角形の面積比率の比較 2.4.2 多角形の面積比率の比較モデルの精度を比較する1つめの方法は，単項モデルの精度を比較する１つめの方法は，単項モモデルにおける同一作家の作品多角形の面積が散デルにおける同一作家の作品多角形の面積が散布図布図全体の面積に占める割合と，多項モデルにお全体の面積に占める割合と，多項モデルにおける割ける割合を比較してみることである。もし後者の合を比較してみることである．もし後者の割合が有割合が有意に減少しているなら，多項モデルの方意に減少しているなら，多項モデルの方において同において同一作家の作品の類似性がよりよくとら一作家の作品の類似性がよりよくとらえられている. である．. とんど X. えられていると考えられる。10の作家に関して多と考えられる．10 の作家に関して多角形面積比率の. 動がほと. （西山. P1～P5 の頂. ら，P5～P8 お. 積の合計を引. 一般に n 多. yn)とするとき. ことができる S�. 1 ��𝑦𝑦 2. 13 ，2つの角形面積比率の差の検定を行うことで差の検定を行うことで13，２つのモデルの全体として. に並ぶ．. の精度を比較できる．モデルの全体としての精度を比較できる。. 基本的に. 西山（1991, pp.92-95）によると，多角形の面図２２項目の語長データのMDS散布図図２２２項目の語長データの MDS 散布図. 5. 下の図3は，図2の座標軸をを平行移動させた後11，C. Dickensの10作品の座標を結んで描画した作品多角形である12。. 11 後の段階で作品多角形の面積を計算する際に，すべての作品の x，y 座標が正の値になるように，座標軸を平行移動させている。 12 散布された作品の座標データをRの組み込み関数 polygon ( ) にそのまま渡すと，作品番号の順に頂点. 積を求める方法はいくつかあるが，多角形の頂点 11. 後の段階で作品多角形の面積を計算する際に，すべての作品の x，y 座標が正の値になるように，座標軸を平行移動の座標から面積を求める一般的でエレガントな方させている．法が紹介されている。 12 散布された作品の座標データをRの組み込み関数polygon ( )にそのまま渡すと，作品番号の順に頂点が結ばれるため，図4のような多角形を例にとると，各頂点から殆どすべての場合に自己交差した作品多角形が描画される。 X 軸に向かって垂線を引くと，となりあわせるこれを回避して図 3 のような多角形を描くためには，目視によって結ぶべき頂点の座標の順番を修正し、その順序ベ頂点と垂線で，頂点の数だけ台形ができる。クトルを polygon( )に渡す必要がある． 13P ～ P の頂点と垂線でできる台形の面積の合 A. 1 Chrisitie 5 の作品数がであるため，作品多角形を作成できない．このため，A. Christie を除く，10 名の作家に関し計から，P5～ P8 および P1 の頂点と垂線でできるて作品多角形の面積比率の比較を行う．. 台形の面積の合計を引くと，多角形の面積が計算 6 できる。一般に n 多角形の頂点座標を (x1, y1)，(x2,. y2)，…，(xn, yn) とするとき，その多角形の面積. が結ばれるため，殆どすべての場合に自己交差した作品多角形が描画される。これを回避して図3のような. 68. 多角形を描くためには，目視によって結ぶべき頂点の. 13 A. Chrisitieの作品数がであるため，作品多角形を作. 座標の順番を修正し，その順序ベクトルをpolygon ( ). 成できない。このため，A. Christieを除く，10名の作. に渡す必要がある。. 家に関して作品多角形の面積比率の比較を行う。. 図３におけ. 式に代入する. られる．図 3. るので，面積. 一方，図５. 元尺度法を適. トした散布図. んで多角形を. 図５におけ. 1120.025 で，.

(8) 現代英語で書かれた文学作品の文体特徴の計量⑵. 図5におけるC. Dickensの作品多角形の面積は 1120.025で，散布図全体の面積が200＊160＝32,000 であるので，面積比率は0.047となる。 2つの面積比率の差を検定すると，χ2＝2.2811,. 図４４多角形頂点から X 軸へ垂線（西山 1991, p. 93）から転載）. だ多角形. P1～P5 の頂点と垂線でできる台形の面積の合計から，P5～P8 および P1 の頂点と垂線でできる台形の面図４多角形頂点からX軸へ垂線積の合計を引くと，多角形の面積が計算できる．（西山1991，p.93）から転載）. は，単項モ. 一般に n 多角形の頂点座標を(x1, y1), (x2, y2), …, (xn,. 積が散布図. yn)とするとき，その多角形の面積は次の式で求めるは次の式で求めることができる。ことができる．. における割. の割合が有 S�. において同. られている. 面積比率の. 1 ��𝑦𝑦 � 𝑦𝑦� ��𝑥𝑥� � 𝑥𝑥� � � �𝑦𝑦� � 𝑦𝑦� ��𝑥𝑥� � 𝑥𝑥� � 2 �. . 全体として. � � � �𝑦𝑦� � 𝑦𝑦� ��𝑥𝑥� � 𝑥𝑥� � �. 西山(1991, p. 95) 西山（1991，p.95）. 図３における C. Dickens の作品の座標の値を上の図3におけるC. Dickensの作品の座標の値を上式に代入すると，作品多角形の面積 S=9.330 が求め. の式に代入すると，作品多角形の面積 S ＝9.330 られる．図 3 の散布図全体の面積 S は 90*5=450 であ＊ 5 が求められる。図3の散布図全体の面積 S は90 るので，面積比率は 0.0207 となる．. に，すべてのを平行移動. 関数polygon ばれるため，描画される。には，目視その順序ベ. 形を作成で作家に関し. 自由度1，p 値＝0.131により，有意とは言えないと判断できる。 2.4.3 多角形外側にある他作家作品数比率の比較もう一つの精度比較の方法も，作品多角形を利用する。すなわち，MDS散布図における同一作家の作品多角形を作図し，その多角形の内側にある作品数と，その外側に位置する他作家の作品数を数えて比較する。他作家の作品が当該多角形の内側にプロットされていれば，当該作家の作品との類似性が強いことを示していると解釈できる。その意味で，内側にある作品は当該作家の作品から正しく区別できていないと見なすことができる14。逆に，当該作家の作品多角形の外側に位置している他作家の作品は，当該作家の作品から正しく区別されていると見なせる。このことから，他作家の作品総数のうち，作品多角形の外側に位. ＝450であるので，面積比率は0.0207となる。一方，図５は，68 項目の文体指標のデータに多次一方，図5は，68項目の文体指標のデータに多元尺度法を適用し，各作品の類似性を黒丸でプロッ. 置する作品数の比率を比較することで，2つのモ. 次元尺度法を適用し，各作品の類似性を黒丸でプトした散布図の中に C. Dickens の作品（白丸）を結ロットした散布図の中にC. Dickensの作品（白丸）んで多角形を描画したものである．あるので，面積比率は 0.047 となる．を結んで多角形を描画したものである。図５における C. Dickens の作品多角形の面積は. このような比較を行うためには，ある座標が特. 1120.025 で，散布図全体の面積が 200*160=32,000 で. 6. デルの著者推定の精度を評価することができる。定の多角形の内側にあるか，あるいは外側にあるの多角形の内側にあるか，あるいは外側にあるかをかを判定しなければならない。川尻（2013）は，判定しなければならない．川尻(2013)は，この内外判この内外判定を行うアルゴリズムを2つ説明して. 定を行うアルゴリズムを２つ説明しているが，今回いるが，今回の調査では，そのうちの交差数判定の調査では，そのうちの交差数判定法（crossing 法（crossing number algorithm）を用いること number algorithm）を用いることにする．川尻(2013) にする。川尻（2013）によると，交差数判定法は，によると，交差数判定法は，図 6 が示すように，あ図6が示すように，ある点から引いた水平線が多る点から引いた水平線が多角形の辺と交差する回数角形の辺と交差する回数が奇数であれば多角形のが奇数であれば多角形の内側，交差数が偶数であれ内側，交差数が偶数であればその外側にあると判ばその外側にあると判定する．定する。. 14 多次元尺度法による作品散布が誤っているという意. 図 5 C. C.Dickensの10作品の座標を結んだ多角形 Dickens の 10 作品の座標を結んだ多角形図５（調査項目数68）（調査項目数 2）. 味では決してない。ある作家の作品多角形の内部にたまたま他作家の作品が位置しているときに誤判定と見なすとここで仮定しているに過ぎない。. ２つの面積比率の差を検定すると，χ2=2.2811, 自由度１，p 値=0.131 により，有意とは言えないと判断できる．. 図 6 交差数判定法（川尻 2013 から転載）. 69.

(9) る点から引いた水平線が多角形の辺と交差する回数が奇数であれば多角形の内側，交差数が偶数であればその外側にあると判定する．. 福田薫. 法について説明した。この節では，作品多角形の面積比率を比較した結果と，多角形外側の作品数比率を比較した結果を提示して，項目数の異なるモデルの精度を比較する。. 角形. 3.1 作品多角形の面積比率の比較はじめに，2.4.2節で説明した方法に従い，. , 自. と判. 図図6 交差数判定法（川尻2013から転載） 6 交差数判定法（川尻 2013 から転載）. 作品多角形の面積比率を比較した結果を提示す. 川尻（2013）ではJava Scriptによる交差数判. 目（語長4文字と14文字以上の語の使用頻度）デー. る。表2は，10名の作家それぞれに対して，2項. 川尻(2013)ではJava Scriptによる交差数判定法のプ定法のプログラムが紹介されているが，今回の調. タと68項目データに多次元尺度法による作品散布. ログラムが紹介されているが，今回の調査では，そ査では，それをAWKのプログラムに書き直して，. 図を作成し，同一作家による作品多角形の面積と，. 利用. れを AWK のプログラムに書き直して，多角形の外多角形の外側にある作品数から正判定の比率を計. 散布図全体に対する比率をそれぞれ算出した。比. の作. 算した。たとえば，図3においてC. Dickensの作側にある作品数から正判定の比率を計算した．たと. 率の値が小さいモデルが各作家の作品の類似性を. 品数. 品多角形の外側にある作品数は，他作家による作えば，図３において C. Dickens の作品多角形の外側. より良くとらえることのできる精度の高いモデル. て比. 品総数92のうち，77作品であるので，正判定の比にある作品数は，他作家による作品総数 92 のうち，. ロッ. 77 作品であるので，正判定の比率は 0.837 である．. 強い. これに対し，図５における C. Dickens の作品多角形. 内側. の外側にある他作家の作品数は 83 で，正判定の比率比率の差を検定すると，χ2＝1,1979，自由度1，. と言える。表2の最後の列は，2つの面積比率の. 率は0.837である。これに対し，図5におけるC.. 差を検定したときのχ2検定統計量と有意判定の. Dickensの作品多角形の外側にある他作家の作品. 結果を示している。. 数は83で，正判定の比率は0.902である。2つの. 表2を見ると，2項目モデルと68項目モデルを比較したとき，面積比率が有意に減少しているの. きて. 2. は p0.902 である．２つの比率の差を検定すると，χ 値＝0.2737より，有意ではないと判定される。. はMelvilleの作品多角形のみで，逆に，Joyceと. の作. =1,1979，自由度 1，p 値＝0.2737 より，有意ではな. Twainの作品多角形では有意に増加している。そ. ，当. いと判定される．. の他の7名の作家の作品多角形では，有意な差が. 3.モデルの比較. せる．. 見られなかった。これは，調査項目数が増えても. 前節では，今回の調査の目的と対象，調査項目. 作家ごとの作品多角形の面積比率でみれば必ずし. および著者推定の精度を比較するための2つの方. も有意な減少につながらないことを示しており，. 3．．モデルの比較. 多角. とで，. 前節では，今回の調査の目的と対象，調査項目およ. がで. び著者推定の精度を比較するための２つの方法につ表2 作品多角形の面積比率と比率の差の検定結果いて説明した．この節では，作品多角形の面積比率を作家. 特定. 多角形面積. 多角形面積. (項目数2) (項目数68) 比較した結果と，多角形外側の作品数比率を比較した Carrol, Lewis 18.56 1518.98 結果を提示して，項目数の異なるモデルの精度を比較. 意味たまここ. 7. Conrad, Joseph する． Dickens, Charles Doyle, Conan Hardy, Thomas James, Henry Joyce, James Melville, Herman Twain, Mark Wodehouse, P. J. 全体. 面積比率 (項目数2). 面積比率 (項目数68). χ2値. 27.65 9.33 8.77 19.09 7.28 37.17 39.44 19.46 8.19. 1711.65 1120.03 723.31 940.46 1005.13 4735.27 1226.03 2711.58 444.54. 0.041 0.061 0.021 0.019 0.042 0.016 0.083 0.088 0.043 0.018. 0.047 0.053 0.035 0.023 0.029 0.031 0.148 0.038 0.085 0.014. 0.26 0.41 2.28 0.08 2.19 2.92 14.60*** 27.51*** 9.38*** 0.33. 194.93. 16136.96. 0.043. 0.050. 4.55* ***p＜0.001, *p＜0.05. 70.

(10) 現代英語で書かれた文学作品の文体特徴の計量⑵. やや意外な結果が得られた15。しかし，作家ごと. 判定の結果を示している。. ではなく作品多角形の合計面積の比率でみれば， 2. 表3の正判定率を作家ごとに比較した結果を見. 有意な減少（χ ＝4.55，自由度1，p 値＝0.033）. ると，2項目データの方が68項目データよりも有. が見られる。. 意に高いのはCarrolの作品のみであったが，逆. このような状況を解釈するに，語長の2つの文. に，68項目データの方が有意に高いという結果が. 体指標はJoyceやTwainの作品の類似性を意外な. 3作家（Conrad, HardyおよびJoyce）の作品に. ほどうまくとらえることができたと見るべきであ. おいて得られた。さらに，各作家の値を合計した. ろう。ただし，作品多角形を合計した面積比率で. 正判定数の比率の差を検定したところ，ここでも. 検定すると，多数の文体指標データを用いる分析. 68項目データの方が有意に高いという結果が得ら. の方が，同一作家の作品群の類似性をより良くと. 16 。れた（χ2＝21.83，自由度1，p 値＜0.0001）. この節では，作品多角形の面積のと多角形の外. らえられていると言える。. 側の作品数の比率に関する比較を行った。分析の 3.2 多角形外側作品数の比率の比較. 結果，2つの比較方法ともに，作家ごとの比較で. この節では，2.4.3節で説明した方法に従. は明瞭な差が得られなかった。しかしながら，合. い，作品多角形の外側に位置する作品数の比率を. 計面積の比率や外側作品数の合計の比率で比較す. 比較した結果を提示する。. ると，2項目のデータよりも68項目のデータを用. 表3は，2項目モデルと68項目モデルに対して 10名の作家ごとに，他作家の作品数，各作家の作. いる分析の方が有意に高い著者推定の精度が得られると言える。. 品多角形の外側に位置する他作家の作品数とその比率を算出した結果である。面積比率の場合とは反対に，比率が大きい方が精度の高いモデルと評. 4.調査項目数と精度の関係. 価できる。表3の最後の列は，2つの外側作品数. この節では，著者推定に用いる文体指標の数を. 比率の差を検定したときのχ2検定統計量と有意. 増やしていくと，それに応じて推定精度がどのよ. 表3 作品多角形の外側作品数の比率と比率の差の検定結果作家（作品数） Carrol, J. (5) Conrad, J. (12) Dickens, D. (10) Doyle, D. (12) Hardy, T. (12) James, H. (10) Joyce, J. (4) Melville, H. (10) Twain, T. (12) Wodehouse, P.J.(13) 全体. 他作家の作品数. 外側作品数外側作品数（項目数2）（項目数68）. 作品数比率作品数比率（項目数2）（項目数68）. χ2値. 97 90 92 90 90 92 98 92 90 89. 95 57 77 74 69 86 56 57 57 76. 84 86 83 79 80 91 80 60 60 89. 0.979 0.633 0.837 0.822 0.767 0.935 0.571 0.882 0.633 0.854. 0.866 0.956 0.902 0.878 0.889 0.989 0.816 0.870 0.667 0.910. 7.23** 26.67*** 1.20 0.70 3.90* 2.38 12.71*** 0.00 0.10 0.86. 920. 729. 804. 0.792. 0.874. 21.83***. ***p＜0.001, **p＜0.01, *p＜0.05 15 面積比率の平均値を取って，2項目データと68項目. 16 それぞれの正判定率の平均を取って，t 検定を行った. データの差を検定したところ，有意ではなかった（t ＝. ところ，有意な差があるとは言えないという結果となっ. －0.5206，自由度17.522，p 値＝0.9062）。. た（t ＝－1.611，自由度15.236，p 値＝0.1277）。. 71.

(11) ータを MDS 散布図に変換すると，図７のように，作品が直線状に布置される．福田薫. 図８８. うに変化するか，増加に伴って精度の向上が見ら. 調査項目. れるかどうかを検証してみたい。2.4.3節で述べた. がよりよく. ように，用いる文体指標が1項目のみの場合は，. 散布図全体. 多次元尺度法によって作品を2次元散布図上にう. 期待される. まく布置できない。そこで少なくとも2項目以上. 査では，調. の文体指標データが必要となる。今回の調査では，. 関係は見ら. 2項目，4項目，8項目，16項目，32項目，そし. の散らばり. て68項目を用いるモデルを用意して，項目数のと. すなわち，. 推定精度の関連を探ることにした。. 比率の平均. ある．図８. 2.3節で列挙した文体指標のうちどれを調査項目としてを用いるべきかに関して，おおよそ次の3つの基準を設定した。すなわち，作家間の変. 図７７図７多元尺度法による作品散布図多元尺度法による作品散布図（調査項目数 4）（調査項目数4）. 動係数が大きいことを優先し，同一のカテゴリに調査項目として選定した４つの文体指標の頻度デ. 属する他の文体指標との相関が高くない（0.6以. 調査項目として選定した4つの文体指標の頻度. 下），特定のカテゴリに偏りすぎないようバラン. データを見ると，いずれも，大部分の作品が0に 10. スをとった。実際に選定された調査項目は表4の. 近い低い値を取り，半数近くの作品において値が. 通りである。表４４今回の調査で選定した調査項目のリスト今回の調査では上記のように調査項目数の異な２項目語長４文字，語長 14 文字以上る6種類のデータを用意して，調査項目数と推定動作主句つき受動文，Yes-No 疑問文，４項目精度の関係を探ることにした。しかし，調査項目代名詞縮約，過去分詞構文 4のデータをMDS散布図に変換すると，図7の上記４項目に加えて，現在分詞構文，助ように，作品が直線状に布置される。８項目動詞縮約，動作主句なし受動文，否定辞. 0となっている。同値をもつ作品が多いため，直ータを見ると，いずれも，大部分の作品が０に近い線的で偏った分布になっていると思われる。図6 低い値を取り，半数近くの作品において値が０となの散布図に基づいて作品多角形の面積を求めるこっている．同値をもつ作品が多いため，直線的で偏とや多角形の内外にある作品数を計数することがった分布になっていると思われる．図６の散布図に困難であると判断される。そこで，調査項目数4 基づいて作品多角形の面積を求めることや多角形ののデータに基づく調査は割愛することにした。内外にある作品数を計数することが困難であると判次の図8は，調査項目をN＝2，8，16，32，68 断される．そこで，調査項目数４のデータに基づくとしたときの作品多角形の面積の，散布図全体の調査は割愛することにした．面積に対する比率をプロットし，比率の平均値の次の図８は，調査項目を N=2，8，16，32，68 と推移を折れ線で図示したものである。したときの作品多角形の面積の，散布図全体の面積調査項目の数が増えると作家ごとの作品の類似に対する比率をプロットし，比率の平均値の推移を性がよりよく捉えられると仮定すれば，作品多角折れ線で図示したものである．. 縮約. 表4 今回の調査で選定した調査項目のリスト 2項目. 上記８項目に加えて，総合的 no 否定文，. 語長4文字，語長14文字以上論理的接続副詞(conjunct)，理由の副詞. 動作主句つき受動文，Yes-No疑問文，節，強調副詞，譲歩の副詞節，主格関係 16 項目 4項目代名詞縮約，過去分詞構文. 詞 that，直接 WH 疑問文，必然性の法助. 8項目. 上記4項目に加えて，現在分詞構文，助動詞動詞縮約，動作主句なし受動文，否定辞縮約上記 16 項目に加えて，完了相，公的動. 詞，存在 there 構文，２人称代名詞，動上記8項目に加えて，総合的no否定文，論理的接続副詞（conjunct），理由の副名詞，随伴関係節(pied-piping)，１人称 16項目詞節，強調副詞，譲歩の副詞節，主格関代名詞，繰り上げ動詞，不定代名詞，緩 32 項目係詞that，直接WH疑問文，必然性の法助動詞叙副詞(downtoner)，条件の副詞節，代動上記16項目に加えて，公的動詞，詞表現，分析的完了相， not 否定文，数詞，主格存在there構文，2人称代名詞，動名詞， wh 関係詞，平均文長随伴関係節（pied-piping），1人称代名 68 項目 2.3 節でリストした全ての文体指標 32項目詞，繰り上げ動詞，不定代名詞，緩叙副詞（downtoner），条件の副詞節，代動詞表現，分析的not否定文，数詞，主格ータを MDS 散布図に変換すると，図７のように， wh関係詞，平均文長. 作品が直線状に布置される．. 68項目. 72. 2.3節でリストした全ての文体指標. 図８８作品多角形の面積比率の推移図８作品多角形の面積比率の推移. 調査項目の数が増えると作家ごとの作品の類似性がよりよく捉えられると仮定すれば，作品多角形の散布図全体に対する面積比率は減少していくことが. ばりが比較. 平均値を大. れらが平均. Joyce にこの.

(12) 現代英語で書かれた文学作品の文体特徴の計量⑵. 形の散布図全体に対する面積比率は減少していく. 作品多角形の面積比率の場合と同様に，ここに. ことが期待される。しかし，図8が示すように，. おいても，TwainとJoyceの外側作品数の比率が. 今回の調査では，調査項目数と面積比率の間に単. 平均よりも下回るはなれ値となっていて，結果的. 純な減少の関係は見られなかった。これは，各モ. に比率の平均値を押し下げている。特に，項目数. デルのデータの散らばりの大きさが影響している. 8のときのTwain作品の外側作品数比率が際立っ. と考えられる。すなわち，作家の比率データには. て低い。図10は，そのときのTwainの各作品のX. なれ値があると，比率の平均は離れ値の方向に引. 軸の値に主に基づいて，作品群を3グループ化し. き寄せられるためである。図8を見ると，2項目. て図示したものである。. モデルでは比率の散らばりが比較的小さいのに対し，その他のモデルでは平均値を大きく上回るはいために多角形面積の比率が他作家よりも大きい．なれ値がいくつかあり，それらが平均値を引き上次の図９は，調査項目が増えるにつれて，作品多げている。特に，Twainと Joyceにこの傾向が顕角形の外側にある他作家の作品数の比率をプロット著にあり，作品間の類似性が低いために多角形面し，比率の平均値の推移を折れ線で図示したもので積の比率が他作家よりも大きい。ある．いために多角形面積の比率が他作家よりも大きい．次の図9は，調査項目が増えるにつれて，作品次の図９は，調査項目が増えるにつれて，作品多多角形の外側にある他作家の作品数の比率をプ角形の外側にある他作家の作品数の比率をプロットロットし，比率の平均値の推移を折れ線で図示しし，比率の平均値の推移を折れ線で図示したものでたものである。ある．図10 M.M.Twainの作品多角形と作品グループ図 10 Twain の作品多角形と作品グループ（調査項目数８）. （調査項目数 8）. 品を含む．他の小説作品や旅行記・随筆作品とは図10における右端のグループは，The Adventures ちがって，これらの 4 作品はいずれも黒人英語を of Tom Sawyer, Adventures of Huckleberry Finn, 図 10 M. Twain の作品多角形と作品グループ話す主人公が活躍する小説であり，文体的にも趣 Tom Sawyer, Detective, およびTom Sawyer Abroad （調査項目数 8）を異にしている．この作品グループの特異性がの4作品を含む。他の小説作品や旅行記・随筆作 Twain の作品群の文体的変動の幅を大きくし，それ品を含む．他の小説作品や旅行記・随筆作品とは品とはちがって，これらの4作品はいずれも黒人図９９作品多角形の外側の作品数の推移. ゆえ，他の作家の作品と文体的に区別しにくくなっちがって，これらの 4 作品はいずれも黒人英語を英語を話す主人公が活躍する小説であり，文体的ている．話す主人公が活躍する小説であり，文体的にも趣にも趣を異にしている。この作品グループの特異 Joyce の対象作品も多彩で，初期の小説 2 つ，異色を異にしている．この作品グループの特異性が性がTwainの作品群の文体的変動の幅を大きく. の大作Ulysses および詩集Chamber Music を含んでいの作品群の文体的変動の幅を大きくし，それ Twain し，それゆえ，他の作家の作品と文体的に区別し図９を見ると，２項目モデルと比べて，多項目のる．作品間の文体上の類似性が低いため，作品多角ゆえ，他の作家の作品と文体的に区別しにくくなっ図９作品多角形の外側の作品数の推移にくくなっている。図９９作品多角形の外側の作品数の推移モデルのすべてにおいて，多角形の外側作品数の比形の内側に比較的多数の他作家の作品を含むことにている． Joyceの対象作品も多彩で，初期の小説2つ，率の平均値がより高い値を示している．平均値の折なる．Twain にせよ，Joyce初期の小説にせよ，調査対象とした Joyce の対象作品も多彩で， 2 つ，異色図9を見ると，2項目モデルと比べて，多項目異色の大作Ulyssesおよび詩集Chamber Musicをれ線は緩やかな上昇を描いているように見える。図作品が多彩で異質ではあるものの，その性質は作品の大作Ulysses および詩集Chamber Music を含んでいのモデルのすべてにおいて，多角形の外側作品数含んでいる。作品間の文体上の類似性が低いため，８でプロットされている点の相関係数は 0.176 で，図９を見ると，２項目モデルと比べて，多項目の間の類似性の距離として多次元尺度法によってに適る．作品間の文体上の類似性が低いため，作品多角の比率の平均値がより高い値を示している。平均作品多角形の内側に比較的多数の他作家の作品を弱い正の相関が観察される．ただし，無相関の検定モデルのすべてにおいて，多角形の外側作品数の比切に測定されているとみるべきであろう．この意味形の内側に比較的多数の他作家の作品を含むことに値の折れ線は緩やかな上昇を描いているように見含むことになる。Twainにせよ，Joyceにせよ，を行ったところ，有意な結果は得られなかった率の平均値がより高い値を示している．平均値の折では，著者推定の精度を検証する場合，文体指標のなる．Twain にせよ，Joyce にせよ，調査対象としたえる。図8でプロットされている点の相関係数は調査対象とした作品が多彩で異質ではあるもの（t=1.093，自由度 48，p 値=0.2798）．れ線は緩やかな上昇を描いているように見える。図選定とともに，対象作品の選定もまた重要な要素で作品が多彩で異質ではあるものの，その性質は作品 0.176で，弱い正の相関が観察される。ただし，の，その性質は作品間の類似性の距離として多次作品多角形の面積比率の場合と同様に，ここにお８でプロットされている点の相関係数は 0.176 で，あることを示している。間の類似性の距離として多次元尺度法によってに適無相関の検定を行ったところ，有意な結果は得ら元尺度法によってに適切に測定されているとみるいても，Twain と Joyce の外側作品数の比率が平均よ弱い正の相関が観察される．ただし，無相関の検定切に測定されているとみるべきであろう．この意味れなかった（t＝1.093，自由度48，p値＝0.2798）。べきであろう。この意味では，著者推定の精度をりも下回るはなれ値となっていて，結果的に比率のを行ったところ，有意な結果は得られなかった 5．．まとめと課題では，著者推定の精度を検証する場合，文体指標の平均値を押し下げている．特に，項目数８のときの（t=1.093，自由度 48，p 値=0.2798）．本稿では，11 名の作家によって書かれた現代英語の選定とともに，対象作品の選定もまた重要な要素で Twain 作品の外側作品数比率が際立って低い．図 10 作品多角形の面積比率の場合と同様に，ここにお 73 文学作品 102 テキストを対象にして，複数項目の文体あることを示している。は，そのときの Twain の各作品の X 軸の値に主に基いても，Twain と Joyce の外側作品数の比率が平均よ指標を用いて著者推定を行うと単数の項目の場合よりづいて，作品群を３グループ化して図示したものでりも下回るはなれ値となっていて，結果的に比率の.

(13) 福田薫. 検証する場合，文体指標の選定とともに，対象作. タに多次元尺度法を適用して類似性距離に変換. 品の選定もまた重要な要素であることを示してい. し，対象作品を2次元平面上に散布する。次に，. る。. 同一作家の作品を結んで作成される多角形に基づいて，その面積の比率，およびその外側にある作. 5.まとめと課題. 品数の比率を算出し，著者推定の精度を比較する際の基準とした。これはやや複雑で迂遠な手順を. 本稿では，11名の作家によって書かれた現代英. 要するものの，今回の調査が示す通り，実際に機. 語の文学作品102テキストを対象にして，複数項. 能する計量的な比較方法であると言える。その一. 目の文体指標を用いて著者推定を行うと単数の項. 方で，本稿で採用したこの方法が，モデルの比較. 目の場合よりも推定精度が向上するかどうかを検. 評価としてすぐれて妥当と言えるのか，他にも，. 証した。比較の方法として，多次元尺度法によっ. 妥当で，迂遠ではない分析方法を探る必要があ. て対象作品を2次元平面に散布したときに，同一. る17。. 作家の作品を結んでできる多角形の面積を計測. 調査項目数と推定精度の関係を計量的に検証す. し，また，その作品多角形の外側に位置する他作. る目的を達成するには，2個から n 個までの i 個. 家の作品数を計数して，作品多角形の面積比率と，. の項目を用いるモデルを，可能な項目の組み合わ. 外側作品数の比率の差を統計的に検定した。その. せのすべてを用いて，精度の推移を大規模にシ. 結果，いずれの比較方法においても，合計した面. ミュレーションすることが望ましい。今回の調査. 積や作品数の比率で比較すると，単項目のデータ. で用いた精度の比較過程では，同一作家の作品多. を用いる分析よりも，多くの項目を用いる分析の. 角形の作成が決定的に重要な役割を果たしてい. 方が著者推定の精度が高まるという結果を得た。. る。しかし，注12で触れたように，作品の座標デー. 特に，68項目モデルの多角形外側作品数の比率で. タに基づいて自己交差をしない多角形を自動的に. は，平均で87.4％という比較的高い正判定率を記. 作成するアルゴリズムはかなり複雑で，私のプロ. 録し，2項目モデルよりも8.2ポイントの伸びを. グラミング技能では実装できなかった。このため，. 示した。. 毎回目視によって座標データの順序を読み取り，. 調査項目数と推定精度の関係ついては，項目数. その順序を引数として入力指定する必要があっ. を増やしても，面積比率の比較では，有意な向上. た。この過程を自動処理するプログラムを開発し. は見られなかった。多角形外側の作品数比率の比. て，大規模な精度比較のシミュレーションを可能. 較では，わずかながら正の相関が観察されたが有. にすることが望まれる。. 意ではなかった。このように，期待される結果が. テキストの文体上の特徴からそのテキストの著. 得られなかった理由は，おそらく，対象作品の選. 者を推定する問題は，アヤメの花びらやガクの長. 定と調査項目の選定にあると思われる。すなわち，. さや幅のデータからその種類を判定する問題より. 同一作家からはなるべく同質の作品を選定するの. も，一層とらえがたく，厄介である。ひとつには，. が望ましいと言える。また，一般に作家間の変動. 著者とその文体は必ずしも確立した関係ではな. 係数が大きい調査項目が望ましいが，0などの同. く，同一著者であってもテキストのジャンルに応. 値を多く持つ項目は座標点の集中とはなれ値を生. じて相当な変異が起こりうるためである。もう一. じさせる危険があるので避けるべきであろう。. つには，著者推定に有効と判断される文体指標が. 今回の調査をふまえて，理論的観点と技術的観. まだ確定されていないためでもある。このような. 点から1つずつ今後の課題を挙げておきたい。ひとつは，精度を比較評価する方法の妥当性を検討する必要がある。今回の調査では，まず，頻度デー. 74. 17 クラスター分析，判別分析などが，より直接的で，妥当な比較方法の候補として考えられる。.

(14) 現代英語で書かれた文学作品の文体特徴の計量⑵. 状況では，一定程度の分量のある対象テキストを慎重に選定し，複数の文体指標を組み合わせて，推定を行わざるを得ない。この意味で，本稿での調査と論考がひとつの事例として今後の著者推定研究の一助となれば幸いである。. 参照文献エイホ・A，カーニハン・P.J.，ワインバーガー・B.W.（1989）『プログラミング言語AWK』，トッパン． Biber, D. (1988) Variation across Speech and Writing, Cambridge: Cambridge University Press. Brinegar, C.S. (1963) “Mark Twain and the Quintus Curtius Snodgrass letters: A statistical test of authorship,” Journal of the American Statistical Association，58 (301)，85-96. 福田薫（2018）「現代英語で書かれた文学作品の文体特徴の計量⑴―語長分布と著者推定」，『北海道教育大学紀要人文科学・社会科学編』第68巻第2号，13-22．樺島忠夫・寿岳章子 (1965)『文体の科学』，綜芸社．川尻真寛 (2013)「技術者が紹介するNTTPCのテクノロジー第2回点の多角形に対する内外判定」(https:// www.nttpc.co.jp/technology/number_algorithm.html，最終閲覧2020年9月26日）金明哲（2008）「フリーソフトによるデータ解析・マイニング第60回統計的テキスト解析⑸～統計法則と指標」 Estrela 172, 60-65．金明哲（2009）『テキストデータの統計科学入門』，東京：岩波書店．金明哲（2017）『Rによるデータサイエンスデータ解析の基礎から最新手法まで』，東京：森北出版． Mendenhall, T.C. (1901) “A mechanical solution of a literary problem,” Popular Science Monthly, 60⑵，97105. 西山豊（1991）『サイエンスの香り―生活の中の数理』，日本評論社． Quirk, R.，S. Greenbaum, G. Leech, J. Svartvik (1985) A Comprehensive Grammar of Contemporary English, London: Longman.. . （函館校教授）. 75.

(15)