現代英語で書かれた文学作品の文体特徴の計量⑵ : 複数の指標を用いた著者判定
14
0
0
全文
(2) 北海道教育大学紀要(人文科学・社会科学編)第71巻 第2号 Journal of Hokkaido University of Education(Humanities and Social Sciences)Vol. 71, No.2. 令 和 3 年 2 月 February, 2021. 現代英語で書かれた文学作品の文体特徴の計量⑵ ― 複数の指標を用いた著者判定 ―. 福 田 薫 北海道教育大学函館校言語科学研究室. Statistical Stylistic Analyses of Modern English Fictions ⑵: Authorship Detection Using Multiple Style Indices. FUKUDA Kaoru Department of Linguistic Science, Hakodate Campus, Hokkaido University of Education. 概 要 11名の作家によって書かれた現代英語の文学作品102テキストを対象にして,複数項目の文 体指標を用いて著者推定を行うと単数の項目の場合よりも推定精度が向上するかどうかを検証 する。比較の方法として,多次元尺度法によって対象作品を2次元平面上に散布したときに, 同一作家の作品を結んでできる多角形の面積を計測し,また,その作品多角形の外側に位置す る他作家の作品数を計数する。作品多角形の面積比率と,外側作品数の比率の差を統計的に検 定した結果,いずれの比較方法においても,総じて,単項目のデータを用いる分析よりも,多 くの項目を用いる分析の方が著者推定の精度が高まることを報告する。同時に,今後の研究に 向けて,解決すべき課題を指摘する。. 1.はじめに テキストで使用される語の文字数の分布はワー ドスペクトラムと呼ばれ,Mendenhall (1901) や. 度まで正しく著者を推定できるかを調査した。そ の結果,一定程度の有効性が見られるものの,精 度の高い著者識別や分類には不十分と考えられる と指摘した。. Brinegar (1963) などの研究を通して,その有用. 一つの文体指標を用いる著者推定には一定の限. 性が実証されてきた。前稿の福田(2018)におい. 界があるように思われる。前稿の末尾に記したよ. て,私はこの語長分布という文体特性を使って,. うに,著者推定の際に用いる文体指標の数を一つ. 11人の作家によって書かれた102の現代英語の文. ではなくて複数にすると,推定精度の向上を期待. 学作品を対象にして,この文体指標だけでどの程. できるかもしれない。. 63.
(3) 福 田 薫. 語長スペクトラムの他にも,文体上の特徴を計 測するための指標が提案されてきている。たとえ. 2.調査の目的と方法. ば,テキストを構成する文の長さの分布を分析す. この節では,今回の調査の目的,調査の対象,. ることもできよう。テキストの一定範囲内に使用. 調査で用いる文体指標の内容,および,単項目デー. されている異なり語の数から,語彙の豊富さを測. タを用いる著者推定のモデルと多項目データを用. 定することができるだろう。テキスト中の語を名. いるモデルの精度を比較する方法について説明す. 詞,動詞,形容詞,副詞などの品詞に分類して,. る。. その使用割合を測れば,有用な文体指標となるだ 2.1 調査の目的. ろう。 特定の語彙の使用頻度のほかに,疑問文,否定. テキストの著者推定を行う際,一つの文体指標. 文,感嘆文などの文の使用頻度や,受動文,従属. だけを調査項目として用いる分析を単項目モデル. 副詞節, 関係節などの統語的な構文の使用頻度も,. と呼び,複数の文体指標を用いる分析を多項目モ. 1. 文体を特徴づける指標となりうるだろう 。. デルと呼ぶことにする。本調査の目的は,両モデ. そこで本稿では,複数の文体指標を用いて著者. ルによる著者推定の結果を比較し,多項目モデル. 推定を行うと,一つの指標を用いる場合と比較し. が単項目モデルよりも推定精度が高いと言えるか. て推定の精度が実際に向上するのかどうかを検証. どうかを検証することである。使う物差しの数が. してみたい。精度の向上が観察されるとすればど. 多いほど精度の良い結果が得られるのは一見する. の程度であるか,また,用いる指標の数と精度の. と自明であるようにも見える。たしかに,人の認. 向上がどのように関連するかを量的に測定してみ. 識においては目元だけで判断するよりも,背丈や. たい。. 声の調子,歩き方,ことば遣いなど,多くの指標. 以下,第2節では,調査の目的と方法,特に,. を用いて総合的に判断する方が良いかもしれな. 今回の調査において使用する68項目の文体指標,. い。しかし,汗の匂いだけ,あるいは指紋の形だ. および,著者推定の精度を比較する方法について. けでその人と十分に正しく特定できることもあ. 説明する。第3節では,作品多角形の面積の比率. る。逆に,多くの指標を投入しても互いに打ち消. を比較した結果と,多角形の外側に位置する作品. しあって期待される効果を挙げられないこともあ. 数の比率を比較した結果を提示する。これらの分. りうる。したがって,これは実際に検証してみる. 析結果に基づき,多項目データを用いる著者推定. べき課題である。. は,実際に,単項目データを用いる場合よりも推 定の精度がおおむね向上することを示す。第4節 では,分析に用いる調査項目の数に応じて,著者. 2.2 調査の対象 今回,調査の対象とするテキストは,前稿(2018). 推定の精度がどのように変化するかを検討し,お. と同じく,11名の作家による現代英語で書かれた. およその傾向を提示する。第5節では今回の調査. 102の文学作品である。表1は対象作家と作品数. を要約し,あわせて今後の課題点を指摘する。. である2。. 2 前稿の福田(2018,pp.14-15)に作品名のリストを 掲載してあるので,ここでは割愛する。「現代英語」 1 樺島・寿岳(1965,p.35)は,名詞の比率と名詞以. (Present-day English)は20世紀以降の英語と定義さ. 外の品詞間の比率に基づいて,日本語で書かれた文学. れるのが通例である。本稿で対象とするテキストの中. 作品を要約的な文章と描写的な文章に大別し,さらに. には19世紀後半に書かれた作品も含まれているけれど. 後者をありさま描写的な文章,動き描写的な文章に分. も,20世紀前半に書かれた作品との文法的な差異はほ. 類している。. とんどないので,これらを合わせて「現代英語で書か. 64.
(4) 現代英語で書かれた文学作品の文体特徴の計量⑵. 表1 調査対象テキストの作家と対象作品数 作家名. 2.3 調査項目 Biber (1988) は,67項目の文体指標を設定し. 生没年. 作品数. Carrol, Lewis. 1832-1898. 5. て,話しことばや書きことがで書かれた各種の英. Christie, Agatha. 1890-1976. 2. 語テキストにおける頻度を調査し,因子分析を通. Conrad, Joseph. 1857-1924. 12. 1812-1870. 10. して話しことばと書きことばの間の変異を特徴づ. Dickens, Charles Doyle, Conan. 1859-1930. 12. Hardy, Thomas. 1840-1928. 12. James, Henry. 1843-1916. 10. Joyce, James. 1882-1941. 4. とにした。以下では,指標をカテゴリに分類して,. Melville, Herman. 1819-1891. 10. 各指標の内容について説明していく。. Twain, Mark. 1835-1910. 12. ⑴ 時制・相の標識(3項目). Wodehouse, P. J.. 1881-1975. 13. けている。今回の調査では,おもにBiber (1988) と金(2008)を参照して,以下の68項目の文体指 標を設定し,対象テキスト中の頻度を調査するこ. 対象テキスト1,000語あたりの,現在時制,過 去時制,完了相の使用頻度。. これらの作品の電子化されたテキストをProject Gutenberg: Free Booksか ら ダ ウ ン ロ ー ド し た 3. ⑵ 代名詞・代動詞の類(7項目) 対象テキスト1,000語あたりの,1人称・2人. 後 ,いわゆるスモールプリントを除去して,残り. 称・3人称代名詞,非人称のit,指示代名詞,不. の本文テキストを分析の対象とした。今回の調査. 定代名詞および,do it, do that, do soの代動詞類. では,特定の品詞の使用頻度を集計するため,対. の使用頻度。Biber (1988, p.225) によると,1人. 象テキストに品詞タグを予め付与する必要があ. 称の使用率は話しことばと書きことばの比較のた. る。そこで,今回の調査では,Helmut Schmid氏. めに多くの研究で利用されている。また,3人称. 4. が開発したTree Taggerをダウンロードして ,品. の多用は,語り(narrative)などの報告の文体. 詞タグ付けを行った。このソフトは付属の英語辞. の標識と見なしうる。. 書 フ ァ イ ル を 参 照 し な が ら,Penn Treebank. ⑶ 名詞表現(4項目). Project方式に沿って品詞タグ付けを行うもので 5. ある 。. 対象テキスト1,000語あたりの,派生名詞,動 名詞とそれ以外の名詞,およびすべての名詞形の. 品詞情報を付加した対象テキストに関して,次. 使用頻度。派生名詞の集計では,派生接辞 -tion,. 節で説明する68項目の文体指標の使用頻度を調査. -ment, -ness, -ance, -ence, -al, -ityが付加された. した。テキスト処理に優れたプログラミング言語. 派生名詞の単数,複数形を対象とする。 これら. AWKによるプログラムを作成して,対象テキス. の派生名詞や動名詞表現は,概念化された高度な. トに含まれる調査項目を検索し,それぞれの使用. 抽象性を示す(Biber 1988, pp.228-9)。. 頻度を集計した。. ⑷ 動詞下位類(6項目) 対象テキスト1,000語あたりの,be動詞の叙述 的用法,存在のthere構文,公的動詞類,私的動. れた文学作品」と呼ぶことに大きな支障はないと思わ れる。. 詞類,勧誘動詞類,および繰り上げ動詞類の使用 頻度。公的動詞(public verb)とは,agree, claim,. 3 https://www.gutenberg.org/. explain, reply, suggestなど,主に発話行為を表. 4 http://www.cis.unimuenchen.de/~schmid/tools/. す公的に観察可能な動詞の類であり,一方,私的. TreeTagger/ 5 開発者であるMitchell Marcus氏らによるタガーの. 動詞(private verb)とは,anticipate, decide, doubt,. 説明が下のWEBサイト上に公開されている。https://. expect, presumeなど,知的状態や観察できない知. catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html. 的活動を表す動詞の類である。勧誘動詞(suasive. 65.
(5) 福 田 薫. verb)とは,demand, desire, insist, require, urge. ⑺ 疑問文・否定文(4項目). など,将来における何らかの変化を引き起こす意. 対 象 テ キ ス ト1,000語 当 た り の,Yes-No疑 問. 思を含意する動詞類である。 繰り上げ動詞 (raising. 文,WH直接疑問文,および総合的no否定文,分. verb)とは,appear, seem, happenなど,理由付. 析的not否定文の使用頻度。疑問文は対人関係へ. 6. け過程に根拠があることを示す動詞である 。. の配慮,相手との関与を示す(Biber 1988 p.227)。. ⑸ 法助動詞類(3項目). 話ことばでは書きことばの約2倍多く否定文が使. 対象テキスト1,000語当たりの,3種類の法助動詞. 用される(Biber 1988, p.245)。総合的否定文は. の使用頻度。Biber(1988, pp.241-2)に従い,can,. 文語的でより統合的な文体を示す一方,分析的否. may, might, couldな ど の 可 能 性(possibility) ,. 定文は口語的で非計画的な文体の特徴を示す。. ought, should, mustなどの必要性(necessity),. ⑻ 受動文(2項目). およびwill, would, shallなどの予測性(predictive). 対象テキスト1,000語あたりの,動作主を表す. を表す法助動詞の使用頻度を集計する。. by句が現れる受動文とそれが現れない受動文の. ⑹ 前置詞・形容詞・副詞の類(12項目). 使用頻度。受動文は書き言葉に典型的に多い構文. 対象テキスト1,000語あたりの,前置詞,叙述. と見なされ,多くの研究者が文体研究に利用して. 用法の形容詞,限定用法の形容詞,副詞全般,お. きている。. よび特定機能の副詞表現の使用頻度。特定の機能. ⑼ 補文と分詞構文(6項目). を表す副詞類には,consequently, nevertheless,. 対象テキスト1,000語あたりの,WH間接疑問. for exampleなど,節の論理的関係を表わす接続. 文,to不定詞補文,現在分詞・過去分詞から始ま. 副詞(conjunct)の類,abroad, nearby, upstairs. る分詞構文,および名詞を後位修飾する現在分. な ど の 場 所 を 表 す 副 詞 表 現,lately, presently,. 詞・過去分詞表現の使用頻度。埋め込み節は構造. soon, yesterdayなどの時を表す副詞表現のほか7,. 的複雑さを示し,書きことばに典型的な特徴と見. almost, merely, somewhatなど,動詞の効果を薄. なされている。. める働きをするdowntonerや,反対に,completely,. ⑽ 関係節(3項目). highlyな ど, 動 詞 の 効 果 を 強 め る 働 き を す る. 対象テキスト1,000語あたりの,主格thatで導か. amplifierの他,maybe, kind ofなど,命題を不確. れる関係節,主格whichで導かれる関係節,およ. 実 な も の と み な すhedge類 や,just, really, for. び前置詞+wh関係詞による随伴(pied piped). sureなど,命題の確実さを強調するemphaticsお. 関係節の使用頻度。単純な決定辞つきの名詞句へ. よびwell, now, anywayなど,談話の一貫性を保. の言及は非計画的な談話で多いのに対し,関係詞. 8. つ働きをする標識が含まれる 。. 付きの名詞句はより正確で明示的な言及を表し, 話しことばよりも書きことばでより多く使用され る。 ⑾ 副詞節(4項目). 6 これら4つの類に属する動詞のリストはQuirk et al. (1985, p.1179ff) に記載されている。 7 場 所 を 表 す 副 詞 表 現 はQuirk et al. (1985, p.514ff). 譲歩(though, although),条件(if)およびその. に,時を表す副詞表現はQuirk et al (1985, p.526ff) に,. 他の副詞的従属節の使用頻度。. それぞれリストされている。. ⑿ 語長と文長,語彙レベル(3項目). 8 conjunctおよびdowntonerから談話標識までの副詞 類は,発話命題に対する話し手の態度を表すので,態 度副詞類(stance adverb)と呼ばれる。これらの副詞 表現のリストはBiber (1988, pp.239-241) に記載されて いる。. 66. 対象テキスト1,000語あたりの,理由(because) ,. 対象テキストで使用されている語の平均文字 数,および文の平均語数。 語 彙 レ ベ ル は,ALC社 の 標 準 語 彙 水 準SVL.
(6) (12) 語長と文長,語彙レベル(3項目). る標識が. 対象テキストで使用されている語の平均文字数, および文の平均語数.. 現代英語で書かれた文学作品の文体特徴の計量⑵. 語彙レベルは,ALC 社の標準語彙水準 SVL12,000. 疑問文,. ,分析的. への配慮,. ことばで. 9 9 12,000を参照して ,対象テキストで使用されてい を参照して ,対象テキストで使用されている語の. 項目モデルである。この節では,単項目モデルと. る語のレベルの平均値を算出する。 レベルの平均値を算出する.. 多項目モデルにおける著者推定の精度を比較する. ⒀ 語彙の豊富さを示す指標(4項目) (13) 語彙の豊富さを示す指標(4項目). ための2つの方法と手順を述べる。. 用される. のべ・異なり語数比(type-token ratio, TTR) : のべ・異なり語数比 (type-token ratio, TTR):対象テ. でより統. キスト 400 語ごとの延べ語数 N と異なり語数 V の比 対象テキスト400語ごとの延べ語数 N と異なり語. 語的で非. の平均値. 数 V の比の平均値。. を表す by. まず,それぞれのデータを多次元尺度法で分析. ユールの (Yule’s characteristic K):対象テ ユールのKK特性値 特性値(Yule’s characteristic K):. して,102の作品を2次元散布図上にプロットす. キスト中に xi 回使用される語を f i 個,延べ語数を N 対象テキスト中に x i 回使用される語を f i 個,延べ. る。 多 次 元 尺 度 法(Multi-deminsional Scaling,. とするとき,次の式で計算される値. 語数を N とするとき,次の式で計算される値。. MDS)とは,金(2017,pp.97-106)によると,. の使用頻. � � 10�. と見なさ. ∑ 𝑥𝑥� � 𝑓𝑓� � 𝑁𝑁 𝑁𝑁 �. ギローの R):延べ語数 N,異なり語数 ギローのRR(Guiraud’s (Guiraud’s R):延べ語数 N ,異な. ている.. V とするとき,次の式で算出される値. り語数 V とするとき,次の式で算出される値。. 接疑問文,. 𝑉𝑉 √𝑁𝑁. ��. まる分詞. ハーダンの C (Herdan’s C):延べ語数 N,異なり語 ハーダンの C (Herdan’s C):延べ語数 N ,異 数 V とするとき,次の式で算出される値. なり語数 V とするとき, 次の式で算出される値。. ・過去分. 雑さを示. ��. に,時を表 れリストさ. (14) 縮約形(3項目) ⒁ 縮約形(3項目). 副詞類は, 態度副詞類 のリストは. log 𝑉𝑉 log 𝑁𝑁. 個体間の親近性データを2次元,あるいは3次元 空間に,類似したものを近く,そうでないものを 遠くに配置する方法である。今回の調査では,デー タ間の距離や類似性の計算,および2次元空間へ のプロットの作業は統合的統計解析環境Rを用い て行った10。 ここで問題となるのは,単項目モデルとして平 均語長データを用いる場合,多次元尺度法によっ て2次元散布図の作成が事実上困難になることで ある。すなわち,入力された1種類のデータはほ とんどX軸に反映される。このため,Y軸の値に. 対象テキスト 1,000 語あたりの,代名詞,助動詞 対象テキスト1,000語あたりの,代名詞,助動. 変動がほとんどなく,図1のように,作品がほぼ. 詞(be動詞を含む),および否定辞notの縮約形の. 直線上に並ぶ。1次元のデータを2次元に散布す. https://www.alc.co.jp/vocgram/article/svl/ 使用頻度。縮約形の使用率は,レジスターに依存. ることは基本的に無理なのである。このため,同. して連続的に分布する。会話で最も多く,学術で. 一作家の作品の座標を結んで作品多角形を描くこ. 最もすくない,放送・演説・新聞記事はその中間. とがほぼ不可能である。. 9. 4. 2.4.1 作品多角形. に位置する(Biber 1988, p.243)。 ⒂ 品詞率(4項目) 対象テキストの冒頭5,000語における名詞,動 詞,形容詞,数詞の使用頻度を1,000語あたりに (be 動詞を含む) ,および否定辞 not の縮約形の使用 換算した値。. そこで,単項目モデルを次のように修正する。 すなわち,語長分布データの中から,語長4文字 と語長14文字以上の語の,テキスト1,000当たり の使用頻度データを単項目モデルの代用として用 無理なのである.このため,同一作家の作品の座標. 頻度.縮約形の使用率は,レジスターに依存して連 続的に分布する.会話で最も多く,学術で最もすく 2.4 精度比較の方法. ない,放送・演説・新聞記事はその中間に位置する 品詞タグ付けされた102の対象テキストに対. (Biber 1988, p. 243).. し,68項目の文体指標に関する使用頻度データを. (15)作成した。これを複数の文体指標を用いる著者推 品詞率(4項目) 対象テキストの冒頭 5,000 語における名詞, 動詞, 定の多項目モデルとする。一方,精度比較の対象 形容詞,数詞の使用頻度を 1,000 語あたりに換算し となるのは,1つの文体指標,すなわち,102の 対象テキストの平均語長のデータのみを用いる単 た値.. 2.4 9 https://www.alc.co.jp/vocgram/article/svl/ 精度比較の方法. 図1 1図1 平均語長データのMDS散布図 平均語長データの MDS 散布図 10 使用したRのバージョンは,R2. 13. 2である。 を結んで作品多角形を描くことがほぼ不可能である.. 品詞タグ付けされた 102 の対象テキストに対し,. そこで,単項目モデルを次のように修正する.すな. 68 項目の文体指標に関する使用頻度データを作成し. わち,語長分布データの中から,語長4文字と語長. た.これを複数の文体指標を用いる著者推定の多項. 14 文字以上の語の,テキスト 1,000 当たりの使用頻. 67.
(7) に対し,. そこで,単項目モデルを次のように修正する.すな. を作成し. わち,語長分布データの中から,語長4文字と語長. 定の多項. 14 文字以上の語の,テキスト 1,000 当たりの使用頻. るのは,. 度データを単項目モデルの代用として用いる.語長. 軸に向かって. いる。語長4文字は語長分布の最頻値であり,語 4文字は語長分布の最頻値であり, 語長 14 文字以上. 垂線で,頂点. 下の図3は,図2の座標軸をを平行移動させた後11, C. Dickens の 10 作品の座標を結んで描画した作品多 12. 角形である .. 福 田 薫. キストの. 面積を求める ている.. 図4のよう. 長14文字以上の語の使用頻度は作品間の変動が大 の語の使用頻度は作品間の変動が大きい.厳密な意 きい。厳密な意味では,このデータは単項目モデ 味では,このデータは単項目モデルというより,む. ルである.. における. ルというより,むしろ2つの文体指標を用いた多 しろ2つの文体指標を用いた多項目モデルの一種と 項目モデルの一種と考えられる。真の単項モデル 考えられる.真の単項モデルのデータでは2次元散. 法と手順. のデータでは2次元散布図を作成できないという 布図を作成できないという問題を避けるための措置 問題を避けるための措置として,このデータを多 として,このデータを多項モデルの比較対象とする 項モデルの比較対象とすることにする。 ことにする. 下の図2は,2項目の語長分布データに多次元 下の図2は,2項目の語長分布データに多次元尺. で分析し. トする.. 尺度法を適用し,各作品の類似性を表した散布図 度法を適用し,各作品の類似性を表した散布図であ である。Y軸の値の変動はそれほど大きくはない る.Y 軸の値の変動はそれほど大きくはないが,同 が,同一作家の作品の座標を結んで作品多角形を 一作家の作品の座標を結んで作品多角形を描画でき 描画できそうである。 そうである.. S)とは,. 性データ. したもの. る方法で. 類似性の. 業は統合. して平均. よって2. 図4 4 図3 3 C. の 10 作品の座標を結んだ多角形 図3 C. Dickens Dickensの10作品の座標を結んだ多角形 (調査項目数2) (調査項目数2). 2.4.2 多角形の面積比率の比較 2.4.2 多角形の面積比率の比較 モデルの精度を比較する1つめの方法は,単項 モデルの精度を比較する1つめの方法は,単項モ モデルにおける同一作家の作品多角形の面積が散 デルにおける同一作家の作品多角形の面積が散布図 布図全体の面積に占める割合と,多項モデルにお 全体の面積に占める割合と,多項モデルにおける割 ける割合を比較してみることである。もし後者の 合を比較してみることである.もし後者の割合が有 割合が有意に減少しているなら,多項モデルの方 意に減少しているなら,多項モデルの方において同 において同一作家の作品の類似性がよりよくとら 一作家の作品の類似性がよりよくとらえられている. である.. とんど X. えられていると考えられる。10の作家に関して多 と考えられる.10 の作家に関して多角形面積比率の. 動がほと. (西山. P1~P5 の頂. ら,P5~P8 お. 積の合計を引. 一般に n 多. yn)とするとき. ことができる S�. 1 ��𝑦𝑦 2. 13 ,2つの 角形面積比率の差の検定を行うことで 差の検定を行うことで13,2つのモデルの全体として. に並ぶ.. の精度を比較できる. モデルの全体としての精度を比較できる。. 基本的に. 西山(1991, pp.92-95)によると,多角形の面 図2 2項目の語長データのMDS散布図 図2 2 2項目の語長データの MDS 散布図. 5. 下の図3は,図2の座標軸をを平行移動させた 後11,C. Dickensの10作品の座標を結んで描画した 作品多角形である12。. 11 後の段階で作品多角形の面積を計算する際に,すべ ての作品の x,y 座標が正の値になるように,座標軸を 平行移動させている。 12 散布された作品の座標データをRの組み込み関数 polygon ( ) にそのまま渡すと,作品番号の順に頂点. 積を求める方法はいくつかあるが,多角形の頂点 11. 後の段階で作品多角形の面積を計算する際に,すべての 作品の x,y 座標が正の値になるように,座標軸を平行移動 の座標から面積を求める一般的でエレガントな方 させている. 法が紹介されている。 12 散布された作品の座標データをRの組み込み関数polygon ( )にそのまま渡すと, 作品番号の順に頂点が結ばれるため, 図4のような多角形を例にとると,各頂点から 殆どすべての場合に自己交差した作品多角形が描画される。 X 軸に向かって垂線を引くと,となりあわせる これを回避して図 3 のような多角形を描くためには,目視 によって結ぶべき頂点の座標の順番を修正し、その順序ベ 頂点と垂線で,頂点の数だけ台形ができる。 クトルを polygon( )に渡す必要がある. 13P ~ P の頂点と垂線でできる台形の面積の合 A. 1 Chrisitie 5 の作品数がであるため,作品多角形を作成で きない.このため,A. Christie を除く,10 名の作家に関し 計から,P5~ P8 および P1 の頂点と垂線でできる て作品多角形の面積比率の比較を行う.. 台形の面積の合計を引くと,多角形の面積が計算 6 できる。 一 般 に n 多 角 形 の 頂 点 座 標 を (x1, y1),(x2,. y2),…,(xn, yn) とするとき,その多角形の面積. が結ばれるため,殆どすべての場合に自己交差した作 品多角形が描画される。これを回避して図3のような. 68. 多角形を描くためには,目視によって結ぶべき頂点の. 13 A. Chrisitieの作品数がであるため,作品多角形を作. 座標の順番を修正し,その順序ベクトルをpolygon ( ). 成できない。このため,A. Christieを除く,10名の作. に渡す必要がある。. 家に関して作品多角形の面積比率の比較を行う。. 図3におけ. 式に代入する. られる.図 3. るので,面積. 一方,図5. 元尺度法を適. トした散布図. んで多角形を. 図5におけ. 1120.025 で,.
(8) 現代英語で書かれた文学作品の文体特徴の計量⑵. 図5におけるC. Dickensの作品多角形の面積は 1120.025で,散布図全体の面積が200*160=32,000 であるので,面積比率は0.047となる。 2つの面積比率の差を検定すると,χ2=2.2811,. 図4 4 多角形頂点から X 軸へ垂線 (西山 1991, p. 93)から転載). だ多角形. P1~P5 の頂点と垂線でできる台形の面積の合計か ら,P5~P8 および P1 の頂点と垂線でできる台形の面 図4 多角形頂点からX軸へ垂線 積の合計を引くと,多角形の面積が計算できる. (西山1991,p.93)から転載). は,単項モ. 一般に n 多角形の頂点座標を(x1, y1), (x2, y2), …, (xn,. 積が散布図. yn)とするとき,その多角形の面積は次の式で求める は次の式で求めることができる。 ことができる.. における割. の割合が有 S�. において同. られている. 面積比率の. 1 ��𝑦𝑦 � 𝑦𝑦� ��𝑥𝑥� � 𝑥𝑥� � � �𝑦𝑦� � 𝑦𝑦� ��𝑥𝑥� � 𝑥𝑥� � 2 �. . 全体として. � � � �𝑦𝑦� � 𝑦𝑦� ��𝑥𝑥� � 𝑥𝑥� � �. 西山(1991, p. 95) 西山(1991,p.95). 図3における C. Dickens の作品の座標の値を上の 図3におけるC. Dickensの作品の座標の値を上 式に代入すると,作品多角形の面積 S=9.330 が求め. の式に代入すると,作品多角形の面積 S =9.330 られる.図 3 の散布図全体の面積 S は 90*5=450 であ * 5 が求められる。図3の散布図全体の面積 S は90 るので,面積比率は 0.0207 となる.. に,すべての を平行移動. 関数polygon ばれるため, 描画される。 には,目視 その順序ベ. 形を作成で 作家に関し. 自由度1,p 値=0.131により,有意とは言えない と判断できる。 2.4.3 多角形外側にある他作家作品数比率 の比較 もう一つの精度比較の方法も,作品多角形を利 用する。すなわち,MDS散布図における同一作 家の作品多角形を作図し,その多角形の内側にあ る作品数と,その外側に位置する他作家の作品数 を数えて比較する。他作家の作品が当該多角形の 内側にプロットされていれば,当該作家の作品と の類似性が強いことを示していると解釈できる。 その意味で,内側にある作品は当該作家の作品か ら正しく区別できていないと見なすことができ る14。逆に,当該作家の作品多角形の外側に位置 している他作家の作品は,当該作家の作品から正 しく区別されていると見なせる。このことから, 他作家の作品総数のうち,作品多角形の外側に位. =450であるので,面積比率は0.0207となる。 一方,図5は,68 項目の文体指標のデータに多次 一方,図5は,68項目の文体指標のデータに多 元尺度法を適用し,各作品の類似性を黒丸でプロッ. 置する作品数の比率を比較することで,2つのモ. 次元尺度法を適用し,各作品の類似性を黒丸でプ トした散布図の中に C. Dickens の作品(白丸)を結 ロットした散布図の中にC. Dickensの作品(白丸) んで多角形を描画したものである. あるので,面積比率は 0.047 となる. を結んで多角形を描画したものである。 図5における C. Dickens の作品多角形の面積は. このような比較を行うためには,ある座標が特. 1120.025 で,散布図全体の面積が 200*160=32,000 で. 6. デルの著者推定の精度を評価することができる。 定の多角形の内側にあるか,あるいは外側にある の多角形の内側にあるか,あるいは外側にあるかを かを判定しなければならない。川尻(2013)は, 判定しなければならない. 川尻(2013)は,この内外判 この内外判定を行うアルゴリズムを2つ説明して. 定を行うアルゴリズムを2つ説明しているが,今回 いるが,今回の調査では,そのうちの交差数判定 の調査では,そのうちの交差数判定法(crossing 法(crossing number algorithm)を用いること number algorithm)を用いることにする.川尻(2013) にする。川尻(2013)によると,交差数判定法は, によると,交差数判定法は,図 6 が示すように,あ 図6が示すように,ある点から引いた水平線が多 る点から引いた水平線が多角形の辺と交差する回数 角形の辺と交差する回数が奇数であれば多角形の が奇数であれば多角形の内側,交差数が偶数であれ 内側,交差数が偶数であればその外側にあると判 ばその外側にあると判定する. 定する。. 14 多次元尺度法による作品散布が誤っているという意. 図 5 C. C.Dickensの10作品の座標を結んだ多角形 Dickens の 10 作品の座標を結んだ多角形 図5 (調査項目数68) (調査項目数 2). 味では決してない。ある作家の作品多角形の内部にた またま他作家の作品が位置しているときに誤判定と見 なすとここで仮定しているに過ぎない。. 2つの面積比率の差を検定すると,χ2=2.2811, 自 由度1,p 値=0.131 により,有意とは言えないと判 断できる.. 図 6 交差数判定法(川尻 2013 から転載). 69.
(9) る点から引いた水平線が多角形の辺と交差する回数 が奇数であれば多角形の内側,交差数が偶数であれ ばその外側にあると判定する.. 福 田 薫. 法について説明した。この節では,作品多角形の 面積比率を比較した結果と,多角形外側の作品数 比率を比較した結果を提示して,項目数の異なる モデルの精度を比較する。. 角形. 3.1 作品多角形の面積比率の比較 はじめに,2.4.2節で説明した方法に従い,. , 自. と判. 図図6 交差数判定法(川尻2013から転載) 6 交差数判定法(川尻 2013 から転載). 作品多角形の面積比率を比較した結果を提示す. 川尻(2013)ではJava Scriptによる交差数判. 目(語長4文字と14文字以上の語の使用頻度)デー. る。表2は,10名の作家それぞれに対して,2項. 川尻(2013)ではJava Scriptによる交差数判定法のプ 定法のプログラムが紹介されているが,今回の調. タと68項目データに多次元尺度法による作品散布. ログラムが紹介されているが,今回の調査では,そ 査では, それをAWKのプログラムに書き直して,. 図を作成し,同一作家による作品多角形の面積と,. 利用. れを AWK のプログラムに書き直して,多角形の外 多角形の外側にある作品数から正判定の比率を計. 散布図全体に対する比率をそれぞれ算出した。比. の作. 算した。たとえば,図3においてC. Dickensの作 側にある作品数から正判定の比率を計算した.たと. 率の値が小さいモデルが各作家の作品の類似性を. 品数. 品多角形の外側にある作品数は,他作家による作 えば,図3において C. Dickens の作品多角形の外側. より良くとらえることのできる精度の高いモデル. て比. 品総数92のうち,77作品であるので,正判定の比 にある作品数は,他作家による作品総数 92 のうち,. ロッ. 77 作品であるので,正判定の比率は 0.837 である.. 強い. これに対し,図5における C. Dickens の作品多角形. 内側. の外側にある他作家の作品数は 83 で,正判定の比率 比率の差を検定すると,χ2=1,1979,自由度1,. と言える。表2の最後の列は,2つの面積比率の. 率は0.837である。これに対し,図5におけるC.. 差を検定したときのχ2検定統計量と有意判定の. Dickensの作品多角形の外側にある他作家の作品. 結果を示している。. 数は83で,正判定の比率は0.902である。2つの. 表2を見ると,2項目モデルと68項目モデルを 比較したとき,面積比率が有意に減少しているの. きて. 2. は p0.902 である.2つの比率の差を検定すると,χ 値=0.2737より,有意ではないと判定される。. はMelvilleの作品多角形のみで,逆に,Joyceと. の作. =1,1979,自由度 1,p 値=0.2737 より,有意ではな. Twainの作品多角形では有意に増加している。そ. ,当. いと判定される.. の他の7名の作家の作品多角形では,有意な差が. 3.モデルの比較. せる.. 見られなかった。これは,調査項目数が増えても. 前節では,今回の調査の目的と対象,調査項目. 作家ごとの作品多角形の面積比率でみれば必ずし. および著者推定の精度を比較するための2つの方. も有意な減少につながらないことを示しており,. 3. .モデルの比較. 多角. とで,. 前節では,今回の調査の目的と対象,調査項目およ. がで. び著者推定の精度を比較するための2つの方法につ 表2 作品多角形の面積比率と比率の差の検定結果 いて説明した.この節では,作品多角形の面積比率を 作家. 特定. 多角形面積. 多角形面積. (項目数2) (項目数68) 比較した結果と,多角形外側の作品数比率を比較した Carrol, Lewis 18.56 1518.98 結果を提示して,項目数の異なるモデルの精度を比較. 意味 たま ここ. 7. Conrad, Joseph する. Dickens, Charles Doyle, Conan Hardy, Thomas James, Henry Joyce, James Melville, Herman Twain, Mark Wodehouse, P. J. 全体. 面積比率 (項目数2). 面積比率 (項目数68). χ2値. 27.65 9.33 8.77 19.09 7.28 37.17 39.44 19.46 8.19. 1711.65 1120.03 723.31 940.46 1005.13 4735.27 1226.03 2711.58 444.54. 0.041 0.061 0.021 0.019 0.042 0.016 0.083 0.088 0.043 0.018. 0.047 0.053 0.035 0.023 0.029 0.031 0.148 0.038 0.085 0.014. 0.26 0.41 2.28 0.08 2.19 2.92 14.60*** 27.51*** 9.38*** 0.33. 194.93. 16136.96. 0.043. 0.050. 4.55* ***p<0.001, *p<0.05. 70.
(10) 現代英語で書かれた文学作品の文体特徴の計量⑵. やや意外な結果が得られた15。しかし,作家ごと. 判定の結果を示している。. ではなく作品多角形の合計面積の比率でみれば, 2. 表3の正判定率を作家ごとに比較した結果を見. 有意な減少(χ =4.55,自由度1,p 値=0.033). ると,2項目データの方が68項目データよりも有. が見られる。. 意に高いのはCarrolの作品のみであったが,逆. このような状況を解釈するに,語長の2つの文. に,68項目データの方が有意に高いという結果が. 体指標はJoyceやTwainの作品の類似性を意外な. 3作家(Conrad, HardyおよびJoyce)の作品に. ほどうまくとらえることができたと見るべきであ. おいて得られた。さらに,各作家の値を合計した. ろう。ただし,作品多角形を合計した面積比率で. 正判定数の比率の差を検定したところ,ここでも. 検定すると,多数の文体指標データを用いる分析. 68項目データの方が有意に高いという結果が得ら. の方が,同一作家の作品群の類似性をより良くと. 16 。 れた(χ2=21.83,自由度1,p 値<0.0001). この節では,作品多角形の面積のと多角形の外. らえられていると言える。. 側の作品数の比率に関する比較を行った。分析の 3.2 多角形外側作品数の比率の比較. 結果,2つの比較方法ともに,作家ごとの比較で. この節では,2.4.3節で説明した方法に従. は明瞭な差が得られなかった。しかしながら,合. い,作品多角形の外側に位置する作品数の比率を. 計面積の比率や外側作品数の合計の比率で比較す. 比較した結果を提示する。. ると,2項目のデータよりも68項目のデータを用. 表3は,2項目モデルと68項目モデルに対して 10名の作家ごとに,他作家の作品数,各作家の作. いる分析の方が有意に高い著者推定の精度が得ら れると言える。. 品多角形の外側に位置する他作家の作品数とその 比率を算出した結果である。面積比率の場合とは 反対に,比率が大きい方が精度の高いモデルと評. 4.調査項目数と精度の関係. 価できる。表3の最後の列は,2つの外側作品数. この節では,著者推定に用いる文体指標の数を. 比率の差を検定したときのχ2検定統計量と有意. 増やしていくと,それに応じて推定精度がどのよ. 表3 作品多角形の外側作品数の比率と比率の差の検定結果 作家(作品数) Carrol, J. (5) Conrad, J. (12) Dickens, D. (10) Doyle, D. (12) Hardy, T. (12) James, H. (10) Joyce, J. (4) Melville, H. (10) Twain, T. (12) Wodehouse, P.J.(13) 全体. 他作家の 作品数. 外側作品数 外側作品数 (項目数2) (項目数68). 作品数比率 作品数比率 (項目数2) (項目数68). χ2値. 97 90 92 90 90 92 98 92 90 89. 95 57 77 74 69 86 56 57 57 76. 84 86 83 79 80 91 80 60 60 89. 0.979 0.633 0.837 0.822 0.767 0.935 0.571 0.882 0.633 0.854. 0.866 0.956 0.902 0.878 0.889 0.989 0.816 0.870 0.667 0.910. 7.23** 26.67*** 1.20 0.70 3.90* 2.38 12.71*** 0.00 0.10 0.86. 920. 729. 804. 0.792. 0.874. 21.83***. ***p<0.001, **p<0.01, *p<0.05 15 面積比率の平均値を取って,2項目データと68項目. 16 それぞれの正判定率の平均を取って,t 検定を行った. データの差を検定したところ,有意ではなかった(t =. ところ,有意な差があるとは言えないという結果となっ. -0.5206,自由度17.522,p 値=0.9062)。. た(t =-1.611,自由度15.236,p 値=0.1277) 。. 71.
(11) ータを MDS 散布図に変換すると,図7のように, 作品が直線状に布置される. 福 田 薫. 図8 8. うに変化するか,増加に伴って精度の向上が見ら. 調査項目. れるかどうかを検証してみたい。2.4.3節で述べた. がよりよく. ように,用いる文体指標が1項目のみの場合は,. 散布図全体. 多次元尺度法によって作品を2次元散布図上にう. 期待される. まく布置できない。そこで少なくとも2項目以上. 査では,調. の文体指標データが必要となる。今回の調査では,. 関係は見ら. 2項目,4項目,8項目,16項目,32項目,そし. の散らばり. て68項目を用いるモデルを用意して,項目数のと. すなわち,. 推定精度の関連を探ることにした。. 比率の平均. ある.図8. 2.3節で列挙した文体指標のうちどれを調査 項目としてを用いるべきかに関して,おおよそ次 の3つの基準を設定した。すなわち,作家間の変. 図7 7 図7 多元尺度法による作品散布図 多元尺度法による作品散布図 (調査項目数 4) (調査項目数4). 動係数が大きいことを優先し,同一のカテゴリに 調査項目として選定した4つの文体指標の頻度デ. 属する他の文体指標との相関が高くない(0.6以. 調査項目として選定した4つの文体指標の頻度. 下) ,特定のカテゴリに偏りすぎないようバラン. データを見ると,いずれも,大部分の作品が0に 10. スをとった。実際に選定された調査項目は表4の. 近い低い値を取り,半数近くの作品において値が. 通りである。 表4 4 今回の調査で選定した調査項目のリスト 今回の調査では上記のように調査項目数の異な 2項目 語長4文字,語長 14 文字以上 る6種類のデータを用意して,調査項目数と推定 動作主句つき受動文,Yes-No 疑問文, 4項目 精度の関係を探ることにした。しかし,調査項目 代名詞縮約,過去分詞構文 4のデータをMDS散布図に変換すると,図7の 上記4項目に加えて,現在分詞構文,助 ように,作品が直線状に布置される。 8項目 動詞縮約,動作主句なし受動文,否定辞. 0となっている。同値をもつ作品が多いため,直 ータを見ると,いずれも,大部分の作品が0に近い 線的で偏った分布になっていると思われる。図6 低い値を取り,半数近くの作品において値が0とな の散布図に基づいて作品多角形の面積を求めるこ っている.同値をもつ作品が多いため,直線的で偏 とや多角形の内外にある作品数を計数することが った分布になっていると思われる.図6の散布図に 困難であると判断される。そこで,調査項目数4 基づいて作品多角形の面積を求めることや多角形の のデータに基づく調査は割愛することにした。 内外にある作品数を計数することが困難であると判 次の図8は,調査項目をN=2,8,16,32,68 断される.そこで,調査項目数4のデータに基づく としたときの作品多角形の面積の,散布図全体の 調査は割愛することにした. 面積に対する比率をプロットし,比率の平均値の 次の図8は,調査項目を N=2,8,16,32,68 と 推移を折れ線で図示したものである。 したときの作品多角形の面積の,散布図全体の面積 調査項目の数が増えると作家ごとの作品の類似 に対する比率をプロットし,比率の平均値の推移を 性がよりよく捉えられると仮定すれば,作品多角 折れ線で図示したものである.. 縮約. 表4 今回の調査で選定した調査項目のリスト 2項目. 上記8項目に加えて,総合的 no 否定文,. 語長4文字,語長14文字以上 論理的接続副詞(conjunct),理由の副詞. 動作主句つき受動文,Yes-No疑問文, 節,強調副詞,譲歩の副詞節,主格関係 16 項目 4項目 代名詞縮約,過去分詞構文. 詞 that,直接 WH 疑問文,必然性の法助. 8項目. 上記4項目に加えて,現在分詞構文,助 動詞 動詞縮約,動作主句なし受動文,否定辞 縮約 上記 16 項目に加えて,完了相,公的動. 詞,存在 there 構文,2人称代名詞,動 上記8項目に加えて,総合的no否定文, 論理的接続副詞(conjunct) ,理由の副 名詞,随伴関係節(pied-piping),1人称 16項目 詞節,強調副詞,譲歩の副詞節,主格関 代名詞,繰り上げ動詞,不定代名詞,緩 32 項目 係詞that,直接WH疑問文,必然性の法 助動詞叙副詞(downtoner),条件の副詞節,代動 上記16項目に加えて, 公的動詞, 詞表現,分析的完了相, not 否定文,数詞,主格 存在there構文,2人称代名詞,動名詞, wh 関係詞,平均文長 随伴関係節(pied-piping) ,1人称代名 68 項目 2.3 節でリストした全ての文体指標 32項目 詞,繰り上げ動詞,不定代名詞,緩叙副 詞(downtoner) ,条件の副詞節,代動 詞表現,分析的not否定文,数詞,主格 ータを MDS 散布図に変換すると,図7のように, wh関係詞,平均文長. 作品が直線状に布置される.. 68項目. 72. 2.3節でリストした全ての文体指標. 図8 8 作品多角形の面積比率の推移 図8 作品多角形の面積比率の推移. 調査項目の数が増えると作家ごとの作品の類似性 がよりよく捉えられると仮定すれば,作品多角形の 散布図全体に対する面積比率は減少していくことが. ばりが比較. 平均値を大. れらが平均. Joyce にこの.
(12) 現代英語で書かれた文学作品の文体特徴の計量⑵. 形の散布図全体に対する面積比率は減少していく. 作品多角形の面積比率の場合と同様に,ここに. ことが期待される。しかし,図8が示すように,. おいても,TwainとJoyceの外側作品数の比率が. 今回の調査では,調査項目数と面積比率の間に単. 平均よりも下回るはなれ値となっていて,結果的. 純な減少の関係は見られなかった。これは,各モ. に比率の平均値を押し下げている。特に,項目数. デルのデータの散らばりの大きさが影響している. 8のときのTwain作品の外側作品数比率が際立っ. と考えられる。すなわち,作家の比率データには. て低い。図10は,そのときのTwainの各作品のX. なれ値があると,比率の平均は離れ値の方向に引. 軸の値に主に基づいて,作品群を3グループ化し. き寄せられるためである。図8を見ると,2項目. て図示したものである。. モデルでは比率の散らばりが比較的小さいのに対 し,その他のモデルでは平均値を大きく上回るは いために多角形面積の比率が他作家よりも大きい. なれ値がいくつかあり,それらが平均値を引き上 次の図9は,調査項目が増えるにつれて,作品多 げている。特に,Twainと Joyceにこの傾向が顕 角形の外側にある他作家の作品数の比率をプロット 著にあり,作品間の類似性が低いために多角形面 し,比率の平均値の推移を折れ線で図示したもので 積の比率が他作家よりも大きい。 ある. いために多角形面積の比率が他作家よりも大きい. 次の図9は,調査項目が増えるにつれて,作品 次の図9は,調査項目が増えるにつれて,作品多 多角形の外側にある他作家の作品数の比率をプ 角形の外側にある他作家の作品数の比率をプロット ロットし,比率の平均値の推移を折れ線で図示し し,比率の平均値の推移を折れ線で図示したもので たものである。 ある. 図10 M.M.Twainの作品多角形と作品グループ 図 10 Twain の作品多角形と作品グループ (調査項目数8). (調査項目数 8). 品を含む.他の小説作品や旅行記・随筆作品とは 図10における右端のグループは,The Adventures ちがって,これらの 4 作品はいずれも黒人英語を of Tom Sawyer, Adventures of Huckleberry Finn, 図 10 M. Twain の作品多角形と作品グループ 話す主人公が活躍する小説であり,文体的にも趣 Tom Sawyer, Detective, およびTom Sawyer Abroad (調査項目数 8) を異にしている.この作品グループの特異性が の4作品を含む。他の小説作品や旅行記・随筆作 Twain の作品群の文体的変動の幅を大きくし,それ 品を含む.他の小説作品や旅行記・随筆作品とは 品とはちがって,これらの4作品はいずれも黒人 図9 9 作品多角形の外側の作品数の推移. ゆえ,他の作家の作品と文体的に区別しにくくなっ ちがって,これらの 4 作品はいずれも黒人英語を 英語を話す主人公が活躍する小説であり,文体的 ている. 話す主人公が活躍する小説であり,文体的にも趣 にも趣を異にしている。この作品グループの特異 Joyce の対象作品も多彩で,初期の小説 2 つ,異色 を異にしている.この作品グループの特異性が 性がTwainの作品群の文体的変動の幅を大きく. の大作Ulysses および詩集Chamber Music を含んでい の作品群の文体的変動の幅を大きくし,それ Twain し,それゆえ,他の作家の作品と文体的に区別し 図9を見ると,2項目モデルと比べて,多項目の る.作品間の文体上の類似性が低いため,作品多角 ゆえ,他の作家の作品と文体的に区別しにくくなっ 図9 作品多角形の外側の作品数の推移 にくくなっている。 図9 9 作品多角形の外側の作品数の推移 モデルのすべてにおいて,多角形の外側作品数の比 形の内側に比較的多数の他作家の作品を含むことに ている. Joyceの対象作品も多彩で,初期の小説2つ, 率の平均値がより高い値を示している.平均値の折 なる.Twain にせよ,Joyce初期の小説 にせよ,調査対象とした Joyce の対象作品も多彩で, 2 つ,異色 図9を見ると,2項目モデルと比べて,多項目 異色の大作Ulyssesおよび詩集Chamber Musicを れ線は緩やかな上昇を描いているように見える。図 作品が多彩で異質ではあるものの,その性質は作品 の大作Ulysses および詩集Chamber Music を含んでい のモデルのすべてにおいて,多角形の外側作品数 含んでいる。作品間の文体上の類似性が低いため, 8でプロットされている点の相関係数は 0.176 で, 図9を見ると,2項目モデルと比べて,多項目の 間の類似性の距離として多次元尺度法によってに適 る.作品間の文体上の類似性が低いため,作品多角 の比率の平均値がより高い値を示している。平均 作品多角形の内側に比較的多数の他作家の作品を 弱い正の相関が観察される.ただし,無相関の検定 モデルのすべてにおいて,多角形の外側作品数の比 切に測定されているとみるべきであろう.この意味 形の内側に比較的多数の他作家の作品を含むことに 値の折れ線は緩やかな上昇を描いているように見 含むことになる。Twainにせよ,Joyceにせよ, を行ったところ,有意な結果は得られなかった 率の平均値がより高い値を示している.平均値の折 では,著者推定の精度を検証する場合,文体指標の なる.Twain にせよ,Joyce にせよ,調査対象とした える。図8でプロットされている点の相関係数は 調査対象とした作品が多彩で異質ではあるもの (t=1.093,自由度 48,p 値=0.2798) . れ線は緩やかな上昇を描いているように見える。図 選定とともに,対象作品の選定もまた重要な要素で 作品が多彩で異質ではあるものの,その性質は作品 0.176で,弱い正の相関が観察される。ただし, の,その性質は作品間の類似性の距離として多次 作品多角形の面積比率の場合と同様に,ここにお 8でプロットされている点の相関係数は 0.176 で, あることを示している。 間の類似性の距離として多次元尺度法によってに適 無相関の検定を行ったところ,有意な結果は得ら 元尺度法によってに適切に測定されているとみる いても,Twain と Joyce の外側作品数の比率が平均よ 弱い正の相関が観察される.ただし,無相関の検定 切に測定されているとみるべきであろう.この意味 れなかった(t=1.093,自由度48,p値=0.2798) 。 べきであろう。この意味では,著者推定の精度を りも下回るはなれ値となっていて,結果的に比率の を行ったところ,有意な結果は得られなかった 5. .まとめと課題 では,著者推定の精度を検証する場合,文体指標の 平均値を押し下げている.特に,項目数8のときの (t=1.093,自由度 48,p 値=0.2798) . 本稿では,11 名の作家によって書かれた現代英語の 選定とともに,対象作品の選定もまた重要な要素で Twain 作品の外側作品数比率が際立って低い.図 10 作品多角形の面積比率の場合と同様に,ここにお 73 文学作品 102 テキストを対象にして,複数項目の文体 あることを示している。 は,そのときの Twain の各作品の X 軸の値に主に基 いても,Twain と Joyce の外側作品数の比率が平均よ 指標を用いて著者推定を行うと単数の項目の場合より づいて,作品群を3グループ化して図示したもので りも下回るはなれ値となっていて,結果的に比率の.
(13) 福 田 薫. 検証する場合,文体指標の選定とともに,対象作. タに多次元尺度法を適用して類似性距離に変換. 品の選定もまた重要な要素であることを示してい. し,対象作品を2次元平面上に散布する。次に,. る。. 同一作家の作品を結んで作成される多角形に基づ いて,その面積の比率,およびその外側にある作. 5.まとめと課題. 品数の比率を算出し,著者推定の精度を比較する 際の基準とした。これはやや複雑で迂遠な手順を. 本稿では,11名の作家によって書かれた現代英. 要するものの,今回の調査が示す通り,実際に機. 語の文学作品102テキストを対象にして,複数項. 能する計量的な比較方法であると言える。その一. 目の文体指標を用いて著者推定を行うと単数の項. 方で,本稿で採用したこの方法が,モデルの比較. 目の場合よりも推定精度が向上するかどうかを検. 評価としてすぐれて妥当と言えるのか,他にも,. 証した。比較の方法として,多次元尺度法によっ. 妥当で,迂遠ではない分析方法を探る必要があ. て対象作品を2次元平面に散布したときに,同一. る17。. 作家の作品を結んでできる多角形の面積を計測. 調査項目数と推定精度の関係を計量的に検証す. し,また,その作品多角形の外側に位置する他作. る目的を達成するには,2個から n 個までの i 個. 家の作品数を計数して,作品多角形の面積比率と,. の項目を用いるモデルを,可能な項目の組み合わ. 外側作品数の比率の差を統計的に検定した。その. せのすべてを用いて,精度の推移を大規模にシ. 結果,いずれの比較方法においても,合計した面. ミュレーションすることが望ましい。今回の調査. 積や作品数の比率で比較すると,単項目のデータ. で用いた精度の比較過程では,同一作家の作品多. を用いる分析よりも,多くの項目を用いる分析の. 角形の作成が決定的に重要な役割を果たしてい. 方が著者推定の精度が高まるという結果を得た。. る。しかし,注12で触れたように,作品の座標デー. 特に,68項目モデルの多角形外側作品数の比率で. タに基づいて自己交差をしない多角形を自動的に. は,平均で87.4%という比較的高い正判定率を記. 作成するアルゴリズムはかなり複雑で,私のプロ. 録し,2項目モデルよりも8.2ポイントの伸びを. グラミング技能では実装できなかった。このため,. 示した。. 毎回目視によって座標データの順序を読み取り,. 調査項目数と推定精度の関係ついては,項目数. その順序を引数として入力指定する必要があっ. を増やしても,面積比率の比較では,有意な向上. た。この過程を自動処理するプログラムを開発し. は見られなかった。多角形外側の作品数比率の比. て,大規模な精度比較のシミュレーションを可能. 較では,わずかながら正の相関が観察されたが有. にすることが望まれる。. 意ではなかった。このように,期待される結果が. テキストの文体上の特徴からそのテキストの著. 得られなかった理由は,おそらく,対象作品の選. 者を推定する問題は,アヤメの花びらやガクの長. 定と調査項目の選定にあると思われる。すなわち,. さや幅のデータからその種類を判定する問題より. 同一作家からはなるべく同質の作品を選定するの. も,一層とらえがたく,厄介である。ひとつには,. が望ましいと言える。また,一般に作家間の変動. 著者とその文体は必ずしも確立した関係ではな. 係数が大きい調査項目が望ましいが,0などの同. く,同一著者であってもテキストのジャンルに応. 値を多く持つ項目は座標点の集中とはなれ値を生. じて相当な変異が起こりうるためである。もう一. じさせる危険があるので避けるべきであろう。. つには,著者推定に有効と判断される文体指標が. 今回の調査をふまえて,理論的観点と技術的観. まだ確定されていないためでもある。このような. 点から1つずつ今後の課題を挙げておきたい。ひ とつは,精度を比較評価する方法の妥当性を検討 する必要がある。今回の調査では,まず,頻度デー. 74. 17 クラスター分析,判別分析などが,より直接的で, 妥当な比較方法の候補として考えられる。.
(14) 現代英語で書かれた文学作品の文体特徴の計量⑵. 状況では,一定程度の分量のある対象テキストを 慎重に選定し,複数の文体指標を組み合わせて, 推定を行わざるを得ない。この意味で,本稿での 調査と論考がひとつの事例として今後の著者推定 研究の一助となれば幸いである。. 参照文献 エイホ・A, カーニハン・P.J., ワインバーガー・B.W.(1989) 『プログラミング言語AWK』,トッパン. Biber, D. (1988) Variation across Speech and Writing, Cambridge: Cambridge University Press. Brinegar, C.S. (1963) “Mark Twain and the Quintus Curtius Snodgrass letters: A statistical test of authorship,” Journal of the American Statistical Association,58 (301),85-96. 福田薫(2018) 「現代英語で書かれた文学作品の文体特徴 の計量⑴―語長分布と著者推定」,『北海道教育大学紀 要 人文科学・社会科学編』第68巻第2号,13-22. 樺島忠夫・寿岳章子 (1965)『文体の科学』,綜芸社. 川尻真寛 (2013)「技術者が紹介するNTTPCのテクノロ ジー 第2回点の多角形に対する内外判定」(https:// www.nttpc.co.jp/technology/number_algorithm.html, 最終閲覧2020年9月26日) 金明哲(2008)「フリーソフトによるデータ解析・マイニ ング第60回 統計的テキスト解析⑸~統計法則と指標」 Estrela 172, 60-65. 金明哲(2009)『テキストデータの統計科学入門』,東京: 岩波書店. 金明哲(2017)『Rによるデータサイエンス データ解析 の基礎から最新手法まで』,東京:森北出版. Mendenhall, T.C. (1901) “A mechanical solution of a literary problem,” Popular Science Monthly, 60⑵,97105. 西山豊(1991) 『サイエンスの香り―生活の中の数理』, 日本評論社. Quirk, R.,S. Greenbaum, G. Leech, J. Svartvik (1985) A Comprehensive Grammar of Contemporary English, London: Longman.. . (函館校教授). 75.
(15)
関連したドキュメント
機械と人間との対話に関する研究は,自然言語処理の分野に
①の文章の知覚の段階とは,文章を表現に即 して読んでいく段階の事で,ここでは,描かれ
抽出した特徴量を入力ベクトルとして自己組織化マップ (SOM)[2] のアルゴリズムを実行し,商品を 2 次元マップ に配置し,俯瞰マップとする.
そうすると,素材そのものに制作者の関与がある
今日イタリアに関するガイドブックや書籍がた くさん出版されています。なかでも本書はアイウ
とになる。 英語と日本語の学習においては、例えば Hall(1 9 7 6)が分類した低文脈文化と高文脈文化の 違いや、池上(1 9
本稿では,語彙の生起パターンを統計解析することにより,英国ビクトリア朝の作 家 Charles Dickens と
的行為文と身体的行為文にわけ、合わせて全体での分布を示す。全文で見ると容易性の平均値は