人文科学とコンピュータシンポジウム 2018 年 12 月 夏目漱石の小説における文語表現について 土山玄 ( 一橋大学森有礼高等教育国際流動化機構 ) 本研究では文学的文章において文体的特徴の継時的な変化が認められるのか, 計量的な観点から検討を加える. 本研究において採り上げたのは文豪として著名
8
0
0
全文
(2) The Computers and the Humanities Symposium. Dec. 2018. 表 1 分析に用いた作品リスト . .C35. # 0 + A/. @0 + A/.
(3). . . *, :.
(4). . . 8 M.
(5). . . &.
(6). . .
(7). . .
(8). . . B! H.
(9). . . $
(10) .
(11). . . <6.
(12). . .
(13). . .
(14). . . D 7OP. =L? D 7OP. 91 J.
(15)
(16) . . . %(.
(17)
(18) . . . 0N.
(19). . . >;<. '&.
(20). . . "I.
(21)
(22) . . . .
(23)
(24) . . . K.
(25)
(26) . . . -)FE.
(27)
(28) . . .
(29)
(30) . . .
(31)
(32) . . . ? G<.
(33)
(34) . . . . 24.
(35)
(36) . . . 析の結果,係助詞の「は」及び格助詞の「に」 「を」 「の」の出現率が継時的に増加し,反対に格助詞 の「が」 「と」や接続助詞の「て」の出現率が減少 していることを明らかにした[3]. 本研究では日本近代における文豪として著名 な夏目漱石の小説を採り上げ,継時的に出現傾向 が変化する文体的特徴が認められるのか検討す るために統計的な分析を行う. 夏目漱石の小説家としての活動期間は『吾輩は 猫である』を発表した 1905 年から『明暗』が未 完のまま発表された 1916 年までであり,本研究 ではこの期間に発表された 22 作品について分析 を行った.本研究ではこれらの作品の品詞の比率 や単語の出現傾向に変化が認められるのか計量 的な観点から検討を加える.また,夏目漱石の小 説を対象とした関連研究として,文体の継時的な 変化についての研究とした研究があり[4],動詞と 補助動詞が隣接共起する頻度が継時的に減少す る傾向が認められることが報告されている.そこ で,本研究では品詞の共起関係だけではなく,単 語の出現傾向についても考察を行う.. 2.データ 本研究で採り上げた小説は表 1 に示した 22 作. 品である.これら 22 作品の発表年も表 1 に示し た. 『吾輩は猫である』 は第一から第六までは 1905 年に発表されており,第七から第十一は 1906 年 に発表されている.加えて,表 1 に示したように 『吾輩は猫である』の第六の発表と第七の発表と の間に『幻影の盾』『琴のそら音』『一夜』『薤露 行』という 4 作品が発表されている.そのため, 本研究においては『吾輩は猫である』は第一から 第六までと第七から第十一までの 2 つに分割し た.『行人』も発表年が複数年にまたがっている が, 『行人』は朝日新聞に連載された小説であり, 連載期間中に他の小説が発表されていないため, 『吾輩は猫である』のように分割しない. また,本研究で用いた小説のテキストデータは 青空文庫 (http://www.aozora.gr.jp/) から入手した. 形態素解析は MeCab ver. 0.996 を,形態素解析に 使用した辞書は UniDic ver. 2.0.1 を用いた.. 3.分析 3.1 特徴量について 本研究では,作品別の品詞の比率と単語の出現 率を特徴量として分析に用いた.品詞の比率は各 作品の延べ語数に対する各品詞の出現頻度の割 合である.次いで,単語の出現率については上記 ©2018 Information Processing Society of Japan. - 270 -.
(37) 「人文科学とコンピュータシンポジウム」2018 年 12 月. 図 1. 図 3 24 品詞タグの主成分分析. 14 品詞の主成分分析の結果. 図 2 14 品詞についての主成分分析の第 1 主成分 の主成分負荷量. の品詞タグ別に計算し,見出し語となる単語の出 現頻度の総度数に対する割合を求めた.. 3.2 品詞の比率 まず,本研究では形態素解析によって得られた 14 の品詞タグの作品別の比率について,相関係 数行列を用いた主成分分析を行った.分析に用い た品詞タグは名詞,代名詞,動詞,形容詞,形状 詞 (形容動詞の語根) ,副詞,連体詞,接続詞, 感動詞,接頭辞,接尾辞,助詞,助動詞,補助記 号である.図 1 は主成分分析の結果であり,第 1. 図 4 24 品詞タグを用いた主成分分析の第 1 主成 分の主成分得点. 主成分の主成分得点と第 2 主成分の散布図であ る.図 1 より第 1 主成分の主成分得点に基づくと 1905 年に発表された 『幻影の盾』 『一夜』 『薤露行』 の 3 作品が他の小説から離れて付置されると判 断される.図 2 は主成分分析によって求められた 第 1 主成分の主成分負荷量であり,これより『幻 影の盾』 『一夜』 『薤露行』の 3 作品は名詞や助詞 の比率が他の作品より高く,反対に副詞や助動詞 の比率が低いと考えられる.名詞や副詞と異なり, 助詞や助動詞は文中において語彙的意味ではな く文法的機能を担う語である.従って,助詞や助. ©2018 Information Processing Society of Japan. - 271 -.
(38) The Computers and the Humanities Symposium. Dec. 2018. 図 5 24 品詞タグを用いた主成分分析の第 1 主成 分の主成分負荷量. 図 6 会話文を除外した 24 品詞タグの主成分分析. 動詞の出現傾向は小説の内容の相違の影響を受 けにくいと考えられ,ここに小説のストーリーの 相違に起因しない文体的特徴の相違が認められ 得ると推測される. 次に,助詞を 1 つのタグとはせず,本研究では 格助詞,副助詞,係助詞,接続助詞,終助詞,準 体助詞というように 6 つのタグに分割した.これ に加えて,形態素解析の際に語であるかの判定が 可能であり,本研究ではこの情報を分析に使用し. 図 7 会話文を除外した 24 品詞タグを用いた主成 分分析の第 1 主成分の主成分得点. 図 8 会話文を除外した 24 品詞タグを用いた主成 分分析の第 1 主成分の主成分負荷量. 動詞,形容詞,助動詞,接尾辞の 4 つは形態素解 析の際に文語と判定された語があったことから, 文語動詞,文語形容詞,文語助動詞,文語接尾辞 という 4 つのカテゴリを新たに作った.ただし, この文語という判定は正確ではなく,現代語用の 活用に含まれない語形が文語として出力された ものである.従って,文語と口語が同形の単語は 文語と判定されない.しかし,助動詞の「べし」 や「ごとし」などは文語と判定されることから,. ©2018 Information Processing Society of Japan. - 272 -.
(39) 「人文科学とコンピュータシンポジウム」2018 年 12 月. 図 9 助動詞上位 20 語の出現率についての主成分 分析の結果. 図 11 全文における「り」の出現率. 図 10 助動詞上位 20 語の主成分分析の第 1 主成 分の主成分負荷量. 図 12 全文における「き」の出現率. これらの 4 つのカテゴリを用い主成分分析を行 った.新たに分析に用いた品詞タグの総数は 24 である. 図 3 は 24 の品詞タグを用いた主成分分析によ って求められた第 1 主成分と第 2 主成分の主成 分得点の散布図である.図 3 より第 1 主成分の主 成分得点に基づくと図 1 と同様に『幻影の盾』 『一 夜』 『薤露行』の 3 作品が他の小説から離れて付 置されると判断される.図 4 は第 1 主成分の主成. 分得点を棒グラフとして可視化したグラフであ るが,『幻影の盾』 『一夜』 『薤露行』の 3 作品が 他の作品とは異なる量的特徴を有していること は明らかである.また,図 5 は第 1 主成分の主成 分負荷量である.なお,図 5 に示した変数は主成 分負荷量の大きい 10 変数と小さい 10 変数であ る.図 4 及び図 5 より,1905 年発表された『幻影 の盾』 『一夜』 『薤露行』の 3 作品は文語助動詞や 文語形容詞などの比率が他の作品より高いと考. ©2018 Information Processing Society of Japan. - 273 -.
(40) The Computers and the Humanities Symposium. Dec. 2018. 図 15 会話文を除外した助動詞上位 20 語の主成 分分析の第 1 主成分の主成分負荷量. 図 13 全文における「ごとし」の出現率. 図 16 地の文における「たり」の出現率. 図 14 会話文を除外した助動詞上位 20 語の出現 率についての主成分分析の結果. えられる.なお,図 5 において,文語助動詞の他 に助動詞という変数があるが,助動詞は文語助動 詞と判定された単語を除いた品詞タグである. 以上の分析は分析対象とした 22 作品の全文を 用いた.しかし,小説内部における会話文は描か れるストーリーや舞台に応じて,地の文とは文体 が同様ではないことが考えれる.上掲の金 (2009) においても会話文を分析から除外している[3]こ とから,本研究においても会話文を削除し,同様. に 24 の品詞タグの比率について改めて分析を行 った.図 6 は第 1 主成分及び第 2 主成分の主成分 得点の散布図である.加えて,図 7 は第 1 主成分 の主成分得点を棒グラフとして表したものであ る.図 7 において,1906 年に発表された『草枕』 『二百十日』,1907 年に発表された『野分』 『虞美 人草』の 4 作品は第 1 主成分の主成分得点が正と なるが,ここにおいても第 1 主成分において『幻 影の盾』 『一夜』 『薤露行』の 3 作品は他の作品と. ©2018 Information Processing Society of Japan. - 274 -.
(41) 「人文科学とコンピュータシンポジウム」2018 年 12 月. 3.3 単語の出現率 品詞の比率についての分析から,1905 年に発 表された『幻影の盾』 『一夜』 『薤露行』の 3 作品 は他の作品と異なる文体的特徴を有していると 考えられる.そして,以上の分析結果からこれら 3 作品は機能語である文語助動詞と判定された助 動詞を含む助動詞の出現傾向が他の小説と相違 していると推測される.そこで,本研究ではすべ ての助動詞の出現傾向について分析を加えた.ま た,ここでも 22 作品の全文を対象とした分析と 会話文を除外した分析を行った. まず,22 作品の全文を対象とし主成分分析を 行った.分析に用いたのは出現頻度上位 20 語で ある.上位 20 語までの累積度数は全体の 99.2% を占める.図 9 は第 1 主成分と第 2 主成分の主成 分得点の散布図である.図 9 より第 1 主成分の主 成分得点に基づき判断すると, 『幻影の盾』 『一夜』 『薤露行』の 3 作品は他の小説とは助動詞の出現 図 17 地の文における「なり」の出現率 傾向が相違していると考えられる.また,図 10 に 示した第 1 主成分の主成分負荷量から,上掲の 3 作品は「り」 「き」 「ごとし」 「なり」 「たり」など の出現傾向が高いと考えられる. 図 11 は助動詞「り」の出現率,図 12 は助動詞 「き」,図 13 は助動詞「ごとし」の出現率を可視 化したグラフである.図 13 に示したように, 『一 夜』における「ごとし」の出現率は『幻影の盾』 及び『薤露行』に比べて低いが,それでもこれら 3 作品は「り」 「き」 「ごとし」と言った助動詞の 出現率が他の小説における出現率よりも高いこ とが分かる. 次に,22 作品の会話文を除外した地の文につ いて主成分分析を行った.全文を対象とした分析 と同様に出現頻度上位 20 語を分析に用いた.上 位 20 語までの累積度数は全体の 99.4%に該当す る.図 14 は第 1 主成分と第 2 主成分の主成分得 点の散布図であり, 『幻影の盾』 『一夜』 『薤露行』 の 3 作品の第 1 主成分の主成分得点は負となり, 図 18 地の文における「ごとし」の出現率 ここでも他の作品とは異なる助動詞の出現傾向 を有していると考えられる.図 15 は第 1 主成分 異なる文体的特徴を有していると考えられる.ま の主成分負荷量であり, 『幻影の盾』 『一夜』 『薤露 た,図 8 は第 1 主成分の主成分負荷量の棒グラフ 行』の 3 作品は他の小説と比較し, 「たり」 「なり」 であり,図 5 と同様に主成分負荷量の大きい 10 「ごとし」 「ず」 「り」 「き」などの出現傾向が高い 変数と小さい 10 変数である.図 8 より『幻影の と考えられる. 盾』 『一夜』 『薤露行』の 3 作品は他の作品に比べ 図 16 は助動詞「たり」の出現率,図 17 は助動 文語助動詞の比率が高く,文語助動詞を除く助動 詞「なり」の出現率,図 18 は助動詞「ごとし」 詞の比率が低いと考えられる. の出現率を可視化したグラフである.図 16 に示 このように, 22 作品の全文を対象とした場合, したようにこれら 3 作品の「たり」の出現率は他 22 作品の会話文除外した地の文のみを対象とし の作品の出現率を大きく上回っており,図 17 よ た場合,どちらの場合においても文語表現と考え り『薤露行』における「なり」の出現率は非常に られる助動詞の比率が『幻影の盾』 『一夜』 『薤露 高いと言える.また,図 18 は図 13 と同様に『一 行』の 3 作品において相対的に高いと考えられる. 夜』における「ごとし」の出現率は『幻影の盾』. ©2018 Information Processing Society of Japan. - 275 -.
(42) The Computers and the Humanities Symposium. Dec. 2018. や『薤露行』に比べると低く, 『吾輩は猫である』 における出現率と大きく変わらない. 先にふれたように,形態素解析において文語と 判定された助動詞は現代語用の活用に含まれな い語形が文語として出力されたものである.しか し,品詞の比率ではなく助動詞の単語の出現率を 分析に用いたことで,『幻影の盾』『一夜』『薤露 行』の 3 作品において「り」「き」「ごとし」 「な り」 「たり」などの助動詞の出現率が,全文を対象 とした場合,地の文のみを対象とした場合,どち らにおいても他の作品に比べて出現率が高いこ とが明らかになった. また,芥川龍之介の著作を対象とした研究では 助詞の出現率に継時的な文体変化が認められた と報告されている[3]が,本研究の分析では,助動 詞の出現傾向において文体の変化が認められた.. 4.考察 本研究では,近代日本の文豪として著名な夏目 漱石の小説 22 作品を採り上げ,そのテキストデ ータに対して統計手法を用いて分析を行った.品 詞の比率及び単語の出現率について相関係数行 列を用いた主成分分析を行った結果,1905 年に 発表された『幻影の盾』 『一夜』 『薤露行』の 3 作 品と他の小説との間に文体的特徴の相違が認め られた.これら 3 作品は助動詞の出現率の分析か ら, 「り」 「き」 「ごとし」 「なり」 「たり」などの文 語表現と考えられる助動詞の出現傾向が高いと 考えられる. 従って,夏目漱石は作家として活動を始めた 1905 年に発表した小説では文語表現を用いてい たが,その後は文語表現の使用が少なくなってい ることが明らかになった.よって,計量的な判断 に基づけば,夏目漱石の文体的特徴に量的な変化 が本研究の分析を通じて認められたと考えられ る.. 参考文献 [1] Campbell, Lewis. The SOPHISTES and POLITICUS of Plato. Vol. 1. Clarendon Press, 1867. [2] 土山玄. 文学作品の計量分析: その方法と歴 史. 研究報告人文科学とコンピュータ, 2015, Vol. 2015, No. 7, pp. 1-6. [3] 金明哲. 文章の執筆時期の推定——芥川龍之介 の作品を例として——. 行動計量学, 2009, Vol. 36, No. 2, pp. 89-103. [4] 土山玄. 夏目漱石の文体の計量的な変化につ いて. 日本行動計量学会第 45 回大会抄録集, 2017, pp. 180-181.. ©2018 Information Processing Society of Japan. - 276 -.
(43)
関連したドキュメント
文字を読むことに慣れていない小学校低学年 の学習者にとって,文字情報のみから物語世界
いかなる使用の文脈においても「知る」が同じ意味論的値を持つことを認め、(2)によって
また,文献 [7] ではGDPの70%を占めるサービス業に おけるIT化を重点的に支援することについて提言して
この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて
これらの先行研究はアイデアスケッチを実施 する際の思考について着目しており,アイデア
いない」と述べている。(『韓国文学の比較文学的研究』、
なお︑本稿では︑これらの立法論について具体的に検討するまでには至らなかった︒
1、研究の目的 本研究の目的は、開発教育の主体形成の理論的構造を明らかにし、今日の日本における