本論文は、従来の文芸批評や文学研究を踏まえ、計量文体学の視点から宇野浩二という作 家の文体変化を中心として分析したものである。宇野浩二の文学作品に関して、病気後と戦 後の文体変化が注目されているが、本論文では、病気後の文体変化、その変化の発生時期、
戦後の作品の特徴と宇野浩二の文壇における位置づけの 4 つの問題を取り上げ、コーパスを 作成して分析を行った。特徴量として用いたのは、仮名の使用率、語彙の豊富さ、文の長さ、
読点の打ち方、タグ付き形態素の使用率、形態素タグのn-gram (n=1, 2)、文節パターンである。
これらの特徴データに対して、平均の差の検定、対応分析、階層的クラスター分析、トピッ クモデルと判別分析などの方法を適宜用いて分析を行った。
その結果、宇野浩二の文体特徴が精神病、戦中の不安定な生活と妻の死去による 2 回の執 筆の中断を境界として、変貌を遂げたことがわかった。宇野浩二の作品をおおよそ病前、病 後と戦後の 3 つの時期に分けることができたが、本論文の分析により、宇野浩二の文学作品 について以下の新たな3点を指摘する。
(1) 宇野浩二の文体変化は、病気後の第一作の「枯木のある風景」から一変したとされる 文壇の通説とは異なり、時間的に精神病の発病と並行し、1927年に入院する直前に発 表された作品から現れ始めていた。
(2) 2回の執筆の中断が宇野浩二の文体変化の契機となっているが、病前から病後、病後か ら戦後という時期の変化より文体特徴の変化が先に現れている。
(3) 宇野浩二の文体特徴は、病前、病後と戦後といった流れと共に変化し、戦後の作品で 色濃く現れている。同時代の作家と比較した場合、病前と病後の作品は他の作家と類 似しているが、戦後の作品は他の作家から遠く離れ、独特の特徴を持っている。
伝統的な文体分析と異なり、本論文では計量文体学の視点から作品の特徴データを抽出し、
統計学および機械学習の分析方法を通して、精神病と挫折を重ね、空白期間を経るたびに異 なる文体を編み出していく宇野浩二の全体像を明らかにした。これまでの先行研究で指摘さ れてきた 2 回の執筆中断による文体変化の詳細を明らかにしただけではなく、文体変化の始 まる時期の特定および戦後の作品の独特性についても論及した。
しかし、伝統的な文体分析や計量文体学に関する研究は現在蓄積されつつあるが、文体変 化の内在的要因の解析、病気や心境などと文体変化との関係の解析は、いまだ基礎研究が固 められていない分野である。本論文の宇野浩二の文体分析の結果に基づき、以下の 3 点を研 究の課題として挙げる。
(1) 文体分析と病理学・心理学の関連性 (2) 文体変化の内在的メカニズムの解明 (3) 小説以外の作品・自筆原稿の研究
164
宇野浩二の文体変化は、精神病の発症、戦争による不安定な生活、妻の死去など大きな出 来事の発生に起因している。病気が脳や思考に与える影響、大きな出来事による心境の変化 は、作品の創作にどのような影響を与えるか明らかになっていない。今後の宇野浩二に関す る研究では、病理学・心理学の知識に基づいてこれらの問題を解明することが重要な課題に なる。
また、本論文では、宇野浩二の作品から文体を形成する様々な要素を抽出して計量的分析 を行い、各文体要素における変化を明確にしたが、文体が変化する内在的メカニズムが明ら かにされていない。これは、宇野浩二の文体分析だけではなく、今後の文体・文学の分析に おいて重要な課題の1つとして挙げられる。
さらに、本論文では宇野浩二の小説に限って文体分析を行った。宇野浩二の執筆の分野が 広く、童話や少年少女小説、文芸評論、翻訳の分野においてもたくさんの名作が残されてい る。小説以外の文学作品は、どのような文体特徴を持っているのかを計量文体学の視点から 分析することが必要である。特に、1927 年から1933 年にかけてのおおよそ 6 年間は宇野浩 二の小説家としての休養期間ではあったが、この間に童話やエッセイの執筆はずっと続いて いたようである。よって、宇野浩二の文学的な空白期間と思われるこの時期に書かれた童話 作品を綿密に調べ、論じることが必要である。また、本研究で作品が出版された年代に基づ いて分析を行ったが、実際の執筆の時期と出版の年代はすべて一致するとは限らない。特に、
精神病が発病する前後の自筆原稿が入手可能なのであれば、実際に執筆された時期を確認し、
それに基づいて再分析することも重要な課題である。
最後に、本論文は計量的な視点から文体・文章の特徴を通して詳細に作家を研究したもの である。文体分析と病理学・心理学などの分野と連携し、文体変化の内在的要因を解析する ことによって、新たな研究分野を拓く可能性を提示する。
165
謝辞
本論文は筆者が同志社大学大学院文化情報学研究科文化情報学専攻博士後期課程に在籍中 の研究成果をまとめたものです。
本研究の遂行にあたって終始、ご指導を賜りました、指導教員である金明哲教授に心より 厚くお礼申し上げます。
審査委員としてご助言を頂くとともに本論文の細部にわたりご指導を頂きました、同専攻 川﨑廣吉先生、矢野環先生、山内信幸先生、並びに、大阪大学言語文化研究科の田畑智司先 生に深く感謝申し上げます。
筆者の同志社大学在学中には文化情報学研究科の皆様、データサイエンス研究室の皆様に は研究遂行にあたり日頃より有益なご助言、コーパス作成へのご協力を頂きました。ここに 感謝の意を表します。
166
参考文献
[1] Argamon, S., Saric, M., and Stein, S. (2003). Style Mining of Electronic Messages for Multiple Authorship Discrimination: First Results. Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 475–480.
[2] Blei, D. M., Ng, A. Y., and Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993–1022.
[3] Blei, D. M. (2012). Probabilistic Topic Models. Communiaitions of the ACM, 55 (4): 77-84.
[4] Bouveyron, C., Girard, S., and Schmid, C. (2007). High Dimensional Discriminant Analysis.
Communications in Statistics: Theory and Methods, 36(14), 2607–2623.
[5] Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32.
[6] Caropreso, M. F., Matwin, S., and Sebastiani, F. (2001). A Learner-Independent Evaluation of the Usefulness of Statistical Phrases for Automated Text Categorization. Text Databases and Document Management: Theory and Practice. Hershey: Idea Group Publishing, 78–102.
[7] Carroll, J. B. (1967). On Sampling from a Lognormal Model of Word-frequency Distribution.
Computational Analysis of Present-Day American English. Providence: Brown University Press, 406–424.
[8] Chaski, C. E. (2001). Empirical Evaluation of Language-Based Author Identification Techniques.
Forensic Linguistics, 8, 1–65.
[9] Clement, R. and Sharp, D. (2003). Ngram and Bayesian Classification of Documents. Literary and Linguistic Computing, 18, 423–447.
[10] Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ:
Lawrence Erlbaum Associates.
[11] Fernández-Delgado, M., Cernadas, E., Barro, S., and Amorim, D. (2014). Do We Need Hundreds of Classifiers to Solve Real World Classification Problems? Journal of Machine Learning Research, 15, 3133–3181.
[12] Freund, Y. and Schapire, R. E. (1996). Experiments with a New Boosting Algorithm. ICML’96 Proceedings of the Thirteenth International Conference on International Conference on Machine Learning, 148–156.
[13] Grieve, J. (2007). Quantitative Authorship Attribution: An Evaluation of Techniques. Literary and Linguistic Computing, 22(3), 251–270.
[14] Guiraud, H. (1954). Les Caractères Statistiques du Vocabulaire. Paris : Presses Universitaires de France.
[15] Hofmann, T. (2001). Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning, 42(1), 177–196.
[16] Jin, M. and Murakami, M. (1993). Author’s Features Writing Styles as Seen through Their Features Use of Commas. Behaviormetrica, 20(1), 63–76.
167
[17] Keselj, V., Peng, F., Cercone, N., and Thomas, C. (2003). N-gram Based Author Profiles for Authorship Attribution. Pacific Association for Computational Linguistics, 255–264.
[18] Kimura, D. and Tanaka, K. (2011). A Study on Constants of Natural Language Texts. Journal of Natural Language Processing, 18(2), 119–137.
[19] Lancashire, I. and Hirst, G. (2009). Vocabulary Changes in Agatha Christie’s Mysteries as an Indication of Dementia: A Case Study. In 19th Annual Rotman Research Institute Conference, Cognitive Aging: Research and Practice, 8–10.
[20] Landwehr, N., Hall, M., and Frank, E. (2005). Logistic Model Trees. Machine Learning, 59(1-2), 161–205.
[21] Lee, J. C., Choe, J. W., and Jin, M. (2017). Authorship Attribution of Korean Texts by Using Phrase Patterns. INFORMATION, 20(1B), 417–428.
[22] Le, X., Lancashire, I., Hirst, G., and Jokel, R. (2011). Longitudinal Detection of Dementia through Lexical and Syntactic Changes in Writing: A Case Study of Three British Novelists.
Literary and Linguistic Computing, 26(4), 435–461.
[23] O’Donnell, B. (1966). Stephen Crane’s The O’Ruddy: A Problem in Authorship Discrimination.
The Computer and Literary Style, 107–115.
[24] Sanderson, C. and Guenter, S. (2006). Short Text Authorship Attribution via Sequence Kernels, Markov Chains and Author Unmasking: An Investigation. Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 482–491.
[25] Sichel, H. S. (1975). On a Distribution Law for Word Frequencies. Journal of the American Statistical Association, 70, 542–547.
[26] Templin, M. C. (1957). Certain Language Skills in Children: Their Development and Interrelationships. Minneapolis, MN: University of Minnesota Press.
[27] Tweedie, F. J. and Baayen, R. H. (1998). How Variable May a Constant be? Measures of Lexical Richness in Perspective. Computers and the Humanities, 32, 323–352.
[28] Uesaka, A. and Murakami, M. (2015). Verifying the Authorship of Saikaku Ihara’s Work in Early Modern Japanese Literature: A Quantitative Approach. Digital Scholarship in the Humanities, 30(4), 599–607.
[29] Vapnik, N. V. (1998). Statistical Learning Theory. New York: John Wiley & Sons.
[30] Yang, Y. and Pedersen, J. O. (1997). A Comparative Study on Feature Selection in Text Categorization. Processing of the 14th International Conference on Machine Learning, 412–420.
[31] Yule, G. U. (1944). The Statistical Study of Literary Vocabulary. Cambridge: Cambridge University Press.
[32] Zheng, W. and Jin, M. (2017). Evaluate Lexical Richness Measures Using Coefficient of Variation. The Harris Science Review of Doshisha University, 58(4), 74–85.
[33] 宇野浩二 (1928).『僕の作品に就いて文学に志す若き人々へ』,文章倶楽部.
[34] 宇野浩二 (1953).『芥川龍之介』,文藝春秋社.
168
[35] 梅咲敦子 (2005). コーパスとは何か.『英語コーパス言語学:基礎と実践』,斎藤俊雄,
中村純作,赤野一郎(編),研究社.
[36] 梅原猛 (1985).『神々の流竄』,集英社.
[37] 大野晋 (1956).基礎語彙に関する二三の研究―日本の古典文学作品に於ける―.『国語学』,
24,296–329.
[38] 尾城奈緒子 (2016).太宰治の文体の計量分析―助詞を中心として―.『行動計量学会第 44回大会抄録集』,164–165.
[39] 尾城奈緒子, 金明哲 (2017).太宰治の前期作品における1文中の読点の使用頻度の検討.
『計量国語学会第61回大会抄録集』,37–42.
[40] 梶谷哲男 (1971).宇野浩二.『現代文学者の病蹟―創作と狂気の謎』,春原千秋,梶谷哲 男(編),新宿書房.
[41] 金川江利子,岡留剛 (2017).カーネル法による構文に着目した作家の文体の特徴づけと 類似性分析.『人工知能学会論文誌』,32(3), 1–14.
[42] 樺島忠夫 (1954). 現代文における品詞の比率とその増減の要因について.『国語学』,18,
15–20.
[43] 樺島忠夫 (1955). 分類した品詞の比率に見られる規則性.『国語国文』,24(6), 385–387.
[44] 樺島忠夫,寿岳章子 (1965). 『文体の科学』,綜芸社.
[45] 川崎長太郎 (1963).宇野浩二さん.『宇野浩二回想』,川崎長太郎,上林驍,渋川驍(編),
中央公論社.
[46] 上林驍 (1963).『枯木のある風景』まで.『宇野浩二回想』,川崎長太郎,上林驍,渋川驍
(編),中央公論社.
[47] 木村美紀 (2017).計量文体論の手法を用いた文芸テキスト分類―James Tiptree, Jr. と
Ernest Hemingway―.『文学研究論集』,47,13–31.
[48] 金明哲,樺島忠夫,村上征勝 (1993).読点と書き手の個性.『計量国語学』,18(8), 382–391.
[49] 金明哲 (1994).読点の打ち方と文章の分類.『計量国語学』,19(7), 317–329.
[50] 金明哲 (1996).読点から現代作家のクセを検証する.統計数理公開講演会,44(1), 121–125.
[51] 金明哲 (1997).助詞の分布に基づいた日記の書き手の識別.『計量国語学』,20(8),357–
367.
[52] 金明哲 (2002).助詞のn-gramモデルに基づいた書き手の識別.『計量国語学』,33(5),225–
240.
[53] 金明哲 (2004).品詞のマルコフ遷移の情報を用いた書き手の同定.『日本行動計量学会第
32回大会抄録集』,384–385.
[54] 金明哲 (2009).文章の執筆時期の推定―芥川龍之介の作品を例として―.『行動計量学』,
36(2), 89–103.
[55] 金明哲 (2013).文節パターンに基づいた文章の書き手の識別.『行動計量学』,40(1), 17–
28.
[56] 金明哲 (2014).統合的分類アルゴリズムを用いた文章の書き手の識別.『行動計量学』,
169 41(1), 35–46.
[57] 金明哲,村上征勝 (2007).ランダムフォレスト法による文章の書き手の同定.『数理統計』,
55(2), 133–268.
[58] 孫昊,金明哲 (2018).川端康成の小説『花日記』の代筆疑惑検証.『情報知識学会誌』,
28(1), 3–14.
[59] 瀧井孝作 (1963).芥川賞と宇野浩二.『宇野浩二回想』,川崎長太郎,上林驍,渋川驍(編),
中央公論社.
[60] 田澤基久 (1995).『宇野浩二』編 解説.『宇野浩二 作家の自伝30』,日本図書センター.
[61] 谷崎精二 (1963).宇野浩二と私.『宇野浩二回想』,川崎長太郎,上林驍,渋川驍(編),
中央公論社.
[62] 田畑智司 (2017).FLOB コーパスの意味構造:確率論的トピックモデルによる言語使用
域の特徴付け.言語文化共同研究プロジェクト,5–21.
[63] 辻野久憲 (1983).宇野浩二氏の近業に就いて.『片岡良一著作集 第11巻』,中央公論社.
[64] 土山玄,村上征勝 (2012).語の使用頻度の計量分析による宇治十帖他作者説の検討.『情
報処理学会研究報告』,1–8.
[65] 永瀬義郎 (1963).文学の鬼にも女難があった.『宇野浩二回想』,川崎長太郎,上林驍,
渋川驍(編),中央公論社.
[66] 中村明 (2007). 『日本語の文体・レトリック辞典』,東京堂.
[67] 波多野完治 (1935).『文章心理学』,三省堂.
[68] 波多野完治 (1950).『現代文章心理学―小説・新聞・論文のスタイル』,新潮社.
[69] 平野謙 (1967).解説.『廣津和郎 宇野浩二集 現代日本文学全集60』,筑摩書店.
[70] 広津和郎 (1963).宇野浩二の思い出.『宇野浩二回想』,川崎長太郎,上林驍,渋川驍(編),
中央公論社.
[71] 広津和郎 (1998).芥川龍之介の自殺.『廣津和郎 作家の自伝65』,日本図書センター.
[72] 福島章 (1978).『天才の精神分析』,新曜社.
[73] 増田周子 (1998).宇野浩二『枯木のある風景』論―その素材・その他―.『国文学』,77,
77-86.
[74] 松浦司,金田康正 (2000).n-gramの分布を利用した近代日本文の著者推定.『計量国語学
会』,22(6), 225–238.
[75] 松村明(編) (2006).『大辞林 第三版』,三省堂.
[76] 水谷静夫 (1965).大野の語彙法則について.『計量国語学』,35, 1–13.
[77] 水谷静夫 (1981).構成比の線型回帰調整,併せて再び大野の語彙法則.『計量国語学』,
13(2), 92–97.
[78] 村上征勝,今西祐一郎 (1999).源氏物語の助動詞の計量分析.『情報処理学会論文誌』,
40(3), 774–782.
[79] 安本美典 (1958).宇治十帖の作者―文章心理学による作者推定―.『心理学評論』,2(1), 147–156.