• 検索結果がありません。

語の出現傾向による『源氏物語』第一部各巻の分類 公開シンポジウム・論文集 – 人文系データベース協議会

N/A
N/A
Protected

Academic year: 2018

シェア "語の出現傾向による『源氏物語』第一部各巻の分類 公開シンポジウム・論文集 – 人文系データベース協議会"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

語の出現傾向による『源氏物語』第一部各巻の分類

A Quantitative Study of "The Tale of Genji" via a Statistical Analysis

of the Word Frequency

土山

Gen Tsuchiyama

一橋大学

森有礼高等教育国際流動化センター

,

東京都国立市中

2-1

第3研究館

Hitotsubashi University, 2-1 Naka, Kunitachi, Tokyo

概要: 『源氏物語』は平安時代に成立した54巻から構成される長編物語である。一般に『源氏物語』は三部構成 であると考えられており、第一部は第1巻「桐壺」から第33巻「藤裏葉」までが該当し、これら33巻は「紫上系」と 「玉鬘系」という2つの群に分類されるという見解がある。この見解は「紫上系」の登場人物は「玉鬘系」の諸巻にも 現れるが、「玉鬘系」に初出の人物は例外なく「紫上系」の諸巻には現れないという事実に基づいている。しかし、第 一部33巻が2群に分類されるとする見解を支持する根拠は登場人物の出現状況の他にない。そこで、本研究で は語の出現傾向を統計的に分析することで、計量的な観点より両群の文体的特徴に相違が認められるか検討を加 えた。分析の結果、出現頻度の高い語の出現頻度、出現頻度の高い機能語の出現頻度が両群に間において相違 することが明らかになった。

Abstract:"The Tale of Genji" is one of the most famous classical works of Japanese literature and one of

the oldest full-length stories. Most studies on Japanese literature have considered that the story comprises 54 volumes that are categorized into 3 parts, with volumes 1-33 categorized under the first part. However, the re is an idea that the order of these 33 volumes is different from the order of the number of volumes and there is a possibility that these volumes are classified into 2 groups: "Murasaki no Ue Goup" and "Tamaka zura Group." Furthermore, there are some objective datasets that support this idea. Herein, we statistically a nalyzed the writing style of the aforementioned groups by performing multivariable analysis and found a sta tistical difference between the writing style of these groups.

キーワード:源氏物語, 計量文献学, 多変量解析, 主成分分析

Keywords:The Tale of Genji, stylometry, multivariable analysis, principal component analysis

1.はじめに

『源氏物語』は平安時代に成立した長編物語である。 この物語は54巻から構成され、一般に『源氏物語』は 三部に分割されると考えられている[1]。第一部には第

1巻「桐壺」から第33巻「藤裏葉」までが属し、第二部

は第34巻「若菜上」から第41巻「幻」の8巻が、第三 部は第42巻「匂宮」から第54巻「夢浮橋」の13巻が 属すとされる。この第一部の 33 巻には成立順序が現 行の巻序と異なるとする見解があり、これら33巻は「紫 上系」と「玉鬘系」という2つの群に分類されると論じら

れている[2]。「紫上系」及び「玉鬘系」の分類は表1に 示す通りである。このように第一部33巻が2群に分類 さ れ る と い う 見 解 の 根 拠 とし て、 登 場 人 物 の出 現 状 況 が あ げ ら れ る 。 紫 上 系 に 登 場 し た 人 物 は 玉 鬘 系 に お いても出現するが、反対に玉鬘系において初出となる 登場人物は例外なく紫上系に登場することはない。武 田 (1954) に よ れ ば 、 こ の よ う な 事 実 に 基 づ き 、 紫 上 系の17巻が成立した後に玉鬘系が成立し年立に従い 紫 上 系 に 挿 入 さ れ た と 論 じ ら れ て い る[2]。 し か し 、 第

(2)

一部33 巻が2群に分類されるとする見解を支持する 根拠は登場人物の出現状況の他にない。

そこで、本研究では『源氏物語』第一部の成立過程 を 解 明 す る た め に、 語 の 出 現 頻 度 に つ い て 統 計 的 に 分 析 を 行 う 。 文 学 的 文 章 の テ キ ス ト デ ー タ を 用 い た 計 量 的 な 研 究 は 計 量 文 献 学 と 称 さ れ る 。 文 章 の 計 量 分 析では、主に著者の文体に関わる習慣的特徴を統計 的 に 解 析 す る。 文 体 と い う 概念は多 様 で あ る が 、 計 量 文献学においては文体とは計数可能な記述形式のこ とであり、その内容は文字や 語の頻度、語や文の長さ などの文章を構成する量的な要素である。

このような文章の計量分析において、著者について 議 論 の 余 地 が あ る 文 章 を 対 象 に 、 計 量 的 な 手 法 に よ る 研 究 は 従 来 か ら 行 わ れ て い る 。 計 量 的 に 著 者 の 推 定 あ る い は 識 別 を 行 う 場 合 、 文 中 に お い て 語 彙 的 意 味 で は な く 文 法 的 機 能 を 担 う 助 詞 や 助 動 詞 な ど の 機 能 語 が 広 く 分 析 に 用 い ら れ 、 欧 米 諸 語 で 記 述 さ れ た 文献や日本の近現代の文献を対象に、その成果が報 告 さ れ て い る 。 一 方 で 、 テ キ ス ト の 電 子 化 が 容 易 で は な い こ と か ら、 日 本 の 古 典 文学 作 品 を 対 象 とし た 研 究 は 十 分 に 展開さ れ てい る と は言 え ない 。 これ に 加 え て、 『 源 氏 物 語 』 など の 日 本 の 古 典 文 学 作 品 の多 く はオ リ ジナル原稿が散逸しており、書写によってのみ受け継 がれており、このため著者の特徴的な文体が希釈され て い る 可 能 性 が 予 想 さ れ る 。 し か し 、 土 山 ・ 村 上

(2011) では、『うつほ物語』と『源氏物語』を対 象とし、

現 代 文 や 欧 米 文 学 と 同 様 に 古 典 文 に お い て も 、 語 の 出現率、あるいは語の頻度について計量分析を行うこ とで著者の識別が可能であることを論じている[3]。

このような著者不詳の文献を対象とした著者の識別 や推定を目的とした計量的な研究では、機能語と称さ れ る 文 中 に おい て 語 彙 的 意味 で は な く 文 法的 機 能 を 担 う 語 彙 が 分 析 項 目 と し て 取 り 上 げ ら れ る こ と が 一 般 的 で あ る 。 日 本 語 の 場 合 は 、 助 詞 や 助 動 詞 な ど が 機 能語 に該当し、 このよう な機 能 語が 計量分 析 に取 り上 げ ら れ る 背 景 に は 、 名 詞 や 動 詞 な ど の 語 彙 的 意 味 を 担 う 実 質 語 に 比 べ 、 機 能 語 は 研 究 対 象 と な る 文 献 の

内容、すなわちストーリーの影響を受けにくく、出現す る 語 彙 に 記 述 内 容 に 起 因 す る と 考 え ら れ る 出 現 傾 向 の偏 りが生じ にくく、著者 の識 別に適している と考えら れることがある。

よ っ て、 本 研究で は こ の よう な計 量 文献 学 の方 法 を 用 い て 、 『 源 氏 物 語 』 の 第 一 部 に つ い て 、 紫 上 系 と 玉 鬘 系 と の 間 に 計 量 的 な 相 違 が 認 め ら れ る の か 検 討 を 加える。

2.関連研究

第一部の成立過程については、すでに計量的な検 討 が 加 え ら れ て い る 。 村 上 ・ 今 西 (1999) は 『 源 氏 物 語』の全文を電子化したテキストデータを用い、多変量 解 析 を 行 っ た 初 の 本 格 的 な 研 究 で あ る 。 村 上 ・ 今 西

(1999) で は 、 各 巻 の 助 動 詞 の 出 現 率 を 求 め 数 量 化

III 類を行っている。分析の結果、紫上系は玉鬘系より

むしろ第二部の 8 巻と助動詞の出現傾向は類似して いることを明らかにした。従って、第1巻「桐壺」を起筆 の巻と仮定するのであれば、紫上系が成立した後に第 二 部 が 成 立 し 、 そ の 後 に 玉 鬘 系 が 成 立 し た 可 能 性 を 論じている[4]。

次 い で 、 小 野 (2015) は 村 上 ・今 西 (1999) と同一 のデータを用いて、分散安定化変換を行い、階層的ク ラスター 分析 を用い て『源 氏物 語』 の成立 過程 につい て 検 討 を 加 え て い る 。 分 析 の 結 果 、 『 源 氏 物 語 』 の 諸

01桐壺 13明石 02帚木 24胡蝶

05若紫 14澪標 03空蝉 25蛍

07紅葉賀 17絵合 04夕顔 26常夏

08花宴 18松風 06末摘花 27篝火

09葵 19薄雲 15蓬

28野分

10賢木 20朝顔 16関屋 29行幸

11花散里 21少女 22

鬘 30藤袴

12須磨 32梅枝 23初音 31真木柱

33藤裏葉 紫上系

(3)

巻 は 紫 上 系 及び 第 二 部、 玉鬘 系 及 び 宇治十 帖 と い う

2群に分類されることを報告した[5]。

ま た 、 土 山 (2016) で は 助 動 詞 以 外 の 品 詞 に つ い ても巻別の出現率を求め主成分分析を行っている。そ の 結 果 、 紫 上 系 と 玉 鬘 系 と の 間 に お い て 出 現 傾 向 が 異 な っ て い る 品 詞 は 助 動 詞 の み で あ る こ と を 指 摘 し 、 紫上系の諸巻は玉鬘系の諸巻に比べて使役・尊敬の 助動詞が頻出していることを明らかにした。またこれに 加 え て 、 動 詞 の 未 然 形 に 接 続 す る 受 身 ・ 尊 敬 ・ 可 能 ・ 自発の助動詞である「る」は紫上系に、「らる」は「玉鬘 系」に多く出現することを報告した。

3.分析

3.1 データ

本研究では青表紙本系の大島本を主な底本とする 『源氏物語語彙用例総索引 自立語編』[6]及び『源氏 物 語 語 彙 用 例 総 索 引 付 属 語 編 』[7]を 電 子 化 し た テ キ ス ト デ ー タ を 分 析 に 利 用 し た 。 『 源 氏 物 語 語 彙 用 例 総 索 引 』 は 源 氏 物 語 の 本 文 す べ て に つ い て、 形 態 素 解 析 を行 っ たもの で あ る。 す べ

て の 語 に 、 表 記 形 、 表 記 形 仮 名 読 み 、 終 止 形 、 終 止 形 仮 名 読み、品詞 コー ド、活用形 コー ド 、 意 味 コ ー ド な ど の 情 報 が付 与され ている。 なお、 単語認定 に つ い て は 、 『 源 氏 物 語 大 成 索 引 篇 』[8]の 単 語 認 定 基 準 に 準拠している。

3.2 方法

本研究では語のn-gramを分 析 に 採 り 上 げ た 。n-gram は 文 中において隣接する n個の要 素 を 1 つ の 単 位 と す る 。 よ っ て、単語のn-gramは隣接する

n個の単語を1つの単位として

頻度を集計した特徴量である。

n = 1 のときはunigram、n = 2

のときbigram、n = 3 のときはtrigramと称され、本研究 ではunigram 及びbigramを分析に用いた。『源氏物 語』の冒頭の文章である「いつれの御時にか女御更衣 あまたさふらひ給けるなかにいとやむことなききはには あ ら ぬ か す く れ て 時 め き 給 あ り け り 」 を 例 と す る と 、

unigram は「いつれ (代名詞)」「の (助詞)」「御時 (名

詞)」 「 に (助 詞)」 「 か (助 詞)」 な ど の 各 語 の 頻 度 を 集 計する。他方、bigram では「いつれ (代名詞)−の (助 詞)」「の (助詞)−御時 (名詞)」「御時 (名詞)−に (助 詞)」 「 に (助 詞)− か (助 詞)」 とい う 語 の 隣 接 共 起 し た 組の頻度が集計される。

ま た 、 文 章 の 計 量 分 析 で は 品 詞 別 に 語 の unigram を集計し、品詞毎に分析を行うことが多い。しかし本研 究では、まず品詞別に語を集計せずに出現頻度上位 のunigram及びbigramを用いて分析を行った。次い で 、 先 に ふ れ た よ う に 、 研 究 対 象 と な る 文 章 の内 容 の 影響を受けにくいと考えられる機能語のunigram及び

bigram を 用 い て 分 析 を 行 っ た 。 機 能 語 と は 文 章 中 に

(4)

お い て 語 彙 的 意 味 を 担 わ ず 文 法 的 機 能 を 担 う 語 で あ る こ と か ら 、 本 研 究 で は 補 助 動 詞 、 助 詞、助動詞の3品詞を機能語と し て 、 頻 度 を 集 計 し た 。 上 掲 の 『 源 氏 物 語 』 冒 頭 の 文 章 を 例 と す る と 機 能 語 は 「 の (助 詞)」 「 に (助 詞)」 「 か (助 詞)」 「 給

(補助動詞)」「ける (助動詞)」が

該当する。また、bigramは隣接 す る 語 で あ る こ と か ら 機 能 語 の

bigram は 「 に (助 詞)− か (助

詞)」「給 (補助動詞)−ける (助 動 詞)」 など と なる 。 こ のよ う な 品 詞及び単語のn-gramの集計を 巻 別 に 行 っ た 。 た だ し 、 『 源 氏 物 語 』 の 各 巻 の 延 べ 語 数 は 一 様ではないことから、各 n-gram の 頻 度 を 分 析 に は 用 い ず 、

n-gram の総度数に対する割合、すなわち各 n-gram の

出現率を求め、これを分析に用いた。また、n-gram の 集計に際しては、補助動詞と助動詞の活用する 2 品 詞は終止形に直した。このように集計したn-gramの出 現 率 に つ い て 主 成 分 分 析 を 行 っ た 。 な お 、 主 成 分 分 析では相関係数行列を用いた。

また、本研究においては延べ語数が1000語を下回 る第 11 巻「花散里」(724 語)、第 16 巻「関屋」 (934 語) 、第27巻「篝火」(653語) を分析から除外した。

3.3 分析結果

まず、unigramの出現頻度上位50変数について主 成分分析を行った。上位50変数は頻度が422以上の 語が該当し、上位50変数までの累積度数は総度数の

54.0%である。この出現頻度上位50変数のunigramに

は名詞や動詞と言った出現傾向が物語の内容に影響 を受ける語彙も含まれている。しかし、上位50 変数に 含 ま れ る 名 詞 は「 こ と 」 「 ひ と 」 「ほ ど 」「 こ こ ろ 」 「さ ま 」 「も

の」「よ」の7語であり、一般的かつ抽象的な語であると 考 え ら れ る こ と か ら 、 物 語 の 筋 に よ っ て 出 現 頻 度 が 大 きく影響を与えられないことが推測される。動詞につい ても、「あり」「おもふ」「おぼす」「みる」「す」などの語が 含まれ、副詞は「いと」が含まれるのみである。図 1 は 主成分分析によって求められた第 1主成分と第 2主 成分の主成分得点の散布図である。図1において、紫 上系に属する第5巻「若紫」及び第8巻「花宴」の2巻 が玉鬘系に接近し、玉鬘系に属する第15巻「蓬生」及 び第29巻「行幸」の2巻が紫上系に接近して位置して いるが、紫上系の諸巻と玉鬘系の諸巻は第 1 主成分 に お い て 概 ね 分 離 さ れ 付 置 さ れ て い る こ と が 分 か る 。 紫上系においては「若紫」と「花宴」に第7巻「紅葉賀」 を加えた3巻の第1主成分得点が正になるが他の巻 は負になり、その一方で、玉鬘系の諸巻は「蓬生」、第

23巻「初音」、第24巻「胡蝶」の3巻の第1主成分得

点は負になるが他の巻は正になる。なお、第1主成分

(5)

の寄与率は18.0%、第2主成分の寄 与率は11.6%である。

次 い で 、bigram の 出 現 頻 度 上 位

50 変 数 に つ い て 主 成 分 分 析を 行 っ

た。上位50 変数は頻度が173以上 のbigramが該当し、上位50変数ま での累積度数は総度数の 9.4%であ る。図2は主成分分析の結果であり、 図1と同様に紫上系に属する第5巻 「若紫」及び第 8 巻「花宴」が玉鬘系 の 諸 巻 に 接 近 し て 付 置 さ れ て い る 。 また、unigramの出現頻度上位50変 数 に つ い て の 分 析 結 果 と は 異 な り 、 図2においては第18巻「松風」も玉 鬘 系 の 諸 巻 に 接 近 し て 位 置 し て い る 。 し か し 、 紫 上 系 の 諸 巻 は 玉 鬘 系 の諸巻とは異なり主に図中の第2象 限 に 付 置 さ れ てい る こ と か ら、bigram の分析においても第一部は2群に分 類 さ れ 得 る と 考 え ら れ る 。 な お 、 第 1 主成分の寄与率は18.0%、第2主成 分 の 寄 与 率 は 11.6%で あ る 。 ま た 、 上述したようにbigramの出現頻度上 位 50 変数までの累積度数の総度数 に対する割合は9.4%と低いが、変数 を 増 加 さ せ て も 分 析 結 果 は 大 き く 変 わらない。

次 に 、 機 能 語 に つ い て 分 析 を 行 っ た。先にふれたように、本研究では補 助 動 詞 、 助 詞 、 助 動 詞 を 分 析 に 用 い た。機能語のunigramの出現頻度上 位 50 変数について主成分分析を行 った。上位50 変数は頻度が 179 以 上の語が該当し、上位50変数までの 累積度数は総度数の 98.3%である。 主成分分析の結果は図3に示す通り であり、紫上系の属する多くの巻は第

図 3 機能語 unigram の出現頻度上位 50 変数についての主成分 分析の結果

(6)

1 主成分の正の領域に、玉鬘系の諸巻は負の領域に

付 置 さ れ て お り 、 第 一 部 の 諸 巻 は 概 ね 紫 上 系 と 玉 鬘 系で分離して位置していると考えられる。なお、第1主 成 分 の 寄 与 率 は 18.1%、 第 2 主 成 分 の 寄 与 率 は

12.7%である。

最後に、機能語のbigramの出現頻度上位50変数 について主成分分析を行った。上位50変数は頻度が

110以上のbigramが該当し、上位50変数までの累積

度数は総度数の 49.9%である。図4は主成分分析の 結果であり、紫上系の多くの巻は主に図中の第4象限 に位置している。よって、機能語のbigramの分析結果 から紫上系 の諸 巻と玉 鬘系の諸 巻は異 なる量的 傾向 を 有 し て い る と 考 え ら れ る 。 た だし 、 紫 上 系 の 第 8 巻 「花宴」、第13巻「明石」、第18巻「松風」は玉鬘系の 諸巻と混在し、玉鬘系の第29巻「行幸」及び第31巻 「真木柱」は紫上系の諸巻と混在している。なお、第 1 主成分 の寄与 率は 15.7%、第 2 主成分 の寄与率は

10.5%である。

4.考察

作家が文章を執筆する上でどのような語を多く用い る か 、 と い う こ と は そ の 作 家 の 習 慣 的 特 徴 の 現 れ で あ ると考えられる。本研究において用いた出現頻度上位 の語のunigram 及び語の bigram は作家が文章を執 筆 す る 際 の 習 慣 的 特 徴 で あ り 、 文 体 的 形 式 的 特 徴 を 規定する要素の1つであると思われる。本研究におい て 検 討 を 加 え た 項 目 は 『 源 氏 物語 』 に あ ら わ れ る 出 現 頻度上位のunigram 及びbigram、そして機能語に限 定したunigram及びbigramである。

各n-gramの出現頻度上位50変数について主成分 分 析 を 行 っ た 結 果 、 ど の 分 析 結 果 に お い て も 紫 上 系 の 諸 巻 と 玉 鬘系 の 諸 巻 は 一部 の 巻 が 混 在し て 付 置 さ れるものの概ね異なる傾向を有していると考えられる。 従って、計量的な判断に基づくならば、文体的形式的 特徴は相違していると考えられる。

参考文献

[1] 池田亀鑑. 源氏物語の構成 (新講源氏物語(上)

所収). 至文堂, 1951.

[2] 武田宗俊. 源氏物語の研究. 岩波書店, 1954.

[3] 土山玄・村上征勝. 源氏物語と宇津保物語にお

け る 語 の 使 用 傾 向 に つ い て. じ ん も ん こ ん

2011 論文集, 2011(8), 125-132, 2011.

[4] 村上征勝・今西祐一郎. 源氏物語の助動詞の計

量 分 析. 情 報 処 理 学 会 論 文 誌, 40(3), 774-782,

1999.

[5] 小 野 洋 平. 源 氏 物 語 成 立 論 の 統 計 科 学 的 再 考

察 : 村 上 ・ 今 西(1999)を 中 心 に. 計 量 国 語 学,

29(8), 296-312, 2015.

[6] 上田英代・村上征勝・今西祐一郎・樺島忠夫・

上田裕一.源氏物語語彙用例総索引―自立語編

―. 勉誠出版, 1994.

[7] 上田英代・村上征勝・今西祐一郎・樺島忠夫・

上 田 裕 一. 源 氏 物 語 語 彙 用 例 総 索 引 ― 付 属 語

編―. 勉誠出版, 1996.

[8] 池 田 亀 鑑.源 氏 物 語 大 成 索 引 篇, 中 央 公 論 社,

参照

関連したドキュメント

 この論文の構成は次のようになっている。第2章では銅酸化物超伝導体に対する今までの研

長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか

長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか

では,この言語産出の過程でリズムはどこに保持されているのか。もし語彙と一緒に保

また日本の全外食店舗に節水サービスが導入されるとき,我が国のCO 2 排出量は年間 105 万t-CO2(2000 年総排出量の 0.08%)

本論文の構成は、第 1 章から第 3 章で本論文の背景と問題の所在について考察し、第 4

 さて,日本語として定着しつつある「ポスト真実」の原語は,英語の 'post- truth' である。この語が英語で市民権を得ることになったのは,2016年

そこで本章では,三つの 成分系 からなる一つの孤立系 を想定し て,その構成分子と同一のものが モルだけ外部から