第 5 章 文体変化の時期の分析
5.4 判別分析の結果
5.4.3 形態素タグの n-gram (n=1, 2)
71
72
軍港行進曲1」と「恋の躯3」は4つの分類器、「軍港行進曲5」、「続軍港行進曲2」と「恋の 躯1」は3つの分類器によって病後に判別された。5つの分類器の判別結果を多数決によって 統合する場合、12分割編の作品はすべて病後に判別された。病前と病後の作品から使用率の 差が顕著な項目を抽出し、さらに、1927年の作品から抽出したデータを加えて図5.13に示す。
図5.13 形態素タグのunigramで使用率の差が顕著な主な項目
病前の作品では、助動詞、副詞、助詞、接続詞と動詞の使用率が高い。病後の作品では、
記号、名詞と接頭辞の使用率が高い。1927年の作品では、記号、助詞と動詞の使用率が病前 の作品に似ているが、助動詞と副詞は病後の作品に類似している。なお、名詞の使用率は、
病前の作品よりやや高く、病後の作品より低いことが見られる。接続詞と接頭辞の使用は病 前と病後の両方より低い。
5.4.3.2 形態素タグのbigram
形態素タグのbigramのデータに基づいて判別分析を行い、LOOCV法によって求めた学習 データの正解率を表5.21に示す。5つの分類器のうち、ADAの正解率が最も低く、91.48%に なっている。それに対して、SVMの正解率が最も高く、97.16%に達している。LMTとRFの
正解率は96.59%であり、HDDAの正解率は92.05%である。学習したモデルを用いて1927年
の12分割編の作品に対して判別した結果を表5.22に示す。
0.1100.1200.130
記号
病前 1927年 病後
n=81 n=12 n=95
0.2900.3000.3100.320
名詞
病前 1927年 病後
n=81 n=12 n=95 0.0850.095
助動詞
病前 1927年 病後
n=81 n=12 n=95
0.0200.0220.0240.026
副詞
病前 1927年 病後
n=81 n=12 n=95
0.3000.3100.320
助詞
病前 1927年 病後
n=81 n=12 n=95 0.0070.0090.011
接続詞
病前 1927年 病後
n=81 n=12 n=95 0.00150.00300.0045
接頭辞
病前 1927年 病後
n=81 n=12 n=95 0.1250.1350.145
動詞
病前 1927年 病後
n=81 n=12 n=95
73
表5.21 LOOCVによる学習データの判別結果と正解率
ADA
病前 病後
HDDA
病前 病後 病前 73 8 病前 69 12 病後 7 88 病後 2 93
正解率 91.48% 正解率 92.05%
LMT
病前 病後
RF
病前 病後 病前 80 1 病前 78 3 病後 5 90 病後 3 92
正解率 96.59% 正解率 96.59%
SVM
病前 病後 病前 79 2 病後 3 92
正解率 97.16%
表5.22 形態素タグのbigramの判別結果(病後に判別される確率)
作品 ADA HDDA LMT RF SVM
軍港行進曲1 0.33 0.84 0.19 0.45 0.42 軍港行進曲2 1.00 1.00 0.99 0.85 0.84 軍港行進曲3 0.96 1.00 0.80 0.72 0.95 軍港行進曲4 0.03 1.00 0.12 0.30 0.09 軍港行進曲5 0.03 1.00 0.58 0.41 0.39
日曜日 1.00 1.00 0.99 0.75 0.80
続軍港行進曲1 0.81 1.00 0.74 0.35 0.46 続軍港行進曲2 0.26 1.00 0.93 0.46 0.90 続軍港行進曲3 1.00 1.00 0.82 0.62 0.72
恋の躯1 0.33 0.00 0.00 0.46 0.15
恋の躯2 0.60 0.00 0.00 0.42 0.13
恋の躯3 0.08 0.00 0.04 0.46 0.56
1927 年の 12 分割編の作品のうち、「軍港行進曲 2」、「軍港行進曲 3」、「日曜日」と「続軍
港行進曲 3」はすべての分類器において高い確率で病後に判別された。「続軍港行進曲 1」と
「続軍港行進曲 2」は、3 つの分類器によって病後に判別された。「軍港行進曲 5」は 2 つの 分類器、「軍港行進曲1」、「軍港行進曲4」、「恋の躯2」と「恋の躯3」は1つの分類器によっ て病後に判別された。「恋の躯 1」はすべての分類器で病前に属すると判別された。5 つの分 類器の判別結果を多数決で統合する場合、「軍港行進曲 2」、「軍港行進曲3」、「日曜日」、「続 軍港行進曲1」、「続軍港行進曲2」、「続軍港行進曲3」は病後に判別され、それ以外の作品は 病前に判別された。
74
図5.14 形態素タグのbigramで使用率の差が顕著な主な項目
病前と病後の作品で使用率の差が最も大きい10項目と1927年の12分割編の作品から抽出 したデータを図5.14に示す。病前の作品では、「名詞_助動詞」、「助詞_助詞」、「動詞_助詞」、
「接続詞_名詞」と「副詞_名詞」の使用率が高い。病後の作品では、「名詞_記号」、「名詞_
名詞」、「助詞_記号」、「記号_名詞」、「記号_記号」の使用率が高い。1927年の作品では、「名 詞_名詞」、「動詞_助詞」の使用は病前の作品に似ている。一方、「記号_記号」、「助詞_助詞」、
「接続詞_名詞」と「動詞_名詞」の使用はより病後の作品に類似する。なお、「名詞_記号」、
「動詞_記号」と「記号_名詞」の使用率が病前の作品より高いが、病後の作品より低い。