第 5 章 文体変化の時期の分析
5.4 判別分析の結果
5.4.1 読点が打たれる場所
読点と読点前の一文字のデータに対して判別分析を行い、LOOCV法で求めた学習データの 正判別率を表5.11に示す。表5.11では、最も高い正解率の値を太字で示す。5つの分類器の うち、LMTの正解率が最も高く、96.02%になっている。RFとSVMの正解率はそれぞれ94.32%、
91.48%である。一方、ADAとHDDAの正解率が低く、89.20%、88.07%となっている。
表5.11 LOOCVによる学習データの判別結果と正解率
ADA
病前 病後
HDDA
病前 病後 病前 70 11 病前 61 20 病後 8 87 病後 1 94
正解率 89.20% 正解率 88.07%
LMT
病前 病後
RF
病前 病後 病前 78 3 病前 76 5 病後 4 91 病後 5 90
正解率 96.02% 正解率 94.32%
SVM
病前 病後 病前 74 7 病後 8 87
正解率 91.48%
学習したモデルを用いて1927年の12分割編の作品に対して判別した結果を表5.12に示す。
表5.12の中の数値は病後のグループに判別される確率である。値が 0.5を下回る場合、該当 する作品が病前に、0.5より大きいと病後に帰属させる。病後に判別された場合、つまり、確 率が0.5より大きい値を太字で示す。
65
表5.12 読点と読点前の一文字の判別結果(病後に判別される確率)
作品 ADA HDDA LMT RF SVM
軍港行進曲1 0.01 0.71 0.13 0.17 0.07 軍港行進曲2 0.14 0.08 0.03 0.29 0.05 軍港行進曲3 0.14 0.00 0.45 0.48 0.02 軍港行進曲4 0.00 0.00 0.00 0.13 0.22 軍港行進曲5 0.00 0.00 0.00 0.07 0.00
日曜日 1.00 1.00 0.97 0.87 0.78
続軍港行進曲1 0.30 0.00 0.03 0.33 0.02 続軍港行進曲2 0.30 0.00 0.02 0.46 0.06 続軍港行進曲3 0.00 0.00 0.01 0.06 0.00
恋の躯1 0.02 0.00 0.15 0.13 0.13
恋の躯2 0.03 0.69 0.16 0.35 0.03
恋の躯3 0.00 0.00 0.03 0.09 0.01
表 5.12 により、読点と読点前の一文字のデータに基づいた判別では、「日曜日」はすべて の分類器、「軍港行進曲1」と「恋の躯2」はHDDAによって病後に判別された。5つの分類 器を統合する場合、12分割編の作品のうち「日曜日」のみが病後に判別され、他の作品はす べて病前に判別された。
図5.9 読点と読点前の一文字で使用率の差が顕著な主な項目
さらに、病前と病後の作品のそれぞれの特徴的な項目を明らかにすることで、それらの項 目が1927年の作品での使用状況を考察する。分析には95%信頼区間の平均プロットを用いる。
病前と病後の作品における使用率の差が最も大きい10項目として、「て、」、「その他、」、「か、」、
「は、」、「き、」、「り、」、「や、」、「れ、」、「ど、」と「な、」が挙げられた。これらの項目のデー タを1927年の作品から抽出し、病気前後のデータと共に図5.9の平均プロットに示す。各平
0.150.200.250.30
て、
病前 1927年 病後
n=81 n=12 n=95
0.060.080.100.120.14
その他
病前 1927年 病後
n=81 n=12 n=95
0.020.030.040.05
か、
病前 1927年 病後
n=81 n=12 n=95 0.060.100.140.18
は、
病前 1927年 病後
n=81 n=12 n=95 0.0000.0040.008
き、
病前 1927年 病後
n=81 n=12 n=95
0.020.030.040.05
り、
病前 1927年 病後
n=81 n=12 n=95 0.0050.0150.025
や、
病前 1927年 病後
n=81 n=12 n=95
0.0020.006
れ、
病前 1927年 病後
n=81 n=12 n=95
0.0000.0040.008
ど、
病前 1927年 病後
n=81 n=12 n=95 0.0050.0100.015
な、
病前 1927年 病後
n=81 n=12 n=95
66
均プロットでは、病前、1927年、病後の信頼区間はそれぞれ左、中、右にプロットされてい る。病前の作品では、「て」、「か」、「や」、「な」の後ろに読点を打つ確率が病後の作品より高 い。一方、「その他、」、「は、」、「き、」、「り、」、「れ、」、「ど、」は病後の作品での使用率が低い。
1927年の作品においては、「て、」、「き、」、「や、」の使用率が病前の作品に類似し、病後の作 品との間に有意な差が見られた。一方、「その他、」と「か、」の使用率は、病後の作品に類似 する。「は」と「り」の後ろに読点を打つ確率が両時期の作品より低い。
5.4.1.2 読点の読点前の品詞
読点と読点前の品詞のデータに対して判別分析を行い、LOOCV法で求めた学習データの正 判別率を表5.13に示す。5つの分類器のうち、LMTとSVMで得られた正解率が最も高く、
93.18%に達している。HDDAの正解率は90.91%になっている。一方、ADA とRF の正解率
は90%を下回って、それぞれ87.50%、88.64%になっている。
表5.13 LOOCVによる学習データの判別結果と正解率
ADA
病前 病後
HDDA
病前 病後 病前 70 11 病前 76 5 病後 11 84 病後 11 84
正解率 87.50% 正解率 90.91%
LMT
病前 病後
RF
病前 病後 病前 76 5 病前 72 9 病後 7 88 病後 11 84
正解率 93.18% 正解率 88.64%
SVM
病前 病後 病前 76 5 病後 7 88
正解率 93.18%
学習したモデルを用いて1927年の12分割編の作品に対して判別した結果を表5.14に示す。
「軍港行進曲 2」、「軍港行進曲3」、「日曜日」、「続軍港行進曲1」、「続軍港行進曲2」と「続 軍港行進曲3」はすべての分類器によって高い確率で病後のグループに判別された。また、「恋
の躯1」と「恋の躯3」はそれぞれ3つの分類器によって病後に判別された。「軍港行進曲1」
と「恋の躯2」は2 つの分類器によって病後に判別されたが、5 つの分類器を統合する場合、
病前のグループに属することになった。「軍港行進曲 4」、「軍港行進曲 5」はすべての分類器 で病前に判別された。
67
表5.14 読点と読点前の品詞の判別結果(病後に判別される確率)
作品 ADA HDDA LMT RF SVM
軍港行進曲1 0.49 0.03 0.98 0.19 0.53 軍港行進曲2 0.98 1.00 0.99 0.79 0.84 軍港行進曲3 0.98 1.00 1.00 0.85 0.72 軍港行進曲4 0.01 0.00 0.24 0.14 0.29 軍港行進曲5 0.25 0.15 0.25 0.24 0.08 日曜日 1.00 1.00 1.00 0.75 0.77 続軍港行進曲1 0.93 1.00 0.89 0.86 0.95 続軍港行進曲2 1.00 1.00 1.00 0.95 0.99 続軍港行進曲3 0.98 1.00 0.83 0.89 0.88 恋の躯1 1.00 0.00 0.97 0.78 0.41
恋の躯2 0.06 1.00 0.02 0.36 0.66
恋の躯3 0.65 1.00 0.02 0.41 0.69
読点と読点前の品詞の変数が少ないため、病前と病後の特徴的な項目の平均プロットでは すべての項目を示す。1927年の作品から抽出したデータを加えて図 5.10に示す。図5.10 か らわかるように、1927年の作品では接続詞の後に読点を打つ頻度が病後の作品に類似してい る。名詞と動詞の後に読点を打つ確率が病前の作品より高いが、病後の作品より低い。助詞、
助動詞、感動詞、記号と連体詞の後ろに読点を打つ頻度が1927年の作品において大きなばら つきが見られる。
図5.10 読点と読点前の品詞で使用率の差が顕著な主な項目
0.060.080.100.12
名詞読点+
病前 1927年 病後
n=81 n=12 n=95 0.020.030.040.050.06
動詞読点+
病前 1927年 病後
n=81 n=12 n=95 0.680.700.720.740.76
助詞読点+
病前 1927年 病後
n=81 n=12 n=95 0.0550.0650.075
助動詞読点+
病前 1927年 病後
n=81 n=12 n=95
0.060.080.10
接続詞読点+
病前 1927年 病後
n=81 n=12 n=95 0.0000.010
感動詞読点+
病前 1927年 病後
n=81 n=12 n=95 0.0000.0040.008
記号読点+
病前 1927年 病後
n=81 n=12 n=95
0.0000.0010.0020.003
連体詞読点+
病前 1927年 病後
n=81 n=12 n=95
68