• 検索結果がありません。

形態素タグの n-gram (n=1, 2)

第 5 章 文体変化の時期の分析

5.4 判別分析の結果

5.4.3 形態素タグの n-gram (n=1, 2)

71

72

軍港行進曲1」と「恋の躯3」は4つの分類器、「軍港行進曲5」、「続軍港行進曲2」と「恋の 躯1」は3つの分類器によって病後に判別された。5つの分類器の判別結果を多数決によって 統合する場合、12分割編の作品はすべて病後に判別された。病前と病後の作品から使用率の 差が顕著な項目を抽出し、さらに、1927年の作品から抽出したデータを加えて図5.13に示す。

図5.13 形態素タグのunigramで使用率の差が顕著な主な項目

病前の作品では、助動詞、副詞、助詞、接続詞と動詞の使用率が高い。病後の作品では、

記号、名詞と接頭辞の使用率が高い。1927年の作品では、記号、助詞と動詞の使用率が病前 の作品に似ているが、助動詞と副詞は病後の作品に類似している。なお、名詞の使用率は、

病前の作品よりやや高く、病後の作品より低いことが見られる。接続詞と接頭辞の使用は病 前と病後の両方より低い。

5.4.3.2 形態素タグのbigram

形態素タグのbigramのデータに基づいて判別分析を行い、LOOCV法によって求めた学習 データの正解率を表5.21に示す。5つの分類器のうち、ADAの正解率が最も低く、91.48%に なっている。それに対して、SVMの正解率が最も高く、97.16%に達している。LMTとRFの

正解率は96.59%であり、HDDAの正解率は92.05%である。学習したモデルを用いて1927年

の12分割編の作品に対して判別した結果を表5.22に示す。

0.1100.1200.130

病前 1927 病後

n=81 n=12 n=95

0.2900.3000.3100.320

病前 1927 病後

n=81 n=12 n=95 0.0850.095

病前 1927 病後

n=81 n=12 n=95

0.0200.0220.0240.026

病前 1927 病後

n=81 n=12 n=95

0.3000.3100.320

病前 1927 病後

n=81 n=12 n=95 0.0070.0090.011

病前 1927 病後

n=81 n=12 n=95 0.00150.00300.0045

病前 1927 病後

n=81 n=12 n=95 0.1250.1350.145

病前 1927 病後

n=81 n=12 n=95

73

表5.21 LOOCVによる学習データの判別結果と正解率

ADA

病前 病後

HDDA

病前 病後 病前 73 8 病前 69 12 病後 7 88 病後 2 93

正解率 91.48% 正解率 92.05%

LMT

病前 病後

RF

病前 病後 病前 80 1 病前 78 3 病後 5 90 病後 3 92

正解率 96.59% 正解率 96.59%

SVM

病前 病後 病前 79 2 病後 3 92

正解率 97.16%

表5.22 形態素タグのbigramの判別結果(病後に判別される確率)

作品 ADA HDDA LMT RF SVM

軍港行進曲1 0.33 0.84 0.19 0.45 0.42 軍港行進曲2 1.00 1.00 0.99 0.85 0.84 軍港行進曲3 0.96 1.00 0.80 0.72 0.95 軍港行進曲4 0.03 1.00 0.12 0.30 0.09 軍港行進曲5 0.03 1.00 0.58 0.41 0.39

日曜日 1.00 1.00 0.99 0.75 0.80

続軍港行進曲1 0.81 1.00 0.74 0.35 0.46 続軍港行進曲2 0.26 1.00 0.93 0.46 0.90 続軍港行進曲3 1.00 1.00 0.82 0.62 0.72

恋の躯1 0.33 0.00 0.00 0.46 0.15

恋の躯2 0.60 0.00 0.00 0.42 0.13

恋の躯3 0.08 0.00 0.04 0.46 0.56

1927 年の 12 分割編の作品のうち、「軍港行進曲 2」、「軍港行進曲 3」、「日曜日」と「続軍

港行進曲 3」はすべての分類器において高い確率で病後に判別された。「続軍港行進曲 1」と

「続軍港行進曲 2」は、3 つの分類器によって病後に判別された。「軍港行進曲 5」は 2 つの 分類器、「軍港行進曲1」、「軍港行進曲4」、「恋の躯2」と「恋の躯3」は1つの分類器によっ て病後に判別された。「恋の躯 1」はすべての分類器で病前に属すると判別された。5 つの分 類器の判別結果を多数決で統合する場合、「軍港行進曲 2」、「軍港行進曲3」、「日曜日」、「続 軍港行進曲1」、「続軍港行進曲2」、「続軍港行進曲3」は病後に判別され、それ以外の作品は 病前に判別された。

74

図5.14 形態素タグのbigramで使用率の差が顕著な主な項目

病前と病後の作品で使用率の差が最も大きい10項目と1927年の12分割編の作品から抽出 したデータを図5.14に示す。病前の作品では、「名詞_助動詞」、「助詞_助詞」、「動詞_助詞」、

「接続詞_名詞」と「副詞_名詞」の使用率が高い。病後の作品では、「名詞_記号」、「名詞_

名詞」、「助詞_記号」、「記号_名詞」、「記号_記号」の使用率が高い。1927年の作品では、「名 詞_名詞」、「動詞_助詞」の使用は病前の作品に似ている。一方、「記号_記号」、「助詞_助詞」、

「接続詞_名詞」と「動詞_名詞」の使用はより病後の作品に類似する。なお、「名詞_記号」、

「動詞_記号」と「記号_名詞」の使用率が病前の作品より高いが、病後の作品より低い。