総当たり法による線形判別分析

第 6 章東西分類に有効なモーラ bigram から見た方言分類

6.3 モーラ bigram から見た方言分類

6.3.2 総当たり法による線形判別分析

66

て𝑝< 0.01である。

「(u)ーテ・(o)ーテ」は，LASSOで得られた判別係数が負の値で，西部方言に分類する変数として選ばれている。表

29

より，「(u)ーテ」は西部方言におけるモーラ

bigram

の使用率が

0.17

で，東部方言におけるモーラ

bigram

の百分率である

0.01

より高いことも確認できる。

これらのモーラ

bigram

は，1.3.2.1の文法項目，1.3.2.3の音韻・アクセント項目で扱ったハ行四段活用動詞音便，形容詞連用形音便が関係している。ハ行四段活用連用形の音便が，

「払ウた」とウ音便になるのが西部，「払ッた」と促音便になるのが東部，形容詞連用形「寒ク」が「寒ウ」とウ音便になるのが西部，ならないのが東部という従来の先行研究の項目による差が計量的分析によっても示されていると考えられる。

次に着目すべきは，「ダナ・ダネ・ダモ・ダヨ・ンダ」と「ダ」を含むモーラbigramが複数選ばれていることである。これらは，助詞の「ナ」「ネ」「ヨ」「モノ」などが接続して現れたモーラbigram と考えられる。つまり，第5章で得られた東西の分類に有効なモーラunigram「ダ・ジャ・ヤ」が助動詞「ダ」としての文法的性格を持っていることを強く示唆していると言える。「キタ・レデ」

に関しては，言語学的な特徴を見出すことが容易でないので，これらを省き，「

(u)ーテ・(o)ーテ・

ダナ・ダネ・ダモ・ダヨ・ンダ」の

7

変数を最終的に選ぶ。

67

表 32 各地点における7変数の相対頻度（モーラbigram）

地点

(u)ーテ (o)ーテ

ダナダネダモダヨンダ

北海道 0.00 0.01 0.22 0.07 0.05 0.08 1.07

青森 0.03 0.02 0.13 0.06 0.28 0.09 1.88

岩手 0.01 0.00 0.20 0.03 0.39 0.05 2.36

宮城 0.01 0.01 0.11 0.20 0.04 0.08 1.65

秋田 0.00 0.01 0.43 0.00 0.03 0.03 3.00

山形 0.01 0.01 0.20 0.02 0.39 0.04 1.76

福島 0.00 0.00 0.23 0.01 0.04 0.04 1.57

茨城 0.01 0.01 0.10 0.16 0.01 0.19 1.08

栃木 0.00 0.02 0.13 0.10 0.05 0.34 1.24

群馬 0.00 0.00 0.05 0.16 0.02 0.29 1.32

埼玉 0.00 0.01 0.10 0.05 0.14 0.30 1.82

千葉 0.04 0.03 0.05 0.19 0.09 0.27 0.43

東京 0.02 0.00 0.10 0.18 0.02 0.52 1.34

神奈川 0.01 0.04 0.33 0.25 0.04 0.17 0.53

新潟 0.03 0.06 0.08 0.12 0.15 0.03 1.06

富山 0.42 0.09 0.01 0.00 0.00 0.02 0.21

石川 0.11 0.08 0.00 0.03 0.01 0.00 0.22

福井 0.10 0.07 0.00 0.00 0.00 0.00 0.21

山梨 0.00 0.00 0.07 0.18 0.05 0.22 0.66

長野 0.00 0.00 0.25 0.02 0.07 0.20 0.56

岐阜 0.00 0.00 0.00 0.00 0.00 0.00 0.15

静岡 0.01 0.03 0.19 0.05 0.18 0.36 0.74

愛知 0.02 0.05 0.17 0.00 0.52 0.03 1.14

三重 0.10 0.11 0.00 0.00 0.01 0.00 0.10

滋賀 0.07 0.05 0.03 0.00 0.00 0.02 0.21

京都 0.07 0.10 0.01 0.00 0.00 0.00 0.05

大阪 0.27 0.10 0.00 0.00 0.00 0.00 0.04

兵庫 0.27 0.06 0.01 0.00 0.01 0.00 0.17

奈良 0.10 0.01 0.01 0.00 0.02 0.00 0.23

和歌山 0.21 0.12 0.02 0.00 0.01 0.01 0.28

鳥取 0.10 0.21 0.05 0.00 0.05 0.00 0.77

島根 0.14 0.14 0.02 0.05 0.02 0.00 0.56

68

地点

(u)ーテ (o)ーテ

ダナダネダモダヨンダ

岡山 0.30 0.22 0.00 0.00 0.02 0.00 0.21

広島 0.24 0.10 0.07 0.01 0.00 0.00 0.13

山口 0.08 0.11 0.00 0.00 0.01 0.00 0.09

徳島 0.16 0.06 0.03 0.00 0.01 0.00 0.39

香川 0.21 0.04 0.03 0.00 0.01 0.01 0.35

愛媛 0.36 0.11 0.03 0.00 0.01 0.00 0.25

高知 0.34 0.19 0.00 0.01 0.01 0.00 0.15

福岡 0.06 0.01 0.00 0.00 0.01 0.00 0.07

佐賀 0.09 0.23 0.00 0.00 0.02 0.00 0.06

長崎 0.15 0.15 0.03 0.00 0.00 0.00 0.03

熊本 0.23 0.07 0.00 0.00 0.00 0.00 0.23

大分 0.04 0.00 0.00 0.00 0.01 0.00 0.19

宮崎 0.01 0.00 0.00 0.00 0.01 0.00 0.07

鹿児島 0.02 0.01 0.01 0.01 0.01 0.00 0.17

正解率が

100.0％となった変数の組み合わせを表 33

に示す。変数の順序は五十音順である。

表 33 正解率が100.0％の変数の組み合わせ（モーラbigram）

変数の数組み合わせ

3 (u)ーテ＋ダナ＋ダネ， (u)ーテ＋ダヨ＋ンダ， (o)ーテ＋ダナ＋ダネ，

ダナ＋ダネ＋ダモ，ダモ＋ダヨ＋ンダ

次に，正解率が

97.8%となった変数の組み合わせを表 34

に示す。変数の順序は五十音順である。

表 34 正解率が97.8％の変数の組み合わせ（モーラbigram）

変数の数組み合わせ

2

ダナ＋ダネ，ダナ＋ダヨ，ダヨ＋ンダ

3 (u)ーテ＋ダナ＋ダヨ，(u)ーテ＋ダネ＋ンダ，(o)ー＋ダナ＋ダヨ，

(o)ーテ＋ダヨ＋ンダ，ダナ＋ダネ＋ダヨ，ダナ＋ダネ＋ンダ，

ダナ＋ダヨ＋ンダ，ダネ＋ダモ＋ンダ

69

参考に，モーラ

bigram1

個のみの場合の正解率を正解率の高い順に表

35

に示す。

表 35 変数1個のみの正解率（モーラbigram）

ンダ

(u)ーテ

ダナダネ

(o)ーテ

ダヨダモ

89.1 87.0 84.8 80.4 80.4 80.4 73.9

「ダ」を含むモーラ

bigram

は「ダモ」を除いて，

80%以上の高い正解率である。

「

(u)ーテ・

(o)ーテ」も同様に高い正解率であった。次節では，正解率の高かった表 33

のモーラ

bigram

の組み合わせを用いて，線形判別分析を行う。さらに，判別の結果の各群に所属する確率を日本地図上に色の濃淡で示し，日本の各地方言の分布を眺める。

ドキュメント内コーパスにおけるモーラ情報を用いた日本の方言分類分析 (ページ 75-78)

第 6 章 東西分類に有効なモーラ bigram から見た方言分類

6.3 モーラ bigram から見た方言分類

6.3.2 総当たり法による線形判別分析

66

29

bigram

0.17

bigram

0.01

bigram

(u)ーテ・(o)ーテ・

7

67

(u)ーテ (o)ーテ

68

(u)ーテ (o)ーテ

100.0％となった変数の組み合わせを表 33

3 (u)ーテ＋ダナ＋ダネ， (u)ーテ＋ダヨ＋ンダ， (o)ーテ＋ダナ＋ダネ，

97.8%となった変数の組み合わせを表 34

2

3 (u)ーテ＋ダナ＋ダヨ，(u)ーテ＋ダネ＋ンダ，(o)ー＋ダナ＋ダヨ，

(o)ーテ＋ダヨ＋ンダ，ダナ＋ダネ＋ダヨ，ダナ＋ダネ＋ンダ，

69

bigram1

35

(u)ーテ

(o)ーテ

89.1 87.0 84.8 80.4 80.4 80.4 73.9

bigram

80%以上の高い正解率である。

(u)ーテ・

(o)ーテ」も同様に高い正解率であった。次節では，正解率の高かった表 33

bigram

第 6 章東西分類に有効なモーラ bigram から見た方言分類