第 6 章 東西分類に有効なモーラ bigram から見た方言分類
6.3 モーラ bigram から見た方言分類
6.3.1 変数選択
6.3.1.1 カイ二乗値による変数選択
本研究で定めた東部方言と西部方言において,どのようなモーラ
bigram
に異なる特徴が 見られるのか,カイ二乗値から検討する。変数が多いため,46 地点における総頻度が10
以 下のものは,「その他」として一つの変数としてまとめると,全部で4032
の変数となった。カイ二乗値の大きな順に並べたところ,4032変数のうち,1884変数が𝑝< 0.05であった。そ のうちの上位20のモーラbigramを表29に示す。西と東の列の数値は,東西それぞれにおけ
るモーラ
bigram
の百分率(使用率)を示している。64
表 29 東西におけるモーラbigramのカイ二乗値(上位20)
モーラ
bigram
の場合,おおよその文法的・語彙的・形態音韻論的特徴が見えてくる。東では,「ンダ・ダカ・ダッ・ダヨ・ダモ・ダナ・ダガ・ダネ・(u)ーテ」など,助動詞「だ」が多 く用いられること,「ッテ・ダッ」など,活用形の促音便形が用いられること,「ネー」「ダネ」
など,助詞に「ネ」が使用されることが考えられる。一方,西では,「ンジャ・ンヤ」など,
助動詞には,「だ」ではなく「じゃ」「や」が多く使用されること,「モー・(u)ーテ」など,活 用形のウ音便が用いられること,「ナー」など,助詞に「ナ」が使用されること,「ホイ」など
「ソ」ではなく「ホ」が用いられることが考えられる。
モーラ
bigram
西 東 χ21
ンダ0.19 1.34 2434.24
2
ダカ0.01 0.25 613.38
3
ダッ0.05 0.34 595.12
4
ネー0.38 0.88 543.19
5
ッテ0.65 1.26 533.26
6
ダヨ0.00 0.17 485.60
7
ガラ0.02 0.21 473.08
8
ナー0.81 0.34 466.46
9
モー0.47 0.14 438.97
10
ダモ0.01 0.15 360.83
11
ダナ0.01 0.16 341.51
12 (u)
ーテ0.17 0.01 326.12
13
ンジャ0.26 0.06 319.18
14
ダガ0.01 0.13 315.13
15
ホイ0.21 0.03 306.03
16
ダネ0.00 0.10 259.04
17
ネァ0.00 0.09 240.65
18
ンヤ0.22 0.05 240.18
19 (o)
ーダ0.05 0.19 237.42
20
フン0.26 0.08 235.61
65
6.3.1.2 LASSOとAdaptive LASSOによる変数選択本項では,上位
500
のモーラbigram
を用いて,LASSOとAdaptive LASSO
を使用して 変数選択を行う。統計処理ソフトR
のglmnet,交差検証には glmnetUtils
を用いて分析を 行った。チューニングパラメータλの選択は,10分割交差検証法(CV: Cross Validation)で行い,最適なλを求めている。
LASSO
で選ばれた変数は「(u)ーテ・(o)ーテ・キタ・ダナ・ダネ・ダモ・ダヨ・レデ・ンダ」であった。判別係数とともに表
30
に示す。正の値が東の分類に寄与する変数,負の値が 西の分類に寄与する変数である。表 30 LASSOで得られた判別係数(モーラ
bigram)
Adaptive LASSO
で選ばれた変数は「ダナ・ダネ」であった。表31
にAdaptive LASSO
で得られた係数を示す。判別係数は,正の値で東に分類するのに寄与する変数が選ばれた。
表 31 Adaptive LASSOで得られた判別係数(モーラbigram)
6.3.1.3 各変数選択法の結果比較とまとめ
表
30
と表31
より,「(u)ーテ・(o)ーテ・キタ・ダナ・ダネ・ダモ・ダヨ・レデ・ンダ」が 東西の分類に寄与するモーラbigram
として選ばれた。これらは,カイ二乗検定の結果,すべIntercept -3.90
(u)ーテ -126.28
(o)ーテ -96.09
キタ
32.15
ダナ
1593.28
ダネ
1820.53
ダモ
347.15
ダヨ
471.91
レデ
120.45
ンダ
129.17
Intercept -5.52
ダナ
4847.74
ダネ
4141.08
66
て𝑝< 0.01である。「(u)ーテ・(o)ーテ」は,LASSOで得られた判別係数が負の値で,西部方言に分類する変 数として選ばれている。表
29
より,「(u)ーテ」は西部方言におけるモーラbigram
の使用率 が0.17
で,東部方言におけるモーラbigram
の百分率である0.01
より高いことも確認でき る。これらのモーラ
bigram
は,1.3.2.1の文法項目,1.3.2.3の音韻・アクセント項目で扱った ハ行四段活用動詞音便,形容詞連用形音便が関係している。ハ行四段活用連用形の音便が,「払ウた」とウ音便になるのが西部,「払ッた」と促音便になるのが東部,形容詞連用形「寒 ク」が「寒ウ」とウ音便になるのが西部,ならないのが東部という従来の先行研究の項目に よる差が計量的分析によっても示されていると考えられる。
次に着目すべきは,「ダナ・ダネ・ダモ・ダヨ・ンダ」と「ダ」を含むモーラbigramが複数選ば れていることである。これらは,助詞の「ナ」「ネ」「ヨ」「モノ」などが接続して現れたモーラbigram と考えられる。つまり,第5章で得られた東西の分類に有効なモーラunigram「ダ・ジャ・ヤ」が 助動詞「ダ」としての文法的性格を持っていることを強く示唆していると言える。「キタ・レデ」
に関しては,言語学的な特徴を見出すことが容易でないので,これらを省き,「
(u)ーテ・(o)ーテ・
ダナ・ダネ・ダモ・ダヨ・ンダ」の