• 検索結果がありません。

第 6 章 東西分類に有効なモーラ bigram から見た方言分類

6.3 モーラ bigram から見た方言分類

6.3.1 変数選択

6.3.1.1 カイ二乗値による変数選択

本研究で定めた東部方言と西部方言において,どのようなモーラ

bigram

に異なる特徴が 見られるのか,カイ二乗値から検討する。変数が多いため,46 地点における総頻度が

10

以 下のものは,「その他」として一つの変数としてまとめると,全部で

4032

の変数となった。

カイ二乗値の大きな順に並べたところ,4032変数のうち,1884変数が𝑝< 0.05であった。そ のうちの上位20のモーラbigramを表29に示す。西と東の列の数値は,東西それぞれにおけ

るモーラ

bigram

の百分率(使用率)を示している。

64

表 29 東西におけるモーラbigramのカイ二乗値(上位20)

モーラ

bigram

の場合,おおよその文法的・語彙的・形態音韻論的特徴が見えてくる。東で

は,「ンダ・ダカ・ダッ・ダヨ・ダモ・ダナ・ダガ・ダネ・(u)ーテ」など,助動詞「だ」が多 く用いられること,「ッテ・ダッ」など,活用形の促音便形が用いられること,「ネー」「ダネ」

など,助詞に「ネ」が使用されることが考えられる。一方,西では,「ンジャ・ンヤ」など,

助動詞には,「だ」ではなく「じゃ」「や」が多く使用されること,「モー・(u)ーテ」など,活 用形のウ音便が用いられること,「ナー」など,助詞に「ナ」が使用されること,「ホイ」など

「ソ」ではなく「ホ」が用いられることが考えられる。

モーラ

bigram

西 東 χ2

1

ンダ

0.19 1.34 2434.24

2

ダカ

0.01 0.25 613.38

3

ダッ

0.05 0.34 595.12

4

ネー

0.38 0.88 543.19

5

ッテ

0.65 1.26 533.26

6

ダヨ

0.00 0.17 485.60

7

ガラ

0.02 0.21 473.08

8

ナー

0.81 0.34 466.46

9

モー

0.47 0.14 438.97

10

ダモ

0.01 0.15 360.83

11

ダナ

0.01 0.16 341.51

12 (u)

ーテ

0.17 0.01 326.12

13

ンジャ

0.26 0.06 319.18

14

ダガ

0.01 0.13 315.13

15

ホイ

0.21 0.03 306.03

16

ダネ

0.00 0.10 259.04

17

ネァ

0.00 0.09 240.65

18

ンヤ

0.22 0.05 240.18

19 (o)

ーダ

0.05 0.19 237.42

20

フン

0.26 0.08 235.61

65

6.3.1.2 LASSOとAdaptive LASSOによる変数選択

本項では,上位

500

のモーラ

bigram

を用いて,LASSOと

Adaptive LASSO

を使用して 変数選択を行う。統計処理ソフト

R

glmnet,交差検証には glmnetUtils

を用いて分析を 行った。チューニングパラメータλの選択は,10分割交差検証法(CV: Cross Validation)

で行い,最適なλを求めている。

LASSO

で選ばれた変数は「(u)ーテ・(o)ーテ・キタ・ダナ・ダネ・ダモ・ダヨ・レデ・ン

ダ」であった。判別係数とともに表

30

に示す。正の値が東の分類に寄与する変数,負の値が 西の分類に寄与する変数である。

表 30 LASSOで得られた判別係数(モーラ

bigram)

Adaptive LASSO

で選ばれた変数は「ダナ・ダネ」であった。表

31

Adaptive LASSO

得られた係数を示す。判別係数は,正の値で東に分類するのに寄与する変数が選ばれた。

表 31 Adaptive LASSOで得られた判別係数(モーラbigram)

6.3.1.3 各変数選択法の結果比較とまとめ

30

と表

31

より,「(u)ーテ・(o)ーテ・キタ・ダナ・ダネ・ダモ・ダヨ・レデ・ンダ」が 東西の分類に寄与するモーラ

bigram

として選ばれた。これらは,カイ二乗検定の結果,すべ

Intercept -3.90

(u)ーテ -126.28

(o)ーテ -96.09

キタ

32.15

ダナ

1593.28

ダネ

1820.53

ダモ

347.15

ダヨ

471.91

レデ

120.45

ンダ

129.17

Intercept -5.52

ダナ

4847.74

ダネ

4141.08

66

て𝑝< 0.01である。

「(u)ーテ・(o)ーテ」は,LASSOで得られた判別係数が負の値で,西部方言に分類する変 数として選ばれている。表

29

より,「(u)ーテ」は西部方言におけるモーラ

bigram

の使用率 が

0.17

で,東部方言におけるモーラ

bigram

の百分率である

0.01

より高いことも確認でき る。

これらのモーラ

bigram

は,1.3.2.1の文法項目,1.3.2.3の音韻・アクセント項目で扱った ハ行四段活用動詞音便,形容詞連用形音便が関係している。ハ行四段活用連用形の音便が,

「払ウた」とウ音便になるのが西部,「払ッた」と促音便になるのが東部,形容詞連用形「寒 ク」が「寒ウ」とウ音便になるのが西部,ならないのが東部という従来の先行研究の項目に よる差が計量的分析によっても示されていると考えられる。

次に着目すべきは,「ダナ・ダネ・ダモ・ダヨ・ンダ」と「ダ」を含むモーラbigramが複数選ば れていることである。これらは,助詞の「ナ」「ネ」「ヨ」「モノ」などが接続して現れたモーラbigram と考えられる。つまり,第5章で得られた東西の分類に有効なモーラunigram「ダ・ジャ・ヤ」が 助動詞「ダ」としての文法的性格を持っていることを強く示唆していると言える。「キタ・レデ」

に関しては,言語学的な特徴を見出すことが容易でないので,これらを省き,「

(u)ーテ・(o)ーテ・

ダナ・ダネ・ダモ・ダヨ・ンダ」の

7

変数を最終的に選ぶ。