第 7 章 東西を分けるモーラの形態音韻論的特徴
7.4 モーラ unigram の形態音韻論的特徴による方言分類
79
「や」を反映していると考えられる。したがって,
(20)のように,方言テキストで「デャ」
「ヂ ャ」と表記されている断定の助動詞についても同様に調査する。(20)
モー ミルトモデャー。(岡山);もう 付き合いだ。(共通語)
なお,断定の助動詞についても,国立国語研究所が公開しているコーパスで使用している 短単位と同様の基準である。したがって,「だから」のように,助動詞「だ」に助詞「から」
が付いて接続詞となった語も
2
語に切って,断定の助動詞「だ」として数えている。80
表 36 30地点における形態音韻論的特徴を持つモーラの頻度 地点 所属 ①
[h]
② ダ
③ ジャ
④ ヤ
⑤ウ ハ行
⑥促 ハ行
⑦ウ 形容
⑧無 形容
合計
福井 西
55 63 7 6 131
愛媛 西
49 33 14 15 1 112
静岡 東33 64 11 1 109
兵庫 西30 1 57 14 3 105
石川 西37 8 40 7 4 96
岡山 西
18 42 21 6 87
愛知 東
15 50 1 17 1 2 86
徳島 西43 9 15 3 13 83
滋賀 西26 42 2 4 1 75
香川 西25 39 2 4 2 72
富山 西4 2 13 32 15 2 68
青森 東
1 55 9 3 68
岐阜 西
11 1 38 14 3 67
埼玉 東
10 49 7 1 67
岩手 東
3 51 10 2 66
福島 東
6 40 13 6 65
神奈川 東
49 8 5 62
栃木 東
5 45 8 3 61
大阪 西
5 25 16 7 53
群馬 東
3 33 10 5 51
東京 東
1 40 7 1 49
奈良 西
21 11 10 5 47
山口 西
15 12 4 12 2 45
島根 西9 26 2 1 2 4 44
福岡 西3 29 4 6 1 43
新潟 東
6 35 41
熊本 西
2 3 27 6 2 1 41
北海道 東
2 32 1 2 37
京都 西
12 12 2 1 1 1 29
長崎 西
2 12 1 5 20
81
7.4.2 線形判別分析
表
36
の頻度を用いて,線形判別分析を行う。しかし,この変数は,形態音韻論的に東西に おいて,差が見られるものが対になるように挙げたので,すべての変数を用いると,変数間 に強い相関が出て,多重共線性の問題が生じる。そこで,5.3.2で得られた,東西分類の正解率が
100.0%であるモーラ unigram
の変数の組み合わせ「ダ+チョ,ダ+ホ,ダ+ヤ,ダ+(ン)ー」であることと,
6.2.2
で得られた,東西分類の正解率が100.0%であるモーラ bigram
の変数の組み合わせ「(u)ーテ+ダナ+ダネ,(u)ーテ+ダヨ+ンダ,(o)ーテ+ダナ+ダネ,ダナ+ダネ+ダモ,ダモ+ダヨ+ンダ」を参考にして,用いる変数を,①[s]と交替可能な[h],
②断定の助動詞「ダ」,③と④を合計して,断定の助動詞「ジャとヤ」,⑤ハ行動詞テ形・タ形 におけるウ音便,⑦形容詞連用形ウ音便の
5
つとする。ハ行動詞と形容詞のウ音便を分ける のは,品詞によって,使用する地域が異なるからである(1.3.3表6)。
①
[s]と交替可能な[h]
② 断定の助動詞「ダ」
③ 断定の助動詞「ジャ・ヤ」
④ ハ行動詞テ形・タ形におけるウ音便
⑤ 形容詞連用形ウ音便
分析には統計処理ソフト
R
のMASS
パッケージに入っているlda
関数を用いてモデルを 構築した。学習データにおける判別結果を表37
に示す。正解率は100.0%である。
表 37 形態音韻論的特徴を持つモーラによる線形判別分析 西 東
西
18 0
東0 12
判別係数は第
1
判別関数のみ返された。判別関数式の𝑥1,𝑥2,… 𝑥5は,先述の①から⑤の 項目と同じである。定数項は,グループの平均と判別係数との線形結合の平均値である。以 下に判別関数の式を示す。Y = −0.0056𝑥1− 0.1882𝑥2+ 0.0053𝑥3+ 0.1234𝑥4− 0.0261𝑥5+ 2.3283
判別関数で得られた判別得点のグループごとのヒストグラムを図
25
に示す。重なる領域が なく,誤判別率が低いことがわかる。82
図 25 学習データの第1判別関数得点の分布(形態音韻論的特徴を持つモーラ)
表
38
に東部方言に所属する確率を示す。島根以外は,東西の特徴をよく反映している。表 38 東部方言に所属する確率