誤り傾向を反映した格助詞訂正手法 - 誤り訂正ローマ字仮名変換 10

3. 誤り訂正ローマ字仮名変換 10

4.4 誤り傾向を反映した格助詞訂正手法

接続助詞接続助詞には「と，や，も，に，か」などが含まれるが，英語での“and”

や“or”に相当し，話の流れを理解することなく文中の情報だけで訂正することは困難だと判断し対象には含めなかった．

終助詞終助詞は文末に現れる助詞で格助詞とは使われ方が大きく異なっており，

訂正先における割合が0.71%であるため，学習者にとってそれほど重要度ではないと考え，対象には含めなかった．

10種類の格助詞と取り立て助詞の「は」に加え，格助詞と「は」の組み合わせである，「には，からは，とは，では，へは，までは，よりは」も含めた，合計18 の助詞を訂正タスクの対象とした²³．

本論文で紹介する手法では，

kakujoshiList=

(が,を,の,に,から,と,で,へ,まで,より,は,には,からは,とは,では,へは,までは,よりは) (1)

を使用する．

をNグラムモデルと呼び，ある時点での単語の生起は直前のN−1単語のみに依存すると考えている．したがってNグラムモデルでは，

P(w₁|wⁿ₁⁻¹) = P(w_n|wⁿ_n₋⁻_N¹₊₁)

となる．N = 1,2,3の場合は特にユニグラム，バイグラム，トライグラムと呼ばれる．ここでトライグラムによる単語列w₁ⁿの生成確率を考えると式2のようになる．

P(w₁ⁿ) =

i−2

P(w_i|w_i₋₁, w_i₋₂) (2) 本研究では，1-3グラムを使用することとし，言語モデルはウェブデータを元に構築されたコーパスである，Web日本語Nグラム第一版²⁴を用いて作成した．我々が行った一番単純なベースラインでは，もっとも頻度が高かったものが訂正語として選択される．

w₂ = arg max

P(w₂|w₁, w₃) = arg max

C(w₁, w₂, w₃)

ここで，P(w₂|w₁, w₃)は単語列w₁, w₂, w₃の出現確率であり，C(w1, w₂, w₃)は頻度である．ただし，w2はkakujoshiList（式1）の要素である．

Backoff 一般的に言語モデルのNが大きくなるほど，各トークンの出現頻度が

少なくなり，テストセットに登場したトークンが言語モデルに存在しない場合もある．これはゼロ頻度問題として知られており，ゼロ頻度のトークンにも何らかの頻度を与えるため，様々な平滑化手法が提案されてきた．また，言語モデルの構築に用いるコーパスが大きくなるにつれこの問題は軽減される．本論文では研究用途で公開されているものの中で2011年現在最大だと考えられる日本語コーパスのWeb日本語Nグラムを用いているが，ゼロ頻度問題を無視することはできない．本論文では，一般に用いられている言語モデルに対するBackoffを行わなかったが，代わりに，最尤推定時にすべての格助詞に対してNグラムの頻度が0 だった場合，N-1グラムの頻度で最尤推定をするという方法でデコーダのBackoff を行った．手順をアルゴリズム1に示す．

24http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html

Algorithm 1Backoff correct←arg max

P(w₂|w₁, w₃) if correct== N ON E then

correct←arg max

(P(w₂|w₁)P(w₂|w₃)) end if

if correct== N ON E then correct←arg max

P(w₂) end if

4.4.2 手法2：Noisy Channel Modelによる格助詞推定

学習者の誤りやすさの傾向を反映するため，Noisy channel modelを用いた．これは機械翻訳などで用いられてきた手法であるが，日本語の学習者の作文誤り訂正で使用された前例は筆者の知る限り存在しない．学習者の誤りを訂正するとき，

どの単語がどの単語と間違えやすいか，という確率が分かると有効である．

w_C = arg max

P(w_C|w_E)

ここで，wE を学習者の書いた単語，wC を訂正された単語とすると，P(w_C|w_E) は学習者の書いた単語がどの単語に直されたか，P(w_E|w_C)はある単語をどの単語と間違えたか，P(w_C)は正しい文の中である単語がどのくらいの割合で登場したか，P(w_E)は学習者の文の中である単語がどのくらいの割合で登場したか，

を表す確率である．本タスクではwEはkakujoshiList（式1）の要素であるとする．訂正誤りを最小化するためには，事後確率P(w_C|w_E)を最大化する単語wˆ_C を求めればよい．しかし，P(w_C|w_E)から信頼できる推測をするために十分な量のデータを学習者の作文から集めることは容易ではない．ここでベイズの定理を用いると以下のように式変形することができる．

P(w_C|w_E) = P(w_E|w_C)P(w_C) P(w_E)

このとき，訂正先の格助詞を選択するためには，尤もらしいもの，すなわち一番大きな確率値になる格助詞を一つ選べばいいので，格助詞によらず不変である分

母は考慮する必要がない．

arg max

P(wC|wE) = arg max

P(wE|wC)P(wC)

この式では，求める確率をP(w_E|w_C)とP(w_C)のふたつの要素に分けて考えることができる．これらをそれぞれ誤りモデルと言語モデルと本論文で呼ぶ．なお誤りモデルという言葉は便宜上用いた名称であり，一般的ではない点に留意していただきたい．これら誤りモデルと言語モデルの精度をそれぞれ改善することにより，誤り訂正の精度を改善することができる．言語モデルは手法１で使用したものと同じものを使用し，デコーダのBackoffによりゼロ頻度問題を解消している．

4.4.3 手法3：重み付きNoisy Channel Model

arg max

P(w_C|w_E) = arg max

(P(w_E|w_C)P(w_C)) は対数を用いると，

arg max

P(wC|wE)

= arg max

(logP(w_E|w_C) + logP(w_C))

と変形できる．

さらに，誤りモデルの重みを表すパラメータλ(0.0≤λ ≤ ∞)を導入すると以下のような式となる．

arg max

(λlogP(w_E|w_C) + logP(w_C))

λを変化させて誤りモデルの影響を調節することにより，正解率が向上するかどうかを調べる実験も行った．適切なλを求めるため開発データ²⁵を用いて予備実験を行った結果を図3に示す．λ= 0の時が言語モデルのみの場合である．誤りモ

25タスクの対象となる要素数は1,486であったが，約半数の700要素をテストデータとして使用し，残りの786要素を開発データとした．

図 3 予備実験におけるNoisy Channel Modelでの誤りモデルの重みλの変化に対する正解率

デルの重みを増加させるにつれ正解率が向上し，λ= 1.6のときに最高値に達し，

その後は重みを増加させるにつれ低下している．この結果より，言語モデルのみだけで誤り訂正を行った場合よりも，誤りモデルを考慮して訂正した方が正解率が向上するが，適切な重みで組み合わせることが重要であり，誤りモデルを重視しすぎることも正解率の低下をもたらすことがわかる．この予備実験ではλ= 1.6 としたときが最も正解率が高かったため，この値を用いて実験を行う．

ドキュメント内 ( ) (ページ 36-40)