3. 誤り訂正ローマ字仮名変換 10
4.5 使用データ
図 3 予備実験におけるNoisy Channel Modelでの誤りモデルの重みλの変化に 対する正解率
デルの重みを増加させるにつれ正解率が向上し,λ= 1.6のときに最高値に達し,
その後は重みを増加させるにつれ低下している.この結果より,言語モデルのみ だけで誤り訂正を行った場合よりも,誤りモデルを考慮して訂正した方が正解率 が向上するが,適切な重みで組み合わせることが重要であり,誤りモデルを重視 しすぎることも正解率の低下をもたらすことがわかる.この予備実験ではλ= 1.6 としたときが最も正解率が高かったため,この値を用いて実験を行う.
図 4 言語モデルにおける格助詞の割合 4.5.1 学習データ
言語モデル 言語モデルは正しい日本語文から構築する.正しい日本語文は,新 聞記事や書籍などから収集することができる.本論文ではウェブページをクロー ルして収集した文も正しい日本語文だとみなした.言語モデルに用いるコーパス は誤りモデルに用いるコーパスよりも大量に収集しやすく,精度の改善が容易で ある.言語モデルにはWeb日本語Nグラム第1版を使用した.Web日本語Nグラ ムはウェブから抽出した200億文に対して,半角文字や記号を全角文字に変換す るなどの正規化を行ったのち,極端に長い文や短い文,ひらがなが全体の5%未満 しか含まれていない文などを取り除いたものから構築されている.また頻度が20 未満のトークンはデータに含まれていない.このようにして作成された配布デー
タは2,550億トークンから構築されており,総異なりトークン数は約256万トー
クンである.これは現在公開されている日本語のコーパスとしては最多のトーク ン数である.言語モデルで,それぞれの格助詞が現れる割合を調べた(図4).
Web日本語Nグラムに格納されているデータは単語のユニグラムから7グラ
表 10 Lang-8から抽出した置換対の頻度上位10個 学習者のトークン 添削後のトークン 頻度
は が 25,239
が は 18,991
す した 17,906
に で 13,446
が を 12,959
、 。 12,748
を が 11,740
を に 10,831
した す 8,105
で に 8,303
ムの頻度であり,本論文では格助詞を含む1-3グラムを使用した.我々はこの頻 度を用いて以下の式で表される確率を求めた.
P(w20|w1, w3) = C(w1, w02, w3)
P
w2C(w1, w2, w3) ただしw20 はkakujoshiList(式1)の要素である.
誤りモデル 本研究における誤りモデルは,学習者がどの格助詞とどの格助詞を どのくらいの確率で間違えるのか,という情報を得るために用いる.誤りモデル の構築には言語学習SNSのひとつであるLang-8を独自にクロールして収集した データを用いた.一般的には挿入した文字は青色にするなど,編集をした箇所が わかるようにマークアップが施されているが,添削のスタイルは添削者によって ばらつきがあり明示的に何が何に変わったという情報が示されていないので,単 純な方法では添削箇所の対応関係を取ることができない(参照[3]).
そこで,動的計画法によるマッチングを用いて置換対の抽出を行った[11].学 習者作文を文頭から1文字ずつ最長一致で参照して行き,文字の削除と挿入が連 続している箇所があれば置換が行われたと判断して,置換文字列の情報を抽出し
表 11 NAIST誤用コーパスにおける助詞誤りの分類
挿入 削除 置換
すべての助詞誤りタグ 368 (11.0%) 920 (27.2%) 2,093 (61.9%) 学習者の入力が 328 (9.7%) 920 (27.2%) 1,787 (52.9%) kakujoshiListの要素
学習者入力・訂正先ともに 328 (9.7%) 812 (24%) 1,485 (43.9%) kakujoshiListの要素
た.表10に,この手法で獲得できた置換対の上位10個を示す.表から見て取れ るように,助詞誤りや動詞語尾の誤りが多く抽出でき,確率値の計算に十分な量 のデータが獲得できたと考える.こうして抽出したデータから以下の式に基づき 誤りモデルで用いる確率を求めた.
P(w0E|wC) = C(wE0 , wC)
P
wEC(wE, wC)
ここで,wE, wCはそれぞれ学習者のトークン,添削後のトークンであり,ともに kakujoshiList(式1)に含まれる要素のみを使用した.
4.5.2 テストデータ
テストデータにはNAIST誤用コーパスを利用した.本論文ではNAIST誤用 コーパスから,訂正先の情報まで付与されている6,685文を取り出し,助詞誤り タグのついている箇所についてテストを行った.表11では,NAIST誤用コーパ ス内で助詞誤りタグのついているものに対して,挿入・削除・置換のそれぞれの 誤りの割合を示している.表から見て取れるように,置換の誤りがおよそ半分を 占めている.また,全置換誤りのうち80%は学習者の入力も訂正先も格助詞であ り,提案手法によって訂正される可能性がある.