使用データ - 誤り訂正ローマ字仮名変換 10

3. 誤り訂正ローマ字仮名変換 10

4.5 使用データ

図 3 予備実験におけるNoisy Channel Modelでの誤りモデルの重みλの変化に対する正解率

デルの重みを増加させるにつれ正解率が向上し，λ= 1.6のときに最高値に達し，

その後は重みを増加させるにつれ低下している．この結果より，言語モデルのみだけで誤り訂正を行った場合よりも，誤りモデルを考慮して訂正した方が正解率が向上するが，適切な重みで組み合わせることが重要であり，誤りモデルを重視しすぎることも正解率の低下をもたらすことがわかる．この予備実験ではλ= 1.6 としたときが最も正解率が高かったため，この値を用いて実験を行う．

図 4 言語モデルにおける格助詞の割合 4.5.1 学習データ

言語モデル言語モデルは正しい日本語文から構築する．正しい日本語文は，新聞記事や書籍などから収集することができる．本論文ではウェブページをクロールして収集した文も正しい日本語文だとみなした．言語モデルに用いるコーパスは誤りモデルに用いるコーパスよりも大量に収集しやすく，精度の改善が容易である．言語モデルにはWeb日本語Nグラム第1版を使用した．Web日本語Nグラムはウェブから抽出した200億文に対して，半角文字や記号を全角文字に変換するなどの正規化を行ったのち，極端に長い文や短い文，ひらがなが全体の5％未満しか含まれていない文などを取り除いたものから構築されている．また頻度が20 未満のトークンはデータに含まれていない．このようにして作成された配布デー

タは2,550億トークンから構築されており，総異なりトークン数は約256万トー

クンである．これは現在公開されている日本語のコーパスとしては最多のトークン数である．言語モデルで，それぞれの格助詞が現れる割合を調べた（図4）．

Web日本語Nグラムに格納されているデータは単語のユニグラムから7グラ

表 10 Lang-8から抽出した置換対の頻度上位10個学習者のトークン添削後のトークン頻度

はが 25,239

がは 18,991

すした 17,906

にで 13,446

がを 12,959

、。 12,748

をが 11,740

をに 10,831

したす 8,105

でに 8,303

ムの頻度であり，本論文では格助詞を含む1-3グラムを使用した．我々はこの頻度を用いて以下の式で表される確率を求めた．

P(w₂⁰|w1, w3) = C(w₁, w⁰₂, w₃)

w2C(w₁, w₂, w₃) ただしw₂⁰ はkakujoshiList（式1）の要素である．

誤りモデル本研究における誤りモデルは，学習者がどの格助詞とどの格助詞をどのくらいの確率で間違えるのか，という情報を得るために用いる．誤りモデルの構築には言語学習SNSのひとつであるLang-8を独自にクロールして収集したデータを用いた．一般的には挿入した文字は青色にするなど，編集をした箇所がわかるようにマークアップが施されているが，添削のスタイルは添削者によってばらつきがあり明示的に何が何に変わったという情報が示されていないので，単純な方法では添削箇所の対応関係を取ることができない（参照[3]）．

そこで，動的計画法によるマッチングを用いて置換対の抽出を行った[11]．学習者作文を文頭から1文字ずつ最長一致で参照して行き，文字の削除と挿入が連続している箇所があれば置換が行われたと判断して，置換文字列の情報を抽出し

表 11 NAIST誤用コーパスにおける助詞誤りの分類

挿入削除置換

すべての助詞誤りタグ 368 (11.0%) 920 (27.2%) 2,093 (61.9%) 学習者の入力が 328 (9.7%) 920 (27.2%) 1,787 (52.9%) kakujoshiListの要素

学習者入力・訂正先ともに 328 (9.7%) 812 (24%) 1,485 (43.9%) kakujoshiListの要素

た．表10に，この手法で獲得できた置換対の上位10個を示す．表から見て取れるように，助詞誤りや動詞語尾の誤りが多く抽出でき，確率値の計算に十分な量のデータが獲得できたと考える．こうして抽出したデータから以下の式に基づき誤りモデルで用いる確率を求めた．

P(w⁰_E|wC) = C(w_E⁰ , w_C)

wEC(w_E, w_C)

ここで，wE, w_Cはそれぞれ学習者のトークン，添削後のトークンであり，ともに kakujoshiList（式1）に含まれる要素のみを使用した．

4.5.2 テストデータ

テストデータにはNAIST誤用コーパスを利用した．本論文ではNAIST誤用コーパスから，訂正先の情報まで付与されている6,685文を取り出し，助詞誤りタグのついている箇所についてテストを行った．表11では，NAIST誤用コーパス内で助詞誤りタグのついているものに対して，挿入・削除・置換のそれぞれの誤りの割合を示している．表から見て取れるように，置換の誤りがおよそ半分を占めている．また，全置換誤りのうち80%は学習者の入力も訂正先も格助詞であり，提案手法によって訂正される可能性がある．

ドキュメント内 ( ) (ページ 40-44)