3. 誤り訂正ローマ字仮名変換 10
4.7 議論
表14に「と」と「の」について,ベースラインでは正解できていたが提案手法 により正解できなくなっていたものの例文を示す.考えられる理由としては,こ れらの助詞は体言にかかることが多く,他の助詞が主に用言にかかることと比較 すると性質が違うことがあげられる.対象としている助詞が用言を修飾している のか体言を修飾しているのかは,助詞前後の情報だけでなくより広い文脈を見な ければ判断できない.そこで,係り受けなどの情報を用いることが有効だと考え ている.またその際に,「の」や「が」以外の助詞では,関係節を除き,一般に1 つの述語に同じ種類の助詞が複数かかるのは不自然である.そこで,1つの述語
表 13 助詞ごとの正解率の比較
言語モデル(Backoffあり) Noisy Channel Model 重み付きNoisyChannelModel
正解数 正解率 正解数 正解率 正解数 正解率 総数
が 75 60% 95 75% 99 79% 126
を 64 70% 65 71% 63 68% 92
の 38 76% 30 60% 28 56% 50
に 70 65% 82 76% 84 78% 108
から 0 0% 0 0% 0 0% 9
と 5 63% 3 38% 3 38% 8
で 33 52% 35 55% 35 55% 64
へ 0 0% 0 0% 0 0% 2
まで 0 0% 0 0% 0 0% 1
は 50 50% 71 71% 77 77% 100
には 0 0% 0 0% 0 0% 5
とは 0 0% 0 0% 0 0% 1
では 1 11% 0 0% 0 0% 9
までは 0 0% 0 0% 0 0% 1
図 5 助詞ごとの正解率の比較グラフ
表 14 提案手法により正解できなくなった文の例(下線部は誤り箇所を示す.)
学習者の文 正解 システム
出力 これは人々がたばこの理解していること を の が 表明だと思います。
アイヂルピトリ に 前に一ヶ月間に の で 断食をする。
たばこを一種の嗜好品 に 考えられるように と を 努力しなければならなく
男性 を 女性はお互いの物を と が 買いそろえます 。
にかかる同じ助詞は1つのみといった制約を加えることで,文全体をみた格助詞 訂正が可能になると考えられる.大木らは同様の素性を追加することにより誤用 判定の精度が改善することを示している[16].
マクロ平均では大きな改善がみられなかったが,学習者にとっては,少数の格 助詞を正しく使いたいという事も想像できるので,マイクロ平均のみでなく,マ クロ平均もともに改善できる手法の研究に取り組む必要がある.
その際に,問題になってくるのはまずコーパスである.今回言語モデルにはWeb 日本語Nグラムという大規模なものを用いたが,すべてのNグラムをカバーで きるわけではなく,またWebから集めてきたコーパスと日本語学習者の作文で はドメインにずれがあるためNグラムの分布に違いがある可能性がある.現代日 本語書き言葉均衡コーパス28はWebからだけでなく,書籍や雑誌,新聞,ブログ など多様な日本語から構築されており,Web日本語NグラムよりもNグラム分 布の偏りが少なく,また,ブログ記事のデータのみを取り出して利用すれば,学 習者の作文に近い情報を得ることができると考えられる.このようなコーパスを 組み合わせてNoisy channel modelの言語モデルを構築することにより正解率の 改善が期待できる.また,機械学習を適用することで,関連研究で用いられてい た品詞や係り受けなどのよりリッチな情報を組み合わせることができる.誤りモ デルに関しては,今回ユニグラム情報しか用いなかったが,バイグラムやトライ グラムを用いればより広い文脈の情報を反映した訂正が行える.しかし,学習者
28http://www.tokuteicorpus.jp/
の文は誤りや未知語を多く含むためNグラムが疎になりゼロ頻度の問題が大きく なる.今回はデコーダにバックオフを用いることでゼロ頻度問題の対策をしたが,
クラスタリングや平滑化処理などの対策も考えられる.今回はタグ付き教師デー タの量が十分ではなかったため母語による分類を行わなかったが,学習者の母語 によって誤りの傾向が異なると考えられるので,母語別の訂正モデルを構築すれ ば正解率が改善されるのではと考えている.