1 / 25
Project Next 日本語校正タスク
山本 和英(長岡技術科学大学)
鄭 育昌(Cheng, Yuchang)(富士通研究所)
2 / 25
発表内容
●
現状認識
●
人間の誤り傾向
●
システムの誤り傾向
●
まとめ
3 / 25
現状認識
4 / 25
日本語校正の特徴
●
形態素解析できない
●
タスクが異なる
– 母語話者か学習者か
●
(母語話者)大人か子供か
●
(学習者)漢字圏か非漢字圏か
– 「校正」か「推敲」か
– 検出か訂正か
– 文章の専門性
5 / 25
開発状況
●
ジャストシステム (Just Right 5!Pro)
●
富士通研究所
●
東芝ソリューション
●
Web上のサービス
6 / 25
研究状況
(学習者向け;研究の主流)
●
助詞の誤り検出・訂正の研究が多い
●
誤りの種類を限定しない研究もある
–
[水本2013]
●
日本語作文推敲支援システム「ナツメグ」
–
[八木2012] [八木2014]
(母語話者向け)
●
保険関連文書向けの校正支援技術
–
[丹治2011][大平2012][林2014]
7 / 25
人間の誤り傾向
8 / 25
使用テキスト
●
学習者の誤用に限定
●
オンライン日本語誤用辞典に掲載の例
文を使用
– 誤りを約30項目に分類し訂正
– 助詞/ヴォイス/テンス・アスペクト/基
本文型/形式名詞/指示詞/疑問詞
/2語の接続/2文の接続/修飾/語
彙/文全体
●
既存技術で対応可能かを主観で判断
9 / 25
たぶんできる
日本の中で色々の(⇒な)場所に行った。
また、旅はもちろん楽しいである。
でも、去年のある日、気持はよくないかも
しれませんでした。
私も失敗な(⇒失敗した)ことがあります。
でも、私は人前が怖いと思います(⇒で
す)。
10 / 25
頑張ればできるかも
いつもお金を使いすぎました(⇒ます)。
私の夢は日本の家のゆめいな屋根を見ま
す(⇒見ることです)。
現象の支持者も反対者も多くて、いい点と
(⇒も)悪い点も両方あると思う。
バイクは全然(⇒完全に)壊れました。
それから(⇒けれども)日本語の言語に慣
れました。
11 / 25
難しい
結局、母は私に許しました(⇒許してくれました)。
φ(⇒それは)今で始まったことではない。
夢は何 でしょうφの問題(⇒何かという問い)に答
えて、望みをかなえることだと思う。
それから(⇒けれども)日本語の言語に慣れまし
た。
そのため、そのようなゲームに深い感情を感じて
(⇒夢中になりすぎて)さらにしてしまうということ
である。
12 / 25
システムの誤り傾向
13 / 25
システムA
●
市販製品
●
表現の洗練が主目的
●
新聞社、出版社などの業種のユーザが
多く利用
14 / 25
校正項目 説明
誤りチェック 誤字脱字、仮名遣い、慣用表現、呼応表現、ら抜き 表現、同音語誤り、二重敬語、西暦・和暦など
用語基準 送り仮名、漢字基準、公用文、難しい語の言い換え、 旧字体、商標・商品名、数字の表記など
表現洗練 文体の統一、重ね言葉、同一助詞の連続、二重否 定、修飾関係、並列関係など
字種統一 単位、句読点、カタカナ、数字、記号、アルファベット 長さチェック 文、句読点、ひらがな、カタカナ、漢字
環境依存文字 外字と機種依存文字、JIS X 0213:2004で例示字形 が変更された漢字
スペルチェック 先頭のみ大文字の単語、すべて大文字の単語、数字 を含む単語、全角を含む単語など
表記ゆれ 外来語のみ/全部、全角半角・大文字小文字の区別を 指摘する/しない
括弧 対応、階層
印刷標準字体 簡易慣用字体・デザイン差などの文字
表:システムAにおける検出項目
15 / 25
システムB
●
開発企業内でのみ使用
●
仕様書などの技術文書の品質を向上さ
せることが目的
– 複数の意味に解釈されない
– 主語・目的語等の省略がない
– 簡潔・明瞭
– 用語に一貫性がある
16 / 25
校正項目 説明
言葉使いのチェック 同義語、非専門用語、未登録語、受け身の 使用を指摘
動作処理のチェック 動詞+「行う」、感情表現(~したい)、使役 表現の使用を指摘
あいまい表現のチェック 否定表現の並立、二重否定、部分否定、接 続助詞「ため」、格助詞「より」の使用を指摘 内容複雑さのチェック 接続助詞「が」、「ので」の使用を指摘、連
用中止の箇所で分割するように推奨
修飾関係のチェック 修飾先が複数あり、あいまい性がある修飾関 係を指摘
処理対象のチェック 目的語の省略、形容(動)詞・副詞の使用、 指示代名詞の使用による処理対象があいま いになる事例を指摘
助詞チェック 「てにをは」などの助詞誤用を指摘
文体チェック 「である」、「ですます」体の不統一を指摘
表:システムBにおける検出項目
17 / 25
実験設定
●
2システムを使用
●
オンライン日本語誤用辞典の例文を入
力
– 491文、1023件
– 誤りの約6割が文法、3割が語彙
●
出力結果を評価しない
– 日本語学習者向けではない
18 / 25
校正項目 説明 件数
誤りチェック 誤字脱字、仮名遣い、慣用表現、呼応表現、ら抜き
表現、同音語誤り、二重敬語、西暦・和暦など 123 用語基準 送り仮名、漢字基準、公用文、難しい語の言い換え、
旧字体、商標・商品名、数字の表記など 207 表現洗練 文体の統一、重ね言葉、同一助詞の連続、二重否
定、修飾関係、並列関係など 239
字種統一 単位、句読点、カタカナ、数字、記号、アルファベット 75 長さチェック 文、句読点、ひらがな、カタカナ、漢字 28 環境依存文字 外字と機種依存文字、JIS X 0213:2004で例示字形
が変更された漢字 2
スペルチェック 先頭のみ大文字の単語、すべて大文字の単語、数字
を含む単語、全角を含む単語など 5
表記ゆれ 外来語のみ/全部、全角半角・大文字小文字の区別を
指摘する/しない 84
括弧 対応、階層 0
印刷標準字体 簡易慣用字体・デザイン差などの文字 0
合計 783
表:システムAにおける検出件数
19 / 25
校正項目 説明 件数
言葉使いのチェック 同義語、非専門用語、未登録語、受け身の
使用を指摘 202
動作処理のチェック 動詞+「行う」、感情表現(~したい)、使役
表現の使用を指摘 30
あいまい表現のチェック 否定表現の並立、二重否定、部分否定、接
続助詞「ため」、格助詞「より」の使用を指摘 48 内容複雑さのチェック 接続助詞「が」、「ので」の使用を指摘、連
用中止の箇所で分割するように推奨 93 修飾関係のチェック 修飾先が複数あり、あいまい性がある修飾関
係を指摘 3
処理対象のチェック 目的語の省略、形容(動)詞・副詞の使用、 指示代名詞の使用による処理対象があいま いになる事例を指摘
459
助詞チェック 「てにをは」などの助詞誤用を指摘 43 文体チェック 「である」、「ですます」体の不統一を指摘 149
合計 1027
表:システムBにおける検出件数
20 / 25
誤用分類 説明 件数 システムAの一致 件数
システムB の一致件 数
文法 助詞、複合辞、文型、テ ンス・アスペクトなどの誤 用例
652 10 3
語彙 動詞、形容詞、名詞、副 詞、連体詞、接辞、連語 などの誤用例
334 97 65
句・文全体 文(句)の意味が不適切 のため、全体的に書き直 す修正
37 0 0
合計 1023 107 68
表:日本語学習者テキストの誤用分類と件数
21 / 25
考察
●
適切に検出できたのは1割程度
– そのほとんどが語彙の指摘
– 助詞誤りも若干数指摘できた
●
システムは日本語話者を前提=形態素
解析ができる
– 日本語学習者は形態素レベルの誤り
も多く、形態素解析できないと他の誤
りを指摘できない
22 / 25
まとめ:
日本語校正のために
何をすべきか?
23 / 25
●
日本語処理全体の底上げ
24 / 25
●
誤った日本語の形態素解析
●
分離表現の把握
– いつも~します
– ~も~もあります
– ~しか~しない
– ~ばかりか~までも
25 / 25
おわり