• 検索結果がありません。

WS PNN12 j proofreading slide

N/A
N/A
Protected

Academic year: 2018

シェア "WS PNN12 j proofreading slide"

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)

1 / 25

Project Next 日本語校正タスク

山本 和英(長岡技術科学大学)

鄭 育昌(Cheng, Yuchang)(富士通研究所)

(2)

2 / 25

発表内容

現状認識

人間の誤り傾向

システムの誤り傾向

まとめ

(3)

3 / 25

現状認識

(4)

4 / 25

日本語校正の特徴

形態素解析できない

タスクが異なる

– 母語話者か学習者か

(母語話者)大人か子供か

(学習者)漢字圏か非漢字圏か

「校正」か「推敲」か

検出か訂正か

文章の専門性

(5)

5 / 25

開発状況

ジャストシステム (Just Right 5!Pro)

富士通研究所

東芝ソリューション

Web上のサービス

(6)

6 / 25

研究状況

(学習者向け;研究の主流)

助詞の誤り検出・訂正の研究が多い

誤りの種類を限定しない研究もある

[水本2013]

日本語作文推敲支援システム「ナツメグ」

[八木2012] [八木2014]

(母語話者向け)

保険関連文書向けの校正支援技術

[丹治2011][大平2012][林2014]

(7)

7 / 25

人間の誤り傾向

(8)

8 / 25

使用テキスト

学習者の誤用に限定

オンライン日本語誤用辞典に掲載の例

文を使用

– 誤りを約30項目に分類し訂正

– 助詞/ヴォイス/テンス・アスペクト/基

本文型/形式名詞/指示詞/疑問詞

/2語の接続/2文の接続/修飾/語

彙/文全体

既存技術で対応可能かを主観で判断

(9)

9 / 25

たぶんできる

日本の中で色々の(⇒な)場所に行った。

また、旅はもちろん楽しいである。

でも、去年のある日、気持はよくないかも

しれませんでした。

私も失敗な(⇒失敗した)ことがあります。

でも、私は人前が怖いと思います(⇒で

す)。

(10)

10 / 25

頑張ればできるかも

いつもお金を使いすぎました(⇒ます)。

私の夢は日本の家のゆめいな屋根を見ま

す(⇒見ることです)。

現象の支持者も反対者も多くて、いい点と

(⇒も)悪い点も両方あると思う。

バイクは全然(⇒完全に)壊れました。

それから(⇒けれども)日本語の言語に慣

れました。

(11)

11 / 25

難しい

結局、母は私に許しました(⇒許してくれました)。

φ(⇒それは)今で始まったことではない。

夢は何 でしょうφの問題(⇒何かという問い)に答

えて、望みをかなえることだと思う。

それから(⇒けれども)日本語の言語に慣れまし

た。

そのため、そのようなゲームに深い感情を感じて

(⇒夢中になりすぎて)さらにしてしまうということ

である。

(12)

12 / 25

システムの誤り傾向

(13)

13 / 25

システムA

市販製品

表現の洗練が主目的

新聞社、出版社などの業種のユーザが

多く利用

(14)

14 / 25

校正項目 説明

誤りチェック 誤字脱字、仮名遣い、慣用表現、呼応表現、ら抜き 表現、同音語誤り、二重敬語、西暦・和暦など

用語基準 送り仮名、漢字基準、公用文、難しい語の言い換え、 旧字体、商標・商品名、数字の表記など

表現洗練 文体の統一、重ね言葉、同一助詞の連続、二重否 定、修飾関係、並列関係など

字種統一 単位、句読点、カタカナ、数字、記号、アルファベット 長さチェック 文、句読点、ひらがな、カタカナ、漢字

環境依存文字 外字と機種依存文字、JIS X 0213:2004で例示字形 が変更された漢字

スペルチェック 先頭のみ大文字の単語、すべて大文字の単語、数字 を含む単語、全角を含む単語など

表記ゆれ 外来語のみ/全部、全角半角・大文字小文字の区別を 指摘する/しない

括弧 対応、階層

印刷標準字体 簡易慣用字体・デザイン差などの文字

表:システムAにおける検出項目

(15)

15 / 25

システムB

開発企業内でのみ使用

仕様書などの技術文書の品質を向上さ

せることが目的

– 複数の意味に解釈されない

– 主語・目的語等の省略がない

– 簡潔・明瞭

– 用語に一貫性がある

(16)

16 / 25

校正項目 説明

言葉使いのチェック 同義語、非専門用語、未登録語、受け身の 使用を指摘

動作処理のチェック 動詞+「行う」、感情表現(~したい)、使役 表現の使用を指摘

あいまい表現のチェック 否定表現の並立、二重否定、部分否定、接 続助詞「ため」、格助詞「より」の使用を指摘 内容複雑さのチェック 接続助詞「が」、「ので」の使用を指摘、連

用中止の箇所で分割するように推奨

修飾関係のチェック 修飾先が複数あり、あいまい性がある修飾関 係を指摘

処理対象のチェック 目的語の省略、形容(動)詞・副詞の使用、 指示代名詞の使用による処理対象があいま いになる事例を指摘

助詞チェック 「てにをは」などの助詞誤用を指摘

文体チェック 「である」、「ですます」体の不統一を指摘

表:システムBにおける検出項目

(17)

17 / 25

実験設定

2システムを使用

オンライン日本語誤用辞典の例文を入

– 491文、1023件

– 誤りの約6割が文法、3割が語彙

出力結果を評価しない

– 日本語学習者向けではない

(18)

18 / 25

校正項目 説明 件数

誤りチェック 誤字脱字、仮名遣い、慣用表現、呼応表現、ら抜き

表現、同音語誤り、二重敬語、西暦・和暦など 123 用語基準 送り仮名、漢字基準、公用文、難しい語の言い換え、

旧字体、商標・商品名、数字の表記など 207 表現洗練 文体の統一、重ね言葉、同一助詞の連続、二重否

定、修飾関係、並列関係など 239

字種統一 単位、句読点、カタカナ、数字、記号、アルファベット 75 長さチェック 文、句読点、ひらがな、カタカナ、漢字 28 環境依存文字 外字と機種依存文字、JIS X 0213:2004で例示字形

が変更された漢字 2

スペルチェック 先頭のみ大文字の単語、すべて大文字の単語、数字

を含む単語、全角を含む単語など 5

表記ゆれ 外来語のみ/全部、全角半角・大文字小文字の区別を

指摘する/しない 84

括弧 対応、階層 0

印刷標準字体 簡易慣用字体・デザイン差などの文字 0

合計 783

表:システムAにおける検出件数

(19)

19 / 25

校正項目 説明 件数

言葉使いのチェック 同義語、非専門用語、未登録語、受け身の

使用を指摘 202

動作処理のチェック 動詞+「行う」、感情表現(~したい)、使役

表現の使用を指摘 30

あいまい表現のチェック 否定表現の並立、二重否定、部分否定、接

続助詞「ため」、格助詞「より」の使用を指摘 48 内容複雑さのチェック 接続助詞「が」、「ので」の使用を指摘、連

用中止の箇所で分割するように推奨 93 修飾関係のチェック 修飾先が複数あり、あいまい性がある修飾関

係を指摘 3

処理対象のチェック 目的語の省略、形容(動)詞・副詞の使用、 指示代名詞の使用による処理対象があいま いになる事例を指摘

459

助詞チェック 「てにをは」などの助詞誤用を指摘 43 文体チェック 「である」、「ですます」体の不統一を指摘 149

合計 1027

表:システムBにおける検出件数

(20)

20 / 25

誤用分類 説明 件数 システムAの一致 件数

システムB の一致件 数

文法 助詞、複合辞、文型、テ ンス・アスペクトなどの誤 用例

652 10 3

語彙 動詞、形容詞、名詞、副 詞、連体詞、接辞、連語 などの誤用例

334 97 65

句・文全体 文(句)の意味が不適切 のため、全体的に書き直 す修正

37 0 0

合計 1023 107 68

表:日本語学習者テキストの誤用分類と件数

(21)

21 / 25

考察

適切に検出できたのは1割程度

– そのほとんどが語彙の指摘

– 助詞誤りも若干数指摘できた

システムは日本語話者を前提=形態素

解析ができる

– 日本語学習者は形態素レベルの誤り

も多く、形態素解析できないと他の誤

りを指摘できない

(22)

22 / 25

まとめ:

日本語校正のために

何をすべきか?

(23)

23 / 25

日本語処理全体の底上げ

(24)

24 / 25

誤った日本語の形態素解析

分離表現の把握

いつも~します

~も~もあります

~しか~しない

~ばかりか~までも

(25)

25 / 25

おわり

参照

関連したドキュメント

[r]

[r]

[r]

[r]

[r]

奥付の記載が西暦の場合にも、一貫性を考えて、 []付きで元号を付した。また、奥付等の数

奥付の記載が西暦の場合にも、一貫性を考えて、 []付きで元号を付した。また、奥付等の数

名      称 図 記 号 文字記号