年度研究進捗状況報告：電子化辞書班 - Progress Report of the Year 2007:‘Tools and annotation’group

Progress Report of the Year 2007:‘Tools and annotation’group

平成 19 年度研究進捗状況報告：電子化辞書班

多様な目的に適した形態素解析システム用電子化辞書の開発

伝康晴（班長：千葉大学文学部）^† 山田篤（分担者：京都高度技術研究所）

峯松信明（分担者：東京大学大学院新領域創成科学研究科）

内元清貴（分担者：情報通信研究機構）

小木曽智信（分担者：国立国語研究所）

小磯花絵（分担者：国立国語研究所）

Progress Report of the Year 2007: ‘ UniDic ’ Group

Yasuharu Den (Faculty of Letters, Chiba University) Atsushi Yamada (ASTEM)

Nobuaki Minematsu (Graduate School of Frontier Sciences, The University of Tokyo) Kiyotaka Uchimoto (National Institute of Information and Communications Technology)

Toshinobu Ogiso (National Institute for Japanese Language) Hanae Koiso (National Institute for Japanese Language)

1. はじめに

本計画班の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、（１）本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、（２）

日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。

昨年度までに、（１）短単位辞書を関係データベースとして実装、辞書情報の登録を行ない（データ班と共同）、（２）辞書データベースと学習コーパスから形態素解析システム用辞書を作成、ChaSenで運用・評価を行ない、（３）音変化・アクセント変化に関する調査・

モデル化を行ない、（４）中・長単位の自動構成に関するプロトタイプシステムを作成した。

本年度は以下のことを行なった。

（１）短単位辞書の拡充

（２）形態素解析システム用辞書の解析精度向上

（３）音変化・アクセント変化処理の改善

（４）中・長単位構成システムの開発

2. 短単位辞書の拡充

2.1.

辞書データベースの改善・拡張

国立国語研究所で運用している辞書データベースの改善・拡張を行なった（一部データ班と共同）。

（１）語彙素レベルに語種情報を追加した。

（２）活用形の終止形・連体形を区別した。

† [email protected]

（３）助詞・助動詞のアクセント結合型を整備した。

（４）語頭・語末変化の実装、語彙素表記・内部活用型の整備などを行なった。

（５）新規登録語を随時追加中（2008年2月末現在、語彙素約11万項目、語形約12万項目、書字形約16万項目）。

新規登録語は主として、BCCWJ書籍・新聞のサンプルおよび言語政策班作成のコーパス

（中学・高校教科書）の解析結果に見られる未登録語から追加した。

2.2.

3.1.

3.2.

外来語の基準の整備

外来語の語彙素・語形の表記と、その同語異語判別に関する規定を以下の観点から整備した（「バイオリン」と「ヴァイオリン」、「オーケー」と「オッケー」、「カオス」と「ケイオス」など）。

（１）書字形の揺れと見なして1つの語形にまとめるか否か。

（２）語形でまとめない場合、同一の意味を担う語として語彙素でまとめるか否か。

（３）語彙素や語形でまとめる場合、見出しとしてどのような表記を用いるか。

これらの規定をまとめ、既登録の（固有名詞を除く）外来語（2008年1月時点で約1万 2千語）の修正を行なうとともに、国語辞典を参考に約4000語の外来語を追加登録した。

3. 形態素解析システム用辞書の解析精度向上

ChaSen版辞書の精度向上

ChaSen版辞書の学習・評価コーパス（BCCWJ白書コア・RWCP・CSJ）約170万語を整

備（終止形・連体形の区別、組織的な誤りの修正など）した。2008年2月末現在、表1（上部）の解析精度（アウトサイドデータに対するF値）を得ている。

MeCab版辞書の作成

解析精度（とくに語彙素認定）のさらなる向上のため、MeCab 版辞書を作成した。語種情報を学習素性に用いることで、語彙素認定の精度向上を図った。2008年2月末現在、表

1（下部）の解析精度（アウトサイドデータに対するF値）を得ている。

表 1：形態素解析システム用辞書の解析精度

評価データ境界認定品詞認定語彙素認定

BCCWJ白書（約11.5万語） 99.6% 99.0% 98.7%

RWCP（約9.5万語） 99.3% 98.0% 97.2%

ChaSen版

CSJ（約4.5万語） 99.3% 97.3% 96.0%

BCCWJ白書（約11.5万語） 99.9% 99.4% 99.2%

RWCP（約9.5万語） 99.7% 98.8% 98.6%

MeCab版

CSJ（約4.5万語） 99.7% 98.4% 97.9%

3.3. 解析誤りの多い助詞・助動詞の再解析

解析誤りの多い助詞・助動詞に対して、左右文脈を用いた再解析を検討した。MeCab 版辞書による解析結果において、約3割を占める助詞・助動詞間の誤り（「に」：助動詞「だ」

の連用形と格助詞、「で」：助動詞「だ」の連用形と格助詞、「と」：格助詞と接続助詞）を対象とした。左右文脈の長さ（短単位数）を0～3に設定して、CRFによるモデルを作成した結果、左右ともに2単位を文脈とするモデルがもっとも精度がよかった。MeCab および再解析による誤り数は表2の通りである。「格助詞ニ」に対する再解析の誤適用が散見されるものの、全体的にMeCabの精度を上回っている。

表 2: MeCabおよび再解析による誤り数

MeCab 再解析

正解解析結果白書 RWCP CSJ 白書 RWCP CSJ

助動詞ダ格助詞ニ 12 5 8 30 3 18

に

格助詞ニ助動詞ダ 17 51 16 0 14 2

助動詞ダ格助詞デ 38 122 92 16 51 60

で

格助詞デ助動詞ダ 17 32 42 14 26 17 格助詞ト接続助詞ト 3 14 17 2 11 13

と

接続助詞ト格助詞ト 1 8 12 1 7 8

計 88 232 187 63 112 118

3.4.

4.1.

4.2.

前処理システムの改善

形態素解析の前処理として利用している、数字を含む文字列の変換システム numtrans の見直しを行なった。コーパス作成時に過剰な変換は望ましくないという考えから、読み上げ目的の変換とは別に、出現文字に比較的忠実な変換モードを新たに作成し、分数・時間・

日付・十進表記などについて、読み上げモードと文字対応モードを指定できるようにした

（「３２千」→読み上げモード：「三万二千」、文字対応モード：「三十二千」など）。

4. 音変化・アクセント変化処理の改善

音変化処理システムの改善

形態素解析の後処理として利用している音変化処理システムChaOneを改良し、これまで散見された誤解析を修正した。また、頻出していた「日」（「ニチ」か「カ」か）の誤読にも対応した。

音変化処理データの作成

語末変化の1つである促音化（「サンカク|ケイ」→「サンカッ|ケイ」）の規則化に着手し

た。Google「Web日本語Nグラム第１版」データをUniDicで再解析し、短単位で2単位に

なる項目を抽出、促音化の可否を判断し、データ化している。

同様に、語頭変化の連濁の規則化にも着手した。ウェブ上から連濁事例の収集を行ない、

連濁を起こす対象語を選定した。これらについて、さらに広範な事例を収集するために、

Google「Web日本語Nグラム第１版」データから短単位で2単位になる項目を抽出、連濁

の可否を判断し、データ化している。

4.3.

5.1.

アクセント変化処理の改良

アクセント付きコーパスを拡充し（2008年2月現在7280文）、CRFに基づくアクセント変化処理を改良した。その結果、主核の位置のみの評価で 93.5%の高い精度を得た。また、

学習データを1000文単位で増加させ、誤推定の減少率を調べたところ、精度の飽和が確認された。今後は学習データの増加による大幅な推定精度の改善は見込めないと言える。

そこで、現在はエラー分析に基づく処理改善策の検討を重視している。これまで注目してきた「単純なアクセント句」「名詞連続を含むアクセント句」に加え、数詞・カタカナ語・

副助詞・助詞・助動詞の連続に着目し、処理精度を調査している。今後、複合語・付属語・

接頭辞・接尾辞を中心とした処理改善を試みる予定である。

5. 中・長単位構成システムの開発

長単位構成システムの開発

京大コーパスの1129文を対象に、本研究領域で用いる文節および短・長単位規定に基づいてタグ付けした（データ班と共同）。この9割を学習データとして長単位構成モデルを作成し、残りの1割（112文）で評価した。解析精度（F値）は表3の通りである。「文節境界の有無」の「あり」は正しい文節境界を入力として与えた場合、「なし」は文節境界を与えなかった場合、「逐次認定」は文節境界を自動認定した後に長単位の認定を行なった場合、

「同時認定」は文節境界と長単位を同時認定した場合である。

表 3：長単位解析システムの解析精度

文節境界の有無境界認定品詞認定語彙素認定あり

なし

97.4%

97.0%

91.9%

92.0%

90.3%

90.4%

逐次認定同時認定

92.2%

97.2%

87.9%

91.9%

86.4%

90.3%

境界認定の精度に比べて品詞認定の精度が低いが、これは品詞認定規則が本研究領域の規定に十分チューニングされていないことが大きな要因の 1 つである。今後、品詞認定および語彙素認定の精度を向上させることが課題である。

5.2. 短単位間の係り受け解析システムの開発

中単位認定のために、短単位間の係り受け解析システムを開発した。Shift-reduce 法などの既存の方法を適用した。CSJの50講演に対して短単位間の係り受けおよび中単位を付与したデータのうち、文節内の係り受けのみを対象として学習・評価した。学習・評価は 10 分割交差検証で行なった。解析精度は表4の通りである（評価対象33429。文節末から2番目の短単位は評価対象外）。

いずれの手法もベースラインよりよい精度が得られているが手法による差は見られない。

今後、シソーラスなどの意味的情報を利用して精度向上を図りたい。

表 4：短単位間の係り受け解析システムの解析精度

手法解析精度

ベースライン

Shift-reduce法 (Nivre & Scholz, 2004) MST parser (McDonald et al., 2005) CaboCha (Kudo and Matsumoto, 2001)

98.6%

99.1%

6. 今後の予定

z 語種情報を含む形態素解析システム用辞書の公開（4月中旬予定）

z MeCab版辞書の公開（4月中旬予定）

z 長単位解析システムの領域内公開（4月中旬予定）

7. 対外活動

7.1.

7.2.

7.3.

学術論文

z 伝康晴・小木曽智信・小椋秀樹・山田篤・峯松信明・内元清貴・小磯花絵. (2007). コーパス日本語学のための言語資源：形態素解析用電子化辞書の開発とその応用. 日本語科学, 22, 101-122.

国際会議

z Uchimoto, K., & Isahara, H. (2007). Morphological annotation of a large spontaneous speech corpus in Japanese. In Proceedings of IJCAI2007 (pp. 1731-1737).

z Minematsu, N., Kuroiwa, R., Hirose, K., & Watanabe, M. (2007). CRF-based statistical learning of Japanese accent sandhi for developing Japanese text-to-speech synthesis systems. In Proceedings of ISCA Workshop on Speech Synthesis (pp.148-153).

z Den, Y., Nakamura, J., Ogiso, T., & Ogura, H. (2008). A proper approach to Japanese morphological analysis: Dictionary, model, and evaluation. To appear at LREC2008.

z Uchimoto, K., & Den, Y. (2008). Word-level dependency-structure annotation to Corpus of Spontaneous Japanese and its application. To appear at LREC 2008.

学会発表

z 小木曽智信・小椋秀樹・伝康晴. (2007). 日本語研究に適した形態素解析ソフトウェア―

「unidic」と「茶まめ」―. 日本語学会2007年度秋季大会予稿集(pp. 255-262).

z 印南圭祐・渡辺美知子・峯松信明・広瀬啓吉. (2008). CRFを用いたアクセント結合処理に対する誤り分析とその改良. 日本音響学会春季講演論文集.

z 伝康晴・中村純平・小木曽智信・小椋秀樹. (2008). 語種情報を用いた同表記異音語の解消. 言語処理学会第14回年次大会発表論文集.

z 中村純平・伝康晴. (2008). 形態素解析誤りの多い助詞・助動詞の再解析

.

^{言語処理学会}

第14回年次大会発表論文集.

z 冨士池優美・小椋秀樹・小木曽智信・小磯花絵・内元清貴・相馬さつき・中村壮範. (2008).

「現代日本語書き言葉均衡コーパス」の長単位認定基準について. 言語処理学会第 14

ドキュメント内 corpus.indd (ページ 87-93)