• 検索結果がありません。

拡張固有表現タグ付きコーパスの構築に向けて - 白書,書籍, Yahoo! 知恵袋コアデータ

ドキュメント内 corpus.indd (ページ 79-82)

拡張固有表現タグ付きコーパスの構築に向けて

1 拡張固有表現タグ付きコーパスの概要(2009222日現在)

文書数 総文字数 1文書当りの 表現数 1文書当りの 平均文字数 のべ 異なり 平均表現数

白書コア 62(62) 352,775 5689.9 11,819 5,277 190.6

書籍コア 49(83) 190,529 3888.3 6,963 2,797 142.1

知恵袋コア 600(939) 127,226 212.0 3,429 2,141 5.7

毎日新聞 8,584 3,643,361 424.4 252,763 63,545 29.4

白書 400 2,340,364 5850.9 74,203 23,857 185.5

CRL 1,174 593,763 505.8 19,254 7,153 16.4

表現として定義している.一方,拡張固有表現(バージョン7.1.0)では200種類のタグの定義を行っている.

これは様々な自然言語処理技術への応用を考慮し,新聞記事や百科事典などに見られる概念や単語を考慮して いることに起因する.

3.拡張固有表現タグ付きコーパス(白書,書籍,Yahoo!知恵袋コアデータ)

平成19年度に,毎日新聞および白書に対し,拡張固有表現(Version 7.1.0)の定義に則ってタグ付けを行っ [9].毎日新聞は8,584記事に対し,のべ252,763個,異なり79,632個のタグを付与し,白書は400文書 に対し,のべ74,203個,異なり23,857個のタグを付与した.これまで利用されていた研究に用いられていた CRL固有表現データは,毎日新聞(1,174記事,のべタグ数19,254個,異なりタグ数7,153)にタグ付けさ れたものであった.従来のコーパスに比べ,十分に大規模なコーパスを構築することができた.

しかし,これまで構築したコーパスは新聞記事と白書と2種類のジャンルのコーパスのみであり,研究対象 をさらに広げるためにもジャンルを増やす必要がある.また,従来のコーパスには,形態素情報が付与されて いないため固有表現抽出手法の比較において問題がある.従来の固有表現抽出タスクにおける従来手法のほと んどは,形態素情報が必須であるが,CRL固有表現データには形態素情報が付与されていないため,ChaSen などの形態素解析器を用いる必要があった.しかし,形態素解析器の種類やバージョンによって解析結果が変 化するため,手法の比較検討を行う際に論文に記載された性能を再現することが困難であった.固有表現抽出 手法の比較検討を容易にするために共通の形態素情報付きのコーパスの作成が必要である.

平成20年度においては,白書,書籍,Yahoo!知恵袋各コアデータに対してタグ付けを行った.これまでの 新聞記事と白書の2種類に加え,新たに書籍とWeb2種類のジャンルのデータを構築した.さらに,コア データには短単位の形態素情報が人手により付与されているため,共通の形態素情報が利用できるようになる.

2009222日現在において,白書コアデータ(62文書)62文書のタグ付けが終了している.白書コア データに付与されたタグは,のべ11,819個,異なり5,277個であった.書籍コアデータ(83文書)49文書 のタグ付けが終了している.書籍コアデータに付与されたタグは,のべ6,963個,異なり2,797個であった.

Yahoo!知恵袋コアデータ(939文書)600文書のタグ付けが終了している.Yahoo!知恵袋コアデータに付与 されたタグは,のべ3,429個,異なり2,141個であった.各コーパスの比較を表1に示す.

4.拡張固有表現タグ付けの作業者の比較

拡張固有表現タグ付け作業における作業者間のタグ付けの一致に関して評価を行った.タグ付け作業を行っ ている作業者2名に同一の文書に対してタグ付けをしてもらい,タグ付け結果の一致数を表2に示す.

2 作業者間のタグ付け結果の一致した表現数と一致率

一致数 一致率

表現のみ 表現+タグ 表現のみ 表現+タグ

A1のみ 一致 A2のみ A1のみ 一致 A2のみ A1 A2 A1 A2

白書コア 10 213 1,404 198 268 1,349 253 86.8 87.6 83.4 84.2

書籍コア 10 97 757 133 147 707 183 88.6 85.0 82.8 79.4 知恵袋コア 57 28 317 52 49 296 73 91.6 85.9 85.8 80.2

評価に用いた文書は,白書10文書,書籍10文書,Yahoo!知恵袋57文書である.作業者1と作業者2を比 べた場合,作業者1の方がタグ付け数が少ない.作業者1は,表現のみの一致率が約89%,表現とタグの一致 率が約84%であった.作業者2は,表現のみの一致率が約86%,表現とタグの一致率が約81%であった.タ グ付け結果は,80%以上は一致することがわかった.ジャンル別においてもほとんど一致率の変化はなく,文 書のジャンルによってタグ付け結果が一致しなくなるということがわかった.

この結果から作業者間のタグ付けの揺れは全体の20%ぐらいであるため,拡張固有表現タグ付け作業は,一 人の作業者によってタグ付け作業を行い,もう一人の作業者によってタグ付け間違い,タグ付け忘れをチェッ クするという作業工程でも十分対応できると考えられる.

5.おわりに

本稿では,様々なジャンルの固有表現タグ付きコーパスの構築に向けて,固有表現タグを付与した白書,

書籍,Yahoo!知恵袋各コアデータへのタグ付け結果について報告した.「関根の拡張固有表現階層」の定義

(Version 7.1.0)に則って,2009222日現在白書(62文書),書籍(49文書)Yahoo!知恵袋(600文書) 対してタグ付けを行った.また,2名の作業者間におけるタグ付け結果の比較を行い,約80%がタグ付け結果 が一致することがわかった.拡張固有表現タグ付け作業においては,1名のタグ付け作業者と1名のタグ付け 結果の確認の作業者により効率的にタグ付け作業を行うことが可能であると思われる.

今後は,本プロジェクトで構築するコーパスのコアデータすべてに対して,拡張固有表現タグの付与を目指 す.加えて,以前構築したコーパスの見直しと修正,タグ付けツールや拡張固有表現抽出ツールの構築を行う 予定である.

謝辞

本実験を実施するにあたり,ニューヨーク大学の関根聡氏には,毎日新聞記事への拡張固有表現タグデータ のご提供,およびタグ修正作業に対する多大なる助言をいただきました.ここに,心より感謝の意を表します.

参考文献

[1] Grishman, R. and Sundheim, B. Message Understanding Conference - 6: A Brief History, COLING-96 (1996).

[2] Sekine, S. Extended Named Entity Ontology with Attribute Information, In Proceedings of the 5th Inter-national Conference on Language Resources and Evaluation (2008).

[3] Sekine, S.andIsahar, H.IREX: IR and IE Evaluation project in Japanese, LREC2000 (2000).

[4] Sekine, S.andNobata, C.Definition, Dictionary and Tagger for Extended Named Entities, In Proceedings of the Forth International Conference on Language Resources and Evaluation (2004).

[5] Sekine, S., Sudo, K.andNobata, C.Extended Named Entity Hierarchy, LREC2002 (2002).

[6] 山田寛康Shift-Reduce法に基づく日本語固有表現抽出,情報処理学会自然言語処理研究会(NL-179-3) (2007).

[7] 山田寛康, 工藤拓, 松本裕治Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌,43, 1 (2004), 44–53.

[8] 浅原正幸,松本裕治 日本語固有表現抽出におけるわかち書き問題の解決,情報処理学会論文誌,45, 5 (2004).

[9] 橋本泰一,乾孝司,村上浩司 拡張固有表現タグ付きコーパスの構築,情報処理学会自然言語処理研究会(2008-NL-188) (2008).

[10] 中野桂吾,平井有三 日本語固有表現抽出における文節情報の利用,情報処理学会論文誌,45, 3 (2004).

[11] 渡辺一郎, 桝井文人, 福本淳一固有表現抽出ツールNExTの精緻化とユーザビリティの向上,言語処理学会第10 年次大会(2004).

ドキュメント内 corpus.indd (ページ 79-82)

Outline

関連したドキュメント