拡張固有表現タグ付きコーパスの構築に向けて

表1 拡張固有表現タグ付きコーパスの概要(2009年2月22日現在)

文書数総文字数 1文書当りの表現数 1文書当りの平均文字数のべ異なり平均表現数

白書コア 62(62) 352,775 5689.9 11,819 5,277 190.6

書籍コア 49(83) 190,529 3888.3 6,963 2,797 142.1

知恵袋コア 600(939) 127,226 212.0 3,429 2,141 5.7

毎日新聞 8,584 3,643,361 424.4 252,763 63,545 29.4

白書 400 2,340,364 5850.9 74,203 23,857 185.5

CRL 1,174 593,763 505.8 19,254 7,153 16.4

表現として定義している．一方，拡張固有表現（バージョン7.1.0）では200種類のタグの定義を行っている．

これは様々な自然言語処理技術への応用を考慮し，新聞記事や百科事典などに見られる概念や単語を考慮していることに起因する．

３．拡張固有表現タグ付きコーパス(白書，書籍，Yahoo!知恵袋コアデータ)

平成19年度に，毎日新聞および白書に対し，拡張固有表現(Version 7.1.0)の定義に則ってタグ付けを行った[9]．毎日新聞は8,584記事に対し，のべ252,763個，異なり79,632個のタグを付与し，白書は400文書に対し，のべ74,203個，異なり23,857個のタグを付与した．これまで利用されていた研究に用いられていた CRL固有表現データは，毎日新聞(1,174記事，のべタグ数19,254個，異なりタグ数7,153個)にタグ付けされたものであった．従来のコーパスに比べ，十分に大規模なコーパスを構築することができた．

しかし，これまで構築したコーパスは新聞記事と白書と2種類のジャンルのコーパスのみであり，研究対象をさらに広げるためにもジャンルを増やす必要がある．また，従来のコーパスには，形態素情報が付与されていないため固有表現抽出手法の比較において問題がある．従来の固有表現抽出タスクにおける従来手法のほとんどは，形態素情報が必須であるが，CRL固有表現データには形態素情報が付与されていないため，ChaSen などの形態素解析器を用いる必要があった．しかし，形態素解析器の種類やバージョンによって解析結果が変化するため，手法の比較検討を行う際に論文に記載された性能を再現することが困難であった．固有表現抽出手法の比較検討を容易にするために共通の形態素情報付きのコーパスの作成が必要である．

平成20年度においては，白書，書籍，Yahoo!知恵袋各コアデータに対してタグ付けを行った．これまでの新聞記事と白書の2種類に加え，新たに書籍とWebの2種類のジャンルのデータを構築した．さらに，コアデータには短単位の形態素情報が人手により付与されているため，共通の形態素情報が利用できるようになる．

2009年2月22日現在において，白書コアデータ(全62文書)62文書のタグ付けが終了している．白書コアデータに付与されたタグは，のべ11,819個，異なり5,277個であった．書籍コアデータ(全83文書)49文書のタグ付けが終了している．書籍コアデータに付与されたタグは，のべ6,963個，異なり2,797個であった．

Yahoo!知恵袋コアデータ(全939文書)600文書のタグ付けが終了している．Yahoo!知恵袋コアデータに付与されたタグは，のべ3,429個，異なり2,141個であった．各コーパスの比較を表1に示す．

４．拡張固有表現タグ付けの作業者の比較

拡張固有表現タグ付け作業における作業者間のタグ付けの一致に関して評価を行った．タグ付け作業を行っている作業者2名に同一の文書に対してタグ付けをしてもらい，タグ付け結果の一致数を表2に示す．

表2 作業者間のタグ付け結果の一致した表現数と一致率

文一致数一致率

書表現のみ表現+^タグ ^表現のみ ^表現+^タグ

数 A1^のみ ^一致 A2^のみ A1^のみ ^一致 A2^のみ A1 A2 A1 A2

白書コア 10 213 1,404 198 268 1,349 253 86.8 87.6 83.4 84.2

書籍コア 10 97 757 133 147 707 183 88.6 85.0 82.8 79.4 知恵袋コア 57 28 317 52 49 296 73 91.6 85.9 85.8 80.2

評価に用いた文書は，白書10文書，書籍10文書，Yahoo!知恵袋57文書である．作業者1と作業者2を比べた場合，作業者1の方がタグ付け数が少ない．作業者1は，表現のみの一致率が約89%，表現とタグの一致率が約84%であった．作業者2は，表現のみの一致率が約86%，表現とタグの一致率が約81%であった．タグ付け結果は，80%以上は一致することがわかった．ジャンル別においてもほとんど一致率の変化はなく，文書のジャンルによってタグ付け結果が一致しなくなるということがわかった．

この結果から作業者間のタグ付けの揺れは全体の20%ぐらいであるため，拡張固有表現タグ付け作業は，一人の作業者によってタグ付け作業を行い，もう一人の作業者によってタグ付け間違い，タグ付け忘れをチェックするという作業工程でも十分対応できると考えられる．

５．おわりに

本稿では，様々なジャンルの固有表現タグ付きコーパスの構築に向けて，固有表現タグを付与した白書，

書籍，Yahoo!知恵袋各コアデータへのタグ付け結果について報告した．「関根の拡張固有表現階層」の定義

(Version 7.1.0)に則って，2009年2月22日現在白書(62文書)，書籍(49文書)，Yahoo!知恵袋(600文書)に対してタグ付けを行った．また，2名の作業者間におけるタグ付け結果の比較を行い，約80%がタグ付け結果が一致することがわかった．拡張固有表現タグ付け作業においては，1名のタグ付け作業者と1名のタグ付け結果の確認の作業者により効率的にタグ付け作業を行うことが可能であると思われる．

今後は，本プロジェクトで構築するコーパスのコアデータすべてに対して，拡張固有表現タグの付与を目指す．加えて，以前構築したコーパスの見直しと修正，タグ付けツールや拡張固有表現抽出ツールの構築を行う予定である．

謝辞

本実験を実施するにあたり，ニューヨーク大学の関根聡氏には，毎日新聞記事への拡張固有表現タグデータのご提供，およびタグ修正作業に対する多大なる助言をいただきました．ここに，心より感謝の意を表します．

参考文献

[1] Grishman, R. and Sundheim, B. Message Understanding Conference - 6: A Brief History, COLING-96 (1996).

[2] Sekine, S. Extended Named Entity Ontology with Attribute Information, In Proceedings of the 5th Inter-national Conference on Language Resources and Evaluation (2008).

[3] Sekine, S.andIsahar, H.IREX: IR and IE Evaluation project in Japanese, LREC2000 (2000).

[4] Sekine, S.andNobata, C.Deﬁnition, Dictionary and Tagger for Extended Named Entities, In Proceedings of the Forth International Conference on Language Resources and Evaluation (2004).

[5] Sekine, S., Sudo, K.andNobata, C.Extended Named Entity Hierarchy, LREC2002 (2002).

[6] ^山田寛康Shift-Reduce法に基づく日本語固有表現抽出,情報処理学会自然言語処理研究会(NL-179-3) (2007).

[7] ^山田寛康, ^工藤拓, ^松本裕治Support Vector Machineを用いた日本語固有表現抽出,^{情報処理学会論文誌},43, 1 (2004), 44–53.

[8] 浅原正幸,松本裕治日本語固有表現抽出におけるわかち書き問題の解決,情報処理学会論文誌,45, 5 (2004).

[9] ^橋本泰一,^乾孝司,村上浩司拡張固有表現タグ付きコーパスの構築,情報処理学会自然言語処理研究会(2008-NL-188) (2008).

[10] ^中野桂吾,平井有三日本語固有表現抽出における文節情報の利用,^{情報処理学会論文誌},45, 3 (2004).

[11] 渡辺一郎, ^桝井文人, 福本淳一固有表現抽出ツールＮＥｘＴの精緻化とユーザビリティの向上,言語処理学会第10回年次大会(2004).

ドキュメント内 corpus.indd (ページ 79-82)