拡張固有表現に基づくWikipedia項目の分類と構造化

(1)

拡張固有表現に基づく

Wikipedia 項目の分類と構造化

Structuring and Categorizing Wikipedia Entities based on Extended Named Entity

関根聡

1,2

小林暁雄

1

安藤まや

2

_乾健太郎

1,3

Satoshi SEKINE

1

, Akio KOBAYASHI

1

, Maya ANDO

2

and Kentaro INUI

1,3

1

_{理化学研究所
革新知能統合研究センター}

1

_{RIKEN Advanced Intelligence Project (AIP)}

2

_{合同会社ランゲージ・クラフト}

2

_{Language Craft LLC}

2

_{東北大学
工学部電気情報物理工学科}

3

_{Tohoku University, Department of Electrical, Infomration and Physics}

Abstract: In this paper, we will describe an on-going project “Structureing Wikipedia”. Wikipedia is a

great resorce for named entities, but the current Wikipedia is written for people, not for machines to utilize for NLP applications. There have been many projects to structureing Wikipedia, but none of them has been successful in terms of the quality of the database for NLP. We believe that a top-down structuring design is crucial for this problem. We use “Extended Named Entity (ENE)” for this purpose and we are categorizing 780K Japanese Wikipedia entities into 200 ENE cateogorirs. Then we will structure the entity information based on “Resouce by Collaborative Contribution (RbCC)” method.

はじめに

機械学習やニューラルネットワークの技術の進歩により、自然言語処理の技術はかつてない程の大きな発展をしている。しかし、現状の機械学習などの技術はシステムの挙動が外からはほとんど分からないブラックボックスであることが問題になっている。そこで我々は、自然言語処理を含む人工知能技術が一般に大きく普及するためには、そのシステムがどうしてその結論に至ったかを説明する必要があると考ている。自然言語の形で説明を生成するためには、そのシステムがそのような仕組みを持つものであれ、世界知識を計算機が扱えるようになんらかの形で構造化して用意することが必要である。世界知識には様々な種類の物があるが、その中でも名前に関する知識は構造化が比較的に容易で、質問応答、対話処理、情報抽出などの応用において非常に重要な種類の情報である。現在、名前に関する知識として非常に膨大でアクセスが容易なリソースに Wikepedia がある。しかしながら、このリソースは人間がわかる形で書かれていて、計算機が扱うには大きなハードルが存在する。私たちのプロジェクトでは、この問題を解決するために Wikipedia を分類・構造化し、計算機が容易に扱える知識を構築していくことを目指している。本論文では、現在進行中のWikipedia 構造化のプロジェクトを説明し、特に構造化作業の部分は研究者による参加型の形式 (Resource by Collaborative Contributino: RbCC) で進めることを述べ、読者の参加を求めたい。

最終ゴールイメージ（構造化

Wikipedia）

本稿で述べる「Wikpedia の構造化」のイメージを明確にするために、このセクションでは具体例を挙げる。図１には日本語Wikipedia の「レオナルド・ダ・ヴィンチ」の項目のスナップショットを載せる。このページは言うまでもなく、人間が読んで理解できる様に自然言語で書かれている。構造化された情報として右側にインフォボックスがあるが、この著名な芸術家の場合でも、「生誕」「死没」「代表作」「運動・動向」の４項目だけであり、「生誕」には、「生誕日」「生誕場所」が併記されていて、計算機が推論や自然言語処理の目的のために容易に扱える形式にはなっていない。計算機が容易に扱えるデータベースの形式としては、表１に上げるように、

(2)

決まった用語で定義された属性と、他の項目へのリンクや数値表現などの属性値のペアで作られた構造化情報を持つことが望ましい。図１．Wikipedia の「レオナルド・ダ・ヴィンチ」の項目表１．「レオナルド・ダ・ヴィンチ」の構造化情報(部分) 属性名属性値タイプ人名職業芸術家国籍フィレンツェ共和国経歴プラトン・アカデミーの一員代表作モナ・リザ、ウィトルウィウス的人体図、キリストの洗礼、東方三博士の礼拝、岩窟の聖母、最後の晩餐出身市町村ウィンチ村没地クルーの館しかしながら、現状のWikipedia では、すべての情報がクラウドの力で作成しており、整理されたカテゴリー情報も属性値の定義もほとんどの項目において存在せず、人間の解釈能力によって、それぞれの項目の情報を読者に理解してもらうことに頼っている状況である。この問題の解決の方法としては、トップダウンに決定された名前空間の対象物に対するカテゴリー定義と、それぞれのカテゴリーに対する属性の定義が必要である。その目的のために「関根の拡張固有表現（本論文では今後”ENE”と表記する）」[1][2] が適しており、今回の研究ではこの定義を利用する。 ENE は、主にファクトイド型質問応答システムの解になるような名前や数値表現のトップオントロジーであり、全部で２００種類のカテゴリーが定義されている。一般的に定義されていた７、８種類の固有表現では不十分であるという背景から、当時、ランゲージ・クラフト社が共同研究を行っていた小学館の百科事典を元に、固有表現定義を拡張し、様々な変遷を得て２００種類の拡張固有表現と、それぞれのカテゴリーに対する属性の定義を行った。例えば、表１では「レオナルド・ダ・ヴィンチ」の構造化例を表示しているが、人名には１９種類の属性が定義されている。 (https://sites.google.com/site/extendednamedentity711) 図２．関根の拡張固有表現定義

関連研究

構造化された知識ベースは自然言語処理全般において非常に重要な知識リソースと認識されている。したがって、過去においてこの問題に取り組んだ大型プロジェクトがいくつか存在する。古くはCyc プロジェクトから、最近ではWikipedia をベースにしたDBpedia,、Yago、 Freebase、Wikidata などのプロジェクトが存在する。また、共有タスクのプロジェクトとして知識ベースの構造化を目的としたKBP やFIGER といったプロジェクトもある。これらのリソースやプロジェクトについてここで紹介し、それらのプロジェクトにおいて我々が解決すべき課題と考えている点を述べる。 Cyc Cyc プロジェクトは常識推論の実現を目指して作成された大規模知識ベースである[4]。作成された知識ベースは巨大であるが、そのうちの名前に関する知識は現在、Wikipedi にリンクされている。一般ドメインの知識ベースは、人手で作られているため作成や保守のコストが非常に大きなものになっており、カバレージの点でも人手による限界が存在する。ただし、Cyc プロジェクトでは、一般ドメインに対する知識ベースと同時に、ドメイン依存の知識ベースの作成も行われている。 Name Person Organization International_Organization Show_Organization Family Ethnic_Group Sports_Organization Corporation Political_Organization Nationality Pro_Sports_Organization Sports_League Company / Company_Group Government / Political_Party Cabinet / Military Location Spa GPE Region Geological_Region Astral_Body Address City / County Province / Country Continental_Region Domestic_Region

Mountain / Island / River Lake / Sea / Bay Star / Planet / Constellation Postal_Address Phone_Number Email / URL Facility Facility_Part Archaeological_Place GOE Line Tumulus Public_Institution School / Research_Institute Market / Park Sports_Facility Museum / Zoo / Amusement_Park Theater / Worship_Place Car_Stop/ Station/ Airport / Port Railroad / Road / Canal Water_Route / Tunnel / Bridge

Product

Material/ Clothing / Money_Form

Drug / Weapon / Stock / Award Decoration / Offence / Service / Class / Character Vehicle Food Art Printing Doctrine_Method Rule Title Language Unit

Car / Train / Aircraft Spaceship / Ship

Dish

Picture / Broadcast_Program Movie / Show / Music / Book

Newspaper / Magazine Culture / Religion / Academic Sport / Style / Movement / Theory / Plan Treaty / Law Position_Vocation National_Language Currency Event Occasion Incident Natural_Phenomenon Religious_Festival Game / Conference War Natural_Disaster Earthquake Natural_Object Element Compound Mineral Living_Thing Living_Thing_Part Fungus / Mollusc_Arthropod Insect / Fish / Amphibia Reptile / Bird / Mammal / Flora

Animal_Part / Flora_Part Disease Animal_Disease God Color Nature_Color Numex Money / Stock_Index Point / Percent / Multiplication Frequency / Age / School_Age Ordinal_Number / Rank / Latitude_Longtitude Measurement

Countx

Physical_Extent / Space Volume / Weight / Speed Intensity / Temperature / Calorie / Seismic_Intensity /Seismic_Magnitude N_Person / N_Organization N_Location / N_Location N_Facility / N_Product N_Event / N_Natural_Object

Timex

Time Date Day_Of_Week Era Periodx_Other Period_Time Period_Day Period_Week Period_Month Period_Year

(3)

DBpedia DBpedia は、インフォボックスや上位下位関係知識などWikipedia 内で半構造化されている情報を元に作られた構造化された知識である[6]。この知識ペースは完全にクラウドでボトムアップに作られた Wikipedia の知識に頼っており、精度、カバレージ、一貫性などに問題がある。例えば、「新宿駅」は「小田急線」の下位概念として定義されているが、もちろん、駅は鉄道会社の下位概念ではないばかりか、新宿駅は他の数多くの鉄道会社も利用していることが載っていない。インフォボックスは同じタイプのエンティティーであっても異なる定義がされている場合があり、その一貫性には大きな問題がある。例えば、「新宿駅」には３個の属性しかないが、「自由が丘駅」には１２個の属性が定義されている。 YAGO

Yago は Wikipedia のエンティティーを WordNet のオントロジーにマッピングすることによって作成されたオントロジーである[5,7,8,9]。しかしながら、 WordNet は一般後のオントロジーであり、名前のオントロジーに適切な形をしているとは限らない。 WordNet は属性は定義されておらず、その部分は DBpedia 同様にインフォボックスを利用している。現在、YAGO は DBpeda とのリンクを実現しようとしているが、 DBpedia にあるノイズの問題が解決されていない。 Freebase Freebase は Wikipedia のようにクラウドによって構造化された知識ベースを作ろうという試みであった [10]。しかし、手法からくる問題としてのノイズや一貫性のなさが各所に現れていて、一部のデーターベースの複製である部分を除くと綺麗な知識ベースとは言えない状態である。グーグルによって管理されていたが、目的達成の困難さからか現在は以下に述べるWikidata プロジェクトに統合されている。 Wikidata Wikidata は主に Wikipedia の項目に対して構造化されたデータベースを作ることを目的としている [11,12]。Freebase 同様にボトムアップにデータが作成されているため、ノイズと一貫性の欠如の問題がある。 KBP KBP は NIST による共有タスクであり、構造化されてない文書から構造化された知識を抽出する技術を確立することを目標としている[14,5,16]。主要なタスクとしては２種類ある。文書中からそこで言及されているエンティテイーを見つけ出しDB エントリーを同定するタスク（EDL ：Entity Discovery and Linking）と、対象エンティテイーの属性値を抽出するタスク（SF ：Slot Filling）である。現状では対象エンティテイーのタイプは人名、組織名、場所名に限定されており、Wikipedia の幅広いタイプのエンティテイーをカバーするものではない。 FIGER FIGER は拡張固有表現のように、細かく定義された固有表現を文書の中から同定する共有タスクである[17] FIGER では 112 種類の固有表現のカテゴリーが利用されている。情報の構造化については全く扱われていない。

２つのタスク

現在、約 100 万項目ある Wikipedia の全項目を構造化することは非常に労力がかかる。しかしながら、 Wikipedia にはほとんど引用されていないマイナーな項目も多く存在している。そこで、まず我々は効率化の視点も考え、全部の項目を構造化することは諦め、比較的重要な項目のみを構造化することとした。この重要度を示す指標としては色々なものがあるが、Wikipedia データがあれば容易に計算可能な「被リンク数」を利用することとし、被リンク数が５以上のもののみを構造化することとした。この基準により、構造化する対象は約100 万項目中、78 万 0072 項目が構造化の対象となる。我々は、この78 万項目の Wikipedia を人手で一つずつ構造化していくという方法は取らない。機械学習を利用し、なるべく省力化することと、項目を分類する作業と構造化する作業を分割して行うという手法を取っている。まず、78 万項目を、拡張固有表現の200 種類に分類する作業を機械学習を利用して行う。こうすることによって、例えば、人名なら人名の項目が集約され、それに対する構造化の作業が機械学習などを使うことにより効率的に進められる。分類作業と構造化作業のそれぞれを以下に説明する。

Wikipedia エンティテイーの分類

Wikipedia エンティティーを、200 種類の拡張固有表現に分類する作業は、エンティティーの説明文やその特徴量を元にした文書分類の技術によって実現できる。Wikipedia には文書内の単語だけではなく、カテゴリー、最初の文の特徴、項目の特徴など、単

(4)

なる文書の特徴量以上の情報があり、それらを有効に活用することにより、精度の高い文書分類を実現した[17,18]。手法の詳細は引用論文を参照されたいが、基本的には、22,000 項目のトレーニングデータを元に、数多くの分類機を同時学習するマルチタスク学習で行っている。また、特徴量としては、項目へのリンクがある部分の周辺文脈を Skip-gram を利用して、文書ベクトル（エンティテイーのエンベディング）を求めている。それぞれのアイデアが精度向上に貢献していることも実験的に示している。

Wikipedia エンティテイーの構造化

拡張固有表現の分類が終わった Wikiepdia エントリーに対して、拡張固有表現で定義されている属性値を抽出する作業を行い、Wikipedia の構造化を行う。具体的には、図１に示した「レオナルド・ダ・ヴィンチ」のWikipedia 項目から、表１にあるように人名で定義されている属性にある情報を属性値として抽出する作業である。（表１では７つの属性しか示していないが、実際には１９の属性が「人名」カテゴリーに対しては定義されている）この作業は、それぞれのカテゴリーに対して１０を超える属性の値を Wikipedia の説明文やインフォボックスから探し出すという非常に手間のかかる作業であり、クラウドのような安価な労働力を使ったとしても、人手だけで行うことは非常に難しい。そこで機械学習を前提としたシステムの参加に基づく、評価型ワークショップを行うとともに、その出力を利用して知識も作り上げようというRbCC の手法で知識を作成することお考えている。現状では、そのためのトレーニングデータの作成を行っている最中である。現在は、「人名」「企業名」「市区町村名」「空港名」「化合物名」の５つのカテゴリーに対して、１７０〜１０００のトレーニングデータを以下の３つの方法で同じ予算を使って作っている。トレーニングデータ作成手法 1. 言語知識作成の経験が豊富な方に作成を依頼（各カテゴリー１７０項目） 2. 言語処理が分かる方の指導の元で学生さんに依頼（各カテゴリー２５０項目） 3. クラウドワーカーに依頼（各カテゴリー１０００項目）現在、まさにこのデータが出揃ったばかりであり、詳細な比較分析はこれからの状況ではあるが、軽い分析の結果以下のことがわかっている。手法１、２は似たような結果ではあるが、１の方が精度が高い。特に定義の曖昧な部分や判断の難しい部分に差が出ているが、ケアレスミス的なものも２では比較的に数多く散見される。それに比較して手法３ではかなり違った種類の結果が得られている。クラウドも実施方法によりで得られるデーターの質はかなり異なると思われるが、特にカバレージを重視した設計となっているため、手法１、２に比較してカバレージは非常に高い。手法１、２の作業者は１人が１つの項目を担当しているために、その担当者が見落としそうな項目もしっかりと見つけている。しかしながら、詳細に定義書を確認することをしていないためか、精度は低い傾向が見られる。このような３つの方法を試し、分析した結果、今後のデータ作成は手法１と手法３の併用とし、手法３に結果を人手で確認するなどの方法をとることが良いのではないかと考えている。どちらにしろ、各カテゴリー１０００項目のデータを作成し、その一部をトレーニングデータに、残りをテストデータにした評価型ワークショップを行うことを通して、Wikipedia 構造化を実現していく予定である。その点については次の説を参照していただきたい。

RbCC

(Resource by Collaborative Contribution)

Wikipedia は非常に膨大であり、それに対して構造化知識を作成するためには非常に大きなコストと時間がかかる。この問題に対して、機械学習、クラウドソーシング、自然言語処理の技術を応用し、より小さいコストでより正確なものを作成するという研究課題に取り組んでいく必要がある。そこで私たちは、これまでにない枠組みとして、多くの研究者が共同でリソースを作るというアプローチを試みてみたいと考えている。これまで、多くの研究者が同じ課題に対してシステムを作成し競い合うという「評価型ワークショップ／シェアード・タスク」という枠組みがあった。しかし、この枠組みでは、同じタスクに対してある意味のオプティマイゼーション技術を競い合うだけで、そこに残っていくものは労力の割に多くはないという印象を持っている研究者もいる。参加者の努力をより有益に活用するために、システムの結果を集積してリソースにしていくという枠組みを提案し、実施したいと考えている。つまり、Wikipedia の構造化（属性値の抽出）をタスクとした評価型ワークショップを開催しながら、その参加システムの出力を使った形で、属性値の知

(5)

識を集積していくという枠組みである。初めての試みであり、どのような成果が期待できるかわからないが、知識の構築だけではなく、アンサンブル・ラーニング、アクティブ・ラーニング、ブートストラップなどの技術の研鑽の場も提供できると考えられる。また、集積した知識を使った応用技術の発展も大いに期待できる。県警する研究者の方々には、本プロジェクトへの協力を切にお願いしたいと考えている。例えば、実行委員としてタスクの推進にご協力頂いたり、タスクの設計や評価のご協力、出力結果を集積する方法論の設計と実施、そしてもちろん、属性値抽出のシステムを作成して評価型ワークショップに参加していただくという形もある。まさに、Collaborative Contribution が必要な枠組みであり、世界的にも初めての大規模な試みではないかと考えている。多くの方のご協力を心からお願いします。

おわりに

本稿では、現在進行中の「Wikipedia の構造化」プロジェクトを紹介した。Wikipedia は固有表現周辺の知識に関する非常に膨大なリソースであるが、自然言語処理が利用するには問題があり、分類、構造化をする必要がある。我々は、拡張固有表現に基づき、 Wikipedia の項目を分類し、それを RbCC の考え方で構造化することを目指している。

参考文献

[１] Sekine, S. (2008). Extended Named Entity Ontology with Attribute Information. Proceedings of the International Conference on Language Resources and Evaluation (LREC’08).

[２] Sekine, S. and Nobata, C. (2004). Definition, Dictionary and Tagger for Extended Named. Proceedings of the International Conference on Language Resources and Evaluation (LREC’04). [３] Suzuki, M., Matsuda, K., Sekine, S., Okazaki, N. and Inui,

K. (2016) Neural Joint Learning for Classifying Wikipedia Articles into Fine-grained Named Entity Types. The 30th Pacific Asia Conference on Language, Information and Computation, Seoul, South Korea.

[４] Lenat, D.B. (1995). CYC: a large-scale investment in knowledge infrastructure. ACM 38, pp. 32–38.

[５] Fellbaum, C. (1998). WordNet: An Electronic Lexcal Database, MIT Press.

[６] Lehmann, J., Isele, R., Jakob, M., Jentzch, M.,

Kontokostas, D., Mendes, P.N., Hellman, S., Morsey M., Kleef, P., Auer, S. and Bizer, C. (2015). DBpedia – A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia. Semantic Web Journal, 6(2) :167—195 [７] Suchaneck, F.M., Kasneci, G. and Weikum, G. (2007).

YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia. Proceedings of the 16th international conference on World Wide Web, WWW 2007, Banff, Canada, pp. 697–706.

[８] Hoffart, J., Suchaneck, F.M., Berberich, K. and Weikum, G. (2013) YAGO2 : A Spatially and Temporally enhanced Knowledge Base from Wikipedia. Special Issue of the Artificial Intelligence Journal.

[９] Mahdisoltani, F., Biega, J. and Suchaneck, F.M. (2015) YAGO3: A Knowledge Base from Multilingual Wikipedias. Proceedings of the Conference on Innovative Data Systems Research (CIDR 2015).

[１０] Bollacker, K., Evans, C., Paritosh, P., Sturge, T. and Taylor, J. (2008). Freebase: a collaboratively created graph

database for structuring human knowledge. Proceedings of the 2008 ACM SIGMOD international conference on Management of data (SIGMOD '08). ACM, NewYork,

USA, pp.1247-1250.

[１１] Vrandečić, D. and Krötzsch, M. (2014). Wikidata: a free collaborative knowledgebase. Commun. ACM57, pp. 78-85.

[１２] Tanon, T.P., Vrandečić, D., Schaffert, S., Steiner, T. and Pintscher, L. (2016). From Freebase to Wikidata: The Great Migration. Proceedings of the 25th_Inernational

conference on World Wide Web (WWW '16), pp. 1419-1428.

[１３] Surdeanu, M. and Ji, H. (2014). Overview of the English Slot Filling Track at the TAC2014 Knowledge Base Population Evaluation. Proceedings of the Text

Analysis conference (TAC2014).

[１４] Aguilar, J., Beller, C., McNamee, P., Durme, B.V. (2014), A Comparison of the Events and Relations Across ACE, ERE, TAC-KBP, and FrameNet Annotations Standards. Proceedings of the Second Workshop on

EVENTS: Definition, Detection, Coreference, and Representation.

[１５] Ji, H., Grishman, R., Dang, H.T. (2011). Overview of the TAC2011 Knowledge Base Population (KBP) Track.

Proceedings of the Text Analysis Conference (TAC 2011).

[１６] Ling, X. and Weld. D.S. (2012). Fine-grained entity recognition. Proceedings of the Twenty-Sixth AAAI

Conference on Artificial Intelligence (AAAI'12). pp.94-100.

[１７] Masatoshi Suzuki, Koji Matsuda, Satoshi Sekine, Naoaki Okazaki and Kentaro Inui. Neural Joint Learning

(6)

for Classifying Wikipedia Articles into Fine-grained Named Entity Types. The 30th Pacific Asia Conference on

Language, Information and Computation, Seoul, South Korea, 2016. (Poster)

[１８] Masatoshi Suzuki, Koji Matuda, Satoshi Sekine, Naoaki Okazaki, and Kentaro Inui. Fine-Grained Named

Entity Classification with Wikipedia Article Vectors.

IEEE/WIC/ACM International Conference on Web Intelligence, Omaha, U.S., 2016.

拡張固有表現に基づくWikipedia項目の分類と構造化