• 検索結果がありません。

拡張固有表現に基づくWikipedia項目の分類と構造化

N/A
N/A
Protected

Academic year: 2021

シェア "拡張固有表現に基づくWikipedia項目の分類と構造化"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

拡張固有表現に基づく

Wikipedia 項目の分類と構造化

Structuring and Categorizing Wikipedia Entities based on Extended Named Entity

関根聡

1,2

小林暁雄

1

安藤まや

2

乾健太郎

1,3

Satoshi SEKINE

1

, Akio KOBAYASHI

1

, Maya ANDO

2

and Kentaro INUI

1,3

1

理化学研究所 革新知能統合研究センター

1

RIKEN Advanced Intelligence Project (AIP)

2

合同会社ランゲージ・クラフト

2

Language Craft LLC

2

東北大学 工学部電気情報物理工学科

3

Tohoku University, Department of Electrical, Infomration and Physics

Abstract: In this paper, we will describe an on-going project “Structureing Wikipedia”. Wikipedia is a

great resorce for named entities, but the current Wikipedia is written for people, not for machines to utilize for NLP applications. There have been many projects to structureing Wikipedia, but none of them has been successful in terms of the quality of the database for NLP. We believe that a top-down structuring design is crucial for this problem. We use “Extended Named Entity (ENE)” for this purpose and we are categorizing 780K Japanese Wikipedia entities into 200 ENE cateogorirs. Then we will structure the entity information based on “Resouce by Collaborative Contribution (RbCC)” method.

はじめに

機械学習やニューラルネットワークの技術の進歩 により、自然言語処理の技術はかつてない程の大き な発展をしている。しかし、現状の機械学習などの 技術はシステムの挙動が外からはほとんど分からな いブラックボックスであることが問題になっている。 そこで我々は、自然言語処理を含む人工知能技術が 一般に大きく普及するためには、そのシステムがど うしてその結論に至ったかを説明する必要があると 考ている。自然言語の形で説明を生成するためには、 そのシステムがそのような仕組みを持つものであれ、 世界知識を計算機が扱えるようになんらかの形で構 造化して用意することが必要である。 世界知識には様々な種類の物があるが、その中で も名前に関する知識は構造化が比較的に容易で、質 問応答、対話処理、情報抽出などの応用において非 常に重要な種類の情報である。現在、名前に関する 知識として非常に膨大でアクセスが容易なリソース に Wikepedia がある。しかしながら、このリソース は人間がわかる形で書かれていて、計算機が扱うに は大きなハードルが存在する。私たちのプロジェク トでは、この問題を解決するために Wikipedia を分 類・構造化し、計算機が容易に扱える知識を構築し ていくことを目指している。 本論文では、現在進行中のWikipedia 構造化のプ ロジェクトを説明し、特に構造化作業の部分は研究 者による参加型の形式 (Resource by Collaborative Contributino: RbCC) で進めることを述べ、読者の 参加を求めたい。

最終ゴールイメージ(構造化

Wikipedia)

本稿で述べる「Wikpedia の構造化」のイメージを 明確にするために、このセクションでは具体例を挙 げる。図1には日本語Wikipedia の「レオナルド・ ダ・ヴィンチ」の項目のスナップショットを載せ る。このページは言うまでもなく、人間が読んで理 解できる様に自然言語で書かれている。構造化され た情報として右側にインフォボックスがあるが、こ の著名な芸術家の場合でも、「生誕」「死没」「代表 作」「運動・動向」の4項目だけであり、「生誕」に は、「生誕日」「生誕場所」が併記されていて、計算 機が推論や自然言語処理の目的のために容易に扱え る形式にはなっていない。計算機が容易に扱えるデ ータベースの形式としては、表1に上げるように、

(2)

決まった用語で定義された属性と、他の項目へのリ ンクや数値表現などの属性値のペアで作られた構造 化情報を持つことが望ましい。 図1.Wikipedia の「レオナルド・ダ・ヴィンチ」の項目 表1.「レオナルド・ダ・ヴィンチ」の構造化情報(部分) 属性名 属性値 タイプ 人名 職業 芸術家 国籍 フィレンツェ共和国 経歴 プラトン・アカデミーの一員 代表作 モナ・リザ、ウィトルウィウス的人 体図、キリストの洗礼、東方三博士 の礼拝、岩窟の聖母、最後の晩餐 出身市町村 ウィンチ村 没地 クルーの館 しかしながら、現状のWikipedia では、すべての情 報がクラウドの力で作成しており、整理されたカテ ゴリー情報も属性値の定義もほとんどの項目におい て存在せず、人間の解釈能力によって、それぞれの 項目の情報を読者に理解してもらうことに頼ってい る状況である。 この問題の解決の方法としては、トップダウンに 決定された名前空間の対象物に対するカテゴリー定 義と、それぞれのカテゴリーに対する属性の定義が 必要である。その目的のために「関根の拡張固有表 現(本論文では今後”ENE”と表記する)」[1][2] が 適しており、今回の研究ではこの定義を利用する。 ENE は、主にファクトイド型質問応答システムの 解になるような名前や数値表現のトップオントロジ ーであり、全部で200種類のカテゴリーが定義さ れている。一般的に定義されていた7、8種類の固 有表現では不十分であるという背景から、当時、ラ ンゲージ・クラフト社が共同研究を行っていた小学 館の百科事典を元に、固有表現定義を拡張し、様々 な変遷を得て200種類の拡張固有表現と、それぞ れのカテゴリーに対する属性の定義を行った。例え ば、表1では「レオナルド・ダ・ヴィンチ」の構造 化例を表示しているが、人名には19種類の属性が 定義されている。 (https://sites.google.com/site/extendednamedentity711) 図2.関根の拡張固有表現定義

関連研究

構造化された知識ベースは自然言語処理全般におい て非常に重要な知識リソースと認識されている。し たがって、過去においてこの問題に取り組んだ大型 プロジェクトがいくつか存在する。古くはCyc プ ロジェクトから、最近ではWikipedia をベースにし たDBpedia,、Yago、 Freebase、Wikidata などのプロ ジェクトが存在する。また、共有タスクのプロジェ クトとして知識ベースの構造化を目的としたKBP やFIGER といったプロジェクトもある。これらの リソースやプロジェクトについてここで紹介し、そ れらのプロジェクトにおいて我々が解決すべき課題 と考えている点を述べる。 Cyc Cyc プロジェクトは常識推論の実現を目指して作成 された大規模知識ベースである[4]。作成された知 識ベースは巨大であるが、そのうちの名前に関する 知識は現在、Wikipedi にリンクされている。一般ド メインの知識ベースは、人手で作られているため作 成や保守のコストが非常に大きなものになってお り、カバレージの点でも人手による限界が存在す る。ただし、Cyc プロジェクトでは、一般ドメイン に対する知識ベースと同時に、ドメイン依存の知識 ベースの作成も行われている。 Name Person Organization International_Organization Show_Organization Family Ethnic_Group Sports_Organization Corporation Political_Organization Nationality Pro_Sports_Organization Sports_League Company / Company_Group Government / Political_Party Cabinet / Military Location Spa GPE Region Geological_Region Astral_Body Address City / County Province / Country Continental_Region Domestic_Region

Mountain / Island / River Lake / Sea / Bay Star / Planet / Constellation Postal_Address Phone_Number Email / URL Facility Facility_Part Archaeological_Place GOE Line Tumulus Public_Institution School / Research_Institute Market / Park Sports_Facility Museum / Zoo / Amusement_Park Theater / Worship_Place Car_Stop/ Station/ Airport / Port Railroad / Road / Canal Water_Route / Tunnel / Bridge

Product

Material/ Clothing / Money_Form

Drug / Weapon / Stock / Award Decoration / Offence / Service / Class / Character Vehicle Food Art Printing Doctrine_Method Rule Title Language Unit

Car / Train / Aircraft Spaceship / Ship

Dish

Picture / Broadcast_Program Movie / Show / Music / Book

Newspaper / Magazine Culture / Religion / Academic Sport / Style / Movement / Theory / Plan Treaty / Law Position_Vocation National_Language Currency Event Occasion Incident Natural_Phenomenon Religious_Festival Game / Conference War Natural_Disaster Earthquake Natural_Object Element Compound Mineral Living_Thing Living_Thing_Part Fungus / Mollusc_Arthropod Insect / Fish / Amphibia Reptile / Bird / Mammal / Flora

Animal_Part / Flora_Part Disease Animal_Disease God Color Nature_Color Numex Money / Stock_Index Point / Percent / Multiplication Frequency / Age / School_Age Ordinal_Number / Rank / Latitude_Longtitude Measurement

Countx

Physical_Extent / Space Volume / Weight / Speed Intensity / Temperature / Calorie / Seismic_Intensity /Seismic_Magnitude N_Person / N_Organization N_Location / N_Location N_Facility / N_Product N_Event / N_Natural_Object

Timex

Time Date Day_Of_Week Era Periodx_Other Period_Time Period_Day Period_Week Period_Month Period_Year

(3)

DBpedia DBpedia は、インフォボックスや上位下位関係知識 などWikipedia 内で半構造化されている情報を元に 作られた構造化された知識である[6]。この知識ペ ースは完全にクラウドでボトムアップに作られた Wikipedia の知識に頼っており、精度、カバレー ジ、一貫性などに問題がある。例えば、「新宿駅」 は「小田急線」の下位概念として定義されている が、もちろん、駅は鉄道会社の下位概念ではないば かりか、新宿駅は他の数多くの鉄道会社も利用して いることが載っていない。インフォボックスは同じ タイプのエンティティーであっても異なる定義がさ れている場合があり、その一貫性には大きな問題が ある。例えば、「新宿駅」には3個の属性しかない が、「自由が丘駅」には12個の属性が定義されて いる。 YAGO

Yago は Wikipedia のエンティティーを WordNet のオ ントロジーにマッピングすることによって作成され たオントロジーである[5,7,8,9]。しかしながら、 WordNet は一般後のオントロジーであり、名前のオ ントロジーに適切な形をしているとは限らない。 WordNet は属性は定義されておらず、その部分は DBpedia 同様にインフォボックスを利用している。 現在、YAGO は DBpeda とのリンクを実現しようと しているが、 DBpedia にあるノイズの問題が解決 されていない。 Freebase Freebase は Wikipedia のようにクラウドによって構 造化された知識ベースを作ろうという試みであった [10]。しかし、手法からくる問題としてのノイズや 一貫性のなさが各所に現れていて、一部のデーター ベースの複製である部分を除くと綺麗な知識ベース とは言えない状態である。グーグルによって管理さ れていたが、目的達成の困難さからか現在は以下に 述べるWikidata プロジェクトに統合されている。 Wikidata Wikidata は主に Wikipedia の項目に対して構造化さ れたデータベースを作ることを目的としている [11,12]。Freebase 同様にボトムアップにデータが作 成されているため、ノイズと一貫性の欠如の問題が ある。 KBP KBP は NIST による共有タスクであり、構造化され てない文書から構造化された知識を抽出する技術を 確立することを目標としている[14,5,16]。主要なタ スクとしては2種類ある。文書中からそこで言及さ れているエンティテイーを見つけ出しDB エントリ ーを同定するタスク(EDL :Entity Discovery and Linking)と、対象エンティテイーの属性値を抽出 するタスク(SF :Slot Filling)である。現状では 対象エンティテイーのタイプは人名、組織名、場所 名に限定されており、Wikipedia の幅広いタイプの エンティテイーをカバーするものではない。 FIGER FIGER は拡張固有表現のように、細かく定義され た固有表現を文書の中から同定する共有タスクであ る[17] FIGER では 112 種類の固有表現のカテゴリー が利用されている。情報の構造化については全く扱 われていない。

2つのタスク

現在、約 100 万項目ある Wikipedia の全項目を構造 化することは非常に労力がかかる。しかしながら、 Wikipedia にはほとんど引用されていないマイナー な項目も多く存在している。そこで、まず我々は効 率化の視点も考え、全部の項目を構造化することは 諦め、比較的重要な項目のみを構造化することとし た。この重要度を示す指標としては色々なものがあ るが、Wikipedia データがあれば容易に計算可能な 「被リンク数」を利用することとし、被リンク数が 5以上のもののみを構造化することとした。この基 準により、構造化する対象は約100 万項目中、78 万 0072 項目が構造化の対象となる。 我々は、この78 万項目の Wikipedia を人手で一つ ずつ構造化していくという方法は取らない。機械学 習を利用し、なるべく省力化することと、項目を分 類する作業と構造化する作業を分割して行うという 手法を取っている。まず、78 万項目を、拡張固有表 現の200 種類に分類する作業を機械学習を利用して 行う。こうすることによって、例えば、人名なら人 名の項目が集約され、それに対する構造化の作業が 機械学習などを使うことにより効率的に進められる。 分類作業と構造化作業のそれぞれを以下に説明する。

Wikipedia エンティテイーの分類

Wikipedia エンティティーを、200 種類の拡張固有 表現に分類する作業は、エンティティーの説明文や その特徴量を元にした文書分類の技術によって実現 できる。Wikipedia には文書内の単語だけではなく、 カテゴリー、最初の文の特徴、項目の特徴など、単

(4)

なる文書の特徴量以上の情報があり、それらを有効 に活用することにより、精度の高い文書分類を実現 した[17,18]。手法の詳細は引用論文を参照されたい が、基本的には、22,000 項目のトレーニングデータ を元に、数多くの分類機を同時学習するマルチタス ク学習で行っている。また、特徴量としては、項目 へのリンクがある部分の周辺文脈を Skip-gram を利 用して、文書ベクトル(エンティテイーのエンベデ ィング)を求めている。それぞれのアイデアが精度 向上に貢献していることも実験的に示している。

Wikipedia エンティテイーの構造化

拡張固有表現の分類が終わった Wikiepdia エント リーに対して、拡張固有表現で定義されている属性 値を抽出する作業を行い、Wikipedia の構造化を行う。 具体的には、図1に示した「レオナルド・ダ・ヴィ ンチ」のWikipedia 項目から、表1にあるように人名 で定義されている属性にある情報を属性値として抽 出する作業である。(表1では7つの属性しか示して いないが、実際には19の属性が「人名」カテゴリ ーに対しては定義されている)この作業は、それぞ れのカテゴリーに対して10を超える属性の値を Wikipedia の説明文やインフォボックスから探し出 すという非常に手間のかかる作業であり、クラウド のような安価な労働力を使ったとしても、人手だけ で行うことは非常に難しい。そこで機械学習を前提 としたシステムの参加に基づく、評価型ワークショ ップを行うとともに、その出力を利用して知識も作 り上げようというRbCC の手法で知識を作成するこ とお考えている。現状では、そのためのトレーニン グデータの作成を行っている最中である。現在は、 「人名」「企業名」「市区町村名」「空港名」「化合物 名」の5つのカテゴリーに対して、170〜100 0のトレーニングデータを以下の3つの方法で同じ 予算を使って作っている。 トレーニングデータ作成手法 1.   言語知識作成の経験が豊富な方に作成を依 頼(各カテゴリー170項目) 2.   言語処理が分かる方の指導の元で学生さん に依頼(各カテゴリー250項目) 3.   クラウドワーカーに依頼(各カテゴリー1 000項目) 現在、まさにこのデータが出揃ったばかりであり、 詳細な比較分析はこれからの状況ではあるが、軽い 分析の結果以下のことがわかっている。手法1、2 は似たような結果ではあるが、1の方が精度が高い。 特に定義の曖昧な部分や判断の難しい部分に差が出 ているが、ケアレスミス的なものも2では比較的に 数多く散見される。それに比較して手法3ではかな り違った種類の結果が得られている。クラウドも実 施方法によりで得られるデーターの質はかなり異な ると思われるが、特にカバレージを重視した設計と なっているため、手法1、2に比較してカバレージ は非常に高い。手法1、2の作業者は1人が1つの 項目を担当しているために、その担当者が見落とし そうな項目もしっかりと見つけている。しかしなが ら、詳細に定義書を確認することをしていないため か、精度は低い傾向が見られる。このような3つの 方法を試し、分析した結果、今後のデータ作成は手 法1と手法3の併用とし、手法3に結果を人手で確 認するなどの方法をとることが良いのではないかと 考えている。どちらにしろ、各カテゴリー1000 項目のデータを作成し、その一部をトレーニングデ ータに、残りをテストデータにした評価型ワークシ ョップを行うことを通して、Wikipedia 構造化を実現 していく予定である。その点については次の説を参 照していただきたい。

RbCC

(Resource by Collaborative Contribution)

Wikipedia は非常に膨大であり、それに対して構造 化知識を作成するためには非常に大きなコストと時 間がかかる。この問題に対して、機械学習、クラウ ドソーシング、自然言語処理の技術を応用し、より 小さいコストでより正確なものを作成するという研 究課題に取り組んでいく必要がある。そこで私たち は、これまでにない枠組みとして、多くの研究者が 共同でリソースを作るというアプローチを試みてみ たいと考えている。これまで、多くの研究者が同じ 課題に対してシステムを作成し競い合うという「評 価型ワークショップ/シェアード・タスク」という 枠組みがあった。しかし、この枠組みでは、同じタ スクに対してある意味のオプティマイゼーション技 術を競い合うだけで、そこに残っていくものは労力 の割に多くはないという印象を持っている研究者も いる。参加者の努力をより有益に活用するために、 システムの結果を集積してリソースにしていくとい う枠組みを提案し、実施したいと考えている。 つまり、Wikipedia の構造化(属性値の抽出)をタ スクとした評価型ワークショップを開催しながら、 その参加システムの出力を使った形で、属性値の知

(5)

識を集積していくという枠組みである。初めての試 みであり、どのような成果が期待できるかわからな いが、知識の構築だけではなく、アンサンブル・ラ ーニング、アクティブ・ラーニング、ブートストラ ップなどの技術の研鑽の場も提供できると考えられ る。また、集積した知識を使った応用技術の発展も 大いに期待できる。 県警する研究者の方々には、本プロジェクトへの協 力を切にお願いしたいと考えている。例えば、実行 委員としてタスクの推進にご協力頂いたり、タスク の設計や評価のご協力、出力結果を集積する方法論 の設計と実施、そしてもちろん、属性値抽出のシス テムを作成して評価型ワークショップに参加してい た だ く と い う 形 も あ る 。 ま さ に 、Collaborative Contribution が必要な枠組みであり、世界的にも初め ての大規模な試みではないかと考えている。多くの 方のご協力を心からお願いします。

おわりに

本稿では、現在進行中の「Wikipedia の構造化」プロ ジェクトを紹介した。Wikipedia は固有表現周辺の知 識に関する非常に膨大なリソースであるが、自然言 語処理が利用するには問題があり、分類、構造化を する必要がある。我々は、拡張固有表現に基づき、 Wikipedia の項目を分類し、それを RbCC の考え方で 構造化することを目指している。

参考文献

[1]   Sekine, S. (2008). Extended Named Entity Ontology with Attribute Information. Proceedings of the International Conference on Language Resources and Evaluation (LREC’08).

[2]   Sekine, S. and Nobata, C. (2004). Definition, Dictionary and Tagger for Extended Named. Proceedings of the International Conference on Language Resources and Evaluation (LREC’04). [3]   Suzuki, M., Matsuda, K., Sekine, S., Okazaki, N. and Inui,

K. (2016) Neural Joint Learning for Classifying Wikipedia Articles into Fine-grained Named Entity Types. The 30th Pacific Asia Conference on Language, Information and Computation, Seoul, South Korea.

[4]   Lenat, D.B. (1995). CYC: a large-scale investment in knowledge infrastructure. ACM 38, pp. 32–38.

[5]   Fellbaum, C. (1998). WordNet: An Electronic Lexcal Database, MIT Press.

[6]   Lehmann, J., Isele, R., Jakob, M., Jentzch, M.,

Kontokostas, D., Mendes, P.N., Hellman, S., Morsey M., Kleef, P., Auer, S. and Bizer, C. (2015). DBpedia – A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia. Semantic Web Journal, 6(2) :167—195 [7]   Suchaneck, F.M., Kasneci, G. and Weikum, G. (2007).

YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia. Proceedings of the 16th international conference on World Wide Web, WWW 2007, Banff, Canada, pp. 697–706.

[8]   Hoffart, J., Suchaneck, F.M., Berberich, K. and Weikum, G. (2013) YAGO2 : A Spatially and Temporally enhanced Knowledge Base from Wikipedia. Special Issue of the Artificial Intelligence Journal.

[9]   Mahdisoltani, F., Biega, J. and Suchaneck, F.M. (2015) YAGO3: A Knowledge Base from Multilingual Wikipedias. Proceedings of the Conference on Innovative Data Systems Research (CIDR 2015).

[10]   Bollacker, K., Evans, C., Paritosh, P., Sturge, T. and Taylor, J. (2008). Freebase: a collaboratively created graph

database for structuring human knowledge. Proceedings of the 2008 ACM SIGMOD international conference on Management of data (SIGMOD '08). ACM, NewYork,

USA, pp.1247-1250.

[11]   Vrandečić, D. and Krötzsch, M. (2014). Wikidata: a free collaborative knowledgebase. Commun. ACM57, pp. 78-85.

[12]   Tanon, T.P., Vrandečić, D., Schaffert, S., Steiner, T. and Pintscher, L. (2016). From Freebase to Wikidata: The Great Migration. Proceedings of the 25th Inernational

conference on World Wide Web (WWW '16), pp. 1419-1428.

[13]   Surdeanu, M. and Ji, H. (2014). Overview of the English Slot Filling Track at the TAC2014 Knowledge Base Population Evaluation. Proceedings of the Text

Analysis conference (TAC2014).

[14]   Aguilar, J., Beller, C., McNamee, P., Durme, B.V. (2014), A Comparison of the Events and Relations Across ACE, ERE, TAC-KBP, and FrameNet Annotations Standards. Proceedings of the Second Workshop on

EVENTS: Definition, Detection, Coreference, and Representation.

[15]   Ji, H., Grishman, R., Dang, H.T. (2011). Overview of the TAC2011 Knowledge Base Population (KBP) Track.

Proceedings of the Text Analysis Conference (TAC 2011).

[16]   Ling, X. and Weld. D.S. (2012). Fine-grained entity recognition. Proceedings of the Twenty-Sixth AAAI

Conference on Artificial Intelligence (AAAI'12). pp.94-100.

[17]   Masatoshi Suzuki, Koji Matsuda, Satoshi Sekine, Naoaki Okazaki and Kentaro Inui. Neural Joint Learning

(6)

for Classifying Wikipedia Articles into Fine-grained Named Entity Types. The 30th Pacific Asia Conference on

Language, Information and Computation, Seoul, South Korea, 2016. (Poster)

[18]   Masatoshi Suzuki, Koji Matuda, Satoshi Sekine, Naoaki Okazaki, and Kentaro Inui. Fine-Grained Named

Entity Classification with Wikipedia Article Vectors.

IEEE/WIC/ACM International Conference on Web Intelligence, Omaha, U.S., 2016.

参照

関連したドキュメント

節の構造を取ると主張している。 ( 14b )は T-ing 構文、 ( 14e )は TP 構文である が、 T-en 構文の例はあがっていない。 ( 14a

Regional Clustering and Visualization of Industrial Structure based on Principal Component Analysis for Input-output Table Data.. Division of Human and Socio-Environmental

(4) 「Ⅲ HACCP に基づく衛生管理に関する事項」の3~5(項目

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

2021] .さらに対応するプログラミング言語も作

この項目の内容と「4環境の把 握」、「6コミュニケーション」等 の区分に示されている項目の

この分厚い貝層は、ハマグリとマガキの純貝層によって形成されることや、周辺に居住域が未確

化学品を危険有害性の種類と程度に より分類、その情報が一目でわかる ようなラベル表示と、 MSDS 提供を実 施するシステム。. GHS