半構造情報資源を用いたWikipediaオントロジーの構築

(1)

半構造情報資源を用いた

Wikipedia オントロジーの構築

Building Wikipedia Ontology with Semi-Structured Information Resources

川上時生

1

森田武史

2

山口高平

2 Tokio Kawakami1_{Takeshi Morita}2_{Takahira Yamaguchi}2

1

_{慶應義塾大学大学院理工学研究科}

1

_{Graduate School of Science and Technology, Keio University}

2

_{慶應義塾大学理工学部}

2

_{Faculty of Science and Technology, Keio University}

Abstract: We have proposed a construction method of Japanese Wikipedia Ontology which is high precision and

large scale ontology. In this paper, we propose a construction method of ontology applying Japanese Wikipedia Ontology method to Wikipedia. We also compare it with overseas Wikipedia ontology such as YAGO and show differences.

1. はじめに

大規模なオントロジーの構築は情報検索やデータ統合，質問応答といった様々な分野でその有用性が注目されている．大規模オントロジーとしてはWordNet や DBpedia Ontology が知られているが，これらは手動で構築されているため，膨大な構築コストがかかり，また保守や更新が困難という問題もある．そこで近年，Wikipedia や Folksonomy などの半構造体情報資源に着目し，オントロジーを自動構築する研究が注目されている．特に Wikipedia は語彙網羅性や即時更新性に優れているため，構築されるオントロジーの保守や更新が容易になることから， Wikipedia からのオントロジーの自動構築に関する研究が盛んに行われている．我々はこれまでに日本語Wikipedia における様々な機能（カテゴリツリー，一覧記事，Infobox，Infobox テンプレート，定義文，目次見出し）から，Is-a 関係やクラス－インスタンス関係，プロパティ定義域，プロパティ値域，同義語，トリプルといった概念および概念間の関係を抽出することにより，高精度かつ大規模な汎用オントロジーである日本語Wikipedia オントロジーの構築手法を提案してきた[1]．一方で日本語 Wikipedia オントロジーは言語依存した処理が多く，他言語のコミュニティでは利用できず，また海外の Wikipedia オントロジー（YAGO など）との比較ができないという問題があった．本論文では，日本語Wikipedia オントロジーの構築手法を英語版Wikipedia に応用したオントロジーの構築手法について提

案するとともに，YAGO や DBpedia Ontology といった海外の Wikipedia オントロジーと比較評価する．

2. 関連研究

YAGO2[2]は，YAGO の知識ベースの拡張として，これまでのWordNet と Wikipedia のカテゴリとの対応付けを行うだけでなく，Wikipedia と GeoName*1から時空間的情報を抽出することで，さらなるオントロジーの拡張を目指している．またその拡張版である YAGO3[3]では英語版 Wikipedia だけではなく，その他の言語の Wikipedia を利用し，多言語への拡張を行っている． YAGO は非階層関係に着目し，時空間も含め，階層関係だけではない高度なオントロジーを構築しているが，Wikipedia の本文中の情報や定義文，一覧記事といった Wikipedia 特有の構造は利用していない．

DBpedia Ontology は，Wikipedia でよく利用される Infobox を元にして構築されたオントロジーである．ただクラス階層を手作業で記述しているため，構築コストがかかるという問題がある．トリプル抽出についてもDBpedia はマッピングファイルを作成して抽出しているため，構築コストがかかっている． Kuhn[4]らは Wikipedia のリスト記事から関係を抽出し，記事内のインスタンスの関係を比較することで DBpedia のクラスインスタンス関係の補完を行っている．本研究は抽出したIsa 関係などとの比較により精度を高めているが，Kuhn らは DBpedia を利用して精度を高めている． Gupta[5]らは Wikipedia カテゴリから様々なヒューリスティックを用いてIsa 関係を抽出しているが，本研究が提案する後方文字列照合部除去や目次からの Isa 関係抽出手法は利用していない． Flati[6]らは Wikipedia の定義文から形態素解析により，関係を抽出している．ただ抽出した上位会館系の判別（Isa 関係かクラスインスタンス関係か）は行っていない．本研究では抽出した上位下位関係の分類を試みている． Melo[7]らは Infobox テンプレートを利用して関係の抽出を試みているが，クラスインスタンス関係抽出のみに留まる．本研究ではIsa 関係の抽出主本の一つに Infobox テンプレートを利用しており，この点で違いがある． Ponzetto[8]らは，英語 Wikipedia のカテゴリ階層に対して，文字列照合や語彙統語パターンを用いることで，Isa 関係及び not-is-a 関係の抽出を試みている．

Fei Wu & Daniel Weld[9]は Wikipedia の Infobox テンプレー

トとWordNet のクラス階層を結合する事によりオントロジーを構

連絡先：川上時生，慶應義塾大学理工学部管理工学科，〒223-8522 神奈川県横浜市港北区日吉 3-14-1， TEL : 045-566-1614，Email : [email protected]

(2)

築している．結合した Infobox テンプレートが持つ各プロパティはIs-a 関係により継承される．Infobox テンプレートからプロパティ定義域を構築している点で高度なオントロジーであるが，プロパティのタイプについては検討していない．

3. 英語版 Wikipedia オントロジー構築

手法

以下では日本語Wikipedia オントロジーの構築手法を応用した，本研究の提案手法の詳細について述べる．

3.1 Is-a 関係抽出手法

(1) カテゴリ階層に対する文字列照合日本語Wikipedia オントロジーでは Wikipedia のカテゴリ階層から Is-a 関係を抽出するための文字列照合として「後方文字列照合部除去」と「前方文字列照合部除去」を行っていた．本研究でもこの二つの文字列照合を応用してカテゴリ階層からの Is-a 関係抽出を行う．後方文字列照合とはカテゴリ階層を構成する親カテゴリ名と子カテゴリ名とを比較し，子カテゴリ名が「任意の文字列＋親カテゴリ名」となっているものを抽出する手法である．例えば，図 1 のように「Directors」-「Woman directors」というカテゴリ階層が存在していた場合，これをIsa 関係賭して抽出する．ただし英語版

では親カテゴリ名「Japan」，子カテゴリ名「People from Japan」のように子カテゴリ名が「任意の文字列＋前置詞＋親カテゴリ名」となっていた場合，明らかに間違った Is-a 関係を抽出してしまうことが多いので，ここでは省く．後方文字列照合は，[Ponzetto 07]で既に提案されている手法である．前方文字列照合部除去とは親カテゴリ名と子カテゴリ名で “任意の文字列＋の”という部分が一致しているものを抽出，照合部を除去する手法である．英語版ではこれを応用し，名詞の後ろの修飾部が一致しているものを抽出，照合部を除去する．ここで名詞の後ろの修飾部に限定したのは事前の実験により，名詞を後ろから修飾する場合には名詞の意味が限定されることが多く，正しいis-a 関係が抽出されやすいことがわかっているためである．例えば，図 1 では「based in」の前の名詞は組織を表す名詞がくる場合が多く，結果として「Company 」 Is-a 「Organization」という正しい Is-a 関係を得ることができる．図1 後方文字列照合・前方文字列照合部除去の例 (2) Infobox テンプレート名とカテゴリ名の照合本手法では抽象的なInfobox テンプレートと，領域によっては多くの具体的な概念を持つカテゴリとの関係に着目し，テンプレート名とカテゴリ名の照合を行い，Is-a 関係を抽出する．抽出手順を以下に示す． 1. カテゴリ名とテンプレート名の単純文字列照合 2. 照合したカテゴリ以下に存在するサブカテゴリ名と，照合したテンプレートを持つ記事が所属するすべてのカテゴリ名とのマッチング 3. マッチングによって得られたカテゴリの配下にあるカテゴリ階層をIs-a 関係として抽出 4. 子クラスが「任意の文字列＋前置詞＋親クラス」の形になっていた場合は，これを排除する図2 カテゴリとテンプレートのマッチング例

図2 に例を示す．この方法によって「Onboard computers」 Isa 「Embedded systems」といった文字列照合では抽出できない関係を抽出できる． (3) 目次見出しのスクレイピング見出しに「分類」，「種類」を意味する単語が含まれる記事は分類階層が正しく記述されていることが多い．これに着目し，「Classification」，「Taxonomy」，「Genre」などが含まれる記事内の階層関係をスクレイピングにより，Is-a 関係として抽出する．

3.2 クラス－インスタンス関係抽出手法

一覧記事とは，ある基準に従って，関連する物事が列挙された記事である．英語版Wikipedia では一覧記事は「List of ~」の形で存在しているため，こうした記事に着目し，記事名をクラス，記事内に列挙された物事をインスタンスとみなして，スクレイピングによりクラス－インスタンス関係を抽出する．

3.3 トリプル抽出手法

(1) Infobox からのトリプル抽出 Infobox が有する「記事－項目－値」という三つ組を「インスタンス－プロパティ－プロパティの値」として抽出する．ダンプデータから直接トリプルを抽出した場合，プロパティの意味が一見するとわかりにくい場合やプロパティが統一されない場合があるため，ここでは Java Wikipedia API （ Bliki engine）*2_{を用いて}

HTML に変換することで，プロパティに当たる部分を統一して抽出する．またプロパティのタイプについて，そのプロパティの目的語がインスタンスかリテラルかを調べることで， owl:ObjectProperty か owl:DatatypeProperty に分類する．具体的にはプロパティの目的語が他のトリプルの主語となっているか，またはすでに抽出したインスタンスの集合に含まれている場合には owl:ObjectProperty に，プロパティの目的語が“数字＋単位”の形になっていた場合にはowl:DatatypeProperty に分類する．ただし，イレギュラーを考慮し，そのプロパティを用いている

(3)

トリプルの 75%がインスタンスの場合に owl:ObjectProperty に， 75%がリテラルの場合に owl:DatatypeProperty と判別することとする．まだどちらにも分類できないものはUnknown と判別する． (2) 記事のリスト構造を用いたトリプル抽出 Wikipedia 本文中に存在するリスト構造に着目し，記事名−リスト構造の見出し語−リスト構造の各値をトリプルと捉えて抽出を試みる．この際，各記事が属するカテゴリを照合し，カテゴリごとに多く含まれている見出し語を収集する．これにより，記事が属するカテゴリをプロパティの定義域として抽出することが可能となる．抽出の手順を以下に示す． 1. ダンプデータから記事ごとにカテゴリと見出し語を抽出 2. 1 で抽出したデータから各カテゴリの見出し語の出現頻度を測定 3. 2 から出現頻度が少ないものを除去（今回は 5 以下とした） 4. 3 で得た見出し語をプロパティ名賭して，記事ごとにリスト構造の各値を抽出

3.4 定義文からの上位下位関係抽出手法

Wikipedia の定義文を Stanfordparser*3_{を用いて形態素解析} を行うことで，上位下位関係を抽出する．ここでは定義文の第 1 文の動詞が be 動詞であり，かつ主語が記事タイトルと一致しているもののみを抽出し，形態素解析を行う．図 3 の例では「author」，「writer」を上位語，「novelist」を下位語として抽出できる．また抽出した上位下位関係を前処理で抽出したクラスの集合を用いて，Is-a 関係とクラス－インスタンス関係に分類する．具体的には上位語・下位語ともにクラスの集合に含まれていた場合は Is-a 関係，上位語のみがクラスに含まれていた場合はクラス－インスタンス関係に分類し，どちらにも当てはまらない場合はUnknown とする．図3 記事「Novelist」の定義文

4. 評価

オントロジー構築のために今回は2017 年 1 月 20 日時点の英語版Wikipedia ダンプデータを利用した．

4.1 Is-a 関係抽出結果

(1) カテゴリ階層に対する文字列照合による抽出結果と考察カテゴリ階層から後方文字列照合によって 281,394 個，前方文字列照合部除去によって 23,516 個の Is-a 関係を抽出した．重複を除くと全体として302,425 個の関係を抽出することが出来た．抽出した関係から1,000 個の標本を抽出し，以下の式により正解率の95%信頼区間を推定した．その結果，後方文字列照合について95%信頼区間は 96.2± 1.18%，前方文字列照合部除去について 95%信頼区間は 80.2 ±2.42%であった．全体としては 93.4±1.54%という結果を得た．表1 は上の 3 行が後方文字列照合の手法により，下の 3 行が後方文字列照合部除去の手法により抽出した関係を示している．表 1 より，前方文字列照合部除去によって文字列に依存しない関係を抽出できていることがわかる．表1 文字列照合で抽出した Is-a 関係の正解例親クラス子クラス

magazine Japanese magazine

Surgery Ear surgery

Music Wedding music

Food companies Fast-food chains

Rulers Kings

Non-fiction writers Science writers

次に，表2 に誤って抽出された Is-a 関係を示す．表 2 の 1，2 行目の誤りは，クラス－インスタンス関係を誤って抽出した例を示している．Wikipedia では，有名なインスタンスはカテゴリ化されているため，結果として文字列照合によりクラス－インスタンス関係が抽出されてしまうことがある．これは3.2 項で述べたクラス－インスタンス関係抽出手法により抽出された結果を利用することで排除できる．表2 の 3 行目の誤りは，Wikipedia カテゴリ階層の上位に存在する抽象的なカテゴリを親に持つ階層の場合に，誤ったIs-a 関係を抽出している例である．英語版 Wikipedia の上位カテゴリは，「Arts」，「Culture」，「Health」，「Politics」など 21 個の主要カテゴリから構成されており，これが Wikipedia 階層の分類の基幹となっている．この誤りはルートからの階層の深さで限定することで排除できると考えられる．表2 文字列照合で抽出した Is-a 関係の誤り例親クラス子クラス Asia Laos Landshut EV Landshut Politics Sector (2) Infobox テンプレート名とカテゴリ名の照合による抽出結果と考察 3.1(2)項で述べた手法により，6,315 個の Is-a 関係を抽出した．抽出した関係から1,000 個の標本を抽出した結果，95%信頼区間は80.1±2.27%であった．表 3 に抽出した正解例を示す．表3 Infobox テンプレート名とカテゴリ名の照合で抽出した Is-a 関係の正解例親クラス子クラス

Wearable computers Smartwatches Embedded system Onboard computer Computer hardware Computing output device

表 3 より，文字列に依存しない関係を多く抽出できていることがわかる．一方で誤ってクラス－インスタンス関係が抽出されることも多かった．これは抽出した関係の多くは「Mountains」や「Islands」，「Seas」といった地形に関するカテゴリがルートカテゴリとなっており，これらの下位カテゴリにはインスタンスが多く含まれるためである．また今回はInfobox テンプレートとカテゴリ名の

(

)

(

)

_] 1 ˆ 1 ˆ 1 96 . 1 ˆ , 1 ˆ 1 ˆ 1 96 . 1 ˆ [　　　　　　 -÷ ø ö ç è æ -+ -÷ ø ö ç è æ -n p p N n p n p p N n p *3 http://nlp.stanford.edu/software/lex-parser.shtml

(4)

照合を文字列一致により照合したが，文字列一致していなくても意味的に一致するものもある．例えば，「instrument」テンプレートは楽器記事に利用されるテンプレートであるが，カテゴリ階層に「instrument 」というカテゴリはなく，代わりに「 Musical instrument」というカテゴリが存在する．こうしたものから抽出するためには，前処理で形態素解析により名詞句に限定するなどの処理が必要である． (3) 目次見出しのスクレイピング抽出結果と考察 3.1(3)項で述べた手法により，83,003 個の Is-a 関係を抽出した．抽出した関係から 500 個の標本を抽出した結果，95%信頼区間は65.8±2.92%であった．表 4 に抽出した正解例を示す．表4 見出しのスクレイピングで抽出した Is-a 関係の正解例親クラス子クラス

Field artillery Mountain gun Family Delphinidae Genus Deophinus

Idiophone Slit drum

表4 より，文字列照合では抽出できなかった関係を抽出できていることがわかる．また先ほどの Infobox テンプレートとカテゴリ名の照合では抽出できない，生物系の関係も多く抽出することが出来た．一方で間違って抽出された関係も多くあった．本手法は他のIs-a 関係抽出手法と異なり，本文の一部を利用しているため，意図しない書き方をしている記事も多い．そのため，不適切な分類階層がそのまま Is-a 関係として抽出され，精度が下がってしまっている．

4.2 クラス－インスタンス関係抽出手法

Wikipedia ダンプデータから抽出した一覧記事に対して 3.2 で述べた手法により，クラス－インスタンス関係の抽出を行った．取得したインスタンス数は1,767,124 個，クラス数は 33,806 個，クラス－インスタンス関係数は2,705,573 個であった．抽出したクラス－インスタンス関係から 1,000 個の標本を抽出し，正解率の区間推定を行った．その結果，89.2±1.92%であった．表 5 に正しく抽出できた関係を，表6 に誤って抽出された関係を示す．表5 一覧記事から抽出した関係の正解例クラスインスタンス

Japanese writer Fukuzawa Yukichi Anime aired on

Nippon Television Hunter×Hunter Programming

language Ruby (programming language)

表6 一覧記事から抽出した関係の誤り例

クラスインスタンス

Composition for

piano and orchestra Nikolai Kapustin Bulldog mascot Carthage Independent

School District

表5 を見ると，作家などの人物やプログラミング言語などの幅

広いインスタンスを抽出できていることがわかる．一方で表6 より，

「Composition for piano and orchestra」というクラスのインスタンス

として人物が含まれていることがわかる．図3 はこの誤ったクラス－インスタンス関係を抽出している一覧記事である．図4 誤ったクラス－インスタンス関係が抽出される一覧記事図 4 からわかるようにこの記事では作品の一覧記事であるにも関わらず，演奏者が項目として含まれてしまっており，その結果誤ったクラス－インスタンスが抽出されている．このように一覧記事において階層関係となっている項目の場合は，最下位にある項目のみを抽出するなどの処理が必要であると考えられる．

4.3 トリプル抽出手法

(1) Infobox からのトリプル抽出 Wikipedia のダンプデータから 8,311,427 の Infobox と，12,039 のInfobox テンプレートを抽出し，22,767,071 個の Infobox トリプルを抽出した．また Infobox トリプルにおけるプロパティの種類は，12,088 個であった．表 7 に抽出したプロパティ名の内，利用頻度が高い上位5 つのプロパティ名を示す．表7 利用頻度が高い上位 5 つのプロパティプロパティ名トリプル数タイプ Born 1,236,081 Object Country 692,929 Object Website 564,401 Datatype Location 513,020 Object Died 477,372 Object プロパティのタイプ推定を行うことで約 6 割のプロパティが owl:ObjectProperty か owl:DatatypeProperty に分類された． 4 割のプロパティのタイプが「Unknown」となっている理由については，リテラルの分類を「数字＋単位」に当てはまるかどうかで判断していることにある．今後は「small」などといったプロパティの値もリテラルになりえることを考慮する必要がある．また全トリプルから 1,000 個の標本を抽出し，正解率の区間推定を行った．結果は93.1±1.57%であった．誤りとしては図 7 のような Infobox の場合，「Years」がプロパティ，「Team」がプロパティの値として抽出されてしまう事が多かった．今回，トリプルのプロパティとして抽出した部分は各Infobox テンプレートによって定められているため，Infobox テンプレートによって抽出方法を変えるなどの対応が考えられる．図5 トリプル抽出に失敗する Infobox の例

(5)

(2) 記事のリスト構造を用いたトリプル抽出 Wikipedia のダンプデータから本文中に項目がある記事を抽出し，そこから各カテゴリの見出し語の出現頻度を基にゴミを除去した結果，7,410,819 個のトリプルを抽出した．表 8 に抽出したトリプルの例を示す．表8 では Infobox には記載されていない情報を持ったトリプルを示した．このように記事本文からトリプルを抽出することによってDBpedia にないようなトリプルを抽出することが可能であると思われる．表8 見出しから抽出したトリプルの例インスタンスプロパティプロパティの値

And Then There

Were None Characters Anthony James Marston A. E.van Vogt Novels The Voyage of the

Space Beagle Ricoh Products Ricoh XR-P

また全トリプルから1,000 個の標本を抽出し，正解率の区間推定を行った．結果は 81.6±2.40%であった．この手法は本文情報を利用しており，そのため書き方が限定されておらず，中には「America」のような固有名詞がプロパティとして抽出されているものもあった．こうした誤ったトリプルは各カテゴリの見出し語の出現頻度によるフィルタリングによってある程度，除去されているが今後はより厳密なフィルタを利用する必要があると考えられる．

4.4 定義文からの上位下位関係抽出手法

3.4 項で述べた手法により，定義文から結果として 3,114,222 個の上位下位関係を抽出することが出来た．また Is-a 関係とクラス－インスタンス関係に分類した結果，クラス－インスタンス関係が2,036,428 個，Is-a 関係が 2,898 個に分類された．結果として約65%の上位下位関係を分類することが出来た．一方で約 3 割の上位下位関係がunknown に分類された理由として，これまでに抽出したクラスの数が不足している点が挙げられる．この点についてはIs-a 関係の抽出手法をさらに改善することで向上すると考えられる．また分類されたクラス－インスタンス関係とIs-a 関係についてそれぞれ精度を求めると，クラス－インスタンス関係の精度は93． 7±1.51%，Is-a 関係の精度は 80.0±2.01%であった．表 9 に正しく抽出された Is-a 関係を，表 10 に正しく抽出されたクラス−インスタンス関係を示す．表9 定義文から抽出されたクラス－インスタンス関係の正解例親クラス子クラス

Road vehicle Bus

String instrument Electric guitar 表10 定義文から抽出された Is-a 関係の正解例

親クラス子クラス

Protein F-box protein 16 Golf tournament Hana Bank Vietnam

Masters クラス－インスタンス関係については本来クラスに含むべきものが含まれていないことが原因で誤って抽出されるものが多かった．逆に Is-a 関係については本来クラスに含まれるべきでないものが含まれていることが原因となっているものが多かった．これらの精度を上げるためにはIs-a 関係の精度を高めていく必要がある．

5. 既存オントロジーとの比較評価

5.1 YAGO との比較

YAGO3 は現在他言語対応している．今回は，同じリソースを用いて構築されたオントロジーで比較するために，英語版 Wikipedia から抽出されたもののみを比較対象とする．表11 本研究と YAGO との抽出方法の比較本研究 YAGO Is-a 関係，クラス－インスタンス関係の抽出方法カテゴリの文字列照合 WordNet を利用した Wikipedia カテゴリによる記事分類 Infobox テンプレート名とカテゴリ名の照合目次見出しからのIs-a 関係抽出一覧記事からのクラス－インスタンス関係抽出定義文からの上位下位関係抽出表12 本研究と YAGO との抽出数・精度の比較本研究 YAGO 抽出数精度抽出数精度 Is-a 関係 349,982 92.5± 1.53% 367,040 93.4% クラス－インスタンス関係 5,092,036 92.4± 1.64% 8,414,398 97.7% 抽出方法については，YAGO では WordNet のクラスと Wikipedia のカテゴリを対応付けることで階層を構築し，そのカテゴリに属している記事をインスタンスとして抽出している．この手法はカテゴリを持つ記事全てがインスタンスとなる可能性があるため，多くのインスタンスを抽出することが可能である．一方で本研究ではカテゴリ階層だけでなく，目次見出しや定義文，一覧記事中の項目といった本文中の情報も利用しており，精度は下がるものの，記事が存在しないインスンタンスやクラスの抽出が可能という点で差別化が出来ている．表12 では抽出数・精度を比較している．ここでは 3 項で述べた各処理で抽出した関係を統合し，Is-a 関係に誤って含まれているクラス－インスタンス関係などの不適切な関係を排除した結果を示している．またYAGO についても Wikipedia から抽出した関係のみを対象としている．Is-a 関係については抽出数・精度ともにYAGO に近い数字になっているが，クラス－インスタンスの抽出数については YAGO に大きく劣る結果となった．これは本研究手法では一覧記事に記載されているか定義文が存在する記事からしかクラス－インスタンスを抽出することが出来ないためである．一方で定義文や一覧記事にしか書かれていない関係があった場合には，YAGO で抽出できない関係を抽出できる．表 13 に抽出される関係の比較結果を示す．ここでは本研究で正しく抽出することができた関係1000 個について，それ

(6)

と意味的に近い関係が YAGO および DBpedia Ontology に存在するかどうかを判定している．表13 本研究と YAGO との抽出した関係の比較 YAGO にない関係数 DBpedia にない関係数 Is-a 関係 589 / 1000 998 / 1000 クラス－インスタンス関係 422 / 1000 826 / 1000 表 13 より，実際に YAGO で抽出できない関係を多く抽出できていることがわかる．また，この結果を基に全体の分布を推定した図を図6 に示す．図6 YAGO と本研究の関係数の推定分布この図から Is-a 関係を比較すると，この研究のみで抽出できる関係の数と YAGO だけで抽出できる関係の数はほぼ同じであることがわかる．また，YAGO は元々クラス−インスタンス関係が本研究よりも多かったので，YAGO だけで抽出できる関係が圧倒的に多いが，それでもこの研究でしか抽出できない関係が多くあることがわかる．以下にどういったものがYAGO で抽出できないのかを項目で簡単に列挙している． 1. WordNet に存在しないクラス親クラスに含む Isa 関係 2. 一覧記事には記載されているが，生地自体は存在しないインスタンスを含むクラス−インスタンス関係 3. カテゴリに反映されていない情報が定義文に含まれている記事から抽出できるクラス−インスタンス関係まずIs-a 関係については，YAGO の親クラスは WordNet のク

ラスとなっているため，WordNet に存在しないクラスを親クラスに

もつ Is-a 関係は YAGO でも抽出できない．例としては表 1 の

「Non-fiction writers」—「Science writers」，「Food companies」− 「Fast-food chains」のように下位クラスを親クラスとして持つ Is-a

関係はYAGO には存在しないことが多かった．また WordNet に

は「voice actor」というクラスが存在しないため，「voice actor」に

関する Is-a 関係が抽出できていないといった例もあった．本研究手法は WordNet に依存していないため，これらを抽出することが可能である．また YAGO で抽出できないクラス−インスタンス関係としては，図7 のように一覧記事には書かれているが記事自体は存在しないインスタンス（赤字部分）を含む関係が多かった．さらにカテゴリに反映されていない情報が定義文に記載されていた場合にも YAGO にはない新たなクラス-インスタンス関係を抽出することが出来た．例として図 8 の「Fukuzawa Yukichi」という記事からは 4.4 項の手法により，「Fukuzawa Yukichi」−「Journalist」というクラス-インスタンス関係を抽出できるが，この関係は記事のカテゴリに反映されていないため，YAGO では抽出できない．図7 YAGO では抽出できないクラス−インスタンス関係を含む一覧記事の例図8 「Fukuzawa Yukichi」記事の定義文とカテゴリ

5.2 DBpedia Ontology との比較

DBpedia Ontology も多言語対応しており，様々な言語の Wikipedia からの抽出を試みている．ここでは英語版の Wikipedia から抽出した関係のみでの比較を行う．表 12 に本研究で正しく抽出することができた関係 1000 個について，それと意味的に近い関係が DBpedia Ontology に存在するかどうかを判定した結果を示している．またこの結果を基に全体の分布を推定した図を図9 に示す．図9 DBpedia と本研究の関係数の推定分布 DBpedia Ontology はクラス階層を手作業で記述している．そのため，DBpedia Ontology のクラスは上位関係が多い．一方で，本研究手法で構築されるオントロジーのクラスは下位概念が多いため，Is-a 関係については DBpedia Ontology 中に対応

する関係はほとんど見られず，結果として DBpedia だけが抽出するIs-a 関係はあまりなかったクラス−インスタンス関係についても，3.2 項の手法で抽出したクラス−インスタンス関係は，そのクラスが下位概念に当たることが多く，DBpedia Ontology 中に存在しないことが多かった．また記事自体は存在せず，一覧記事内にのみ記載されている様な情報もDBpedia Ontology では得ることができない情報の特徴である．

最後にYAGO でも DBpedia Ontology でも抽出できない関係がどれだけ存在するかを調べる．表12 に DBpedia Ontology 及 Comparison of Is-a relations Comparison of Class-Instance relations

(7)

び YAGO に存在しない関係について調べた結果を示している．表12 から Is-a 関係は 5 割以上，クラス−インスタンス関係は 4 割以上がYAGO にも DBpedia Ontology にも存在しない関係である事がわかる．

6. おわりに

本稿では，日本語Wikipedia オントロジーの構築手法を英語版 Wikipedia に応用したオントロジーの構築手法について提案し，その評価を行った．また海外の Wikipedia オントロジーである YAGO と比較を行うことで，YAGO で抽出できない関係を抽出可能であることを示し，その有用性を示した．今後の課題としては日本語 Wikipedia オントロジーで抽出に成功した，プロパティ定義域やプロパティ値域，対称関係プロパティや推移関係プロパティといった特殊なプロパティについて，抽出を試みていく必要がある．また [10]では日本語 Wikipedia オントロジーと日本語 WordNet を，オントロジーアライメントを用いて統合することで，日本語 Wikipedia オントロジーにおける上位クラスの補完を行っている．今後は英語版 Wikipedia においても，こうしたクラススキーマ階層の構築を最終目標として研究を進めていきたい．

参考文献

[１] 玉川奨, 香川宏介, 森田武史, 山口高平: 日本語 Wikipedia オントロジーの構築と利用, 人工知能学会セマンティック Web とオントロジー研究会, SIG-SWO-A1203-01 (2013)

[２] Johannes Hoffart, Fabian Suchanek, Klaus Berberich, Gerhard Weikum: YAGO2: A Spatially and Temporally Enhanced Knowledge Base from Wikipedia，Reserch Report MPI-I-2010-5007, Max-Planck-Institut fur Informatik (2010)

[３] Farzaneh Mahdisoltani, Joanna Biega, Fabian M. Suchanek: A Knowledge Base from Multilingual Wikipedias, In: CIDR (2015)

[４] Patrick Kuhn, Sven Mischkewitz, Nico Ring and Fabian Windheuser: Type Inference on Wikipedia List Pages, volume P-259 of LNI, page 2101--2111. GI, (2016) [５] Amit Gupta, Francesco Piccinno, Mikhail Kozhevnikov,

Marius Pasca, Daniele Pighin: Revisiting Taxonomy Induction over Wikipedia, the 26th International Conference on Computational Linguistics(2016)

[６] Tiziano Flati, Daniele Vannella, Tommaso Pasini and Roberto Navigli: Two Is Bigger (and Better) Than One: the Wikipedia Bitaxonomy Project, ACL (2014)

[７] Gerard de Melo, Gerhard Weikum: MENTA:Inducing Multilingual Taxonomies from Wikipedia, Proceedings of

the 19th ACM international conference on information and knowledge management, pp. 1099-1108 (2010)

[８] Simone Paolo Ponzetto，Michael Strube: Deriving a Large Scale Taxonomy from Wikipedia，Proceedinggs of national conference on Artificial intelligence，pp.1440-1447 (2007) [９] Wu, F. and Weld, D.S.: Automatically refining the Wikipedia infobox ontology, Proc, 17th Int. Conf. on World Wide Web, pp.635-644, ACM (2008)

[１０] Takeshi Morita, Yuka Sekimoto, Susumu Tamagawa and Takahira Yamaguchi: Building up a class hierarchy with properties by refining and integrating Japanese Wikipedia Ontology and Japanese WordNet, Web Intelligence and Agent Systems, An International Journal, Volume 12, Number 2, pp.211-233, IOS Press (2014)

半構造情報資源を用いたWikipediaオントロジーの構築