半構造情報資源を用いた
Wikipedia オントロジーの構築
Building Wikipedia Ontology with Semi-Structured Information Resources
川上 時生
1森田 武史
2山口 高平
2 Tokio Kawakami1 Takeshi Morita2 Takahira Yamaguchi21
慶應義塾大学大学院理工学研究科
1
Graduate School of Science and Technology, Keio University
2
慶應義塾大学理工学部
2
Faculty of Science and Technology, Keio University
Abstract: We have proposed a construction method of Japanese Wikipedia Ontology which is high precision and
large scale ontology. In this paper, we propose a construction method of ontology applying Japanese Wikipedia Ontology method to Wikipedia. We also compare it with overseas Wikipedia ontology such as YAGO and show differences.
1. はじめに
大規模なオントロジーの構築は情報検索やデータ統合,質 問応答といった様々な分野でその有用性が注目されている.大 規模オントロジーとしてはWordNet や DBpedia Ontology が知ら れているが,これらは手動で構築されているため,膨大な構築コ ストがかかり,また保守や更新が困難という問題もある. そこで 近年,Wikipedia や Folksonomy などの半構造体情報資源に着 目し,オントロジーを自動構築する研究が注目されている.特に Wikipedia は語彙網羅性や即時更新性に優れているため,構 築 され るオ ン トロ ジ ー の 保 守 や 更 新 が 容 易 に な ることか ら, Wikipedia からのオントロジーの自動構築に関する研究が盛ん に行われている. 我々はこれまでに日本語Wikipedia における様々な機能(カ テゴリツリー,一覧記事,Infobox,Infobox テンプレート,定義文, 目次見出し)から,Is-a 関係やクラス-インスタンス関係,プロパ ティ定義域,プロパティ値域,同義語,トリプルといった概念およ び概念間の関係を抽出することにより,高精度かつ大規模な汎 用オントロジーである日本語Wikipedia オントロジーの構築手法 を提案してきた[1].一方で日本語 Wikipedia オントロジーは言 語依存した処理が多く,他言語のコミュニティでは利用できず, また海外の Wikipedia オントロジー(YAGO など)との比較がで きないという問題があった. 本論文では,日本語Wikipedia オントロジーの構築手法を英 語版Wikipedia に応用したオントロジーの構築手法について提
案するとともに,YAGO や DBpedia Ontology といった海外の Wikipedia オントロジーと比較評価する.
2. 関連研究
YAGO2[2]は,YAGO の知識ベースの拡張として,これまで のWordNet と Wikipedia のカテゴリとの対応付けを行うだけでな く,Wikipedia と GeoName*1から時空間的情報を抽出することで, さらなるオントロジーの拡張を目指している.またその拡張版で ある YAGO3[3]では英語版 Wikipedia だけではなく,その他の 言語の Wikipedia を利用し,多言語への拡張を行っている. YAGO は非階層関係に着目し,時空間も含め,階層関係だけ ではない高度なオントロジーを構築しているが,Wikipedia の本 文中の情報や定義文,一覧記事といった Wikipedia 特有の構 造は利用していない.DBpedia Ontology は,Wikipedia でよく利用される Infobox を 元にして構築されたオントロジーである.ただクラス階層を手作 業で記述しているため,構築コストがかかるという問題がある.ト リプル抽出についてもDBpedia はマッピングファイルを作成して 抽出しているため,構築コストがかかっている. Kuhn[4]らは Wikipedia のリスト記事から関係を抽出し,記事 内のインスタンスの関係を比較することで DBpedia のクラスイン スタンス関係の補完を行っている.本研究は抽出したIsa 関係な どとの比較により精度を高めているが,Kuhn らは DBpedia を利 用して精度を高めている. Gupta[5]らは Wikipedia カテゴリから様々なヒューリスティック を用いてIsa 関係を抽出しているが,本研究が提案する後方文 字列照合部除去や目次からの Isa 関係抽出手法は利用してい ない. Flati[6]らは Wikipedia の定義文から形態素解析により,関係 を抽出している.ただ抽出した上位会館系の判別(Isa 関係かク ラスインスタンス関係か)は行っていない.本研究では抽出した 上位下位関係の分類を試みている. Melo[7]らは Infobox テンプレートを利用して関係の抽出を試 みているが,クラスインスタンス関係抽出のみに留まる.本研究 ではIsa 関係の抽出主本の一つに Infobox テンプレートを利用 しており,この点で違いがある. Ponzetto[8]らは,英語 Wikipedia のカテゴリ階層に対して,文 字列照合や語彙統語パターンを用いることで,Isa 関係及び not-is-a 関係の抽出を試みている.
Fei Wu & Daniel Weld[9]は Wikipedia の Infobox テンプレー
トとWordNet のクラス階層を結合する事によりオントロジーを構
連絡先 : 川上時生,慶應義塾大学理工学部管理工学科, 〒223-8522 神奈川県横浜市港北区日吉 3-14-1, TEL : 045-566-1614,Email : [email protected]
築している.結合した Infobox テンプレートが持つ各プロパティ はIs-a 関係により継承される.Infobox テンプレートからプロパテ ィ定義域を構築している点で高度なオントロジーであるが,プロ パティのタイプについては検討していない.
3. 英語版 Wikipedia オントロジー構築
手法
以下では日本語Wikipedia オントロジーの構築手法を応用し た,本研究の提案手法の詳細について述べる.3.1 Is-a 関係抽出手法
(1) カテゴリ階層に対する文字列照合 日本語Wikipedia オントロジーでは Wikipedia のカテゴリ階層 から Is-a 関係を抽出するための文字列照合として「後方文字列 照合部除去」と「前方文字列照合部除去」を行っていた.本研 究でもこの二つの文字列照合を応用してカテゴリ階層からの Is-a 関係抽出を行う. 後方文字列照合とはカテゴリ階層を構成する親カテゴリ名と 子カテゴリ名とを比較し,子カテゴリ名が「任意の文字列+親カ テゴリ名」となっているものを抽出する手法である.例えば,図 1 のように「Directors」-「Woman directors」というカテゴリ階層が存 在していた場合,これをIsa 関係賭して抽出する.ただし英語版では親カテゴリ名「Japan」,子カテゴリ名「People from Japan」の ように子カテゴリ名が「任意の文字列+前置詞+親カテゴリ名」 となっていた場合,明らかに間違った Is-a 関係を抽出してしまう ことが多いので,ここでは省く.後方文字列照合は,[Ponzetto 07]で既に提案されている手法である. 前方文字列照合部除去とは親カテゴリ名と子カテゴリ名で “任意の文字列+の”という部分が一致しているものを抽出,照 合部を除去する手法である.英語版ではこれを応用し,名詞の 後ろの修飾部が一致しているものを抽出,照合部を除去する. ここで名詞の後ろの修飾部に限定したのは事前の実験により, 名詞を後ろから修飾する場合には名詞の意味が限定されること が多く,正しいis-a 関係が抽出されやすいことがわかっているた めである.例えば,図 1 では「based in」の前の名詞は組織を表 す 名 詞 が く る 場 合 が 多 く , 結 果 と し て 「Company 」 Is-a 「Organization」という正しい Is-a 関係を得ることができる. 図1 後方文字列照合・前方文字列照合部除去の例 (2) Infobox テンプレート名とカテゴリ名の照合 本手法では抽象的なInfobox テンプレートと,領域によっては 多くの具体的な概念を持つカテゴリとの関係に着目し,テンプレ ート名とカテゴリ名の照合を行い,Is-a 関係を抽出する.抽出手 順を以下に示す. 1. カテゴリ名とテンプレート名の単純文字列照合 2. 照合したカテゴリ以下に存在するサブカテゴリ名と,照 合したテンプレートを持つ記事が所属するすべてのカ テゴリ名とのマッチング 3. マッチングによって得られたカテゴリの配下にあるカテ ゴリ階層をIs-a 関係として抽出 4. 子クラスが「任意の文字列+前置詞+親クラス」の形に なっていた場合は,これを排除する 図2 カテゴリとテンプレートのマッチング例
図2 に例を示す.この方法によって「Onboard computers」 Isa 「Embedded systems」といった文字列照合では抽出できない関 係を抽出できる. (3) 目次見出しのスクレイピング 見出しに「分類」,「種類」を意味する単語が含まれる記事は 分類階層が正しく記述されていることが多い.これに着目し, 「Classification」,「Taxonomy」,「Genre」などが含まれる記事内 の階層関係をスクレイピングにより,Is-a 関係として抽出する.
3.2 クラス-インスタンス関係抽出手法
一覧記事とは,ある基準に従って,関連する物事が列挙され た記事である.英語版Wikipedia では一覧記事は「List of ~」の 形で存在しているため,こうした記事に着目し,記事名をクラス, 記事内に列挙された物事をインスタンスとみなして,スクレイピン グによりクラス-インスタンス関係を抽出する.3.3 トリプル抽出手法
(1) Infobox からのトリプル抽出 Infobox が有する「記事-項目-値」という三つ組を「インスタ ンス-プロパティ-プロパティの値」として抽出する.ダンプデー タから直接トリプルを抽出した場合,プロパティの意味が一見す るとわかりにくい場合やプロパティが統一されない場合があるた め , こ こ で は Java Wikipedia API ( Bliki engine)*2を 用 い てHTML に変換することで,プロパティに当たる部分を統一して抽 出する.またプロパティのタイプについて,そのプロパティの目 的 語 が イ ン ス タ ン ス か リ テ ラ ル か を 調 べ る こ と で , owl:ObjectProperty か owl:DatatypeProperty に分類する.具体 的にはプロパティの目的語が他のトリプルの主語となっているか, またはすでに抽出したインスタンスの集合に含まれている場合 には owl:ObjectProperty に, プロパティの目的語が“数字+単 位”の形になっていた場合にはowl:DatatypeProperty に分類す る.ただし,イレギュラーを考慮し,そのプロパティを用いている
トリプルの 75%がインスタンスの場合に owl:ObjectProperty に, 75%がリテラルの場合に owl:DatatypeProperty と判別することと する.まだどちらにも分類できないものはUnknown と判別する. (2) 記事のリスト構造を用いたトリプル抽出 Wikipedia 本文中に存在するリスト構造に着目し,記事名−リ スト構造の見出し語−リスト構造の各値をトリプルと捉えて抽出を 試みる.この際,各記事が属するカテゴリを照合し,カテゴリごと に多く含まれている見出し語を収集する.これにより,記事が属 するカテゴリをプロパティの定義域として抽出することが可能と なる.抽出の手順を以下に示す. 1. ダンプデータから記事ごとにカテゴリと見出し語を抽出 2. 1 で抽出したデータから各カテゴリの見出し語の出現 頻度を測定 3. 2 から出現頻度が少ないものを除去(今回は 5 以下とし た) 4. 3 で得た見出し語をプロパティ名賭して,記事ごとにリ スト構造の各値を抽出
3.4 定義文からの上位下位関係抽出手法
Wikipedia の定義文を Stanfordparser*3を用いて形態素解析 を行うことで,上位下位関係を抽出する.ここでは定義文の第 1 文の動詞が be 動詞であり,かつ主語が記事タイトルと一致して い る もの の み を 抽 出 し ,形 態 素 解 析 を 行 う.図 3 の例では 「author」,「writer」を上位語,「novelist」を下位語として抽出でき る.また抽出した上位下位関係を前処理で抽出したクラスの集 合を用いて,Is-a 関係とクラス-インスタンス関係に分類する. 具体的には上位語・下位語ともにクラスの集合に含まれていた 場合は Is-a 関係,上位語のみがクラスに含まれていた場合はク ラス-インスタンス関係に分類し,どちらにも当てはまらない場 合はUnknown とする. 図3 記事「Novelist」の定義文4. 評価
オントロジー構築のために今回は2017 年 1 月 20 日時点の 英語版Wikipedia ダンプデータを利用した.4.1 Is-a 関係抽出結果
(1) カテゴリ階層に対する文字列照合による抽出結果と考察 カテゴリ階層から後方文字列照合によって 281,394 個,前方 文字列照合部除去によって 23,516 個の Is-a 関係を抽出した. 重複を除くと全体として302,425 個の関係を抽出することが出来 た.抽出した関係から1,000 個の標本を抽出し,以下の式により 正解率の95%信頼区間を推定した. その結果,後方文字列照合について95%信頼区間は 96.2± 1.18%,前方文字列照合部除去について 95%信頼区間は 80.2 ±2.42%であった.全体としては 93.4±1.54%という結果を得た. 表1 は上の 3 行が後方文字列照合の手法により,下の 3 行が 後方文字列照合部除去の手法により抽出した関係を示してい る.表 1 より,前方文字列照合部除去によって文字列に依存し ない関係を抽出できていることがわかる. 表1 文字列照合で抽出した Is-a 関係の正解例 親クラス 子クラスmagazine Japanese magazine
Surgery Ear surgery
Music Wedding music
Food companies Fast-food chains
Rulers Kings
Non-fiction writers Science writers
次に,表2 に誤って抽出された Is-a 関係を示す.表 2 の 1,2 行目の誤りは,クラス-インスタンス関係を誤って抽出した例を 示している.Wikipedia では,有名なインスタンスはカテゴリ化さ れているため,結果として文字列照合によりクラス-インスタンス 関係が抽出されてしまうことがある.これは3.2 項で述べたクラス -インスタンス関係抽出手法により抽出された結果を利用する ことで排除できる.表2 の 3 行目の誤りは,Wikipedia カテゴリ階 層の上位に存在する抽象的なカテゴリを親に持つ階層の場合 に,誤ったIs-a 関係を抽出している例である.英語版 Wikipedia の上位カテゴリは,「Arts」,「Culture」,「Health」,「Politics」など 21 個の主要カテゴリから構成されており,これが Wikipedia 階層 の分類の基幹となっている.この誤りはルートからの階層の深さ で限定することで排除できると考えられる. 表2 文字列照合で抽出した Is-a 関係の誤り例 親クラス 子クラス Asia Laos Landshut EV Landshut Politics Sector (2) Infobox テンプレート名とカテゴリ名の照合による抽出結 果と考察 3.1(2)項で述べた手法により,6,315 個の Is-a 関係を抽出した. 抽出した関係から1,000 個の標本を抽出した結果,95%信頼区 間は80.1±2.27%であった.表 3 に抽出した正解例を示す. 表3 Infobox テンプレート名とカテゴリ名の照合で抽出した Is-a 関係の正解例 親クラス 子クラス
Wearable computers Smartwatches Embedded system Onboard computer Computer hardware Computing output device
表 3 より,文字列に依存しない関係を多く抽出できていること がわかる.一方で誤ってクラス-インスタンス関係が抽出される ことも多かった.これは抽出した関係の多くは「Mountains」や 「Islands」,「Seas」といった地形に関するカテゴリがルートカテゴ リとなっており,これらの下位カテゴリにはインスタンスが多く含ま れるためである.また今回はInfobox テンプレートとカテゴリ名の
(
)
(
)
] 1 ˆ 1 ˆ 1 96 . 1 ˆ , 1 ˆ 1 ˆ 1 96 . 1 ˆ [ -÷ ø ö ç è æ -+ -÷ ø ö ç è æ -n p p N n p n p p N n p *3 http://nlp.stanford.edu/software/lex-parser.shtml照合を文字列一致により照合したが,文字列一致していなくて も意味的に一致するものもある. 例えば,「instrument」テンプレ ートは楽器記事に利用されるテンプレートであるが,カテゴリ階 層 に 「instrument 」 と い う カ テ ゴ リ は な く , 代 わ り に 「 Musical instrument」というカテゴリが存在する.こうしたものから抽出する ためには,前処理で形態素解析により名詞句に限定するなどの 処理が必要である. (3) 目次見出しのスクレイピング抽出結果と考察 3.1(3)項で述べた手法により,83,003 個の Is-a 関係を抽出し た.抽出した関係から 500 個の標本を抽出した結果,95%信頼 区間は65.8±2.92%であった.表 4 に抽出した正解例を示す. 表4 見出しのスクレイピングで抽出した Is-a 関係の正解例 親クラス 子クラス
Field artillery Mountain gun Family Delphinidae Genus Deophinus
Idiophone Slit drum
表4 より,文字列照合では抽出できなかった関係を抽出できて いることがわかる.また先ほどの Infobox テンプレートとカテゴリ 名の照合では抽出できない,生物系の関係も多く抽出すること が出来た.一方で間違って抽出された関係も多くあった.本手 法は他のIs-a 関係抽出手法と異なり,本文の一部を利用してい るため,意図しない書き方をしている記事も多い.そのため,不 適切な分類階層がそのまま Is-a 関係として抽出され,精度が下 がってしまっている.
4.2 クラス-インスタンス関係抽出手法
Wikipedia ダンプデータから抽出した一覧記事に対して 3.2 で 述べた手法により,クラス-インスタンス関係の抽出を行った. 取得したインスタンス数は1,767,124 個,クラス数は 33,806 個, クラス-インスタンス関係数は2,705,573 個であった.抽出したク ラス-インスタンス関係から 1,000 個の標本を抽出し,正解率の 区間推定を行った.その結果,89.2±1.92%であった.表 5 に正 しく抽出できた関係を,表6 に誤って抽出された関係を示す. 表5 一覧記事から抽出した関係の正解例 クラス インスタンスJapanese writer Fukuzawa Yukichi Anime aired on
Nippon Television Hunter×Hunter Programming
language Ruby (programming language)
表6 一覧記事から抽出した関係の誤り例
クラス インスタンス
Composition for
piano and orchestra Nikolai Kapustin Bulldog mascot Carthage Independent
School District
表5 を見ると,作家などの人物やプログラミング言語などの幅
広いインスタンスを抽出できていることがわかる.一方で表6 より,
「Composition for piano and orchestra」というクラスのインスタンス
として人物が含まれていることがわかる.図3 はこの誤ったクラス -インスタンス関係を抽出している一覧記事である. 図4 誤ったクラス-インスタンス関係が抽出される一覧記事 図 4 からわかるようにこの記事では作品の一覧記事であるに も関わらず,演奏者が項目として含まれてしまっており,その結 果誤ったクラス-インスタンスが抽出されている.このように一覧 記事において階層関係となっている項目の場合は,最下位に ある項目のみを抽出するなどの処理が必要であると考えられる.
4.3 トリプル抽出手法
(1) Infobox からのトリプル抽出 Wikipedia のダンプデータから 8,311,427 の Infobox と,12,039 のInfobox テンプレートを抽出し,22,767,071 個の Infobox トリプ ルを抽出した.また Infobox トリプルにおけるプロパティの種類 は,12,088 個であった.表 7 に抽出したプロパティ名の内,利用 頻度が高い上位5 つのプロパティ名を示す. 表7 利用頻度が高い上位 5 つのプロパティ プロパティ名 トリプル数 タイプ Born 1,236,081 Object Country 692,929 Object Website 564,401 Datatype Location 513,020 Object Died 477,372 Object プロパティのタイプ推定を行うことで約 6 割のプロパティが owl:ObjectProperty か owl:DatatypeProperty に分類された. 4 割 のプロパティのタイプが「Unknown」となっている理由について は,リテラルの分類を「数字+単位」に当てはまるかどうかで判 断していることにある.今後は「small」などといったプロパティの 値もリテラルになりえることを考慮する必要がある.また全トリプ ルから 1,000 個の標本を抽出し,正解率の区間推定を行った. 結果は93.1±1.57%であった.誤りとしては図 7 のような Infobox の場合,「Years」がプロパティ,「Team」がプロパティの値として 抽出されてしまう事が多かった.今回,トリプルのプロパティとし て抽出した部分は各Infobox テンプレートによって定められてい るため,Infobox テンプレートによって抽出方法を変えるなどの 対応が考えられる. 図5 トリプル抽出に失敗する Infobox の例(2) 記事のリスト構造を用いたトリプル抽出 Wikipedia のダンプデータから本文中に項目がある記事を抽 出し,そこから各カテゴリの見出し語の出現頻度を基にゴミを除 去した結果,7,410,819 個のトリプルを抽出した.表 8 に抽出した トリプルの例を示す.表8 では Infobox には記載されていない情 報を持ったトリプルを示した.このように記事本文からトリプルを 抽出することによってDBpedia にないようなトリプルを抽出するこ とが可能であると思われる. 表8 見出しから抽出したトリプルの例 インスタンス プロパティ プロパティの値
And Then There
Were None Characters Anthony James Marston A. E.van Vogt Novels The Voyage of the
Space Beagle Ricoh Products Ricoh XR-P
また全トリプルから1,000 個の標本を抽出し,正解率の区間推 定を行った.結果は 81.6±2.40%であった.この手法は本文情 報を利用しており,そのため書き方が限定されておらず,中に は「America」のような固有名詞がプロパティとして抽出されてい るものもあった.こうした誤ったトリプルは各カテゴリの見出し語 の出現頻度によるフィルタリングによってある程度,除去されて いるが今後はより厳密なフィルタを利用する必要があると考えら れる.
4.4 定義文からの上位下位関係抽出手法
3.4 項で述べた手法により,定義文から結果として 3,114,222 個の上位下位関係を抽出することが出来た.また Is-a 関係とク ラス-インスタンス関係に分類した結果,クラス-インスタンス関 係が2,036,428 個,Is-a 関係が 2,898 個に分類された.結果とし て約65%の上位下位関係を分類することが出来た.一方で約 3 割の上位下位関係がunknown に分類された理由として,これま でに抽出したクラスの数が不足している点が挙げられる.この点 についてはIs-a 関係の抽出手法をさらに改善することで向上す ると考えられる. また分類されたクラス-インスタンス関係とIs-a 関係について それぞれ精度を求めると,クラス-インスタンス関係の精度は93. 7±1.51%,Is-a 関係の精度は 80.0±2.01%であった.表 9 に正 しく抽出された Is-a 関係を,表 10 に正しく抽出されたクラス−イ ンスタンス関係を示す. 表9 定義文から抽出されたクラス-インスタンス関係の正解 例 親クラス 子クラスRoad vehicle Bus
String instrument Electric guitar 表10 定義文から抽出された Is-a 関係の正解例
親クラス 子クラス
Protein F-box protein 16 Golf tournament Hana Bank Vietnam
Masters クラス-インスタンス関係については本来クラスに含むべきも のが含まれていないことが原因で誤って抽出されるものが多か った.逆に Is-a 関係については本来クラスに含まれるべきでな いものが含まれていることが原因となっているものが多かった. これらの精度を上げるためにはIs-a 関係の精度を高めていく必 要がある.
5. 既存オントロジーとの比較評価
5.1 YAGO との比較
YAGO3 は現在他言語対応している.今回は,同じリソースを 用 い て 構 築 さ れ た オ ン ト ロ ジ ー で 比 較 す る た め に , 英 語 版 Wikipedia から抽出されたもののみを 比較対象とする. 表11 本研究と YAGO との抽出方法の比較 本研究 YAGO Is-a 関係, クラス-イ ンスタンス 関係の抽出 方法 カテゴリの文字列照合 WordNet を 利用した Wikipedia カ テゴリによる 記事分類 Infobox テンプレート名 とカテゴリ名の照合 目次見出しからのIs-a 関 係抽出 一覧記事からのクラス- インスタンス関係抽出 定義文からの上位下位関 係抽出 表12 本研究と YAGO との抽出数・精度の比較 本研究 YAGO 抽出数 精度 抽出数 精度 Is-a 関 係 349,982 92.5± 1.53% 367,040 93.4% クラス -イン スタン ス関係 5,092,036 92.4± 1.64% 8,414,398 97.7% 抽 出 方 法 に つ い て は ,YAGO で は WordNet の ク ラ ス と Wikipedia のカテゴリを対応付けることで階層を構築し,そのカ テゴリに属している記事をインスタンスとして抽出している.この 手法はカテゴリを持つ記事全てがインスタンスとなる可能性があ るため,多くのインスタンスを抽出することが可能である.一方で 本研究ではカテゴリ階層だけでなく,目次見出しや定義文,一 覧記事中の項目といった本文中の情報も利用しており,精度は 下がるものの,記事が存在しないインスンタンスやクラスの抽出 が可能という点で差別化が出来ている. 表12 では抽出数・精度を比較している.ここでは 3 項で述べ た各処理で抽出した関係を統合し,Is-a 関係に誤って含まれて いるクラス-インスタンス関係などの不適切な関係を排除した結 果を示している.またYAGO についても Wikipedia から抽出し た関係のみを対象としている.Is-a 関係については抽出数・精 度ともにYAGO に近い数字になっているが,クラス-インスタン スの抽出数については YAGO に大きく劣る結果となった.これ は本研究手法では一覧記事に記載されているか定義文が存在 する記事からしかクラス-インスタンスを抽出することが出来な いためである.一方で定義文や一覧記事にしか書かれていな い関係があった場合には,YAGO で抽出できない関係を抽出 できる.表 13 に抽出される関係の比較結果を示す.ここでは本 研究で正しく抽出することができた関係1000 個について,それと意味的に近い関係が YAGO および DBpedia Ontology に存 在するかどうかを判定している. 表13 本研究と YAGO との抽出した関係の比較 YAGO にな い関係数 DBpedia にな い関係数 Is-a 関係 589 / 1000 998 / 1000 クラス-インス タンス関係 422 / 1000 826 / 1000 表 13 より,実際に YAGO で抽出できない関係を多く抽出で きていることがわかる.また,この結果を基に全体の分布を推定 した図を図6 に示す. 図6 YAGO と本研究の関係数の推定分布 この図から Is-a 関係を比較すると,この研究のみで抽出でき る関係の数と YAGO だけで抽出できる関係の数はほぼ同じで あることがわかる.また,YAGO は元々クラス−インスタンス関係 が本研究よりも多かったので,YAGO だけで抽出できる関係が 圧倒的に多いが,それでもこの研究でしか抽出できない関係が 多くあることがわかる. 以下にどういったものがYAGO で抽出できないのかを項目で 簡単に列挙している. 1. WordNet に存在しないクラス親クラスに含む Isa 関係 2. 一覧記事には記載されているが,生地自体は存在しな いインスタンスを含むクラス−インスタンス関係 3. カテゴリに反映されていない情報が定義文に含まれて いる記事から抽出できるクラス−インスタンス関係 まずIs-a 関係については,YAGO の親クラスは WordNet のク
ラスとなっているため,WordNet に存在しないクラスを親クラスに
もつ Is-a 関係は YAGO でも抽出できない.例としては表 1 の
「Non-fiction writers」—「Science writers」,「Food companies」− 「Fast-food chains」のように下位クラスを親クラスとして持つ Is-a
関係はYAGO には存在しないことが多かった.また WordNet に
は「voice actor」というクラスが存在しないため,「voice actor」に
関する Is-a 関係が抽出できていないといった例もあった.本研 究手法は WordNet に依存していないため,これらを抽出するこ とが可能である. また YAGO で抽出できないクラス−インスタンス関係としては, 図7 のように一覧記事には書かれているが記事自体は存在しな いインスタンス(赤字部分)を含む関係が多かった.さらにカテゴ リに反映されていない情報が定義文に記載されていた場合にも YAGO にはない新たなクラス-インスタンス関係を抽出することが 出来た.例として図 8 の「Fukuzawa Yukichi」という記事からは 4.4 項の手法により,「Fukuzawa Yukichi」−「Journalist」というクラ ス-インスタンス関係を抽出できるが,この関係は記事のカテゴリ に反映されていないため,YAGO では抽出できない. 図7 YAGO では抽出できないクラス−インスタンス関係を含 む一覧記事の例 図8 「Fukuzawa Yukichi」記事の定義文とカテゴリ
5.2 DBpedia Ontology との比較
DBpedia Ontology も多言語対応しており,様々な言語の Wikipedia か ら の 抽 出 を 試 み て い る . こ こ で は 英 語 版 の Wikipedia から抽出した関係のみでの比較を行う.表 12 に本研 究で正しく抽出することができた関係 1000 個について,それと 意味的に近い関係が DBpedia Ontology に存在するかどうかを 判定した結果を示している. またこの結果を基に全体の分布を 推定した図を図9 に示す. 図9 DBpedia と本研究の関係数の推定分布 DBpedia Ontology はクラス階層を手作業で記述している. そのため,DBpedia Ontology のクラスは上位関係が多い.一方 で,本研究手法で構築されるオントロジーのクラスは下位概念 が多いため,Is-a 関係については DBpedia Ontology 中に対応する関係はほとんど見られず,結果として DBpedia だけが抽出 するIs-a 関係はあまりなかった クラス−インスタンス関係についても,3.2 項の手法で抽出した クラス−インスタンス関係は,そのクラスが下位概念に当たること が多く,DBpedia Ontology 中に存在しないことが多かった.また 記事自体は存在せず,一覧記事内にのみ記載されている様な 情報もDBpedia Ontology では得ることができない情報の特徴で ある.
最後にYAGO でも DBpedia Ontology でも抽出できない関係 がどれだけ存在するかを調べる.表12 に DBpedia Ontology 及 Comparison of Is-a relations Comparison of Class-Instance relations
び YAGO に存在しない関係について調べた結果を示している. 表12 から Is-a 関係は 5 割以上,クラス−インスタンス関係は 4 割 以上がYAGO にも DBpedia Ontology にも存在しない関係であ る事がわかる.
6. おわりに
本稿では,日本語Wikipedia オントロジーの構築手法を英語 版 Wikipedia に応用したオントロジーの構築手法について提案 し,その評価を行った.また海外の Wikipedia オントロジーであ る YAGO と比較を行うことで,YAGO で抽出できない関係を抽 出可能であることを示し,その有用性を示した. 今後の課題としては日本語 Wikipedia オントロジーで抽出に 成功した,プロパティ定義域やプロパティ値域,対称関係プロパ ティや推移関係プロパティといった特殊なプロパティについて, 抽出を試みていく必要がある.また [10]では日本語 Wikipedia オントロジーと日本語 WordNet を,オントロジーアライメントを用 いて統合することで,日本語 Wikipedia オントロジーにおける上 位クラスの補完を行っている.今後は英語版 Wikipedia におい ても,こうしたクラススキーマ階層の構築を最終目標として研究 を進めていきたい.参考文献
[1] 玉 川 奨, 香 川 宏 介, 森 田 武 史, 山 口 高 平: 日 本 語 Wikipedia オントロジーの構築と利用, 人工知能学会セ マンティック Web とオントロジー研究会, SIG-SWO-A1203-01 (2013)[2] Johannes Hoffart, Fabian Suchanek, Klaus Berberich, Gerhard Weikum: YAGO2: A Spatially and Temporally Enhanced Knowledge Base from Wikipedia,Reserch Report MPI-I-2010-5007, Max-Planck-Institut fur Informatik (2010)
[3] Farzaneh Mahdisoltani, Joanna Biega, Fabian M. Suchanek: A Knowledge Base from Multilingual Wikipedias, In: CIDR (2015)
[4] Patrick Kuhn, Sven Mischkewitz, Nico Ring and Fabian Windheuser: Type Inference on Wikipedia List Pages, volume P-259 of LNI, page 2101--2111. GI, (2016) [5] Amit Gupta, Francesco Piccinno, Mikhail Kozhevnikov,
Marius Pasca, Daniele Pighin: Revisiting Taxonomy Induction over Wikipedia, the 26th International Conference on Computational Linguistics(2016)
[6] Tiziano Flati, Daniele Vannella, Tommaso Pasini and Roberto Navigli: Two Is Bigger (and Better) Than One: the Wikipedia Bitaxonomy Project, ACL (2014)
[7] Gerard de Melo, Gerhard Weikum: MENTA:Inducing Multilingual Taxonomies from Wikipedia, Proceedings of
the 19th ACM international conference on information and knowledge management, pp. 1099-1108 (2010)
[8] Simone Paolo Ponzetto,Michael Strube: Deriving a Large Scale Taxonomy from Wikipedia,Proceedinggs of national conference on Artificial intelligence,pp.1440-1447 (2007) [9] Wu, F. and Weld, D.S.: Automatically refining the Wikipedia infobox ontology, Proc, 17th Int. Conf. on World Wide Web, pp.635-644, ACM (2008)
[10] Takeshi Morita, Yuka Sekimoto, Susumu Tamagawa and Takahira Yamaguchi: Building up a class hierarchy with properties by refining and integrating Japanese Wikipedia Ontology and Japanese WordNet, Web Intelligence and Agent Systems, An International Journal, Volume 12, Number 2, pp.211-233, IOS Press (2014)