Wikipedia 関連研究 - 日本語Wikipediaオントロジーの自動構築と評価(本文)

30 第2章関連研究

図 2.20 DBpedia の記事の例

2.4 Wikipedia関連研究 31

DBpediaでは，一意に定義した膨大な数の個体を他のRDFデータベースの個体と結び

つけることでWeb上に存在するデータの意味付けされたネットワークを構築している．現在も様々なRDFデータが公開されてはDBpediaとのリンクが構築され，DBpediaはいわばWeb上のインスタンスデータのハブとなっている．このように，公開されたRDFデータで他のデータベースと結合されているものはLOD (Linked Open Data)と呼ばれ，現在のセマンティックWeb研究において一つの大きな流れとなっている．

DBpedia は非常に大規模なデータベースであるが，手動構築した 170 のクラスと 720

のプロパティを利用し，Infobox の構造をそのまま抽出している．手動構築のプロパティ

とInfobox からのプロパティは分離しており，Infobox からのプロパティの多くはオント

ロジー内で統合されていない．さらに，日本語固有のWikipediaの記事には対応しておらず，日本語LODのハブとして利用するために十分とはいえない．本家DBpedia が英語版

Wikipedia のテンプレートをベースに構築しているのに対し，日本語版 Wikipedia を対

象とし，独自でマッピング作業を行なっている DBpedia Japanese¹⁰も存在しているが，

日本語特有のクラス階層を持っていない．

2.4.2 YAGO （ Yet Another Great Ontology ）

YAGO [30]は，概念階層部分として英語版汎用オントロジーのWordNetを利用し，末

端のクラスに英語Wikipediaに存在する膨大な量のインスタンス情報を付加したオントロジーである．

どの記事をどの WordNet クラスのインスタンスとするかの判断は，その記事がどの

Conceptual Category と呼ばれるカテゴリに属しているかで決めている．Conceptual

Categoryは，経験則に基づいた簡単なカテゴリ名の構文解析から定義している．ここで提

案されている手法は英語においてのみ適用可能であり，所属カテゴリを利用してさまざまなプロパティを手動で定義し，記述している．YAGOはWikipediaのインスタンス情報を主に利用している点が特徴である．図2.21はYAGOの一部である．

YAGOは関係の種類数としてはis-a関係も含めて15種しかなく，プロパティを設けているが，手動で170種程度であり，プロパティの定義域や値域については扱っていなかった．

10 http://ja.dbpedia.org/

32 第2章関連研究

図 2.21 YAGO における階層関係の構築の例

YAGO2 および YAGO2s [31]では YAGO の知識ベースの拡張として，これまでの

WordNet に Wikipedia のカテゴリを付加してオントロジーの拡張を行うだけでなく，

GeoNames¹¹などのWikipedia以外の情報資源を用いて，時空間的情報を抽出する事で，

さらなるオントロジーの拡張を目指している．これら時空間的情報はwasBornOnDateや

isLocatedIn といった関係を定義し，インスタンスとつないでおり，非階層関係となって

いる．非階層関係に着目し，時空間も含めた高度なオントロジーを構築しているが，これらの関係は手動で定義されており，プロパティの定義域や値域についても手動で定義されている．

2.4.3 Wikipedia からの上位下位関係抽出

Ponzettoら [32]は，Wikipediaカテゴリから上位下位概念関係の抽出を試みている．手

法としては，カテゴリリンクに以下のようなメソッドを適用することによって主に関係を抽出している．

・ Category network cleanup

Wikipedia独自のノイズを取り除く

・ Refinement link identification

“Y X”- “X by Z”というカテゴリリンクを“X by Z” is-refined-by “Y X”

と定義

・ Syntax-based methods

カテゴリ名のhead（主要部）とmodifier（修飾部）のマッチで分類 British Computer Scientists is-a Computer Scientists

Crime Comic not-is-a Crime（is-aではないカテゴリ分けを指摘）

11 http://www.geonames.org

2.4 Wikipedia関連研究 33

・ Connectivity-based methods

複数形のheadを持つカテゴリとそのサブカテゴリをis-aで結ぶ

Wikipediaカテゴリだけでなく，記事の自然言語文やハイパーリンクから機械学習によ

り，上位階関係を抽出する研究もある．Weiら [33]は，Wikipedia記事内のハンパーリンクを，自動的に 13 次元の特徴ベクトルにマッピングし，Wikipedia の構造情報から抽出したトレーニングデータを基に，分類器を生成している．分類器はドメインごとの特徴を備えており，ドメイン固有の上位下位関係を発見する事が可能である．実際に，いくつかのドメインに分類器を適用した結果，辞書と構文パターンによるアプローチに比べ，パフォーマンスの向上が見られる．

2.4.4 Wikipedia の Infobox を用いた意味関係抽出

Wu ら [34]は，WikipediaのInfoboxが持つテンプレートに着目し，Infobox テンプレ

ートを WordNet のクラス階層に写像することで，is-a 関係を構築している．写像した

Infoboxテンプレートが持つ各プロパティはis-a関係により継承される．各プロパティが

Infobox テンプレートという定義域を持ち，継承される点で高度なオントロジーと言える

が，プロパティ自体はInfoboxからの情報のみであり，さらにプロパティのタイプについては検討していない．

Xuら [35]は，WikipediaのInfoboxからトリプルを抽出する際に，欠けてしまった要素間のリンクを発見し，補完する手法を提案している．DBpediaなどのInfoboxからのプロパティ抽出では，Wikipedia の記者に依存し，Infobox 内にハイパーリンクをつけていない，余分な注釈を入れているなどの理由により，トリプルを抽出できないことが多い．

本手法は各プロパティの値となる部分の特徴を重みとして取得し，学習することで，プロパティの値となる要素を予測し，欠けてしまった要素を補完している．

2.4.5 日本語版 Wikipedia を用いた研究

日本語版 Wikipediaを用いて日本語語彙体系を拡張する研究も行われている[36, 37]．

柴木らは [37]，日本語版Wikipediaを用いて日本語語彙体系を拡張する研究を行っている．

日本語語彙大系を上位階層とし，日本語版Wikipediaのカテゴリと対応付けることでis-a 階層を構築し，さらにWikipediaの見出し語に着目し，記事からインスタンスを抽出することで汎用オントロジーを構築する手法を提案している．本論文と同様に，後方文字列照合を用いて精度の高いis-a階層とインスタンスを抽出しているが，非階層関係については言及されていない．

隅田らは [38]，Wikipediaの記事構造に機械学習によるフィルタリングを用いることで，

大規模な上位下位関係にある単語ペアの獲得を行っている．獲得された単語ペアにおける

34 第2章関連研究

上位下位関係の精度は高いが独立しており，本論文のように階層構造になっていない．また，クラスやインスタンスの区別もされていない．

2.4.6 関連研究の総括

クラス－インスタンス関係および階層関係に焦点が当てられたものが多く，プロパティを含むオントロジーを構築している研究は少ない．また，プロパティを含むオントロジー

もWikipediaのInfoboxのみに着目しており，他の構造を利用したプロパティ構築研究は

少なく，プロパティのタイプやプロパティ間の関係にまで着目した研究は見られない．さらに，日本語版Wikipediaからのオントロジー構築研究については，非階層関係の抽出に焦点を絞った研究は少ない．

ドキュメント内日本語Wikipediaオントロジーの自動構築と評価(本文) (ページ 44-48)