• 検索結果がありません。

日本語 Wikipedia オントロジーの全体像

第 3 章 日本語 Wikipedia オントロジ ーの自動構築ーの自動構築

3.5 日本語 Wikipedia オントロジーの全体像

82 第3章 日本語Wikipediaオントロジーの自動構築

3.5 日本語Wikipediaオントロジーの全体像 83

表3.24および表3.25より,87,159個のクラスについて,93,322ものis-a関係を抽出 することができた.目次見出しからのis-a関係抽出手法は,約83,000ものis-a関係が抽 出できているものの,正解率は約72%と低く,is-a関係全体の正解率を下げている.それ 以外の手法により抽出したis-a 関係数は約16,000,正解率は90%以上で,高精度となっ ている.is-a関係全体の正解率を上げるためには目次見出しからのis-a関係抽出精度を上 げる必要があり,今後の課題である.

次に,クラス階層のルートとなっている各クラス数とルートから全てのリーフのクラス へのパスを調べた.全ルートクラス数は7,211,リーフ数は65,721であり,抽出したパス

の本数は257,313 本であった.構造全体の階層の深さの平均は約 5.83本であった.さら

にオントロジー全体を見渡すために,各ルートクラスについて派生するリーフの分布を測 定した.横軸にルートクラスを,縦軸にクラスの階層の深さを取ったものが図 3.22 であ る.

図 3.22 を見ると分かるように,1 つのツリーに集約せず,小さなツリーが散在してし

まっている.特に深い階層ができているツリーがいくつか見られるが,これはWikipedia 主要カテゴリがルートとなっているツリーである.これらのことからも上位概念や中間概 念が不足していることが分かる.

クラス-インスタンス関係は421,989もの関係を抽出し,インスタンス数も323,024と 多く,また正解率も97.2%と高い.しかし,これらは一覧記事から抽出したインスタンス であり,Wikipedia の記事数が現在,約 64 万記事あることを考えるとさらに多くのイン スタンスを抽出できる可能性がある.

表 3.26に構築した日本語Wikipediaオントロジー内のプロパティタイプ別,プロパテ ィ数,正答率,トリプル数を示す.

図 3.22 オントロジーの階層の深さとルートの関係

84 第3章 日本語Wikipediaオントロジーの自動構築

表 3.26 日本語 Wikipedia オントロジーのプロパティタイプ別,プロパティ数,正答率,

トリプル数

種類 プロパティ数 正答率 トリプル数 全プロパティ 10,769 - 4,867,882 owl:DatatypeProperty 214 - 416,803

owl:ObjectProperty 99 - 912,746 owl:SymmetricProperty 415 45.1% 21,854 owl:TransitiveProperty 210 0% 1,020 owl:FunctionalProperty 2,267 54.3% 185,700 owl:InverseFunctionalProperty 3,670 22.4% 47,295 表3.25および表3.26より,10,769のプロパティ名を抽出することができ,トリプル数

としては4,867,882ものトリプルを抽出できている.リスト構造からのトリプルの抽出精

度はInfoboxからの抽出に比べ低いものの,約2倍ものトリプルを抽出できており,全体

としても約94%と高精度で抽出できている.

プロパティ定義域は,9,486の関係を 8,831のプロパティ名について定義できており,

82%のプロパティ名は定義域を持っていることとなる.プロパティ値域は,2 つの手法か

らあわせて49,262の関係を抽出でき,5,120のプロパティ名について定義できており,48%

のプロパティ名は値域を持っていることとなる.どちらも正解率は90%程であり,高精度 となっているが,半分以上のプロパティ名には値域を定義できておらず,定義されていな い値域の定義が今後の課題である.さらに,定義域と値域が定義されているプロパティ名 についても,複数の定義域や値域を持つものもあり,それらをどのように統合していくか も今後の課題である.

また,57.5%と精度は低いものの,1,387 のプロパティ上位下位関係を抽出しており,

プロパティ間の上位下位関係の抽出は今までにない試みである.

さらに,プロパティタイプについてはこれまでのowl:Object/DatatypePropertyに加え,

新たに,対称関係(owl:SymmetricProperty),推移関係(owl:TransitiveProperty),関数関 係(owl:FunctionalProperty),逆関数関係(owl:InverseFunctionalProperty)の推定を行っ た.そのままの抽出結果では精度は高くないものの,トリプルの包含率により絞り込む事 により,特に対称関係プロパティは8割以上の精度で抽出できており,これらの更なる精 度向上が今後の課題と言える.

3.6 まとめ 85

3.6 まとめ

本章では,日本語版 Wikipedia を情報資源として,日本語版Wikipedia から概念およ び概念間の関係(is-a関係,クラス-インスタンス関係,プロパティ定義域,プロパティ 値域,プロパティ上位下位関係,インスタンス間関係,その他の関係)を抽出し,自動構 築により大規模かつ汎用的な日本語Wikipediaオントロジーの構築手法の提案とその評価 を行った.Wikipedia は,is-a 関係やクラス-インスタンス関係だけでなく,プロパティ に着目する事で,多くの非階層な関係を抽出できる有用な情報資源であることを示すこと ができた.

提案手法の各パートに対して実験・評価をした結果,Wikipediaに対して提案手法を適 用することで,is-a関係,クラス-インスタンス関係,インスタンス間関係を高精度で抽 出し,大規模で汎用的な日本語Wikipediaオントロジーを構築することが可能であること がわかった.また,プロパティ定義域,プロパティ値域,プロパティ上位下位関係などの プロパティ関係を構築できたことで,クラススキーマ階層を構築できたと言え,上位下位 関係のみのオントロジーや,手動でプロパティを構築しているオントロジー,プロパティ 定義域・プロパティ値域を持たないオントロジーなど,他の関連研究より質の高いオント ロジーの半自動構築ができたと言える.

今後の課題として,プロパティタイプなどの十分に抽出できなかった部分について,改 善し,より精度の高いオントロジーの構築を目指す.また,Wikipediaにおいて,本文に は有用な情報が多くあり,このような構造化されていない部分から,オントロジー構築の ためのルールを自動生成することで,さらなる規模の拡大は可能であり,今後の課題であ る.

86

第 4 章 日本語 Wikipedia オントロジ