第 4 章 日本語 Wikipedia オントロジ ーの評価ーの評価
4.1 概要
86
第 4 章 日本語 Wikipedia オントロジ
4.2 領域オントロジー構築支援 87 ロジーの領域オントロジー構築支援としての有用性を評価する.4.3節では,日本語LOD としての設計と公開方法を述べる.4.4節では,日本語 Wikipediaオントロジーのプロパ
ティとLinked Open Vocabulariesの語彙の対応付けによる日本語語彙構築手法を述べる.
4.5節では,4.4節で述べた手法の結果と考察,代表的なLODハブであるDBpediaとの 比較,検索支援ツールWiLDの設計と評価により,日本語WikipediaオントロジーのLOD ハブとしての有用性を示す.最後にまとめと今後の課題について述べる.
4.2 領域オントロジー構築支援
既存の汎用オントロジーとの比較と,いくつかの領域に限定し,各領域のクラス,イン スタンス,プロパティの関係を示す事で,定性的に日本語Wikipedia オントロジーの領域 オントロジー構築支援としての有用性の評価を行った.限定した領域は水力発電,人物(作 家クラス),土地(都市クラス),抽象物(過去など)である.水力発電領域については実際に 専門家から意見を頂いている.
4.2.1 汎用オントロジーとの比較
日本語Wikipediaオントロジーと代表的な既存汎用オントロジーである,日本語語彙体
系および日本語WordNetとの比較評価を行った.表4.1 に日本語Wikipediaオントロジ ーと既存汎用オントロジーの比較例を示す.表4.1中の「Wiki」は本論文で構築した日本
語Wikipediaオントロジーを,「W」は日本語WordNet を,「N」は日本語語彙体系をそ
れぞれ表している.また,「Path」はいくつかの主要クラスからリーフまでのパスを表し ている.
日本語Wikipediaオントロジーの特徴として,表4.1の例の「ジャズ・ギタリスト」や
「イギリスの空対空ミサイル」クラスのように,特定分野に特化して詳細なクラス階層を 定義している点があげられる.さらに,日本語Wikipediaオントロジーのクラスは膨大な インスタンスを持っている.これらは,他の既存汎用オントロジーにはない,日本語
Wikipediaオントロジーの特徴である.
表4.1の「事物-人物」の関係のように,構築した日本語Wikipediaオントロジーは他 と比べて上位概念が不足していることが分かる.これは,Wikipediaのカテゴリが9種の 主要カテゴリから分類されているために構築したオントロジーもこの主要カテゴリをルー トとした階層関係になっているためである.また,「人物」から「ギタリスト」クラスまで のパスの深さが浅いことから,中間概念が不足していることもわかる.
88 第4章 日本語Wikipediaオントロジーの利用
表 4.1 オントロジー比較の例
クラス オントロジー Path
人(音楽家)
Wiki 事物-人物-音楽家-演奏家
-ギタリスト-ジャズ・ギタリスト
W ものー全般-生き物-生物-人-エンターテイナー
-公演者-ミュージシャン-ギタリスト
N 名詞-具体-主体-人-人職業地位役割
-人職業-人専門的技術的職業-芸術家-音楽家
無生物(兵器)
Wiki 文化と歴史-出来事-政治-行政-軍事-兵器-航空兵器
-空対空ミサイル-イギリスの空対空ミサイル W もの-全般-出土品-機器-機器-装甲-ミサイル-空対空ミサイル N “兵器”の類はなし
抽象物(過去)
Wiki “過去”は未定義
W 属性-時-古-過去
N 名詞-抽象-抽象的関係-時間-非暦日-現在過去未来-過去
4.2.2 水力発電領域
知識マネジメントに特化したオントロジー構築ツール General knowlEdge Navigator
(GEN)により構築した水力発電所領域のオントロジー[55]と,日本語Wikipediaオントロ
ジーの水力発電領域について,専門家による評価を行った.図4.1にGENの設備オント ロジーの一部を示す.また,図4.1中の水系,発電機,水車,変電所,発電所の各概念に ついて,日本語Wikipediaオントロジーから得た概念を図4.2に示す.
図 4.1 GEN の設備オントロジーの一部
4.2 領域オントロジー構築支援 89
図 4.2 日本語 Wikipedia オントロジーの水力発電領域に関する概念 以下に専門家による各概念での評価を記す.
・ 水力発電
おおむね良くできている.ただし,発電機の配置による分類には疑問が残る.
・ 発電用水車
よくできている.
・ 水系
国土交通省政令に決められている分類に従っている.形状による分類は,電力会 社ではあまり使っていない.
・ 発電機
専門家の聞いたことの無い単語ばかりでよく分からない.
・ 変電所
形式による分類において,送風機関係が入っているのはおかしい.地上か地下か という分類と,送風機の形式は同一の軸で扱うものでない.
形態による分類において,いろいろな概念が混ざっている.GIS は変電所の中 の遮断機の形式としてよく出てくる.XX シリコン型は,小さな変圧器に関するも ので,電力会社の変電所の用語ではない.
以上の評価から,おおむね良くできているという評価をいただいた.一部概念において
90 第4章 日本語Wikipediaオントロジーの利用
は不明な点や,専門家にとって違和感がある分類はあるが,今回評価をいただいた半分以 上の概念については再利用が可能であると考えられる.
4.2.3 人物領域
図4.3に作家クラスのインスタンスである“芥川龍之介”と“夏目漱石”に関するクラ ス,インスタンス,プロパティ関係の一部を示す.
多 く の 関 係 が 定 義 さ れ て い る 事 が 分 か る . 人 物 ド メ イ ン の プ ロ パ テ ィ の 多 く は
owl:ObjectPropertyとなっており,プロパティの値がインスタンスとなるので,さらにそ
の先の関係へと連結されている.図4.3の例では,“夏目漱石”は“門下生”として“芥川 龍之介”を持っており,さらに,“芥川龍之介”の“親族”である“芥川也寸志”は“作曲 家”である事がわかる.このようにインスタンスとインスタンスのつながりから,“作家”
クラスから離れている“作曲家”へ関係が繋がっているように,様々な関係がネットワー ク構造によって広がっている事が分かる.
さらに,“親族”プロパティと“配偶者”プロパティや,“代表作”プロパティと“著作”
プロパティのようにプロパティの上位下位関係が成り立っている.
しかし,“日本”クラスと“日本”インスタンスが顕在しているように,クラスでありイ ンスタンスである概念が存在している,そもそもの抽出の誤り,などが原因のために,定 義域や値域が妥当でないものも見られ,今後の課題といえる.
図 4.3 人物(作家クラス)領域の一部
4.2 領域オントロジー構築支援 91
4.2.4 都市領域
図4.4に都市クラスのインスタンスである“パリ”に関するクラス,インスタンス,プ ロパティ関係の一部を示す.
人物ドメインに比べ,土地ドメインは人口や面積など owl:DatatypeProperty となるプ ロパティが多く存在しており,関係のつながりは少ない.しかし,“姉妹都市・提携都市”
プロパティや“スポーツ”プロパティのように,インスタンスと結びつくプロパティを持 っており,全くつながりが無いわけではない.土地ドメインは多くがインスタンスであり クラスとなっており,さらに“パリ”の場合は“フランスの音楽学校”クラスに地名と同 名のインスタンスが存在しているために,is-a関係として誤った関係が多い.
4.2.5 抽象的な概念の領域
“過去”や“現在”などの抽象的な概念を日本語 Wikipedia オントロジーで探したが,
見つける事ができなかった.この理由として,具体物に比べ,抽象物は評価基準や数量的 な定義が難しく,Wikipediaの記事として,あまり詳細に記述されない事や,人物などの ようにクラス-インスタンス関係として表現する事が難しい事がいえる.
“時間”という抽象物を見つけたが,日本語Wikipediaオントロジー内では“単位”ク ラスのインスタンスとして定義されており,抽象的な概念としての“時間”とは少し違っ ていた.日本語Wikipediaオントロジーは中間概念や上位概念が欠落している傾向があり,
このような抽象物は上位概念に多く存在するため,如何に上位概念と中間概念を補完する かが今後の課題といえる.
図 4.4 土地(都市クラス)領域の一部
92 第4章 日本語Wikipediaオントロジーの利用