JWNL
4.14 既存オントロジーの獲得およびランキング実験
表 4.26: 実験2の検索結果
再現率 適合率 F値 キーワード検索 上位10件 0.136 0.300 0.188
特殊化検索 上位10件 0.364 0.800 0.500 キーワード検索 上位20件 0.136 0.150 0.143 特殊化検索 上位20件 0.500 0.550 0.524
また,DODDLE-OWLの階層構築方法では対応できない例が本ケーススタディを通し ていくつか得ることができた.例えば、「中部ガス」というガス会社をあらわす概念の階 層関係を定義する場合に,参照オントロジー中に「ガス会社」に関する階層関係の定義 がなく,気体としての「ガス」概念の階層関係の定義しかない場合を考える.その場合に は,「中部ガス」は気体としての「ガス」概念と部分照合し,「可燃ガス」概念や「ヒドラジ ンガス」概念などの兄弟概念として誤って階層化される.また,本ケーススタディでは,
「ガス」概念の下位概念に「有毒ガス」が定義されていたが,「有毒ガス」概念の下位概念 は適切に階層化できていなかった.「有毒ガス」は,「〜有毒ガス」という見出しではなく,
「一酸化炭素」のように見出し上は「有毒ガス」との関連はわからない.よって,ロケッ ト運用における有毒ガスを自動的に階層化することは,現在のDODDLE-OWLの階層構 築方法では困難である.さらに,本ケーススタディにおいて「管制卓」概念は「卓」概念 の下位概念として概念化されている.しかしながら,「管制卓」は管制を行う場所を意味 しているため,「机」と同義である「卓」の下位概念に定義されることは誤っている.この ような専門領域に特化した概念階層の定義については,手動による洗練が不可欠である.
本ケーススタディを通して,専門家はロケット運用オントロジーを見て,いくつかの階 層関係の誤りを指摘していた.本ケーススタディで構築されたロケット運用オントロジー は,汎化検索には十分な精度を発揮できないなど,洗練の余地は多くある.しかしなが ら,手動構築では数百時間かかると考えられる約34,000概念を含む概念階層を約30時間 で構築することができた.また,専門家と概念階層のどこを修正すべきかを議論すること ができた.このことから,概念数が膨大な領域オントロジー構築にもDODDLE-OWLの 有用性を示すことができたといえる.
4.14 既存オントロジーの獲得およびランキング実験
4.14.1 概要
4.4節で述べた手法を用いて,Swoogleを用いた既存オントロジーの獲得およびランキ ングの有用性を評価するための実験を行った.本実験では,入力文書として法律分野の専 門文書である国際売買法 [68] 第二部の英文テキスト(以下,CISG)を用いた.CISGに 関する入力語選択,入力概念選択,階層構築,その他の関係定義は, [19]において,法
4.14. 既存オントロジーの獲得およびランキング実験 136
表 4.27: CISG Part-IIから専門家が選択した46の入力語
acceptance act addition address assent circumstance communication system conduct contract counteroffer day delay delivery discrepancy dispatch effect envelope goods holiday indication intention invitation letter modification offer offeree offerer party
payment person place of business price proposal quality quantity rejection reply residence revocation silence speech act telephone
telex time transmission withdrawal
表 4.28: 獲得オントロジー数,入力語の網羅率,入力概念に関連するクラス数およびプロ
パティ数
獲得オントロジー数 120 入力語の網羅率 0.717 (33/46)
クラス数 331 プロパティ数 558
律の専門家によってなされている.よって,本実験では,専門家によって選択された46 の入力語(表4.27)をオントロジー選択モジュールの入力として,既存オントロジーの獲 得およびランキングを行った.また,獲得された既存オントロジーが対象領域のオントロ ジー構築に再利用可能であるかどうかは,専門家が定義した階層関係と比較することによ り確認した.本実験は図4.2に示す手順で行った.
4.14.2 結果
表4.28に獲得オントロジー数,入力語の網羅率,入力概念に関連するクラス数および プロパティ数を示す.表4.29に,Swoogleを用いて獲得した,オントロジーに含まれる入 力概念数でソートした上位10個の既存オントロジーを示す.なお,本実験は,2007年6 月に行った.
4.14.3 考察
表 4.28より,CISGの約7割の入力語については,獲得したオントロジーで網羅する ことができる.しかし,表 4.29より,入力概念を含む数が最も多い既存オントロジーで 3割程度であり,入力概念をすべて含む領域オントロジーを構築するためには,複数の既 存オントロジーを参照する必要があることがわかる.また,入力概念を多く含むオントロ ジーの大部分は,WordNet [17]やCyc 15などの汎用オントロジーであり,領域オントロ
15http://www.cyc.com/
4.14. 既存オントロジーの獲得およびランキング実験 137
表 4.29: Swoogleを用いて獲得した既存オントロジー(オントロジーに含まれる入力概念
数でソートした上位10個)
順位 入力概念数(OntoRank) オントロジーのURL
1 15 (0.881) http://www.loa-cnr.it/ontologies/OWN/OWN.owl
2 15 (0.881) http://www.w3.org/2001/sw/BestPractices/WNET/wnNounsyn v7.owl 3 12 (642.815) http://morpheus.cs.umbc.edu/aks1/ontosem.owl
4 12 (0.860) http://www.cs.umbc.edu/ aks1/ontosem.owl
5 11 (0.735) http://rhizomik.net/ontologies/2005/07/FrameNet 1.1 inferred.owl 6 11 (0.726) http://rhizomik.upf.edu/ontologies/2005/07/FrameNet 1.1.owl 7 11 (0.726) http://rhizomik.net/ontologies/2005/07/FrameNet 1.1.owl
8 10 (0.875) http://athena.ics.forth.gr:9090/RDF/VRP/Examples/DCD100.rdf 9 10 (0.875) http://139.91.183.30:9090/RDF/VRP/Examples/DCD100.rdf 10 9 (1.701) http://www.cyc.com/2004/06/04/cyc
ジーではなかった.図4.2の手順1から3で,TermRankの高いクラスおよびプロパティを 獲得し,それを基に既存オントロジーを獲得したため,最終的に汎用的なオントロジーを 多く獲得してしまったと考えられる.しかしながら,8位および9位にランキングされた オントロジーは,電子商取引に関するオントロジーであり,法律概念(contract,offeree,
party,proposalなど)をいくつか含んでいた.これらの概念は,法律に特化した概念関
係の定義がされていたため,国際売買に関するオントロジー構築に利用可能だと考えら れる.
オントロジー選択モジュールでは,入力語と完全に一致する見出しを含むクラスおよびプ ロパティを獲得し,それを基に既存オントロジーを獲得していた.しかし,8位および9位に ランキングされたオントロジーの内容を確認してみると,HomeAddress,OrderQuantity,
CreditAcceptances,HolidayCalendarなどのクラスが定義されていた.これらは,CISG から専門家が選択した入力語であるaddress,quantity,acceptance,holidayとほぼ 同様の意味としてとらえることができる.よって,入力語とそれに関連するクラスおよび プロパティの獲得方法を工夫することで,より適切な既存オントロジーを獲得できる可能 性があるといえる.例えば,今回の例では,入力語と見出しが部分照合するクラスおよび プロパティを獲得する方法が考えられる.また,入力語の同義語を見出しとして持つクラ スおよびプロパティの獲得も領域に関連する既存オントロジー獲得に有効であるかもしれ ない.
表4.29より,内容は等しいがURLのみが異なる既存オントロジーが多く獲得された.
Swoogleを用いて獲得した既存オントロジーの中から,ユーザが領域に関連するオントロ
ジーを選択する際には,内容の等しい既存オントロジーを一つにまとめて提示できるとよ いと思われる.本実験では,owl:imports プロパティ以外の既存オントロジーにおける OWLメタデータを利用していない.バージョン情報などがあれば,バージョン違いのオ ントロジーを同定することができると考えられる.また,OWLメタデータがない場合に は,URLの類似度やオントロジーに定義されているクラスやプロパティの類似度などか
4.15. オープンソースソフトウェアとしての領域オントロジー構築支援環境 138
図 4.46: DODDLEプロジェクトWebサイト
ら,内容の等しいオントロジーを同定できると考えられる.