JWNL
4.13 ケーススタディ
4.13.1 概要
DODDLE-OWLのスケーラビリティを評価するために,DODDLE-OWLを用いた大規
模オントロジーの構築および評価を行った.
精度の高い検索を実現するために,検索キーワードによる検索ではなく,文書の意味を 考慮した意味検索に関する研究が多数行われている.オントロジーを用いて意味検索を するための研究も行われているが,文書検索に用いるオントロジーは,網羅性が必要とな るため規模が大きくなる.そのため,オントロジー構築コストが高いという問題がある.
本ケーススタディでは,大規模オントロジーの構築コストをDODDLE-OWLが削減でき るかどうかを検証し,構築したオントロジーを文書検索に適用した際に適切に機能するか どうかを検証することにより,DODDLE-OWLのスケーラビリティの評価とする.
図4.42にDODDLE-OWLを初期オントロジー構築に用いた検索システムを示す.検索
システムは,(株)ギャラクシーエクスプレス社(GX社)で開発された社内文書検索シス テムGXFinder [66]を用いる.GXFinderはOWL形式の領域オントロジーを搭載し,オ
4.13. ケーススタディ 130
キーワード 概念階層
(34,451 概念)
GX社社内文書(2,484)
ロケット運用の専門家
専門家が用意した 検索キーワードと 関連文書のセット GXFinder
(GX社検索エンジン)
検索結果
(上位10件 および20件)
正当率,
再現率,
F値で評価
キーワード キーワードキーワード キーワード
検索検索 検索検索
汎化 汎化 汎化 汎化 検索 検索 検索 検索 特殊化 特殊化特殊化 特殊化 検索 検索検索 検索
20件未満 20件以上
図 4.43: 検索実験の方法
ントロジーを用いた検索を行うことができる.オントロジーベースの検索システムでは,
検索結果に対するユーザからのフィードバックを得ることによって,領域オントロジーを 洗練しながら検索に特化した領域オントロジーを構築することが必要となる.しかし,検 索結果に対するユーザからのフィードバックを領域オントロジーに反映させる部分につい ては,DODDLE-OWLの研究の範囲外であるため,本ケーススタディでは扱わないこと とする.
4.13.3項で述べる手順で構築したロケット運用オントロジーをGXFinderに搭載し,検 索実験を行った.図4.43に検索実験の方法を示す.検索はロケット運用に詳しい専門家 が行った.検索コンテクストを仮定せずに検索対象となる文書を専門家が思い浮かべるこ とは困難であるため,領域オントロジーの概念階層を専門家に見てもらいながら検索対 象となる文書(正解文書)を想定してもらった.検索対象となる文書を専門家が選択後,
はじめにキーワード検索を行い,次に検索結果数が多すぎる(20件以上)場合には絞込 検索を,少なすぎる場合(20件未満)には拡大検索を行った.検索結果,上位10件およ び20件について,適合率 (Precision),再現率 (Recall),F値 (F-measure) [67]を用いて 評価を行った.ここで,適合率は,上位10件および20件の検索結果に含まれる,正解文 書の割合を表す.再現率は,正解文書を上位10件および20件の検索結果が網羅する割合 を表す.F値は,適合率と再現率の調和平均であり,両者を総合的に評価するための指標 である.適合率P,再現率R,F値F は,式4.10から式4.12で表される.式4.10から式 4.12では,ある検索キーワードについて,キーワード検索またはオントロジー検索を用い た検索結果,上位10件または20件に含まれる文書集合をD,正解文書集合をSDとして いる14.
14検索結果が10件以下の場合は,検索結果に含まれる全文書集合がDとなる.
4.13. ケーススタディ 131
P := |D∩SD|
|D| (4.10)
R:= |D∩SD|
|SD| (4.11)
F = 2P R
P +R (4.12)
以下では,領域オントロジーを用いた文書検索,DODDLE-OWLを用いたロケット運 用オントロジーの構築,キーワード検索および領域オントロジーを用いた検索の比較実験 について述べる.また,実験の考察について述べる.
4.13.2 オントロジーを用いた文書検索
GXFinderは,DODDLE-OWLにより構築されたOWL形式の領域オントロジーを搭載 し,概念階層を用いた特殊化検索および汎化検索を行うことができる.特殊化検索と汎化 検索の定義は以下のとおりである.
特殊化検索
特殊化検索は,検索結果数が膨大な場合に検索結果数を絞込み,ユーザの目的に合った 文書を見つけやすくする.検索キーワードを見出しとして持つ概念の下位概念について,
それぞれの概念見出しをORで結合し,検索を行う.例えば,「油」をキーワードとして 絞込検索を行うとする.「油」の下位概念には「残油」「既存油」「禁油」「作動油」「防油」
が存在するとする.GXFinderで絞込検索を実行すると,上記のキーワードをORで結合 し,検索を行う.何階層下まで展開するかはユーザが指定することができる.
汎化検索
汎化検索は,検索結果数が少なすぎる場合や検索したいキーワードをユーザが漠然とし か思い浮かばない場合に,関連する文書を多くユーザに提示し,目的に合った文書を見つ けやすくする.汎化検索は,検索キーワードを見出しとして持つ概念の上位概念および兄 弟概念について,それぞれの概念見出しをORで結合し検索を行う.例えば,「油」の上位 概念は,「油脂」であり,兄弟概念には「灯油」,「軽油」などが存在するとする.拡大検索 を行うと上記のキーワードが展開され,検索が実行される.「油」のみで検索する場合に 比べ,油に類似するキーワードを含む文書を検索することができ,目的の文書が見つから ない場合でも,目的と類似する文書を見つけることが可能であると考えられる.特殊化検 索と同様に,何階層上まで展開するかはユーザが指定することが可能である.
4.13. ケーススタディ 132
DODDLE-OWL
(株)ギャラクシー エクスプレス社(GX社)
ロケット運用に関する 日本語文書(2,484)
入力語 選択
入力概念 選択
階層 構築
ユーザ
ロケット運用 オントロジー における概念階層
(34,451 概念)
32,814 語
EDR
(
(
(
( 日本語汎用日本語汎用日本語汎用日本語汎用 オントロジー オントロジー オントロジー オントロジー))))
図 4.44: ロケット運用オントロジー構築手順
表 4.23: ロケット運用オントロジー構築における自動抽出語数,入力語数,完全照合語
数,部分照合語数,未定義語数,全概念数
自動抽出語数 41,806
入力語数 32,814
完全照合語数 4,982 部分照合語数 26,835 未定義語数 997
全概念数 34,451
4.13.3 ロケット運用オントロジーの構築
ロケット運用オントロジーの構築は,DODDLE-OWLを用いて,1人のユーザが約30 時間かけて行った.ユーザは,GX社豊洲分室で作成されたロケット運用に関する2,484 の日本語文書を入力文書としてオントロジーの構築を行った.図4.44にロケット運用オ ントロジー構築手順を示す.
第1に,ユーザは入力文書選択モジュールにより,入力文書から名詞,動詞,複合語を 自動抽出した.第2に,ユーザは入力語選択モジュールにより,自動抽出された用語の中 から不要語の削除および入力語の選択を行った.第3に,ユーザは入力概念選択モジュー ルにより,入力概念の選択を行った.部分照合語数が膨大であったことから,部分照合語 の入力概念選択については,同様の照合概念を持つ部分照合語の入力概念を統一し,個々 の部分照合語についての入力概念選択は行わなかった.同様に,部分照合語については,
照合概念の下位概念とするか,照合概念の別見出しとするかをユーザは選択可能である が,本ケーススタディでは,部分照合語数が膨大なことから,すべて照合した概念の下位 概念として階層構築を行った.
表 4.23に,ロケット運用オントロジー構築における自動抽出語数,入力語数,完全照 合語数,部分照合語数,未定義語数,全概念数を示す.
4.13. ケーススタディ 133
「管制卓」周辺の概念階層
「ターミナルカウントダウンシーケンス」
周辺の概念階層
図 4.45: 「管制卓」および「カウントダウンシーケンス」周辺の概念階層
本来は,概念階層構築後に,階層洗練モジュールを用いて概念階層を領域に特化した構 造に洗練をすべきである.しかし,今回は,概念数が膨大(約34,000概念)であったた めに,洗練手法が示唆する概念変動が生じていると想定される箇所も膨大(約2,000)と なったため,オントロジーの洗練を行っていない.よって,上述のオントロジー構築時間
(約30時間)は,入力語選択時間および入力概念選択時間を表しており,初期概念階層の 洗練時間は含まれていない.
4.12節で述べたDODDLE-OWLと手動構築との比較実験より,数百概念規模のオント ロジー構築経験が何度かあるユーザが,約200概念を含む概念階層を手動構築するのに約 2時間程度の時間がかかる.約34,000概念を含む概念階層構築時間を見積もることは困難 であるが,手動構築により概念階層を構築する場合には少なくとも数百時間はかかると 考えられる.よって,本ケーススタディでは,階層洗練を十分に行うことはできていない
が,約30時間で約34,000概念を含む概念階層を構築することができたということは,非
常に短時間で概念階層を構築できたといえる.