• 検索結果がありません。

に示す.表24で示すように,手法1では様々な種類の単語対をnot-is-a関係とみなせているた め,最も適合率に貢献できている.しかし手法1では,意味的に近い単語対がnot-is-a関係に なる場合は判定できないため,手法2,3が必要となってくる.手法2では,地名,創作物名,

組織名など固有名詞のカテゴリ名が多い意味属性で貢献度が高かった.特に多かったのは,県 名←市名のようなpart-of関係,雑誌名と掲載漫画名の関係,企業名とその関連企業名の関係 である.手法3のみで判定できるnot-is-a関係は少ないが,普通名詞で意味的に近い単語対の

not-is-a関係の判定の際に有効である.

一方,本手法によるnot-is-a関係の判定誤りを見たところ,誤りの主な原因は以下の3種類 であった.

1. 意味属性分類を誤った場合 2. 固有名詞抽出を誤った場合

3. 3種類のis-a関係判定手法の精度が100%でも判定できないis-a関係の場合

各誤り原因による,適合率を下げる誤り例と再現率を下げる誤り例を表25,表26に示す.本手 法では,「日本の内閣総理大臣(人)←内閣総理大臣夫人(人)」のように,親名が普通名詞で 親子が意味的に近く,is-a関係判定手法「3. 文字列照合による手法」が適用できなかった場合 に,not-is-a関係をis-a関係としてしまう(表25の3つ目の表).また,「チュニジアの世界遺 産(具体物)←イシュケル湖(地形)」のように,親子の意味属性が違うis-a関係をnot-is-a関 係としてしまう(表26の3つめの表).しかし我々は後者の誤りは問題ないと考える.なぜな ら,もし「チュニジアの世界遺産(具体物)←イシュケル湖(地形)」をis-a関係とみなしてし てしまった場合,「イシュケル湖」を上位に辿ったときに最上位カテゴリ“具体物”につながっ てしまうからである.オントロジーにおけるis-a関係は,先祖‐子孫でも成り立たなければな らないので,ここでは両者をnot-is-a関係と判定してしまったほうが結果として適切となる.

7 関連研究

25 is-a関係判定における,適合率を下げる誤りの例 意味属性分類誤りによる適合率を下げる誤り not-is-a関係なのにis-a関係と判定してし

まったもの 備考

ゲーム音楽←I’ve 両者とも“創作物”に分類されたが子は“組織”である サミット←G8加盟国 両者とも“組織”に分類されたが親は“イベント”である 船舶←ウォータースポーツ 両者とも“具体物”に分類されたが子は“その他”である 日本の鉄道事業者←万葉線     両者とも“組織”に分類されたが子は“施設”である

固有名詞抽出誤りによる適合率を下げる誤り not-is-a関係なのにis-a関係と判定してし

まったもの 備考

ポンキッキーズ←きかんしゃトーマス 親の番組内で子のアニメが放送される 京王グループ←京王バス東 子は親のグループ会社である

筑豊地方←直鞍地区 part-of関係である ユニバーサルミュージック←デッカ・レコード  親は子の関連会社である マセキ芸能社←Πr 親の組織の中に子の組織がある モーニング←ナニワ金融道 親の雑誌内で子の漫画を連載している

3種類のis-a関係判定手法の精度が100%でも判定できない適合率を下げる誤り not-is-a関係なのにis-a関係と判定してし

まったもの 備考

日本の内閣総理大臣←内閣総理大臣夫人 夫人は大臣ではない

アメリカ合衆国の空港←クラスCの空港 クラスCの空港の全てがアメリカの空港ではない

太陽系←彗星 太陽系の中に彗星がある

宇喜多氏←戸川氏 親族関係である

血液←血球 血球は血液の成分である

人体←体 体が全て人体とは限らない

兵庫県の祭り←麒麟獅子 麒麟獅子は祭中のイベントである

が低い.一方提案手法では,意味属性分類や固有名詞抽出などを用いてnot-is-a関係を判定す ることにより,文字列照合では抽出できないis-a関係を抽出できた.

次に隅田らの研究(隅田 他2009)及びその成果が利用されている鳥式改(鳥澤,隅田,野口,

柿澤,風間,De Saeger,村田,山田,塚脇,太田2009)と比較を行う.隅田らは,Wikipedia の記事中の箇条書き構造を利用してis-a関係の単語対を獲得する研究を行った.彼らは初めに,

節見出しとその下位の節見出し,節見出しとその下位の箇条書きをis-a関係の単語対の候補と し,SVMによる分類器でフィルタリングを行ってis-a 関係の単語対を獲得している.これを 2007年3月の日本語Wikipediaに適用した結果,135万対の上位下位語対を精度90%で獲得で きたとしている.これに対し本手法では,(隅田らが抽出対象としたWikipediaの記事構造では

26 is-a関係判定における,再現率を下げる誤りの例 意味属性分類誤りによる再現率を下げる誤り is-a関係なのにnot-is-a関係と判定してし

まったもの 備考

スポーツ施設←プロレスラー養成所 両者とも“組織”だが子が未分類 おたく←竹熊健太郎 両者とも“人”だが親が未分類

銀行家←畔柳信雄 両者とも“人”だが親が“組織”に分類された 原子炉←マグノックス炉 両者とも“施設”だが子が“その他”に分類された 症候←攣縮 両者とも“イベント”だが親も子も未分類

固有名詞抽出誤りによる再現率を下げる誤り is-a関係なのにnot-is-a関係と判定してし

まったもの 備考

夏季オリンピック←パリオリンピック(1924年)

自衛艦←海上自衛隊の掃海艇

普通名詞を固有名詞と判定してしまったことによ る.固有名詞抽出誤りの原因は結果5.2節を参照 メタルヒーローシリーズ←ビーファイターカブト

過去のジャニーズ所属者←森雄介 独立行政法人←土木研究所

3種類のis-a関係判定手法の精度が100%でも判定できない再現率を下げる誤り is-a関係なのにnot-is-a関係と判定してし

まったもの 備考

チュニジアの世界遺産←イシュケル湖 親は“具体物”で子は“地名”だがis-a関係が成り立つ 名勝←豪渓 親は“地名”で子は“地形”だがis-a関係が成り立つ 日本の国宝(工芸品)←禅林寺(京都市) 親は“具体物”で子は“施設”だがis-a関係が成り立つ 沖縄県営鉄道←沖縄県営鉄道糸満線 親が固有名詞だが,子とis-a関係である

ソウルメトロ←首都圏電鉄2号線 親が固有名詞だが,子とis-a関係である

中国の地理←中華人民共和国の観光地 親は“地形”で子は“地名”だがis-a関係が成り立つ

なく)Wikipediaのカテゴリ階層から抽出を行い,カテゴリ間においては95.3%の精度(再現率

96.6%)で3.4万件,カテゴリ‐記事で精度96.2%(再現率95.6%)で42万件をオントロジー化

することに成功した.両手法は抽出対象が異なるため直接の比較はできないが,隅田らが論文 で報告している29ように隅田らの手法で精度,再現率を共に95%以上にするのは不可能であり,

Wikipediaからの上位下位関係抽出性能としては我々の提案手法に優位性がある.

さらに,隅田らの手法で獲得した上位下位関係は局所的であり,これを階層化することでオ ントロジー化する(もしくは既存のオントロジーに連結する)ためには多くの手作業によるク リーニングを要する(黒田,李,野澤,村田,鳥澤 2009)だけでなく,場合によって上位下位関

29隅田らの論文の図5より,精度を90%以上にすると再現率は65%以下になる.また再現率を90%以上にした場合

の精度は70%以下になる.

係を詳細化する30必要がある(山田,橋本,呉,鳥澤,黒田,De Saeger,土田,風間2012).一 方,本手法では最初から階層化されたオントロジー構築を目指し,そのための手法を高精度で 実現する手法を提案した.以上の比較から,本提案手法は隅田らの手法に対して一定の有用性 を持つと考える.