not-is-a 関係判定手法に関する考察 - Vol. 19 No. 4 December 2012 level and replace them to the original cate

図23 上位概念カテゴリによる記事分類前と後の精度比較

図 24 上位概念カテゴリ判定の際の閾値による適合率と再現率の関係

※上位概念カテゴリを適用する前に分類した記事も精度に含む．

※学習データでなく評価データ2,500件による精度である．

比例して適合率が低下している．これは，カテゴリ名と意味属性の異なる記事（ノイズ）が多少含まれていても（20%以下），そのカテゴリの上位概念カテゴリらしさは，全くノイズがないときとあまり変わらないことを示している．

表22 カテゴリ間，カテゴリ‐記事間のis-a関係精度（評価データ2,500件による）

手法カテゴリ間カテゴリ‐記事間

適合率再現率 F値適合率再現率 F値全てをis-a関係とみなす 72.1 100.0 83.8 74.7 100.0 85.5 1. 意味属性分類による判定 91.9 82.5 87.0 94.5 92.7 93.6 2. 固有名詞抽出による判定 78.2 99.4 87.5 82.7 99.1 90.2 3. 文字列照合による判定 79.2 99.4 88.2 75.5 99.9 86.0 全ての手法の組み合わせ 95.7 81.9 88.2 96.6 91.8 94.1

※9種の意味属性以外のis-a関係も含んだ精度．

※意味属性に関係なく，is-a関係が正しければ正解とする．

表23 カテゴリ間，カテゴリ‐記事間のis-a関係判定における，全ての手法を組み合わせたときと，各手法を除いたときの精度比較（評価データ2,500件による）

カテゴリ間

手法適合率

[%]

再現率 [%]

F値 [%]

「除いた手法」から見た

「全ての組み合せ」との差適合率再現率 F値

「1.意味属性による手法」を除く 81.6 99.0 89.5 +14.1 −17.1 −1.3

「2.固有名詞抽出による手法」を除く 93.4 82.1 87.4 +2.3 −0.2 +0.8

「3.文字列照合による手法」を除く 95.2 82.2 88.2 +0.5 −0.3 0 全ての手法の組み合せ 95.7 81.9 88.2 ― ― ―

カテゴリ‐記事間

手法適合率

[%]

再現率 [%]

F値 [%]

「除いた手法」から見た

「全ての組み合せ」との差適合率再現率 F値

「1.意味属性による手法」を除く 82.9 99.0 90.3 +13.7 −7.2 +3.8

「2.固有名詞抽出による手法」を除く 94.7 92.7 93.7 +1.9 −0.9 +0.4

「3.文字列照合による手法」を除く 96.6 91.8 94.1 0 0 0 全ての手法の組み合せ 96.6 91.8 94.1 ― ― ―

※9種の意味属性以外のis-a関係も含んだ精度．

※意味属性に関係なく，is-a関係が正しければ正解とする．

は適合率において貢献度が高い手法である．「2. 固有名詞抽出による手法」を適用した場合は，

手法1ほど適合率は上がらない（+2.3ポイント）が再現率の減少が少なく（−0.2ポイント），

F値が0.8ポイント向上するため，有効な手法といえる．「3. 文字列照合による手法」を適用した場合は，適合率が0.5ポイント上がるが再現率が0.3ポイント下がり，F値には変化がなかった．手法3は精度の変化が小さく，他の2手法と重複しないnot-is-a関係をほとんど判定できないといえる．しかし，再現率より適合率を重視する場合は有効である．

カテゴリ‐記事間における全ての手法を組み合わせた時と，各手法を除いたときの精度比較

を表23の下表に示す．カテゴリ‐記事間で「1. 意味属性分類による手法」を適用した場合は，

カテゴリ間と同程度適合率が向上するが，再現率の減少が7.2ポイントと少ないためF値が向上する²⁸．「2. 固有名詞抽出による手法」を適用した場合は，カテゴリ間と同様で，手法1ほど適合率は上がらない（+1.9ポイント）が再現率の減少が少なく（−0.9ポイント），F値が0.4ポイント向上するため，有効な手法である．「3. 文字列照合による手法」を適用した場合は，2,500 件の評価データにおいて，他の2手法と重複しないnot-is-a関係が1件も存在しなかった．カテゴリ‐記事間において，「3. 文字列照合による手法」のみで判定できるis-a関係は非常に少ないといえる．この結果は，Wikipediaにおいて，普通名詞かつ意味的に近い単語対はもとからあまりリンクしないことを示しているといえる．

各手法のみで抽出できたカテゴリ間，カテゴリ‐記事間のnot-is-a関係のリンクの例を表24

表 24 正しくnot-is-a関係と判定されたカテゴリ間，カテゴリ‐記事間

「1. 意味属性分類によるis-a関係判定手法」のみで判定できたnot-is-a関係正しく判定できたnot-is-a関係備考

核兵器←反核運動親は“具体物”で子は“イベント” 子供←育児親は“人”で子は“組織”

九州鉄道（初代）←筑前宮田駅親は“組織”で子は“施設” フランスの国際関係←NATO 親は“その他”で子は“組織”

教育←学習塾親は“その他”で子は“施設” 社会←人間の移動両者とも“その他”

人の一生←結婚両者とも“その他” 医療←縫合不全両者とも“その他”

輸送←郵便両者とも“その他”

製造←仕様両者とも“その他”

「2. 固有名詞抽出によるis-a関係判定手法」のみで判定できたnot-is-a関係正しく判定できたnot-is-a関係備考

ファイナルファンタジー←キングダムハーツ親は子の関連作品

週刊ヤングマガジン←頭文字D 子は親の雑誌に掲載されている漫画フジサンケイグループ←フジテレビ子は親のグループ会社

日本海←福井県の島日本海に島がある

十勝支庁←浦幌町 part-of関係にある

「3. 文字列照合によるis-a関係判定手法」のみで判定できたnot-is-a関係正しく判定できたnot-is-a関係備考テイルズシリーズ←テイルズシリーズの音楽子は親の作品中の音楽

金←金貨親は子の原料

航空機←航空機の構成要素親は子の一部

28再現率の減少が少ない理由は結果5.3節で述べた．

に示す．表24で示すように，手法1では様々な種類の単語対をnot-is-a関係とみなせているため，最も適合率に貢献できている．しかし手法1では，意味的に近い単語対がnot-is-a関係になる場合は判定できないため，手法2，3が必要となってくる．手法2では，地名，創作物名，

組織名など固有名詞のカテゴリ名が多い意味属性で貢献度が高かった．特に多かったのは，県名←市名のようなpart-of関係，雑誌名と掲載漫画名の関係，企業名とその関連企業名の関係である．手法3のみで判定できるnot-is-a関係は少ないが，普通名詞で意味的に近い単語対の

not-is-a関係の判定の際に有効である．

一方，本手法によるnot-is-a関係の判定誤りを見たところ，誤りの主な原因は以下の3種類であった．

1. 意味属性分類を誤った場合 2. 固有名詞抽出を誤った場合

3. 3種類のis-a関係判定手法の精度が100%でも判定できないis-a関係の場合

各誤り原因による，適合率を下げる誤り例と再現率を下げる誤り例を表25，表26に示す．本手法では，「日本の内閣総理大臣（人）←内閣総理大臣夫人（人）」のように，親名が普通名詞で親子が意味的に近く，is-a関係判定手法「3. 文字列照合による手法」が適用できなかった場合に，not-is-a関係をis-a関係としてしまう（表25の3つ目の表）．また，「チュニジアの世界遺産（具体物）←イシュケル湖（地形）」のように，親子の意味属性が違うis-a関係をnot-is-a関係としてしまう（表26の3つめの表）．しかし我々は後者の誤りは問題ないと考える．なぜなら，もし「チュニジアの世界遺産（具体物）←イシュケル湖（地形）」をis-a関係とみなしてしてしまった場合，「イシュケル湖」を上位に辿ったときに最上位カテゴリ“具体物”につながってしまうからである．オントロジーにおけるis-a関係は，先祖‐子孫でも成り立たなければならないので，ここでは両者をnot-is-a関係と判定してしまったほうが結果として適切となる．

7 関連研究

ドキュメント内 Vol. 19 No. 4 December 2012 level and replace them to the original category, and (2) cut not-is-a links between categories and category-to-articles. E (ページ 41-44)