• 検索結果がありません。

23 上位概念カテゴリによる記事分類前と後 の精度比較

24 上位概念カテゴリ判定の際の閾値による 適合率と再現率の関係

※上位概念カテゴリを適用する前に分類した記事も精 度に含む.

※学習データでなく評価データ2,500件による精度で ある.

比例して適合率が低下している.これは,カテゴリ名と意味属性の異なる記事(ノイズ)が多 少含まれていても(20%以下),そのカテゴリの上位概念カテゴリらしさは,全くノイズがない ときとあまり変わらないことを示している.

22 カテゴリ間,カテゴリ‐記事間のis-a関係精度(評価データ2,500件による)

手法 カテゴリ間 カテゴリ‐記事間

適合率 再現率 F値 適合率 再現率 F値 全てをis-a関係とみなす 72.1 100.0 83.8 74.7 100.0 85.5 1. 意味属性分類による判定 91.9 82.5 87.0 94.5 92.7 93.6 2. 固有名詞抽出による判定 78.2 99.4 87.5 82.7 99.1 90.2 3. 文字列照合による判定 79.2 99.4 88.2 75.5 99.9 86.0 全ての手法の組み合わせ 95.7 81.9 88.2 96.6 91.8 94.1

9種の意味属性以外のis-a関係も含んだ精度.

※意味属性に関係なく,is-a関係が正しければ正解とする.

23 カテゴリ間,カテゴリ‐記事間のis-a関係判定における,全ての手法を組み合わせたときと,各 手法を除いたときの精度比較(評価データ2,500件による)

カテゴリ間

手法 適合率

[%]

再現率 [%]

F値 [%]

「除いた手法」から見た

「全ての組み合せ」との差 適合率 再現率 F値

「1.意味属性による手法」を除く 81.6 99.0 89.5 +14.1 −17.1 −1.3

「2.固有名詞抽出による手法」を除く 93.4 82.1 87.4 +2.3 −0.2 +0.8

「3.文字列照合による手法」を除く 95.2 82.2 88.2 +0.5 0.3 0 全ての手法の組み合せ 95.7 81.9 88.2 ― ― ―

カテゴリ‐記事間

手法 適合率

[%]

再現率 [%]

F値 [%]

「除いた手法」から見た

「全ての組み合せ」との差 適合率 再現率 F値

「1.意味属性による手法」を除く 82.9 99.0 90.3 +13.7 −7.2 +3.8

「2.固有名詞抽出による手法」を除く 94.7 92.7 93.7 +1.9 0.9 +0.4

「3.文字列照合による手法」を除く 96.6 91.8 94.1 0 0 0 全ての手法の組み合せ 96.6 91.8 94.1 ― ― ―

9種の意味属性以外のis-a関係も含んだ精度.

※意味属性に関係なく,is-a関係が正しければ正解とする.

は適合率において貢献度が高い手法である.「2. 固有名詞抽出による手法」を適用した場合は,

手法1ほど適合率は上がらない(+2.3ポイント)が再現率の減少が少なく(0.2ポイント),

F値が0.8ポイント向上するため,有効な手法といえる.「3. 文字列照合による手法」を適用し た場合は,適合率が0.5ポイント上がるが再現率が0.3ポイント下がり,F値には変化がなかっ た.手法3は精度の変化が小さく,他の2手法と重複しないnot-is-a関係をほとんど判定でき ないといえる.しかし,再現率より適合率を重視する場合は有効である.

カテゴリ‐記事間における全ての手法を組み合わせた時と,各手法を除いたときの精度比較

を表23の下表に示す.カテゴリ‐記事間で「1. 意味属性分類による手法」を適用した場合は,

カテゴリ間と同程度適合率が向上するが,再現率の減少が7.2ポイントと少ないためF値が向上 する28.「2. 固有名詞抽出による手法」を適用した場合は,カテゴリ間と同様で,手法1ほど適 合率は上がらない(+1.9ポイント)が再現率の減少が少なく(0.9ポイント),F値が0.4ポイ ント向上するため,有効な手法である.「3. 文字列照合による手法」を適用した場合は,2,500 件の評価データにおいて,他の2手法と重複しないnot-is-a関係が1件も存在しなかった.カ テゴリ‐記事間において,「3. 文字列照合による手法」のみで判定できるis-a関係は非常に少 ないといえる.この結果は,Wikipediaにおいて,普通名詞かつ意味的に近い単語対はもとか らあまりリンクしないことを示しているといえる.

各手法のみで抽出できたカテゴリ間,カテゴリ‐記事間のnot-is-a関係のリンクの例を表24

24 正しくnot-is-a関係と判定されたカテゴリ間,カテゴリ‐記事間

「1. 意味属性分類によるis-a関係判定手法」のみで判定できたnot-is-a関係 正しく判定できたnot-is-a関係 備考

核兵器←反核運動 親は“具体物”で子は“イベント” 子供←育児 親は“人”で子は“組織”

九州鉄道(初代)←筑前宮田駅 親は“組織”で子は“施設” フランスの国際関係←NATO 親は“その他”で子は“組織”

教育←学習塾 親は“その他”で子は“施設” 社会←人間の移動 両者とも“その他”

人の一生←結婚 両者とも“その他” 医療←縫合不全 両者とも“その他”

輸送←郵便 両者とも“その他”

製造←仕様 両者とも“その他”

「2. 固有名詞抽出によるis-a関係判定手法」のみで判定できたnot-is-a関係 正しく判定できたnot-is-a関係 備考

ファイナルファンタジー←キングダムハーツ 親は子の関連作品

週刊ヤングマガジン←頭文字D 子は親の雑誌に掲載されている漫画 フジサンケイグループ←フジテレビ 子は親のグループ会社

日本海←福井県の島 日本海に島がある

十勝支庁←浦幌町 part-of関係にある

「3. 文字列照合によるis-a関係判定手法」のみで判定できたnot-is-a関係 正しく判定できたnot-is-a関係 備考 テイルズシリーズ←テイルズシリーズの音楽 子は親の作品中の音楽

金←金貨 親は子の原料

航空機←航空機の構成要素 親は子の一部

28再現率の減少が少ない理由は結果5.3節で述べた.

に示す.表24で示すように,手法1では様々な種類の単語対をnot-is-a関係とみなせているた め,最も適合率に貢献できている.しかし手法1では,意味的に近い単語対がnot-is-a関係に なる場合は判定できないため,手法2,3が必要となってくる.手法2では,地名,創作物名,

組織名など固有名詞のカテゴリ名が多い意味属性で貢献度が高かった.特に多かったのは,県 名←市名のようなpart-of関係,雑誌名と掲載漫画名の関係,企業名とその関連企業名の関係 である.手法3のみで判定できるnot-is-a関係は少ないが,普通名詞で意味的に近い単語対の

not-is-a関係の判定の際に有効である.

一方,本手法によるnot-is-a関係の判定誤りを見たところ,誤りの主な原因は以下の3種類 であった.

1. 意味属性分類を誤った場合 2. 固有名詞抽出を誤った場合

3. 3種類のis-a関係判定手法の精度が100%でも判定できないis-a関係の場合

各誤り原因による,適合率を下げる誤り例と再現率を下げる誤り例を表25,表26に示す.本手 法では,「日本の内閣総理大臣(人)←内閣総理大臣夫人(人)」のように,親名が普通名詞で 親子が意味的に近く,is-a関係判定手法「3. 文字列照合による手法」が適用できなかった場合 に,not-is-a関係をis-a関係としてしまう(表25の3つ目の表).また,「チュニジアの世界遺 産(具体物)←イシュケル湖(地形)」のように,親子の意味属性が違うis-a関係をnot-is-a関 係としてしまう(表26の3つめの表).しかし我々は後者の誤りは問題ないと考える.なぜな ら,もし「チュニジアの世界遺産(具体物)←イシュケル湖(地形)」をis-a関係とみなしてし てしまった場合,「イシュケル湖」を上位に辿ったときに最上位カテゴリ“具体物”につながっ てしまうからである.オントロジーにおけるis-a関係は,先祖‐子孫でも成り立たなければな らないので,ここでは両者をnot-is-a関係と判定してしまったほうが結果として適切となる.

7 関連研究