• 検索結果がありません。

6.2.1 カテゴリ分類器の素性について

本手法ではカテゴリ分類の際,Wikipediaから抽出できる5種類の単語(対象カテゴリ名,親 カテゴリ名,子カテゴリ名,カテゴリ中の記事の定義文からとれる上位語,カテゴリと末尾の

17 小林ら(2008)の手法と本手法により抽出できるカテゴリ‐記事間のis-a関係の例 桜井らの手法のみで抽出できたis-a関係 提案手法のみで抽出できたis-a関係 古典力学←ニュートン力学 アウトレットモール←コスタモール二色の浜 シンボル←紋章 アカデミー賞受賞者←クリストファー・クロス フランスの言語←バスク語 イースシリーズ←イースIV

圧力の単位←パスカル イタリアの鉄道事業者←Met. Ro.

拡張機能(Mozilla)←Firebug イネ科←スズメノテッポウ

工学←都市工学 オフレールステーション←会津若松駅

死語←フルリ語 カッコウ目Sibley分類←カッコウ小目(Sibley) 自転車競技←トライアスロン カナダのヘヴィメタル・バンド←ラッシュ(バンド)

賞←朝日森林文化賞 ゲームクリエイター←岸本好弘 条約←ラパッロ条約(1922年) ニコモ←小野明日香

整数←10 ハンガリア群←スメタナ(小惑星)

祖語←インド・ヨーロッパ祖語 ベーシスト←ボブ・デイズリー 速度←相対速度 菓子の商品名←激辛マニア(菓子)

中国の私年号←光明(蔡牽) 携帯電話アプリ←EZ助手席ナビ

18 カテゴリ分類における,素性に用いる5種類の単語を組み合わせたときと,各単語を除いたとき の精度比較(評価データ2,500件の5分割交差検定による)

素性 適合率

[%]

再現率 [%]

F値 [%]

「各単語を除いた素性」から見た

「全単語の組み合せ素性」との差 適合率 再現率 F値

「a.対象カテゴリ名」を除く 97.2 93.7 95.4 +1.1 +1.7 +1.4

「b.親カテゴリ名」を除く 96.5 93.0 94.7 +1.8 +2.4 +2.1

「c. 子カテゴリ名」を除く 98.0 95.2 96.6 +0.3 +0.2 +0.2

「d.全記事の上位語」を除く 97.7 94.8 96.3 +0.6 +0.6 +0.5

「e. 末尾一致記事の上位語」を除く 97.8 94.8 96.3 +0.5 +0.6 +0.5 全ての素性の組み合せ 98.3 95.4 96.8 ― ― ―

形態素が一致する記事の定義文からとれる上位語)を素性に用いている.各単語が分類器の精 度にどの程度影響を与えるかを比較するため,各単語を用いなかった場合と全ての単語を用い た場合のSVM分類器の精度(再分類を適用前)を表18に示す.表18より,全ての単語を用 いたほうが各単語を除いた場合より精度が高いことから,各単語はSVM分類器の素性におい て有効であるといえる.その中でも特に親カテゴリを除いたときに精度が最も下がることから,

親カテゴリが最も精度向上に貢献していることがわかる.

6.2.2 カテゴリ分類において再分類法を用いる効果

本手法でのカテゴリ分類では,再分類法により再現率の向上を図った.再分類前と後の精度 の違いを表19に,再分類試行回数ごとの精度と未抽出カテゴリ数の変化を図21に示す.表19,

19 カテゴリ分類における,再分類法を適用する前と後の精度比較 適合率[%] 再現率[%] F値[%] 全体の分類数※1 再分類前 98.3 (2058/2094) 95.4 (2058/2157) 96.8 38,262 再分類後※2 98.0 (2116/2159) 98.1 (2116/2157) 98.1 40,189 差分 0.3 +2.7 +1.2 +1,927

1全体の分類数とは,9種類の意味属性+その他のカテゴリ名の10個の分類器のいずれかへ分類されたカテゴリ数 を指す.

2分類数が飽和するまで再分類の試行を繰り返したときの数値である.本実験での試行回数は6回である.

21 カテゴリ分類における再分類回数ごとの 精度と未抽出カテゴリ数の変化

22 カテゴリ分類における再分類法適用前と 適用後の精度比較

図21より,適合率をあまり下げることなく(0.3ポイント),再現率を大幅に向上させること ができ(+2.7ポイント),再分類法が有効であることが示された.最初の分類器の学習データは あらかじめ人手で正解を付与した適合率100%の2,000件のデータであるが,次のステップ(1 回目の再分類)では学習データは38,262件(適合率98.3%)となる.学習データの適合率が1.7 ポイント低下しているが,学習データ量は約19倍になっている.結果として,未分類のカテゴ リを分類可能となり,再現率が大幅に向上しF値が向上した.

再分類前と後での,意味属性別と全体の精度の変化を表したグラフを図22に示す.図22よ り,全ての意味属性で,適合率をほとんど下げることなく,再現率を大幅に向上できていること が示された.特にイベント名での再現率は約10ポイントも向上している.イベント名は,表1 でも示したように分類する単語の種類が多様なため,学習データを増やしていく再分類法が有 効に働いたと考えられる.

6.2.3 記事分類器の素性について

本手法での記事分類では,カテゴリを機械学習による分類器で分類した後に,そのカテゴリ がどの意味属性に分類されたかの情報を用いる素性を利用している.そこで,カテゴリが分類 された意味属性の情報を用いる場合と用いない場合での分類記事数の比較(上位概念カテゴリ 適用前)を表20に示す.表21より,カテゴリの分類結果に依存する素性を用いると,用いな

20 カテゴリの分類結果に依存する記事分類の素性の効果 カテゴリ分類結果に

依存する素性の有無 適合率[%] 再現率[%] F値[%] 全体の分類数

無 95.8 (2022/2111) 89.5 (2022/2260) 92.5 409,354

有 96.8 (2082/2151) 92.1 (2082/2260) 94.4 415,514

差分 +1.0 +2.6 +1.9 6,160

21 上位概念カテゴリによる記事分類前と後の精度と分類数

適合率[%] 再現率[%] F値[%] 全体の分類数 上位概念カテゴリ適用前 96.8 (2082/2151) 92.1 (2082/2260) 94.4 415,514  上位概念カテゴリ適用後 96.5 (2111/2187) 93.4 (2111/2260) 94.9 421,873 

差分 −0.3 +1.3 +0.5 +6359 

い場合と比べて適合率は1.0ポイント,再現率は2.6ポイント向上した.カテゴリの分類結果を 用いることで,より精度高く記事を分類できたことがわかる.

6.2.4 記事分類において上位概念カテゴリを用いる効果

本手法での記事分類では,記事を機械学習による分類器で分類した後に,「上位概念カテゴリ」

を用いることで未分類の記事を分類する手法を提案した.上位概念カテゴリ適用前と後の精度 と分類記事数の比較を表21に示す.表21より,上位概念カテゴリを適用させると適合率は0.3 ポイント下がるが再現率は1.3ポイント向上し,F値が0.5ポイント向上した.これにより新た

に6,359件の記事を分類することができた.図23に意味属性別と全体の精度を比較したグラフ

を示す.特に“組織”,“具体物”,“創作物”,“イベント”で再現率が向上している.特に“イベ ント”は適合率を下げることなく再現率が8.7ポイント向上した.“イベント”は多様な単語が 分類されるため機械学習による分類器での分類が難しいが,上位概念カテゴリを用いることで 多くの記事を分類できた.

本手法では既に決定したカテゴリの意味属性と記事の意味属性が一致する割合を求め,この割 合があらかじめ決めた閾値以上であれば,そのカテゴリを上位概念カテゴリとした.閾値100%で 上位概念カテゴリとした場合は,適合率96.6%,再現率93.0%となり,適用する前より適合率 が0.2ポイント下がり再現率が0.9ポイント上がった.一方,閾値0%で上位概念カテゴリとし た場合は,適合率95.0%,再現率94.4%となり,適用する前より適合率が1.8ポイント下がり再 現率が2.3ポイント上がった.なお閾値0%では,意味属性が付与されているカテゴリの全ての 記事が,カテゴリと同じ意味属性に分類された状態である.評価データ2,500件において,閾 値を変化させたときの適合率と再現率の関係を図24に示す.図24をみると,再現率が93%〜

93.5%(閾値100%〜80%)の間は適合率がほぼ変わらず,再現率が93.5%を超えると再現率に

23 上位概念カテゴリによる記事分類前と後 の精度比較

24 上位概念カテゴリ判定の際の閾値による 適合率と再現率の関係

※上位概念カテゴリを適用する前に分類した記事も精 度に含む.

※学習データでなく評価データ2,500件による精度で ある.

比例して適合率が低下している.これは,カテゴリ名と意味属性の異なる記事(ノイズ)が多 少含まれていても(20%以下),そのカテゴリの上位概念カテゴリらしさは,全くノイズがない ときとあまり変わらないことを示している.