評価結果

第 4 章固有表現辞書の自動構築 25

4.3 多義性の問題の影響度調査

4.3.3 評価結果

精度の測定では，まず，各手法でクラスごとに推定を行い，各表記の所属スコアを求める．次に，クラスごとに所属スコアの降順でソートを行い，スコアの上位から各表記のいずれかの語義が対象とするクラスに属する場合に正解，いずれの語義も属さない場合に不正解として，再現率と適合率を求める．最後に，再現率が0.1刻みになるように補完を行い，全クラスについて同一の再現率となる適合率の平均を求め，更に，0.0〜1.0の11点の平均を求める（11点平均補完適合率[32]）．

§http://sites.google.com/site/extendednamedentityhierarchy/top%E4%BB%A5%E4%B8%8B%E3%81

%AE%E9%9A%8E%E5%B1%A4%E3%81%AE%E5%85%A8%E3%83%AA%E3%82%B9%E3%83%88

¶CD–毎日新聞データ集1995年版を使用．

∥この制約によって教師データと検証データに同じ表記が混入しないようにしている．

第4章固有表現辞書の自動構築

表4.2学習手法を変更したときの11点平均補完適合率の比較（全表記集合）

語義特徴量法表記特徴量法

(a-NI) (a-NN) (b-NI)全語義 (b-NN)全語義 (c)最大頻度 (d)多義語なし

E1 53.83 55.88 53.56 55.46 52.37 49.92

E2 54.95 56.76 54.53 56.61 53.44 51.87

E3 56.34 58.44 55.72 57.68 54.88 52.42

平均 55.04 57.03 54.60 56.58 53.56 51.40

表4.3 学習手法を変更したときの11点平均補完適合率の比較（多義語を除く）

語義特徴量法表記特徴量法

(a-NI) (a-NN) (b-NI)全語義 (b-NN)全語義 (c)最大頻度 (d)多義語なし

E1 54.91 54.27 54.40 53.62 53.96 54.09

E2 55.18 54.54 54.70 53.73 54.24 55.05

E3 57.37 56.85 56.55 55.35 56.30 56.46

平均 55.82 55.22 55.22 54.23 54.83 55.20

問題(1)の検証結果として，表 4.2，表 4.3に，4.3.2節で述べた6つの学習手法について，検証データとして全表記集合を用いた場合と，多義語を除く表記集合を用いた場合の11点平均補完適合率を，それぞれ示す．まず，語義特徴量法と表記特徴量法とを比べた場合^∗∗，いずれの場合でも，語義特徴量法が表記特徴量法の精度を若干上回ったが，その差は，0.44〜0.99パーセントポイントと小さかった．この理由は，多義語は全体に対して平均で約18%とそれほど多くなく，一部の多義語によって，他のクラスの特徴量が含まれたとしても，そのクラスに属する別の表記が多数あるため，これらのふさわしくない特徴量は学習時に支配的にはならかったためと考えている．例えば，前述した例では，‘love letter’の‘映画名’に関する特徴量である‘上映’は，‘音楽名’では支配的にはならなかった．

次に，表記特徴量法における教師データの与え方による精度を比較する．表 4.2の多義語を含む全表記集合を用いた場合の精度は，

(b-NN)>(b-NI)>(c)>(d)

となったのに対して，表4.3の多義語を除く検証データを用いた場合は，

(b-NI)≃(d)>(c)>(b-NN)

と大きく異なる結果となった．ここで，(b-NI)では，多義語は正負の両事例に含まれるため，多義語のもつ特徴量の影響は相殺される．このように，推定対象が多義語ではない場合，問題(1)の多義語の影響がより起こりにくい(b-NI)が(d)と同様に精度が高かった．一方，検証データに多義語を含む場合，逆に，多義語の特徴量の影響がより残りやすい手法の順で，精度が高かった．この傾向は，語義特徴量法での比較(全表記集合：(a-NI)<(a-NN)，

∗∗表4.2，表4.3における，それぞれ(a-NI)と(b-NI)，(a-NN)と(b-NN)の比較．

4.3 多義性の問題の影響度調査

表4.4 推定手法を変更したときの11点平均補完適合率の比較

全表記集合多義語だけ

(l)語義特徴量法 (m)表記特徴量法 (n)語義特徴量法 (o)表記特徴量法

E1 57.03 55.46 66.90 57.29

E2 57.62 56.61 65.72 57.47

E3 59.29 57.68 67.06 55.37

平均 57.98 56.58 66.56 56.71

多義語を除く表記集合(a-NI)>(a-NN)）でも同様の傾向が得られた．この理由は，今回の評価セットでは，教師データと検証データで，多義語がもつクラスの分布が似ているものが多かったためである．例えば，推定対象が‘Flora’と‘Food Other’ をもつ多義語（‘ブルーベリー’など）の場合，教師データにも全く同じ，‘Flora’と‘Food Other’の両方をもつ多義語（‘リンゴ’など）が多数あった．‘Flora’が推定対象クラスの場合，(b-NN)では

‘Food Other’をもつ不正解事例（‘アイスクリーム’など）を誤判定する可能性があるが，

‘ブルーベリー’を正解とできる．一方，(b-NI)では，‘アイスクリーム’の誤判定を防げるが，‘ブルーベリー’を不正解と判定する可能性がある．このように，教師データと検証データが，同じようなクラス分布をもつ場合には，学習時に多義語の影響を抑える効果は更に小さかった．

このように，今回想定したクラス判定タスクにおいては，問題(1)の影響は大きくないため，タグ付きコーパスを用いて完全に語義を分けて学習を行う必要はなく，タグなしコーパスでも同等の精度の学習が行える．また，教師データを与える際には，多義語を除く必要はなく，多義語を含めて表記とその表記が所属しうるクラスをなるべく多く指定し，また，多義語の場合は，同じ表記を負事例に含めないで学習することが，精度向上につながる．以下の実験では全て，表記特徴量法で最も精度の高かった(b-NN)（全語義，負事例に含めない）を利用する．

問題(2)に対する検証結果として，表4.4に，推定処理として，全表記集合を対象とした場合と，多義語だけを対象とした場合の表記特徴量法，語義特徴量法の各検証セットにおける11点平均補完適合率を示す．表4.4を見ると，全表記集合を対象とした場合の(m) 表記特徴量法の(l)語義特徴量法に対する精度の低下は約1.4パーセントポイントとわずかであるが，対象を多義語だけに限定した場合の(o)の(n)に対する精度の低下は，約9.85 パーセントポイントとかなり大きいことが分かる．表 4.4から3つの評価セットで全て同様の傾向が表れている．4.4節で詳しく述べるが，表記特徴量法では，多義のある表記が頻度の高い語義と頻度の低い語義をもつ場合に，頻度の低い語義を正しく判定できないという問題があり精度が低下していた．

以上に述べたように，問題(1)については，学習器の汎化能力によって多義語のもつ特徴量の影響は軽減されるが，多義語が推定対象の場合は，問題(2)のために，精度の低下が大きい．そのため，語義特徴量法（推定処理）のように，推定時に対象となるクラス以外の文脈情報を除外して扱うことが重要であるといえる．

第4章固有表現辞書の自動構築

ドキュメント内情報集約データベースに関する研究 (ページ 47-50)

第 4 章 固有表現辞書の自動構築 25

4.3 多義性の問題の影響度調査

4.3.3 評価結果

第 4 章固有表現辞書の自動構築 25