第 4 章 固有表現辞書の自動構築 25
4.3 多義性の問題の影響度調査
4.3.3 評価結果
精度の測定では,まず,各手法でクラスごとに推定を行い,各表記の所属スコアを求め る.次に,クラスごとに所属スコアの降順でソートを行い,スコアの上位から各表記のい ずれかの語義が対象とするクラスに属する場合に正解,いずれの語義も属さない場合に不 正解として,再現率と適合率を求める.最後に,再現率が0.1刻みになるように補完を行 い,全クラスについて同一の再現率となる適合率の平均を求め,更に,0.0〜1.0の11点 の平均を求める(11点平均補完適合率[32]).
§http://sites.google.com/site/extendednamedentityhierarchy/top%E4%BB%A5%E4%B8%8B%E3%81
%AE%E9%9A%8E%E5%B1%A4%E3%81%AE%E5%85%A8%E3%83%AA%E3%82%B9%E3%83%88
¶CD–毎日新聞データ集1995年版を使用.
∥この制約によって教師データと検証データに同じ表記が混入しないようにしている.
第4章 固有表現辞書の自動構築
表4.2学習手法を変更したときの11点平均補完適合率の比較(全表記集合)
語義特徴量法 表記特徴量法
(a-NI) (a-NN) (b-NI)全語義 (b-NN)全語義 (c)最大頻度 (d)多義語なし
E1 53.83 55.88 53.56 55.46 52.37 49.92
E2 54.95 56.76 54.53 56.61 53.44 51.87
E3 56.34 58.44 55.72 57.68 54.88 52.42
平均 55.04 57.03 54.60 56.58 53.56 51.40
表4.3 学習手法を変更したときの11点平均補完適合率の比較(多義語を除く)
語義特徴量法 表記特徴量法
(a-NI) (a-NN) (b-NI)全語義 (b-NN)全語義 (c)最大頻度 (d)多義語なし
E1 54.91 54.27 54.40 53.62 53.96 54.09
E2 55.18 54.54 54.70 53.73 54.24 55.05
E3 57.37 56.85 56.55 55.35 56.30 56.46
平均 55.82 55.22 55.22 54.23 54.83 55.20
問題(1)の検証結果として,表 4.2,表 4.3に,4.3.2節で述べた6つの学習手法につい て,検証データとして全表記集合を用いた場合と,多義語を除く表記集合を用いた場合 の11点平均補完適合率を,それぞれ示す.まず,語義特徴量法と表記特徴量法とを比べ た場合∗∗,いずれの場合でも,語義特徴量法が表記特徴量法の精度を若干上回ったが,そ の差は,0.44〜0.99パーセントポイントと小さかった.この理由は,多義語は全体に対し て平均で約18%とそれほど多くなく,一部の多義語によって,他のクラスの特徴量が含ま れたとしても,そのクラスに属する別の表記が多数あるため,これらのふさわしくない特 徴量は学習時に支配的にはならかったためと考えている.例えば,前述した例では,‘love letter’の‘映画名’に関する特徴量である‘上映’は,‘音楽名’では支配的にはならなかった.
次に,表記特徴量法における教師データの与え方による精度を比較する.表 4.2の多義 語を含む全表記集合を用いた場合の精度は,
(b-NN)>(b-NI)>(c)>(d)
となったのに対して,表4.3の多義語を除く検証データを用いた場合は,
(b-NI)≃(d)>(c)>(b-NN)
と大きく異なる結果となった.ここで,(b-NI)では,多義語は正負の両事例に含まれるた め,多義語のもつ特徴量の影響は相殺される.このように,推定対象が多義語ではない場 合,問題(1)の多義語の影響がより起こりにくい(b-NI)が(d)と同様に精度が高かった.一 方,検証データに多義語を含む場合,逆に,多義語の特徴量の影響がより残りやすい手法の 順で,精度が高かった.この傾向は,語義特徴量法での比較(全表記集合:(a-NI)<(a-NN),
∗∗表4.2,表4.3における,それぞれ(a-NI)と(b-NI),(a-NN)と(b-NN)の比較.
4.3 多義性の問題の影響度調査
表4.4 推定手法を変更したときの11点平均補完適合率の比較
全表記集合 多義語だけ
(l)語義特徴量法 (m)表記特徴量法 (n)語義特徴量法 (o)表記特徴量法
E1 57.03 55.46 66.90 57.29
E2 57.62 56.61 65.72 57.47
E3 59.29 57.68 67.06 55.37
平均 57.98 56.58 66.56 56.71
多義語を除く表記集合(a-NI)>(a-NN))でも同様の傾向が得られた.この理由は,今回の 評価セットでは,教師データと検証データで,多義語がもつクラスの分布が似ているもの が多かったためである.例えば,推定対象が‘Flora’と‘Food Other’ をもつ多義語(‘ブ ルーベリー’など)の場合,教師データにも全く同じ,‘Flora’と‘Food Other’の両方をも つ多義語(‘リンゴ’など)が多数あった.‘Flora’が推定対象クラスの場合,(b-NN)では
‘Food Other’をもつ不正解事例(‘アイスクリーム’など)を誤判定する可能性があるが,
‘ブルーベリー’を正解とできる.一方,(b-NI)では,‘アイスクリーム’の誤判定を防げる が,‘ブルーベリー’を不正解と判定する可能性がある.このように,教師データと検証デー タが,同じようなクラス分布をもつ場合には,学習時に多義語の影響を抑える効果は更に 小さかった.
このように,今回想定したクラス判定タスクにおいては,問題(1)の影響は大きくないた め,タグ付きコーパスを用いて完全に語義を分けて学習を行う必要はなく,タグなしコー パスでも同等の精度の学習が行える.また,教師データを与える際には,多義語を除く必 要はなく,多義語を含めて表記とその表記が所属しうるクラスをなるべく多く指定し,ま た,多義語の場合は,同じ表記を負事例に含めないで学習することが,精度向上につなが る.以下の実験では全て,表記特徴量法で最も精度の高かった(b-NN)(全語義,負事例 に含めない)を利用する.
問題(2)に対する検証結果として,表4.4に,推定処理として,全表記集合を対象とし た場合と,多義語だけを対象とした場合の表記特徴量法,語義特徴量法の各検証セットに おける11点平均補完適合率を示す.表4.4を見ると,全表記集合を対象とした場合の(m) 表記特徴量法の(l)語義特徴量法に対する精度の低下は約1.4パーセントポイントとわずか であるが,対象を多義語だけに限定した場合の(o)の(n)に対する精度の低下は,約9.85 パーセントポイントとかなり大きいことが分かる.表 4.4から3つの評価セットで全て同 様の傾向が表れている.4.4節で詳しく述べるが,表記特徴量法では,多義のある表記が 頻度の高い語義と頻度の低い語義をもつ場合に,頻度の低い語義を正しく判定できないと いう問題があり精度が低下していた.
以上に述べたように,問題(1)については,学習器の汎化能力によって多義語のもつ特 徴量の影響は軽減されるが,多義語が推定対象の場合は,問題(2)のために,精度の低下 が大きい.そのため,語義特徴量法(推定処理)のように,推定時に対象となるクラス以 外の文脈情報を除外して扱うことが重要であるといえる.
第4章 固有表現辞書の自動構築