ブロックの概念を導入した 2 段階推定手法

0 10 20 30 40 50 60 70 80 90 100

60 70 80 90 100

recall (%)

precision (%) CH (ACEw)

TH (ACEw) JP (ACEw) GR (ACEw) FI (ACEw) FR (ACEw) ES (ACEw) DE (ACEw) US (ACEw) total (ACEw) CH (ACEb) TH (ACEb) JP (ACEb) GR (ACEb) FI (ACEb) FR (ACEb) ES (ACEb) DE (ACEb) US (ACEb) total (ACEb)

図 5.4: ブロックレベルでの処理結果と単語レベルでの処理結果の比較

単語の一部分として単語中に含まれているような表記が多い．このような場合，このような隠れた部分文字列を抽出，利用することによってブロックレベルの情報を活用し，データスパースネスの問題を解決することが可能である．図 5.4 の結果から，単語レベルの情報ではなく，ブロックレベルの情報を利用することで，再現率を低下させることなく適合率を改善することが可能であるといえる．

ACR ACEb

ACR: Area Candidate Reduction ACE: Area Candidate Examination

エリア候補地名

エリア推定システム(手法1+2) エリア推定システム(手法1+2) ...

... ...

...

ブロックレベル TF-IDF情報文字レベル

⻑さ情報文字レベル n-gram情報地名コーパス

表層情報 ...

... ...

...

... ...

...

ブロックレベル情報確度値ランキングブロックレベル情報確度値ランキング文字レベル情報

機械学習文字レベル情報

機械学習

図 5.5: 手法1+2の処理の流れ

モジュールでは手法2をベースとした処理を行う．各フェーズで用いる表層情報を図5.6 に示す．手法2の高い適合率を活かすため，ACR モジュールから出力された所属エリア候補に対してその確度値を算出し，その確度値の高い順にあらかじめ定めた出力エリア数だけ候補を出力する．この結果をシステム全体の推定結果として出力する．

第 1 フェーズ (ACR モジュール) : 文字情報と長さ情報第 2 フェーズ (ACEbモジュール): ブロック情報

図 5.6: 手法1+2の各フェーズで用いる表層情報

Madrid という地名を入力とした場合を例にとって手法1+2の処理の流れを説明する

(図 5.7)．この例では，実験対象エリアを9 エリア，出力エリア数を2エリアとして所属エリア推定処理を行い，結果としてスペインとドイツが所属エリア候補として出力されたものとする．まず，ACR モジュールでは，文字レベルの n-gram 情報と長さ情

図 5.7: 手法1+2での所属エリアの絞込み

報を用いて，Madrid が所属する可能性の低い6エリアを排除する．この段階で所属エリア候補として残ったエリアの 3エリア(ドイツ，ギリシャ，スペイン) が次のACEb モジュールの処理対象となる．ACEb モジュールでは，絞込み後の 3個の所属エリア候補に対して，ブロックレベルの出現頻度情報を基にMadridの各エリアに対する確度値を算出する．この例では，出力エリア数が 2 エリアと設定されているため，最も確度値の高い所属エリア候補としてスペインを，第 2位の確度値の値を持つ所属エリア候補としてドイツを最終的に出力する．また，それ以外の 7エリアは最終的な所属エリア候補とならず，出力されない．

5.5 ^実験結果

5.5.1 実験環境

地名コーパス

本節では，表層情報の調査に用いた地名コーパス (表 5.1) を用いて所属エリア推定実験を行う．5.1.1節で述べたとおり，本実験の対象エリアは中国，タイ，日本，ギリシャ，フィンランド，ドイツ，フランス，スペイン，アメリカの 9 エリアである．

ACR モジュールの設定 (第 1 フェーズ)

ここでは手法1+2の ACRモジュールとして，手法1と同じモジュールを用いる．本実験で機械学習に用いる素性を表5.6 に示す．素性の種類および取り得る値は表4.6 と同じだが，利用する記号の種類を3.3.2 節で示した27種類としたため，素性の個数は計 20,489 個である．

表 5.6: 所属エリア推定の実験に用いる素性

素性素性の数

feature_L1 地名に含まれる文字の数 1

feature_L2 地名に含まれる単語の数 1

feature_L3 n 番目の単語に含まれる文字数 16

feature_L4 地名に含まれるm 文字の単語の数 32

feature_N₁ 文字レベルのunigram 情報 27

feature_N2 文字レベルのbigram情報 729

feature_N3 文字レベルのtrigram情報 19,683

ACEb モジュールの設定 (第 2 フェーズ)

手法1+2の ACEb モジュールとして，手法2と同じモジュールを用いる．ここではブロックサイズを5のみとし，ショートブロックを含めて推定を行う．利用対象ブロックには語頭ブロック，語尾ブロックの双方を含める．

複数のサイズのブロックを併用した場合，同じ単語から長さの違う複数のブロックを切り出すことができる．ここでは語頭および語尾に限ってブロックを抽出するため，

頻出単語の語頭および語尾のブロック情報が数多く切り出されることになり，語頭部分および語尾部分の影響が大きくなり過ぎる可能性がある．本実験では，ブロックサイズに範囲を与えず，ブロックサイズを 1 個に固定することで，複数のブロックサイズの併用による頻出単語の語頭および語尾の過剰な影響を排除した．

第 2 フェーズで出力される所属エリア候補数は1 とする．すなわち，システムは最終的な所属エリア候補として，確度値の最も大きなエリア 1個のみを出力する．

5.5.2 実験結果

表 5.7 に手法1+2による地名の所属エリア推定の実験結果を示す．全体では，適合率 85.54%，再現率91.92%，F 値0.89 の結果を得た．エリア別に見た場合，最もF 値

表 5.7: 手法1+2の実験結果 (ACR+ACEb) エリア F値適合率(%) 再現率(%)

中国 0.92 88.61 96.23

タイ 0.98 98.39 96.78

日本 0.90 86.74 94.09

ギリシャ 0.86 82.79 88.66

フィンランド 0.84 79.29 89.73

フランス 0.81 77.16 84.41

スペイン 0.85 82.86 87.86

ドイツ 0.90 83.89 96.68

アメリカ 0.92 92.12 92.85

全体 0.89 85.54 91.92

が低かったのがフランスで 0.81 であり，最も F 値が高かったのはタイで 0.98 であった．最も結果が悪いケースでも 0.81 の F 値を得ることができ，オープンテストの結果としては，十分によい結果といえる．

ドキュメント内固有表現の属性推定に関する研究 (ページ 65-69)

5.5 実験結果

5.5.1 実験環境

5.5.2 実験結果

5.5 ^実験結果