• 検索結果がありません。

ブロックの概念を導入した 2 段階推定手法

ドキュメント内 固有表現の属性推定に関する研究 (ページ 65-69)

0 10 20 30 40 50 60 70 80 90 100

60 70 80 90 100

recall (%)

precision (%) CH (ACEw)

TH (ACEw) JP (ACEw) GR (ACEw) FI (ACEw) FR (ACEw) ES (ACEw) DE (ACEw) US (ACEw) total (ACEw) CH (ACEb) TH (ACEb) JP (ACEb) GR (ACEb) FI (ACEb) FR (ACEb) ES (ACEb) DE (ACEb) US (ACEb) total (ACEb)

図 5.4: ブロックレベルでの処理結果と単語レベルでの処理結果の比較

単語の一部分として単語中に含まれているような表記が多い.このような場合,この ような隠れた部分文字列を抽出,利用することによってブロックレベルの情報を活用 し,データスパースネスの問題を解決することが可能である.図 5.4 の結果から,単 語レベルの情報ではなく,ブロックレベルの情報を利用することで,再現率を低下さ せることなく適合率を改善することが可能であるといえる.

ACR ACEb

ACR: Area Candidate Reduction ACE: Area Candidate Examination

エリア候補 地名

エリア推定システム(手法1+2) エリア推定システム(手法1+2) ...

... ...

...

...

ブロックレベル TF-IDF情報 文字レベル

⻑さ情報 文字レベル n-gram情報 地名コーパス

表層情報 ...

... ...

...

...

...

... ...

...

...

ブロックレベル情報 確度値ランキング ブロックレベル情報 確度値ランキング 文字レベル情報

機械学習 文字レベル情報

機械学習

図 5.5: 手法1+2の処理の流れ

モジュールでは手法2をベースとした処理を行う.各フェーズで用いる表層情報を図5.6 に示す.手法2の高い適合率を活かすため,ACR モジュールから出力された所属エリ ア候補に対してその確度値を算出し,その確度値の高い順にあらかじめ定めた出力エ リア数だけ候補を出力する.この結果をシステム全体の推定結果として出力する.

第 1 フェーズ (ACR モジュール) : 文字情報と長さ情報 第 2 フェーズ (ACEbモジュール): ブロック情報

図 5.6: 手法1+2の各フェーズで用いる表層情報

Madrid という地名を入力とした場合を例にとって手法1+2の処理の流れを説明する

(図 5.7).この例では,実験対象エリアを9 エリア,出力エリア数を2エリアとして所 属エリア推定処理を行い,結果としてスペインとドイツが所属エリア候補として出力 されたものとする.まず,ACR モジュールでは,文字レベルの n-gram 情報と長さ情

図 5.7: 手法1+2での所属エリアの絞込み

報を用いて,Madrid が所属する可能性の低い6エリアを排除する.この段階で所属エ リア候補として残ったエリアの 3エリア(ドイツ,ギリシャ,スペイン) が次のACEb モジュールの処理対象となる.ACEb モジュールでは,絞込み後の 3個の所属エリア 候補に対して,ブロックレベルの出現頻度情報を基にMadridの各エリアに対する確度 値を算出する.この例では,出力エリア数が 2 エリアと設定されているため,最も確 度値の高い所属エリア候補としてスペインを,第 2位の確度値の値を持つ所属エリア 候補としてドイツを最終的に出力する.また,それ以外の 7エリアは最終的な所属エ リア候補とならず,出力されない.

5.5 実験結果

5.5.1 実験環境

地名コーパス

本節では,表層情報の調査に用いた地名コーパス (表 5.1) を用いて所属エリア推定 実験を行う.5.1.1節で述べたとおり,本実験の対象エリアは中国,タイ,日本,ギリ シャ,フィンランド,ドイツ,フランス,スペイン,アメリカの 9 エリアである.

ACR モジュールの設定 (第 1 フェーズ)

ここでは手法1+2の ACRモジュールとして,手法1と同じモジュールを用いる.本 実験で機械学習に用いる素性を表5.6 に示す.素性の種類および取り得る値は表4.6 と 同じだが,利用する記号の種類を3.3.2 節 で示した27種類としたため,素性の個数は 計 20,489 個である.

表 5.6: 所属エリア推定の実験に用いる素性

素性 素性の数

featureL1 地名に含まれる文字の数 1

featureL2 地名に含まれる単語の数 1

featureL3 n 番目の単語に含まれる文字数 16

featureL4 地名に含まれるm 文字の単語の数 32

featureN1 文字レベルのunigram 情報 27

featureN2 文字レベルのbigram情報 729

featureN3 文字レベルのtrigram情報 19,683

ACEb モジュールの設定 (2 フェーズ)

手法1+2の ACEb モジュールとして,手法2と同じモジュールを用いる.ここでは ブロックサイズを5のみとし,ショートブロックを含めて推定を行う.利用対象ブロッ クには語頭ブロック,語尾ブロックの双方を含める.

複数のサイズのブロックを併用した場合,同じ単語から長さの違う複数のブロック を切り出すことができる.ここでは語頭および語尾に限ってブロックを抽出するため,

頻出単語の語頭および語尾のブロック情報が数多く切り出されることになり,語頭部 分および語尾部分の影響が大きくなり過ぎる可能性がある.本実験では,ブロックサ イズに範囲を与えず,ブロックサイズを 1 個に固定することで,複数のブロックサイ ズの併用による頻出単語の語頭および語尾の過剰な影響を排除した.

第 2 フェーズで出力される所属エリア候補数は1 とする.すなわち,システムは最 終的な所属エリア候補として,確度値の最も大きなエリア 1個のみを出力する.

5.5.2 実験結果

表 5.7 に手法1+2による地名の所属エリア推定の実験結果を示す.全体では,適合 率 85.54%,再現率91.92%,F 値0.89 の結果を得た.エリア別に見た場合,最もF 値

表 5.7: 手法1+2の実験結果 (ACR+ACEb) エリア F値 適合率(%) 再現率(%)

中国 0.92 88.61 96.23

タイ 0.98 98.39 96.78

日本 0.90 86.74 94.09

ギリシャ 0.86 82.79 88.66

フィンランド 0.84 79.29 89.73

フランス 0.81 77.16 84.41

スペイン 0.85 82.86 87.86

ドイツ 0.90 83.89 96.68

アメリカ 0.92 92.12 92.85

全体 0.89 85.54 91.92

が低かったのがフランスで 0.81 であり,最も F 値が高かったのはタイで 0.98 であっ た.最も結果が悪いケースでも 0.81 の F 値を得ることができ,オープンテストの結 果としては,十分によい結果といえる.

ドキュメント内 固有表現の属性推定に関する研究 (ページ 65-69)