候補絞込みと候補削減からなる 2 段階推定手法

第 6 章類似エリアからの所属エリア候補の絞込み ( 手法 3 )補の絞込み(手法3)

6.2 候補絞込みと候補削減からなる 2 段階推定手法

でも比較的小さな値となった．これは，これらのエリアを区別することが困難であることを示し，n-gram情報のみで所属エリアを判断することは，所属エリア推定の精度に限界があることを示唆している．

6.1.4 類似エリアのグループ

第 4 章で述べた地名の長さ情報の特徴 (4.1.2 節) や地名の n-gram 情報の特徴

(4.1.3 節)，表 6.3 に挙げた n-gram モデルのパープレキシティ等を見ると，類似エ

リアは2 エリアのペアとは限らず，長さ情報の特徴が似ている類似エリア群，n-gram 情報が似ている類似エリア群といったように，類似した特徴を持つエリア同士が複数のエリアを含む緩いグループを成している可能性が高いと考えられる．また，同じグループにまとめられるエリア間でも，エリアの間の類似性の高さや類似する特徴の傾向は差があるものと予測できる．例えば，4.1.3 節では中国と台湾，タイの3エリアの

間で n-gram の類似性が見られることが示されているが，4.1.2 節ではこの3エリアの

間の長さ情報の特徴はむしろ距離があることが示されており，長さ情報の類似性の面から台湾と最も近いと考えられるエリアはフランスである．表 6.3 を見ると，パープレキシティの値も，例えばタイから見た中国や台湾のパープレキシティと，中国や台湾から見たタイのパープレキシティの値には開きがあり，類似性の強さには方向性があると考えられる．

このことから，同じグループに属するエリア同士であっても，直接エリア同士を比較することができれば，互いを識別できる可能性がある．ここでのグループとは，例えばアジアグループとヨーロッパグループ等，実験対象エリアをあらかじめ固定したグループに分けるものではない．実験対象エリア全体を対象とした所属エリア推定処理では，互いに類似した複数のエリアが所属エリア候補として残る可能性があるが，これらの所属エリア候補群の組合せが入力地名毎に完全に異なることは考えにくい．むしろ，所属エリア候補群として同時に残りやすい組合せにはある程度の傾向があると考えるのが自然であり，これを広い意味でのグループとすれば，実験対象エリア全体を対象とした所属エリア候補の推定は，グループの推定の意味を持つものと考えることができる．本章では，このようなグループの存在を仮定し，実験対象エリア全体を対象とした所属エリア推定実験を通してグループの存在や特徴を検討する．その上で，

グループの存在を意識した 2 段階処理手法を提案し，類似エリア問題の解決を図る．

ACR ACSc

ACS: Area Candidate Selection ACR: Area Candidate Reduction エリア推定システム(手法3)

エリア推定システム(手法3)

エリア候補地名

...

... ...

...

文字レベル

n-gram情報文字レベル

⻑さ情報文字レベル n-gram情報地名コーパス

表層情報 ...

... ...

...

... ...

...

文字レベル情報機械学習文字レベル情報文字レベル情報機械学習

⽣成確率ランキング文字レベル情報

⽣成確率ランキング

図 6.1: 手法3の処理の流れ

2フェーズで構成する．ACSc モジュールでは，入力地名について，所属エリア候補の絞込みを行い実験対象エリア全体からあらかじめ設定した候補数まで所属エリア候補を絞り込む．本手法では，絞込み後のエリア候補群が意味のあるグループを成すものと仮定し，エリアの組合せの出現傾向を調べることでグループの存在や特徴を調査する．ACSc モジュールは，文字レベルのn-gram 情報をベースとした生成確率を用いて絞込み処理を行う．次の ACR モジュールでは，絞込み後の所属エリア候補に対して所属の可能性を推定し，可能性があると推定されたものを所属エリア推定の結果として出力する．ACR モジュールでは，手法1と同様に，文字レベルの n-gram と長さ情報を用いて推定を行う．本システムの出力は，入力地名文字列が所属する可能性のあるエリアであり，推定結果に応じて 0 個 (第 2 フェーズで候補のすべてが排除された場合) から第 1 フェーズでの絞込み個数まで (第 2 フェーズで候補のすべてが排除されなかった場合)となる．

6.2.1 生成確率を用いた所属エリア候補の絞込み

手法3の 2 段階処理の最初のフェーズは，所属エリア候補の絞込みを行う ACSc モジュールによる処理である．ここでは，地名の表層情報として文字レベルの n-gram のみを用いて所属エリア候補の絞込みを行う．地名を構成する文字の並びに対して，

各エリアについてその文字列が生成される確率を算出する．これにより，この生成確率の値が高くなるような統計情報を持つエリアを所属エリア候補として抽出する．所属エリアの絞込み個数はあらかじめ与えるものとする．n 個の文字で構成される地名 tⁿ₁ =c₁· · ·c_n のエリアa における生成確率 P_a(tⁿ₁)は n-gram情報を用いて次のように定義される (式 (6.1))．

P_a(tⁿ₁) =P_a(c₁)P_a(c₂|c₁)P_a(c₃|c₁c₂)· · ·P_a(c_n|c_n₋₂c_n₋₁) (6.1)

ここで，P_a(c_n|c_n₋₂c_n₋₁) はエリア a において c_n₋₂c_n₋₁ の後に c_n が出現する頻度を表している．文字レベルのn-gram情報は，Modiﬁed Kneser-Neyディスカウンティン

グ [8, 25]を用いて，低次のn-gram 情報を補間しながら平滑化を行っている．

6.2.2 機械学習器を用いた所属エリア候補の削減

手法3の第 2フェーズであるACR モジュールでの処理では，絞込み処理後の所属エリア候補を対象に，文字レベルの n-gram 情報と長さ情報を用いた機械学習器による所属エリア候補の削減処理を行う．機械学習器はエリア毎に作成し，入力地名が対象エリアに属する可能性の有無を二値で判定する．この結果に応じて，所属エリア候補の絞込みを行う．機械学習器は，手法1の ACR モジュールと同じものを用いる．学習に用いる素性は，地名コーパスから得られる表層情報であり，手法1と同様に，地名の長さ情報と，文字レベルのn-gram 情報の2 種類を利用する．手法1では，機械学習器のみを用いて所属エリア推定を行うため，実験対象エリアすべてを対象とした機械学習を行った．実験対象エリアの数を |A| とすると，機械学習器の数は |A| であり，それぞれの機械学習器が対象エリア a に属する地名を正事例，対象エリア以外のエリア A−a に属する地名を負事例として機械学習を行う．この場合，機械学習器は，他のエリアすべてに対する対象エリアの特徴を学習することになり，類似エリアとの間の小さな差異が十分に反映されない恐れがあった．

これに対して，手法3の第 2フェーズのACR モジュールでの処理では，第1フェーズで絞り込まれた所属エリア候補のみを対象にした機械学習を行う．実験対象エリアの数を |A| とし，第 1 フェーズの ACSc モジュールでの絞込み個数を p とする場合，

第 2 フェーズでは，ACR モジュールとしてこの p 個のエリアを対象としてエリア毎に所属の可能性を判定する機械学習器を利用する¹．対象となる|A| 個のエリアの中から異なる p 個のエリアを選び出し (_|_A_|C_p とおり)，選ばれた p 個のエリアに対して所属エリアであるかどうかをそれぞれの機械学習器によって判定する．本フェーズでは，

選ばれた p個の組合せ毎に学習対象が異なるため，それぞれの組合せ毎に p種類の機械学習器を用意する．第 2フェーズでは，第 1 フェーズの絞込みによって所属エリア候補とされたエリア群のみを対象とした機械学習器による判定を行い，可能性を棄却された候補を所属エリア候補から外した上で所属エリア候補の削減を行う．

1例えばある入力地名に対して第1フェーズで所属エリア候補を3個に絞った結果，中国，台湾，タイの3エリアが第2フェーズでの推定の対象となったとする．この場合，第2フェーズでは，中国，台湾，タイの3 エリア組を対象としてこの地名が中国に所属する可能性を判定する機械学習器，同じ3エリア組を対象として台湾に所属する可能性を判定する機械学習器，同じ3エリア組を対象としてタイに所属する可能性を判定する機械学習器の3個の機械学習器を利用して，この3エリアそれぞれについてその所属の可能性の有無の推定を行うことになる．第1フェーズで排除されたエリアは，第2フェーズでは考慮せず，機械学習器の学習対象に含めない．

ドキュメント内固有表現の属性推定に関する研究 (ページ 80-83)

第 6 章 類似エリアからの所属エリア候 補の絞込み ( 手法 3 )補の絞込み(手法3)

6.2 候補絞込みと候補削減からなる 2 段階推定手法

6.1.4 類似エリアのグループ

6.2.1 生成確率を用いた所属エリア候補の絞込み

6.2.2 機械学習器を用いた所属エリア候補の削減

第 6 章類似エリアからの所属エリア候補の絞込み ( 手法 3 )補の絞込み(手法3)