• 検索結果がありません。

候補絞込みと候補削減からなる 2 段階推定手法

ドキュメント内 固有表現の属性推定に関する研究 (ページ 80-83)

第 6 章 類似エリアからの所属エリア候 補の絞込み ( 手法 3 )補の絞込み(手法3)

6.2 候補絞込みと候補削減からなる 2 段階推定手法

でも比較的小さな値となった.これは,これらのエリアを区別することが困難である ことを示し,n-gram情報のみで所属エリアを判断することは,所属エリア推定の精度 に限界があることを示唆している.

6.1.4 類似エリアのグループ

第 4 章で述べた地名の長さ情報の特徴 (4.1.2 節) や地名の n-gram 情報の特徴

(4.1.3 節),表 6.3 に挙げた n-gram モデルのパープレキシティ等を見ると,類似エ

リアは2 エリアのペアとは限らず,長さ情報の特徴が似ている類似エリア群,n-gram 情報が似ている類似エリア群といったように,類似した特徴を持つエリア同士が複数 のエリアを含む緩いグループを成している可能性が高いと考えられる.また,同じグ ループにまとめられるエリア間でも,エリアの間の類似性の高さや類似する特徴の傾 向は差があるものと予測できる.例えば,4.1.3 節では中国と台湾,タイの3エリアの

間で n-gram の類似性が見られることが示されているが,4.1.2 節ではこの3エリアの

間の長さ情報の特徴はむしろ距離があることが示されており,長さ情報の類似性の面 から台湾と最も近いと考えられるエリアはフランスである.表 6.3 を見ると,パープ レキシティの値も,例えばタイから見た中国や台湾のパープレキシティと,中国や台 湾から見たタイのパープレキシティの値には開きがあり,類似性の強さには方向性が あると考えられる.

このことから,同じグループに属するエリア同士であっても,直接エリア同士を比較 することができれば,互いを識別できる可能性がある.ここでのグループとは,例え ばアジアグループとヨーロッパグループ等,実験対象エリアをあらかじめ固定したグ ループに分けるものではない.実験対象エリア全体を対象とした所属エリア推定処理 では,互いに類似した複数のエリアが所属エリア候補として残る可能性があるが,こ れらの所属エリア候補群の組合せが入力地名毎に完全に異なることは考えにくい.む しろ,所属エリア候補群として同時に残りやすい組合せにはある程度の傾向があると 考えるのが自然であり,これを広い意味でのグループとすれば,実験対象エリア全体 を対象とした所属エリア候補の推定は,グループの推定の意味を持つものと考えるこ とができる.本章では,このようなグループの存在を仮定し,実験対象エリア全体を 対象とした所属エリア推定実験を通してグループの存在や特徴を検討する.その上で,

グループの存在を意識した 2 段階処理手法を提案し,類似エリア問題の解決を図る.

ACR ACSc

ACS: Area Candidate Selection ACR: Area Candidate Reduction エリア推定システム(手法3)

エリア推定システム(手法3)

エリア候補 地名

...

... ...

...

...

文字レベル

n-gram情報 文字レベル

⻑さ情報 文字レベル n-gram情報 地名コーパス

表層情報 ...

... ...

...

...

...

... ...

...

...

文字レベル情報 機械学習 文字レベル情報 文字レベル情報 機械学習

⽣成確率ランキング 文字レベル情報

⽣成確率ランキング

図 6.1: 手法3の処理の流れ

2フェーズで構成する.ACSc モジュールでは,入力地名について,所属エリア候補の 絞込みを行い実験対象エリア全体からあらかじめ設定した候補数まで所属エリア候補 を絞り込む.本手法では,絞込み後のエリア候補群が意味のあるグループを成すもの と仮定し,エリアの組合せの出現傾向を調べることでグループの存在や特徴を調査す る.ACSc モジュールは,文字レベルのn-gram 情報をベースとした生成確率を用いて 絞込み処理を行う.次の ACR モジュールでは,絞込み後の所属エリア候補に対して 所属の可能性を推定し,可能性があると推定されたものを所属エリア推定の結果とし て出力する.ACR モジュールでは,手法1と同様に,文字レベルの n-gram と長さ情 報を用いて推定を行う.本システムの出力は,入力地名文字列が所属する可能性のあ るエリアであり,推定結果に応じて 0 個 (第 2 フェーズで候補のすべてが排除された 場合) から第 1 フェーズでの絞込み個数まで (第 2 フェーズで候補のすべてが排除さ れなかった場合)となる.

6.2.1 生成確率を用いた所属エリア候補の絞込み

手法3の 2 段階処理の最初のフェーズは,所属エリア候補の絞込みを行う ACSc モ ジュールによる処理である.ここでは,地名の表層情報として文字レベルの n-gram のみを用いて所属エリア候補の絞込みを行う.地名を構成する文字の並びに対して,

各エリアについてその文字列が生成される確率を算出する.これにより,この生成確 率の値が高くなるような統計情報を持つエリアを所属エリア候補として抽出する.所 属エリアの絞込み個数はあらかじめ与えるものとする.n 個の文字で構成される地名 tn1 =c1· · ·cn のエリアa における生成確率 Pa(tn1)は n-gram情報を用いて次のように 定義される (式 (6.1)).

Pa(tn1) =Pa(c1)Pa(c2|c1)Pa(c3|c1c2)· · ·Pa(cn|cn2cn1) (6.1)

ここで,Pa(cn|cn2cn1) はエリア a において cn2cn1 の後に cn が出現する頻度を 表している.文字レベルのn-gram情報は,Modified Kneser-Neyディスカウンティン

グ [8, 25]を用いて,低次のn-gram 情報を補間しながら平滑化を行っている.

6.2.2 機械学習器を用いた所属エリア候補の削減

手法3の第 2フェーズであるACR モジュールでの処理では,絞込み処理後の所属エ リア候補を対象に,文字レベルの n-gram 情報と長さ情報を用いた機械学習器による 所属エリア候補の削減処理を行う.機械学習器はエリア毎に作成し,入力地名が対象 エリアに属する可能性の有無を二値で判定する.この結果に応じて,所属エリア候補 の絞込みを行う.機械学習器は,手法1の ACR モジュールと同じものを用いる.学習 に用いる素性は,地名コーパスから得られる表層情報であり,手法1と同様に,地名の 長さ情報と,文字レベルのn-gram 情報の2 種類を利用する.手法1では,機械学習器 のみを用いて所属エリア推定を行うため,実験対象エリアすべてを対象とした機械学 習を行った.実験対象エリアの数を |A| とすると,機械学習器の数は |A| であり,そ れぞれの機械学習器が対象エリア a に属する地名を正事例,対象エリア以外のエリア A−a に属する地名を負事例として機械学習を行う.この場合,機械学習器は,他の エリアすべてに対する対象エリアの特徴を学習することになり,類似エリアとの間の 小さな差異が十分に反映されない恐れがあった.

これに対して,手法3の第 2フェーズのACR モジュールでの処理では,第1フェー ズで絞り込まれた所属エリア候補のみを対象にした機械学習を行う.実験対象エリア の数を |A| とし,第 1 フェーズの ACSc モジュールでの絞込み個数を p とする場合,

第 2 フェーズでは,ACR モジュールとしてこの p 個のエリアを対象としてエリア毎 に所属の可能性を判定する機械学習器を利用する1.対象となる|A| 個のエリアの中か ら異なる p 個のエリアを選び出し (|A|Cp とおり),選ばれた p 個のエリアに対して所 属エリアであるかどうかをそれぞれの機械学習器によって判定する.本フェーズでは,

選ばれた p個の組合せ毎に学習対象が異なるため,それぞれの組合せ毎に p種類の機 械学習器を用意する.第 2フェーズでは,第 1 フェーズの絞込みによって所属エリア 候補とされたエリア群のみを対象とした機械学習器による判定を行い,可能性を棄却 された候補を所属エリア候補から外した上で所属エリア候補の削減を行う.

1例えばある入力地名に対して第1フェーズで所属エリア候補を3個に絞った結果,中国,台湾,タ イの3エリアが第2フェーズでの推定の対象となったとする.この場合,第2フェーズでは,中国,台 湾,タイの3 エリア組を対象としてこの地名が中国に所属する可能性を判定する機械学習器,同じ3 リア組を対象として台湾に所属する可能性を判定する機械学習器,同じ3エリア組を対象としてタイに 所属する可能性を判定する機械学習器の3個の機械学習器を利用して,この3エリアそれぞれについて その所属の可能性の有無の推定を行うことになる.第1フェーズで排除されたエリアは,第2フェーズ では考慮せず,機械学習器の学習対象に含めない.

ドキュメント内 固有表現の属性推定に関する研究 (ページ 80-83)