所属エリア推定手法の統合

第 7 章表層情報に基づく地名の所属エリア推定手法の提案 ( 手法 4 )リア推定手法の提案(手法4)

7.1 頑健な所属エリア推定手法の提案

7.1.1 所属エリア推定手法の統合

表層情報を用いた所属エリア推定を行う上で重要な性質は，既に述べたように，高い再現率と高い適合率，さらに，高い汎用性である．本章では，ここまでに検討してきた手法1，手法1+2，手法3の統合によって，これらの性質を同時に実現する (図3.9)．

手法1+2は，ACR モジュールによる所属エリア候補の削減の処理として手法1を，

ACEbモジュールによるブロックを用いた所属エリア候補の検証の処理として手法2を順に実行する 2 段階処理の形で統合したものだった (図 5.5)．手法1+2では，適合率の向上のために，最終的な所属エリア候補の出力を 1 個に絞り込んでおり，このアプローチでのさらなる精度の向上は困難である．より精度の高い手法を実現するためには，ブロックレベルの表層情報を利用し適合率を確保しつつも，ブロックレベルの情報だけでは判断が難しい場合を考慮するため複数の所属エリア候補の出力を許し，さらにそこから所属エリア候補を絞り込む必要がある．所属エリアの可能性が高いと判断される複数の所属エリア候補からの絞込み処理は，手法3が目的とした類似エリア識別処理に帰着できる．手法3は，第 1 フェーズで所属エリア候補の絞込みを行った結果に対して，第 2 フェーズとして類似エリア識別処理を行う形である．そこで，第 1 フェーズの ACS モジュールに手法2の成果を導入することで第1フェーズの絞込みの精度を向上させ，手法3の第2 フェーズを活かすことを検討する．

本章で提案する手法4のシステムの概要を図 7.1 に示す．手法4は，所属エリア候補の絞込みを行うarea candidate selection (ACSb)モジュールによる処理と，所属エリア候補の削減を行う area candidate reduction (ACR)モジュールによる処理の 2フェーズで構成する．ACSb モジュールでは，入力地名について，所属エリア候補の絞込み

ACR ACSb

エリア推定システム(手法4)

エリア推定システム(手法4) ACS: Area Candidate Selection ACR: Area Candidate Reduction

エリア候補地名

...

... ...

...

ブロックレベル TF-IDF情報

文字レベル

⻑さ情報

文字レベル n-gram情報地名コーパス

表層情報

ブロックレベル情報確度値クラスタリング

ブロックレベル情報

確度値クラスタリング文字レベル情報機械学習文字レベル情報

機械学習 ...

... ...

...

... ...

...

図 7.1: 手法4の処理の流れ

を行い実験対象エリア全体からあらかじめ設定した候補数まで所属エリア候補を絞り込む．これは，ブロックレベルのTF-IDF 情報をベースとした階層的クラスタリングによる絞込み処理である．次の ACR モジュールでは，絞込み後の所属エリア候補群

それぞれに対して所属の可能性を推定し，可能性があると推定されたものを所属エリア推定の結果として出力する．ACR モジュールでは，文字レベルのn-gram情報と長さ情報を用いた所属エリア推定を行う．本システムの出力は，入力地名文字列が所属する可能性のあるエリアであり，推定結果に応じて 0 個 (第 2 フェーズで候補のすべてが排除された場合) から第 1 フェーズでの絞込み個数まで (第 2 フェーズで候補のすべての候補が排除されなかった場合) となる．

7.1.2 ブロックレベル情報を用いた所属エリア候補の絞込み

第 6章で述べたとおり，特定のエリア同士，あるいは特定の複数のエリア間において，表層的な特徴を共有する部分があることがわかっている．このような表層情報の共有はエリア間の類似性を生む．エリア間の類似性は，エリア間の1 対 1の関係とは限らず，複数のエリアの集合としてのグループの固有の特徴として表層情報を共有する等，階層的な関係を持つことが示唆される．このことから，地名のエリアに対する所属確度についても階層的な関係を持っていると考えるのが自然である．第6章では，

類似エリア間のグループの存在を仮定し，グループを同時に所属エリア候補として残りやすい3エリア組の集合と定義した．6.4.3 節で述べたとおり，この定義では同じグループ内のエリア間の類似性の差を反映することができないため，グループCのようにエリア間の類似性の低いグループでは十分に効果を発揮できない可能性があった．このことから，エリア間の類似性を適切に反映するためには，エリアを固定したグループとしてまとめたうえでグループ内か否かとの尺度で処理することは効果的でない場合が考えられる．そこで本章では，類似エリア群の中での類似性の差を考慮する手法として，階層的クラスタリングの概念を導入する．

エリア間の階層的な関係を図 7.2 に例示する．図 7.2 はフランスのある地名に対してエリアのクラスタリングを行った例である．図 7.2 では，地名に対する各エリアの

JP FI GR CH TW TH DE ES US FR

確度値

図 7.2: 階層的クラスタリング

確度値に基づいて実験対象エリア 10 エリアを x 軸上に並べている．階層的クラスタリングでは，初期段階では 1 個のエリアのみを含むクラスタを構成し，順々に，距離の近いクラスタをまとめていく．階層的クラスタリングは，類似度が高いエリアの間

では地名に対する確度値は互いに似た値となりやすく，そのため同一クラスタにまとまりやすいという特徴を利用するものである．階層的クラスタリングでは，すべての要素が 1個にまとまるまで処理を続けることができる．そのため，どこまでをクラスタと認めるかの定義が必要である．

手法4の ACSb モジュールでは，適合率が期待できるブロックレベルの表層情報をベースとし，地名の確度値に基づいてエリアの階層的クラスタリングを行うことで所属エリア候補の絞込みを行う．この地名の確度値の算出法は，手法2の ACEbモジュールと同じである．階層的クラスタリングは，ウォード法[73] を用いる．ウォード法では，クラスタ内の各値から，そのクラスタの重心までの距離を最小化するように，クラスタを統合する手法であり，クラスタ間の距離 D(C₁, C₂)は式 (7.1) で定義される．

D(C₁, C₂) = E(C₁∪C₂)−E(C₁)−E(C₂) (7.1) ただし，E(C_i) は，クラスタ内の各値 x とクラスタの重心 c_i の距離 D(x, c_i) の 2 乗和である (式 (7.2))．

E(C_i) = X

x∈Ci

(D(x, c_i))² (7.2)

階層的クラスタリングでは，図 7.2 のように，類似性の高いエリアがより早くクラスタとして統合され，類似性の低いエリアが統合されるのは遅くなる．この特徴を利用してグループの概念を表現し，高い確度値を持つエリアの近辺を所属エリア候補として絞り込む．

手法4では，第 1 フェーズに当たる ACSb モジュールの階層的クラスタリングが終了した時点で，最大の確度値を持つエリアと同一のクラスタ内にあるエリアを，第 1 フェーズでの所属エリア候補とする．階層的クラスタリングでは階層的に要素が繋がり，自明なクラスタ境界が存在するわけではない．そのため，なんらかの方法でクラスタ境界を指定する必要がある．クラスタ境界の指定の方法としては，(1)閾値による指定，(2) 要素数による指定，等が一般的である．第 6章では，第 1 フェーズで適切に候補を絞り込むことによって，再現率98% を確保するために必要な所属エリア候補の数は3 個程度に抑えられることが示された．第 1フェーズで十分な絞込みを行うことが第 2 フェーズの識別精度の向上に欠かせないため，第 2 フェーズで手法3の成果を活かせるよう，手法4でも第1フェーズで手法3と同等の絞込みを行うこととし，第 1 フェーズでの絞込み個数を最大 3 個とする．このため，手法4の ACSb モジュールでは，階層的クラスタリングの実行に際してクラスタ境界を要素数で指定することとし，最大の確度値を持つエリアを含むクラスタのサイズは 3を超えないものとしてクラスタの統合を行う．この結果，第 1フェーズでの出力エリア数は 1個から3個と幅を持つ．

第 5章で述べたとおり，地名は固有表現であるため，ブロックレベルでは十分な表層情報が引き出せない場合がある．このような場合には適切な確度値の算出ができず，

極端な場合にはすべてのエリアに対して同一の確度値が算出される．第 1 フェーズで正解エリアが排除されることは望ましくなく，第1フェーズでは再現率の確保を保証する必要がある．そこで，すべてのエリアに対する確度値が同一の値であった場合には，

手法4の第 1フェーズとして，ACSbモジュールの代わりに手法3のACSc モジュール

を用いて n-gram 情報を用いた生成確率による確度値の算出を行い，上位 3 個を第 1

フェーズの所属エリア候補とする．これにより，ブロックレベルの情報では判断しきれないような場合についても再現率を確保する．

7.1.3 類似エリアを対象とした所属エリア候補の削減

手法3では第 1 フェーズで出力される所属エリア候補数を 3 に固定した．それに対して，手法4の第1 フェーズに当たる ACSb モジュールによって出力される所属エリア候補の数は，1 個から3 個と幅を持つことになる．第 2フェーズに当たる ACR モジュールは，手法3の ACR モジュールと同等のものであり，第1フェーズで出力される所属エリア候補群を対象とした機械学習器を用いて各エリアへの所属の可能性の判定を行う．手法3では ACR モジュールへの入力エリア数は 3 に固定されていたため，

必要な機械学習器は 3 エリアを対象としたもののみであったが，手法4では入力エリア数が 1から 3とさまざまであり，それぞれに応じた対応が必要となる．

第 1フェーズで出力される所属エリア候補数が 3個の場合の処理は，手法3の ACR モジュールと同様である．第1 フェーズで出力される所属エリア候補数が2個の場合，

第 2 フェーズの ACR モジュールは，この2 個のエリアだけを対象とした機械学習器を用いて所属エリア候補の削減処理を行う．機械学習器の学習対象が異なる¹だけで，

処理は手法3の ACRモジュールと同様である．第1フェーズで出力される所属エリア候補数が 1 個の場合，第 2 フェーズでの絞込みは不要と判断し，ACR モジュールによる判定を行わずにこの所属エリア候補をそのまま第 2 フェーズの出力とする．

7.1.4 対象エリア数の増加への対応

機械学習器を用いる手法では，処理対象とするエリアの組合せ毎に機械学習器を作成する必要がある．手法3では，第 1フェーズでの所属エリア候補の出力数を固定し，

対象エリア数が|A|，絞込み数がpの場合には，_|_A_|C_p×pとおりの機械学習器を作成した．手法4では第1フェーズで出力される所属エリア候補数の上限のみを固定するため，

この上限値を下回る個数の所属エリア候補群を対象とした機械学習器も作成することとなり，処理に必要な機械学習器の数はさらに増える可能性がある(Ppmax

p=2(_|_A_|C_p×p))．処理に必要となる機械学習器の数は，実験対象エリア数 |A|や絞込み個数p の値が大きくなるにつれて増加する．しかし，対象エリア数|A|に対して制限を設けることは所属エリア推定タスクの大前提となる全世界的な処理の実現に対する制約となり，提案手法の汎用性の面で大きな問題である．また，絞込み数 pに対して制限を設けることは，所属エリア推定手法の精度の低下をもたらす要因となりえる．この機械学習器を用いた手法は，スケーラビリティという観点で大きな制約を抱えているといえ，必要な機械学習器の数を抑止することが課題となる．

1この場合には，出力される2 個の所属エリア候補それぞれについて，対象エリアの地名を正事例，

もう1個のエリアの地名を負事例として学習を行った機械学習器を用いた判定を行う．

ドキュメント内固有表現の属性推定に関する研究 (ページ 100-105)

第 7 章 表層情報に基づく地名の所属エ リア推定手法の提案 ( 手法 4 )リア推定手法の提案(手法4)

7.1 頑健な所属エリア推定手法の提案

7.1.1 所属エリア推定手法の統合

7.1.2 ブロックレベル情報を用いた所属エリア候補の絞込み

7.1.3 類似エリアを対象とした所属エリア候補の削減

7.1.4 対象エリア数の増加への対応

第 7 章表層情報に基づく地名の所属エリア推定手法の提案 ( 手法 4 )リア推定手法の提案(手法4)