表層情報を用いた地名の所属エリア推定手法

第 4 章地名の所属エリア推定における表層情報の利用 ( 手法 1 )表層情報の利用(手法1)

4.2 表層情報を用いた地名の所属エリア推定手法

性があるとの判定を行ったエリアであり，出力される所属エリア候補数は 0 個 (すべてのエリアの二値分類学習器が negative と判定した場合) から最大で実験対象エリアの数(すべてのエリアの二値分類学習器が positive と判定した場合) までとなる．

4.2.2 機械学習に用いる素性

機械学習に用いる素性は，4.1.2 節と 4.1.3 節の調査結果に基づき，地名の表層情報として，その長さ情報と n-gram 情報を用いる．

地名の有する長さ情報

4.1.2 節で述べた地名の持つ長さ情報の特徴を示す素性を，図4.6 のように4 種類定

義する．この 4種類を素性とすることで，単語数 (feature_L1) や文字数 (feature_L2) の情報だけでなく，単語そのものの出現傾向の特徴や単語の分布の情報を利用することができる．例えば，フランスの地名では LA という単語が頻繁に出現するが，そのうち約半数が地名の 1 番目の単語として登場する．このように，単語によっては，その

feature_L1: 地名を構成する単語数 featureL2: 地名を構成する文字数

feature_L3: n 番目の単語に含まれる文字数 (1≤n≤16) feature_L4: 地名に含まれるm 文字の単語の数(1≤m≤32)

図 4.6: 機械学習に用いる素性 (長さ情報)

単語が出現する地名内での位置に特徴がある．これを素性に表したものが feature_L3 である．featureL3 は 1個の素性ではなく，n 個の独立した素性として扱う．表4.2 より，

地名の構成単語数は3 個から4 個程度であるため，ここでは特に長い地名も含めて確実にカバーするため，n の範囲を 1≤n ≤16とする．

また，図 4.1 に示したように，タイの地名は他のエリアの地名と比較して 3文字および4 文字で構成される単語の割合が圧倒的に高い等，地名に含まれる単語の文字数もエリアの特徴となり得る (feature_L4)．図 4.1 より，地名の構成文字数はたかだか 20 文字程度と考えられ，単語の構成文字数はそれよりもさらに短いことが予想できる．m の範囲については，特に長い地名も含めて確実にカバーするため，1 ≤ m ≤ 32 とする．feature_L4 も feature_L3 と同様に m 個の独立した素性として扱う．

地名の有する n-gram 情報

4.1.3 節で示した n-gram 情報の特徴から，n-gram 情報に関する素性を図 4.7 のように 3種類定義する．ここで用いる3 種類のn-gram情報はすべて文字レベルである．

featureN1: 文字レベルの unigram 情報 feature_N2: 文字レベルの bigram情報 feature_N3: 文字レベルの trigram情報

図 4.7: 機械学習に用いる素性(n-gram 情報)

feature_N₁ から feature_N3 の各素性は，それぞれ n-gram 毎に計算する．したがって，

feature_N₁ は unigram の異なり数の素性の集合であり，feature_N2，feature_N₃ はそれぞ

れ unigram の異なり数の2乗，3乗の個数の素性の集合となる．各素性の値 v はエリ

ア a のコーパスの n-gram の出現頻度をベースに定義する(式 (4.1))．

v_a(t, s) =P_a(s)×N(t, s) (4.1) s を長さ n (1≤ n ≤3) の文字列とした場合，P_a(s) はエリア a において文字列 s が出現する頻度，N(t, s) は地名 t の中で文字列 s が出現した回数を示す．素性の値は

n-gram 情報と対象とする地名に依存しており，ある文字列のそのエリアでの出現しや

すさと，その地名の中での出現しやすさを示している．

4.3 ^実験結果

4.3.1 実験環境

地名コーパス

本節では，表層情報の調査に用いた地名コーパス (表 4.1) を用いて所属エリア推定実験を行う．4.1.1節で述べたとおり，本実験の対象エリアは中国，台湾，タイ，日本，

ギリシャ，フィンランド，ドイツ，フランス，スペインの 9 エリアである．

ACR モジュールの設定

本実験で機械学習に用いる素性を表 4.6 に示す．素性の個数は計 30,833 個である．

本実験では，空白のほかアンパサンド (&)，アポストロフィ (’)，カンマ (,)，ピリオド (.) もそれぞれ別の記号として数えている．そのため，unigram の異なり数はアルファベット 26種と記号5 種の計31種となる．これらの記号の出現頻度は低く，また基データの記述形式によってその使われ方もまちまちのため，本章の実験以外では，アルファベット以外に使用する記号は空白文字のみとした (3.3.2 節)．

表 4.6: 所属エリア推定の実験に用いる素性

素性素性の数

featureL1 地名に含まれる文字の数 1

feature_L2 地名に含まれる単語の数 1

feature_L3 n 番目の単語に含まれる文字数 16

featureL4 地名に含まれるm 文字の単語の数 32

feature_N₁ 文字レベルのunigram 情報 31

feature_N2 文字レベルのbigram情報 961

feature_N3 文字レベルのtrigram情報 29,791

4.3.2 実験結果

表 4.7 に所属エリア推定実験の結果を示す．表 4.7 にあるとおり，すべてのエリアについて F 値はほぼ 0.70 を獲得し，タイに関しては0.93 を達成した．また，すべて

表 4.7: 地名の所属エリア推定の実験結果

エリア F 値適合率(%) 再現率(%) 正解率(%)

中国 0.75 62.00 95.60 93.00

台湾 0.72 58.93 92.75 92.01

タイ 0.93 87.66 98.00 98.24

日本 0.76 64.11 94.75 93.52

ギリシャ 0.69 55.09 93.40 90.81

フィンランド 0.70 55.80 92.35 91.02

フランス 0.74 59.63 97.05 92.37

スペイン 0.73 60.72 92.15 92.51

ドイツ 0.81 68.66 98.60 94.84

全体 0.75 62.64 94.96 93.15

のコーパスにおいて 90% 以上の正解率を得ることに成功した．全体での実験結果は，

F 値 0.75 である．この結果は，n-gram 情報と長さ情報とのごくシンプルな表層情報のみを用いた所属エリア推定が十分に可能なことを示している．表 4.7 では，すべてのエリアで，適合率よりも再現率が高いとの結果となっている．手法1は再現率重視の手法であり適合率は考慮していないため，この手法で F値 0.75を得られたことは，この段階としては十分な結果といえる．

手法1で重視した再現率は，全体で94.96%，すべてのエリアで 92%以上，最も結果のよかったドイツでは98.60%との結果を得ることができた．このことから，長さ情報および文字レベルのn-gram情報というシンプルな表層情報のみで，正解エリアを排除

せず positive と判定するために十分な情報を得ることが可能であると考えられる．それに対して，適合率は全体で 62.64%，低いエリアでは 55% 程度に留まった．これは，

所属エリア候補として誤ったエリアが多く出力されていることを示している．手法1では，所属エリア候補を積極的に削減することはなく，可能性があると判断したエリアはすべて出力するため，適合率が低くなる傾向があることは否めない．手法1のシンプルな手法でF 値0.75 を得られた理由は，高い再現率が貢献したものであり，適合率については改良の余地が大いにある．

ドキュメント内固有表現の属性推定に関する研究 (ページ 43-47)

第 4 章 地名の所属エリア推定における 表層情報の利用 ( 手法 1 )表層情報の利用(手法1)