ブロックの概念を導入した所属エリア推定手法 - 固有表現の属性推定に関する研究

れる考え方である．したがって，例えば Yamagataから YAMA を切り出す等，ブロックサイズを満たす長さの単語からブロックサイズより短い文字列を切り出すことはしない．このように，ショートブロックは，短いブロックサイズのブロックとは異なる概念である．

ブロックサイズを1個に固定し，ショートブロックを考慮せずにブロックの抽出を行う場合，短い単語の情報が排除される．例えばブロックサイズが5 の場合，Yamagata

からは YAMAG という語頭ブロックと AGATA という語尾ブロックを抽出することが

できるが，Mie は単語長が 3 のためサイズ 5 のブロックの抽出ができず，地名の構成単語Mie の存在がブロックに反映できない．

またブロックサイズを複数設定した場合でも，同様の問題が生じる．推定処理に際して複数のブロックサイズを利用する場合，同じ単語から長さの異なる複数のブロックが抽出されるが，これを同時に推定処理に用いることは同じ単語の影響を複数のブロックによって与えることになる．例えば Yamagataに対してブロックサイズが 3 から 5のブロックを推定に利用する場合，語頭としてYAM，YAMA，YAMAGの 3種類，

語尾としてATA，GATA，AGATA の 3種類のブロックがそれぞれ推定に影響を与えることになる．この場合，語頭の YAM部分，語尾のATA 部分はそれぞれ 3重に影響を与えることになる．これに対して，同じ条件でも Mie のような短い単語は，ブロックサイズ 4以上のブロックは抽出できないため，語頭，語尾としてそれぞれMIE が 1回ずつ抽出されるだけとなり，地名の構成単語 Yamagata と地名の構成単語 Mie それぞれの出現頻度が同じ場合でも，Yamagata の方が Mie よりも大きな影響を与えることになり不均衡が生じる．

ショートブロックは，この問題の解決のために導入する概念である．ショートブロックを導入することで，ブロックサイズに満たない短い単語についてもブロックの情報を反映させることが可能となる．例えば Mie に対しては，ブロックサイズが3 から 5 の場合，サイズ 3のブロックとして語頭語尾それぞれでMIE が抽出されるほか，サイズ 4，サイズ 5のブロックとしても MIE がショートブロックとの扱いで語頭語尾それぞれについて抽出されるため，十分な単語長を持つ単語と同等の影響力を持つことができるようになる．

ACEb

ACE: Area Candidate Examination

エリア候補地名

エリア推定システム(手法2) エリア推定システム(手法2) ...

... ...

...

ブロックレベル

TF-IDF情報

地名コーパス

表層情報 ...

... ...

...

... ...

...

ブロックレベル情報確度値ランキングブロックレベル情報確度値ランキング

図 5.3: 手法2の処理の流れ

リアにおける頻出ブロックの情報を基にしているACEb モジュールは，そのエリアに所属する可能性の高さを表す所属確度の指標としてTF-IDF モデルによる特徴量を採用している．複数のエリアで共通して出現するブロックは，そのブロックがエリア固有の特徴を表すものではないと判断され，その重みが低くなる．それに対して，特定のエリアでのみ頻出するブロックは，エリア固有の特徴を表すものであると判断される．ブロックレベルの表層情報 (5.2 節)は，文字レベルの表層情報よりも粒度が大きく，より確度が高い情報を保持している．これにより，エリア固有のブロックの情報を活用して，より適合率の高い地名の所属エリア推定を実現することを目指す．

ACEb モジュールは，入力となる地名に対してその構成ブロックから得られる情報を基にエリアへの所属確度を算出する．各エリアに対して算出された所属確度を比較することで，高い所属確度を持つエリアを所属エリア候補として出力する．出力は相対的な評価によって決定され，所属確度の上位のエリアが 1個以上選択される．

また，同様に確度が高い情報を保持する単語レベルの表層情報 (5.1 節) を用いた場合との比較も行う．各エリアにおける頻出単語の情報を基にしているACEw モジュールは，ACEb モジュールと同様の方法で，エリアに所属する可能性の高さを表す所属確度を算出する．ACEw モジュールでは，入力となる地名に対してその構成単語から得られる情報を基にエリアの所属確度を算出し，相対的に高い所属確度を持つエリアが 1 個以上選択される．

5.3.2 単語レベル TF-IDF に基づく地名のエリア所属確度

地名 t がエリアa に所属する可能性の高さを表す所属確度の指標として，単語レベルの表層情報を用いた確度値 E_w(a, t)を定義する (式 (5.7))．

E_w(a, t) = 1 n

k=1

e_w(a, w_k) (5.7)

ここで w_k は地名 t の k 番目の構成単語，n は地名 t に含まれる単語の数，e_w(a, w_k) はエリアa に対する単語w_k の特徴量を表す．単語の特徴量は，単語 wがエリアa の表層的特徴をどれだけ有しているかを示す指標であり，TF-IDFをベースに式(5.8) で定義する．

e_w(a, w) = TF_w(a, w) log |A|

DF(w) (5.8)

ここでTF_w(a, w)はエリア aにおける単語 w の出現頻度，DF(w) は単語wを含む地名コーパスの数，|A| は地名コーパスの総数を示す．確度値 E_w(a, t) はエリアに対する単語の特徴量 e_w(a, w) の平均を意味する．

5.3.3 ブロックレベル TF-IDF に基づく地名のエリア所属確度

確度値を適切に算出するためには，その地名の構成要素が適切な推定を行うために十分な情報を有している必要がある．しかし，5.1.2 節で述べたとおり，地名を構成する単語は十分な出現頻度を示すことは期待できない．つまり，5.3.2 節で定義した単語レベルの表層情報を用いた確度値 Ew(a, t) (式 (5.7)) では適切な所属エリア推定ができない可能性がある．

そこで，単語レベルの確度値 E_w(a, t) と同様に，ブロックの特徴量を用いて，地名 t がエリア a に所属する可能性の高さを表すブロックレベルの確度値 E_b^∗(a, t) を定義する(式 (5.9))．

E_b^∗(a, t) = 1 n

k=1 mXmax

m=mmin

e^∗_b(a, B_P^∗^m(w_k)) +e^∗_b(a, B^∗_S^m(w_k))

2 (5.9)

ここで n は地名 t の長さ (単語数)，B_P^∗^m(w_k) は地名 t の k 番目の構成単語 w_k のブロックサイズm の語頭ブロック(m_min ≤m ≤m_max)，B_S^∗^m(w_k)は同じ条件でのブロックサイズ m の語尾ブロックを示す．ブロックレベルの特徴量 e^∗_b(a, B^∗^m(w, i))は，サイズ mのブロック B^∗^m(w, i)がエリアa の表層的特徴をどれだけ有しているかを示す指標であり，TF-IDF をベースに式(5.10) で定義する．

e^∗_b(a, B^∗m(w, i)) = TF_b(a, B^∗m(w, i)) log |A|

DF(B^∗^m(w, i)) (5.10) TF_b(a, B^∗^m(w, i))はエリアa におけるブロックB^∗^m(w, i)の出現頻度，DF(B^∗^m(w, i)) はブロック B^∗^m(w, i) を含む地名コーパスの数，|A| は地名コーパスの総数を示す．

また，5.2.3節で定義したショートブロックの概念を取り入れたブロックレベルの確度値E_b(a, t) を以下のように定義する (式 (5.11))．

E_b(a, t) = 1 n

k=1 mXmax

m=mmin

e_b(a, B_P^m(w_k)) +e_b(a, B_S^m(w_k))

2 (5.11)

ここで n は地名 t の長さ (単語数)，B_P^m(w_k) は地名 t の k 番目の構成単語 w_k のブロックサイズ m の語頭ブロック(m_min ≤m≤m_max)，B_S^m(w_k)は同じ条件でのブロッ

クサイズm の語尾ブロックを示す．ショートブロックの概念を取り入れたブロックレベルの特徴量e_b(a, B^m(w, i))は，サイズ m のブロックB^m(w, i) がエリアaの表層的特徴をどれだけ有しているかを示す指標であり，TF-IDF をベースに式(5.12) で定義する．

e_b(a, B^m(w, i)) = TF_b(a, B^m(w, i)) log |A|

DF(B^m(w, i)) (5.12) ここでTF_b(a, B^m(w, i))はエリアa でのブロックB^m(w, i)の出現頻度，DF(B^m(w, i)) はブロック B^m(w, i) を含む地名コーパスの数，|A| は地名コーパスの総数を示す．

5.3.4 ブロックレベルと単語レベルでの所属エリア推定結果の比較

ACEモジュールを用いた所属エリア推定には，単語レベルの表層情報を用いたACEw モジュールと，ブロックレベルの表層情報を用いた ACEb モジュールの 2 種類ある (5.3.1節)．図 5.4 に，ACEwモジュールを用いた手法と ACEbモジュールを用いた手法(手法2)のそれぞれの所属エリア推定の実験の結果を示す．x軸は適合率(precision)， y 軸は再現率 (recall)を表している．ACEw モジュールは単語レベルの表層情報を用いた所属エリア推定のモジュールであり，式 (5.7) で定義される確度値を用いたものである．それに対して，ACEb モジュールはブロックレベルの表層情報を用いた所属エリア推定のモジュールであり，式 (5.11) で定義される確度値を用いたものである．

図 5.4 の丸印のマーカはブロックレベルの結果を，四角のマーカは単語レベルの結果を示している．それぞれの手法についてすべてのエリアをまとめて評価した結果は大きなマーカで示している．小さな丸印および四角のマーカは，各エリアの結果を示す．

手法2のブロックサイズは 5のみとし，ショートブロックを含めて推定を行っている．

利用対象ブロックには語頭ブロック，語尾ブロックの双方を含める．

ACEw モジュールの場合でも ACEb モジュールの場合でも，適合率は約90% を達成しており，適合率については十分によい結果が得られた．適合率で見ると，ブロックレベルで処理を行った場合に比べて単語レベルでの結果がよいが，その差は大きくなく，ブロックレベルでも十分単語レベルに近い適合率を得ることができることがわかる．これに対して，再現率の結果は手法によって大きく異なる．単語レベルのアプローチでは，適合率 92.96%，再現率52.77%，F値 0.67だったのに対して，ブロックレベルのアプローチでは，適合率 83.84%，再現率90.51%，F値 0.87 であった．各エリアの結果を見ると，ブロックレベルのアプローチでは再現率は最低でも70% 程度だったのに対して，単語レベルのアプローチでは再現率が 10%に満たないエリアもあり，そのばらつきの大きさが憂慮される．この差は，5.3.3 節で述べたように，単語レベルの情報が持つデータスパースネスの問題と未知語の問題に起因する．図 5.2 で示したとおり，地名の構成単語の出現頻度の傾向はエリアによって大きく異なる．出現頻度が低い構成単語の割合が大きいエリアにおいては，単語レベルの情報を用いた処理では確度値の算出に必要な情報が十分に得ることができず，結果的に低い再現率に繋がっている．このようなエリアでも，構成単語がすべて互いに独立な文字列とは限らない．むしろこのようなエリアでは，地名特有の意味を持つ文字列等のエリア固有の文字列が，

0 10 20 30 40 50 60 70 80 90 100

60 70 80 90 100

recall (%)

precision (%) CH (ACEw)

TH (ACEw) JP (ACEw) GR (ACEw) FI (ACEw) FR (ACEw) ES (ACEw) DE (ACEw) US (ACEw) total (ACEw) CH (ACEb) TH (ACEb) JP (ACEb) GR (ACEb) FI (ACEb) FR (ACEb) ES (ACEb) DE (ACEb) US (ACEb) total (ACEb)

図 5.4: ブロックレベルでの処理結果と単語レベルでの処理結果の比較

単語の一部分として単語中に含まれているような表記が多い．このような場合，このような隠れた部分文字列を抽出，利用することによってブロックレベルの情報を活用し，データスパースネスの問題を解決することが可能である．図 5.4 の結果から，単語レベルの情報ではなく，ブロックレベルの情報を利用することで，再現率を低下させることなく適合率を改善することが可能であるといえる．

ドキュメント内固有表現の属性推定に関する研究 (ページ 61-65)