複数の特徴ベクトルの組み合わせ - コーパスからの単語の意味の発見

E- step

3.3 複数の特徴ベクトルの組み合わせ

アルゴリズム 2 Spherical k-means

Input: クラスタ数 k, クラスタリング対象語のベクトルのリスト V Output: クラスタのリスト C

1: C はk個の空のクラスタのリスト

2: forv_i ∈V do

3: vをランダムにクラスタに割り当てる

4: end for

5: repeat

6: for πj ∈C do

7: π_jの重心ベクトルg_jを計算する

8: end for

9: for vi ∈V do

10: π_j ←argmax

π_j

sim(g_j, v_i)

11: v_iをπ_jに割り当てる

12: end for

13: until ベクトルのクラスタへの割り当てが変化しない

14: return C

図 3.2: Spherical k-meansのアルゴリズム

1. クラスタリング対象となる単語インスタンスw_iをそれぞれ異なる素性に基づくN 通りの特徴ベクトルv_i⁽ⁿ⁾ (1≤n≤N)で表現する.

2. k-meansまたはセントロイド法によりクラスタリングを行う. そのとき, それぞれ異

なる特徴ベクトルv⁽_iⁿ⁾についてクラスタの重心ベクトルg_j⁽ⁿ⁾は1 つずつ, 計N個存在することになる. クラスタ間の類似度は,g_j⁽ⁿ⁾ (1≤n ≤N)による類似度の重み付き和と定義する. また,w_iとクラスタπ_j の類似度は,それぞれN個のv_i⁽ⁿ⁾とg⁽_jⁿ⁾との類似度の重み付き和と定義する. ただし,重みweight_nは実験的に適切なものを決める.

以降では, それぞれの手法について説明する.

類似度の組み合わせによるセントロイド法

類似度の組み合わせによるセントロイド法は, クラスタπ_j とπ_kの類似度を式(3.21)のように定義する. ただし, Nは特徴ベクトルの個数である.

sim(πj, πk) =

n=1

weightn·sim(g_j⁽ⁿ⁾, g⁽_kⁿ⁾) (3.21) ここで, weight_nは特徴ベクトルv_i⁽ⁿ⁾に対する重みを表す. 実際にはweight_nは実験的に適切な値を決める. また,g_j⁽ⁿ⁾はπ_j の特徴ベクトルv_i⁽ⁿ⁾に関する重心ベクトルを表し, 式 (3.22)のように定義する.

g_j⁽ⁿ⁾ ← 1

|π_j|

v⁽ⁿ⁾_i ∈π_j

v_i⁽ⁿ⁾ (3.22)

つまり, 類似度の組み合わせによるセントロイド法において, π_jとπ_kの類似度は, n番目の特徴ベクトルv_i⁽ⁿ⁾に関するクラスタの重心g_j⁽ⁿ⁾とg_k⁽ⁿ⁾の類似度の重み付き和と定義する. これは,複数の特徴ベクトルにおいて類似度が高くなるような場合, π_jとπ_kが同じ単語の意味を表すクラスタである可能性が高いという仮定に基づいている.

類似度の組み合わせによるセントロイド法の流れを図3.3に示す.

アルゴリズム 3 類似度の組み合わせによるセントロイド法 Input: インスタンスのリスト W,クラスタ数 k

Output: クラスタのリスト C

1: C ←k個の空のクラスタのリスト

2: for w_i ∈W do

3: for n= 1 to N do

4: w_iの特徴ベクトルv_i⁽ⁿ⁾を計算する

5: end for

6: end for

7: for w_i ∈W do

8: π_j ← { w_i }

9: π_j をCに加える

10: end for

11: repeat

12: (π_j, π_k)←argmax

(π_j,π_k) sim(π_j, π_k)

13: π_j とπ_kをマージする

14: until |C|> k

15: return C

図 3.3: 類似度の組み合わせによるセントロイド法

1行目から11行目は初期化を行っている. まず, 1行目から7行目では, 各w_iについて N個の特徴ベクトルv⁽_iⁿ⁾ を計算して, 後にクラスタの重心ベクトルの計算に利用するために保持している. 次に, 8行目から11行目では, 各wiを一つずつ含むクラスタを作り, C に追加している. したがって,クラスタリング対象のインスタンスの数を|W|と表すと, 11 行目の時点で|W|個のクラスタが作成される. そして, 12行目から15行目では, 最も類似度の高いクラスタを繰り返し併合している. ただし, クラスタ間の類似度は, 式(3.21)により計算される. 併合の結果,Cに含まれるクラスタの数がkとなったら処理を完了する.

類似度の組み合わせによるk-means法

類似度の組み合わせによるk-means法では, クラスタπjとインスタンスwiの類似度は式(3.23)で定義する.

sim(π_j, w_i) =

n=1

weight_n·sim(g_j⁽ⁿ⁾, v_i⁽ⁿ⁾) (3.23)

ただし,g_j⁽ⁿ⁾はπ_jのn番目の特徴ベクトルに関する重心ベクトルを表し,式(3.22)で定義する. つまり,類似度の組み合わせによるk-means法では,π_jとw_iの類似度はそれぞれの特徴ベクトルに関する重心ベクトルg_j⁽ⁿ⁾と特徴ベクトルv_i⁽ⁿ⁾の類似度の重み付きと定義される. これは, 複数の特徴ベクトルにおいて類似度が高くなるような場合, π_jはw_iと同じ意味に関するクラスタである可能性が高いという仮定に基づいている.

類似度の組み合わせによるk-means法の流れを図3.4に示す. 1行目から10行目は初期化処理を行う. まず, 1行目から7行目では,各wiについて, N個の特徴ベクトルv⁽_iⁿ⁾を作成している. v_i⁽ⁿ⁾は後のステップで, 重心ベクトルg⁽_jⁿ⁾の計算や, クラスタπ_jとw_iの類似度の計算に利用される. 次に, 8行目から10行目では,各w_iをランダムにクラスタπ_j ∈C に割り当てる. 以上の初期化を経て, 11行目から21行目ではC内のクラスタを反復的に最適化する. まず, 12行目から16行目では各π_jについて,n番目の特徴ベクトルに対する重心ベクトルg_j⁽ⁿ⁾を再計算する. そして, 17行目から21行目では, 各wiを類似度が最も高くなるπ_jに割り当て直す. 類似度は式(3.23)で計算される. その後, 11行目からの処理で各π_j に対するw_iの割り当てが変化していれば11行目以降を繰り返す. 割り当てが変化していなければ, Cを出力して処理を完了する.

アルゴリズム 4 類似度の組み合わせによるk-means法 Input: インスタンスのリスト W,クラスタ数 k Output: クラスタのリスト C

1: C ←k個の空のクラスタのリスト

2: for w_i ∈W do

3: for n= 1 to N do

4: w_iの特徴ベクトルv_i⁽ⁿ⁾を計算する

5: end for

6: end for

7: for w_i ∈W do

8: w_iをいずれかのクラスタπ_j ∈Cにランダムに割り当てる

9: end for

10: repeat

11: for π_j ∈C do

12: for f ∈F do

13: 式(3.22)によりg⁽_jⁿ⁾を計算する

14: end for

15: end for

16: for w_i ∈W do

17: π_j ←argmax

π_j

(sim(π_j, w_i))

18: w_iをπ_jに割り当てる

19: end for

20: until クラスタの割り当てが変化しない

21: return C

図 3.4: 類似度の組み合わせによるk-means法

3.3.2 単語毎に特徴ベクトルを選択する手法

クラスタリングの対象となる単語に応じて適切な特徴ベクトルをクラスタリングの評価値に基づいて選択する手法を提案する. このアルゴリズムは次のようになる.

1. 異なる素性に基づくN 通りの特徴ベクトルv_i⁽ⁿ⁾により独立にクラスタリングを行う.それぞれのクラスタリング結果をC₁, C₂, ..., C_N と表す.

2. argmax

(eval(C_n))を満たす特徴ベクトルv⁽_iⁿ⁾を選択する.

3. 特徴ベクトルv_i⁽ⁿ⁾によるクラスタリング結果Cnを出力する.

以上のアルゴリズムは, 利用可能な特徴ベクトルでひとまずクラスタリングを行い, 評

価関数eval(C_n)が最大となるようなクラスタリング結果C_nを採用しているといえる. こ

のとき,eval(C_n)の値が高いほどC_nの質もよいとみなしている.

以降では,クラスタリング結果を評価する4つの評価関数について説明する.

評価関数1:クラスタ内類似度

クラスタリング結果Cのクラスタ内類似度intra(C)を式(3.24) のように定義する. ただし,π_j はj番目のクラスタ,g_j⁽ⁿ⁾ はπ_jの重心ベクトル,v_i⁽ⁿ⁾はπ_jの要素である特徴ベクトル,N_jはクラスタπ_jの要素数とする.

intra(C) =

π_j∈C

1 N_j

v_i⁽ⁿ⁾∈π_j

sim(g_j⁽ⁿ⁾, v_i⁽ⁿ⁾) (3.24)

まず, 個々のπj ∈Cについて,クラスタの要素v_i⁽ⁿ⁾とクラスタの重心ベクトルg⁽_jⁿ⁾の類似度の平均値により評価値を算出する. そして, intra(C)は, このように計算した個々のπ_j の評価値の和と定義される. つまり, intra(C)は個々のクラスタがその要素と類似しているほどCが良いクラスタリング結果であるという仮定に基づいている.

評価関数2:クラスタ凝集度

クラスタリング結果Cのクラスタ凝集度coh(C)を式(3.25)のように定義する.

coh(C) = intra(C)

inter(C) (3.25)

inter(C)はクラスタ間類似度を表し, 式(3.26)のように定義する. ただし, πj, πkはクラスタ,g_j,g_kはクラスタの重心ベクトル, N_pairsはπ_j =π_kであるようなπ_jとπ_k の組み合わせの数を表す.

inter(C) = 1 Npairs

π_j,π_k∈C,π_j=π_k

sim(g_j, g_k) (3.26)

つまり, inter(C)はクラスタ同士の類似度の高さを表している. したがって, クラスタ内

における要素間の類似度が高く,かつクラスタ間の類似度が低いほど,coh(C)は高くなる.

これは, クラスタ内における要素は互いに類似度が高いほどよいクラスタであるが, クラスタ同士の類似度は低い方がクラスタリング結果全体としてはよいという仮定に基づいている.

評価関数3:相対的クラスタ内類似度

一般に, 特徴ベクトルによって典型的な類似度の値は異なっている. 例えば, 4章の評価実験では, トピックベクトルの2ベクトル間の類似度は0.1程度であるのに対し, LDA拡張文脈ベクトルの2ベクトル間の類似度は0.0003程度であった. そのため, クラスタ内類似度に基づいた評価値intra(C_n)では常に類似度の大きい特徴ベクトルが選択されてしまうという問題がある. そこで, クラスタ内の要素間の類似度を相対的に評価し, ベクトル間の類似度の大きさに影響されにくい評価関数を定義する.

クラスタリング結果Cの相対的クラスタ内類似度rel intra(C)を式(3.27)のように定義する. ただし, π_j はj番目のクラスタ,g_j はπ_jの重心ベクトル,v_iはπ_jの要素である特徴ベクトル, N_jはクラスタπ_jの要素数とする.

rel intra(C) =

π_j∈C

1 N_j

v_i∈π_j

sim(g_j, v_i)

max_v_i(sim(g_j, v_i)) (3.27) まず, 式(3.24)で定義したintraと同様にクラスタπ_j 毎に評価値を計算する. π_j の評価値は,π_j の重心とその要素v_iの類似度をmax_v_i(sim(g_j, v_i))との比を取ることで相対化したうえで, それらの平均と定義する. そして, rel intra(C)は, このように計算した個々のπ_jの評価値の和と定義する. つまり, rel intra(C)は個々のクラスタにおいて, クラスタの重心とクラスタ内の要素との類似度がその最大値から外れているほど低くなり, 逆にクラスタ内の類似度が互いに似ているほど高くなるような評価関数である. 直感的には,

rel intra(C)は, クラスタ内類似度の分散のようなものを計算しているといえる.

評価関数4:相対的クラスタ凝集度

クラスタリング結果C の相対的クラスタ凝集度rel coh(C)を式(3.28)のように定義する.

rel coh(C) = rel intra

rel inter (3.28)

rel interは相対的クラスタ間類似度を表し, 式(3.29)のように定義する. ただし, π_j はj 番目のクラスタ,g_jはj番目のクラスタの重心ベクトル,kはクラスタの個数,Gはg_jの各

π_jについての平均を表す.

rel inter(C) =

π_j∈C

sim(G, g _j)

max_g_j(sim(G, g _j)) (3.29) rel inter(C)は,クラスタ同士の類似度の高さをmax_g_j(sim(G, g _j))との比を取ることで相対化して測り,それらの平均値と定義する. 直感的には, rel inter(C)はクラスタ間の類似度が似通っているほど高くなり, 逆にクラスタ間の類似度とその最大値との差が大きいほど低くなる. したがって, rel coh(C)はクラスタ間の類似度の差が大きいほど, またクラスタ内の要素間の類似度の差が小さいほど, よいクラスタリング結果であるという仮定に基づいている.

ドキュメント内コーパスからの単語の意味の発見 (ページ 34-42)