データ解析第十四回「クラスタリング」

(1)

データ解析

第十四回「クラスタリング」

鈴木大慈理学部情報科学科西八号館W707号室 [email protected]

(2)

今日の講義内容

階層的クラスタリング

k-means

法

混合ガウスモデルによるクラスタリング：EM-アルゴリズム

TOPIX CORE 30

のクラスタリング

2 / 45

(3)

階層的クラスタリング

ソフトバンクパナソニックＫＤＤＩ東芝ソニー三菱地所野村ホールディングスみずほフィナンシャルグループ三菱ＵＦＪフィナンシャル・グループ三井住友フィナンシャルグループ花王アステラス製薬ファナック信越化学工業小松製作所東京海上ホールディングス日本電信電話エヌ・ティ・ティ・ドコモ日本たばこ産業セブン＆アイ・ホールディングス東日本旅客鉄道三井物産三菱商事日産自動車キヤノン本田技研工業武田薬品工業トヨタ自動車新日鐵住金日立製作所

0.100.150.200.250.300.350.40

Cluster Dendrogram

hclust (*, "ward.D") dist(topix30)

Height

(4)

ハードクラスタリング

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

2.02.53.03.54.0

Sepal.Length

Sepal.Width

4 / 45

(5)

ソフトクラスタリング

Sepal.Length

Sepal.Width

−20 −18

−16 −14

−12 −12

−12 −10

−10

−10 −8

−8

−8 −6

−6

−4 −4

−4 −2

−2

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

2.02.53.03.54.0

log Density Contour Plot

(6)

構成

1 階層的クラスタリング

2 k-means法

3 混合ガウスモデル：EM-アルゴリズム

4 TOPIX CORE 30銘柄のクラスタリング

6 / 45

(7)

階層的クラスタリングの手順

(8)

階層的クラスタリングの手順

7 / 45

(9)

階層的クラスタリングの手順

(10)

階層的クラスタリングの手順

サンプル間およびクラスタ間の距離が決まっていれば階層的クラスタリングは可能．

7 / 45

(11)

サンプル間の距離

ユークリッド距離((dist(x,method=”euclidean”)):

d(x,x^′) = vu ut∑^d

j=1

(xj−x_j^′)².

ミンコフスキー距離(ℓp-norm, dist(x,method=”minkowski”,p=3))

d(x,x^′) =



∑^d

j=1

|xj−x_j^′|^p





1/p

.

最大距離(dist(x,method=”maximum”)) d(x,x^′) = max

j=1,...,d|xj−x_j^′|.

(12)

サンプル間の距離 ( 続き )

マンハッタン距離(dist(x,method=”manhattan”))

d(x,x^′) =

∑d j=1

|xj−x_j^′|.

キャンベラ距離(dist(x,method=”canberra”))

d(x,x^′) =

∑d j=1

|xj−x_j^′|

|xj|+|x_j^′|.

バイナリー距離(x,x^′が0-1値のバイナリベクトルのとき, dist(x,method=”binary”))

d(x,x^′) = 1−

∑d

j=1min(xj,x_j^′)

∑d

j=1max(xj,x_j^′) .

9 / 45

(13)

クラスタ間の距離

最短距離法(単連結法, single linkage method) D(C,C^′) = min

x∈C,x′∈Cd(x,x^′) ノイズに弱い．

最長距離法(完全連結法, complete linkage method) D(C,C^′) = max

x∈C,x^′∈Cd(x,x^′) 保守的．

(14)

クラスタ間の距離 ( 続き )

群平均法(average linkage method) D(C,C^′) = 1

|C||C^′|

∑

x∈C,x^′∈C

d(x,x^′).

ウォード法(Ward’s method)

(ユークリッド距離の場合) D(C,C^′) = ∥x¯C−x¯C^′∥² 1/|C|+ 1/|C^′|, ただし，¯x_C = _|_C¹_|∑

x∈Cx．ユークリッド距離以外では

D(C₁∪C₂,C₃)=⁽^|^C^1|⁺^|^C^2|^)D(C¹^,C^{2 )+(|}^C^2|⁺∑^|^C3^3|^)D(C²^,C^{3 )+(|}^C^1|⁺^|^C^3|^)D(C¹^,C^{3 )}

j=1|Cj| ,

で再帰的に定義．もっとも広がりが小さく抑えられるクラスタを追加．

McQuitty法(McQuitty’s method) 重心法(centroid method)

メディアン法(median method)

11 / 45

(15)

階層的クラスタリングの手順 ( 具体的に )

初期化: サンプル{x_i}ⁿi=1それぞれが1つのクラスタを形成するようにn個のクラスタを作成．

以下の手順を全体がひとつのクラスタになるまで続ける.

1 すべてのクラスタ間の距離を計算．

2 最も距離の近いクラスタを統合．

(16)

階層的クラスタリングの R コード

hclust(dist(x))

hclust(dist(x,method="canberra"),method="ward")

8 9 1 5 2 4 10 3 6 7

0.00.51.01.52.02.53.0

Cluster Dendrogram

hclust (*, "complete") dist(x)

Height

13 / 45

(17)

ヒートマップ

行列データがあった場合，行間の階層的クラスタリングと列間の階層的クラスタリングを同時に行い，プロットすることができる．

dsf <- function(x) dist(x,method="maximum") hcf <- function(d) hclust(d, method = "complete")

heatmap(x,scale="column",col=hmcol,distfun=dsf,hclustfun=hcf)

col以降は省略可．

(18)

ジヒドロ葉酸還元酵素阻害剤データのヒートマップ

6 5 4 11 20 10 14 16 15 12 17 13 2 3 19 18 8 9 7 1

moe2D_PEOE_VSA_FNEG moe2D_PEOE_VSA.1.1 moe2D_PEOE_VSA.0.1 moeGao_Abra_R moe2D_BCUT_SLOGP_1 moe2D_GCUT_SMR_1 moe2D_GCUT_SLOGP_1 moe2D_GCUT_PEOE_1 moe2D_PEOE_VSA_FHYD moe2D_PEOE_VSA.2.1 moe2D_PEOE_VSA.3 moe2D_BCUT_PEOE_1 moe2D_BCUT_SMR_1 moe2D_GCUT_SMR_3 moe2D_GCUT_PEOE_3 moe2D_GCUT_SLOGP_3 moe2D_BCUT_SLOGP_3 moe2D_BCUT_SMR_3 moe2D_BCUT_PEOE_3 moeGao_Abra_L moe2D_Kier3 moe2D_KierA3 moe2D_Kier1 moe2D_Kier2 moe2D_PEOE_VSA.0 moe2D_KierFlex moe2D_KierA1 moe2D_KierA2 moe2D_PEOE_VSA.6 moe2D_FCharge moe2D_PEOE_VSA.3.1 moe2D_PEOE_VSA.1 moe2D_GCUT_SLOGP_0 moeGao_Abra_acidity moe2D_PEOE_VSA.6.1 moeGao_Abra_pi moe2D_PEOE_PC.

moe2D_PEOE_VSA.2 moe2D_PEOE_PC..1 moe2D_PEOE_RPC.

moe2D_GCUT_SMR_0 moe2D_BCUT_PEOE_0 moe2D_BCUT_SMR_0 moe2D_BCUT_SLOGP_0 moe2D_GCUT_PEOE_0 moe2D_PEOE_RPC..1 moe2D_BCUT_SLOGP_2 moe2D_GCUT_SLOGP_2 moe2D_GCUT_SMR_2 moe2D_BCUT_SMR_2 moe2D_BCUT_PEOE_2 moe2D_GCUT_PEOE_2 moe2D_PEOE_VSA.4.1 moeGao_Abra_basicity moe2D_PEOE_VSA.5 moe2D_PEOE_VSA.5.1 moe2D_PEOE_VSA_FPOL moe2D_PEOE_VSA_FPNEG moe2D_PEOE_VSA.4

コードはスクリプトファイルを参照 _{15 / 45}

(19)

手書き文字のクラスタリング

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

0.0 0.4 0.8

0.00.40.8

MNISTデータセット．数字0から9，各文字画像の平均値を計算．

(20)

手書き文字の階層的クラスタリング

7 4 9 0 2 6 1 3 5 8

500100015002000

Cluster Dendrogram

hclust (*, "ward.D") dist(x)

Height

17 / 45

(21)

構成

2 k-means法

(22)

k -means 法の結果

−2 −1 0 1

−0.50.00.51.01.52.02.5

xx[,1]

xx[,2]

(a)生データ

−2 −1 0 1

−0.50.00.51.01.52.02.5

xx[,1]

xx[,2]

(b)クラスタリング結果

19 / 45

(23)

k -means 法の最適化問題としての定式化

K 個の代表点でサンプルを近似したい．

µ1min,...,µK

∑n i=1

∥xi−µk_i∥² ただし，µ_k_i はxiに一番近い{µ1, . . . , µK}内の点．

この最適化問題はNP-困難．

局所的に{µk}k を繰り返し更新して良い局所解を求める．

(24)

k -means 法の手順

1 クラスタリング:

Ck ={i∈ {1, . . . ,n} |xiにとってµk が最も近い}.

2 クラスタの平均を計算:

µk = 1

|C_k|

∑

i∈C_k

xi. 上記の手順を収束するまで何度も繰り返す．

21 / 45

(25)

k -means 法の収束の様子

-6 -4 -2 0 2 4

-4 -2 0 2 4 6 8

0 iteration

-6 -4 -2 0 2 4

-4 -2 0 2 4 6 8

1 iteration

-6 -4 -2 0 2 4

-4 -2 0 2 4 6 8

2 iteration

-6 -4 -2 0 2 4

-4 -2 0 2 4 6 8

3 iteration

(26)

R による k -means 法

res <- kmeans(x,k)

res$centers #cluster center res$cluster #cluster assignment

xはn×d (サンプル数 × 次元), kはクラスタ数.

23 / 45

(27)

人工データで実行した結果 ( 再掲 )

−2 −1 0 1

−0.50.00.51.01.52.02.5

xx[,1]

xx[,2]

(28)

構成

2 k-means法

25 / 45

(29)

混合ガウス分布

P(x) =

∑K k=1

π_kN(µ_k,Σ_k)

いくつかのガウス分布の足しあわせ (∑K

k=1πk = 1).

(30)

混合ガウス分布

実際は色分けはされていない．

(c)これから (d)これを復元したい

27 / 45

(31)

混合ガウス分布の生成モデル

xの密度関数:

p(x) =

∑K k=1

πkg(x|µk,Σk)

(gはガウス分布の密度関数とする)

クラスタラベルZ =kは確率π_kで得られる．

Z ∼Mult(π₁, . . . , π_K)

クラスタがZ =kであるとき，xはガウス分布から得られる:

X|{Z =k} ∼N(µk,Σk).

この時，Xの周辺分布はp(X)となる．

では，X が与えられたもとでのZ の分布はどうなるだろうか？

(32)

ガウス要素への寄与率

ベイズの定理

P(Y|X) = P(X|Y)P(Y) P(X)

クラスタkへの寄与率:

P(Z =k|X) = g(X|µk,Σk)πk

∑K

k^′=1g(X|µ_k′,Σ_k′)π_k′

.

P(Z =k|X)が大きいほど，X はクラスタkに属している確率が高い．

パラメータをどう推定するか？

対数尤度関数が凹関数ではなく局所最適解がたくさんあるため，推定が難しい．

→EM-アルゴリズム．

29 / 45

(33)

EM- アルゴリズム ( ※超重要 )

EM-アルゴリズムのアイディア:

観測値{xi}ⁿi=1は不完全データ．

本来は，どのクラスタに属しているかの隠れ変数{z_i}ⁿi=1が裏にある．

隠れ変数を固定してしまえば，パラメータの最尤推定量は簡単に求まる．

隠れ変数{z_i}ⁿi=1を知っている時の対数尤度:

log ( _n

∏

i=1

g(xi|µz_i,Σz_i) )

.

これの{µ_k,Σ_k}k に関する最大化は簡単．

EM-アルゴリズムではz_iの分布を推定し，対数尤度のz_iに関する期待値を最

大化．

(34)

EM- アルゴリズムの手続き

{z_i}ⁿi=1の分布とθ={π_k, µ_k,Σ_k}k を交互に推定．（同時に推定は難しいが片方を固定した場合，もう片方の推定は簡単）

E-step: 隠れ変数{zi}iの分布を推定．

p(zi =k|xi; ˆθ_[t₋_1]) = πˆkg(xi; ˆµ^[t_k⁻^1],Σˆ^[t_k⁻^1])

∑K

k′=1πˆ^[t_k_′⁻^1]g(xi; ˆµ^[t_k_′⁻^1],Σˆ^[t_k_′⁻^1]) .

M-step: パラメータの推定．w_i^(k) =p(z_i =k|x_i; ˆθ_[t₋_1])として，

ˆ π^[t]_k =

∑n i=1w_i^(k⁾

n ,

ˆ µ^[t]_k =

∑n

i=1w_i^(k)xi

n ,

Σˆ^[t]_k =

∑n

i=1w_i^(k)(xi−µˆ^[t]_k )(xi−µˆ^[t]_k )^⊤

n .

31 / 45

(35)

EM- アルゴリズムの意味

M-stepでは，隠れ変数の分布を固定したもとでの重み付き尤度最大化を行って

いる．

{µˆ_k,Σˆ_k,πˆ_k}k = arg max

θ={µk,Σk,πk}k

∑n i=1

∑K k=1

w_i^(k)log(p(x =x_i,z_i =k|θ))

= arg max

θ={µ_k,Σ_k,π_k}k

∑n i=1

∑K k=1

w_i^(k)log(g(xi;µk,Σk)πk).

右辺のmaxの中身をL0(θ||θ[t−1])とおく．

(36)

L0は次のように展開できる．

L0(θ||θ[t−1]) =

∑n i=1

∑K k=1

w_i^(k)log(p(xi|zi =k;θ)πk)

=

∑n i=1

∑K k=1

w_i^(k)log(

∑k k^′=1

p(x_i|z_i =k^′;θ)π_k′)

+

∑n i=1

∑K k=1

w_i^(k⁾log (

p(x_i|z_i =k;θ)π_k

∑k

k^′=1p(xi|zi=k^′;θ)πk^′

)

=

∑n i=1

∑K k=1

w_i^(k)log(p(x_i|θ)) +

∑n i=1

∑K k=1

w_i^(k⁾log (p(z_i=k|x_i, θ))

=

∑n i=1

log(p(x_i|θ)) +

∑n i=1

∑K k=1

w_i^(k)log (p(z_i=k|x_i, θ)).

右辺第二項を−L1(θ||θ[t−1])とおくと，次が成り立つ:

∑n i=1

log(p(xi|θ))≥L0(θ||θ_[t₋_1]) +L1(θ||θ_[t₋_1]).

33 / 45

(37)

ここで

L(θ||θ_[t₋_1]) =−

∑n i=1

∑K k=1

w_i^(k)log (p(zi=k|xi, θ))

=

∑n i=1

∑K k=1

w_i^(k⁾log (

w_i^(k) p(zi=k|xi, θ)

)

−

∑n i=1

∑K k=1

w_i^(k)log(w_i^(k)).

今，w_i^(k)=p(z_i=k|x_i, θ_[t₋_1])であるので，

L₁(θ||θ_[t₋_1]) =

∑n i=1

KL(

p(z_i|x_i, θ_[t₋_1])||p(z_i|x_i, θ))

−

∑n i=1

∑K k=1

w_i^(k)log(w_i^(k⁾)

となる．ここで，KL(·||·)はKL-ダイバージェンスである．KL-ダイバージェンスは非負なので，

L₁(θ||θ_[t₋_1])−L₁(θ_[t₋_1]||θ_[t₋_1]) =

∑n i=1

KL(

p(z_i|x_i, θ_[t₋_1])||p(z_i|x_i, θ))

≥0 (∀θ) である．

(38)

以上より，対数尤度は

∑n i=1

log(p(x_i|θ))≥L₀(θ||θ_[t₋_1]) +L₁(θ||θ_[t₋_1])

で下から抑えられる．M-Stepで第一項L0(θ||θ_[t₋_1])を最大化することで，

L0(θ[t]||θ[t−1]) +L1(θ[t]||θ[t−1])−(L0(θ[t−1]||θ[t−1]) +L1(θ[t−1]||θ[t−1]))

≥L0(θ_[t]||θ_[t₋_1])−L0(θ_[t₋_1]||θ_[t₋_1])≥0

となるので，EM-アルゴリズムは尤度の下界を単調に増大させることに対応する．

このような方法を下界最大化アルゴリズムと呼ぶ．

※去年のスライドはこの部分が間違っています．

35 / 45

(39)

EM- アルゴリズムの注意点

EM-アルゴリズムは本当の大域的最適解には到達しない．

むしろ，到達しないほうが良い．

なぜなら，ある一点にµ_k をおいて，Σ_k →Oと極限を取れば尤度は無限大になるからである．

しかし，Σ_k =Oなる解は完全に過適合しており，推定量としては望ましくない．

EM-アルゴリズムはちょうどよい局所最適解を求める方法とみなすことができる．

(40)

R による混合ガウス分布のクラスタリング

library(mclust)

result <- Mclust(data)

result <- Mclust(data,G=3,modelNames=’’VVV’’)

G=3でクラスタ数を設定可能．modelNamesで分散共分散行列のモデルを設定．

modelNames 分散のモデル性質

EII λI 等方，等分散,等幅 VII λ_kI 等方，等分散,異幅 EEI λA 対角，等分散，等幅 VEI λkA 対角，等分散，異幅 EVI λAk 対角，異分散，等幅 VVI λkAk 対角，異分散，異幅 EEE λDAD^T 楕円，等分散，等幅 EEV λDkAD_k^T 楕円，回転同値，等幅 VEV λ_kD_kAD_k^T 楕円，回転同値，異幅 VVV λ_kD_kA_kD_k^T 楕円，異分散，異幅どのモデルがデフォルトで用いられるかはreferenceを参照．

37 / 45

(41)

−2 −1 0 1

−0.50.51.52.5

EII

−2 −1 0 1

−0.50.51.52.5

VII

−2 −1 0 1

−0.50.51.52.5

EEE

−2 −1 0 1

−0.50.51.52.5

VVV

(42)

クラスタ数設定

クラスタ数

K

はいくつ？

クラスタ数が事前にわからない場合，データから推定する必要がある．

Rの関数Mclustでは「BIC」が最良のモデル(クラスタ数)を用いる．

BIC：これまで観測したデータと同じ分布にしたがうデータを独立に発生させた 時に，それにどれだけよく当てはまるかを推定した量．AICと同様，過適合を防ぐためのモデル選択規準．

本来は混合モデルに安易に

BIC

を当てはめるのは間違いだが，

Mclust

ではこれがデフォルトになっている．

39 / 45

(43)

構成

2 k-means法

(44)

TOPIX CORE 30 銘柄時系列

TOPIX CORE 30指標に含まれる30銘柄．

過去250日分(2013/6/28–2014/7/4)の始値，安値，高値，終値(日足)が格納されている．

今回は始値/終値を日にちごとに計算し，時系列を構成．

41 / 45

(45)

TOPIX CORE 30: 階層的クラスタリング

ソフトバンクパナソニックＫＤＤＩ東芝ソニー三菱地所野村ホールディングスみずほフィナンシャルグループ三菱ＵＦＪフィナンシャル・グループ三井住友フィナンシャルグループ花王アステラス製薬ファナック信越化学工業小松製作所東京海上ホールディングス日本電信電話エヌ・ティ・ティ・ドコモ日本たばこ産業セブン＆アイ・ホールディングス東日本旅客鉄道三井物産三菱商事日産自動車キヤノン本田技研工業武田薬品工業トヨタ自動車新日鐵住金日立製作所

0.100.150.200.250.300.350.40

Cluster Dendrogram

dist(topix30)

Height

42 / 45

(46)

TOPIX CORE 30: 主成分分析

混合ガウスを当てはめるのに250次元は高すぎるので，主成分分析で低次元に落としてからクラスタリング．

‑4 ‑3 ‑2 ‑1 0 1

‑2‑1012

PC1

PC2

日本たばこ産業セブン＆アイ・ホールディングス信越化学工業

花王武田薬品工業

アステラス製薬新日鐵住金

小松製作所日立製作所

東芝パナソニック

ソニー

ファナック日産自動車トヨタ自動車

本田技研工業

キヤノン三井物産三菱商事三菱ＵＦＪフィナンシャル・グループ三井住友フィナンシャルグループ

みずほフィナンシャルグループ野村ホールディングス

東京海上ホールディングス三菱地所

東日本旅客鉄道

日本電信電話ＫＤＤＩ

エヌ・ティ・ティ・ドコモソフトバンク

43 / 45

(47)

TOPIX CORE 30: 混合ガウス分布

第三主成分スコアまでを用いてクラスタリング．

1 4 5 3 2

みずほフィナンシャルグループ野村ホールディングス東芝

三菱ＵＦＪフィナンシャル・グループ三井住友フィナンシャルグループアステラス製薬花王新日鐵住金ソニーＫＤＤＩ三菱地所パナソニックソフトバンク本田技研工業武田薬品工業ファナック東日本旅客鉄道日立製作所セブン＆アイ・ホールディングストヨタ自動車キヤノンエヌ・ティ・ティ・ドコモ信越化学工業日本たばこ産業小松製作所三菱商事東京海上ホールディングス日本電信電話三井物産日産自動車

5つのクラスタへの寄与率を計算．そのヒートマップをプロット．

(48)

講義情報ページ

http://www.is.titech.ac.jp/~s-taiji/lecture/2015/dataanalysis/

dataanalysis.html

45 / 45

データ解析 第十四回「クラスタリング」