Linear and nonlinear principal component analysis and its application

(1)

線形・非線形主成分分析とその応用

Linear and nonlinear principal component analysis and its application

数学専攻宮崎瑛子

Eiko MIYAZAKI

はじめに

主成分分析とは、互いに相関のある変数について観測されたデータのもつ情報を分散で捉え、その情報をできるだけ失うことなくもとの変数の線形結合で表わされる新たな変数へ要約するための手法である。この要約された新たな変数を用いて、データから興味ある情報をとり出すことができる。また、高次元空間に散らばるデータ構造を１次元直線、２次元平面、３次元空間などに射影し、次元を圧縮することで視覚的に把握することができる。

パターン認識という分野には顔画像の認識問題があり、坂野

(2001)

では、入力信号を何らかのクラスに割り当てることを目的に、姿勢や照明変動に対して主成分分析を応用している。北尾

(2001)

では、蛋白質はある少数の方向に変形しやすくエネルギー地形が複雑なことから、蛋白質の変形などのメカニズムの解明に主成分分析が用いられている。

主成分分析は、入力空間上のデータが線形構造を有している場合は有効であるが、データが非線形構造を内包している場合は従来の主成分分析で捉えることは難しい。そこで、非線形構造を捉えるために提唱された手法が、

カーネル主成分分析と呼ばれる手法である。この手法の基本的なアイデアは、入力空間上の非線形構造を有するデータを一度、特徴空間と呼ばれる高次元空間へ写像することによって線形構造をもつデータへと変換し、従来の線形性に基づく主成分分析を適用することにある。主成分分析では、観測データに基づく標本分散共分散行列の固有値問題に置き換えて主成分と呼ばれる射影軸を求める。これに対してカーネル主成分分析では、特徴空間上のデータ間の内積を成分とするデータ行列の固有値問題に置き換えて主成分を求める。しかし、特徴空間上に写像したデータの次元は、元の観測データの次元と比べて極めて大きく、データ間の内積の計算量が増大し、実際の計算が困難となる。この問題は、カーネル法を用いて高次元空間における内積の計算を、元の入力空間上のデータの内積計算に置き換えることによって克服する。

主成分分析では、新たに構成した主成分の分散は、標本分散共分散行列の固有値で与えられ、したがって固有値の大きい主成分ほど多くの情報量を持っている。そこで、情報量という観点から固有値の小さいものを取り除くことで次元圧縮を行う。しかし、情報量の小さい主成分もそれ自身有用な意味付けを見出すことができる場合もあり、また変動が小さいことからノイズを軽減する軸として用いることもできる。そこで、情報量の最も小さい最小固有値に着目し、χ²近似を行い、モンテカルロシミュレーションによって、χ²近似の精度の検証を行う。

本論文では、高次元データの線形構造の探索を目的とした主成分分析と、その基本的な考え方を発展させて非線形構造の探索を可能とするカーネル主成分分析について述べる。次に、画像データの圧縮と復元に主成分分析とカーネル主成分分析を応用し、手法の特徴及び有効性と問題点について検証する。さらに、正規性のもとで導出される標本分散共分散行列の確率分布行列である

Wishart

行列の最小固有値の近似分布を求める。

1

_{主成分分析}

ある個体に関する

p

個の変数を

x = (x

1

, x

2

, · · · , x

p

)

^T とする。この変数について観測された

n

個の

p

次元デー

タ

x

1

, x

2

, · · · , x

nに基づいて、次の標本分散共分散行列を求める。

S = (s

jk

) = 1 n

∑

n i=1

(x

i

− x)(x

i

− x)

^T

s

_jk

= 1 n

∑

n i=1

(x

_ij

− x

_j

)(x

_ik

− x

_k

) (j, k = 1, 2, · · · , p).

ただし、xは

p

次元標本平均ベクトルである。

次に、p個の変数の線形結合で表わされる射影軸

y = ω

₁

x

₁

+ ω

₂

x

₂

+ · · · + ω

_p

x

_p

= ω

^T

x

上へ、n個の

p

次元データを射影し

1

次元データ

y

_i

= ω

^T

x

_i

(i = 1, 2, · · · , n)

に変換すると、射影軸上の平均と分散は

y = ω

^T

x , s

²_y

= ω

^T

Sω

1

(2)

と表わされる。ただし、ωは係数ベクトル

ω = (ω

1

, ω

2

, · · · , ω

p

)

^T である。

データを

y = ω

^T

x

軸上へ射影したときの分散が最大となる係数ベクトル

ω

を求める問題は、

s

²_y

= ω

^T

Sω

の最大化問題に帰着される。ωに制約がなければ軸が一意に定まらないので

ω

_i^T

ω

_i

= 1

とし、また各主成分は直交するという条件

ω

_i^T

ω

_j

= 0(i ̸ = j)

のもとでの最大化問題を考える。これは、λをラグランジュ乗数としてラグランジュの未定乗数法によって解くことができ、次の標本分散共分散行列

S

の固有値問題となる。

Sω = λω. (1)

(1)

式より

S

の固有方程式を解き、解である

p

個の固有値を

λ

1

≥ λ

2

≥ · · · ≥ λ

p

≥ 0

とし、それぞれに対応する固有ベクトルを

ω

₁

, ω

₂

, · · · , ω

_pとする。ただし、ωi

= (ω

_i1

, ω

_i2

, · · · , ω

_ip

)

である。よって

p

個の主成分は

y

₁

= ω

₁₁

x

₁

+ ω

₁₂

x

₂

+ · · · + ω

_1p

x

_p

= ω

₁^T

x y

₂

= ω

₂₁

x

₁

+ ω

₂₂

x

₂

+ · · · + ω

_2p

x

_p

= ω

₂^T

x

.. .

y

_p

= ω

_p1

x

₁

+ ω

_p2

x

₂

+ · · · + ω

_pp

x

_p

= ω

_p^T

x

と表わされる。これらの主成分の中から固有値の大きいものを用いて高次元データを平面や空間へと射影することによって高次元データ構造の一端を視覚的に捉えることができる。

適用例として画像データの圧縮と復元が挙げられる。手書き数字の画像データ（一部）を用いて分析を行う。特徴の出やすいものとして”4”の手書き数字について主成分分析を行う。Figure 1の左端の

4

の画像をデータ化して主成分に変換し元に戻すことを考える。括弧内の数値は累積寄与率を表す。オリジナル画像の次の画像は第

1

主成分を用いて復元した画像を表わし、右にいくほど多くの主成分を用いて復元している。第

1

主成分のみの画像はかなりぼやけているが、第

100

主成分までを用いると元の画像を約

80

％復元しているということが読み取れる。

0.0 0.4 0.8

1.00.60.2

オリジナル画像

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

第

1

主成分

(0.042)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

第

1-10

主成分

(0.265)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

第

1-50

主成分

(0.625)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

第

1-100

主成分

(0.819) Figure 1:

手書き数字

4

への主成分分析の適用

2

ウィシャート行列における最小固有値の近似分布

p

次元確率変数ベクトル

X

₁

, . . . , X

_N は

N

_p

(µ, Σ)

に従っているとする。標本分散共分散行列を

S

とすると、標本偏差平方和行列

A

は

A = nS

と表わすことができ、W

(Σ, p, n)

に従う。確率行列

A

の確率密度関数は

f (A) = C | A |

¹²⁽ⁿ⁻^p⁻¹⁾

exp[ − 1

2 tr Σ

⁻¹

A], C = 1 2

^pn²

| Σ |

ⁿ²

Γ(

ⁿ₂

)

となる。さらに、Σの固有値を

λ

1

≥ · · · ≥ λ

p

≥ 0、S

の固有値を

ℓ

1

> · · · > ℓ

p

> 0

とする。Aはその固有値

ℓ

1

, · · · , ℓ

pからなる対角行列

D

ℓと

p × p

直交行列

H

を用いてスペクトル分解できる。よって、Dℓと

H

の同時確

率密度関数は

f (D

ℓ

, H) = C | D

ℓ

|

¹²⁽ⁿ⁻^p⁻¹⁾

exp[ − 1

2 tr Σ

⁻¹

HD

ℓ

H

^T

](dD

ℓ

)(dH),

と表わされる。また、(dDℓ

) = dℓ

1

· · · dℓ

p、(dH)は

p

次直交行列全体

O(m)

での積分

∫

O(m)

(dH)

が

1

となるように正規化されたハール測度である。ここで

tr Σ

⁻¹

H

^T

D

ℓ

H = tr Σ

⁻¹

H

^T

(D

ℓ

− ℓ

p

I)H + ℓ

p

tr Σ

⁻¹

2

(3)

と表わし、Du

= diag(u

1

, · · · , u

p−1

, 0) = D

ℓ

− ℓ

p

I

とおく。ℓi

(i = 1, · · · , p)

の同時確率密度関数は

f (ℓ

1

, · · · , ℓ

p

) = C | D

u

+ ℓ

p

I |

¹²⁽ⁿ⁻^p⁻¹⁾

exp[ − 1

2 tr Σ

⁻¹

H

^T

D

u

H]

exp[ − 1

2 ℓ

p

tr Σ

⁻¹

] ∏

i<j

(ℓ

i

− ℓ

p

)(dD

ℓ

)(dH) (2)

と与えられる。さらに、(2)式より

| D

u

+ ℓ

p

I | = (u

1

+ ℓ

p

)(u

2

+ ℓ

p

) · · · (u

p−1

+ ℓ

p

)ℓ

p

> u

1

· u

2

· · · · · u

p−1

· ℓ

p

となる。よって、次の密度関数が求まる。

C | D

_u^∗

|

¹²⁽ⁿ⁻^p⁻¹⁾

exp[ − 1

2 tr Σ

⁻¹

H

^T

D

_u

H] ·

p

∏

−1 i<j

(u

_i

− u

_j

)

p

∏

−1 i=1

du

_i

(dH)ℓ

_p¹²⁽ⁿ⁻^p⁻¹⁾

exp[ − 1

2 ℓ

_p

tr Σ

⁻¹

]dℓ

_p

.

ただし、D^∗_u

= diag(u

₁

, u

₂

, · · · , u

_p₋₁

)

とする。次に、Duと

H

に関して積分すると、最小固有値

ℓ

_pの密度関数

f (ℓ

p

) = C

^′

ℓ

1 2(n−p−1)

p

exp[ − 1

2 ℓ

p

(λ

⁻₁¹

+ λ

⁻₂¹

+ · · · + λ

⁻_p¹

)] (3)

が得られる。ここで、C^′は定数である。(3)式において、λ

= 1

2 (λ

⁻₁¹

+ λ

⁻₂¹

+ · · · + λ

⁻_p¹

)

とおき、定数

C

^′の値を求めるために

(0, ∞ )

の範囲での積分を

1

とすると

f (ℓ

_p

) = C

^′

ℓ

p¹²⁽ⁿ⁻^p⁻¹⁾

e

⁻^λℓ^p

, C

^′

= λ

¹²⁽ⁿ⁻^p+1)

Γ

( 1

2 (n − p + 1) ) .

と表わすことができる。よって、最小固有値

ℓ

pの密度関数は

χ

²分布で近似できる。さらに、λにおいて

λ

⁻₁¹

+ · · · + λ

⁻_p₋¹₁の値が

0

に近いとすると

λ =

¹₂

λ

⁻_p¹と近似でき、近似式は次で与えられる。

h

^∗

(ℓ

p

) = 1

Γ ( 1

2 (n − p + 1) )

(2λ

p

)

¹²⁽ⁿ⁻^p+1)

ℓ

1

2(n−p+1)−1

p

e

⁻

ℓp 2λp

.

3

カーネル主成分分析

ある個体の特性を表す

p

次元変数ベクトル

x = (x

1

, x

2

, · · · , x

p

)

^T を特徴空間へ写像し、r次元変数ベクトル

Φ(x) = (ϕ

1

(x), ϕ

2

(x), · · · , ϕ

r

(x))

^T とする。ただし、r >> pとする。このとき、特徴空間上へ写像した

n

個のデータからなるデータ行列を

Z

_c

= (Φ

_c

(x

₁

), Φ

_c

(x

₂

), · · · , Φ

_c

(x

_n

))

^T とすると、標本分散共分散行列

S

cは

S

c

= 1 n Z

_c^T

Z

c

と表わされる。ここで、cはデータが中心化されていることを表わす。このとき、特徴空間上のデータに対して主成分分析を実行すると、Scの固有値問題

S

c

ω = λω

に帰着される。

特徴空間上のデータ間の内積に基づく行列を

K

c

= Z

c

Z

_c^T

=



 

 

Φ

c

(x

1

)

^T

Φ

c

(x

1

) Φ

c

(x

1

)

^T

Φ

c

(x

2

) · · · Φ

c

(x

1

)

^T

Φ

c

(x

n

) Φ

c

(x

2

)

^T

Φ

c

(x

1

) Φ

c

(x

2

)

^T

Φ

c

(x

2

) · · · Φ

c

(x

2

)

^T

Φ

c

(x

n

)

.. . .. . . . . .. .

Φ

_c

(x

_n

)

^T

Φ

_c

(x

₁

) Φ

_c

(x

_n

)

^T

Φ

_c

(x

₂

) · · · Φ

_c

(x

_n

)

^T

Φ

_c

(x

_n

)



 

  (4)

とすると、Scの固有値問題は

K

_cの固有値問題

K

c

c = nλc

3

(4)

に置き換えられる。ただし、cは固有ベクトルで、ω^T

ω = 1

より

nλc

^T

c = 1

を満たすものとする。入力空間上のデータの次元が高ければより高次の特徴空間へ写像する必要があり、データ間の内積

Φ

_c

(x

_j

)

^T

Φ

_c

(x

_k

)

の計算量が増大し、計算が困難になる。ここでカーネル法

K

c

(x

j

, x

k

) = Φ

c

(x

j

)

^T

Φ

c

(x

k

)

を用いることにより、特徴空間上の内積の計算量が入力空間上での次元数の計算量で抑えられる。(2)式は

K

_c

=



 

 

K

_c

(x

₁

, x

₁

) K

_c

(x

₁

, x

₂

) · · · K

_c

(x

₁

, x

_n

) K

_c

(x

₂

, x

₁

) K

_c

(x

₂

, x

₂

) · · · K

_c

(x

₂

, x

_n

)

.. . .. . . . . .. . K

c

(x

n

, x

1

) K

c

(x

n

, x

2

) · · · K

c

(x

n

, x

n

)



 

  .

とカーネルで捉える。さらに、カーネル関数を用いて第

α

番目の主成分は

y

α

=

∑

n i=1

c

iα

K

c

(x

i

, x)

と表わされる。このように、特徴空間上へと写像したデータに基づいて主成分分析を実行する。

以上は、入力空間上で観測されたデータを特徴空間上へ写像し、中心化したデータの内積をカーネル関数で置き換えてカーネル主成分分析を適用した場合である。高次元空間上の中心化されていないデータの場合は内積をカーネル関数

K(x

_j

, x

_k

) = Φ(x

_j

)

^T

Φ(x

_k

)

で置き換えて実行する。

応用例として、主成分分析で用いた手書き数字データにカーネル主成分分析を適用する。パラメータ

σ

の値を

0.01、0.02、0.05、0.0001

に変化させ、第

10

主成分まで用いた結果を

Figure 2

に示す。σの値によって圧縮された画像に違いがあることが分かる。

0.0 0.4 0.8

1.00.60.2

オリジナル画像

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.01)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.02)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.05)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.0001) Figure 2:

手書き数字

4

へのカーネル主成分分析の適用

(第 10

主成分まで)

4

今後の課題

従来の主成分分析が使われてきた画像データ以外のさまざまな分野の問題に対して、カーネル主成分分析を適用することでより有効な情報抽出が可能かどうかを検討することが挙げられる。また、カーネル主成分分析において、パラメータ

σ

の値によって結果が変動することが分かったので、適切な

σ

の値を決定する問題が挙げられる。さらに、ガウスカーネルの他に、多項式カーネルやシグモイドカーネルを用いることが考えられるが、それらの理論的・実際的な検証は今後の研究課題である。

References

[1]

小西貞則, 多変量データ解析入門 -線形から非線形へ-, 岩波書店

(2010).

[2] C.M.

ビショップ, パターン認識と機械学習下, Springer (2008)

[3]

赤穂昭太郎, カーネル多変量解析非線形データ解析の新しい展開, 岩波書店

(2008)

[4] Anderson , T. W. (2003). An Introduction to Multivariate Statistical Analysis (3rd ed.). John Wiley &

Sons, New York.

4