• 検索結果がありません。

Linear and nonlinear principal component analysis and its application

N/A
N/A
Protected

Academic year: 2021

シェア "Linear and nonlinear principal component analysis and its application"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

線形・非線形主成分分析とその応用

Linear and nonlinear principal component analysis and its application

数学専攻 宮崎 瑛子

Eiko MIYAZAKI

はじめに

主成分分析とは、互いに相関のある変数について観測されたデータのもつ情報を分散で捉え、その情報をできる だけ失うことなくもとの変数の線形結合で表わされる新たな変数へ要約するための手法である。この要約された 新たな変数を用いて、データから興味ある情報をとり出すことができる。また、高次元空間に散らばるデータ構 造を1次元直線、2次元平面、3次元空間などに射影し、次元を圧縮することで視覚的に把握することができる。

パターン認識という分野には顔画像の認識問題があり、坂野

(2001)

では、入力信号を何らかのクラスに割り当て ることを目的に、姿勢や照明変動に対して主成分分析を応用している。北尾

(2001)

では、蛋白質はある少数の方 向に変形しやすくエネルギー地形が複雑なことから、蛋白質の変形などのメカニズムの解明に主成分分析が用い られている。

 主成分分析は、入力空間上のデータが線形構造を有している場合は有効であるが、データが非線形構造を内包 している場合は従来の主成分分析で捉えることは難しい。そこで、非線形構造を捉えるために提唱された手法が、

カーネル主成分分析と呼ばれる手法である。この手法の基本的なアイデアは、入力空間上の非線形構造を有する データを一度、特徴空間と呼ばれる高次元空間へ写像することによって線形構造をもつデータへと変換し、従来 の線形性に基づく主成分分析を適用することにある。主成分分析では、観測データに基づく標本分散共分散行列 の固有値問題に置き換えて主成分と呼ばれる射影軸を求める。これに対してカーネル主成分分析では、特徴空間 上のデータ間の内積を成分とするデータ行列の固有値問題に置き換えて主成分を求める。しかし、特徴空間上に 写像したデータの次元は、元の観測データの次元と比べて極めて大きく、データ間の内積の計算量が増大し、実 際の計算が困難となる。この問題は、カーネル法を用いて高次元空間における内積の計算を、元の入力空間上の データの内積計算に置き換えることによって克服する。

主成分分析では、新たに構成した主成分の分散は、標本分散共分散行列の固有値で与えられ、したがって固有 値の大きい主成分ほど多くの情報量を持っている。そこで、情報量という観点から固有値の小さいものを取り除 くことで次元圧縮を行う。しかし、情報量の小さい主成分もそれ自身有用な意味付けを見出すことができる場合 もあり、また変動が小さいことからノイズを軽減する軸として用いることもできる。そこで、情報量の最も小さ い最小固有値に着目し、χ2近似を行い、モンテカルロシミュレーションによって、χ2近似の精度の検証を行う。

 本論文では、高次元データの線形構造の探索を目的とした主成分分析と、その基本的な考え方を発展させて非 線形構造の探索を可能とするカーネル主成分分析について述べる。次に、画像データの圧縮と復元に主成分分析 とカーネル主成分分析を応用し、手法の特徴及び有効性と問題点について検証する。さらに、正規性のもとで導 出される標本分散共分散行列の確率分布行列である

Wishart

行列の最小固有値の近似分布を求める。

1

主成分分析

ある個体に関する

p

個の変数を

x = (x

1

, x

2

, · · · , x

p

)

T とする。この変数について観測された

n

個の

p

次元デー

x

1

, x

2

, · · · , x

nに基づいて、次の標本分散共分散行列を求める。

S = (s

jk

) = 1 n

n i=1

(x

i

x)(x

i

x)

T

s

jk

= 1 n

n i=1

(x

ij

x

j

)(x

ik

x

k

) (j, k = 1, 2, · · · , p).

ただし、x

p

次元標本平均ベクトルである。

次に、p個の変数の線形結合で表わされる射影軸

y = ω

1

x

1

+ ω

2

x

2

+ · · · + ω

p

x

p

= ω

T

x

上へ、n個の

p

次元データを射影し

1

次元データ

y

i

= ω

T

x

i

(i = 1, 2, · · · , n)

に変換すると、射影軸上の平均と分 散は

y = ω

T

x , s

2y

= ω

T

1

(2)

と表わされる。ただし、ωは係数ベクトル

ω = (ω

1

, ω

2

, · · · , ω

p

)

T である。

データを

y = ω

T

x

軸上へ射影したときの分散が最大となる係数ベクトル

ω

を求める問題は、

s

2y

= ω

T

の最 大化問題に帰着される。ωに制約がなければ軸が一意に定まらないので

ω

iT

ω

i

= 1

とし、また各主成分は直交す るという条件

ω

iT

ω

j

= 0(i ̸ = j)

のもとでの最大化問題を考える。これは、λをラグランジュ乗数としてラグラン ジュの未定乗数法によって解くことができ、次の標本分散共分散行列

S

の固有値問題となる。

= λω. (1)

(1)

式より

S

の固有方程式を解き、解である

p

個の固有値を

λ

1

λ

2

≥ · · · ≥ λ

p

0

とし、それぞれに対応する固有ベクトルを

ω

1

, ω

2

, · · · , ω

pとする。ただし、ωi

= (ω

i1

, ω

i2

, · · · , ω

ip

)

である。よっ

p

個の主成分は

y

1

= ω

11

x

1

+ ω

12

x

2

+ · · · + ω

1p

x

p

= ω

1T

x y

2

= ω

21

x

1

+ ω

22

x

2

+ · · · + ω

2p

x

p

= ω

2T

x

.. .

y

p

= ω

p1

x

1

+ ω

p2

x

2

+ · · · + ω

pp

x

p

= ω

pT

x

と表わされる。これらの主成分の中から固有値の大きいものを用いて高次元データを平面や空間へと射影するこ とによって高次元データ構造の一端を視覚的に捉えることができる。

 適用例として画像データの圧縮と復元が挙げられる。手書き数字の画像データ(一部)を用いて分析を行う。特 徴の出やすいものとして”4”の手書き数字について主成分分析を行う。Figure 1の左端の

4

の画像をデータ化し て主成分に変換し元に戻すことを考える。括弧内の数値は累積寄与率を表す。オリジナル画像の次の画像は第

1

主成分を用いて復元した画像を表わし、右にいくほど多くの主成分を用いて復元している。第

1

主成分のみの画 像はかなりぼやけているが、第

100

主成分までを用いると元の画像を約

80

%復元しているということが読み取れる。

0.0 0.4 0.8

1.00.60.2

オリジナル画像

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

1

主成分

(0.042)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

1-10

主成分

(0.265)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

1-50

主成分

(0.625)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

1-100

主成分

(0.819) Figure 1:

手書き数字

4

への主成分分析の適用

2

ウィシャート行列における最小固有値の近似分布

p

次元確率変数ベクトル

X

1

, . . . , X

N

N

p

(µ, Σ)

に従っているとする。標本分散共分散行列を

S

とすると、標 本偏差平方和行列

A

A = nS

と表わすことができ、W

(Σ, p, n)

に従う。確率行列

A

の確率密度関数は

f (A) = C | A |

12(np1)

exp[ 1

2 tr Σ

1

A], C = 1 2

pn2

| Σ |

n2

Γ(

n2

)

となる。さらに、Σの固有値を

λ

1

≥ · · · ≥ λ

p

0、S

の固有値を

1

> · · · > ℓ

p

> 0

とする。Aはその固有値

1

, · · · , ℓ

pからなる対角行列

D

p × p

直交行列

H

を用いてスペクトル分解できる。よって、D

H

の同時確

率密度関数は

f (D

, H) = C | D

|

12(np1)

exp[ 1

2 tr Σ

1

HD

H

T

](dD

)(dH),

と表わされる。また、(dD

) = dℓ

1

· · · dℓ

p、(dH)

p

次直交行列全体

O(m)

での積分

O(m)

(dH)

1

となるよう に正規化されたハール測度である。ここで

tr Σ

1

H

T

D

H = tr Σ

1

H

T

(D

p

I)H +

p

tr Σ

1

2

(3)

と表わし、Du

= diag(u

1

, · · · , u

p1

, 0) = D

p

I

とおく。ℓi

(i = 1, · · · , p)

の同時確率密度関数は

f (ℓ

1

, · · · , ℓ

p

) = C | D

u

+

p

I |

12(np1)

exp[ 1

2 tr Σ

1

H

T

D

u

H]

exp[ 1

2

p

tr Σ

1

] ∏

i<j

(ℓ

i

p

)(dD

)(dH) (2)

と与えられる。さらに、(2)式より

| D

u

+

p

I | = (u

1

+

p

)(u

2

+

p

) · · · (u

p−1

+

p

)ℓ

p

> u

1

· u

2

· · · · · u

p−1

·

p

となる。よって、次の密度関数が求まる。

C | D

u

|

12(np1)

exp[ 1

2 tr Σ

1

H

T

D

u

H] ·

p

1 i<j

(u

i

u

j

)

p

1 i=1

du

i

(dH)ℓ

p12(np1)

exp[ 1

2

p

tr Σ

1

]dℓ

p

.

ただし、Du

= diag(u

1

, u

2

, · · · , u

p1

)

とする。次に、Du

H

に関して積分すると、最小固有値

pの密度関数

f (ℓ

p

) = C

1 2(n−p−1)

p

exp[ 1

2

p

11

+ λ

21

+ · · · + λ

p1

)] (3)

が得られる。ここで、Cは定数である。(3)式において、λ

= 1

2 (λ

11

+ λ

21

+ · · · + λ

p1

)

とおき、定数

C

の値を 求めるために

(0, )

の範囲での積分を

1

とすると

f (ℓ

p

) = C

p12(np1)

e

λℓp

, C

= λ

12(np+1)

Γ

( 1

2 (n p + 1) ) .

と表わすことができる。よって、最小固有値

pの密度関数は

χ

2分布で近似できる。さらに、λにおいて

λ

11

+ · · · + λ

p11の値が

0

に近いとすると

λ =

12

λ

p1と近似でき、近似式は次で与えられる。

h

(ℓ

p

) = 1

Γ ( 1

2 (n p + 1) )

(2λ

p

)

12(np+1)

1

2(n−p+1)−1

p

e

ℓp 2λp

.

3

カーネル主成分分析

ある個体の特性を表す

p

次元変数ベクトル

x = (x

1

, x

2

, · · · , x

p

)

T を特徴空間へ写像し、r次元変数ベクトル

Φ(x) = (ϕ

1

(x), ϕ

2

(x), · · · , ϕ

r

(x))

T とする。ただし、r >> pとする。このとき、特徴空間上へ写像した

n

個の データからなるデータ行列を

Z

c

= (Φ

c

(x

1

), Φ

c

(x

2

), · · · , Φ

c

(x

n

))

T とすると、標本分散共分散行列

S

c

S

c

= 1 n Z

cT

Z

c

と表わされる。ここで、cはデータが中心化されていることを表わす。このとき、特徴空間上のデータに対して主 成分分析を実行すると、Scの固有値問題

S

c

ω = λω

に帰着される。

特徴空間上のデータ間の内積に基づく行列を

K

c

= Z

c

Z

cT

=

 

 

Φ

c

(x

1

)

T

Φ

c

(x

1

) Φ

c

(x

1

)

T

Φ

c

(x

2

) · · · Φ

c

(x

1

)

T

Φ

c

(x

n

) Φ

c

(x

2

)

T

Φ

c

(x

1

) Φ

c

(x

2

)

T

Φ

c

(x

2

) · · · Φ

c

(x

2

)

T

Φ

c

(x

n

)

.. . .. . . . . .. .

Φ

c

(x

n

)

T

Φ

c

(x

1

) Φ

c

(x

n

)

T

Φ

c

(x

2

) · · · Φ

c

(x

n

)

T

Φ

c

(x

n

)

 

  (4)

とすると、Scの固有値問題は

K

cの固有値問題

K

c

c = nλc

3

(4)

に置き換えられる。ただし、cは固有ベクトルで、ωT

ω = 1

より

nλc

T

c = 1

を満たすものとする。入力空間上の データの次元が高ければより高次の特徴空間へ写像する必要があり、データ間の内積

Φ

c

(x

j

)

T

Φ

c

(x

k

)

の計算量が 増大し、計算が困難になる。ここでカーネル法

K

c

(x

j

, x

k

) = Φ

c

(x

j

)

T

Φ

c

(x

k

)

を用いることにより、特徴空間上の内積の計算量が入力空間上での次元数の計算量で抑えられる。(2)式は

K

c

=

 

 

K

c

(x

1

, x

1

) K

c

(x

1

, x

2

) · · · K

c

(x

1

, x

n

) K

c

(x

2

, x

1

) K

c

(x

2

, x

2

) · · · K

c

(x

2

, x

n

)

.. . .. . . . . .. . K

c

(x

n

, x

1

) K

c

(x

n

, x

2

) · · · K

c

(x

n

, x

n

)

 

  .

とカーネルで捉える。さらに、カーネル関数を用いて第

α

番目の主成分は

y

α

=

n i=1

c

K

c

(x

i

, x)

と表わされる。このように、特徴空間上へと写像したデータに基づいて主成分分析を実行する。

以上は、入力空間上で観測されたデータを特徴空間上へ写像し、中心化したデータの内積をカーネル関数で置 き換えてカーネル主成分分析を適用した場合である。高次元空間上の中心化されていないデータの場合は内積を カーネル関数

K(x

j

, x

k

) = Φ(x

j

)

T

Φ(x

k

)

で置き換えて実行する。

 応用例として、主成分分析で用いた手書き数字データにカーネル主成分分析を適用する。パラメータ

σ

の値を

0.01、0.02、0.05、0.0001

に変化させ、第

10

主成分まで用いた結果を

Figure 2

に示す。σの値によって圧縮され た画像に違いがあることが分かる。

0.0 0.4 0.8

1.00.60.2

オリジナル画像

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.01)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.02)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.05)

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

0.0 0.4 0.8

1.00.60.2

(σ = 0.0001) Figure 2:

手書き数字

4

へのカーネル主成分分析の適用

(第 10

主成分まで)

4

今後の課題

 従来の主成分分析が使われてきた画像データ以外のさまざまな分野の問題に対して、カーネル主成分分析を適 用することでより有効な情報抽出が可能かどうかを検討することが挙げられる。また、カーネル主成分分析にお いて、パラメータ

σ

の値によって結果が変動することが分かったので、適切な

σ

の値を決定する問題が挙げられ る。さらに、ガウスカーネルの他に、多項式カーネルやシグモイドカーネルを用いることが考えられるが、それ らの理論的・実際的な検証は今後の研究課題である。

References

[1]

小西貞則, 多変量データ解析入門 -線形から非線形へ-, 岩波書店

(2010).

[2] C.M.

ビショップ, パターン認識と機械学習 下, Springer (2008)

[3]

赤穂昭太郎, カーネル多変量解析 非線形データ解析の新しい展開, 岩波書店

(2008)

[4] Anderson , T. W. (2003). An Introduction to Multivariate Statistical Analysis (3rd ed.). John Wiley &

Sons, New York.

4

参照

関連したドキュメント

Oral tongue squamous cell carcinoma, Predictor of cervical lymph node metastasis, Statistical

Heuristic principal component analysis-based unsupervised feature extraction applied to gene expression analysis of amyotrophic lateral sclerosis data sets Y-h.. Abstract:

pyogenes SF370, that grown under shaking or static culture condition, were clustered into three groups Figures 1 and 2: the whole cellular proteome all whole cell experiments

Perception of the Relative Potency of Various Foods and Meals for Increasing the Blood Glucose Level in Patients with Diabetes Mellitus: A.. Study Based on

The reason for using PCA for analyzing the time series is the expectation that some of the relevant characteristic features, which in this study are changes

[F] Fuller: Introduction to Statistical Time Series, 2nd ed., Wiley.. [R2] Ross: Introduction to Probability Models, 8th ed., Academic

Statistical modeling and reliability analysis for multi‑component systems with dependent

Statistical modeling and reliability analysis for multi‑component systems with dependent