講義内容

(1)

1 主成分分析(PCA)とは

2009.11.4 「互いに相関のある多種類の変数を，互いに無相関な少数個の変数に要約する」

_k

x₂

u

₂ 平均ベクトルが０の２変数分布の場合る．」少ない次元数で解析，圧縮などを行う．

x

=

k

₁

u

₁

+

k

₂

u

₂

u

1 2

x

u

x

ˆ

=

k

₁ ₁

≈

x₁ ２次元から１次元 1 1 u₁：サンプルの分散が最大の方向 _x ２次元から１次元への削減分散最大の軸への 1 サンプルの分散が最大の方向（単位ベクトル） u₂：２番目に分散が大きい方向 x₂

u

₁ 分散最大の軸への投影 2 （単位ベクトル）（２変数の場合は，分散が最小の方向） _x 1

x

≈ k

₁

u

₁ 1

2 回帰分析とはどこが違う？

回帰分析：１個以上の説明変数を用いて1個（以上）的変数を近似的な関数表主成分分析：複数個の変数から互いに無相関な変数（もと変数線形結合表され）上）の目的変数を近似的な関数で表現すること．（もとの変数の線形結合で表現される）に集約すること．（回帰分析のような主従関係はない）２変数に対する１次回帰分析との違い２変数に対する１次回帰分析との違い

x

=

k

u

+

k

u

x₂

u

₁

u

₂ ２変数に対する１次回帰分析との違い２変数に対する１次回帰分析との違い x₂

x

=

k

₁

u

₁

+

k

₂

u

₂

u

1

x

u

x

ˆ

=

k

₁ ₁

≈

x₁ ２次元から１次元 x₁ ２次元から１次元への削減

(2)

3 平均が０ベクトルでないときの手順

x₂

u

₁

u

₂

x

=

m

+

k

₁

u

₁

+

k

₂

u

₂

x

'

= −

x

m

k

x₂

u

この状態で主成分分析を行う

k

₁

u

₁

u

=

k

₁ ₁

+

k

₂ ₂

u

₁

u

₂ 平均ベクトルを引く x₁

m

_x 1 x₁ ２次元から１次元への削減 x₂

u

₁

' k

平均ベクトルを足す

x m

≈

+ k

₁

u

₁ x₂ x

'

x

≈ k

₁

u

₁ を足す

m

_x 1 x₁

4 高次元の主成分分析

m次元から２次元への要約 m次元から２次元への要約

x

=

m

+

k

₁

u

₁

+

k

₂

u

₂

+ +

"

k

u

x_m _u 1 u₂

x

m

+

k

1

u

1

+

k

2

u

2

+ +

k

m

u

m

x m

=

+

k

₁

u

₁

+

k

₂

u

₂ x₁ x₂

x

m

+

k

₁

u

₁

+

k

₂

u

₂

(3)

5 共分散行列の復習（２変数の場合）

共分散行列各変数とも，平均を０にしてから相関を計算して得られる行列

(

)

(

)(

)

(

)(

)

(

)

⎥

⎤

⎢

⎡

₋

=

∑

= = 2 1 2 2 , 1 1 , 1 2 1 1 ,

1

n n n i i i n i i

x

m

x

m

n

m

x

n

C

(

)(

)

(

)

(

)(

)

=

_⎢

⎡

_⎥

⎤

=

⎥

⎦

⎢

⎣

−

∑

= = 12 2 1 1 2 2 2 , 1 2 2 , 1 1 ,

1

1 σ

σ

n T i i i i i

x

m

n

m

x

m

x

n

m

x

m

x

(

)(

)

_⎥

⎦

⎢

⎣

=

−

=

∑

=1

σ

12

σ

22 i i i

n

x

m

x

m

(例１）２変数間に相関がある場合 (例２）２変数間に相関がない場合

⎤

⎡

2

⎡

2

⎤

⎥

⎦

⎤

⎢

⎣

⎡

=

₂ 2 12 12 2 1

σ

C

⎥

⎦

⎤

⎢

⎣

⎡

=

₂ 2 2 1

0

0 σ

σ

C

6 主成分の方向u

₁

,u

₂

を求める

方針２変数間で相関が０になる方向，すなわち共分散行列が対角行列になる方向を求めればよい方針 _x 2

u

2

u

方向を求めればよい．上記の条件を満足する，正規直交基底 k₁ k₂ x₁ 1

u

u₁,u₂: 正規直交基底ベクトル ベクトルをu₁,u₂とする．この２つの基底ベクトルを用いた座標変換は以下のように表される 1 変換は以下のように表される． Uで変換した後の共分散行列C_kは

⎤

⎡

⎤

⎡

⎤

⎡

k

u

x

)

1 (

2 1 22 21 12 11 2 1

_"

⎥

⎦

⎤

⎢

⎣

⎡

⎥

⎦

⎤

⎢

⎣

⎡

=

⎥

⎦

⎤

⎢

⎣

⎡

x

u

k

)

2 (

)

(

"

CU

U

xx

U

x

U

x

U

kk

C

T T T T T T T k

=

またはベクトル表現でただし両辺にUを左からかけて左右入れ替えると

x

U

k

=

U

T

x

U

=

[

u

1

u

2

]

k

[

1 2

]

)

3 (

"

k T

UC

CU

UU

=

(4)

7 主成分の方向を求める（つづき）

これは，もとのデータの共分散行列 Cに対する固有値問題に他ならない T 1

( )

Uの正規直交性より

)

3 (

"

k T

UC

CU

UU

=

Cに対する固有値問題に他ならない． すなわち，u₁,u₂は行列Cの固有ベクトル， 2 2_{は固有値として求められる}

U

T

=

U

−1

"

(4)

よって（３）式は 共分散の対角化がUによってなされると σ₁2_{, σ} 22は固有値として求められる．

)

(

0

2

i

all

for

i

≥

⇒

σ

は実対称行列

C

k

UC

CU

=

共分散の対角化がUによってなされると すると固有値σi2は対角化されたデータの各変数の分散を与える．

)

5 (

0

2 2 1

_"

⎥

⎦

⎤

⎢

⎣

⎡

=

σ

k

C

成分に分けて表すと

_u

1

u

₂

0

₂2

⎥

_⎦

⎢

⎣

σ

k

⎤

⎡

2

0 σ

または

[

] [

]

_⎥

⎦

⎤

⎢

⎣

⎡

=

₂ 2 1 2 1 2 1

0

0 σ

σ

u

C

₂ 1

σ

2 2

σ

2 2 2 2 1 2 1 1

u

,

Cu

u

Cu

=

σ

=

σ

8 主成分の方向を求める－一般の高次元データ－

サンプルデータ：座標変換後の共分散行列：２次元での議論をそのままｍ次元へ拡張すればよい

[

]

座標変換後の共分散行列：

[

]

⎥

⎤

⎢

⎡

=

n n

x

₁_,₁ _,₁ 1

#

" x

x

X

⎥

⎤

⎢

⎡

2 1

0 σ

%

C

⎥

⎦

⎢

⎣

=

m n m

x

₁_, _,

#

"

#

⎥

⎦

⎢

⎣

=

2

0

_m k

σ

%

C

=

1 XX

T サンプルデータの共分散行列：固有値問題の表現： k

UC

CU

=

C

XX

n

対角化する基底ベクトルのセット：または

[

]

U

m

i

for

i i i

,

1 ,...,

2

=

u

Cu

σ

[

]

⎥

⎤

⎢

⎡

=

m m

u

₁_,₁ _,₁ 1

#

" u

u

U

⎥

⎦

⎢

⎣

=

m m m

u

₁_, _,

#

"

#

(5)

9 主成分の方向を求める－計算例－

共分散行列が以下の式で表されるサンプルの集合を考える．

⎤

⎡1

⎥

⎦

⎤

⎢

⎣

⎡

=

1

1 α

α

C

ただし平均ベクトルは０とする

α

的に描きなさい

サンプルの分布を模式

について，

が以下の３種類の場合

問題１：

ただし平均ベクトルは０とする．

5 .

0 )

ii

(

0 )

i

(

=

α

的に描きなさい．

サンプルの分布を模式

．

分を計算で求めなさい

の場合について，主成

問題２：　

0 <

α

<

1

0 .

1 )

iii

(

α

=

を解くとと同値あ

①固有値問題

ヒント　

)

1 (

)

(

Cu

=

λ

u

⇔

C

−

λ

I

u

=

0 "

を用いる．

②正規性の条件

る．

を解くことと同値であ

1

2 2 2 1

+

=

u

10 低次元主成分による近似と誤差

もとの変数と主成分ベクトルの係数との間には以下の関係がある．誤差ベクトルは ) ( ) ( ) ( ) ( ) ( ) (

ˆx

x

e

j j j j j j

=

−

また，Uの正規直交性より

x

U

k

=

T 2 ) ( 2 1 ) ( 1 2 ) ( 2 1 ) ( 1

)

(

u

j j j j

k

=

−

+

=

誤差ベクトルの大きさ（ノルムの2乗）はまたは

Uk

x

UU

Uk

=

T

⇒

=

誤差ベクトルの大きさ（ノルムの2乗）は 2 ) ( 2 2 2 ) ( 2 2 ) (

|

e

j

=

k

j

u

=

k

j

x

=

u

=

∑

k

_i _i i m 1 いま２とし１次元主成分によサンプル全体での誤差の平均は 2 2 2 ) ( 2 2 ) (

1 |

|

1 ₌

₌

_σ

>=

=<

∑

n j n j

k

E

e

あるj番目のサンプルについて，もといま，ｍ＝２とし，１次元主成分による近似とそれによる誤差を考える． 2 1 2 1

|

σ

>

<

∑

= = j j

k

n

E

e

すなわち誤差は，用いなかった第2主成分の残差（分散）に等しいあるj番目のサンプルについて，もとデータおよび低次元（１次元）による近似表現は以下のように書ける．の残差（分散）に等しい． 2 ) ( 2 1 ) ( 1 ) (

u

x

j

=

k

j

+

k

j 1 ) ( 1 ) (

ˆ

u

x

j

=

k

j

(6)

11 低次元主成分による近似と誤差（つづき）

より一般に，ｍ次元データに対するｒ次元主成分による近似とそれによる誤差を考えるこのとき，サンプル全体での誤差の平均は

>

≡<

r

E

(

)

|

e

|

2 よる誤差を考える．もとのデータおよび近似データを

∑

=

>

≡<

n j j

n

r

E

1 2 ) (

|

1 |

|

)

(

e

r<m と書く誤差ベクトルは

∑ ∑

= = +

=

m n j n j m r i j i

k

n

2 ) ( 1 1 2 ) (

1

1 ,

1

∑

=

m i i i

k u

x

∑

=

r i i i

k

1

ˆ

u

x

と書く．誤差ベクトルは

∑

−

=

r j m j j j j

k

( ) ( ) ) ( ) ( ) (

ˆx

x

e

∑

∑ ∑

+ = =

=

m i r i j j i

k

n

2 1 1 2 ) (

1 σ

すなわち，誤差は，用いなかった主成分残差（分散）和に等し

∑

= =

=

−

=

m i j i i i j i i i j i

k

) ( 1 ) ( 1 ) (

u

∑

_=r₊ i i 1

σ

の残差（分散）の和に等しい．

∑

+ =r i i i 1 であり，その2ノルムは

+

j j j j

k

( )2 ( )2 ( )2 2 ) (

|

| e

∑

+ = + +

=

+

=

m r i j i j m j r j r j

k

1 2 ) ( ) ( ) ( 2 ) ( 1 ) (

|

e

"

12 近似による誤差と累積寄与率

主成分を，分散の大きい順に番号付けしたものならば誤差逆に，はじめのr個の成分でどのくらい_正確に _{もとの分布を表せるかの尺度} 付けしたものならば，誤差 _{正確に，もとの分布を表せるかの尺度} として，以下に示す累積寄与率がある．