PCA を用いた学習データの次元圧縮 - 材料と方法 18

2. 材料と方法 18

2.5 PCA を用いた学習データの次元圧縮

PCAは，主部分空間と呼ばれる低次元の線形空間の上への，データ点の直行射影として定義できる．まず，観測変数からなるデータ集合Xˆ ={ˆx_n}を考える．た

だし，n = 1, ...,Nとし，ˆxnは次元Dのユークリッド空間内の変数とする．PCA

は，射影されたデータ点の分散が最大になるよう，データを次元M < Dを持つ空間の上に射影することを目的とする(図15)．

ここで，1次元空間(M =1)上への射影を考える．この空間の方向をD次元ベクトルu₁として表す．ここでu₁は単位ベクトルと仮定する．すなわちu^T₁u₁ =1 である．添え字Tは，転置を意味する．従って，各データ点ˆx_nはスカラー値u^T₁ˆx_n 上に射影される．射影されたデータの平均値はu^T₁xである．ただし，xはサンプル集合の平均である．また，射影されたデータの分散は

1 N

∑N n=1

{u^T₁ˆx_n−u^T₁x}² = 1 N

∑N n=1

{u^T₁(ˆxn−x)}²

= 1 N

∑N n=1

{u^T₁(ˆx_n−x)}{u^T₁(ˆx_n−x)}

= 1 N

∑N n=1

{u^T₁(ˆxn−x)}{(ˆxn−x)^Tu1}

= u^T₁Su₁ (8)

で与えられる．ここでSはデータ共分散行列であり，次のように定義される．

S= 1 N

∑N n=1

(ˆx_n−x)(ˆx_n−x)^T (9) これらを用いて，射影された分散u^T₁xをu₁に対して最大化する．

このとき，∥u₁∥ → ∞を防ぐような正規化条件，u^T₁u₁= 1のもとで最大化しなければならない．この制約を課すためラグランジュ乗数λ1を導入する(付録D参照)．

E(u1)= u^T₁Su1+λ1(1−u^T₁u1) (10) を制約なしに最大化する．E(・)は誤差関数を示す．u₁に関する微分を0とおくと，

256

257

512

514

768

256

257

512

514

768 Input Data

ICA

256

257

512

514

768

Basis Function

PCA

Reduction Restoration

ED 1/2

M=250 1

M 1

PCAed Data Independent Component Eigen Value

Decomposition

×15,000

M 1

×250

×250 1

256

257

512

514

768 X

s F

図15 次元圧縮したデータを用いた独立成分分析の手順．まず，主成分分析(PCA) を用いて学習データ(Input Data)の次元圧縮と白色化を行う．このデータ(PCAed Data)に対し独立成分分析(ICA)を適用する．ここで得られた独立成分(Independent

Component)を，固有値，固有ベクトルからなる復元行列(ED^1/2)を用いて元の次

元に復元し，基底関数(Basis Function)を作成する．

Su1 =λ1u1 (11)

において停留点を持つことがわかる．これはu₁がSの固有ベクトルでなければならないということを示す．もし左からu^T₁ を掛けて，u^T₁u1 = 1であることを使うと，分散は

u^T₁Su₁ =λ1 (12) で与えられる．よって分散は，u1を最大固有値λ1に属する固有ベクトルを選んだときに最大となる．この固有ベクトルは第1主成分と呼ばれる．

その他の主成分については，すでに得られた主成分に直行するという条件の下で，射影分散を最大にするような方向を選ぶことで得ることができる．M次元の射影空間であれば，データ分散行列Sの，降順に並べたM個の固有値λ1, ..., λM

に対応するM個の固有ベクトルu₁, ...,u_M により，射影されたデータの分散を最大にする最適な線形射影が定義される．

PCAは，データ集合の平均xと共分散行列Sの計算が必要であり，Sの固有値を降順に並べたときの，上からM個に対応するM個の固有ベクトルを求めることで，分散が最大となる方向を求めていくことができる．

本研究では，1つの学習データは768次元のベクトルで表される．よってD=768 である．ここで，学習データをPCAを用いて，250次元(M =250)に圧縮することを考える．

ˆx_n=

∑M a=1

(ˆx^T_nu_a)u_a+

∑D a=M+1

(ˆx^T_nu_a)u_a (13) 式13右辺第1項は，固有値を降順に並べたときの，上から250個に対応する250 個の固有ベクトルの和によって射影された学習データである．次元圧縮は式13右辺第2項を切り捨て，

z_n =

∑M a=1

(ˆx^T_nu_a)u_a (14)

によって，学習データを再構成することである．z_nは次元圧縮後の1つの学習データである．Mの値が小さくなるにつれ，圧縮の度合いは高くなる．逆に，Mの値が高くなるにつれ，再構成された学習データ(Z= (z₁，...，z_n)^T)はより元の学習データの値に近づき，M=D=768において完全に一致する．

ドキュメント内 ( ) (ページ 33-36)