2. 材料と方法 18
2.5 PCA を用いた学習データの次元圧縮
PCAは,主部分空間と呼ばれる低次元の線形空間の上への,データ点の直行射 影として定義できる.まず,観測変数からなるデータ集合Xˆ ={ˆxn}を考える.た
だし,n = 1, ...,Nとし,ˆxnは次元Dのユークリッド空間内の変数とする.PCA
は,射影されたデータ点の分散が最大になるよう,データを次元M < Dを持つ 空間の上に射影することを目的とする(図15).
ここで,1次元空間(M =1)上への射影を考える.この空間の方向をD次元ベ クトルu1として表す.ここでu1は単位ベクトルと仮定する.すなわちuT1u1 =1 である.添え字Tは,転置を意味する.従って,各データ点ˆxnはスカラー値uT1ˆxn 上に射影される.射影されたデータの平均値はuT1xである.ただし,xはサンプ ル集合の平均である.また,射影されたデータの分散は
1 N
∑N n=1
{uT1ˆxn−uT1x}2 = 1 N
∑N n=1
{uT1(ˆxn−x)}2
= 1 N
∑N n=1
{uT1(ˆxn−x)}{uT1(ˆxn−x)}
= 1 N
∑N n=1
{uT1(ˆxn−x)}{(ˆxn−x)Tu1}
= uT1Su1 (8)
で与えられる.ここでSはデータ共分散行列であり,次のように定義される.
S= 1 N
∑N n=1
(ˆxn−x)(ˆxn−x)T (9) これらを用いて,射影された分散uT1xをu1に対して最大化する.
このとき,∥u1∥ → ∞を防ぐような正規化条件,uT1u1= 1のもとで最大化しなけ ればならない.この制約を課すためラグランジュ乗数λ1を導入する(付録D参照).
E(u1)= uT1Su1+λ1(1−uT1u1) (10) を制約なしに最大化する.E(・)は誤差関数を示す.u1に関する微分を0とおくと,
1
256
257
512
514
768
1
256
257
512
514
768 Input Data
ICA
1
256
257
512
514
768
Basis Function
PCA
Reduction Restoration
ED 1/2
M=250 1
M=250 1
M 1
PCAed Data Independent Component Eigen Value
Decomposition
×15,000
×15,000
M 1
×250
×250 1
256
257
512
514
768 X
^
Z
*
s F
図15 次元圧縮したデータを用いた独立成分分析の手順.まず,主成分分析(PCA) を用いて学習データ(Input Data)の次元圧縮と白色化を行う.このデータ(PCAed Data)に対し独立成分分析(ICA)を適用する.ここで得られた独立成分(Independent
Component)を,固有値,固有ベクトルからなる復元行列(ED1/2)を用いて元の次
元に復元し,基底関数(Basis Function)を作成する.
Su1 =λ1u1 (11)
において停留点を持つことがわかる.これはu1がSの固有ベクトルでなければ ならないということを示す.もし左からuT1 を掛けて,uT1u1 = 1であることを使 うと,分散は
uT1Su1 =λ1 (12) で与えられる.よって分散は,u1を最大固有値λ1に属する固有ベクトルを選ん だときに最大となる.この固有ベクトルは第1主成分と呼ばれる.
その他の主成分については,すでに得られた主成分に直行するという条件の下 で,射影分散を最大にするような方向を選ぶことで得ることができる.M次元の 射影空間であれば,データ分散行列Sの,降順に並べたM個の固有値λ1, ..., λM
に対応するM個の固有ベクトルu1, ...,uM により,射影されたデータの分散を最 大にする最適な線形射影が定義される.
PCAは,データ集合の平均xと共分散行列Sの計算が必要であり,Sの固有値 を降順に並べたときの,上からM個に対応するM個の固有ベクトルを求めるこ とで,分散が最大となる方向を求めていくことができる.
本研究では,1つの学習データは768次元のベクトルで表される.よってD=768 である.ここで,学習データをPCAを用いて,250次元(M =250)に圧縮するこ とを考える.
ˆxn=
∑M a=1
(ˆxTnua)ua+
∑D a=M+1
(ˆxTnua)ua (13) 式13右辺第1項は,固有値を降順に並べたときの,上から250個に対応する250 個の固有ベクトルの和によって射影された学習データである.次元圧縮は式13右 辺第2項を切り捨て,
zn =
∑M a=1
(ˆxTnua)ua (14)
によって,学習データを再構成することである.znは次元圧縮後の1つの学習デー タである.Mの値が小さくなるにつれ,圧縮の度合いは高くなる.逆に,Mの 値が高くなるにつれ,再構成された学習データ(Z= (z1,...,zn)T)はより元の学習 データの値に近づき,M=D=768において完全に一致する.