第 9 章 混合モデルと EM
12.1 主成分分析
12.1.1 分散最大化による定式化
ここではD次元の観測値のデータ集合{xn}をM<D次元の空間の上に射影することを考える。
まず1次元空間への射影を考える。この空間の方向をD次元ベクトルを用いて、u1と表すことに すると、各データ点はuT1xnに射影される。その平均値は
¯ x= 1
N
∑N n=1
xn (12.1)
を用いてuT1x¯nと表すことができる。また、その分散は 1
N
∑N n=1
{uT1xn−uT1x¯}2=uT1Su1 (12.2) であらわされる。ここで
S= 1 N
∑N n=1
(xn−x)(x¯ n−x)¯ T (12.3)
である。これを最大化するuを求めるためには、ラグランジュ未定乗数法を用いて
uT1Su1+λ1(1−uT1u1) (12.4)
を微分し
Su1=λ1u1 (12.5)
を得る。これに左からuT1 をかけると
uT1Su1=λ1 (12.6)
を得る。これらのことから、分散を最大にするにはu1をSの最大固有値に対応する固有ベクトル にすればよいことがわかる。
12.1.2 誤差最小化による定式化
今度は射影誤差の最小化に基づいた主成分分析の定式化を考える。まずD次元の完全正規直交系
uTiuj=δi j (12.7)
を導入する。すると各データ点は一意的に
xn=
∑D i=1
αniui (12.8)
と表すことができ、正規直交性より
xn=
∑D i=1
(xTnui)ui (12.9)
と書くことができる。しかしここではM個の変数で各データ点を近似することにあるのであって、
各データ点を
˜ xn=
∑M i=1
zniui+
∑D i=M+1
biui (12.10)
と近似する。ここで{zni}はデータ点に依存しているが、{bi}はすべてのデータ点に共通である。近 似は、誤差関数
J= 1 N
∑N n=1
||xn−x˜n||2 (12.11)
を最小化するように{ui},{zni},{bi}を決めることによって行う。{zni}とbiについては、Jにx˜nの表 式を代入して微分をすることで
zn j = xTnuj
bj = x¯Tuj (12.12)
を得る。これより
xn−x˜n =
∑D i=M+1
{(xn−x)¯ Tui}ui (12.13)
が従い、
J= 1 N
∑N n=1
∑D i=M+1
(xTnui−x¯Tui)2=
∑D i=M+1
uTiSui (12.14)
となる。これを最小化するにはui(i>M)をSの小さい固有値に対応する固有ベクトルに選べば よく、
J=
∑D i=M+1
λi (12.15)
となる。
12.1.3 主成分分析の応用
主成分分析はデータベクトルxnに対する圧縮方法として利用することができる。これは
¯ x=
∑D i=1
( ¯xTui)ui (12.16)
より
x˜n =
∑M i=1
(xTnui)ui+
∑D i=M+1
( ¯xTnui)ui
= x¯+
∑M i=1
(xTnui−x¯Tnui)ui (12.17) となるため、D次元ベクトルをM次元ベクトルで置き換えたことになるためである。
また主成分分析はデータの前処理にも応用できる。例えば、データ集合に対して標準化された共 分散行列は
ρi j= 1 N
∑N n=1
(xni−¯xi) ρi
(xn j−¯xj) ρj
(12.18) であらわすことができるが、SU =U Lを満たす固有ベクトルの行列U および、対角成分が固有 値の行列Lを用いて、
yn=L−1/2UT(xn−x)¯ (12.19)
を定義すると、
1 N
∑N n=1
ynyTn =I (12.20)
となるため、平均が0で標準化された共分散行列が単位行列となる。
12.1.4 高次元データに対する主成分分析
ここでは、データ点の数がベクトル空間の次元Dよりも小さい場合を考える。まず、Xをn番 目の行が(xn−x)¯ T であるN×D次元の行列とする。するとS=N−1XTXと書くことができて、
固有ベクトルの方程式は
1
NXTXui=λiui (12.21)
となる。これは、D次元の固有値方程式であって、D次元空間のN点の集合は高々N−1次元の部 分空間を定義するので、D−N+1個の固有値は0になる。0でない固有値は上の指揮にXをか けて、
1
NXXT(Xui)=λ(Xui) (12.22)
とすることでN次元の固有値方程式の解として得ることができる。