確率的主成分分析と次元圧縮
Probabilistic principal component analysis and dimensionality reduction
数学専攻 小野原 拓 ONOHARA Taku
1
はじめに情報工学,金融工学, 経済学,心理学などの幅広い分野において多変量解析手法は大量かつ多様なデータの要約 や表現に用いられている. その中で, 主成分分析(Principal Component Analysis; PCA)は次元圧縮やノイズ 除去等のデータの下処理に対する標準的な手法として用いられている. 主成分分析の目的は,与えられたデータ の特徴をよりうまく説明するような新たな軸を,元の変数の線形結合によって再構成することである. また,複数 の変数を融合することによって,新たな意味付けを有した変数ができ, データの中から興味ある情報を取り出す ことができる.
他方で, 主成分分析はデータの次元の圧縮を行うため,われわれの直感がはたらく1次元直線,2次元平面,3 次元空間にデータを射影してその構造を視覚的に把握するための手法として用いること, さらに, 他の統計的分 析をしやすくすることができる.
さて,主成分分析の重要な課題の1つに主成分数の選択がある. これは,データをどの程度の次元に圧縮するの か,いくつの主成分に次元を圧縮するのか,を決定することである. すなわち, データを低い次元に圧縮すれば扱 いやすくなるが情報の損失が大きくなり, 一方で, 圧縮する幅を少なくすれば,情報の損失は抑えられるが,次元 があまり圧縮されず主成分分析本来の目的を達することができなくなる.
この主成分数の決定法の1つに累積寄与率に基づく方法がある. この方法は,圧縮された後のデータに含まれ る情報の量が十分大きくなるような主成分数を選ぶという方法である. しかし,この方法は情報の量がどれぐら い残っていれば十分かという基準が存在せず,客観的な方法であるとは言い難い.
本論文では,主成分分析に確率的モデルを取り入れ,主成分分析を拡張することによって,情報量規準等の客観 的な方法で圧縮を行う次元数を決定する. これは, 確率モデルを取り入れたことにより可能になったメリットで ある. 確率モデルを導入することのメリットは,他に下にあげたことなどが考えられる.
• 尤度関数が得られるので, AIC等の情報量規準を用いて,主成分軸の数を客観的に決めることができる.
• EMアルゴリズムを用いることにより,データに欠測値があるときでも分析できる.
• 高次元データの構造を次元圧縮してクラスタリング(分類)に利用できる.
すなわち, 確率モデルを取り入れたことにより尤度関数を得ることができ, 最尤法を用いることによりパラ メータの最尤推定量を陽に求めることができる. この結果,情報量規準AICやBICを用いて,圧縮を行う次元数 を決定することができる.
2
主成分分析主成分分析とは,互いに相関のある変数について観測されたデータの持つ情報をできるだけ失うことなく, も との変数の線形結合で表されるより少数個の変数に要約するための手法である. 新たな変数は主成分と呼ばれ,
1
データを主成分軸上に射影したとき,分散が最大となるように順次選んで, 全ての主成分軸は直交するようにす る. これにより,データの持つ情報の大部分を,データの次元より低い軸の数で説明することができる. 主成分分 析は以下のように定式化される.
まず, 各個体の特徴を捉えるD個の変数を, x= (x1, x2,· · · , xD)T とする. このD個の変数に関して観測さ れたN 個のD次元データx1,x2,· · · ,xN に対して, 次の標本分散共分散行列を求める.
S= 1 N−1
∑N
n=1
(xn−x)(x¯ n−x)¯ T ただし, ¯xはD次元標本平均ベクトルである.
次に,D個の変数の線形結合で表される射影軸
y=w1x1+w2x2+· · ·+wDxD=wTx
上へN 個のD次元データを射影し, 1次元データyi=wTxi (i= 1,2,· · · , N)に変換する. ただしwは, 係数ベクトルw = (w1, w2,· · ·, wD)T である. 主成分軸を求める問題は,この係数ベクトルwを求めることに 帰着される. 射影軸上の平均と分散は,
¯
y=wTx¯ , s2=wTSw
と表される. データを, y = wTx 軸上に射影したときの分散が最大になる係数ベクトル w の決定問題は, s2=wTSw の最大化の問題に帰着される. wに制約がなければ, s2はいくらでも大きくなるので,wTw = 1 という制約を付けて最大化する. これは,ラグランジュの未定乗数法を用いて解くことができ,λをラグランジュ 未定乗数とすると, 次の標本分散共分散行列Sの固有値問題となる.
Sw=λw
上の式よりSの固有方程式を解き,解であるD個の固有値を大きさの順に λ1≥λ2≥ · · · ≥λD≥0
とし,それぞれに対応する固有ベクトルをw1,w2,· · ·,wD とする. これにより,D個の主成分は, y1=wT1x
... yD=wTDx
と表される. これらの主成分のなかから固有値の大きいものをK個用いれば,D次元のデータはK次元に圧縮 することができる.
しかしこの方法には, 圧縮次元Kをどのように決めればよいかという問題が残る. この問題に対処するため に,次の確率的主成分分析を考える.
3
確率的主成分分析(PPCA
)確率的主成分分析(PPCA)とは,データに確率モデルを取り入れた主成分分析である. 確率モデルとは,デー タの生成過程に確率変数による変動が存在するモデルのことである. 主成分分析では,データの構造から主成分 軸を構成し,その上で主成分スコアを導出していたのに対し, 確率的主成分分析では,潜在変数の一次変換にノイ ズが付与されることでデータが生成されるというモデルを立てる. これにより,主成分数の選択を近似の度合い によって決定していた主成分分析に対し,適切な主成分数を推定するという問題として扱うことができる.
2
3.1
確率的主成分分析モデル確率的主成分分析は以下のように定式化される. まず,D次元確率変数ベクトルをxとし,K次元潜在変数ベ クトルをz とする. この潜在変数zは, 平均ベクトル0,分散共分散行列I のK次元正規分布に従うとする. 確 率的主成分分析では,観測変数xと潜在変数z に以下のような線形性の仮定をおく.
x=Wz+ϵ
ここで,W はD×K行列,ϵはD次元のノイズ変数で,平均ベクトル0,分散共分散行列σ2I のD次元正規分 布に従うとする. さらに,z とϵ は互いに独立であるとする. すなわち,
Cov(z,ϵ) =0
を仮定する. これらのことから, xもD次元正規分布に従い, 平均ベクトルと分散共分散行列は以下のように なる.
E[x] =E[Wz+ϵ]
=0
Cov(x) =E[(Wz+ϵ−E[x])(Wz+ϵ−E[x])T]
=W WT +σ2I
3.2
最尤法によるパラメータ推定3.1節で述べたモデルの仮定から,xは次のD次元正規分布に従うことが分かる. x ∼ N(0, W WT +σ2I)
ここで,
C=W WT +σ2I とおくと,データx1,x2,· · ·,xN の与えられた下での対数尤度関数は,
l(W, σ2) =−N D
2 log(2π)−N
2 log|C| −1 2
∑N
n=1
xTnC−1xn
である.
対数尤度関数をW, σ2で偏微分し, 極値を求めることによりW とσ2の最尤推定量は以下のようになる. Wˆ =P(Θ−σ2I)12
ˆ
σ2= 1 D−K
∑D
j=K+1
θj
ただし,(θi,ei)(i= 1,2,· · · , K)をSの固有値と固有ベクトルの組とし, Θ= diag(θ1, θ2,· · ·θK) ,P = (e1,e2,· · · ,eK)とおいた.
3
3.3
モデル評価基準主成分分析では,軸の数を決定するために寄与率や累積寄与率による決定法を用いていた. この決定法は,累積 寄与率の値の変化を見て適当なところで次元Kを決定する方法だが,この決定法には明確な基準がない. それに 対して確率的主成分分析では,データに確率構造を入れてパラメータを最尤法で求めているので, AICなどの情 報量規準(モデル評価基準)を用いて客観的にモデルを選択することができる. 情報量規準AICは次のように 与えられる.
AIC =−2×(モデルの最大対数尤度) + 2×(モデルのパラメータ数) このAICが最小となるモデルを最も良いモデル(軸の数)として,次元数Kを決定する.
3.4
文字画像データに対する分析例図1 元の画像
図2 文字画像データを21次元(AIC最小の次元)に圧縮したもの.
参考文献
[1] C.M.Bishop(2007)『パターン認識と機械学習 上』. Springer.
[2] C.M.Bishop(2008)『パターン認識と機械学習 下』. Springer.
[3] Micheal E. Tipping and Christopher M. Bishop(1999) Probabilistic principal component analysis.Journal of the Royal Statistical Society: Series B,61, 611-622.
[4] Hastie,T.,Tibshirani,R. and Friedman,J.(2009)The Elements of Statistical Learning.2nd ed., Springer.
[5] 赤穂昭太郎(2008)『カーネル主成分分析』.岩波書店. [6] 小西貞則,北川源四郎(2004)『情報量基準』.朝倉書店.
[7] 小西貞則,越智義道,大森裕浩(2008)『計算統計学の方法-ブートストラップ・EMアルゴリズム・MCMC』.朝倉書店. [8] 小西貞則(2010)『多変量データ解析入門-線形から非線形へ-』.岩波書店.
[9] 大羽成征,佐藤雅昭,石井信(2002)変分法的ベイズ推定による混合主成分分析.電子情報通信学会論文誌. 1055-1065.
[10] 大羽成征,佐藤雅昭,石井信(2003)Prior hyperparameters in Bayesian PCA. Springer.
4