Probabilistic principal component analysis and dimensionality reduction

(1)

確率的主成分分析と次元圧縮

Probabilistic principal component analysis and dimensionality reduction

数学専攻小野原拓 ONOHARA Taku

1

はじめに

情報工学,金融工学, 経済学,心理学などの幅広い分野において多変量解析手法は大量かつ多様なデータの要約や表現に用いられている. その中で, 主成分分析(Principal Component Analysis; PCA)は次元圧縮やノイズ除去等のデータの下処理に対する標準的な手法として用いられている. 主成分分析の目的は,与えられたデータの特徴をよりうまく説明するような新たな軸を,元の変数の線形結合によって再構成することである. また,複数の変数を融合することによって,新たな意味付けを有した変数ができ, データの中から興味ある情報を取り出すことができる.

他方で, 主成分分析はデータの次元の圧縮を行うため,われわれの直感がはたらく１次元直線,２次元平面,３次元空間にデータを射影してその構造を視覚的に把握するための手法として用いること, さらに, 他の統計的分析をしやすくすることができる.

さて,主成分分析の重要な課題の１つに主成分数の選択がある. これは,データをどの程度の次元に圧縮するのか,いくつの主成分に次元を圧縮するのか,を決定することである. すなわち, データを低い次元に圧縮すれば扱いやすくなるが情報の損失が大きくなり, 一方で, 圧縮する幅を少なくすれば,情報の損失は抑えられるが,次元があまり圧縮されず主成分分析本来の目的を達することができなくなる.

この主成分数の決定法の１つに累積寄与率に基づく方法がある. この方法は,圧縮された後のデータに含まれる情報の量が十分大きくなるような主成分数を選ぶという方法である. しかし,この方法は情報の量がどれぐらい残っていれば十分かという基準が存在せず,客観的な方法であるとは言い難い.

本論文では,主成分分析に確率的モデルを取り入れ,主成分分析を拡張することによって,情報量規準等の客観的な方法で圧縮を行う次元数を決定する. これは, 確率モデルを取り入れたことにより可能になったメリットである. 確率モデルを導入することのメリットは,他に下にあげたことなどが考えられる.

• 尤度関数が得られるので, AIC等の情報量規準を用いて,主成分軸の数を客観的に決めることができる.

• EMアルゴリズムを用いることにより,データに欠測値があるときでも分析できる.

• 高次元データの構造を次元圧縮してクラスタリング（分類）に利用できる.

すなわち, 確率モデルを取り入れたことにより尤度関数を得ることができ, 最尤法を用いることによりパラメータの最尤推定量を陽に求めることができる. この結果,情報量規準AICやBICを用いて,圧縮を行う次元数を決定することができる.

2

主成分分析

主成分分析とは,互いに相関のある変数について観測されたデータの持つ情報をできるだけ失うことなく, もとの変数の線形結合で表されるより少数個の変数に要約するための手法である. 新たな変数は主成分と呼ばれ,

1

(2)

データを主成分軸上に射影したとき,分散が最大となるように順次選んで, 全ての主成分軸は直交するようにする. これにより,データの持つ情報の大部分を,データの次元より低い軸の数で説明することができる. 主成分分析は以下のように定式化される.

まず, 各個体の特徴を捉えるD個の変数を, x= (x1, x2,· · · , xD)^T とする. このD個の変数に関して観測されたN 個のD次元データx1,x2,· · · ,xN に対して, 次の標本分散共分散行列を求める.

S= 1 N−1

∑N

n=1

(xn−x)(x¯ n−x)¯ ^T ただし, ¯xはD次元標本平均ベクトルである.

次に,D個の変数の線形結合で表される射影軸

y=w₁x₁+w₂x₂+· · ·+w_Dx_D=w^Tx

上へN 個のD次元データを射影し, １次元データyi=w^Txi (i= 1,2,· · · , N)に変換する. ただしwは, 係数ベクトルw = (w1, w2,· · ·, wD)^T である. 主成分軸を求める問題は,この係数ベクトルwを求めることに帰着される. 射影軸上の平均と分散は,

¯

y=w^Tx¯ , s²=w^TSw

と表される. データを, y = w^Tx 軸上に射影したときの分散が最大になる係数ベクトル w の決定問題は, s²=w^TSw の最大化の問題に帰着される. wに制約がなければ, s²はいくらでも大きくなるので,w^Tw = 1 という制約を付けて最大化する. これは,ラグランジュの未定乗数法を用いて解くことができ,λをラグランジュ未定乗数とすると, 次の標本分散共分散行列Sの固有値問題となる.

Sw=λw

上の式よりSの固有方程式を解き,解であるD個の固有値を大きさの順に λ1≥λ2≥ · · · ≥λD≥0

とし,それぞれに対応する固有ベクトルをw1,w2,· · ·,wD とする. これにより,D個の主成分は, y1=w^T₁x

... y_D=w^T_Dx

と表される. これらの主成分のなかから固有値の大きいものをK個用いれば,D次元のデータはK次元に圧縮することができる.

しかしこの方法には, 圧縮次元Kをどのように決めればよいかという問題が残る. この問題に対処するために,次の確率的主成分分析を考える.

3

確率的主成分分析（

PPCA

）

確率的主成分分析（PPCA）とは,データに確率モデルを取り入れた主成分分析である. 確率モデルとは,データの生成過程に確率変数による変動が存在するモデルのことである. 主成分分析では,データの構造から主成分軸を構成し,その上で主成分スコアを導出していたのに対し, 確率的主成分分析では,潜在変数の一次変換にノイズが付与されることでデータが生成されるというモデルを立てる. これにより,主成分数の選択を近似の度合いによって決定していた主成分分析に対し,適切な主成分数を推定するという問題として扱うことができる.

2

(3)

3.1

確率的主成分分析モデル

確率的主成分分析は以下のように定式化される. まず,D次元確率変数ベクトルをxとし,K次元潜在変数ベクトルをz とする. この潜在変数zは, 平均ベクトル0,分散共分散行列I のK次元正規分布に従うとする. 確率的主成分分析では,観測変数xと潜在変数z に以下のような線形性の仮定をおく.

x=Wz+ϵ

ここで,W はD×K行列,ϵはD次元のノイズ変数で,平均ベクトル0,分散共分散行列σ²I のD次元正規分布に従うとする. さらに,z とϵ は互いに独立であるとする. すなわち,

Cov(z,ϵ) =0

を仮定する. これらのことから, xもD次元正規分布に従い, 平均ベクトルと分散共分散行列は以下のようになる.

E[x] =E[Wz+ϵ]

=0

Cov(x) =E[(Wz+ϵ−E[x])(Wz+ϵ−E[x])^T]

=W W^T +σ²I

3.2

最尤法によるパラメータ推定

3.1節で述べたモデルの仮定から,xは次のD次元正規分布に従うことが分かる. x ∼ N(0, W W^T +σ²I)

ここで,

C=W W^T +σ²I とおくと,データx₁,x₂,· · ·,x_N の与えられた下での対数尤度関数は,

l(W, σ²) =−N D

2 log(2π)−N

2 log|C| −1 2

∑N

n=1

x^T_nC⁻¹x_n

である.

対数尤度関数をW, σ²で偏微分し, 極値を求めることによりW とσ²の最尤推定量は以下のようになる. Wˆ =P(Θ−σ²I)¹²

ˆ

σ²= 1 D−K

∑D

j=K+1

θ_j

ただし,（θi,ei）（i= 1,2,· · · , K）をSの固有値と固有ベクトルの組とし, Θ= diag(θ1, θ2,· · ·θK) ,P = (e1,e2,· · · ,eK)とおいた.

3

(4)

3.3

モデル評価基準

主成分分析では,軸の数を決定するために寄与率や累積寄与率による決定法を用いていた. この決定法は,累積寄与率の値の変化を見て適当なところで次元Kを決定する方法だが,この決定法には明確な基準がない. それに対して確率的主成分分析では,データに確率構造を入れてパラメータを最尤法で求めているので, AICなどの情報量規準（モデル評価基準）を用いて客観的にモデルを選択することができる. 情報量規準AICは次のように与えられる.

AIC =−2×(モデルの最大対数尤度) + 2×(モデルのパラメータ数) このAICが最小となるモデルを最も良いモデル（軸の数）として,次元数Kを決定する.

3.4

文字画像データに対する分析例

図1 元の画像

図2 文字画像データを21次元(AIC最小の次元)に圧縮したもの.

参考文献

[1] C.M.Bishop(2007)『パターン認識と機械学習上』. Springer.

[2] C.M.Bishop(2008)『パターン認識と機械学習下』. Springer.

[3] Micheal E. Tipping and Christopher M. Bishop(1999) Probabilistic principal component analysis.Journal of the Royal Statistical Society: Series B,61, 611-622.

[4] Hastie,T.,Tibshirani,R. and Friedman,J.(2009)The Elements of Statistical Learning.2nd ed., Springer.

[5] 赤穂昭太郎(2008)『カーネル主成分分析』.岩波書店. [6] 小西貞則,北川源四郎(2004)『情報量基準』.朝倉書店.

[7] 小西貞則,越智義道,大森裕浩(2008)『計算統計学の方法-ブートストラップ・EMアルゴリズム・MCMC』.朝倉書店. [8] 小西貞則(2010)『多変量データ解析入門-線形から非線形へ-』.岩波書店.

[9] 大羽成征,佐藤雅昭,石井信(2002)変分法的ベイズ推定による混合主成分分析.電子情報通信学会論文誌. 1055-1065.

[10] 大羽成征,佐藤雅昭,石井信(2003)Prior hyperparameters in Bayesian PCA. Springer.

4