分散共分散行列を対角化することを主成分分析(prin- cipal component analysis: PCA)という。主成分分析
は, 多変量解析の基盤となる考え方であり, その応用範 囲は極めて大きい。
式(18.38),式(18.45)で見たように,n項目の数値(例 えばn科目の得点)が組み合わさって1個のサンプル データを構成するような標本では,分散共分散行列Sは n次の対称行列である。従って, それは適当なn次の直 交行列Qによって,以下のように対角化できるはずだ:
tQSQ=
λ1 0 0 ... 0 0 λ2 0 ... 0 0 0 . .. ... 0 ... ... ... . .. ...
0 0 0 ... λn
(18.54)
ここで, λ1, λ2,· · ·, λn は, S の固有値である。主成分 分析では, 固有値は大きい順に並べると約束する。す なわち, λ1 ≥ λ2 ≥ · · · ≥ λn とする。λ1, λ2,· · ·, λn に 対 応 す る, 大 き さ 1 の 固 有 ベ ク ト ル を, そ れ ぞ れ q1,q2,· · · ,qn とすると, それらを列ベクトルとして 横に並べたものが直交行列Qになる。
● 問569 問560で求めた分散共分散行列Sを, 上述 のように直交行列Qで対角化せよ。
iを1以上n以下の整数とする。qi, つまり, 分散共 分散行列の, i番目に大きい固有値に対応する, 大きさ 1の固有ベクトルのことを,第i主成分ベクトル と呼ぶ (定義)。主成分ベクトルのことを, ローディングベクト ル(loading vector)ともいう。
主成分ベクトルどうしは直交する。すなわち, i, jを n以下の任意の自然数とし,i̸=jならば
qi•qj = 0 (18.55)
である。これは, 対称行列の固有ベクトルどうしが直交 することから明らかである。
● 問570 問569において第1主成分ベクトルと第2 主成分ベクトルを述べよ。
標本の中のk番目のデータについて,各項目の値から その標本平均を引いた値, つまり中心化された値を並べ た数ベクトルをdk とする。すなわち,
dk:= (Xk−X, Yk−Y ,· · ·) (18.56) とする。これを, k番目の「中心化されたデータベクト
18.10 主成分分析 39 ル」と呼ぶ。
● 問571 問560の生徒3について,中心化されたデー タベクトルを求めよ。
中心化されたデータベクトルdk を, 主成分ベクトル を使って,
dk =c1q1+c2q2+· · ·+cnqn (18.57) というふうに表すことを考えよう(この形を「線型結合」
と呼ぶことを後に学ぶ)。この式の両辺に対してqiとの 内積をとれば,
dk•qi=c1q1•qi+c2q2•qi+· · ·+cnqn•qi
(18.58) となる。ところが,主成分ベクトルどうしは直交してい るので,上の右辺の各項に含まれる内積は, qi•qiを残 して全部0になる。すなわち,
dk•qi=ciqi•qi (18.59) となる。また, 主成分ベクトルの定義から, |qi| = 1な ので,qi•qi= 1である。従って上の式は,
dk•qi=ci (18.60)
となる。このように, 式(18.57)の右辺の係数ciは, 中 心化されたデータベクトルdk と第i主成分ベクトルの 内積をとることだけで求まる。dk と第i主成分ベクト ルの内積のことを,そのデータの 第i主成分スコア と呼 ぶ。上の例では, 例えば, 生徒3の中心化されたデータ ベクトル(数学と英語のそれぞれから平均点を引いた値 を並べた数ベクトル)とq2との内積が,生徒3の得点の 第2主成分スコアである。
幾何学的には, 第i主成分スコアは, 標本平均を原点 として, 中心化されたデータベクトルを, 第i主成分ベ クトルの方向に正射影した大きさである, と考えてよい (図18.1)。
● 問572 問560の生徒3の得点の第1主成分スコア と第2主成分スコアを求めよ。
上の例では, 第1主成分スコアを数学と英語の両方を 加味した総合成績の指標と解釈すると, 第2主成分スコ アは, 「数学と英語のどちらが得意か」(あえて言えば, 理系向きか文系向きか)に関する指標と解釈することが できる。
● 問573 問560の生徒3は理系向きか, 文系向きか, 考察せよ。
図18.1 中心化されたデータベクトルdkを主成分ベ クトルで分解する。分解の係数(式(18.57)のc1, c2
など)は,dkと主成分ベクトル(q1,q2など)との内 積で得られる。それが各主成分スコアである。それ は, dk を主成分ベクトルに正射影(垂直に下ろすこ と) したものでもある(内積の定義から, dk•q1 =
|dk||q1|cosθ。θ はこれらの2つのベクトルのなす 角。いま, |q1|= 1であることに注意すれば,これが 正射影になっていることは明らかだろう)。
注: 世間では,「主成分」という言葉が単体で使われること がある。そのような場合は,「主成分」は,以下のいずれかの 意味を指す:
• 主成分ベクトル(ローディングベクトル)
• 主成分スコア
• 物質を構成する化学的な組成のうち,最も大量に含まれ るもの。
これらは互いに意味が違うので,どれを指すのかを,文脈から 適切に判断しなければならない。そのような混乱を避けるた めに,諸君は,「主成分」という言葉を,できるだけ単体では使 わないようにしよう。
注: 第1主成分をPC1,第2主成分をPC2, ...のように言 うこともある。例えば,「第1主成分スコア」を「PC1スコ ア」と言ったり,「第2主成分ベクトル」を「PC2ベクトル」
と言ったりする。
さて, 主成分分析の意味やからくりを, 少し調べてみ よう。分散共分散行列S は, 式(18.42)や式(18.45)の ように, 中心化されたデータ行列Dc から求められる。
簡単のため,ここでは項目数=2で考える(項目数3以上 であっても議論の本質は同じ)。式(18.42)を式(18.54) に代入してみよう。すなわち tQSQは以下のように なる:
tQ (1
N
tDcDc
) Q=
[λ1 0 0 λ2
]
(18.61)
この左辺は,以下のように変形できる:
tQ (1
N
tDcDc
) Q= 1
N(tQtDc)(DcQ) (18.62)
= 1 N
t(DcQ)(DcQ) (18.63) 式(18.62)から式(18.63)への変形は式(18.19)を使っ た。ここで,DcQという行列を改めてD′cと置こう。つ まり,
Dc′ :=DcQ (18.64)
とする。すると,式(18.63)はさらに以下のように変形 できる:
1 N
tDc′D′c (18.65)
となる。これは, 式(18.42)の右辺とよく似ている。つ まり, これはDc′ という行列が作る分散共分散行列で ある。
Dc′, つまりDcQという行列は, Dcに右からQをか けたものである。式(18.5)の考え方を使えば, DcQは Dcの行ベクトルと, Qの列ベクトル (つまりS の主成 分ベクトル)の内積で作られる行列である。すなわち,
Dc′ =DcQ=
d1•q1 d1•q2 d2•q1 d2•q2
... ... dN •q1 dN•q2
(18.66)
となる。ここで,diはDcの第i行ベクトル(生徒iの 得点を表す行ベクトル), qjはQの第j列ベクトル(第 j 主成分ベクトル)である。従って, di•qj は, 生徒i の得点の第j主成分スコアに相当する。つまり,D′cは, 各生徒の主成分スコアを並べた行列である。Dc′ は, 生 徒全体の成績を表す,Dcとは別の新しい表現法である。
Dcは各科目の得点を(中心化して)並べたものだが,D′c は各主成分のスコアを並べたものである。
例えば,問569のQ, Dcについて, D′c=DcQは以下 の行列になる:
Dc′ =DcQ=
0.33· · · −0.90· · · 0.29· · · 0.51· · ·
−2.54· · · 0.42· · ·
−0.40· · · −0.22· · · 1.70· · · 0.56· · · 2.43· · · −0.12· · ·
−1.81· · · −0.26· · ·
点 (18.67)
この「新しい表現法」には, 面白い特徴がある: 式
(18.61),式(18.65)より, 1
N
tDc′D′c=
[λ1 0 0 λ2
]
(18.68) である。つまり, この表現法では, 分散共分散行列が対 角行列になるのだ。これは, 主成分スコアどうしの共分 散が0ということだ(分散共分散行列の非対角成分が共 分散を表すから。わからない人は, 式(18.38)を見直す べし)。共分散が0になるなら, 式(18.39)より, 相関係 数も0である。すなわち,主成分スコアどうしは互いに 連動しない。というよりも, そうなるような操作が主成 分分析なのである。テストの得点は, あるていど科目間 で連動するだろう。それを整理して, 互いに連動してい ない(いわば互いに「独立」な)指標を作るのが主成分 分析なのである。
先ほどの例で言えば,第1主成分スコアが全体的な成 績の良さ,第2主成分スコアが理系的か文系的かを表す と考えると, 意図的にこれらの間の連動性を消して(相 関係数を0にして), それぞれを独立・純粋に評価しよ うというのが,主成分分析の発想である。
図18.2に, もとの行列Dcで表される成績(数学と英 語の各得点から平均点を引いたもの)の散布図,図18.3 に, 行列Dc′ で表される成績(第1, 第2主成分スコア) の散布図を示す。これを見ると, もとの得点の散布図で は, 数学の点が良ければ英語の点も良い, というおおま かな傾向が見える。つまり, 両科目が連動している。と ころが, 主成分スコアの散布図を見ると, そのような連 動する傾向は見えなくなっている。
このからくりは実は簡単である。すなわち, 図18.2 を,原点を中心に右まわりに適当に回転させたら図18.3 になるのだ。逆に言えば, このような連動が見られなく なるように, 散布図全体を回転するのが主成分分析であ る。そして, Qはベクトルに回転を施す行列なのであ る。
また, 分散共分散行列の固有値は, 各主成分のスコア の分散に等しいことが, 式(18.68)からわかる。ところ で, 分散共分散行列のトレースを「全分散」という。問 568より, それは分散共分散行列の固有値(各主成分ス コアの分散)の総和である。先の例で言うと, 数学の分 散と英語の分散の和は, 第1主成分スコアの分散と, 第 2主成分スコアの分散の和に等しい。
分 散 共 分 散 行 列 の i 番 目 の 固 有 値, す な わ ち, 第 i 主 成 分 の ス コ ア の 分 散 を 全 分 散 で 割 っ た も の を