資料整理來源:陳順宇著,多變量分析
第八章 典型相關分析(Canonical Analysis):
典型相關分析簡介
假設有兩組變數,一組為 p 個變數,另一組為 q 個變數,欲研究這兩組變數之間
的相關性
z 若這兩組分別只有一個變數時,則其相關稱為簡單(線性)相關(又稱做皮爾
森相關,Pearson Correlation)
z 若其中一組只有一個變數,另一組有很多變數,則此兩組的相關稱為複相關
(multiple Correlation), 可以利用複迴歸分析來計算這個係數
z 如果這兩組變數都是一個變數以上的,那量測這兩組變數間的相關稱為典型
相關(Canonical Correlation),指為本章節將介紹的主軸 例如
1. 教育研究者想了解 3 個學術能力指標與 代 個在校成績表現之間的相關性
2. 社會學家想研究 2 個先前訪問而得的個人社會地位指標與後繼測量的 4 個不
同社會地位指標之前的關係
上述這兩種情形,研究者所感興趣的都是兩組變數之間的關係
典型相關分析的基本概念
最直覺的想法:
x組有 p 個變數, y 組有 q 個變數,則分別對這兩組變數各做線
性組合後,再計算此兩加權和的簡單相關係數,然後以這個簡單相關係數當做這
兩組變數之間相關性的衡量指標
(白話的講,
x組有 p 個變數, y 組有 q 個變數,這種狀況我們不會算,我們只會
算
x組有 1 個變數, y 組有 1 個變數這種情形,也就是簡單相關係數 因此,如
果可以把
x組的 p 個變數組合成一個, y 組的 q 個變數也組合成一個,那我們就
可以利用簡單相關的技巧來衡量
x組 p 個變數和 y 組 q 個變數之間的相關性)
問題的所在:我們剛剛說到把
x組的 p 個變數組合成一個, y 組的 q 個變數也組
合成一個,然後計算簡單相關來衡量兩組之間的相關性 問題是如何組合?觀察
下面所提出的事實,就會知道光是有這個組合的想法,我們還是不能完美的衡量
兩組變數之間的相關性
設兩組變數分別為
x組有 p 個變數
⎟ ⎟
⎟
⎠
⎞
⎜ ⎜
⎜
⎝
⎛
=
x
px
x M
1
與 y 組有 q 個變數
⎟ ⎟
⎟
⎠
⎞
⎜ ⎜
⎜
⎝
⎛
=
y
qy
y M
1
,我們先
分別把
x組和 y 組的變數組合起來(當然是用線性組合),也就是
p px
a x
a
x1* = 11 1 +L+ 1
q qy
b y
b
y1* = 11 1+L+ 1
其中這些係數都是一些常數,就是你組合的比例,當然啦,因為是線性組合,所
以 a
11+ L + a
1p= 1 且 b
11+ L b
1q= 1 觀察一下上面所描述的狀況,你會發現兩個
問題:
1. 給定不同的組合比例 a
11,K , a
1p以及 b
11,K , b
1q,你都會算出不一樣的簡單相
關係數,這使得這個方法非常的不科學,每個人都可以依照自己的喜好來決
定組合比例,並且在衡量兩組變量之間相關性的問題上,也沒有一個統一的
說法
2. 各組內變量之間的尺度不太相同,例如身高的尺度跟腳掌長度的尺度就不相
同,顯然前者的變異數會大於後者,這種狀況是不合理的
針對第一個問題, 在所有的組合中,尋找一個組合使得 x 與
1*y 之間的簡單相
1*關係數為最大 ,可能是個好想法;另外,尋找一個組合使得 x 與
1*y 之間的簡
1*單相關係數為最小此簡單相關係數就是典型相關係數,而典型相關係數的平方稱
為典型根(Canonical Root)
對於第二個問題,解決的辦法是對資料進行標準化
典型相關分析的理論架構及基本假設
設兩組變數分別為
x組有 p 個變數
⎟ ⎟
⎟
⎠
⎞
⎜ ⎜
⎜
⎝
⎛
=
x
px
x M
1
與 y 組有 q 個變數
⎟ ⎟
⎟
⎠
⎞
⎜ ⎜
⎜
⎝
⎛
=
y
qy
y M
1
,服從多
變量常態分配,典型相關分析是找
x組的線性組合 x
1*= a
1′ x 與 y 組的線性組合
y
b
y
1*=
1′ ,使得 x 與
1*y 的(簡單)相關係數最大,其中
1*⎟⎟
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜⎜
⎜
⎝
⎛
=
a p
a a a
1 12 11
1 M
⎟⎟
⎟⎟
⎟
⎠
⎞
⎜⎜
⎜⎜
⎜
⎝
⎛
=
bq
b b b
1 12 11
1 M
設
x組的共變異數矩陣為 Σ , y 組的共變異數矩陣為
xxΣ ,
yy x與 y 的共變異數矩
陣為 Σ ,
xy則 x 的變異數為
1*1 1 1
*
1
) ( )
( x Var a x a a
Var = ′ = ′ Σ
xx,
*
y 的變異數為
11 1 1
*
1) ( )
(y Var b y b b
Var = ′ = ′Σyy
,
*
x 與
1y 的共變異數為
1*1 1 1
1
* 1
*
1, ) ( , )
(x y Cov a x b y a b
Cov = ′ ′ = ′Σxy
,
故 x 與
1*y 的簡單相關係數為
1*1 1 1 1
1 1
* 1
* 1
* 1
*
* 1 1
* 1
)
(
)
(
)
,
) (
,
(
b
b
a
a
b
a
y
Var
x
Var
y
x
y Cov
x
yy xx
xy
′ Σ
′ Σ
′ Σ
× =
ρ =
典型相關問題,欲使得 x 與
1*y 的(簡單)相關係數最大,故
1*在 a
1′ Σ
xxa
1= 1 , b
1′ Σ
yyb
1= 1 的條件下,求取使 a
1′ Σ
xyb
1為最大的
a1和
b1即為藉由
Σxx−1ΣxyΣ−yy1Σyx和
Σ−yy1ΣyxΣ−xx1Σxy,求出特徵值(典型根) λ
1≥ λ
2≥ L ≥ λ
m,
其中 m=min(p』q),而 a 和
ib 分別是
iλ
i的特徵向量,則 x
i*= a
i'x 和 y
i*= b
i'y ,稱為
第 i 組典型變量(Canonical Variable), x 和
i*y 的第 i 典型相關為
i*λ
i,
i=1』2』…』m
因為 Σ
xx, Σ
yy, Σ
xy未知,改以 S
xx, S
yy, S
xy取屈之,而得 λ
ˆ1 ≥λ
ˆ2 ≥L≥λ
ˆm典型變量的係數稱為典型權重(Canonical Weights),權重愈大表示此變數對此
典型變量的貢獻愈大 在以上的計算中,此權重為標準化後的資料所得的,故第
k 筆資料的第 i 典型變量得點為 ∑ −
j j jk
ij
s
x
a ( x )
典型負荷(Canonical Loading)為變數與典型變量的相關係數,可由相關係數的
平方了解此典型變量解釋了此變數多少比例的變異數
1.
x組的第 j 個典型變量
x*j解釋
x組的第 i 個變數 x 的變異數比例為
i 2*, ijx
rx
2. y 組的第 j 個典型變量
y*j解釋 y 組的第 i 個變數 y 的變異數比例為
i 2*, ij y
ry
3.
x組的第 j 個典型變量
x*j解釋所有
x組變數的變異數比例為
R(2j)x為解釋
x組內每個變數變異數比例的加權平均,
∑
∑
−
= − p
i x p
i x x x x
j
i i i j
S S r R
1 2 1
2 2
, 2
) (
*
,其中
2xi
S
為第 i
個變數 x 的變異數
i若資料為標準化的,則
p
r
R
p
i x x x
j
i
∑
− j=
12 , 2
) (
*
4. y 組的第 j 個典型變量
y*j解釋所有 y 組變數的變異數比例為
R(2j)y為解釋 y
組內每個變數變異數比例的加權平均,
∑
∑
−
= − q
i y q
i y y y y
j
i i i j
S S r R
1 2 1
2 2
, 2
) (
*
,其中
2yi
S
為第 i
個變數 y 的變異數
i若資料為標準化的,則
q
r
R
q
i y y y
j
i
∑
− j=
12 , 2
) (
*
代.
x組的第 j 個典型變量
x*j解釋所有 y 組變數的變異數比例為 R
x2*ˆ
jR
(2j)yj
= λ
重
疊係數(Redundancy) 若資料為標準化的,則
p
r
R
p
i x x x j
j i
j
∑
==
12
2
*
*
λ ˆ
令. y 組的第 j 個典型變量
y*j解釋所有
x組變數的變異數比例為 R
y2*ˆ
jR
(2j)xj
= λ
重
疊係數(Redundancy) 若資料為標準化的,則
q
r
R
q
i y y y j
j i j
∑
==
12
2
*
*
λ ˆ
“. 所有
x組的典型變量解釋所有 y 組變數的變異數比例為 ∑
= m= j x x
y j
R R
1 2 2
| *
”. 所有 y 組的典型變量解釋所有
x組變數的變異數比例為 ∑
= m= j y y
x R j
R
1 2 2
| *
問題:要選擇多少組典型變量個數?
最多可選取 m = min(p』q)組,可經由 卡方檢定 決定要選取多少組典型變量
先檢定最大的典型根,爾後在一個接著一個對各個根檢定,只保留那些有顯著的
根 也就是
1. H
0: λ
1= λ
2= λ
3= L = λ
m= 0 ,卡方統計量為
[ ( 1 ˆ )( 1 ˆ )( 1 ˆ ) ( 1 ˆ ) ]
ln
)
1
2 (
) 1
1
(
1 2 32
q
mp
n λ λ λ λ
χ = − ⎢⎣ ⎡ − − + + ⎥⎦ ⎤ − − − L − ,其中 n 為樣
本數,m=min(p』q),拒絕域為 χ
2 >χ
2pq,α2. 當 H 是顯著的(拒絕
0H ),接著做
0H
0: λ
2= λ
3= L = λ
m= 0 ,卡方統計量為
[ ( 1 ˆ )( 1 ˆ ) ( 1 ˆ ) ]
ln
)
1
2 (
) 1
1
(
2 32
q
mp
n λ λ λ
χ = − ⎢⎣ ⎡ − − + + ⎥⎦ ⎤ − − L − ,拒絕域為
2 ), 1 )( 1 (
2
χ
αχ
> p− q−3. 當 H 是顯著的(拒絕
0H ),接著做
0H
0: λ
3= L = λ
m= 0 ,卡方統計量為
[ ( 1 ˆ ) ( 1 ˆ ) ]
ln
)
1
2 (
) 1
1
(
32
q
mp
n λ λ
χ = − ⎢⎣ ⎡ − − + + ⎤ ⎥⎦ − L − ,拒絕域為
(2 2)( 2),2
χ
αχ
> p− q−,
4. 依此類推,至 H
0: λ
t= L = λ
m= 0 ,卡方統計量為
[ ( 1 ˆ ) ( 1 ˆ ) ]
ln
)
1
2 (
) 1
1
2
(
m
q
tp
n λ λ
χ = − ⎢⎣ ⎡ − − + + ⎥⎦ ⎤ − L − ,拒絕域為
2
), 1 )( 1 (
2
χ
αχ
> p−t+ q−t+也可主觀的利用重疊係數加以判斷 當樣本數大時,典型相關
R≥0.3表示統計
上顯著的,即重疊係數未超過 0.09 時,此典型變量僅對變數的變異數解釋一小
部分
SPSS 的語法
========================================
MANOVA
y1 y2 y3 … with X1 x2 x3 …
/discrim raw stan corr alpha(0.9代)
/print signif(eign dimenr)
/design.
< alpha(0.9代)顯示 λ
i=0 之假設檢定的 p 值在 0.9代 之內的典型變量之相關統計
量,可把所有可能的典型變量顯示出來,內設為 alpha(0.0代)>
SAS 的語法
======================================
Proc cancorr;
Var y1 y2 y3 …;
With x1 x2 x3 …;
Freq f; (若 data 的輸入為次數分配型態,f 變數為次數變數)
Run;
以陳順宇著,多變量分析, 購買行為 為例,購買數量和喜好程度為 y 組,其
餘 9 個變數為 x 組
MANOVA
購買數量 喜好程度
with
提神 習慣性 解渴 換飲料 口感 享受感覺 品牌 價格合理 設計美觀/discrim raw stan corr alpha(0.9代)
/print signif(eign dimenr)
/design.
<寫作業時,可以不用 alpha(0.9代) 指屉>
Ma va
The default error term in MANOVA has been changed from WITHIN CELLS to WITHIN+RESIDUAL. Note that these are the same for all full factorial designs.
* * * * * * A n a l y s i s o f V a r i a n c e * * * * * *
40 cases accepted.
0 cases rejected because of out-of-range factor values. 0 cases rejected because of missing data.
1 non-empty cell.
1 design will be processed.
- - -
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * EFFECT .. WITHIN CELLS Regression
Multivariate Tests of Significance (S = 2, M = 3 , N = 13 1/2) Test Name Value Approx. F Hypoth. DF Error DF Sig. of F
Pillais 1.09013 3.99374 18.00 60.00 .000 Hotellings 6.85480 10.66303 18.00 56.00 .000 Wilks .10275 6.82985 18.00 58.00 .000 Roys .86788
Note.. F statistic for WILKS' Lambda is exact.
- - - Eigenvalues and Canonical Correlations
Root No. Eigenvalue Pct. Cum. Pct. Canon Cor. Sq. Cor
1 6.569 95.831 95.831 .932 .868 2 .286 4.169 100.000 .471 .222 - - - Dimension Reduction Analysis
Roots Wilks L. F Hypoth. DF Error DF Sig. of F 1 TO 2 .10275 6.82985 18.00 58.00 .000 2 TO 2 .77775 1.07160 8.00 30.00 .409
- - -
EFFECT .. WITHIN CELLS Regression (Cont.) Univariate F-tests with (9,30) D. F.
Variable Sq. Mul. R Adj. R-sq. Hypoth. MS Error MS F 購買數量 .84766 .80196 6.01842 .32447 18.54821 喜好程度 .66670 .56671 13.39147 2.00839 6.66775
Variable Sig. of F 購買數量 .000 喜好程度 .000
- - -
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * Raw canonical coefficients for DEPENDENT variables
Function No.
Variable 1 2 購買數量 .626 -.931 喜好程度 .118 .657
- - - Standardized canonical coefficients for DEPENDENT variables
Function No.
Variable 1 2 購買數量 .802 -1.192 喜好程度 .254 1.414
- - - Correlations between DEPENDENT and canonical variables
Function No.
Variable 1 2 購買數量 .984 -.177 喜好程度 .830 .558
- - - Variance in dependent variables explained by canonical variables
CAN. VAR. Pct Var DE Cum Pct DE Pct Var CO Cum Pct CO 1 82.854 82.854 71.908 71.908 2 17.146 100.000 3.811 75.718
- - - Raw canonical coefficients for COVARIATES
Function No.
COVARIATE 1 2 提神 .255 -.301 習慣性 .428 .394 解渴 -.178 .694 換飲料 -.163 .061 口感 .560 1.467 享受感覺 .179 -1.454 品牌 -.076 .104 價格合理 -.026 -.180 設計美觀 -.162 -.252
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *
Standardized canonical coefficients for COVARIATES CAN. VAR.
COVARIATE 1 2 提神 .303 -.358 習慣性 .489 .449 解渴 -.145 .566 換飲料 -.206 .077 口感 .713 1.866 享受感覺 .224 -1.820 品牌 -.100 .136 價格合理 -.029 -.205 設計美觀 -.175 -.273
- - - Correlations between COVARIATES and canonical variables
CAN. VAR.
Covariate 1 2 提神 .363 .208 習慣性 .552 .211 解渴 -.446 .430 換飲料 .338 -.227 口感 .621 -.101 享受感覺 .599 -.459 品牌 -.185 .244 價格合理 -.113 .011 設計美觀 -.151 -.278
- - - Variance in covariates explained by canonical variables
CAN. VAR. Pct Var DE Cum Pct DE Pct Var CO Cum Pct CO 1 15.082 15.082 17.378 17.378 2 1.684 16.766 7.577 24.954
- - - Regression analysis for WITHIN CELLS error term
--- Individual Univariate .9500 confidence intervals
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * Regression analysis for WITHIN CELLS error term (Cont.)
Dependent variable .. 購買數量
COVARIATE B Beta Std. Err. t-Value Sig. of t 提神 .33174 .30805 .174 1.905 .066 習慣性 .46063 .41061 .166 2.776 .009 解渴 -.28302 -.18018 .188 -1.507 .142 換飲料 -.19749 -.19512 .152 -1.303 .203 口感 .50079 .49765 .182 2.757 .010 享受感覺 .36508 .35699 .172 2.128 .042 品牌 -.10047 -.10326 .082 -1.225 .230 價格合理 -.01108 -.00990 .086 -.128 .899 設計美觀 -.16289 -.13761 .092 -1.772 .087
COVARIATE Lower -95% CL- Upper
提神 -.024 .687 習慣性 .122 .800 解渴 -.667 .101 換飲料 -.507 .112 口感 .130 .872 享受感覺 .015 .715 品牌 -.268 .067 價格合理 -.187 .165 設計美觀 -.351 .025 Dependent variable .. 喜好程度
COVARIATE B Beta Std. Err. t-Value Sig. of t 提神 .25391 .14018 .433 .586 .562 習慣性 .93585 .49598 .413 2.267 .031 解渴 .09699 .03671 .467 .208 .837 換飲料 -.23648 -.13891 .377 -.627 .535 口感 1.76327 1.04175 .452 3.902 .000 享受感覺 -.52634 -.30599 .427 -1.233 .227 品牌 -.06809 -.04160 .204 -.334 .741 價格合理 -.14459 -.07678 .215 -.674 .506 設計美觀 -.41222 -.20704 .229 -1.803 .082
COVARIATE Lower -95% CL- Upper 提神 -.631 1.139 習慣性 .093 1.779 解渴 -.857 1.051 換飲料 -1.007 .534 口感 .840 2.686 享受感覺 -1.398 .345 品牌 -.485 .348 價格合理 -.583 .294
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * Regression analysis for WITHIN CELLS error term (Cont.)
Dependent variable .. 喜好程度 (Cont.)
COVARIATE Lower -95% CL- Upper 設計美觀 -.879 .055
- - -
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * EFFECT .. CONSTANT
Multivariate Tests of Significance (S = 1, M = 0, N = 13 1/2) Test Name Value Exact F Hypoth. DF Error DF Sig. of F Pillais .10304 1.66575 2.00 29.00 .207 Hotellings .11488 1.66575 2.00 29.00 .207 Wilks .89696 1.66575 2.00 29.00 .207 Roys .10304
Note.. F statistics are exact.
- - -
Eigenvalues and Canonical Correlations
Root No. Eigenvalue Pct. Cum. Pct. Canon Cor. 1 .115 100.000 100.000 .321
- - - EFFECT .. CONSTANT (Cont.)
Univariate F-tests with (1,30) D. F.
Variable Hypoth. SS Error SS Hypoth. MS Error MS F Sig. of F 購買數量 .96622 9.73423 .96622 .32447 2.97779 .095 喜好程度 1.68463 60.25181 1.68463 2.00839 .83880 .367
- - - EFFECT .. CONSTANT (Cont.)
Raw discriminant function coefficients Function No.
Variable 1 購買數量 1.542 喜好程度 .263
- - - Standardized discriminant function coefficients
Function No. Variable 1 購買數量 .878 喜好程度 .372
* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * EFFECT .. CONSTANT (Cont.)
Correlations between DEPENDENT and canonical variables Canonical Variable
Variable 1 購買數量 .930 喜好程度 .493
- - -
作業 (請於 5/15 繳交)
1. 設
⎥⎦
⎢ ⎤
⎣
=⎡
2 1
x
x x
和
⎥⎦
⎢ ⎤
⎣
=⎡
2 1
y
y y
,x 和 y 的期望值和共變異矩陣為
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎣
⎡−
=
⎥⎥
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢⎢
⎢
⎣
⎡
=
1 0 2 3
2 1 2 1
y y x x
µ µ
µ µ
µ 和
⎥ ⎥
⎥ ⎥
⎦
⎤
⎢ ⎢
⎢ ⎢
⎣
⎡
−
−
−
= −
⎥⎦ ⎤
⎢⎣ ⎡
Σ
Σ
Σ
= Σ
Σ
7
2
3
1
2
6
1
3
3
1
5
2
1
3
2
8
22 21
12 11
請問
(a)計算所有可能的典型相關,
*2* 1
, ρ
ρ
(b)寫出所有可能的典型變數, ( x
1*, y
1*) 和 ( x
*2, y
*2)
(c)計算(b)中的典型變數的期望值和共變異矩陣,
⎟ ⎟
⎟ ⎟
⎟
⎠
⎞
⎜ ⎜
⎜ ⎜
⎜
⎝
⎛
⎥ ⎥
⎥ ⎥
⎥
⎦
⎤
⎢ ⎢
⎢ ⎢
⎢
⎣
⎡
* 2
* 1
* 2
* 1
y
y
x
x
E 和
⎟⎟⎠ ⎞
⎜⎜⎝ ⎛
Σ
Σ
Σ
= Σ
⎟ ⎟
⎟ ⎟
⎟
⎠
⎞
⎜ ⎜
⎜ ⎜
⎜
⎝
⎛
⎥ ⎥
⎥ ⎥
⎥
⎦
⎤
⎢ ⎢
⎢ ⎢
⎢
⎣
⎡
* 22
* 21
* 12
* 11
* 2
* 1
* 2
* 1