• 検索結果がありません。

典型相關分析pdf 最新協作平台活動 南開科技大學研究生補給站

N/A
N/A
Protected

Academic year: 2018

シェア "典型相關分析pdf 最新協作平台活動 南開科技大學研究生補給站"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

資料整理來源:陳順宇著,多變量分析

第八章 典型相關分析(Canonical Analysis):

典型相關分析簡介

假設有兩組變數,一組為 p 個變數,另一組為 q 個變數,欲研究這兩組變數之間

的相關性

z 若這兩組分別只有一個變數時,則其相關稱為簡單(線性)相關(又稱做皮爾

森相關,Pearson Correlation)

z 若其中一組只有一個變數,另一組有很多變數,則此兩組的相關稱為複相關

(multiple Correlation), 可以利用複迴歸分析來計算這個係數

z 如果這兩組變數都是一個變數以上的,那量測這兩組變數間的相關稱為典型

相關(Canonical Correlation),指為本章節將介紹的主軸 例如

1. 教育研究者想了解 3 個學術能力指標與 代 個在校成績表現之間的相關性

2. 社會學家想研究 2 個先前訪問而得的個人社會地位指標與後繼測量的 4 個不

同社會地位指標之前的關係

上述這兩種情形,研究者所感興趣的都是兩組變數之間的關係

典型相關分析的基本概念

最直覺的想法:

x

組有 p 個變數, y 組有 q 個變數,則分別對這兩組變數各做線

性組合後,再計算此兩加權和的簡單相關係數,然後以這個簡單相關係數當做這

兩組變數之間相關性的衡量指標

(白話的講,

x

組有 p 個變數, y 組有 q 個變數,這種狀況我們不會算,我們只會

x

組有 1 個變數, y 組有 1 個變數這種情形,也就是簡單相關係數 因此,如

果可以把

x

組的 p 個變數組合成一個, y 組的 q 個變數也組合成一個,那我們就

(2)

可以利用簡單相關的技巧來衡量

x

組 p 個變數和 y 組 q 個變數之間的相關性)

問題的所在:我們剛剛說到把

x

組的 p 個變數組合成一個, y 組的 q 個變數也組

合成一個,然後計算簡單相關來衡量兩組之間的相關性 問題是如何組合?觀察

下面所提出的事實,就會知道光是有這個組合的想法,我們還是不能完美的衡量

兩組變數之間的相關性

設兩組變數分別為

x

組有 p 個變數

⎟ ⎟

⎜ ⎜

=

x

p

x

x M

1

與 y 組有 q 個變數

⎟ ⎟

⎜ ⎜

=

y

q

y

y M

1

,我們先

分別把

x

組和 y 組的變數組合起來(當然是用線性組合),也就是

p px

a x

a

x1* = 11 1 +L+ 1

q qy

b y

b

y1* = 11 1+L+ 1

其中這些係數都是一些常數,就是你組合的比例,當然啦,因為是線性組合,所

a

11

+ L + a

1p

= 1 且 b

11

+ L b

1q

= 1 觀察一下上面所描述的狀況,你會發現兩個

問題:

1. 給定不同的組合比例 a

11

,K , a

1p

以及 b

11

,K , b

1q

,你都會算出不一樣的簡單相

關係數,這使得這個方法非常的不科學,每個人都可以依照自己的喜好來決

定組合比例,並且在衡量兩組變量之間相關性的問題上,也沒有一個統一的

說法

2. 各組內變量之間的尺度不太相同,例如身高的尺度跟腳掌長度的尺度就不相

同,顯然前者的變異數會大於後者,這種狀況是不合理的

針對第一個問題, 在所有的組合中,尋找一個組合使得 x 與

1*

y 之間的簡單相

1*

關係數為最大 ,可能是個好想法;另外,尋找一個組合使得 x 與

1*

y 之間的簡

1*

單相關係數為最小此簡單相關係數就是典型相關係數,而典型相關係數的平方稱

為典型根(Canonical Root)

對於第二個問題,解決的辦法是對資料進行標準化

(3)

典型相關分析的理論架構及基本假設

設兩組變數分別為

x

組有 p 個變數

⎟ ⎟

⎜ ⎜

=

x

p

x

x M

1

與 y 組有 q 個變數

⎟ ⎟

⎜ ⎜

=

y

q

y

y M

1

,服從多

變量常態分配,典型相關分析是找

x

組的線性組合 x

1*

= a

1

x 與 y 組的線性組合

y

b

y

1*

=

1

,使得 x 與

1*

y 的(簡單)相關係數最大,其中

1*

⎟⎟

⎟⎟

⎜⎜

⎜⎜

=

a p

a a a

1 12 11

1 M

⎟⎟

⎟⎟

⎜⎜

⎜⎜

=

bq

b b b

1 12 11

1 M

x

組的共變異數矩陣為 Σ , y 組的共變異數矩陣為

xx

Σ ,

yy x

與 y 的共變異數矩

陣為 Σ ,

xy

x 的變異數為

1*

1 1 1

*

1

) ( )

( x Var a x a a

Var = = Σ

xx

*

y 的變異數為

1

1 1 1

*

1) ( )

(y Var b y b b

Var = = Σyy

*

x 與

1

y 的共變異數為

1*

1 1 1

1

* 1

*

1, ) ( , )

(x y Cov a x b y a b

Cov = = Σxy

x 與

1*

y 的簡單相關係數為

1*

1 1 1 1

1 1

* 1

* 1

* 1

*

* 1 1

* 1

)

(

)

(

)

,

) (

,

(

b

b

a

a

b

a

y

Var

x

Var

y

x

y Cov

x

yy xx

xy

′ Σ

′ Σ

′ Σ

× =

ρ =

典型相關問題,欲使得 x 與

1*

y 的(簡單)相關係數最大,故

1*

a

1

Σ

xx

a

1

= 1 , b

1

Σ

yy

b

1

= 1 的條件下,求取使 a

1

Σ

xy

b

1

為最大的

a1

b1

即為藉由

Σxx1ΣxyΣyy1Σyx

Σyy1ΣyxΣxx1Σxy

,求出特徵值(典型根) λ

1

λ

2

L λ

m

其中 m=min(p』q),而 a 和

i

b 分別是

i

λ

i

的特徵向量,則 x

i*

= a

i'

xy

i*

= b

i'

y ,稱為

(4)

第 i 組典型變量(Canonical Variable), x 和

i*

y 的第 i 典型相關為

i*

λ

i

i=1』2』…』m

因為 Σ

xx

, Σ

yy

, Σ

xy

未知,改以 S

xx

, S

yy

, S

xy

取屈之,而得 λ

ˆ1

λ

ˆ2 L

λ

ˆm

典型變量的係數稱為典型權重(Canonical Weights),權重愈大表示此變數對此

典型變量的貢獻愈大 在以上的計算中,此權重為標準化後的資料所得的,故第

k 筆資料的第 i 典型變量得點為

j j jk

ij

s

x

a ( x )

典型負荷(Canonical Loading)為變數與典型變量的相關係數,可由相關係數的

平方了解此典型變量解釋了此變數多少比例的變異數

1.

x

組的第 j 個典型變量

x*j

解釋

x

組的第 i 個變數 x 的變異數比例為

i 2*, i

jx

rx

2. y 組的第 j 個典型變量

y*j

解釋 y 組的第 i 個變數 y 的變異數比例為

i 2*, i

j y

ry

3.

x

組的第 j 個典型變量

x*j

解釋所有

x

組變數的變異數比例為

R(2j)x

為解釋

x

組內每個變數變異數比例的加權平均,

= p

i x p

i x x x x

j

i i i j

S S r R

1 2 1

2 2

, 2

) (

*

,其中

2

xi

S

為第 i

個變數 x 的變異數

i

若資料為標準化的,則

p

r

R

p

i x x x

j

i

j

=

1

2 , 2

) (

*

4. y 組的第 j 個典型變量

y*j

解釋所有 y 組變數的變異數比例為

R(2j)y

為解釋 y

組內每個變數變異數比例的加權平均,

= q

i y q

i y y y y

j

i i i j

S S r R

1 2 1

2 2

, 2

) (

*

,其中

2

yi

S

為第 i

個變數 y 的變異數

i

若資料為標準化的,則

q

r

R

q

i y y y

j

i

j

=

1

2 , 2

) (

*

(5)

代.

x

組的第 j 個典型變量

x*j

解釋所有 y 組變數的變異數比例為 R

x2*

ˆ

j

R

(2j)y

j

= λ

疊係數(Redundancy) 若資料為標準化的,則

p

r

R

p

i x x x j

j i

j

=

=

1

2

2

*

*

λ ˆ

令. y 組的第 j 個典型變量

y*j

解釋所有

x

組變數的變異數比例為 R

y2*

ˆ

j

R

(2j)x

j

= λ

疊係數(Redundancy) 若資料為標準化的,則

q

r

R

q

i y y y j

j i j

=

=

1

2

2

*

*

λ ˆ

“. 所有

x

組的典型變量解釋所有 y 組變數的變異數比例為

= m= j x x

y j

R R

1 2 2

| *

”. 所有 y 組的典型變量解釋所有

x

組變數的變異數比例為

= m= j y y

x R j

R

1 2 2

| *

問題:要選擇多少組典型變量個數?

最多可選取 m = min(p』q)組,可經由 卡方檢定 決定要選取多少組典型變量

先檢定最大的典型根,爾後在一個接著一個對各個根檢定,只保留那些有顯著的

根 也就是

1. H

0

: λ

1

= λ

2

= λ

3

= L = λ

m

= 0 ,卡方統計量為

[ ( 1 ˆ )( 1 ˆ )( 1 ˆ ) ( 1 ˆ ) ]

ln

)

1

2 (

) 1

1

(

1 2 3

2

q

m

p

n λ λ λ λ

χ = − ⎢⎣ − − + + ⎥⎦ − − − L,其中 n 為樣

本數,m=min(p』q),拒絕域為 χ

2 >

χ

2pq,α

2. 當 H 是顯著的(拒絕

0

H ),接著做

0

H

0

: λ

2

= λ

3

= L = λ

m

= 0 ,卡方統計量為

[ ( 1 ˆ )( 1 ˆ ) ( 1 ˆ ) ]

ln

)

1

2 (

) 1

1

(

2 3

2

q

m

p

n λ λ λ

χ = − ⎢⎣ − − + + ⎥⎦ − − L,拒絕域為

2 ), 1 )( 1 (

2

χ

α

χ

> p q

3. 當 H 是顯著的(拒絕

0

H ),接著做

0

H

0

: λ

3

= L = λ

m

= 0 ,卡方統計量為

[ ( 1 ˆ ) ( 1 ˆ ) ]

ln

)

1

2 (

) 1

1

(

3

2

q

m

p

n λ λ

χ = − ⎢⎣ − − + + ⎥⎦L,拒絕域為

(2 2)( 2),

2

χ

α

χ

> p q

4. 依此類推,至 H

0

: λ

t

= L = λ

m

= 0 ,卡方統計量為

(6)

[ ( 1 ˆ ) ( 1 ˆ ) ]

ln

)

1

2 (

) 1

1

2

(

m

q

t

p

n λ λ

χ = − ⎢⎣ − − + + ⎥⎦ L,拒絕域為

2

), 1 )( 1 (

2

χ

α

χ

> pt+ qt+

也可主觀的利用重疊係數加以判斷 當樣本數大時,典型相關

R0.3

表示統計

上顯著的,即重疊係數未超過 0.09 時,此典型變量僅對變數的變異數解釋一小

部分

SPSS 的語法

========================================

MANOVA

y1 y2 y3 … with X1 x2 x3 …

/discrim raw stan corr alpha(0.9代)

/print signif(eign dimenr)

/design.

< alpha(0.9代)顯示 λ

i

=0 之假設檢定的 p 值在 0.9代 之內的典型變量之相關統計

量,可把所有可能的典型變量顯示出來,內設為 alpha(0.0代)>

SAS 的語法

======================================

Proc cancorr;

Var y1 y2 y3 …;

With x1 x2 x3 …;

Freq f; (若 data 的輸入為次數分配型態,f 變數為次數變數)

Run;

(7)

以陳順宇著,多變量分析, 購買行為 為例,購買數量和喜好程度為 y 組,其

餘 9 個變數為 x 組

MANOVA

購買數量 喜好程度

with

提神 習慣性 解渴 換飲料 口感 享受感覺 品牌 價格合理 設計美觀

/discrim raw stan corr alpha(0.9代)

/print signif(eign dimenr)

/design.

<寫作業時,可以不用 alpha(0.9代) 指屉>

Ma va

The default error term in MANOVA has been changed from WITHIN CELLS to WITHIN+RESIDUAL. Note that these are the same for all full factorial designs.

* * * * * * A n a l y s i s o f V a r i a n c e * * * * * *

40 cases accepted.

0 cases rejected because of out-of-range factor values. 0 cases rejected because of missing data.

1 non-empty cell.

1 design will be processed.

- - -

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * EFFECT .. WITHIN CELLS Regression

Multivariate Tests of Significance (S = 2, M = 3 , N = 13 1/2) Test Name Value Approx. F Hypoth. DF Error DF Sig. of F

Pillais 1.09013 3.99374 18.00 60.00 .000 Hotellings 6.85480 10.66303 18.00 56.00 .000 Wilks .10275 6.82985 18.00 58.00 .000 Roys .86788

Note.. F statistic for WILKS' Lambda is exact.

- - - Eigenvalues and Canonical Correlations

Root No. Eigenvalue Pct. Cum. Pct. Canon Cor. Sq. Cor

1 6.569 95.831 95.831 .932 .868 2 .286 4.169 100.000 .471 .222 - - - Dimension Reduction Analysis

Roots Wilks L. F Hypoth. DF Error DF Sig. of F 1 TO 2 .10275 6.82985 18.00 58.00 .000 2 TO 2 .77775 1.07160 8.00 30.00 .409

- - -

(8)

EFFECT .. WITHIN CELLS Regression (Cont.) Univariate F-tests with (9,30) D. F.

Variable Sq. Mul. R Adj. R-sq. Hypoth. MS Error MS F 購買數量 .84766 .80196 6.01842 .32447 18.54821 喜好程度 .66670 .56671 13.39147 2.00839 6.66775

Variable Sig. of F 購買數量 .000 喜好程度 .000

- - -

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * Raw canonical coefficients for DEPENDENT variables

Function No.

Variable 1 2 購買數量 .626 -.931 喜好程度 .118 .657

- - - Standardized canonical coefficients for DEPENDENT variables

Function No.

Variable 1 2 購買數量 .802 -1.192 喜好程度 .254 1.414

- - - Correlations between DEPENDENT and canonical variables

Function No.

Variable 1 2 購買數量 .984 -.177 喜好程度 .830 .558

- - - Variance in dependent variables explained by canonical variables

CAN. VAR. Pct Var DE Cum Pct DE Pct Var CO Cum Pct CO 1 82.854 82.854 71.908 71.908 2 17.146 100.000 3.811 75.718

- - - Raw canonical coefficients for COVARIATES

Function No.

COVARIATE 1 2 提神 .255 -.301 習慣性 .428 .394 解渴 -.178 .694 換飲料 -.163 .061 口感 .560 1.467 享受感覺 .179 -1.454 品牌 -.076 .104 價格合理 -.026 -.180 設計美觀 -.162 -.252

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * *

(9)

Standardized canonical coefficients for COVARIATES CAN. VAR.

COVARIATE 1 2 提神 .303 -.358 習慣性 .489 .449 解渴 -.145 .566 換飲料 -.206 .077 口感 .713 1.866 享受感覺 .224 -1.820 品牌 -.100 .136 價格合理 -.029 -.205 設計美觀 -.175 -.273

- - - Correlations between COVARIATES and canonical variables

CAN. VAR.

Covariate 1 2 提神 .363 .208 習慣性 .552 .211 解渴 -.446 .430 換飲料 .338 -.227 口感 .621 -.101 享受感覺 .599 -.459 品牌 -.185 .244 價格合理 -.113 .011 設計美觀 -.151 -.278

- - - Variance in covariates explained by canonical variables

CAN. VAR. Pct Var DE Cum Pct DE Pct Var CO Cum Pct CO 1 15.082 15.082 17.378 17.378 2 1.684 16.766 7.577 24.954

- - - Regression analysis for WITHIN CELLS error term

--- Individual Univariate .9500 confidence intervals

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * Regression analysis for WITHIN CELLS error term (Cont.)

Dependent variable .. 購買數量

COVARIATE B Beta Std. Err. t-Value Sig. of t 提神 .33174 .30805 .174 1.905 .066 習慣性 .46063 .41061 .166 2.776 .009 解渴 -.28302 -.18018 .188 -1.507 .142 換飲料 -.19749 -.19512 .152 -1.303 .203 口感 .50079 .49765 .182 2.757 .010 享受感覺 .36508 .35699 .172 2.128 .042 品牌 -.10047 -.10326 .082 -1.225 .230 價格合理 -.01108 -.00990 .086 -.128 .899 設計美觀 -.16289 -.13761 .092 -1.772 .087

COVARIATE Lower -95% CL- Upper

(10)

提神 -.024 .687 習慣性 .122 .800 解渴 -.667 .101 換飲料 -.507 .112 口感 .130 .872 享受感覺 .015 .715 品牌 -.268 .067 價格合理 -.187 .165 設計美觀 -.351 .025 Dependent variable .. 喜好程度

COVARIATE B Beta Std. Err. t-Value Sig. of t 提神 .25391 .14018 .433 .586 .562 習慣性 .93585 .49598 .413 2.267 .031 解渴 .09699 .03671 .467 .208 .837 換飲料 -.23648 -.13891 .377 -.627 .535 口感 1.76327 1.04175 .452 3.902 .000 享受感覺 -.52634 -.30599 .427 -1.233 .227 品牌 -.06809 -.04160 .204 -.334 .741 價格合理 -.14459 -.07678 .215 -.674 .506 設計美觀 -.41222 -.20704 .229 -1.803 .082

COVARIATE Lower -95% CL- Upper 提神 -.631 1.139 習慣性 .093 1.779 解渴 -.857 1.051 換飲料 -1.007 .534 口感 .840 2.686 享受感覺 -1.398 .345 品牌 -.485 .348 價格合理 -.583 .294

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * Regression analysis for WITHIN CELLS error term (Cont.)

Dependent variable .. 喜好程度 (Cont.)

COVARIATE Lower -95% CL- Upper 設計美觀 -.879 .055

- - -

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * EFFECT .. CONSTANT

Multivariate Tests of Significance (S = 1, M = 0, N = 13 1/2) Test Name Value Exact F Hypoth. DF Error DF Sig. of F Pillais .10304 1.66575 2.00 29.00 .207 Hotellings .11488 1.66575 2.00 29.00 .207 Wilks .89696 1.66575 2.00 29.00 .207 Roys .10304

Note.. F statistics are exact.

- - -

(11)

Eigenvalues and Canonical Correlations

Root No. Eigenvalue Pct. Cum. Pct. Canon Cor. 1 .115 100.000 100.000 .321

- - - EFFECT .. CONSTANT (Cont.)

Univariate F-tests with (1,30) D. F.

Variable Hypoth. SS Error SS Hypoth. MS Error MS F Sig. of F 購買數量 .96622 9.73423 .96622 .32447 2.97779 .095 喜好程度 1.68463 60.25181 1.68463 2.00839 .83880 .367

- - - EFFECT .. CONSTANT (Cont.)

Raw discriminant function coefficients Function No.

Variable 1 購買數量 1.542 喜好程度 .263

- - - Standardized discriminant function coefficients

Function No. Variable 1 購買數量 .878 喜好程度 .372

* * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * EFFECT .. CONSTANT (Cont.)

Correlations between DEPENDENT and canonical variables Canonical Variable

Variable 1 購買數量 .930 喜好程度 .493

- - -

(12)

作業 (請於 5/15 繳交)

1. 設

⎢ ⎤

=⎡

2 1

x

x x

⎢ ⎤

=⎡

2 1

y

y y

,x 和 y 的期望值和共變異矩陣為

⎥⎥

⎥⎥

⎢⎢

⎢⎢

⎡−

=

⎥⎥

⎥⎥

⎢⎢

⎢⎢

=

1 0 2 3

2 1 2 1

y y x x

µ µ

µ µ

µ

⎥ ⎥

⎥ ⎥

⎢ ⎢

⎢ ⎢

= −

⎥⎦ ⎤

⎢⎣ ⎡

Σ

Σ

Σ

= Σ

Σ

7

2

3

1

2

6

1

3

3

1

5

2

1

3

2

8

22 21

12 11

請問

(a)計算所有可能的典型相關,

*2

* 1

, ρ

ρ

(b)寫出所有可能的典型變數, ( x

1*

, y

1*

) 和 ( x

*2

, y

*2

)

(c)計算(b)中的典型變數的期望值和共變異矩陣,

⎟ ⎟

⎟ ⎟

⎜ ⎜

⎜ ⎜

⎥ ⎥

⎥ ⎥

⎢ ⎢

⎢ ⎢

* 2

* 1

* 2

* 1

y

y

x

x

E

⎟⎟⎠ ⎞

⎜⎜⎝ ⎛

Σ

Σ

Σ

= Σ

⎟ ⎟

⎟ ⎟

⎜ ⎜

⎜ ⎜

⎥ ⎥

⎥ ⎥

⎢ ⎢

⎢ ⎢

* 22

* 21

* 12

* 11

* 2

* 1

* 2

* 1

y

y

x

x

Cov

2. TOEFL 資料檔,x 組:大學在學成績指標(GPA) 留美英文能力測驗(TOEFL)

留 美 商 業 傾 向 智 能 測 驗 (GMAT) 與 y 組:工作年資 (WORK) 其 他 申 請 資 格

(OTHER),考慮這兩組變數的典型相關

(可參考鄧家駒著,多變量分析,p2“2-2“3)

参照

関連したドキュメント

(These are the same, insofar as recently the classic Ces` aro–Riesz theory of summability of se- ries and integrals has been given a distributional interpretation.) When applied to

Baruah, Bora, and Saikia [2] also found new proofs for the relations which involve only the G¨ollnitz-Gordon functions by using Schr¨oter’s formulas and some theta-function

We prove that for some form of the nonlinear term these simple modes are stable provided that their energy is large enough.. Here stable means orbitally stable as solutions of

It is shown that the solutions of the pure initial-value problem for the KP and regularized KP equations are the same, within the order of accuracy attributable to either, on the

discrete ill-posed problems, Krylov projection methods, Tikhonov regularization, Lanczos bidiago- nalization, nonsymmetric Lanczos process, Arnoldi algorithm, discrepancy

The GKS-DRTLS with preconditioner outperforms DRTLSnp, RTLSQEP, and RTLSEVP in all examples, i.e., the relative residual is computed to almost machine precision within a search space

Jin [21] proved by nonstandard methods the following beautiful property: If A and B are sets of natural numbers with positive upper Banach density, then the corresponding sumset A +

(The members of [r] themselves will also at times be described as special .) Note that by definition all non-minimal elements within non-special blocks are assigned one of m