• 検索結果がありません。

線形重回帰分析の統計的性質

N/A
N/A
Protected

Academic year: 2021

シェア "線形重回帰分析の統計的性質"

Copied!
31
0
0

読み込み中.... (全文を見る)

全文

(1)

Lec05

線形重回帰分析の統計的性質

I. Takeuchi, ML, 02-02 1/31

(2)

正規方程式と最小二乗解

訓練データとパラメータ(nは事例数,dは特徴数)

X

n×d

=

x11 x12 · · · x1d

x21 x22 · · · x2d

... ... . .. ... xn1 xn2 · · · xnd

, y

n×1=

y1

y2

... yn

, w

d×1=

w1

w2

... wd

最小二乗法

arg min

w∈Rd(yXw)(yXw)

正規方程式と最小二乗解

(XX) ˆw=Xy wˆ = (XX)1Xy

(3)

最小二乗解ベクトルの統計的バラツキ

線形モデル

y=Xw+ε, E[ε] =0, Cov[ε] =σ2I (Iは単位行列)

最小二乗解 ˆ

w= (XX)1Xy =w+ (XX)1Xε

最小二乗解の期待値と共分散行列 E[ ˆw]=w,

Cov[ ˆw]=σ2(XX)1

I. Takeuchi, ML, 02-02 3/31

(4)

さらにノイズεの正規性を仮定すると

線形モデル

y=Xw+ε, εN(0, σ2I)

最小二乗解 ˆ

w= (XX)1Xy=w+ (XX)1Xε

最小二乗解の確率分布 ˆ

wN(w, σ2(XX)1)

(5)

多変量正規分布

多変量正規分布zN(µ,Σ)

P(z) = 1

(2π)d|Σ|exp(1

2(zµ)Σ1(zµ))

多変量正規分布とは等高線が楕円の分布

Dimension 1

Dimension 2

0.02 0.04

0.06 0.08

0.1 0.12

0.14

−3 −2 −1 0 1 2 3

−3−2−10123

Dimension 1

Dimension 2

0.02 0.04 0.06

0.08 0.1

0.12 0.14

0.16 0.18

−3 −2 −1 0 1 2 3

−3−2−10123

Dimension 1

Dimension 2

0.02 0.04 0.06

0.08 0.1

0.12 0.14

0.16 0.18

0.2 0.22

−3 −2 −1 0 1 2 3

−3−2−10123

N ([ 0

0 ]

, [ 1 0

0 1 ])

N ([ 0

0 ]

,

[ 1 0.5 0.5 1

]) N

([ 0 0

] ,

[ 1 0.75

0.75 1 ])

I. Takeuchi, ML, 02-02 5/31

(6)

期待値ベクトル

期待値ベクトル

E[ ˆw] =w(最小二乗解は不偏推定量)

不偏性の証明

E[ ˆw]=E[(XX)1Xy]

=E[(XX)1X(Xw+ε)]

=E[w+ (XX)1Xε)]

=w+ (XX)1XE[ε] =w

(7)

分散共分散行列

分散共分散行列

Cov[ ˆw] =

V[ ˆw1] Cov( ˆw1,wˆ2) · · · Cov( ˆw1,wˆd) Cov( ˆw2,wˆ1) V[ ˆw2] · · · Cov( ˆw2,wˆd)

... ... . .. ...

Cov( ˆwd,wˆ1) Cov( ˆwd,wˆ2) · · · V[ ˆwd]

=σ2(XX)1

証明は演習問題1

I. Takeuchi, ML, 02-02 7/31

(8)

演習問題1

最小二乗解wˆ = (XX)1Xy の分散共分散行列が Cov[ ˆw] =σ2(XX)1

と表されることを示せ

(9)

演習問題1の解答

I. Takeuchi, ML, 02-02 9/31

(10)

データ例

xi1: 設置箱数,xi2: 歩行時間,yi: 配送時間(n= 25, d= 2)

X=

7 560 3 220 3 340

4 80

6 150 7 330 2 110 7 210 30 1460 5 605 16 688 10 215 4 255 6 462 9 448 10 776 6 200 7 132

3 36

17 770 10 140 26 810 9 450 8 635 4 150

, y=

16.68 11.50 12.03 14.88 13.75 18.11 8.00 17.83 79.24 21.50 40.33 21.00 13.50 19.75 24.00 29.00 15.35 19.00 9.50 35.10 17.90 52.32 18.75 19.83 10.75

(11)

標準化

標準化

xij xijx¯j ˆ σj

, j= 1, . . . , d, yi yiy¯ ˆ σy

X=

0.25 0.46

0.83 0.58

0.83 0.21

0.69 1.01

0.40 0.79

0.25 0.24

−0.98 −0.92

0.25 0.61 3.08 3.23

0.54 0.60 1.05 0.85 0.18 0.59

−0.69 −0.47

0.40 0.16 0.03 0.11 0.18 1.12

0.40 0.64

0.25 0.85

0.83 1.14 1.19 1.10 0.18 0.82 2.50 1.23 0.03 0.12

−0.11 0.69

0.69 0.79

, y=

0.36

0.70

0.66

0.48

0.55

0.27

−0.92

0.29 3.66

0.05 1.15

0.08

−0.57

0.16 0.10 0.42

0.45

0.21

0.82 0.81

0.28 1.92

0.23

−0.16

0.74

I. Takeuchi, ML, 02-02 11/31

(12)

最小二乗法

行列,ベクトル計算

XX=

[ 24.00 19.68 19.68 24.00

]

, Xy=

[ 23.04 21.36

]

逆行列

(XX)1=

[ 0.130 0.107

0.107 0.130 ]

最小二乗推定値

ˆ w=

[ 0.716 0.301

]

(13)

逆標準化

標準化(再掲)

˜

xij xijx¯j

ˆ σj

, j= 1, . . . , d, y˜i yiy¯ ˆ σy

標準化後の線形モデルをy˜i= ˜w1x˜i1+ ˜w2x˜i2 とすると,

˜ yi= ˜w1

(xi1x¯1

ˆ σ1

) + ˜w2

(xi2x¯2

ˆ σ2

)

= (

w˜1x¯1 ˆ

σ1 w˜2x¯2 ˆ σ2

)

| {z }

ˆ w0

+ w˜1 ˆ σ1

|{z}

ˆ w1

xi1+ w˜2 ˆ σ2

|{z}

ˆ w1

xi2

自販機データの例 ˆ

w0= 2.341, wˆ1= 1.616, wˆ2= 0.014

I. Takeuchi, ML, 02-02 13/31

(14)

誤差分散の推定

誤差分散σ2の不偏推定

ˆ

σ2= 1 nd

n i=1

yi

d j=1

ˆ wjxij

2

配達データの例

ˆ

σ2= 0.044

(15)

最小二乗解の期待値と分散共分散

最小二乗解の期待値

E[ ˆw] = ˆw=

[ 0.716 0.301

]

最小二乗解の分散共分散行列 Cov( ˆw) = ˆσ2(XX)1

= 0.044×

[ 0.130 0.107

0.107 0.130 ]

=

[ 0.0057 0.0047 0.0047 0.0057

]

I. Takeuchi, ML, 02-02 15/31

(16)

予測値の期待値と分散

新しい入力xnewRdに対する出力ynewの予測

ˆ ynew=

d j=1

ˆ

wjxnew,j = ˆwxnew

予測値の期待値

Eynew] =

d j=1

E[ ˆwj]xnew,j =E[ ˆw]xnew = ˆwxnew

予測値の分散

Vynew] =

d j=1

V[ ˆwj]x2new,j+ 2

j,j̸=j

Cov( ˆwj,wˆj)xnew,jxnew,j =xnewCov( ˆw)xnew

配達データの例(xnew= [10,200](正規化前)の場合)

(17)

演習問題2

以下のような訓練データに対して線形重回帰モデルの(正規化後 の)最小二乗解を求めよ

X=

1 2 2 3 3 2 2 5 3 5

, y=

2 6 5 6 9

(正規化後の)最小二乗解の期待値と分散共分散行列を求めよ

入力xnew= [1,1]に対する出力の予測結果の平均と分散を求めよ.

I. Takeuchi, ML, 02-02 17/31

(18)

演習問題2の解答

(19)

重回帰分析の統計手仮説検定

個別回帰係数の有意性検定

H0: ˆwj= 0 v.s. H1: ˆwj̸= 0

回帰分析全体の有意性検定

H0:w1=w2=· · ·=wd= 0 v.s. H1:wj ̸= 0for at least onej

I. Takeuchi, ML, 02-02 19/31

(20)

個別回帰係数の有意性検定

最小二乗推定量の標本分布 ˆ wjN(

wj, σ2(XX)jj1)

帰無分布

ˆ wjN(

0, σ2(XX)jj1)

z検定(ノイズ分散が既知のとき)

z= wˆj

σ2(XX)jj1

N(0,1)

t検定(ノイズ分散が未知のとき)

t= wˆj

ˆ

σ2(XX)jj1

tnd1

(21)

自販機配達データの例

t

t1= 9.46, t2= 3.98,

偽陽性率(p値)

p1= 1.6×109, p2= 0.00032

t分布

−10 −5 0 5 10

0.00.10.20.30.4

t

p(t)

t Distribution (df=22)

−10 −5 0 5 10

0.00.10.20.30.4

t

p(t)

t Distribution (df=22)

t1= 9.46 t2= 3.98

I. Takeuchi, ML, 02-02 21/31

(22)

回帰分析全体の有意性検定

変動の分解

Sall=Sreg+Sres

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

Sall Sreg Sres

(23)

3つの変動和

全変動和

Sall:=

n i=1

(yiy)¯ 2

回帰変動和

Sreg:=

n i=1

yiy)¯ 2=

n i=1

d

j=1

ˆ

wjxijy¯

2

残差変動和

Sres:=

n i=1

(yiyˆi)2=

n i=1

yi

d j=1

ˆ wjxij

2

I. Takeuchi, ML, 02-02 23/31

(24)

分散分析

分散分析表

自由度 平均 回帰変動 Sreg d Mreg 残差変動 Sres nd1 Mreg  全変動 Sall n1

検定統計量

F = Mreg

Mres = Sreg/d Sres/(nd1)

標本分布

自由度(d, nd1)F分布

(25)

自販機配達データの例

分散分析表

自由度 平均

回帰変動 23.03 2 11.52

残差変動 0.97 22 0.044

 全変動 24.00 24

F分布

0 2 4 6 8 10

0.00.10.20.30.4

F

p(F)

F Distribution (df1=2, df2=22)

  

0 50 100 150 200 250 300

0.00.10.20.30.4

F

p(F)

F Distribution (df1=2, df2=22)

F = 261.24,p= 1.89×1017

I. Takeuchi, ML, 02-02 25/31

(26)

偏差変動和に基づく検定

変数の分割

X = [X·1X·2], w= [ w1

w2 ]

線形モデル

y=Xw+ε=X·1w1+X·2w2+ε,

複数の入力変数グループに関する有意性検定 H0:w2=0 v.s. H1:w2̸=0.

(27)

偏差変動和

最小二乗推定量 ˆ

w= (XX)1Xy, wˆ1= (X·1X·1)1X·1y

偏差変動和(Extra Sum of Squares)

Sreg(w2|w1) =Sreg(w)Sreg(w1)

検定統計量

F =Sreg(w2|w1)/d2

Sres/(nd1)

I. Takeuchi, ML, 02-02 27/31

(28)

t検定とF 検定の等価性

偏差変動和

Sreg(wj |w1, . . . , wj1, wj+1, . . . , wd)

検定統計量

F = Sreg(wj |w1, . . . , wj1, wj+1, . . . , wd) Sres/(nd+ 1)

t検定とF 検定の等価性

t2ν =F1,ν

(29)

自販機配達データの例

F

F1= Sreg(w1|w2)

Sres/(nd1) = 89.58, F2= Sreg(w2|w1)

Sres/(nd1) = 15.85,

t

t1= 9.46, t2= 3.98,

等価性

t21= 9.462= 89.4989.58, t22= 3.982= 15.8415.85

I. Takeuchi, ML, 02-02 29/31

(30)

演習問題3:変動和の分解

中心化され,¯y=n

i=1yi/n= 0であるデータに対して,全変動 Sall,回帰変動和Sreg,残差変動和Sresをそれぞれ

Sall=

n i=1

yi2=yy,

Sreg=

n i=1

ˆ yi2

= (Xw)ˆ (Xw),ˆ

Sres=

n i=1

(yiyˆi)2= (yXw)ˆ (yXw)ˆ

と定義したとき,

Sall=Sreg+Sres

であることを示せ.

(31)

演習問題3の解答

I. Takeuchi, ML, 02-02 31/31

参照

関連したドキュメント

重回帰分析,相関分析の結果を参考に,初期モデル

生殖毒性分類根拠 NITEのGHS分類に基づく。 特定標的臓器毒性 特定標的臓器毒性単回ばく露 単回ばく露 単回ばく露分類根拠

ƒ ƒ (2) (2) 内在的性質< 内在的性質< KCN KCN である>は、他の である>は、他の

assume that A is row-full rank Linear Matroid

実習と共に教材教具論のような実践的分野の重要性は高い。教材開発という実践的な形で、教員養

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

 そこで,今回はさらに,日本銀行の金融政策変更に合わせて期間を以下 のサブ・ピリオドに分けた分析を試みた。量的緩和政策解除 (2006年3月

1.管理区域内 ※1 外部放射線に係る線量当量率 ※2 毎日1回 外部放射線に係る線量当量率 ※3 1週間に1回 外部放射線に係る線量当量