Lec05
線形重回帰分析の統計的性質
I. Takeuchi, ML, 02-02 1/31
正規方程式と最小二乗解
▶ 訓練データとパラメータ(nは事例数,dは特徴数)
X
n×d
=
x11 x12 · · · x1d
x21 x22 · · · x2d
... ... . .. ... xn1 xn2 · · · xnd
, y
n×1=
y1
y2
... yn
, w
d×1=
w1
w2
... wd
▶ 最小二乗法
arg min
w∈Rd(y−Xw)⊤(y−Xw)
▶ 正規方程式と最小二乗解
(X⊤X) ˆw=X⊤y ⇔ wˆ = (X⊤X)−1X⊤y
最小二乗解ベクトルの統計的バラツキ
▶ 線形モデル
y=Xw+ε, E[ε] =0, Cov[ε] =σ2I (Iは単位行列)
▶ 最小二乗解 ˆ
w= (X⊤X)−1X⊤y =w+ (X⊤X)−1X⊤ε
▶ 最小二乗解の期待値と共分散行列 E[ ˆw]=w,
Cov[ ˆw]=σ2(X⊤X)−1
I. Takeuchi, ML, 02-02 3/31
さらにノイズεの正規性を仮定すると
▶ 線形モデル
y=Xw+ε, ε∼N(0, σ2I)
▶ 最小二乗解 ˆ
w= (X⊤X)−1X⊤y=w+ (X⊤X)−1X⊤ε
▶ 最小二乗解の確率分布 ˆ
w∼N(w, σ2(X⊤X)−1)
多変量正規分布
▶ 多変量正規分布z∼N(µ,Σ)
P(z) = 1
√(2π)d|Σ|exp(−1
2(z−µ)⊤Σ−1(z−µ))
▶ 多変量正規分布とは等高線が楕円の分布
Dimension 1
Dimension 2
0.02 0.04
0.06 0.08
0.1 0.12
0.14
−3 −2 −1 0 1 2 3
−3−2−10123
Dimension 1
Dimension 2
0.02 0.04 0.06
0.08 0.1
0.12 0.14
0.16 0.18
−3 −2 −1 0 1 2 3
−3−2−10123
Dimension 1
Dimension 2
0.02 0.04 0.06
0.08 0.1
0.12 0.14
0.16 0.18
0.2 0.22
−3 −2 −1 0 1 2 3
−3−2−10123
N ([ 0
0 ]
, [ 1 0
0 1 ])
N ([ 0
0 ]
,
[ 1 0.5 0.5 1
]) N
([ 0 0
] ,
[ 1 −0.75
−0.75 1 ])
I. Takeuchi, ML, 02-02 5/31
期待値ベクトル
▶ 期待値ベクトル
E[ ˆw] =w(最小二乗解は不偏推定量)
▶ 不偏性の証明
E[ ˆw]=E[(X⊤X)−1X⊤y]
=E[(X⊤X)−1X⊤(Xw+ε)]
=E[w+ (X⊤X)−1X⊤ε)]
=w+ (X⊤X)−1X⊤E[ε] =w
分散共分散行列
▶ 分散共分散行列
Cov[ ˆw] =
V[ ˆw1] Cov( ˆw1,wˆ2) · · · Cov( ˆw1,wˆd) Cov( ˆw2,wˆ1) V[ ˆw2] · · · Cov( ˆw2,wˆd)
... ... . .. ...
Cov( ˆwd,wˆ1) Cov( ˆwd,wˆ2) · · · V[ ˆwd]
=σ2(X⊤X)−1
▶ 証明は演習問題1
I. Takeuchi, ML, 02-02 7/31
演習問題1
▶ 最小二乗解wˆ = (X⊤X)−1X⊤y の分散共分散行列が Cov[ ˆw] =σ2(X⊤X)−1
と表されることを示せ
演習問題1の解答
I. Takeuchi, ML, 02-02 9/31
データ例
▶ xi1: 設置箱数,xi2: 歩行時間,yi: 配送時間(n= 25, d= 2)
X=
7 560 3 220 3 340
4 80
6 150 7 330 2 110 7 210 30 1460 5 605 16 688 10 215 4 255 6 462 9 448 10 776 6 200 7 132
3 36
17 770 10 140 26 810 9 450 8 635 4 150
, y=
16.68 11.50 12.03 14.88 13.75 18.11 8.00 17.83 79.24 21.50 40.33 21.00 13.50 19.75 24.00 29.00 15.35 19.00 9.50 35.10 17.90 52.32 18.75 19.83 10.75
標準化
▶ 標準化
xij ← xij−x¯j ˆ σj
, j= 1, . . . , d, yi ← yi−y¯ ˆ σy
X=
−0.25 0.46
−0.83 −0.58
−0.83 −0.21
−0.69 −1.01
−0.40 −0.79
−0.25 −0.24
−0.98 −0.92
−0.25 −0.61 3.08 3.23
−0.54 0.60 1.05 0.85 0.18 −0.59
−0.69 −0.47
−0.40 0.16 0.03 0.11 0.18 1.12
−0.40 −0.64
−0.25 −0.85
−0.83 −1.14 1.19 1.10 0.18 −0.82 2.50 1.23 0.03 0.12
−0.11 0.69
−0.69 −0.79
, y=
−0.36
−0.70
−0.66
−0.48
−0.55
−0.27
−0.92
−0.29 3.66
−0.05 1.15
−0.08
−0.57
−0.16 0.10 0.42
−0.45
−0.21
−0.82 0.81
−0.28 1.92
−0.23
−0.16
−0.74
I. Takeuchi, ML, 02-02 11/31
最小二乗法
▶ 行列,ベクトル計算
X⊤X=
[ 24.00 19.68 19.68 24.00
]
, X⊤y=
[ 23.04 21.36
]
▶ 逆行列
(X⊤X)−1=
[ 0.130 −0.107
−0.107 0.130 ]
▶ 最小二乗推定値
ˆ w=
[ 0.716 0.301
]
逆標準化
▶ 標準化(再掲)
˜
xij ← xij−x¯j
ˆ σj
, j= 1, . . . , d, y˜i ← yi−y¯ ˆ σy
▶ 標準化後の線形モデルをy˜i= ˜w1x˜i1+ ˜w2x˜i2 とすると,
˜ yi= ˜w1
(xi1−x¯1
ˆ σ1
) + ˜w2
(xi2−x¯2
ˆ σ2
)
= (
−w˜1x¯1 ˆ
σ1 −w˜2x¯2 ˆ σ2
)
| {z }
ˆ w0
+ w˜1 ˆ σ1
|{z}
ˆ w1
xi1+ w˜2 ˆ σ2
|{z}
ˆ w1
xi2
▶ 自販機データの例 ˆ
w0= 2.341, wˆ1= 1.616, wˆ2= 0.014
I. Takeuchi, ML, 02-02 13/31
誤差分散の推定
▶ 誤差分散σ2の不偏推定
ˆ
σ2= 1 n−d
∑n i=1
yi−
∑d j=1
ˆ wjxij
2
▶ 配達データの例
ˆ
σ2= 0.044
最小二乗解の期待値と分散共分散
▶ 最小二乗解の期待値
E[ ˆw] = ˆw=
[ 0.716 0.301
]
▶ 最小二乗解の分散共分散行列 Cov( ˆw) = ˆσ2(X⊤X)−1
= 0.044×
[ 0.130 −0.107
−0.107 0.130 ]
=
[ 0.0057 0.0047 0.0047 0.0057
]
I. Takeuchi, ML, 02-02 15/31
予測値の期待値と分散
▶ 新しい入力xnew∈Rdに対する出力ynewの予測
ˆ ynew=
∑d j=1
ˆ
wjxnew,j = ˆw⊤xnew
▶ 予測値の期待値
E[ˆynew] =
∑d j=1
E[ ˆwj]xnew,j =E[ ˆw]⊤xnew = ˆw⊤xnew
▶ 予測値の分散
V[ˆynew] =
∑d j=1
V[ ˆwj]x2new,j+ 2 ∑
j,j′̸=j
Cov( ˆwj,wˆj′)xnew,jxnew,j′ =x⊤newCov( ˆw)xnew
▶ 配達データの例(xnew= [10,200](正規化前)の場合)
演習問題2
▶ 以下のような訓練データに対して線形重回帰モデルの(正規化後 の)最小二乗解を求めよ
X=
1 2 2 3 3 2 2 5 3 5
, y=
2 6 5 6 9
▶ (正規化後の)最小二乗解の期待値と分散共分散行列を求めよ
▶ 入力xnew= [1,1]に対する出力の予測結果の平均と分散を求めよ.
I. Takeuchi, ML, 02-02 17/31
演習問題2の解答
重回帰分析の統計手仮説検定
▶ 個別回帰係数の有意性検定
H0: ˆwj= 0 v.s. H1: ˆwj̸= 0
▶ 回帰分析全体の有意性検定
H0:w1=w2=· · ·=wd= 0 v.s. H1:wj ̸= 0for at least onej
I. Takeuchi, ML, 02-02 19/31
個別回帰係数の有意性検定
▶ 最小二乗推定量の標本分布 ˆ wj∼N(
wj, σ2(X⊤X)−jj1)
▶ 帰無分布
ˆ wj∼N(
0, σ2(X⊤X)−jj1)
▶ z検定(ノイズ分散が既知のとき)
z= wˆj
√
σ2(X⊤X)−jj1
∼N(0,1)
▶ t検定(ノイズ分散が未知のとき)
t= wˆj
√ ˆ
σ2(X⊤X)−jj1
∼tn−d−1
自販機配達データの例
▶ t値
t1= 9.46, t2= 3.98,
▶ 偽陽性率(p値)
p1= 1.6×10−9, p2= 0.00032
▶ t分布
−10 −5 0 5 10
0.00.10.20.30.4
t
p(t)
t Distribution (df=22)
−10 −5 0 5 10
0.00.10.20.30.4
t
p(t)
t Distribution (df=22)
t1= 9.46 t2= 3.98
I. Takeuchi, ML, 02-02 21/31
回帰分析全体の有意性検定
▶ 変動の分解
Sall=Sreg+Sres
0 1000 2000 3000 4000 5000 6000
020004000600080001000012000
Advertisement
Sales
0 1000 2000 3000 4000 5000 6000
020004000600080001000012000
Advertisement
Sales
0 1000 2000 3000 4000 5000 6000
020004000600080001000012000
Advertisement
Sales
Sall Sreg Sres
3つの変動和
▶ 全変動和
Sall:=
∑n i=1
(yi−y)¯ 2
▶ 回帰変動和
Sreg:=
∑n i=1
(ˆyi−y)¯ 2=
∑n i=1
∑d
j=1
ˆ
wjxij−y¯
2
▶ 残差変動和
Sres:=
∑n i=1
(yi−yˆi)2=
∑n i=1
yi−
∑d j=1
ˆ wjxij
2
I. Takeuchi, ML, 02-02 23/31
分散分析
▶ 分散分析表
和 自由度 平均 回帰変動 Sreg d Mreg 残差変動 Sres n−d−1 Mreg 全変動 Sall n−1
▶ 検定統計量
F = Mreg
Mres = Sreg/d Sres/(n−d−1)
▶ 標本分布
自由度(d, n−d−1)のF分布
自販機配達データの例
▶ 分散分析表
和 自由度 平均
回帰変動 23.03 2 11.52
残差変動 0.97 22 0.044
全変動 24.00 24
▶ F分布
0 2 4 6 8 10
0.00.10.20.30.4
F
p(F)
F Distribution (df1=2, df2=22)
0 50 100 150 200 250 300
0.00.10.20.30.4
F
p(F)
F Distribution (df1=2, df2=22)
F = 261.24,p= 1.89×10−17
I. Takeuchi, ML, 02-02 25/31
偏差変動和に基づく検定
▶ 変数の分割
X = [X·1X·2], w= [ w1
w2 ]
▶ 線形モデル
y=Xw+ε=X·1w1+X·2w2+ε,
▶ 複数の入力変数グループに関する有意性検定 H0:w2=0 v.s. H1:w2̸=0.
偏差変動和
▶ 最小二乗推定量 ˆ
w= (X⊤X)−1X⊤y, wˆ1= (X·⊤1X·1)−1X·⊤1y
▶ 偏差変動和(Extra Sum of Squares)
Sreg(w2|w1) =Sreg(w)−Sreg(w1)
▶ 検定統計量
F =Sreg(w2|w1)/d2
Sres/(n−d−1)
I. Takeuchi, ML, 02-02 27/31
t検定とF 検定の等価性
▶ 偏差変動和
Sreg(wj |w1, . . . , wj−1, wj+1, . . . , wd)
▶ 検定統計量
F = Sreg(wj |w1, . . . , wj−1, wj+1, . . . , wd) Sres/(n−d+ 1)
▶ t検定とF 検定の等価性
t2ν =F1,ν
自販機配達データの例
▶ F値
F1= Sreg(w1|w2)
Sres/(n−d−1) = 89.58, F2= Sreg(w2|w1)
Sres/(n−d−1) = 15.85,
▶ t値
t1= 9.46, t2= 3.98,
▶ 等価性
t21= 9.462= 89.49≃89.58, t22= 3.982= 15.84≃15.85
I. Takeuchi, ML, 02-02 29/31
演習問題3:変動和の分解
▶ 中心化され,¯y=∑n
i=1yi/n= 0であるデータに対して,全変動 和Sall,回帰変動和Sreg,残差変動和Sresをそれぞれ
Sall=
∑n i=1
yi2=y⊤y,
Sreg=
∑n i=1
ˆ yi2
= (Xw)ˆ ⊤(Xw),ˆ
Sres=
∑n i=1
(yi−yˆi)2= (y−Xw)ˆ ⊤(y−Xw)ˆ
と定義したとき,
Sall=Sreg+Sres
であることを示せ.
演習問題3の解答
I. Takeuchi, ML, 02-02 31/31