線形モデルの統計的解釈

(1)

Lec02

線形モデルの統計的解釈

I. Takeuchi, DS-Lec02 1/24

(2)

線形モデル

▶ 線形モデル

yi=w0+w1xi+εi, E[εi] = 0,V[εi] =σ².

▶ 最小二乗法

( ˆw₀,wˆ₁) = arg min

w₀,w₁∈R

∑n

i=1

(y_i−(w₀+w₁x_i))²

▶ 最小二乗推定値 ˆ

w0= ¯y−Sxy

S_xxx,¯ wˆ1= Sxy

S_xx ただし，

¯ x= 1

n

∑n

i=1

x_i,y¯= 1 n

∑n

i=1

y_i,

Sxx= 1 n

∑n

i=1

(xi−x)¯ ², Syy = 1 n

∑n

i=1

(yi−y)¯ ², Sxy= 1 n

∑n

i=1

(xi−x)(y¯ i−y).¯

(3)

確率変数と確定変数

▶ 線形モデル

y_i=w₀+w₁x_i+ε_i

▶ 最小二乗推定値 ˆ

w0=y¯−S_xy Sxx

¯

x, wˆ1= S_xy Sxx

確率変数：確率分布にしたがってランダムな値をとる変数確定変数：確定的な値をとる変数

(4)

母集団とサンプリング

population

data

LS estimates observed

(5)

母集団とサンプリング

population

data¹ data² data³ data^T

LS estimates LS estimates LS estimates LS estimates

(6)

母集団とサンプリング

population

data¹ data² data³ data^T

LS estimates LS estimates LS estimates LS estimates observed

(7)

シミュレーション

▶ 母集団の統計モデル：yi= 0.4 + 0.8xi+εi, εi ∼N(0,1²)

0 2 4 6 8 10

0246810

Input

Output

0 2 4 6 8 10

0246810

Input

Output

ˆ

w0= 0.445,wˆ1= 0.777 wˆ0= 1.057,wˆ1= 0.699

0 2 4 6 8 10

0246810

Input

Output

0 2 4 6 8 10

0246810

Input

Output

ˆ

w₀=−0.005,wˆ₁= 0.890 wˆ₀= 1.096,wˆ₁= 0.591

(8)

シミュレーション（標本分布）

sampling distribution of beta0 (n=10)

beta0

Frequency

−2 −1 0 1 2 3

0100200300400500600

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0200400600

(9)

最小二乗推定値の統計的推測

最小二乗推定値wˆ₀,wˆ₁の統計的推測

▶ 最小二乗推定値wˆ0,wˆ1の期待値と分散 E[ ˆw0],V[ ˆw0],E[ ˆw1],V[ ˆw1]

▶ 最小二乗推定値wˆ₀,wˆ₁の検定と信頼区間

(10)

期待値と分散

▶ 期待値（離散確率変数の場合）

E[z] =

∑K

k=1

zkP(zk)

▶ 期待値（連続確率変数の場合）

E[z] =

∫

z∈Z

zp(z)dz

ただし，Zは確率変数zの定義域

▶ 分散（離散確率変数の場合）

V[z] =

∑K

k=1

(zk−E[z])²P(zk)

▶ 分散（連続確率変数の場合）

V[z] =E[(z−E[z])²] =

∫

z∈Z

(z−E[z])²p(z)dz

(11)

確率変数の変換

▶ 線形変換

w=a+bz

▶ 期待値と分散（メモ参照）

E[w] =a+bE[z], V[w] =b²V[z]

▶ 和

w=z₁+z₂

▶ 期待値と分散

E[w] =E[z1] +E[z2], V[w] =V[z1] +V[z2] + 2Cov(z1, z2)

(12)

データ駆動型人工知能システム

データアルゴリズム人工知能システム

(13)

データ駆動型人工知能システム

データアルゴリズム人工知能システム最小二乗法

(14)

演習問題１

▶ 期待値µ，分散σ²の独立同一分布に従うn個の確率変数 z1, . . . , znの算術平均

¯ z= 1

n

∑n

i=1

zi

の期待値と分散が

E[¯z] =µ, V[¯z] = 1

nσ² となることを示せ．

(15)

演習問題１の解答

(16)

平均の標本分布

sampling distribution of zbar (n=1)

zbar

Frequency

−4 −2 0 2 4

0200400600800

zbar

Frequency

−4 −2 0 2 4

0200400600800

n= 1 n= 4

zbar

Frequency

−4 −2 0 2 4

0100200300400500600

zbar

Frequency

−4 −2 0 2 4

0200400600800

n= 9 n= 16

(17)

最小二乗推定値の期待値

▶ 線形モデル

y_i=w₀+w₁x_i+ε_i

▶ yiの期待値と分散

E[yi] =w0+w1xi, V[yi] =σ²

▶ 線形推定量（演習問題２）

ˆ w₀=

∑n

i=1

c_iy_i, c_i:= 1

n−xi−x¯ nS_xx x,¯ ˆ

w1=

∑n

i=1

diyi, di:= xi−x¯ nS_xx

(18)

演習問題２

▶ 最小二乗推定値wˆ0とwˆ1がそれぞれ ˆ

w₀=

∑n

i=1

c_iy_i, c_i:= 1

n−xi−x¯ nS_xx x,¯ ˆ

w1=

∑n

i=1

diyi, di:= xi−x¯ nS_xx

と{y_i}ⁿi=1 の線形和で表されることを示せ．なお，このような推定方法のことを線形推定量（linear estimator）と呼ぶ．

(19)

演習問題２の解答

(20)

不偏推定量

▶ 最小二乗推定値の期待値は E[ ˆw0] =

( _n

∑

i=1

ci

) w0+

( _n

∑

i=1

cixi

)

w1, ci:= 1

n −xi−x¯ nSxx

¯ x,

E[ ˆw1] = ( _n

∑

i=1

di

) w0+

( _n

∑

i=1

dixi

)

w1, di:=xi−x¯ nS_xx

と表される．{c_i}ⁿi=1と{d_i}ⁿi=1が

∑n

i=1

c_i= 1,

∑n

i=1

c_ix_i= 0,

∑n

i=1

d_i= 0,

∑n

i=1

d_ix_i= 1

を満たすことを示し，最小二乗推定値が不偏推定量である：

E[ ˆw0] =w0, E[ ˆw1] =w1

メモ2参照

(21)

最小二乗推定値の分散

▶ 最小二乗推定値の分散 V[ ˆw₀] =

∑n

i=1

c²_iV[y_i] = ( _n

∑

i=1

c²_i )

σ²= 1 n

( 1 + x¯²

Sxx

) σ²

V[ ˆw1] =

∑n

i=1

d²_iV[yi] = ( _n

∑

i=1

d²_i )

σ²= 1 n

σ² Sxx

▶ 分散は1/n，標準偏差は1/√

nのオーダで減少するメモ3参照

(22)

最小二乗推定値の分散と事例数の関係

beta0

Frequency

−2 −1 0 1 2 3

0100200300400500600

beta0

Frequency

−2 −1 0 1 2 3

0100200300400500

beta0

Frequency

−2 −1 0 1 2 3

0200400600800

n= 10 n= 40 n= 90

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0200400600

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0100200300400500600700

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0100200300400500

n= 10 n= 40 n= 90

(23)

分散

σ²

^の推定

▶ 最尤推定量 ˆ σ²= 1

n

∑n

i=1

(yi−( ˆw0+ ˆw1xi))².

▶ 不偏推定量 ˆ

σ_unbiased² = 1 n−2

∑n

i=1

(yi−( ˆw0+ ˆw1xi))²

▶ 自由度

▶ 事例数：n

▶ 適合パラメータ数：2（wˆ0,wˆ1）

▶ 自由度はn−2

(24)

不偏推定と自由度による補正

▶ 平均µ,分散σ²の独立同一分布に従うn個の事例z1, . . . , znから分散σ²を推定

▶ 最尤推定量 ˆ σ²= 1

n(zi−z)¯², z¯= 1 n

∑n

i=1

zi

▶ 不偏推定量 ˆ

σ²_unbiased= 1

n−1(zi−z)¯², z¯= 1 n

∑n

i=1

zi

▶ 自由度

▶ 事例数：n

▶ 適合パラメータ数：1（z¯）

▶ 自由度はn−1

(25)

演習問題３

▶ 平均µ,分散σ²の独立同一分布に従うn個の事例z1, . . . , znが得られているとき，

ˆ

σ²_unbiased= 1 n−1

∑n

i=1

(zi−z)¯², z¯= 1 n

∑n

i=1

zi

がσ²の不偏推定であることを示せ．

(26)

演習問題３の解答

(27)

本講義で学んだこと

▶ データ分析結果はノイズの影響を受けてばらつく ˆ

w0,wˆ1は確率変数

▶ 期待値と分散

E[ ˆw0], V[ ˆw0], E[ ˆw1], V[ ˆw1]

▶ 推定方法の良し悪し：線形推定量，不偏推定量 E[ ˆw₀] =w₀, E[ ˆw₁] =w₁

（wˆ0,wˆ1は推定値，w₀, w1は真値）