• 検索結果がありません。

線形モデルの統計的解釈

N/A
N/A
Protected

Academic year: 2021

シェア "線形モデルの統計的解釈"

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

(1)

Lec02

線形モデルの統計的解釈

I. Takeuchi, DS-Lec02 1/24

(2)

線形モデル

線形モデル

yi=w0+w1xi+εi, Ei] = 0,Vi] =σ2.

最小二乗法

( ˆw0,wˆ1) = arg min

w0,w1∈R

n

i=1

(yi(w0+w1xi))2

最小二乗推定値 ˆ

w0= ¯ySxy

Sxxx,¯ wˆ1= Sxy

Sxx ただし,

¯ x= 1

n

n

i=1

xi,y¯= 1 n

n

i=1

yi,

Sxx= 1 n

n

i=1

(xix)¯ 2, Syy = 1 n

n

i=1

(yiy)¯ 2, Sxy= 1 n

n

i=1

(xix)(y¯ iy).¯

(3)

確率変数と確定変数

線形モデル

yi=w0+w1xi+εi

最小二乗推定値 ˆ

w0=y¯Sxy Sxx

¯

x, wˆ1= Sxy Sxx

確率変数:確率分布にしたがってランダムな値をとる変数 確定変数:確定的な値をとる変数

I. Takeuchi, DS-Lec02 3/24

(4)

母集団とサンプリング

population

data

LS estimates observed

(5)

母集団とサンプリング

population

data1 data2 data3 dataT

LS estimates LS estimates LS estimates LS estimates

I. Takeuchi, DS-Lec02 4/24

(6)

母集団とサンプリング

population

data1 data2 data3 dataT

LS estimates LS estimates LS estimates LS estimates observed

(7)

シミュレーション

母集団の統計モデル:yi= 0.4 + 0.8xi+εi, εi N(0,12)

0 2 4 6 8 10

0246810

Input

Output

0 2 4 6 8 10

0246810

Input

Output

ˆ

w0= 0.445,wˆ1= 0.777 wˆ0= 1.057,wˆ1= 0.699

0 2 4 6 8 10

0246810

Input

Output

0 2 4 6 8 10

0246810

Input

Output

ˆ

w0=0.005,wˆ1= 0.890 wˆ0= 1.096,wˆ1= 0.591

I. Takeuchi, DS-Lec02 5/24

(8)

シミュレーション(標本分布)

sampling distribution of beta0 (n=10)

beta0

Frequency

−2 −1 0 1 2 3

0100200300400500600

sampling distribution of beta1 (n=10)

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0200400600

(9)

最小二乗推定値の統計的推測

最小二乗推定値wˆ0,wˆ1の統計的推測

最小二乗推定値wˆ0,wˆ1の期待値と分散 E[ ˆw0],V[ ˆw0],E[ ˆw1],V[ ˆw1]

最小二乗推定値wˆ0,wˆ1の検定と信頼区間

I. Takeuchi, DS-Lec02 7/24

(10)

期待値と分散

期待値(離散確率変数の場合)

E[z] =

K

k=1

zkP(zk)

期待値(連続確率変数の場合)

E[z] =

z∈Z

zp(z)dz

ただし,Zは確率変数zの定義域

分散(離散確率変数の場合)

V[z] =

K

k=1

(zkE[z])2P(zk)

分散(連続確率変数の場合)

V[z] =E[(zE[z])2] =

z∈Z

(zE[z])2p(z)dz

(11)

確率変数の変換

線形変換

w=a+bz

期待値と分散(メモ参照)

E[w] =a+bE[z], V[w] =b2V[z]

w=z1+z2

期待値と分散

E[w] =E[z1] +E[z2], V[w] =V[z1] +V[z2] + 2Cov(z1, z2)

I. Takeuchi, DS-Lec02 9/24

(12)

データ駆動型人工知能システム

データ アルゴリズム 人工知能 システム

(13)

データ駆動型人工知能システム

データ アルゴリズム 人工知能 システム 最小二乗法

I. Takeuchi, DS-Lec02 10/24

(14)

演習問題1

期待値µ,分散σ2の独立同一分布に従うn個の確率変数 z1, . . . , znの算術平均

¯ z= 1

n

n

i=1

zi

の期待値と分散が

Ez] =µ, Vz] = 1

nσ2 となることを示せ.

(15)

演習問題1の解答

I. Takeuchi, DS-Lec02 12/24

(16)

平均の標本分布

sampling distribution of zbar (n=1)

zbar

Frequency

−4 −2 0 2 4

0200400600800

sampling distribution of zbar (n=4)

zbar

Frequency

−4 −2 0 2 4

0200400600800

n= 1 n= 4

sampling distribution of zbar (n=9)

zbar

Frequency

−4 −2 0 2 4

0100200300400500600

sampling distribution of zbar (n=16)

zbar

Frequency

−4 −2 0 2 4

0200400600800

n= 9 n= 16

(17)

最小二乗推定値の期待値

線形モデル

yi=w0+w1xi+εi

yiの期待値と分散

E[yi] =w0+w1xi, V[yi] =σ2

線形推定量(演習問題2)

ˆ w0=

n

i=1

ciyi, ci:= 1

nxix¯ nSxx x,¯ ˆ

w1=

n

i=1

diyi, di:= xix¯ nSxx

I. Takeuchi, DS-Lec02 14/24

(18)

演習問題2

最小二乗推定値wˆ0wˆ1がそれぞれ ˆ

w0=

n

i=1

ciyi, ci:= 1

nxix¯ nSxx x,¯ ˆ

w1=

n

i=1

diyi, di:= xix¯ nSxx

{yi}ni=1 の線形和で表されることを示せ.なお,このような推 定方法のことを線形推定量(linear estimator)と呼ぶ.

(19)

演習問題2の解答

I. Takeuchi, DS-Lec02 16/24

(20)

不偏推定量

最小二乗推定値の期待値は E[ ˆw0] =

( n

i=1

ci

) w0+

( n

i=1

cixi

)

w1, ci:= 1

n xix¯ nSxx

¯ x,

E[ ˆw1] = ( n

i=1

di

) w0+

( n

i=1

dixi

)

w1, di:=xix¯ nSxx

と表される.{ci}ni=1{di}ni=1

n

i=1

ci= 1,

n

i=1

cixi= 0,

n

i=1

di= 0,

n

i=1

dixi= 1

を満たすことを示し,最小二乗推定値が不偏推定量である:

E[ ˆw0] =w0, E[ ˆw1] =w1

メモ2参照

(21)

最小二乗推定値の分散

最小二乗推定値の分散 V[ ˆw0] =

n

i=1

c2iV[yi] = ( n

i=1

c2i )

σ2= 1 n

( 1 + x¯2

Sxx

) σ2

V[ ˆw1] =

n

i=1

d2iV[yi] = ( n

i=1

d2i )

σ2= 1 n

σ2 Sxx

分散は1/n,標準偏差は1/

nのオーダで減少する メモ3参照

I. Takeuchi, DS-Lec02 18/24

(22)

最小二乗推定値の分散と事例数の関係

sampling distribution of beta0 (n=10)

beta0

Frequency

−2 −1 0 1 2 3

0100200300400500600

sampling distribution of beta0 (n=40)

beta0

Frequency

−2 −1 0 1 2 3

0100200300400500

sampling distribution of beta0 (n=90)

beta0

Frequency

−2 −1 0 1 2 3

0200400600800

n= 10 n= 40 n= 90

sampling distribution of beta1 (n=10)

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0200400600

sampling distribution of beta1 (n=40)

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0100200300400500600700

sampling distribution of beta1 (n=90)

beta1

Frequency

0.4 0.6 0.8 1.0 1.2

0100200300400500

n= 10 n= 40 n= 90

(23)

分散

σ2

の推定

最尤推定量 ˆ σ2= 1

n

n

i=1

(yi( ˆw0+ ˆw1xi))2.

不偏推定量 ˆ

σunbiased2 = 1 n2

n

i=1

(yi( ˆw0+ ˆw1xi))2

自由度

事例数:n

適合パラメータ数:2(wˆ0,wˆ1

自由度はn2

I. Takeuchi, DS-Lec02 20/24

(24)

不偏推定と自由度による補正

平均µ,分散σ2の独立同一分布に従うn個の事例z1, . . . , znから 分散σ2を推定

最尤推定量 ˆ σ2= 1

n(ziz)¯2, z¯= 1 n

n

i=1

zi

不偏推定量 ˆ

σ2unbiased= 1

n1(ziz)¯2, z¯= 1 n

n

i=1

zi

自由度

事例数:n

適合パラメータ数:1z¯

自由度はn1

(25)

演習問題3

平均µ,分散σ2の独立同一分布に従うn個の事例z1, . . . , znが得 られているとき,

ˆ

σ2unbiased= 1 n1

n

i=1

(ziz)¯2, z¯= 1 n

n

i=1

zi

σ2の不偏推定であることを示せ.

I. Takeuchi, DS-Lec02 22/24

(26)

演習問題3の解答

(27)

本講義で学んだこと

データ分析結果はノイズの影響を受けてばらつく ˆ

w0,wˆ1は確率変数

期待値と分散

E[ ˆw0], V[ ˆw0], E[ ˆw1], V[ ˆw1]

推定方法の良し悪し:線形推定量,不偏推定量 E[ ˆw0] =w0, E[ ˆw1] =w1

wˆ0,wˆ1は推定値,w0, w1は真値)

I. Takeuchi, DS-Lec02 24/24

参照

関連したドキュメント

研究計画書(様式 2)の項目 27~29 の内容に沿って、個人情報や提供されたデータの「①利用 目的」

demonstrate that the error of our power estimation technique is on an average 6% compared to the measured power results.. Once the model has been developed,

ビッグデータや人工知能(Artificial

海水の取水方法・希釈後の ALPS 処理水の放水方法 取水方法 施工方法.

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

[r]

National Ass’n of Fire and Equipment Distributors and Northwest Nexus, Inc., ῕῔῏ F.. Harper’s Magazine Foundation,

この場合,波浪変形計算モデルと流れ場計算モデルの2つを用いて,図 2-38