Lec03
線形モデルに基づく統計的推測
竹内一郎
I. Takeuchi, DS03 1/28
復習
▶ 線形モデル
yi=w0+w1xi+εi, εi∼N(0, σ2)
▶ 最小二乗推定
ˆ
w0= ¯y−Sxy
Sxx
¯
x,wˆ1= Sxy
Sxx
▶ 最小二乗推定値の統計的バラツキ E[ ˆw0] =w0,V[ ˆw0] = 1
n (
1 + x¯2 Sxx
) σ2,
E[ ˆw1] =w1,V[ ˆw1] = 1 n
1 Sxx
σ2
Lec03 で学ぶこと
▶ 最小二乗推定値wˆ0,wˆ1を用いてデータの背後を推測(統計的推測)
▶ 仮説検定(hypothesis testing)
▶ 信頼区間(confidence interval)
I. Takeuchi, DS03 3/28
アンケートに基づく販売台数予測
▶ アンケート結果に基づき販売台数を予測したい
1 2 3 4 5
2468
Evaluation
Sales x 10000
▶ アンケートをとるのはコストがかかる
▶ 人の主観評価はあまりあてにならない
▶ アンケートをとることは本当に有効か
線形モデル
▶ 最小二乗法による線形モデルの推定
1 2 3 4 5
2468
Evaluation
Sales x 10000
▶ 傾きw1= 0 ⇒ アンケートは予測に無益
▶ 傾きw1̸= 0 ⇒ アンケートは予測に有益
I. Takeuchi, DS03 5/28
最小二乗法による推定
▶ 傾きw1の推定結果 ˆ
w1= Sxy
Sxx = 0.776
▶ 傾きw1の標準偏差(σ= 2.0は既知と仮定)
√V[ ˆw1] =
√ σ2 nSxx
= 0.885
▶ 仮説検定:w1= 0かw1̸= 0か?
H0:w1= 0 vs. H1:w1̸= 0
▶ 信頼区間:
95% Confidence Interval:−0.959≤w1≤2.511
本日のトピック
仮説検定( hypothesis test )
= 不確実な状況での意思決定法
I. Takeuchi, DS03 7/28
背理法
▶ Q.√
2が無理数であることを証明せよ
▶ A.背理法による証明 1. √
2が無理数でない,すなわち,有理数と仮定する 2. √
2は互いに素な自然数pとqを用いて
√2 =p/q
3. 両辺を2乗して整理すると
2q2=p2
4. (左→右)左辺が偶数⇒右辺も偶数⇒pは偶数
5. (右→左)p2は4の倍数⇒左辺も4の倍数⇒qも偶数
6. qもpも偶数であるので互いに素でない
7. 仮定が矛盾するので背理法により題意は示された
統計的仮説検定の考え方
▶ w1̸= 0を(統計的に)証明せよ.
▶ w1= 0と仮定する
▶ データを取得し,最小二乗法を用いて,推定値wˆ1を得る
▶ w1= 0を仮定すると(統計的に)推定値がwˆ1とはなり得ない
▶ 仮定が矛盾するので(統計的に)w1̸= 0
I. Takeuchi, DS03 9/28
統計的仮説検定のキーワード
▶ 対立仮説
H1:w1̸= 0
▶ 帰無仮説
H0:w1= 0
▶ 検定統計量
最小二乗推定値wˆ1
▶ 偽陽性率
H0のもとで推定値がwˆ1より極端になる確率
▶ 有意水準
意思決定のための偽陽性率の閾値
帰無仮説のもとでのシミュレーション
▶ 帰無仮説
yi=w0+ |{z}0
H0:w1=0
×xi+εi, εi∼N(0, σ2)
▶ H0のもとでランダムにデータを生成して最小二乗法でw1を推定
1 2 3 4 5
2468
Evaluation
Sales x 10000
1 2 3 4 5
2468
Evaluation
Sales x 10000
1 2 3 4 5
2468
Evaluation
Sales x 10000
1 2 3 4 5
2468
Evaluation
Sales x 10000
I. Takeuchi, DS03 11/28
帰無仮説のもとでのシミュレーション
▶ 10000回のシミュレーションによるwˆ1のヒストグラム
sampling distribution of beta1
beta1
Frequency
−2 −1 0 1 2
0100200300400500
帰無仮説のもとでのシミュレーション
▶ 観測値w˜1= 0.776よりwˆ1が極端になった回数=875回
sampling distribution of beta1
beta1 Frequency 0100200300400500
−2.000 −0.776 0.000 0.776 2.000
▶ 偽陽性率(p値)の推定値:p≃PH0(|wˆ1| ≥0.776) =0.0875
I. Takeuchi, DS03 13/28
表記法
▶ 母集団における線形モデルの真値 w∗0, w∗1
▶ 確率変数としての最小二乗推定値を ˆ w0,wˆ1
▶ データに最小二乗推定法を適用した結果
˜ w0,w˜1
平均に関する仮説検定(その1)
▶ 母集団のモデル
w1, . . . , wn ∼N(µ∗, σ∗2)
▶ 帰無仮説と対立仮説
H0:µ∗=µ0, v.s. H1:µ∗̸=µ0.
▶ 検定統計量
ˆ µ= 1
n
∑n
i=1
wi
▶ 観測値
˜ µ← 1
n
∑n
i=1
˜
wi (w˜iは観測値)
▶ 標本平均の分散
V[ˆµ] = σ∗2 n
I. Takeuchi, DS03 15/28
確率密度関数と累積分布関数
▶ 正規分布の確率密度関数 p(w) = 1
√2πσ2exp{−(w−µ)2 2σ2 }
▶ 累積分布関数
F(w) =
∫ w
−∞
p(ζ)dζ
▶ 標準正規分布の累積分布関数 Φ(z) =
∫ z
−∞
√1
2πexp{−ζ2 2 }dζ
▶ 標準化
z=w−µ σ
偽陽性率の計算
▶ 帰無分布
ˆ
µ∼N(µ0,σ∗2 n )
▶ 変数変換(標準化)
ˆ µ−µ0
√σ∗2
n
∼N(0,1)
▶ 偽陽性率
p=PH0(|µˆ−µ0| ≥ |µ˜−µ0|) = 2Φ
−|µ˜√−µ0|
σ∗2 n
I. Takeuchi, DS03 17/28
(例題)自動車の燃費
▶ n= 10台の燃費
36.7,41.5,40.0,37.0,41.5,41.7,35.1,37.4,40.8,39.4
▶ 公表値(燃費=40kim/litter)との差
−3.3,+1.5,+0.0,−3.0,+1.5,+1.7,−4.9,−2.6,+0.8,−0.6
▶ 帰無仮説と対立仮説
H0:µ∗= 40 v.s. H1:µ∗̸= 40
▶ 偽陽性率
p= PH0(|µˆ−40| ≥0.89) = 0.159
演習問題1
n= 20台で燃費性能を調べたところ,ある車は燃費の公表値との差が,
−3.3,+1.5,+0.0,−3.0,+1.5,+1.7,−4.9,−2.6,+0.8,−0.6, + 0.2,−3.1,+1.4,−3.2,−4.8,−2.8,+0.9,+1.3,+1.4,+0.2 であった.有意水準α= 0.05の両側検定
H0:µ∗= 0 v.s. H1:µ∗̸= 0
を行ったとき帰無仮説が棄却されるかどうかを答えよ.ただし,σ∗= 2とし,標準正規分 布の累積分布関数の逆関数Φ−1(p)値は以下の表のようになっていることを利用してよい.
p Φ−1(p)
0.005 −2.58 0.010 −2.33 0.015 −2.17 0.020 −2.05 0.025 −1.96 0.030 −1.88 0.035 −1.81 0.040 −1.75 0.045 −1.70 0.050 −1.64
I. Takeuchi, DS03 19/28
t 検定
▶ σ∗2が既知の場合
ˆ µ−µ0
√σ∗2/n ∼N(0,1)
▶ σ∗2が未知の場合 ˆ µ−µ0
√σˆ2/n ∼tn−1, ˆσ2= 1 n−1
∑n
i=1
(wi−µ)ˆ 2
−4 −2 0 2 4
0.00.10.20.30.4
z
p(z)
−4 −2 0 2 4
0.00.10.20.30.4 t Distribution (df=4) Normal Distribution
−4 −2 0 2 4
0.00.10.20.30.4
z
p(z)
−4 −2 0 2 4
0.00.10.20.30.4 t Distribution (df=9) Normal Distribution
自由度4のt分布 自由度9のt分布
最小二乗推定値の仮説検定(その1)
▶ 母集団のモデル
yi=w0∗+w1∗xi+εi, E[εi] = 0,V[εi] =σ∗2
▶ 帰無仮説と対立仮説
H0:w∗1= 0 v.s. H1:w1∗̸= 0
▶ 検定統計量
ˆ
w1= Sxy
Sxx
▶ 観測値
˜
w1← s˜xy
Sxx
(˜sxyは観測値)
▶ 最小二乗推定値の分散
V[ ˆw1] = σ∗2 nSxx
I. Takeuchi, DS03 21/28
最小二乗推定値の仮説検定(その2)
▶ 帰無分布:帰無仮説のもとでの検定統計量の分布 ˆ
w1∼∼N(0, σ∗2 nSxx)
▶ 変数変換(標準化)
ˆ w1
√ σ∗ nSxx
∼N(0,1)
▶ 偽陽性率
p= PH0(|wˆ1| ≥ |w˜1|) = 2Φ
−√|w˜1|
σ∗2 nSxx
自動車販売データの例
▶ 傾きw1の推定結果:wˆ1=SSxy
xx = 0.776
▶ 傾きw1の標準偏差:√
V[ ˆw1] =
√ σ2
nSxx = 0.885
0.00.20.40.60.8
beta1
p(beta1)
−0.776 0.000 0.776
I. Takeuchi, DS03 23/28
演習問題2
以下のようなデータに対して線形回帰分析を行い,有意水準がα= 0.01の場合と0.05の 場合で帰無仮説が棄却されるかどうか答えよ.
x 1 2 2 3 3 4 4 4 5 5
y 4 6 3 5 6 7 3 5 6 7
ただし,σ= 1とし,標準正規分布の累積分布関数の逆関数Φ−1(p)値は以下の表のよう になっていることを利用してよい.
p Φ−1(p)
0.005 −2.58 0.010 −2.33 0.015 −2.17 0.020 −2.05 0.025 −1.96 0.030 −1.88 0.035 −1.81 0.040 −1.75 0.045 −1.70 0.050 −1.64
信頼区間推定
▶ 100(1−α)%信頼区間(e.g.,α= 0.05)
100(1−α)%で真値が含まれるような区間
▶ σ2が既知の場合
w1≥wˆ1−Φ−1(1−α/2)√ V[ ˆw1], w1≤wˆ1+ Φ−1(1−α/2)√
V[ ˆw1]
ただし,Φ−1(1−α/2)は標準正規分布N(0,1)の上側α/2点
▶ σ2が未知の場合
w1≥wˆ1−tα/2,n−2√ V[ ˆw1], w1≤wˆ1+tα/2,n−2√
V[ ˆw1]
ただし,tα/2,n−2は自由度n−2のt分布の上側α/2点
I. Takeuchi, DS03 25/28
演習問題3
▶ 演習問題2と同じく以下のデータに対する線形単回帰分析を考 える.
x 1 2 2 3 3 4 4 4 5 5
y 4 6 3 5 6 7 3 5 6 7
誤差分散がσ2= 1と既知である場合,未知である場合のそれぞれ において,傾きパラメータw1の95%信頼区間を求めよ.なお,
標準正規分布の上側2.5%点の値がΦ−1(0.975) = 1.960,自由度8 のt分布の上側2.5%点の値はt0.025,8= 2.306を利用してよい.
演習問題3の解答
I. Takeuchi, DS03 27/28
Lec03 で学んだこと
▶ 最小二乗推定値wˆ0,wˆ1を用いてデータの背後を推測(統計的推測)
▶ 仮説検定(hypothesis testing)
▶ 信頼区間(confidence interval)