第
11
回:線形回帰モデルの
OLS
推定
北村 友宏本日の内容
1. 線形回帰モデル
2. 消費関数の推定
単回帰
大きさ
n
の 2 変量データ((y
1, x
1)
, (y
2, x
2)
, · · ·, (y
n, x
n))
を用いて,線形回帰モデル(linear regression model)
y
i=
β
0+
β
1x
i+ u
i,
E(u
i| x
i) = 0
,
E(u
iu
j| x
i) = 0
(i
̸= j),
V (u
i| x
i) =
σ
2,
i = 1
, 2, · · ·, n
を推定することを考える.▶
y
i:被説明変数(explained variable) ▶ e.g.,消費支出 ▶ 従属変数(dependent variable)ともいう. ▶x
i:説明変数(explanation variable) ▶ e.g.,可処分所得 ▶ 独立変数(independent variable)ともいう. ▶β
0, β
1:回帰係数(regression coefficient) ▶ 特に,β0は定数項(constant term). ▶u
i:誤差項(error term) ▶ 撹乱項(disturbance term)ともいう. 説明変数x
i は確率的(stochastic)とする.▶ 定数項以外の説明変数が 1 つである回帰モデ
ルを単回帰モデル(simple regression model)
という.
E(u
i| x
i) = 0
の仮定より,E(y
i| x
i) =
β
0+
β
1x
i.
⇒
これはx
i が与えられたときのy
i の条件付き期待 値(conditional mean). ▶E(y
i| x
i)
を求めることを,y
i をx
i に回帰する (regress)という.⇓
β
0とβ
1 を求める(推定する)には?x
y
x
y
O
β
0β
1u
1u
2u
3u
4u
5u
6u
7モデルを
y
i= ˆ
β
0+ ˆ
β
1x
i+ e
i と書き換え, n∑
i=1e
i2=
n∑
i=1(
y
i− ˆβ
0− ˆβ
1x
i)
2 が最小になるようなβ
ˆ
0とβ
ˆ
1を求める. ▶e
i:残差(residual) ▶ 誤差項uiとは別物. ▶ n∑
ie
i2が最小になるように回帰係数を求める方 法を通常の最小二乗法(Ordinary Least Squares, OLS)という.▶ OLS によって推定される統計量をOLS 推定量
(OLS estimator)といい,その実現値をOLS 推
定値(OLS estimate)という. この場合の OLS 推定量は,
ˆ
β
0= ¯y
− ˆβ
1x
¯
,
ˆ
β
1=
∑
n i=1(x
i− ¯x) (y
i− ¯y)
∑
n i=1(x
i− ¯x)
2.
▶¯y =
1
n
n∑
i=1y
i.
▶x =
¯
1
n
n∑
i=1x
i.
重回帰
▶ 定数項以外に説明変数が複数ある回帰モデル
を重回帰モデル(multiple regression model)と いう.
定数項以外に説明変数が
k
個ある場合,y
i=
β
0+
β
1x
i1+
β
2x
i2+
· · · + β
kx
ik+ u
i,
i = 1
, 2, · · ·, n.
各観測値の式を並べると,
y
1=
β
0+
β
1x
11+
β
2x
12+
· · · + β
kx
1k+ u
1,
y
2=
β
0+
β
1x
21+
β
2x
22+
· · · + β
kx
2k+ u
2,
...y
n=
β
0+
β
1x
n1+
β
2x
n2+
· · · + β
kx
nk+ u
n.
ベクトル・行列を用いて表示すると,
y
1y
2 ...y
n
=
1 x
11x
12· · · x
1k1 x
21x
22· · · x
2k ... ... ... ... ...1 x
n1x
n2· · · x
nk
β
0β
1β
2 ...β
n
+
u
1u
2 ...u
n
.
y =
y
1y
2 ...y
n
, X =
1 x
11x
12· · · x
1k1 x
21x
22· · · x
2k ... ... ... ... ...1 x
n1x
n2· · · x
nk
, β =
β
0β
1β
2 ...β
n
,
u =
u
1u
2 ...u
n
とすると,重回帰モデルは次のように簡潔 に表すことができる.y = X
β + u,
E(u
| X) = 0,
V (u
| X) = σ
2I
n.
モデルを
y = X ˆ
β + e,
と書き換え, n∑
i=1e
2i= e
′e =
(
y
− X ˆβ
)
′(
y
− X ˆβ
)
,
が最小になるように OLS 推定量を求めると,ˆ
β = (X
′X)
−1X
′y
.
▶e =
e
1e
2 ...e
n
.
OLS
推定における仮定
▶ 説明変数を所与として,誤差項の期待値は ゼロ. ▶ E(u | X) = 0.⇒
説明変数と誤差項は無相関. ▶ 説明変数を所与として,誤差項の分散は一 定で,異なる個体の誤差項同士は無相関. ▶ V (u | X) = σ2 0 · · · 0 0 σ2 · · · 0 .. . ... . . . ... 0 0 · · · σ2 =σ2In. ▶ 説明変数を所与として,誤差項は正規分布に 従う. ▶ u | X ∼ N (0, σ2In).消費関数の推定
いま整理・加工・分析している都道府県別・男女別 データセットを用いて, ▶ ケインズ型消費関数c
i=
β
0+
β
1y
i+ u
i (1) ▶ ci :消費支出 ▶ yi :可処分所得 ▶ 流動資産仮説に基づく消費関数c
i=
β
0+
β
1y
i+
β
2m
i+ u
i (2) ▶ mi:流動資産(預金) を推定する.実習
1
1. Stata を起動. 2. メニューバーから「File」→「Log」→ 「Begin...」と操作し,デスクトップまたは 2018microdata1 フォルダに, lecture20180713.smcl という名前で保存. 3. メニューバーから「File」→「Open」と操作. 4. consumption2009.dta を選択し,「開く」をク リック.5. メニューバーから「Statistics」→「Linear
models and related」→「Linear regression」と 操作.
6. Model タブの,Dependent variable: の右端のボ タンをクリックして expenditure_th をク リック. ▶ 被説明変数が expenditure_th となる. 7. Independent variable: の右端のボタンをクリッ クして income_th をクリック. ▶ 説明変数が income_th となる.
8. Reporting タブの,Set table formats をク リック.
9. Coef/SE/CI の Decimal format を 2 decimals に する.
▶ 回帰係数・標準誤差・信頼区間の表示桁数が小数
第 2 位までとなる.
10. p-value の Decimal format を 3 decimals にする.
▶ p値の表示桁数が小数第 3 位までとなる.
11. Test statistic の Decimal format を 2 decimals に する.
▶ t値の表示桁数が小数第 2 位までとなる.
12. 「Format settings for coefficient tables」ダイア
ログボックスの OK をクリック.
13. 「regress - Linear regression」ダイアログボッ
出力結果の見方
▶ Coef.: 回帰係数推定値 ▶ Std. Err.: 回帰係数の標準誤差 ▶ t: 「回帰係数が 0」という帰無仮説の両側t
検 定における検定統計量の実現値(t
値) ▶ P>|t|: 両側p
値 ▶ Number of obs: 観測値数 ▶ R-squared: 決定係数 ▶ Adj R-squared: 自由度修正済み決定係数決定係数
決定係数(R-squared)は,
R
2=
∑
ni=1
( ˆy
i− ¯y)
2
∑
n i=1(y
i− ¯y)
2= 1
−
∑
n i=1e
2 i∑
n i=1(y
i− ¯y)
2.
▶ 定数項以外の説明変数がk
個の場合,ˆy
i= ˆ
β
0+ ˆ
β
1x
i1+ ˆ
β
2x
i2+
· · · + ˆβ
kx
ik.
▶ 意味モデルの当てはまりの良さ(説明変数で, 被説明変数の変動を何割説明できているか) ▶0
≤ R
2≤ 1.
▶ R2= 0 :全く説明できていない. ▶ R2= 1 :完全に説明できている.⇒ R
2= 0
やR
2= 1
になることは,実際の実証 分析ではまず起こり得ない.自由度修正済み決定係数
▶R
2は説明変数の数(推定するパラメータの数) を増やすと必ず上昇する.å
関係のない説明変数を追加してもR
2は上昇 する.å
それを回避するには,R
2 を修正する. 自由度修正済み決定係数(adjusted R-squared)は,¯
R
2= 1
−
(
1
− R
2)
·
n
− 1
n
− k − 1
.
▶R
¯
2はマイナスになることがある. ▶ 「重回帰の場合」や「単回帰と重回帰の結果を 比較する場合」は,自由度修正済み決定係数¯
R
2を見るのが一般的.標準誤差
▶ 推定量の標準偏差の推定値を標準誤差 (standard error)という. ▶j
番目の回帰係数の OLS 推定量β
ˆ
j の(デフォ ルトの)標準誤差は,s.e.
(
ˆ
β
j)
=
[√
e
′e
n
− k − 1
(X
′X)
−1]
j,j.
⇒
この標準誤差は,任意のi
についてV (u
i| X)
が一定(均一分散)の場合のみ正 しい.頑健標準誤差
▶V (u
i| X)
が一定でないことを(条件付き)不 均一分散(heteroskedasticity)という. ▶ 不均一分散があっても厳密な標準誤差を求め るために,頑健標準誤差(robust standard error)が開発されている. ▶ Stata では,例えばWhite の頑健標準誤差など を出力できる.▶ 「regress - Linear regression」ダイアログボックス
の,SE/Robust タブの Standard error type: から Robust を選び,Bias correction は n/n-k を選ぶ.
▶ Stata で出力される White の頑健標準誤差は,不均 一分散に対して頑健で,小標本(少ない観測値数 の標本)による過小評価も修正される.
▶ 経済学分野の実証分析では,誤差項
u
i に不均 一分散があることを前提として頑健標準誤差 を計算する場合が多い. ▶ Stata では,頑健標準誤差を出力すると自由度 修正済み決定係数R
¯
2が出力されない.⇓
デフォルトの(頑健でない)標準誤差を用いた結果 と頑健標準誤差を用いた結果の両方を出力して,前 者の結果からR
¯
2を確認し,後者の結果から頑健標 準誤差を確認するとよい. ▶ 頑健標準誤差のほうがデフォルトの標準誤差 より大きくなることもあれば,小さくなること もある.仮説検定
各回帰係数
β
j(j = 0
, 1, 2, · · ·, k
)について,H
0:
β
j= 0
vs
H
1:
β
j̸= 0
を検定するのに必要な情報が出力される.▶
H
0(係数は 0)棄却å
「その回帰係数は統計的に有意に 0 と異な る」と判断. ▶ 「その説明変数は被説明変数と統計的に有意に相 関している」と解釈. ▶ 定数項の検定の場合は「定数項は統計的に有意に 0 と異なる」と解釈. ▶H
0(係数は 0)採択å
「その回帰係数は 0 と異なるとは言えない」 と判断. ▶ 「その説明変数は被説明変数と相関しているとは 言えない」と解釈. ▶ 定数項の検定の場合は「定数項は統計的に有意に 0 と異なるとは言えない」と解釈.p
値による判断
▶p
値が 0.1 以下(未満):有意水準 10%でH
0 を 棄却. ▶p
値が 0.05 以下(未満):有意水準 5%でH
0 を 棄却. ▶p
値が 0.01 以下(未満):有意水準 1%でH
0 を 棄却.t
値による判断
β
j= 0
というH
0 を検定するためのt
検定統計量は,t =
ˆ
β
js.e.
(
ˆ
β
j) ∼ t(n − k − 1).
▶ 観測値数が十分に大きいとき,t
値の絶対値が ほぼ2を超えていれば,H
0を棄却と判断(大 雑把な判断).å
「有意水準何%でH
0を棄却できるか」を厳 密に判断するには,t
値ではなくp
値を見る.実習
2
1. メニューバーから「Statistics」→「Linear
models and related」→「Linear regression」と 操作.前回の選択内容が記録されている.
2. SE/Robust タブの,Standard error type: のボッ クスの Robust をクリック.
▶ 不均一分散に対して頑健な,White の標準誤差が計
算される.
ケインズ型消費関数推定結果
▶ 所得の係数 ▶ 0.45(符号は正) ▶ 限界消費性向の推定値 ▶ 有意水準 1%で,係数ゼロのH0棄却. å所得は消費と統計的に有意に相関している. ▶ 定数項 ▶ 78.68(符号は正) ▶ 基礎消費の推定値 ▶ 有意水準 1%で,係数ゼロのH0棄却. å定数項は統計的に有意に 0 と異なる. ▶ 決定係数 ▶ R¯2= 0.3132. å所得は消費の変動の約 31%を説明できている.⇒
経済理論と整合的.⇒
(R
¯
2を除き)教科書 pp.16, 28 と同じ結果.実習
3
1. メニューバーから「Statistics」→「Linear
models and related」→「Linear regression」と 操作.前回の選択内容が記録されている.
2. Model タブの,Independent variable: の右端の ボタンをクリックして deposit_th をクリック.
▶ 前回選択した income_th に加え,deposit_th も説明
変数とする分析ができる.
▶ 前回選択した変数を含めたくなければ,入力ボッ
クス内で Back space キーにより消去すればよい.
3. SE/Robust タブの,Standard error type: のボッ クスの Default standard errors をクリック.
▶ デフォルトの標準誤差が計算される.
実習
4
1. メニューバーから「Statistics」→「Linear
models and related」→「Linear regression」と 操作.前回の選択内容が記録されている.
2. SE/Robust タブの,Standard error type: のボッ クスのを Robust をクリック.
▶ 不均一分散に対して頑健な,White の標準誤差が計
算される.
流動資産仮説の消費関数推定結果
▶ 所得の係数 ▶ 0.43(符号は正) ▶ 有意水準 1%で,係数ゼロのH0棄却. å所得は消費と統計的に有意に相関している. ▶ 預金(流動資産の 1 つ)の係数 ▶ 0.02(符号は正) ▶ デフォルトの標準誤差では,係数ゼロのH0採択. ▶ 頑健標準誤差では,有意水準 5%で係数ゼロのH0 棄却. å頑健標準誤差を用いた結果に基づけば,流動資 産は消費と統計的に有意に相関している. ▶ 定数項 ▶ 80.43(符号は正) ▶ 有意水準 1%で,係数ゼロのH0棄却. å定数項は統計的に有意に 0 と異なる.▶ 決定係数 ▶ R¯2= 0.3179. åケインズ型のR¯2と比較すると,モデルの当て はまりは少し改善され,所得と預金は消費の変動 の約 32%を説明できている. ▶ 預金の係数の検定結果の違い ▶ デフォルトの標準誤差と,White の頑健標準誤差の 差により,t検定の判断に違いが生じている. åモデルの誤差項に不均一分散があるとして,頑 健標準誤差を用いた推定結果を採択したほうが よい.
⇒
消費は所得や流動資産と相関しており,流動資 産仮説と整合的.レポートや論文での推定結果表の作成
見やすく,理解しやすい表を載せるには, ▶ 表番号と表のタイトルをつける. ▶ 最低限,以下の情報を載せる(線形回帰モデル の場合). ▶ 回帰係数推定値 ▶ t値または標準誤差またはp値のどれか ▶ R2またはR¯2のどちらか ▶ 観測値数 ▶ 有意性を示すアスタリスクを付けた場合は,表 の下に「注(Note)」として「表中の***,**,* はそれぞれ有意水準 1%,5%,10%で統計的に 有意であることを表す」などと注記する.▶ 仮説検定に用いた標準誤差の種類や,頑健な ら何に対して頑健なのかを,表の下に「注 (Note)」として「不均一分散に対して頑健な標 準誤差を用いている」などと注記する. ▶ 観測値数が全モデルについて同じ場合,表の下 に「注(Note)」として「観測値数は○○○で ある」などと注記してもよい. ▶ 変数名は統計解析ソフトでの変数名そのまま ではなく,分かりやすいように書き直す. ▶ 小数の数値はあまり細かく表示せず,小数第 2 ∼4 位程度まで示せば十分.特に回帰係数,標 準誤差,
t
値,p
値は縦方向に見たとき,可能 な限り小数点の位置が揃うようにする. ▶ t値は小数第 2 位まで,p値,R2,R¯2は小数第 3 位まで示せば十分.実習
5
1. Word を起動し,results20180713.docx という 名前でデスクトップまたは 2018microdata1 フォルダに保存. 2. 「挿入」→「表」と操作して 7 行 6 列の表を 作る. 3. 表全体をドラッグし,「参照設定」→「図表番 号の挿入」と操作. 4. ラベルを「表」に,位置を「選択した項目の 上」して OK をクリックすると,表のすぐ上の 行に「表 1」と入力される. 5. 「表 1」の後に全角スペースを入れて消費関数 推定結果と入力し,中央揃えにする.6. 表の2 行 2 列目に回帰係数,2 行 3 列目に t 値, 2 行 5 列目に回帰係数,2 行 6 列目に t 値と 入力. 7. 表の 2 行 2 列目から 2 行 7 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「中央揃え」と操作. 8. 表の 3 行 1 列目に所得,4 行 1 列目に流動資 産,5 行 1 列目に定数項,6 行 1 列目に自由度 修正済み決定係数と入力. 9. 表の 3 行 1 列目から 6 行 1 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「中央揃え」と操作.
10. 表の 1 行 1 列目から 2 行 1 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「結合」→「セルの結合」と操作. 11. 表の 1 行 2 列目から 1 行 4 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「結合」→「セルの結合」と操作し て,「配置」→「中央揃え」と操作.結合した セルにモデル(1)と入力. 12. 表の 1 行 5 列目から 1 行 7 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「結合」→「セルの結合」と操作し て,「配置」→「中央揃え」と操作.結合した セルにモデル(2)と入力.
13. Stata に出力されていた,
income_th
のみを説 明変数とするモデル(ケインズ型消費関数)の 推定結果の数値を,Word で作成した表のモデ ル(1)の対応するセルにコピー・貼り付けす る.数値をドラッグして選択し,メニューバー から「Edit」→「Copy」と操作すればコピーで きる. ▶ 自由度修正済み決定係数はデフォルトの標準誤差 を用いた結果から,それ以外は頑健標準誤差を用 いた結果からコピーする.▶ income_thは所得,constは定数項,coef.は回
帰係数,tは t 値,Number of obsは観測値数,
Adj R-squaredは自由度修正済み決定係数.
▶ 流動資産に対応するセルは空欄にする.
▶ 自由度修正済み決定係数は,回帰係数の列(6 行 2
14. 頑健標準誤差を用いた結果を見て,t 値の右隣 のセルには,その変数の係数の
p
値(P>|t|
) が 0.01 未満なら***,0.05 未満なら**,0.10 未 満なら*と入力する. 15. 表の 3 行 2 列目から 6 行 3 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「下揃え(右)」と操作. 16. 表の 3 行 4 列目から 5 行 4 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃いほ う)から「配置」→「両端揃え(下)」と操作.17. Stata に出力されていた,
income_th
とdeposit_th
を説明変数とするモデル(流動資 産仮説に基づく消費関数)の推定結果の数値 を,Word で作成した表のモデル(2)の対応す るセルにコピー・貼り付けする.数値をドラッ グして選択し,メニューバーから「Edit」→ 「Copy」と操作すればコピーできる. ▶ 自由度修正済み決定係数はデフォルトの標準誤差 を用いた結果から,それ以外は頑健標準誤差を用 いた結果からコピーする. ▶ deposit_thは流動資産. ▶ 自由度修正済み決定係数は,回帰係数の列(6 行 6 列目)に入力する. 18. 頑健標準誤差を用いた結果を見て,t 値の右隣 のセルには,その変数の係数のp
値が 0.01 未 満なら***,0.05 未満なら**,0.10 未満なら*と 入力する.19. 表の 3 行 5 列目から 6 行 6 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「下揃え(右)」と操作. 20. 表の 3 行 7 列目から 5 行 7 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃いほ う)から「配置」→「両端揃え(下)」と操作.
21. Word で作成した表のすぐ下の行に, (注 1)表中の***,**はそれぞれ有意水準 1%, 5%で統計的に有意であることを表す. (注 2)不均一分散に対して頑健な標準誤差を 用いている. (注 3)観測値数は 92 である. と入力して上書き保存.デスクトップに保存 した場合は,2018microdata1 フォルダに移動 しておく. ▶ 「アスタリスク 1 つ(有意水準 10%)」はこの表で は出てこなかったので省略.