第11回：線形回帰モデルのOLS推定

(1)

第

11 回：線形回帰モデルの

OLS

推定

北村友宏

(2)

本日の内容

1. 線形回帰モデル

2. 消費関数の推定

(3)

単回帰

大きさ

n

の 2 変量データ

((y

1

, x

1

)

, (y

2

, x

2

)

, · · ·, (y

n

, x

n

))

を用いて，線形回帰モ

デル（linear regression model）

y

i

=

β

0

+

β

1

x

i

+ u

i

,

E(u

i

| x

i

) = 0

,

E(u

i

u

j

| x

i

) = 0

(i

̸= j),

V (u

i

| x

i

) =

σ

2

,

i = 1

, 2, · · ·, n

を推定することを考える．

(4)

▶

y

_i：被説明変数（explained variable） ▶ e.g.,消費支出 ▶ 従属変数（dependent variable）ともいう． ▶

x

i：説明変数（explanation variable） ▶ e.g.,可処分所得 ▶ 独立変数（independent variable）ともいう． ▶

β

₀

, β

₁：回帰係数（regression coeﬃcient） ▶ 特に，β₀は定数項（constant term）． ▶

u

i：誤差項（error term） ▶ 撹乱項（disturbance term）ともいう．説明変数

x

_i は確率的（stochastic）とする．

(5)

▶ 定数項以外の説明変数が 1 つである回帰モデ

ルを単回帰モデル（simple regression model）

という．

E(u

i

| x

i

) = 0

の仮定より，

E(y

i

| x

i

) =

β

0

+

β

1

x

i

.

⇒

これは

x

_i が与えられたときの

y

_i の条件付き期待値（conditional mean）． ▶

E(y

_i

| x

_i

)

を求めることを，

y

_i を

x

_i に回帰する（regress）という．

⇓

β

0と

β

1 を求める（推定する）には？

(6)

x

y

(7)

x

y

O

β

0

β

1

u

₁

u

2

u

₃

u

4

u

5

u

6

u

7

(8)

モデルを

y

i

= ˆ

β

0

+ ˆ

β

1

x

i

+ e

i と書き換え， n

∑

i=1

e

_i2

=

n

∑

i=1

(

y

i

− ˆβ

0

− ˆβ

1

x

i

)

2 が最小になるような

_β

ˆ

₀_と

_β

ˆ

₁_{を求める．} ▶

e

i：残差（residual） ▶ 誤差項uiとは別物． ▶ n

∑

i

e

_i2が最小になるように回帰係数を求める方法を通常の最小二乗法（Ordinary Least Squares, OLS）という．

(9)

▶ OLS によって推定される統計量をOLS 推定量

（OLS estimator）といい，その実現値をOLS 推

定値（OLS estimate）という．この場合の OLS 推定量は，

ˆ

β

0

= ¯y

− ˆβ

1

x

¯

,

ˆ

β

1

=

∑

n i=1

(x

i

− ¯x) (y

i

− ¯y)

∑

n i=1

(x

i

− ¯x)

2

.

▶

¯y =

1 n

n

∑

i=1

y

i

.

▶

x =

¯

1 n

n

∑

i=1

x

i

.

(10)

重回帰

▶ 定数項以外に説明変数が複数ある回帰モデル

を重回帰モデル（multiple regression model）という．

定数項以外に説明変数が

k

個ある場合，

y

i

=

β

0

+

β

1

x

i1

+

β

2

x

i2

+

· · · + β

k

x

ik

+ u

i

,

i = 1

, 2, · · ·, n.

(11)

各観測値の式を並べると，

y

₁

=

β

₀

+

β

₁

x

₁₁

+

β

₂

x

₁₂

+

· · · + β

_k

x

_1k

+ u

₁

,

y

2

=

β

0

+

β

1

x

21

+

β

2

x

22

+

· · · + β

k

x

2k

+ u

2

,

...

y

n

=

β

0

+

β

1

x

n1

+

β

2

x

n2

+

· · · + β

k

x

nk

+ u

n

.

ベクトル・行列を用いて表示すると，







y

₁

y

2 ...

y

n







=







1 x

₁₁

x

₁₂

· · · x

_1k

1 x

21

x

22

· · · x

2k ... ... ... ... ...

1 x

n1

x

n2

· · · x

nk













β

0

β

1

β

2 ...

β

n







+







u

₁

u

2 ...

u

n







.

(12)

y =







y

1

y

2 ...

y

n







, X =







1 x

11

x

12

· · · x

1k

1 x

21

x

22

· · · x

2k ... ... ... ... ...

1 x

n1

x

n2

· · · x

nk







, β =







β

0

β

1

β

2 ...

β

n







,

u =







u

1

u

2 ...

u

n







とすると，重回帰モデルは次のように簡潔に表すことができる．

y = X

β + u,

E(u

| X) = 0,

V (u

| X) = σ

2

I

n

.

(13)

モデルを

y = X ˆ

β + e,

と書き換え， n

∑

i=1

e

2_i

= e

′

e =

(

y

− X ˆβ

)

′

(

y

− X ˆβ

)

,

が最小になるように OLS 推定量を求めると，

ˆ

β = (X

′

X)

−1

X

′

y

.

▶

e =







e

1

e

2 ...

e

n







.

(14)

OLS

推定における仮定

▶ 説明変数を所与として，誤差項の期待値はゼロ． ▶ E(u | X) = 0.

⇒

説明変数と誤差項は無相関． ▶ 説明変数を所与として，誤差項の分散は一定で，異なる個体の誤差項同士は無相関． ▶ _{V (u} | X) =      σ2 ₀ _{· · · 0} 0 σ2 · · · 0 .. . ... . . . ... 0 0 · · · σ2      =σ2I_n. ▶ 説明変数を所与として，誤差項は正規分布に従う． ▶ u | X ∼ N (0, σ2I_n).

(15)

消費関数の推定

いま整理・加工・分析している都道府県別・男女別データセットを用いて， ▶ ケインズ型消費関数

c

i

=

β

0

+

β

1

y

i

+ u

i (1) ▶ _c_i _:消費支出 ▶ _y_i _:可処分所得 ▶ 流動資産仮説に基づく消費関数

c

i

=

β

0

+

β

1

y

i

+

β

2

m

i

+ u

i (2) ▶ mi:流動資産（預金）を推定する．

(16)

実習

1

1. Stata を起動． 2. メニューバーから「File」→「Log」→ 「Begin...」と操作し，デスクトップまたは 2018microdata1 フォルダに， lecture20180713.smcl という名前で保存． 3. メニューバーから「File」→「Open」と操作． 4. consumption2009.dta を選択し，「開く」をクリック．

(17)

5. メニューバーから「Statistics」→「Linear

models and related」→「Linear regression」と操作．

6. Model タブの，Dependent variable: の右端のボタンをクリックして expenditure_th をクリック． ▶ 被説明変数が expenditure_th となる． 7. Independent variable: の右端のボタンをクリックして income_th をクリック． ▶ 説明変数が income_th となる．

(18)

8. Reporting タブの，Set table formats をクリック．

9. Coef/SE/CI の Decimal format を 2 decimals にする．

▶ 回帰係数・標準誤差・信頼区間の表示桁数が小数

第 2 位までとなる．

10. p-value の Decimal format を 3 decimals にする．

▶ p値の表示桁数が小数第 3 位までとなる．

11. Test statistic の Decimal format を 2 decimals にする．

▶ t値の表示桁数が小数第 2 位までとなる．

12. 「Format settings for coeﬃcient tables」ダイア

ログボックスの OK をクリック．

13. 「regress - Linear regression」ダイアログボッ

(19)

出力結果の見方

▶ Coef.: 回帰係数推定値 ▶ Std. Err.: 回帰係数の標準誤差 ▶ t: 「回帰係数が 0」という帰無仮説の両側

t

検定における検定統計量の実現値（

t

値） ▶ P>|t|: 両側

p

値 ▶ Number of obs: 観測値数 ▶ R-squared: 決定係数 ▶ Adj R-squared: 自由度修正済み決定係数

(20)

決定係数

決定係数（R-squared）は，

R

2

=

∑

n

i=1

( ˆy

i

− ¯y)

2

∑

n i=1

(y

i

− ¯y)

2

= 1

−

∑

n i=1

e

2 i

∑

n i=1

(y

i

− ¯y)

2

.

▶ 定数項以外の説明変数が

k

個の場合，

ˆy

i

= ˆ

β

0

+ ˆ

β

1

x

i1

+ ˆ

β

2

x

i2

+

· · · + ˆβ

k

x

ik

.

▶ 意味モデルの当てはまりの良さ（説明変数で，被説明変数の変動を何割説明できているか） ▶

0 ≤ R

2

≤ 1.

▶ _R2_{= 0 :}全く説明できていない． ▶ _R2_{= 1 :}完全に説明できている．

⇒ R

2

_{= 0}

_や

_R

2

_{= 1}

_{になることは，実際の実証} 分析ではまず起こり得ない．

(21)

自由度修正済み決定係数

▶

R

2は説明変数の数（推定するパラメータの数）を増やすと必ず上昇する．

å

関係のない説明変数を追加しても

R

2は上昇する．

å

それを回避するには，

R

2 を修正する．自由度修正済み決定係数（adjusted R-squared）は，

¯

R

2

= 1

−

(

1 − R

2

)

· n

− 1

n

− k − 1

.

▶

R

¯

2はマイナスになることがある． ▶ 「重回帰の場合」や「単回帰と重回帰の結果を比較する場合」は，自由度修正済み決定係数

¯

R

2を見るのが一般的．

(22)

標準誤差

▶ 推定量の標準偏差の推定値を標準誤差（standard error）という． ▶

j

番目の回帰係数の OLS 推定量

_β

ˆ

_j _{の（デフォ} ルトの）標準誤差は，

s.e.

(

ˆ

β

j

)

=

[√

e

′

e

n

− k − 1

(X

′

_X)

−1

]

j,j

.

⇒

この標準誤差は，任意の

i

について

V (u

i

| X)

が一定（均一分散）の場合のみ正しい．

(23)

頑健標準誤差

▶

V (u

i

| X)

が一定でないことを（条件付き）不均一分散（heteroskedasticity）という． ▶ 不均一分散があっても厳密な標準誤差を求めるために，頑健標準誤差（robust standard error）が開発されている． ▶ Stata では，例えばWhite の頑健標準誤差などを出力できる．

▶ 「regress - Linear regression」ダイアログボックス

の，SE/Robust タブの Standard error type: から Robust を選び，Bias correction は n/n-k を選ぶ．

▶ Stata で出力される White の頑健標準誤差は，不均一分散に対して頑健で，小標本（少ない観測値数の標本）による過小評価も修正される．

(24)

▶ 経済学分野の実証分析では，誤差項

u

i に不均一分散があることを前提として頑健標準誤差を計算する場合が多い． ▶ Stata では，頑健標準誤差を出力すると自由度修正済み決定係数

_R

¯

2_{が出力されない．}

⇓

デフォルトの（頑健でない）標準誤差を用いた結果と頑健標準誤差を用いた結果の両方を出力して，前者の結果から

_R

¯

2_{を確認し，後者の結果から頑健標} 準誤差を確認するとよい． ▶ 頑健標準誤差のほうがデフォルトの標準誤差より大きくなることもあれば，小さくなることもある．

(25)

仮説検定

各回帰係数

β

_j（

j = 0

, 1, 2, · · ·, k

）について，

H

0

:

β

j

= 0

vs

H

1

:

β

j

̸= 0

を検定するのに必要な情報が出力される．

(26)

▶

H

₀（係数は 0）棄却

å

「その回帰係数は統計的に有意に 0 と異なる」と判断． ▶ 「その説明変数は被説明変数と統計的に有意に相関している」と解釈． ▶ 定数項の検定の場合は「定数項は統計的に有意に 0 と異なる」と解釈． ▶

H

0（係数は 0）採択

å

「その回帰係数は 0 と異なるとは言えない」と判断． ▶ 「その説明変数は被説明変数と相関しているとは言えない」と解釈． ▶ 定数項の検定の場合は「定数項は統計的に有意に 0 と異なるとは言えない」と解釈．

(27)

p

値による判断

▶

p

値が 0.1 以下（未満）：有意水準 10%で

H

0 を棄却． ▶

p

H

0 を棄却． ▶

p

H

₀ を棄却．

(28)

t

値による判断

β

j

= 0

という

H

0 を検定するための

t

検定統計量は，

t =

ˆ

β

j

s.e.

(

ˆ

β

j

) ∼ t(n − k − 1).

▶ 観測値数が十分に大きいとき，

t

値の絶対値がほぼ2を超えていれば，

H

0を棄却と判断（大雑把な判断）．

å

「有意水準何%で

H

0を棄却できるか」を厳密に判断するには，

t

値ではなく

p

値を見る．

(29)

実習

2

models and related」→「Linear regression」と操作．前回の選択内容が記録されている．

2. SE/Robust タブの，Standard error type: のボックスの Robust をクリック．

▶ 不均一分散に対して頑健な，White の標準誤差が計

算される．

(30)

ケインズ型消費関数推定結果

▶ 所得の係数 ▶ 0.45（符号は正） ▶ 限界消費性向の推定値 ▶ 有意水準 1%で，係数ゼロの_H₀棄却． å所得は消費と統計的に有意に相関している． ▶ 定数項 ▶ 78.68（符号は正） ▶ 基礎消費の推定値 ▶ 有意水準 1%で，係数ゼロのH0棄却． å定数項は統計的に有意に 0 と異なる． ▶ 決定係数 ▶ R¯2= 0.3132. å所得は消費の変動の約 31%を説明できている．

⇒

経済理論と整合的．

⇒

（

_R

¯

2_{を除き）教科書 pp.16, 28 と同じ結果．}

(31)

実習

3

2. Model タブの，Independent variable: の右端のボタンをクリックして deposit_th をクリック．

▶ 前回選択した income_th に加え，deposit_th も説明

変数とする分析ができる．

▶ 前回選択した変数を含めたくなければ，入力ボッ

クス内で Back space キーにより消去すればよい．

3. SE/Robust タブの，Standard error type: のボックスの Default standard errors をクリック．

▶ デフォルトの標準誤差が計算される．

(32)

実習

4

2. SE/Robust タブの，Standard error type: のボックスのを Robust をクリック．

▶ 不均一分散に対して頑健な，White の標準誤差が計

算される．

(33)

流動資産仮説の消費関数推定結果

▶ 所得の係数 ▶ 0.43（符号は正） ▶ 有意水準 1%で，係数ゼロのH0棄却． å所得は消費と統計的に有意に相関している． ▶ 預金（流動資産の 1 つ）の係数 ▶ 0.02（符号は正） ▶ デフォルトの標準誤差では，係数ゼロのH0採択． ▶ 頑健標準誤差では，有意水準 5%で係数ゼロのH0 棄却． å頑健標準誤差を用いた結果に基づけば，流動資産は消費と統計的に有意に相関している． ▶ 定数項 ▶ 80.43（符号は正） ▶ 有意水準 1%で，係数ゼロのH0棄却． å定数項は統計的に有意に 0 と異なる．

(34)

▶ 決定係数 ▶ R¯2= 0.3179. åケインズ型の_R¯2_{と比較すると，モデルの当て} はまりは少し改善され，所得と預金は消費の変動の約 32%を説明できている． ▶ 預金の係数の検定結果の違い ▶ デフォルトの標準誤差と，White の頑健標準誤差の差により，t検定の判断に違いが生じている． åモデルの誤差項に不均一分散があるとして，頑健標準誤差を用いた推定結果を採択したほうがよい．

⇒

消費は所得や流動資産と相関しており，流動資産仮説と整合的．

(35)

レポートや論文での推定結果表の作成

見やすく，理解しやすい表を載せるには， ▶ 表番号と表のタイトルをつける． ▶ 最低限，以下の情報を載せる（線形回帰モデルの場合）． ▶ 回帰係数推定値 ▶ t値または標準誤差またはp値のどれか ▶ R2または_R¯2_{のどちらか} ▶ 観測値数 ▶ 有意性を示すアスタリスクを付けた場合は，表の下に「注（Note）」として「表中の***，**，* はそれぞれ有意水準 1%，5%，10%で統計的に有意であることを表す」などと注記する．

(36)

▶ 仮説検定に用いた標準誤差の種類や，頑健なら何に対して頑健なのかを，表の下に「注（Note）」として「不均一分散に対して頑健な標準誤差を用いている」などと注記する． ▶ 観測値数が全モデルについて同じ場合，表の下に「注（Note）」として「観測値数は○○○である」などと注記してもよい． ▶ 変数名は統計解析ソフトでの変数名そのままではなく，分かりやすいように書き直す． ▶ 小数の数値はあまり細かく表示せず，小数第 2 ∼4 位程度まで示せば十分．特に回帰係数，標準誤差，

t

値，

p

値は縦方向に見たとき，可能な限り小数点の位置が揃うようにする． ▶ t値は小数第 2 位まで，p値，R2，_R¯2_{は小数第 3} 位まで示せば十分．

(37)

実習

5

1. Word を起動し，results20180713.docx という名前でデスクトップまたは 2018microdata1 フォルダに保存． 2. 「挿入」→「表」と操作して 7 行 6 列の表を作る． 3. 表全体をドラッグし，「参照設定」→「図表番号の挿入」と操作． 4. ラベルを「表」に，位置を「選択した項目の上」して OK をクリックすると，表のすぐ上の行に「表 1」と入力される． 5. 「表 1」の後に全角スペースを入れて消費関数推定結果と入力し，中央揃えにする．

(38)

6. 表の2 行 2 列目に回帰係数，2 行 3 列目に t 値， 2 行 5 列目に回帰係数，2 行 6 列目に t 値と入力． 7. 表の 2 行 2 列目から 2 行 7 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「配置」→「中央揃え」と操作． 8. 表の 3 行 1 列目に所得，4 行 1 列目に流動資産，5 行 1 列目に定数項，6 行 1 列目に自由度修正済み決定係数と入力． 9. 表の 3 行 1 列目から 6 行 1 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「配置」→「中央揃え」と操作．

(39)

10. 表の 1 行 1 列目から 2 行 1 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「結合」→「セルの結合」と操作． 11. 表の 1 行 2 列目から 1 行 4 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「結合」→「セルの結合」と操作して，「配置」→「中央揃え」と操作．結合したセルにモデル（1）と入力． 12. 表の 1 行 5 列目から 1 行 7 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「結合」→「セルの結合」と操作して，「配置」→「中央揃え」と操作．結合したセルにモデル（2）と入力．

(40)

13. Stata に出力されていた，

income_th

のみを説明変数とするモデル（ケインズ型消費関数）の推定結果の数値を，Word で作成した表のモデル（1）の対応するセルにコピー・貼り付けする．数値をドラッグして選択し，メニューバーから「Edit」→「Copy」と操作すればコピーできる． ▶ 自由度修正済み決定係数はデフォルトの標準誤差を用いた結果から，それ以外は頑健標準誤差を用いた結果からコピーする．

▶ income_thは所得，constは定数項，coef.は回

帰係数，tは t 値，Number of obsは観測値数，

Adj R-squaredは自由度修正済み決定係数．

▶ 流動資産に対応するセルは空欄にする．

▶ 自由度修正済み決定係数は，回帰係数の列（6 行 2

(41)

14. 頑健標準誤差を用いた結果を見て，t 値の右隣のセルには，その変数の係数の

p

値（

P>|t|

）が 0.01 未満なら***，0.05 未満なら**，0.10 未満なら*と入力する． 15. 表の 3 行 2 列目から 6 行 3 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「配置」→「下揃え（右）」と操作． 16. 表の 3 行 4 列目から 5 行 4 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「配置」→「両端揃え（下）」と操作．

(42)

17. Stata に出力されていた，

income_th

と

deposit_th

を説明変数とするモデル（流動資産仮説に基づく消費関数）の推定結果の数値を，Word で作成した表のモデル（2）の対応するセルにコピー・貼り付けする．数値をドラッグして選択し，メニューバーから「Edit」→ 「Copy」と操作すればコピーできる． ▶ 自由度修正済み決定係数はデフォルトの標準誤差を用いた結果から，それ以外は頑健標準誤差を用いた結果からコピーする． ▶ deposit_thは流動資産． ▶ 自由度修正済み決定係数は，回帰係数の列（6 行 6 列目）に入力する． 18. 頑健標準誤差を用いた結果を見て，t 値の右隣のセルには，その変数の係数の

p

値が 0.01 未満なら***，0.05 未満なら**，0.10 未満なら*と入力する．

(43)

19. 表の 3 行 5 列目から 6 行 6 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「配置」→「下揃え（右）」と操作． 20. 表の 3 行 7 列目から 5 行 7 列目までをドラッグし，「レイアウト」タブ（右端の，色が濃いほう）から「配置」→「両端揃え（下）」と操作．

(44)

21. Word で作成した表のすぐ下の行に，（注 1）表中の***，**はそれぞれ有意水準 1%， 5%で統計的に有意であることを表す．（注 2）不均一分散に対して頑健な標準誤差を用いている．（注 3）観測値数は 92 である．と入力して上書き保存．デスクトップに保存した場合は，2018microdata1 フォルダに移動しておく． ▶ 「アスタリスク 1 つ（有意水準 10%）」はこの表では出てこなかったので省略．

(45)

実習

6

本日の作業はここまで． 1. メニューバーから「File」→「Log」→「Close」と操作すると，ログの記録が停止される． 2. Stata を終了させる．lecture20180713.smcl をデスクトップに保存した場合は， 2018microdata1 フォルダに移動しておく． 3. lecture20180713.smcl を開くと，本日の作業の記録（分析結果やコマンド）を見ることができる．