• 検索結果がありません。

第11回:線形回帰モデルのOLS推定

N/A
N/A
Protected

Academic year: 2021

シェア "第11回:線形回帰モデルのOLS推定"

Copied!
45
0
0

読み込み中.... (全文を見る)

全文

(1)

11

回:線形回帰モデルの

OLS

推定

北村 友宏

(2)

本日の内容

1. 線形回帰モデル

2. 消費関数の推定

(3)

単回帰

大きさ

n

の 2 変量データ

((y

1

, x

1

)

, (y

2

, x

2

)

, · · ·, (y

n

, x

n

))

を用いて,線形回帰モ

デル(linear regression model)

y

i

=

β

0

+

β

1

x

i

+ u

i

,

E(u

i

| x

i

) = 0

,

E(u

i

u

j

| x

i

) = 0

(i

̸= j),

V (u

i

| x

i

) =

σ

2

,

i = 1

, 2, · · ·, n

を推定することを考える.

(4)

y

i:被説明変数(explained variable) ▶ e.g.,消費支出 ▶ 従属変数(dependent variable)ともいう. ▶

x

i:説明変数(explanation variable) ▶ e.g.,可処分所得 ▶ 独立変数(independent variable)ともいう. ▶

β

0

, β

1:回帰係数(regression coefficient) ▶ 特に,β0は定数項(constant term). ▶

u

i:誤差項(error term) ▶ 撹乱項(disturbance term)ともいう. 説明変数

x

i は確率的(stochastic)とする.

(5)

▶ 定数項以外の説明変数が 1 つである回帰モデ

ルを単回帰モデル(simple regression model)

という.

E(u

i

| x

i

) = 0

の仮定より,

E(y

i

| x

i

) =

β

0

+

β

1

x

i

.

これは

x

i が与えられたときの

y

i の条件付き期待 値(conditional mean). ▶

E(y

i

| x

i

)

を求めることを,

y

i

x

i に回帰する (regress)という.

β

0と

β

1 を求める(推定する)には?

(6)

x

y

(7)

x

y

O

β

0

β

1

u

1

u

2

u

3

u

4

u

5

u

6

u

7

(8)

モデルを

y

i

= ˆ

β

0

+ ˆ

β

1

x

i

+ e

i と書き換え, n

i=1

e

i2

=

n

i=1

(

y

i

− ˆβ

0

− ˆβ

1

x

i

)

2 が最小になるような

β

ˆ

0

β

ˆ

1を求める.

e

i:残差(residual) ▶ 誤差項uiとは別物. ▶ n

i

e

i2が最小になるように回帰係数を求める方 法を通常の最小二乗法(Ordinary Least Squares, OLS)という.

(9)

▶ OLS によって推定される統計量をOLS 推定量

(OLS estimator)といい,その実現値をOLS 推

定値(OLS estimate)という. この場合の OLS 推定量は,

ˆ

β

0

= ¯y

− ˆβ

1

x

¯

,

ˆ

β

1

=

n i=1

(x

i

− ¯x) (y

i

− ¯y)

n i=1

(x

i

− ¯x)

2

.

¯y =

1

n

n

i=1

y

i

.

x =

¯

1

n

n

i=1

x

i

.

(10)

重回帰

▶ 定数項以外に説明変数が複数ある回帰モデル

を重回帰モデル(multiple regression model)と いう.

定数項以外に説明変数が

k

個ある場合,

y

i

=

β

0

+

β

1

x

i1

+

β

2

x

i2

+

· · · + β

k

x

ik

+ u

i

,

i = 1

, 2, · · ·, n.

(11)

各観測値の式を並べると,

y

1

=

β

0

+

β

1

x

11

+

β

2

x

12

+

· · · + β

k

x

1k

+ u

1

,

y

2

=

β

0

+

β

1

x

21

+

β

2

x

22

+

· · · + β

k

x

2k

+ u

2

,

...

y

n

=

β

0

+

β

1

x

n1

+

β

2

x

n2

+

· · · + β

k

x

nk

+ u

n

.

ベクトル・行列を用いて表示すると,









y

1

y

2 ...

y

n









=









1 x

11

x

12

· · · x

1k

1 x

21

x

22

· · · x

2k ... ... ... ... ...

1 x

n1

x

n2

· · · x

nk



















β

0

β

1

β

2 ...

β

n











+









u

1

u

2 ...

u

n









.

(12)

y =









y

1

y

2 ...

y

n









, X =









1 x

11

x

12

· · · x

1k

1 x

21

x

22

· · · x

2k ... ... ... ... ...

1 x

n1

x

n2

· · · x

nk









, β =











β

0

β

1

β

2 ...

β

n











,

u =









u

1

u

2 ...

u

n









とすると,重回帰モデルは次のように簡潔 に表すことができる.

y = X

β + u,

E(u

| X) = 0,

V (u

| X) = σ

2

I

n

.

(13)

モデルを

y = X ˆ

β + e,

と書き換え, n

i=1

e

2i

= e

e =

(

y

− X ˆβ

)

(

y

− X ˆβ

)

,

が最小になるように OLS 推定量を求めると,

ˆ

β = (X

X)

−1

X

y

.

e =









e

1

e

2 ...

e

n









.

(14)

OLS

推定における仮定

▶ 説明変数を所与として,誤差項の期待値は ゼロ. ▶ E(u | X) = 0.

説明変数と誤差項は無相関. ▶ 説明変数を所与として,誤差項の分散は一 定で,異なる個体の誤差項同士は無相関. ▶ V (u | X) =      σ2 0 · · · 0 0 σ2 · · · 0 .. . ... . . . ... 0 0 · · · σ2      =σ2In. ▶ 説明変数を所与として,誤差項は正規分布に 従う. ▶ u | X ∼ N (0, σ2In).

(15)

消費関数の推定

いま整理・加工・分析している都道府県別・男女別 データセットを用いて, ▶ ケインズ型消費関数

c

i

=

β

0

+

β

1

y

i

+ u

i (1) ▶ ci :消費支出 ▶ yi :可処分所得 ▶ 流動資産仮説に基づく消費関数

c

i

=

β

0

+

β

1

y

i

+

β

2

m

i

+ u

i (2) ▶ mi:流動資産(預金) を推定する.

(16)

実習

1

1. Stata を起動. 2. メニューバーから「File」→「Log」→ 「Begin...」と操作し,デスクトップまたは 2018microdata1 フォルダに, lecture20180713.smcl という名前で保存. 3. メニューバーから「File」→「Open」と操作. 4. consumption2009.dta を選択し,「開く」をク リック.

(17)

5. メニューバーから「Statistics」→「Linear

models and related」→「Linear regression」と 操作.

6. Model タブの,Dependent variable: の右端のボ タンをクリックして expenditure_th をク リック. ▶ 被説明変数が expenditure_th となる. 7. Independent variable: の右端のボタンをクリッ クして income_th をクリック. ▶ 説明変数が income_th となる.

(18)

8. Reporting タブの,Set table formats をク リック.

9. Coef/SE/CI の Decimal format を 2 decimals に する.

▶ 回帰係数・標準誤差・信頼区間の表示桁数が小数

第 2 位までとなる.

10. p-value の Decimal format を 3 decimals にする.

p値の表示桁数が小数第 3 位までとなる.

11. Test statistic の Decimal format を 2 decimals に する.

t値の表示桁数が小数第 2 位までとなる.

12. 「Format settings for coefficient tables」ダイア

ログボックスの OK をクリック.

13. 「regress - Linear regression」ダイアログボッ

(19)

出力結果の見方

▶ Coef.: 回帰係数推定値 ▶ Std. Err.: 回帰係数の標準誤差 ▶ t: 「回帰係数が 0」という帰無仮説の両側

t

検 定における検定統計量の実現値(

t

値) ▶ P>|t|: 両側

p

値 ▶ Number of obs: 観測値数 ▶ R-squared: 決定係数 ▶ Adj R-squared: 自由度修正済み決定係数

(20)

決定係数

決定係数(R-squared)は,

R

2

=

n

i=1

( ˆy

i

− ¯y)

2

n i=1

(y

i

− ¯y)

2

= 1

n i=1

e

2 i

n i=1

(y

i

− ¯y)

2

.

▶ 定数項以外の説明変数が

k

個の場合,

ˆy

i

= ˆ

β

0

+ ˆ

β

1

x

i1

+ ˆ

β

2

x

i2

+

· · · + ˆβ

k

x

ik

.

▶ 意味モデルの当てはまりの良さ(説明変数で, 被説明変数の変動を何割説明できているか) ▶

0

≤ R

2

≤ 1.

R2= 0 :全く説明できていない. ▶ R2= 1 :完全に説明できている.

⇒ R

2

= 0

R

2

= 1

になることは,実際の実証 分析ではまず起こり得ない.

(21)

自由度修正済み決定係数

R

2は説明変数の数(推定するパラメータの数) を増やすと必ず上昇する.

å

関係のない説明変数を追加しても

R

2は上昇 する.

å

それを回避するには,

R

2 を修正する. 自由度修正済み決定係数(adjusted R-squared)は,

¯

R

2

= 1

(

1

− R

2

)

·

n

− 1

n

− k − 1

.

R

¯

2はマイナスになることがある. ▶ 「重回帰の場合」や「単回帰と重回帰の結果を 比較する場合」は,自由度修正済み決定係数

¯

R

2を見るのが一般的.

(22)

標準誤差

▶ 推定量の標準偏差の推定値を標準誤差 (standard error)という. ▶

j

番目の回帰係数の OLS 推定量

β

ˆ

j の(デフォ ルトの)標準誤差は,

s.e.

(

ˆ

β

j

)

=

[√

e

e

n

− k − 1

(X

X)

−1

]

j,j

.

この標準誤差は,任意の

i

について

V (u

i

| X)

が一定(均一分散)の場合のみ正 しい.

(23)

頑健標準誤差

V (u

i

| X)

が一定でないことを(条件付き)不 均一分散(heteroskedasticity)という. ▶ 不均一分散があっても厳密な標準誤差を求め るために,頑健標準誤差(robust standard error)が開発されている. ▶ Stata では,例えばWhite の頑健標準誤差など を出力できる.

▶ 「regress - Linear regression」ダイアログボックス

の,SE/Robust タブの Standard error type: から Robust を選び,Bias correction は n/n-k を選ぶ.

▶ Stata で出力される White の頑健標準誤差は,不均 一分散に対して頑健で,小標本(少ない観測値数 の標本)による過小評価も修正される.

(24)

▶ 経済学分野の実証分析では,誤差項

u

i に不均 一分散があることを前提として頑健標準誤差 を計算する場合が多い. ▶ Stata では,頑健標準誤差を出力すると自由度 修正済み決定係数

R

¯

2が出力されない.

デフォルトの(頑健でない)標準誤差を用いた結果 と頑健標準誤差を用いた結果の両方を出力して,前 者の結果から

R

¯

2を確認し,後者の結果から頑健標 準誤差を確認するとよい. ▶ 頑健標準誤差のほうがデフォルトの標準誤差 より大きくなることもあれば,小さくなること もある.

(25)

仮説検定

各回帰係数

β

j

j = 0

, 1, 2, · · ·, k

)について,

H

0

:

β

j

= 0

vs

H

1

:

β

j

̸= 0

を検定するのに必要な情報が出力される.

(26)

H

0(係数は 0)棄却

å

「その回帰係数は統計的に有意に 0 と異な る」と判断. ▶ 「その説明変数は被説明変数と統計的に有意に相 関している」と解釈. ▶ 定数項の検定の場合は「定数項は統計的に有意に 0 と異なる」と解釈. ▶

H

0(係数は 0)採択

å

「その回帰係数は 0 と異なるとは言えない」 と判断. ▶ 「その説明変数は被説明変数と相関しているとは 言えない」と解釈. ▶ 定数項の検定の場合は「定数項は統計的に有意に 0 と異なるとは言えない」と解釈.

(27)

p

値による判断

p

値が 0.1 以下(未満):有意水準 10%で

H

0 を 棄却. ▶

p

値が 0.05 以下(未満):有意水準 5%で

H

0 を 棄却. ▶

p

値が 0.01 以下(未満):有意水準 1%で

H

0 を 棄却.

(28)

t

値による判断

β

j

= 0

という

H

0 を検定するための

t

検定統計量は,

t =

ˆ

β

j

s.e.

(

ˆ

β

j

) ∼ t(n − k − 1).

▶ 観測値数が十分に大きいとき,

t

値の絶対値が ほぼ2を超えていれば,

H

0を棄却と判断(大 雑把な判断).

å

「有意水準何%で

H

0を棄却できるか」を厳 密に判断するには,

t

値ではなく

p

値を見る.

(29)

実習

2

1. メニューバーから「Statistics」→「Linear

models and related」→「Linear regression」と 操作.前回の選択内容が記録されている.

2. SE/Robust タブの,Standard error type: のボッ クスの Robust をクリック.

▶ 不均一分散に対して頑健な,White の標準誤差が計

算される.

(30)

ケインズ型消費関数推定結果

▶ 所得の係数 ▶ 0.45(符号は正) ▶ 限界消費性向の推定値 ▶ 有意水準 1%で,係数ゼロのH0棄却. å所得は消費と統計的に有意に相関している. ▶ 定数項 ▶ 78.68(符号は正) ▶ 基礎消費の推定値 ▶ 有意水準 1%で,係数ゼロのH0棄却. å定数項は統計的に有意に 0 と異なる. ▶ 決定係数 ▶ R¯2= 0.3132. å所得は消費の変動の約 31%を説明できている.

経済理論と整合的.

R

¯

2を除き)教科書 pp.16, 28 と同じ結果.  

(31)

実習

3

1. メニューバーから「Statistics」→「Linear

models and related」→「Linear regression」と 操作.前回の選択内容が記録されている.

2. Model タブの,Independent variable: の右端の ボタンをクリックして deposit_th をクリック.

▶ 前回選択した income_th に加え,deposit_th も説明

変数とする分析ができる.

▶ 前回選択した変数を含めたくなければ,入力ボッ

クス内で Back space キーにより消去すればよい.

3. SE/Robust タブの,Standard error type: のボッ クスの Default standard errors をクリック.

▶ デフォルトの標準誤差が計算される.

(32)

実習

4

1. メニューバーから「Statistics」→「Linear

models and related」→「Linear regression」と 操作.前回の選択内容が記録されている.

2. SE/Robust タブの,Standard error type: のボッ クスのを Robust をクリック.

▶ 不均一分散に対して頑健な,White の標準誤差が計

算される.

(33)

流動資産仮説の消費関数推定結果

▶ 所得の係数 ▶ 0.43(符号は正) ▶ 有意水準 1%で,係数ゼロのH0棄却. å所得は消費と統計的に有意に相関している. ▶ 預金(流動資産の 1 つ)の係数 ▶ 0.02(符号は正) ▶ デフォルトの標準誤差では,係数ゼロのH0採択. ▶ 頑健標準誤差では,有意水準 5%で係数ゼロのH0 棄却. å頑健標準誤差を用いた結果に基づけば,流動資 産は消費と統計的に有意に相関している. ▶ 定数項 ▶ 80.43(符号は正) ▶ 有意水準 1%で,係数ゼロのH0棄却. å定数項は統計的に有意に 0 と異なる.

(34)

▶ 決定係数 ▶ R¯2= 0.3179. åケインズ型のR¯2と比較すると,モデルの当て はまりは少し改善され,所得と預金は消費の変動 の約 32%を説明できている. ▶ 預金の係数の検定結果の違い ▶ デフォルトの標準誤差と,White の頑健標準誤差の 差により,t検定の判断に違いが生じている. åモデルの誤差項に不均一分散があるとして,頑 健標準誤差を用いた推定結果を採択したほうが よい.

消費は所得や流動資産と相関しており,流動資 産仮説と整合的.

(35)

レポートや論文での推定結果表の作成

見やすく,理解しやすい表を載せるには, ▶ 表番号と表のタイトルをつける. ▶ 最低限,以下の情報を載せる(線形回帰モデル の場合). ▶ 回帰係数推定値 ▶ t値または標準誤差またはp値のどれか ▶ R2またはR¯2のどちらか ▶ 観測値数 ▶ 有意性を示すアスタリスクを付けた場合は,表 の下に「注(Note)」として「表中の***,**,* はそれぞれ有意水準 1%,5%,10%で統計的に 有意であることを表す」などと注記する.

(36)

▶ 仮説検定に用いた標準誤差の種類や,頑健な ら何に対して頑健なのかを,表の下に「注 (Note)」として「不均一分散に対して頑健な標 準誤差を用いている」などと注記する. ▶ 観測値数が全モデルについて同じ場合,表の下 に「注(Note)」として「観測値数は○○○で ある」などと注記してもよい. ▶ 変数名は統計解析ソフトでの変数名そのまま ではなく,分かりやすいように書き直す. ▶ 小数の数値はあまり細かく表示せず,小数第 2 ∼4 位程度まで示せば十分.特に回帰係数,標 準誤差,

t

値,

p

値は縦方向に見たとき,可能 な限り小数点の位置が揃うようにする. ▶ t値は小数第 2 位まで,p値,R2,R¯2は小数第 3 位まで示せば十分.

(37)

実習

5

1. Word を起動し,results20180713.docx という 名前でデスクトップまたは 2018microdata1 フォルダに保存. 2. 「挿入」→「表」と操作して 7 行 6 列の表を 作る. 3. 表全体をドラッグし,「参照設定」→「図表番 号の挿入」と操作. 4. ラベルを「表」に,位置を「選択した項目の 上」して OK をクリックすると,表のすぐ上の 行に「表 1」と入力される. 5. 「表 1」の後に全角スペースを入れて消費関数 推定結果と入力し,中央揃えにする.

(38)

6. 表の2 行 2 列目に回帰係数,2 行 3 列目に t 値, 2 行 5 列目に回帰係数,2 行 6 列目に t 値と 入力. 7. 表の 2 行 2 列目から 2 行 7 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「中央揃え」と操作. 8. 表の 3 行 1 列目に所得,4 行 1 列目に流動資 産,5 行 1 列目に定数項,6 行 1 列目に自由度 修正済み決定係数と入力. 9. 表の 3 行 1 列目から 6 行 1 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「中央揃え」と操作.

(39)

10. 表の 1 行 1 列目から 2 行 1 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「結合」→「セルの結合」と操作. 11. 表の 1 行 2 列目から 1 行 4 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「結合」→「セルの結合」と操作し て,「配置」→「中央揃え」と操作.結合した セルにモデル(1)と入力. 12. 表の 1 行 5 列目から 1 行 7 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「結合」→「セルの結合」と操作し て,「配置」→「中央揃え」と操作.結合した セルにモデル(2)と入力.

(40)

13. Stata に出力されていた,

income_th

のみを説 明変数とするモデル(ケインズ型消費関数)の 推定結果の数値を,Word で作成した表のモデ ル(1)の対応するセルにコピー・貼り付けす る.数値をドラッグして選択し,メニューバー から「Edit」→「Copy」と操作すればコピーで きる. ▶ 自由度修正済み決定係数はデフォルトの標準誤差 を用いた結果から,それ以外は頑健標準誤差を用 いた結果からコピーする.

▶ income_thは所得,constは定数項,coef.は回

帰係数,tは t 値,Number of obsは観測値数,

Adj R-squaredは自由度修正済み決定係数.

▶ 流動資産に対応するセルは空欄にする.

▶ 自由度修正済み決定係数は,回帰係数の列(6 行 2

(41)

14. 頑健標準誤差を用いた結果を見て,t 値の右隣 のセルには,その変数の係数の

p

値(

P>|t|

) が 0.01 未満なら***,0.05 未満なら**,0.10 未 満なら*と入力する. 15. 表の 3 行 2 列目から 6 行 3 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「下揃え(右)」と操作. 16. 表の 3 行 4 列目から 5 行 4 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃いほ う)から「配置」→「両端揃え(下)」と操作.

(42)

17. Stata に出力されていた,

income_th

deposit_th

を説明変数とするモデル(流動資 産仮説に基づく消費関数)の推定結果の数値 を,Word で作成した表のモデル(2)の対応す るセルにコピー・貼り付けする.数値をドラッ グして選択し,メニューバーから「Edit」→ 「Copy」と操作すればコピーできる. ▶ 自由度修正済み決定係数はデフォルトの標準誤差 を用いた結果から,それ以外は頑健標準誤差を用 いた結果からコピーする. ▶ deposit_thは流動資産. ▶ 自由度修正済み決定係数は,回帰係数の列(6 行 6 列目)に入力する. 18. 頑健標準誤差を用いた結果を見て,t 値の右隣 のセルには,その変数の係数の

p

値が 0.01 未 満なら***,0.05 未満なら**,0.10 未満なら*と 入力する.

(43)

19. 表の 3 行 5 列目から 6 行 6 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃い ほう)から「配置」→「下揃え(右)」と操作. 20. 表の 3 行 7 列目から 5 行 7 列目までをドラッ グし,「レイアウト」タブ(右端の,色が濃いほ う)から「配置」→「両端揃え(下)」と操作.

(44)

21. Word で作成した表のすぐ下の行に, (注 1)表中の***,**はそれぞれ有意水準 1%, 5%で統計的に有意であることを表す. (注 2)不均一分散に対して頑健な標準誤差を 用いている. (注 3)観測値数は 92 である. と入力して上書き保存.デスクトップに保存 した場合は,2018microdata1 フォルダに移動 しておく. ▶ 「アスタリスク 1 つ(有意水準 10%)」はこの表で は出てこなかったので省略.

(45)

実習

6

本日の作業はここまで. 1. メニューバーから「File」→「Log」→「Close」 と操作すると,ログの記録が停止される. 2. Stata を終了させる.lecture20180713.smcl を デスクトップに保存した場合は, 2018microdata1 フォルダに移動しておく. 3. lecture20180713.smcl を開くと,本日の作業の 記録(分析結果やコマンド)を見ることがで きる.

参照

関連したドキュメント

3.5 今回工認モデルの妥当性検証 今回工認モデルの妥当性検証として,過去の地震観測記録でベンチマーキングした別の

 そして,我が国の通説は,租税回避を上記 のとおり定義した上で,租税回避がなされた

このアプリケーションノートは、降圧スイッチングレギュレータ IC 回路に必要なインダクタの選択と値の計算について説明し

非政治的領域で大いに活躍の場を見つける,など,回帰係数を弱める要因

回答した事業者の所有する全事業所の、(平成 27 年度の排出実績が継続する と仮定した)クレジット保有推定量を合算 (万t -CO2

られる。デブリ粒子径に係る係数は,ベースケースでは MAAP 推奨範囲( ~ )の うちおよそ中間となる

今回のアンケート結果では、本学の教育の根幹をなす事柄として、

40m 土地の形質の変更をしようとす る場所の位置を明確にするた め、必要に応じて距離を記入し