『新しい計量経済学』鹿野研究室 slide11

(1)

計量経済学_#11

重回帰分析 ₍₁₎

鹿野繁樹

大阪府立大学

2017 年 11 月更新

(2)

Outline

1 重回帰モデル

2 重回帰分析の注意点

テキスト：鹿野繁樹 [2015]、第 6.1 章・第 6.2 章。

前回の復習

1 _{計量分析ソフト}_gretl

(3)

Section 1 重回帰モデル

(4)

重回帰モデル：複数の説明変数

これまで使ってきた単回帰モデル

Yi = α + βXi+ ui, i = 1, 2, . . . , n. (1) ... 社会現象・自然現象を、単一の決定要因だけで説明するのは難しい！

マンション価格：築年数だけでなく、間取りや最寄駅からの距離、その地域の治安や景観にも依存。

人間の体重：年齢や性別、身長、カロリー摂取・消費量、遺伝（親の体格）など。

生産関数_Q_i _{= F (K}_i_{, L}_i)：企業の生産水準 Qi^は、資本Ki^と

労働_L_iで決まる。

(5)

回帰モデルの拡張：_{k 個の説明変数 X}_1i_{, X}_2i, . . . , Xki ^{を持つ、重回}

帰モデルを考える。

重回帰モデル

Yi = α + β₁X_1i+ β₂X_2i+ · · · + βkXki+ ui, i = 1, 2, . . . , n. (CA0^∗) k 個の係数 βj^（j = 1, 2, . . . , k）と定数項 α ⇒ 計 (k + 1) の未知パラメータ。

ui^{は誤差項。}

(6)

引き続き、回帰分析の古典的仮定（講義ノート_{#08・#09）を仮} 定。⇒ これまでと同じ議論より、個々の観測_Y_iは正規分布に従う。

Yi ^∼N(α + β1X1i+ β2X2i+ · · · + βkXki, σ²). (2)

期待値・分散は

E(Yi) = α + β1X1i+ β2X2i+ · · · + βkXki, Var(Yi) = σ². (3)

∴ 重回帰でも、「説明変数で期待値がシフトする正規母集団」が分析対象。

(7)

単回帰と比べ、重回帰分析は二つの大きなメリット。

1 複数の説明変数を同時に使う ⇒ モデルの予測力が改善。

2 非実験データの問題点（講義ノート#01）を、部分的に克服できる可能性。計量経済学の重要テーマ！⇒ 次回以降に議論。

(8)

重回帰モデルの _OLS 推定

重回帰モデル_(CA0^∗_{) の係数 α, β}₁_{, β}₂, . . . , βk^をOLS 推定。説明変数_(X_1i_{, X}_2i, . . . , Xki) による Yi^{の回帰直線と残差：}

Yˆi = a + b1X1i+ b2X2i+ · · · + bkXki, (4) ei = Yi^{− ˆ}Yi, i = 1, 2, . . . , n. (5) 残差2 乗和（予測誤差の総和）を定義。

Q(a, b1, b2, . . . , bk) = e²_i =(Yi^{− ˆ}Yi)². (6)

⇒_調節弁_{a, b}₁_{, b}₂, . . . , bk^{を最小化。}

上の最小化問題の解を、_{OLS 推定量 ˆ}_{α, ˆ}_β₁_{, ˆ}_β₂, . . . , ˆβk^とする。

(9)

公式 ₁

Q(a, b1, b2, . . . , bk) を a, b1, b2, . . . , bkで最小化すると、その一階条件は

uˆi = 0, uˆiXj = 0, j = 1, 2, . . . , k. (7)

ただし_u_ˆ_i _{= Y}_i− ˆ_Y_iは_{OLS 残差。} 証明：教科書_{p72 を参照。}

重回帰の_{OLS ˆ}_{α, ˆ}_β₁_{, ˆ}_β₂, . . . , ˆβk^は、(7) 式の (k + 1) 本の連立方程式の解。（統計ソフトを使えば計算は一瞬。）

重回帰のOLS も、モデルをデータにフィットさせるように決まる。

(10)

説明変数が二つ（ _{k = 2} ）のケース

簡単化のため、説明変数が二つ（k = 2）のケースを考える。 Yi = α + β1X1i+ β2X2i+ ui. (8)

登場する変数の偏差２乗和と偏差積和を定義。

(Xij, Yi) : SjY =(Xji^{− ¯}Xj)(Yi^{− ¯}Y ), j = 1, 2, (9) (Xij, Xis) : Sjs=(Xji^{− ¯}Xj)(Xsi^{− ¯}Xs), j, s = 1, 2.

(10) 上の表記で、j = s なら偏差 2 乗和 Sjj =(Xji^{− ¯}Xj)²^。

(11)

(8) 式に対応する残差および残差 2 乗和は

Q(a, b1, b2) = e²_i =(Yi^{− ˆ}Yi)², Y^ˆi = a + b1X1i+ b2X2i. (11)

最小化の一階条件：公式_{(7) より}

(Yi⁻a^∗⁻b^∗₁X1i⁻b^∗₂X2i) = 0, (12)

(Yi⁻a^∗⁻b^∗₁X1i⁻b^∗₂X2i)X1 = 0, (13)

(Yi⁻a^∗⁻b^∗₁X_1i⁻b^∗₂X_2i)X₂ = 0. (14) 上式を整理 ⇒ 説明変数がk = 2 個の正規方程式

⎧

⎪⎨

⎪⎩

na^∗+ ( X1i)b^∗₁+ ( X2i)b^∗₂ = Yi

( X1i)a^∗+ ( X_1i²)b^∗₁+ ( X1iX2i)b^∗₂ = X1iYi

( X2i)a^∗+ ( X1iX2i)b^∗₁+ ( X_2i²)b^∗₂ = X2iYi

. (15)

(12)

公式 _{2 (} 説明変数が _{k = 2} 個の _OLS)

説明変数がk = 2 個の重回帰モデルに関し，係数の OLS 推定量は ˆ

α = ¯Y − ˆβ1X^¯1^{− ˆ}β2X^¯2, (16) βˆ1 = ^S²²^S^1Y ⁻^S¹²^S^2Y

S11S22⁻S12S12

, β^ˆ2 = ^S¹¹^S^2Y ⁻^S¹²^S^1Y S11S22⁻S12S12

. (17)

証明：拓_{[1995] 参照。}

X1i^{の係数推定値}β^ˆ1^は、S12^やS22^、S2Y ^を通じ，^「相方」X2i

から影響を受ける！

一般に重回帰分析では、同一説明変数_X_jiであっても、_X_ji以外の説明変数_X_siに何を使うかで、係数推定値が変化。

(13)

Remark 1

重回帰OLS の特徴：説明変数 Xji^の係数βj^のOLS 推定値 ˆβj^は、

その他説明変数に何を使うかで値が変わる。

Example 1

2010 年の 47 都道府県の 1 万人当たり医療支出 healthi^{（入院外）}

を、65 歳以上割合 oldi^{と一人当たり診療所数}clinici^にOLS 回帰。単回帰_: _health_i = 53.86 + 2.03 oldi, (18) 重回帰_: _health_i = 36.88 + 0.88 oldi+ 57.64 clinici. (19) 説明変数に_clinic_iを加えると、_old_iの推定値が大きく変わる。

(14)

Section 2 重回帰分析の注意点

(15)

OLS ^{の統計的性質}

公式 _{3 (} 重回帰 _OLS の期待値と分散、ガウス・マルコフ

の定理 ₎

古典的仮定が成立する標本について、重回帰_{OLS の期待値・分} 散は

E( ˆβj) = βj, Var( ˆβj) = ^σ

2

Sjj(1 − R²_j)^, j = 1, 2, . . . , k. (20) ここで_S_jjは、第_{j 説明変数 X}_jiの偏差_{2 乗和。また R}²_j は、_X_jiをそれ以外のk − 1 個の説明変数に重回帰した際の決定係数。さらに上式の分散は、、不偏推定量の中で最小となる。

証明：Wooldridge [2013] を参照。

(16)

古典的仮定を満たす標本ならば、重回帰OLS の統計的性質は単回帰の場合（講義ノート_{#08）とほぼ同じ！}

重回帰OLS は、回帰係数の不偏推定量。

ガウス・マルコフの定理も成立。OLS は最小分散の不偏推定量。

(17)

母分散_σ²の不偏推定量：単回帰のケースにならい、 s² = ¹

n − (k + 1)

uˆ²_i, E(s²) = σ². (21)

n ではなく n − (k + 1) で割る理由：自由度の調整。講義ノート_{#10 参照。}

s²^より、各β^ˆj^{の標準誤差}

s.e.( ˆβj) = ^s

S_jj(1 − Rj)^, j = 1, 2, . . . , k (22) を得る。⇒ 推定値のブレを、標準誤差で測る。

(18)

誤差項の正規性より、 ˆ_β_jは正規分布に従う。 βˆj ^∼N

βj, ^σ

2

Sjj(1 − R²_j)

. (23)

上式を標準化すれば、 ˆ_β_jに関する_{Z 統計量} Zj = ^β^ˆ^j⁻^β

σ/Sjj(1 − Rj)

∼_{N(0, 1).} ₍₂₄₎

を得る。

(19)

標準誤差を使えば、_{t 統計量となる。} tj = ^β^ˆ^j ⁻^β

s/Sjj(1 − Rj) ⁼

βˆj ⁻βj

s.e.( ˆβj)

∼_T(m), m = n − (1 + k). (25)

係数_β_jに関する仮説検定

H₀ : βj = β_j∗ (26) が可能に_!

自由度の設定が、m = n − (1 + k) となっている点に注意。サンプル数n が十分大きい場合は、自由度を無視してよい。

⇒_{標準正規分布の臨界値}z = 1.96 ≈ 2.00 を検定に使う。

(20)

Remark 2

重回帰分析におけるOLS 推定量の性質：基本的に単回帰と同じ。推定：単回帰同様，ガウス・マルコフの定理により，_{OLS は} 最小分散の不偏推定量。

仮説検定：単回帰と同じ手順でt 検定ができる。ただし自由度 m = n − (1 + k) に注意。

(21)

Example 2

(18) 式、(19) 式に係数の有意性の t 値を書き加えると healthi = 53.86

(4.02) ^{+ 2.03}(3.75)^oldⁱ^, ⁽²⁷⁾

healthi = 36.88

(3.55) ^{+ 0.88}(1.97)^oldⁱ^{+ 57.64}(6.05) ^clinicⁱ^. ⁽²⁸⁾

clinici^{を入れると、}oldiの係数の推定値だけでなく、その統計的な有意性が変化。

(22)

多重共線性と「緩い」多重共線性の問題

説明変数の数が増えることで起こる問題点は？

説明変数がk = 2 個の重回帰モデルで、X1i^とX2i^{に正比例の}

関係があるとする。

X1i = cX2i. (29) 例：_X_1iが「円」単位で測った年収、_X_2iが「万円」単位で測った年収。⇒ 両者の関係は_X_1i _{= 10000X}_2i。

(23)

このとき、_X_1i _{= cX}_2iを正規方程式_{(15) の X}_1iに代入すれば

⎧

⎪⎨

⎪⎩

na^∗+ (c X2i)b^∗₁+ ( X2i)b^∗₂ = Yi

(c X2i)a^∗+ (c² X_2i²)b₁^∗+ (c X_2i²)b^∗₂ = c X2iYi

( X2i)a^∗+ (c X_2i²)b^∗₁+ ( X_2i²)b^∗₂ = X2iYi

(30)

上式の第2 式の両辺を c で割ると X2i

a^∗+cX_2i²b^∗₁+X_2i²b^∗₂ =X2iYi. (31)

∴ 第2 式と第 3 式は互いに重複。∴ X1i= cX2i^ならば、(15) 式は実質_{2 本の方程式。}

一方、未知数（係数）は_a^∗_{, b}^∗₁_{, b}^∗₂の3 つ。⇒「未知数の数

= 3」>「方程式の数 = 2」。∴ 解が一意に定まらない！

(24)

説明変数間の完全な線形関係によりOLS の解が一意に定まらないことを、多重共線性の問題と呼ぶ。

多重共線性のあるデータを使うと、統計ソフトが、その原因となる変数を自動的に落として_{OLS を計算。}

(25)

実際の分析で注意したいのは緩い多重共線性。説明変数同士に強い相関関係があると、近似的な比例関係が生じ、統計ソフトで数値計算上の問題が発生。

症状：OLS の係数推定値や標準誤差が桁外れに大きく・小さくなる。

具体的なエラーメッセージが出ないので，厳密な多重共線性よりも厄介。

対策：分析に使う説明変数同士の相関係数を確認し、±_{1 に近} いならどちらか一方を外す。

(26)

自由度修正済み決定係数：モデル選択

重回帰分析でも_Y_iの偏差2 乗和の分解公式（講義ノート#07）が成立。∴ 決定係数_R²を当てはまりの尺度として使る。

SY Y = Y_{Y ˆ}ˆ_Y +uˆ²_i ^⇒ R² = ^Y^ˆ^{Y ˆ}^ˆ^Y SY Y

= 1 − ^ˆ^u

2i

SY Y

. (32)

ただし_u_ˆ²_i は重回帰の_{OLS 残差。}

説明変数の数k が多いほどモデルの予測力・説明力は高まる。

⇒残差_{2 乗和}_ˆ_u²_i が単調に減少、_R²は単調増加。 R²を高めるために、むやみに説明変数を増やす？弊害：説明変数の増加で、モデルが煩雑に。で

(27)

重回帰では、モデルのデータへの当てはまりとシンプルさを両方評価する指標として、（自由度）修正済み決定係数

R¯² = 1 − d(k)^ˆ^u

2i

SY Y

, d(k) = ^{n − 1}

n − (k + 1) ^{> 1} ⁽³³⁾ を使う。

説明変数を増やすと_ˆ_u²_i が減少する一方、調整項_{d(k) も上} 昇し、 ¯_R²は下がる。

∴ あまり予測に貢献しない説明変数をむやみに加えると、かえって_R¯²は低下！

R¯²をガイドに説明変数群を厳選すれば、説明力が高く、かつシンプルな重回帰モデルが得られる。

(28)

モデルが説明力と簡便さを兼ね備えていることを、節約性

（parsimony）と言う。

R¯²は、節約性を持ったモデルを選択する基準のひとつ。ファイナンスやマクロ時系列データなど、予測を目的とする分野は、予測力や節約性の基準によるモデル選択を重視。一方、変数間の因果関係を追及する分析（この講義）では、機械的なモデル選択を行なわない。⇒_R²や_R^¯²は「高いに越したことはない」程度の認識で十分。

(29)

今回の復習問題

次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。講義名、日付、学籍番号、氏名を明記すること。

1 _{テキスト第}6 章復習問題 6.1。

(30)

References

J. M. Wooldridge. Introductory Econometrics. Cengage Learning, 5th edition, 2013.

鹿野繁樹. 新しい計量経済学. 日本評論社, 2015. 山. 拓. 計量経済学. 新世社, 1995.

『新しい計量経済学』 鹿野研究室 slide11

重回帰分析 (1)

Outline

前回の復習

Section 1

重回帰モデル

重回帰モデル：複数の説明変数

重回帰モデル

重回帰モデルの OLS 推定

公式 1

説明変数が二つ（ k = 2 ）のケース

公式 2 ( 説明変数が k = 2 個の OLS)

Remark 1

Example 1

Section 2

重回帰分析の注意点

OLS の統計的性質

公式 3 ( 重回帰 OLS の期待値と分散、ガウス・マルコフ

の定理 )

Remark 2

Example 2

多重共線性と「緩い」多重共線性の問題

自由度修正済み決定係数：モデル選択

今回の復習問題

References

『新しい計量経済学』鹿野研究室 slide11

重回帰分析 ₍₁₎

重回帰モデルの _OLS 推定

公式 ₁

説明変数が二つ（ _{k = 2} ）のケース

公式 _{2 (} 説明変数が _{k = 2} 個の _OLS)

OLS ^{の統計的性質}

公式 _{3 (} 重回帰 _OLS の期待値と分散、ガウス・マルコフ

の定理 ₎