重回帰分析計量経済学鹿野研究室 note11

(1)

担当：鹿野（大阪府立大学）

2013 年度後期

はじめに

前回の復習

統計ソフト_gretlで回帰分析。

今回学ぶこと

重回帰分析とは？

重回帰版_OLS推定量の性質。

テキスト該当箇所：_4.1、_4.3、_4.4章。講義ノート_#06∼09の単回帰分析と比較せよ。

1 重回帰分析

1.1 重回帰モデル：複数の説明変数

講義ノート_#06∼#09の単回帰モデル

Yi = α + βXi+ ui^, i = 1, 2, . . . , n. ⁽¹⁾ ...^{唯一の説明変数}X_i^。⇒^{被説明変数}Y_i^は、X_i以外の変数にも依存しているはず。

⊲ ^{例：人の体重}Yiは、身長、カロリー摂取・消費量、遺伝、_etcに依存。

⊲ ^{例：堺市内の家賃}Y_iは、間取り、築年数、最寄駅からの距離、_etcに依存。

⊲ ^{例：企業の生産額}Y_iは、資本ストックと労働者数に依存。（∴これは生産関数。）

重回帰モデル：_K個の説明変数を持つ回帰モデル

Yi = α + β1X1i+ β2X2i+ · · · + βKXKi+ ui^, i = 1, 2, . . . , n ⁽²⁾

を、と呼ぶ。

⊲ ∴データとして観測可能な複数の説明変数_X_1i_{, X}_2i, . . . , X_Ki^{に依存して、}Y_i^の母平均が変化。

⊲ ^{個の回帰係数}α, β₁, β₂, . . . , β_K ⇒ ^{次元のデータ}(X_1i, X_2i, . . . , X_Ki, Y_i) から_OLS推定（後述）。

⊲ ^個体i^の j番目の変数を、一般的に_X_jiと表記。 1

(2)

古典的仮定：説明変数_X_1i_{, X}_2i, . . . , X_Ki^と誤差項ui^{は、引き続き} CR1∼CR5

（講義ノート_#08）を満たすと仮定。以下再掲。

⊲ CA1^：X1i^{, X}2i, . . . , X_Kiは、非確率変数。普通の数字。

⊲ CA2^：E(ui) = 0^。

⊲ CA3^：Var(ui) = E(u²_i) = σ²^、^σ²^{は母分散。}

⊲ CA4^：u1^{, u}2, . . . , u_n^は独立→Cov(ui^{, u}j) = E(uiuj) = 0^。

⊲ CA5^：u_i ∼N(0, σ²)^。

_Remark：重回帰モデルを「わざわざ」使う理由・動機。

1. の観点：複数の説明変数を同時に使う_⇒回帰モデルの予測精度が高まる。 2. ^{の観点（非常に重要）}：非実験データによる実証分析の問題点（講義ノー

ト_#01）を、部分的に克服。詳しくは次回。

1.2 重回帰モデルの OLS 推定

簡略化のため、説明変数が二つ（_{K = 2}）の重回帰モデルの推定を考える。

Yi= α + β1X1i+ β2X2i+ ui^. (3) 三つの変数_(X_1i_{, X}_2i_{, Y}_i₎。∴三次元のデータ。

⊲ ^偏差2乗和と偏差積和の組み合わせを整理。説明変数同士の偏差積和が登場。

X1i X2i Y_i

X1i S11=^(X1i^{− ¯}X1)² S12=^(X1i^{− ¯}X1)(X2i^{− ¯}X2) S1Y =^(X1i^{− ¯}X1)(Yi^{− ¯}Y) X_2i ^（重複） S₂₂₌(X_2i− ¯X₂)² S_2Y ₌(X_2i− ¯X₂)(Y_i− ¯Y)

Yi ^（重複） ^（重複） SYY =^(Y2^{− ¯}Y2)²

_OLS推定：講義ノート_#06の単回帰と同様、まず予測式と残差

Yˆi = a + b1X1i+ b2X2i^, ei = Yi^{− ˆ}Yi^, i = 1, 2, . . . , n ⁽⁴⁾

を立て、残差₂乗和（予測誤差の₂乗和） Q(a, b1^{, b}2) =^e²_i =

(Yi⁻a − b1X1i⁻b2X2i)² (5)

を最小にする解_a^∗_{, b}^∗

1^{, b}

∗

2^を、⁽²⁾^式の^{α, β}¹^{, β}²^の ^とする。

⊲ Q(a, b1^{, b}2)最小化の一階条件を整理すると

⎧⎪

⎪⎪

⎨

⎪⎪

⎪⎩

na^∗_{+ (} X1i)b^∗₁_{+ (} X2i)b^∗₂ ₌ Y_i, ( X_1i)a^∗_{+ (} X_1i²)b^∗₁_{+ (} X_1iX2i^)b^∗₂ =^X1iYi^,

( X_2i)a^∗_{+ (} X_1iX2i)b^∗₁_{+ (} X²_2i)b^∗₂ ₌ X_2iYi^.

(6)

∴_OLS推定量は、₃本のの解。

⊲ ^一般に、K^{個の説明変数}⇔_{K + 1}^{本の正規方程式。}

(3)

_OLS推定量と基本統計量：₍₆₎式の解を_{α, ˆ}_ˆ _β₁_{, ˆ}_β₂と置くと ˆβ₁₌ ^S²²^S^1Y⁻^S¹²^S^2Y

S₁₁S₂₂−S₁₂S₁₂^, ^β^ˆ² ⁼

S₁₁S_2Y−S₁₂S_1Y

S₁₁S₂₂−S₁₂S₁₂^, ^{α = ¯}^ˆ ^{Y − ˆ}^β¹^X^¯¹^{− ˆ}^β²^X^¯²^. ⁽⁷⁾

（解き方_⇒テキスト_p92∼94参照。）

⊲ X_1i^の係数β₁^のOLS^推定量β^ˆ₁^が、S₂₂^やS_2Y^に依存。β^ˆ₂^も同様。

⊲ ∴^{重回帰分析では、}X2i^{（＝「相方」}）にどんな変数を使うかでが変わってしまう！

1.3 多重共線性：重回帰特有の問題

_{K = 2}の重回帰モデル₍₃₎式で、_X_1iと_X_2iに線形（比例）の関係があるとする。

X1i = cX2i^. (8)

⊲ ^例：X1i =^{「円」で測った年収、}^X2i =「万円」で測った年収（∴_{c =10,000}）。測定単位が違うだけ。

⊲ ^ここで、X_1i_{= cX}_2i^を(6)式の正規方程式に代入。

⎧⎪

⎪⎪

⎨

⎪⎪

⎪⎩

na^∗_{+ (c} X_2i)b^∗₁_{+ (} X_2i)b^∗₂ ₌ Y_i, (c X_2i)a^∗_{+ (c}² X²_2i)b^∗₁_{+ (c} X²_2i)b^∗₂ _{= c} X_2iYi^,

( X_2i)a^∗_{+ (c} X_2i²)b^∗₁_{+ (} X_2i²)b^∗₂ ₌ X_2iY_i.

(9)

正規方程式の重複：上の第₂式両辺を_cで割ると

⎧⎪

⎪⎪

⎨

⎪⎪

⎪⎩

na^∗+ (c^X2i)b^∗₁+ (^X2i)b^∗₂ =^Yi^,

( X_2i)a^∗_{+ (c} X_2i²)b^∗₁_{+ (} X_2i²)b^∗₂ ₌ X_2iYi^,

( X_2i)a^∗_{+ (c} X_2i²)b^∗₁_{+ (} X_2i²)b^∗₂ ₌ X_2iY_i.

(10)

∴ _X_1iと_X_2iが比例関係_X_1i _{= cX}_2i _→第₂式と第₃式は全く同じ。実質本の方程式。

⊲ ^{一方、未知数は}a^∗, b^∗₁, b^∗₂^の ^個。

⊲ ∴^{「未知数の数}_{= 3 >}^{方程式の数}_{= 2}^」→解が一意に定まらない。

多重共線性：説明変数間の線形関係により回帰係数の_OLS推定量が一意に定まらない問

題を、と呼ぶ。

⊲ 説明変数が複数登場する、重回帰分析特有の問題。

⊲ データに多重共線性があると、統計ソフトでエラー（_or多重共線性を起こしている説明変数を落として計算が始まる）。∴多重共線性は、未然に防げる。

_Remark：実際のデータ分析で注意したいのは、。説明変数同士に

強い相関（近似的な比例関係）があると、統計ソフトで数値計算上の問題が発生。

⊲ ^症状：OLS推定値や標準誤差が桁はずれに大きな数字になる、など。統計ソフトでエラーが出ず、数値計算が（無言で）実行されてしまうので、厳密な多重共線性よりも厄介。

⊲ 対処法：説明変数同士の散布図がほぼ一直線に並ぶならば、どちらか一方の変数をモデルから外す。

(4)

1.4 自由度修正済み決定係数

重回帰分析でも、講義ノート_#07の

S_YY

偏差2 乗和

= ^S^ˆYY

回帰2 乗和

+

ˆu²_i

OLS 残差 2 乗和

⇒ R²₌ ^S^ˆ^YY SYY ^{= 1 −}

ˆu²_i SYY

. (11)

は回帰直線のデータへの当てはまりの尺度として有効。ここで_ˆu_i _{= Y}_i_{− ˆ}_Y_iは重回帰の_OLS 残差。

⊲ 説明変数が多いほど、予測力は高まる（_ˆu²

i ^{の割合が減る）}^。^→^R

2は大きくなる。

⊲ ^問題点：R²を上げるために、何でもかんでも説明変数に入れる_→モデルが複雑に。

自由度修正済み決定係数_R¯：重回帰分析では、_R²ではなく R¯²_{= 1 − d}^ˆu

2 i

S_YY ^, ^{d =}

n −1

n −_{(K + 1)} ^>¹ ⁽¹²⁾

を当てはまりの尺度に使う。これをと呼ぶ。

⊲ d > 1^なのでR^¯²< R²^。

⊲ ^{説明変数の個数}K^が大きい⇔d^{が大きい。}^∴予測の精度に貢献しない説明変数を増やすと、_Kが増えて_R¯²が可能性。無駄な説明変数を利用することへの「ペナルティ」。

⊲ ∴ ¯R²は、シンプルで、かつ説明力の高いモデルを目指すための指標。

2 OLS 推定量の性質：重回帰版

2.1 ガウス・マルコフの定理

_OLS推定量の不偏性：重回帰モデル₍₂₎式の_{α, β}₁_{, β}₂, . . . , β_K^のOLS^推定量を

α, β₁, β₂, . . . , β_K −−−−−−−→^{OLS 推定} α, ˆˆ β₁, ˆβ₂, . . . , ˆβ_K (13) と置く。古典的仮定_CA1∼CA4の下では、その期待値は

E( ˆα_{) = α,} E( ˆβ_j_{) = β}_j, j = 1, 2, . . . , K. ⁽¹⁴⁾

⊲ ∴^{重回帰分析でも、}OLS^{推定量は回帰係数の} ^。

ガウス・マルコフの定理（講義ノート_#08）：古典的仮定の_CA1∼CA4が成立するならば、 ˆ

α, ˆβ₁, ˆβ₂, . . . , ˆβ_K^はα, β₁, β₂, . . . , β_Kの最小分散の線形不偏推定量（_BLUE)である。

⊲ ∴^{重回帰分析でも、}CA1∼CA4^{が成立するなら}OLS推定を使うのがベスト。

上記二点の証明：一般的な_K変数の場合、線形代数（ベクトル・行列）を用いて行うのが一般的。

⊲ ^{浅野・中村}(2010^、4章）などを参照のこと。_...学部上級レベルの内容。

(5)

2.2 回帰係数の有意性検定

有意性の_t検定（講義ノート_#09）：回帰係数_β_jの有意性検定_H₀_{: β}_j _{= 0}のは

t = βˆ_j

s.e.( ˆβ_j) ^∼^T(m), j = 1, 2, . . . , K. ⁽¹⁵⁾ s.e.( ˆβ_j)^はˆβ_jの標準誤差。ここで自由度は

m = n − (K + 1)

回帰係数の数

. (16)

⊲ ^自由度m^{の設定に注意。単回帰}_{K = 1}^の自由度_{m = n − 2}^{も、一般型}m = n − (K + 1) に当てはまる。

⊲ ^標準誤差 s.e.( ˆβ_j)^{の計算は？}⇒K変数の場合、線形代数の知識が必要。浅野・中村

(2010^、4章）などを参照のこと。

有意性の_t検定：手順は、単回帰のケース（講義ノート_#09）と全く同じ。 1. ^{データから}t^値t0=

βˆj

s.e.( ˆβj)^を計算。

2. t^{分布表から右端}2.5%^臨界値t(m)^（注意： ^{）を調べ、} (a) |t0| > t(m) ⇒ H0 : βj = 0^を棄却。^βj^{は統計的に有意。}

(b) |t0| < t(m) ⇒ H0 : βj = 0^{を棄却できない。}^βjは統計的に有意でない。

サンプル数_nが十分大きい_→_t(m)ではなく、標準正規分布の臨界値_{z = 1.96}（だいたい 2^{）で検定。}

⊲ コレも、単回帰の有意性検定と同じ。

まとめと復習問題

今回のまとめ

重回帰分析：複数の説明変数_X_1i_{, X}_2i, . . . , X_Ki^{で、被説明変数}Yi^{の個体差を説明。}

重回帰版_OLS推定量の性質：単回帰のケースとほぼ同じ。

復習問題

出席確認用紙に解答し（用紙裏面を用いても良い）、退出時に提出せよ。

1. 重回帰分析において、講義ノート_{#06 ∼ 10}の単回帰分析から変わること・変わらないことを簡潔にまとめよ。

(a) データから係数を推定する原理。 (b) モデルの当てはまりの尺度。

(c) OLS^{推定量の確率的性質。}

(d) ^{回帰係数の有意性の}t^検定。

重回帰分析 計量経済学 鹿野研究室 note11