不均一分散・非正規性とOLS 計量経済学鹿野研究室 note20

(1)

担当：鹿野（大阪府立大学）

2013 年度後期

はじめに

前回の復習

回帰分析の根源的仮定：外生性_FA1と標本の独立性_FA2。

_MM-OLS推定と、その不偏性・一致性。

今回学ぶこと

不均一分散のもとでの_OLS推定量の分散。

_OLSの漸近分布・漸近分散_⇒仮説検定。

テキスト該当箇所：_8.2章。浅野・中村（₂₀₁₀）の_p139∼140も参照。講義ノート_#08、_#09 と比較。

1 誤差項の分散構造と OLS の分散

1.1 準備：誤差項の不均一分散

前回のまとめ：根源的仮定_FA1、_FA2のもとで、回帰モデル

Y_i_{= α + βX}_i_{+ u}_i ₍₁₎

の_OLS推定量（_MM推定量）は不偏性・一致性を満たす。

E( ˆβ_{) = β,} plim ˆβ = β. (2)

⊲ ∴古典的仮定よりも緩い前提条件で、_OLSはうまく働いてくれる。

⊲ OLS^{の分散は？分布は？}_⇒これらは仮説検定で必要。

⊲ ^{準備として、誤差項}^ui^の ^{を考える。}

誤差項の不均一分散：誤差項u_iの条件付き分散は、一般に

Var(ui_|Xi_{) = E(u}²_i_|Xi_{) = v(X}i_{) = σ}²_i, i = 1, 2, . . . , n. ⁽³⁾

∴ X_iに応じて、バラつきが異なる可能性。これをと呼ぶ。

⊲ 注意：分散が各観測で異なる_⇒添え字iで区別。 1

(2)

⊲ 一方、均一分散ならば、繰り返し期待値の公式から

E(u²_i_|Xi_{) = σ}² _⇒ E(u²_i_{) = E}X_i[E(u²_i_|Xi_{)] = σ}². (4)

∴古典的仮定の、均一分散の仮定_CA3（講義ノート_#08）と同値。

⊲ 均一分散は、あくまで分析者の都合による仮定_⇒より一般的には、データが不均一分散であるケースを想定すべき。

1.2 OLS の分散

_OLSを、次のように表す。

β = β +ˆ ^wⁱ^uⁱ = β + ¹ S_{X X}

(Xi_{− ¯}^X)ui _{= β + AB.} (5)

ここでw_i ₌ _S¹

XX^(Xⁱ^{− ¯}^X⁾

は_OLSウェイト（講義ノート_#08）。また A = _S¹

X X

, _{B =}(Xi_{− ¯}^X)ui. (6)

⊲ ∴ ˆβ^の、^X₁, X₂, . . . , Xnに関する条件付き分散は Var( ˆβ_|X₁, X₂, . . . , Xn_{) = E}

( ˆβ_{− β)}²_|X₁, X₂, . . . , Xn

= E(A²^B²|X¹^{, X}², . . . , Xn). (7)

⊲ A^は^X₁, X₂, . . . , Xn^{で作られているので、}^X1^{, X}2, . . . , Xnを見せられれば定数扱い。（講義ノート_#18。）よって

Var( ˆβ_|X₁, X₂, . . . , Xn_{) =} . (8)

_OLSの分散：根源的仮定_FA1、_FA2のもとで、_OLSの分散は Var( ˆβ_|X₁, X₂, . . . , Xn_{) = A}²

(Xi_{− ¯}^X)²E(u²_i_|Xi)

= ^. ⁽⁹⁾

⊲ ^一般に、OLSの分散は非常に複雑な形となる。

⊲ ^{証明：補足資料}#20^{より、次式が成立。} E(B²_|X1^{, X}2, . . . , Xn_{) =}

(Xi_{− ¯}^X)E(u²_i_|Xi_{) =}

(Xi_{− ¯}^X)σ²_i. (10) これを₍₈₎式に代入すれば良い。

_Remark：もし誤差項が均一分散だったら？_⇒全ての観測で_E(u²_i_|X_i_{) = σ}²_i _{= σ}²なので、 Var( ˆβ_|X₁, X₂, . . . , Xn_{) =}

1 S_{X X}

(Xi_{− ¯}^X)²σ²

= ^σ

2

S_{X X}

(Xi_{− ¯}^X)²

=SXX

= ^σ

2

S²_{X X}

S_{X X}₌ _. ₍₁₁₎

⊲ ∴コレは均一分散のときの_OLSの分散と同じ！（講義ノート_#08）

⊲ ^一般にOLS^{の分散は、} ^{に依存して決まる。}

(3)

2 OLS の漸近分布に基づく仮説検定

2.1 OLS の漸近正規性と漸近分散

_βの仮説検定を行うためには、_OLS推定量_βˆの分布を導出する必要。_⇒準備として、₍₅₎ 式を次のように書き換える。

β = β + ABˆ _⇔ β = β +^ˆ _√¹

n ^· ^· ^. ⁽¹²⁾

⊲ ^{さらに次の書き換え。}

nA = _Sⁿ

X X ⁼

1

1 n^S^{X X}

= ₁ ¹

n^(Xⁱ− ¯^X⁾² ⁼ 1 s²

X

, (13)

√1_n^{B =} ¹_n^(Xⁱ− ¯^X^)uⁱ^. ⁽¹⁴⁾

∴前者はX_iの標本分散の逆数。

⊲ ^{大数の法則（}₊^{外生性の仮定}FA1^）より、 plim nA = ⁿ

S_{X X} ⁼ 1 plim s²_X ⁼

1

Var(Xi) ⁼ ^. ⁽¹⁵⁾

⊲ また中心極限定理により、近似的に

√1_n^B∼^a ^, C = plim¹_n^(Xⁱ− ¯^X⁾²^u²ⁱ^. ⁽¹⁶⁾

（正確な証明は、入門レベルを超えるので省略。）

_Remark：サンプル数nが十分多ければ、誤差項u_i がいかなる分布に従おうとも、近似

的に

β = β +ˆ _√¹

n ^× ^× ^. ⁽¹⁷⁾

∴ _ˆβは正規分布に従う確率変数。

⊲ ^{ポイントは} √¹_n_{B =} √¹_n(Xi_{− ¯}^X)ui^{の漸近正規性。個々の}^uiに正規性を仮定しなくとも、その加重和は中心極限定理により、正規近似できる。

⊲ ^{古典的仮定では、} ^（CA5^{）を置いて}β^ˆの分布を導出。一方、正規分布に従わないデータも多くある。∴正規性の仮定によるアプローチは問題あり。

_OLSの漸近分布：_OLS推定量 _ˆβは、_βの（講義ノート_#17）。

ˆβ_{∼ N}^a β,Avar( ˆβ). (18)

ここでは

Avar( ˆβ_{) =} ^C

nσ⁴_X^, ^{C = plim} 1 n

(Xi_{− ¯}^X)²^u²_i. (19)

(4)

⊲ ∴^サンプルⁿが多ければ、母集団に特定の分布を仮定しなくとも、_βˆの正規分布が得られる。

⊲ ^証明：(15)^式、(16)^{式の結果を}(12)式に代入・整理すればよい。

⊲ ^{漸近分散がとても複雑}_⇒データから推定するには？

ホワイトの頑健分散：漸近分散₍₁₉₎式は、次式で推定できる。 H = ^C^ˆ

n_{( ˆ}_σ²

X⁾²

, σˆ²_X ₌ ¹ n

(Xi_{− ¯}^X)²

=S^XX

, _{C =}^ˆ ¹ n

(Xi_{− ¯}^X)²ˆu²_i. (20)

これをと呼ぶ（Halbert White^{、色ではなく人名）}^。

⊲ ∴ Cに含まれる観測できないを、_OLSの結果得られるで置

き換え。_White（₁₉₈₀）は_{plim ˆ}_{C = C}を証明。

⊲ 上式を書き換えれば、よりシンプルに。 H = ⁿ

2

nS²_{X X} 1 n

(Xi_{− ¯}^X)²ˆu²_i ₌ ¹ S²_{X X}

(Xi_{− ¯}^X)²ˆu²_i. (21)

⊲ ホワイトの分散推定に基づけば、_βˆのは s.e.( ˆβ)H ₌

√H = _S¹

X X

(Xi_{− ¯}^X)²ˆu²_i. (22)

たいていの統計ソフトの_OLSコマンドには、ホワイトの標準誤差を求めるオプションがついている。（_gretlの「頑健な標準誤差」。）

2.2 正規近似を利用した仮説検定

漸近分布₍₁₈₎式とホワイトの分散推定₍₁₈₎式を使えば、_OLSの分布は

ˆβ_{∼ N(β, H).}^a (23)

⊲ ∴近似的に、次式が成立。

Z = ∼ N(0, 1).^a ⁽²⁴⁾

⊲ β に仮説値を与えれば、標準正規分布の臨界値 _{z = 1.96} _{≈ 2}を使って仮説検定

（）ができる。

漸近分布による近似：手順は通常の_t検定と全く同じ。違いは標準誤差の計算法だけ。 1. ^{未知の係数に帰無仮説}H0: β = β0^を置く。

2. ^{仮説値のもとで} ^を計算。

Z₀₌ ^β^ˆ_√^{− β}⁰

H ^. ⁽²⁵⁾

(5)

3. |Z⁰| > 1.96 ⇒ H⁰: β = β0^{を棄却する、}_|Z0| < 1.96 ⇒ H⁰^:^{を棄却しない。}

_Remark：現在の実証分析では、「_OLS+ホワイトの標準誤差」が主流。

⊲ ^{講義ノート}#09の、均一分散を前提とした標準誤差

s.e.( ˆβ_{) =}

s² S_{X X} ⁼

s

√_S

X X

, ^s²₌ ¹ n_{− 2}

(Yi_{− ˆY)}² (26)

は、不均一分散の場合、誤った標準誤差。_⇒あまり使わない。（データが均一分散の保証がないので、危なくて使えない。）

⊲ 一方ホワイトの標準誤差は、均一分散だろうが不均一分散だろうが、いつでも正しい。_⇒コチラの計算法を使うべき。

⊲ t^値（^Z値）の分母は標準誤差。∴標準誤差の計算方式が、の判断を変えてしまう可能性！

例：マンション価格の回帰分析（講義ノート_#12、_#14）の、標準誤差・_t値の計算法を再考。被説明変数はマンション価格。

通常の分散ホワイトの分散係数標準誤差 _t値標準誤差 _t値

定数項 _1896.26 _189.09 _10.03 _159.32 _11.90

駅までの時間 _-36.79 _10.01 _-3.68 _8.92 _-4.13

築年数 _-61.30 _4.59 _-13.35 _3.62 _-16.92

面積 _60.14 _2.21 _27.19 _2.69 _22.36

1^ルーム -544.81 161.23 -3.38 111.23 -4.90

¯

R² _0.89

n ₁₉₄

⊲ ^全てgretl^で計算。

⊲ 分散の推定方式次第で、標準誤差・_t値が大幅に変わる。ホワイトの頑健なバージョンをレポートすべき。₍幸い）この例では、どちらの標準誤差でも全ての係数が統計的に有意。

⊲ 均一分散ならば、通常の標準誤差とホワイトの標準誤差にあまり差が出ないはず。∴ 標準誤差の比較は、均一分散の仮定が正しいか否かの簡便なチェックになる。

_Remark：根源的仮定_FA1（外生性）、_FA2（標本の独立性）を前提にした新しい回帰分

析の世界（講義ノート_#18以降）_⇒OLSは、かなり広範なデータに適用可能！

⊲ 回帰係数の推定方法は？_⇒実質は。

⊲ OLS^{推定の性能は？}_⇒ ^、。ただし有効性（最小分散）は不明。

⊲ ^{有意性の検定は？}_⇒ ^{（近似）による検定。} と標準誤差、_t値。

⊲ ∴分析者がやるべき作業自体（_OLS推定_→有意性検定）は、古典的仮定のときとあまり変わらない。

(6)

まとめと復習問題

今回のまとめ