大学院計量経済分析 Masumi Kawade Site 05daihyo

(1)

5 説明変数に関する古典的仮定の緩和と大標本理論

5.1 説明変数の確率変数への拡張 ^— 大標本理論での望ましさ

古典的仮定で非常に強い仮定である

• 説明変数は非確率的である ⇒ 誤差項と説明変数は無相関

• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ²⁾⁾

について考えて見ましょう。学部での計量経済学はこの仮定は緩められることは無く、最後までこの仮定を維持し続けました。しかし、この仮定は闇雲につけられていた仮定ではなく、これを崩すには同時に統計学的な高度な知識を必要とします。

これまでは望ましいデータの性質を強制することで、比較的少ないデータでも推定を行っても良いことを示していました。それはデータ自身に望ましい性質があるためでした。しかし、データに望ましい性質があるかどうかわからない場合には利用できるような性質のよりどころを失ってしまうのです。

かといって終わってしまったわけではありません。そうではなく標本を増やすことで、ある性質を利用しようというのです。すなわち、そこで出てくるのは大数の法則、中心極限定理です。

5.2 仮定を緩めない場合の漸近的性質

仮定を緩めることなく、単に標本だけ増やしたらどのようなことがおきるのでしょう。この際には通常の手続きにのっとって、評価すれば、基本的に何も問題はありません。ただ、それでは将来的な発展性がないので、代表本という枠組みの中で、評価してみましょう。

推定量_{β の統計的な構造は}

β = β^∗+ (X^′X)⁻¹X^′ǫ (5.1) と書き表せます。このとき、_{E[β] = β}

∗

ですが、それを評価する方法として、標本を増やした場合(N → ∞) を考えて見ましょう。この際、

N →∞lim ^(X

′X)⁻¹X^′ǫ (5.2)

を評価しなければないのですが、これでは評価できそうにありません。そこで、 β = β^∗+^X

′X N

⁻¹ X^′ǫ

N ^(5.3)

と書き直した上で、

N →∞lim

X^′X N

⁻¹ X^′ǫ

N ^(5.4)

(2)

を評価することを考えて見ましょう。このとき、

N →∞lim X^′X

N ^{= Ψ} ^(5.5)

という、正定号行列に収束すると仮定しましょう。すると、

N →∞lim

X^′X N

⁻¹ X^′ǫ

N ^{= Ψ}

−1 lim

N →∞

X^′ǫ

N ^(5.6)

となりますが、

X^′ǫ =





 x^′1ǫ x^′2ǫ ... x^′_Kǫ







(5.7)

であり、 x^′_kǫ =

N i=1

xi,kǫi (5.8)

です。このとき、古典的仮定より、

E[x^′_kǫ] = 0 (5.9)

であったので、大数の法則から、 x^′_kǫ =

∞ i=1

xi,kǫi = 0 (5.10)

が得られます。したがって、

N →∞lim ^β

∗+^X

′X N

⁻¹ X^′ǫ

N ^{= β}

∗+ Ψ · 0 = β^∗ ^(5.11) になります。

また、有限標本とは異なり標本を非常に大きくとった際の一致性は、_E[X

′ǫ] = 0 であることを利用して、

V ar^X

′ǫ N

= E^X

′ǫ N

ǫ^′X N

(5.12)

= ^X

′E [ǫǫ^′] X

N² ^(5.13)

= X^′σ²IX = ^σ

2

N X^′X

N ^(5.14)

となり、

N →∞lim σ² N

X^′X

N = 0 · Ψ = 0 ^(5.15)

が得られて、確認できます。

(3)

5.3 誤差項の正規性に関する仮定の緩和

次に、

• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ²⁾⁾ だけをはずし、

• 説明変数は非確率的である ⇒ 誤差項と説明変数は無相関を残しましょう。なお、誤差項に関する積率条件

E[ǫ] = 0 (5.16)

V ar[ǫ] = σ²I (5.17)

は残しておきます。

このとき、(5.18) 式を変形して両辺に^√N をかけて、

√N (β − β^∗^{) =} ^X

′X N

⁻¹ X^′ǫ

√N ^(5.18)

を得ます。このとき、確率変数_{ǫ を持つ} X^′ǫ

√N ⁼

√N^X

′ǫ

N ^(5.19)

に着目して、(5.14) 式から、 V ar^√N^X

′ǫ N

= N^σ

2

N X^′X

N ^{= σ}

2X^′X

N ^(5.20)

が得られます。(5.5) 式が成り立つならば、(5.7) 式および (5.8) 式から、

√1 N^X

′ǫ = _√¹ N





 N

i=1^x^i,1^ǫⁱ

N i=1^x^i,2^ǫⁱ

... N

i=1^x^i,K^ǫⁱ







=^√N







N⁻¹^N_i=1xi,1ǫi

N⁻¹^N_i=1xi,2ǫi

...

N⁻¹^N_i=1xi,Kǫi







(5.21)

≡ ^√^N







¯ w1

¯ w2

...

¯ wK







=^√N ¯w (5.22)

について、有限の期待値と分散を持つことから、Lindenberg-Feller はもとより、分散や平均の違いも許容するLindenberg-Feller の中心極限定理が利用できます。また、すべての_ǫ_iが独立同一分布に従っているという古典的仮定を使えば、

√1 N^X

′ǫ_{−−→ N[0, σ}^d ²Ψ] (5.23)

(4)

となりますので、

√N (β − β^∗^{) =} ^X

′X N

−1

X^′ǫ

√N

−−→ N[0, σd ²^Ψ⁻¹^] ^(5.24)

が得られます

1

。したがって、漸近分布は β _{∼ N}^a

β^∗,^σ

2

N^Ψ

−1

(5.25)

といえます。

5.3.1 誤差項の分散を推定する際の条件

有限標本理論では、不偏性が推定に重要な要素であったが、大標本理論では一致性が重要になる。誤差項の分散について、その一致性の条件を考えてみよう。まず、_σ

2

の不偏推定量は s² = ^ǫ

′Mrǫ

N − K ^(5.26)

= ^N N − K

ǫ^′ǫ N ⁻

ǫ^′X N

X^′X N

⁻¹ X^′ǫ

N

(5.27)

です。このとき_{N → ∞ ならば、} N

N − K ^{→ 1,} ǫ^′X

N

X^′X N

⁻¹ X^′ǫ

N ^{→ OΨO = O} ^(5.28) になり、

N →∞lim N N − K

ǫ^′ǫ N ⁻

ǫ^′X N

X^′X N

⁻¹ X^′ǫ

N

= lim

N →∞

ǫ^′ǫ

N ^{= lim}^{N →∞} 1 N

N i=1

ǫ²_i (5.29)

になるので、 V ar

1 N

N i=1

ǫ²_i

= E 1

N N

i=1

ǫ²_i _{− σ}^∗2

²

(5.30)

について考えると、 E

1 N

N i=1

ǫ²_i _{− σ}^∗2

²

= ¹ N²^E

_N

i=1

ǫ²_i _{− Nσ}^∗2

²

(5.31)

= ¹ N²^E

_N

i=1

ǫ²_i

²

− ^σ

∗4

N ^(5.32)

1N_{[0 · Ψ}⁻¹,Ψ⁻¹σ²ΨΨ⁻¹_{] → N[0, σ}²Ψ⁻¹]

(5)

が得られますが、このとき誤差項は独立かつ同一であるという仮定から、 1

N²^E _N

i=1

ǫ²_i

²

− ^σ

∗4

N ⁼ N

i=1^{E [ǫ} 4 i^]

N² ⁻ σ^∗4

N ⁼ E [ǫ⁴_i]

N ⁻ σ^∗4

N ^(5.33) となります。このとき、_{E [ǫ}

4

i] < ∞ ならば、 V ar

N →∞lim 1 N

N i=1

ǫ²_i

= lim

N →∞

E [ǫ⁴_i] N ⁻

σ^∗4 N

= 0 (5.34)

となって、一致性が示されます。

なお、古典的仮定にある正規性の仮定は、不偏推定量の中で、線形モデル以外でも推定量の効率性を保証する仮定となっています。これを、Rao-Blackwell の定理といい、Gauss-Markov の定理よりも強い結果を導くことができるのです。

5.3.2 仮説検定の漸近的性質

仮説検定の中で、F 検定に与える影響を評価しましょう。

H0 : Rβ − q = 0 ^(5.35)

の検定統計量は

F (M, N − K) = ^{(R ˆ}^{β − q)}

′[σ²_R(X^′X)⁻¹_R^′]⁻¹_{(R ˆ}_{β − q)/M}

(ˆǫ^′ˆǫ/σ²_{)/(N − K)} ^(5.36) であり、仮説が真であれば、

R ˆβ − q = R(β^∗^{+ (X}^′^X)⁻¹^X^′ǫ) − q = R(X^′^X)⁻¹^X^′^ǫ ^(5.37) なので、(5.23) 式より、

X^′ǫ −−→ N[0, Nσ^d ²^Ψ] ^(5.38) となって、漸近的に正規分布に従うことがわかります。ところで、

V ar[R(X^′^X)⁻¹^X^′^{(ǫ/σ)] =} ¹

σ²^E[R(X

′X)⁻¹X^′ǫǫ^′X(X^′X)⁻¹_R^′] (5.39)

= ¹ σ²^R(X

′X)⁻¹X^′σ²I^′X(X^′X)⁻¹_R^′ (5.40)

= R(X^′^X)⁻¹R^′ ^(5.41) となるので、_(ǫ

′/σ)X(X^′X)⁻¹_R^′_[R(X^′X)⁻¹_R^′]⁻¹_R(X^′X)⁻¹X^′(ǫ/σ) についてワルド原理が適用でき、

rank[X(X^′X)⁻¹_R^′_[R(X^′X)⁻¹_R^′]⁻¹_R(X^′X)⁻¹X^′] (5.42)

= tr[X(X^′X)⁻¹_R^′_[R(X^′X)⁻¹_R^′]⁻¹_R(X^′X)⁻¹X^′] (5.43)

= tr[[R(X^′^X)⁻¹R^′^]⁻¹R(X^′^X)⁻¹^X^′^X(X^′^X)⁻¹R^′^] ^(5.44)

= tr[[R(X^′^X)⁻¹R^′^]⁻¹R(X^′^X)⁻¹R^′

M ×M

] (5.45)

= tr[I] = M (5.46)

(6)

となるので、

χ²(M) = (ǫ^′/σ)X(X^′X)⁻¹_R^′_[R(X^′X)⁻¹_R^′]⁻¹_R(X^′X)⁻¹X^′(ǫ/σ)/M (5.47) といえます。したがって、

F (M, N − K) = ^(ǫ

′/σ)X(X^′X)⁻¹_R^′_[R(X^′X)⁻¹_R^′]⁻¹_R(X^′X)⁻¹X^′(ǫ/σ)/M (ˆǫ^′/σ)(ˆǫ/σ)/(N − K)

(5.48) になります。

5.4 説明変数の確率化と推定

説明変数の確率化、

X は確率変数である (5.49)

を考えます。その際には、分析方針を考えなければ、議論ができません。

5.4.1 限定的な分析とその望ましさ最も簡単にできる議論である

E[ǫ|X] = 0

V ar[ǫ|X] = σ²^I ^(5.50)

で考えてみましょう。このとき、

Cov[ǫ, xi] = E[(ǫ − E[ǫ])(xⁱ− E[xⁱ^])] ^(5.51)

= EX_{E[ǫ(xi_{− E[x}i_])|X]} (5.52)

= EX_{E[ǫ|X](xi_{− E[x}i_{])} = 0} (5.53) となるので、古典的仮定は満たされます。また、不偏性も

E[ ˆβ] = E[β^∗+ (X^′X)⁻¹X^′ǫ^∗_|X] (5.54)

= β^∗_{+ E{(X}^′X)⁻¹X^′E[ǫ^∗_{|X]} = β}^∗ (5.55) となります。すなわち、(5.50) 式の仮定を用いれば、たとえ X が確率変数であっても、問題は無いといえます。

(7)

5.4.2 一般的な分析とその望ましさ

仮定を厳しくしなかった場合はどうでしょう。当然、

β = βˆ ^∗+ (X^′X)⁻¹X^′ǫ^∗ (5.56)

はどのような値をとるかは期待値をとるだけでは、直ちに計算することができません。ということは不偏性の評価ができなくなってしまいました。そこで、一致性を用いることを考えて、大標本の性質から評価するため、

β = βˆ ^∗+^X

′X N

⁻¹_X′

ǫ^∗ N

(5.57)

を考えて見ましょう。その上で、確率極限 plim ˆβ = β^∗+

plim^X

′X N

⁻¹

plim^X

′ǫ^∗ N

(5.58)

をとってみましょう。このとき、 X^′X

N ⁼ 1 N

N i=1

xix^′_i (5.59)

X^′ǫ^∗ N ⁼

1 N

N i=1

ǫixi (5.60)

であることから、説明変数_x_iと誤差項_ǫ_iに関する平均値を求めていることがわかります。行列やベクトル表記になっているとはいえ、それぞれは確率変数の平均値です。このとき、それぞれの確率変数が期待値を持つことを仮定すれば、確率収束の概念に基づく、大数の弱法則を用いることができて、関係性を明示することができます。

このとき、古典的仮定の中で、

E[xiǫ] = 0 (5.61)

がありました。

基本的な仮定ただし、説明変数の性質は仮定していないので、基本的な仮定として、確率変数である説明変数が独立同一分布(i.i.d.) に従うとして²^{、標本間の関} 係について、

E[(xix^′_i)jk] = ψjk _{⇒ E[x}ix^′_i] = Ψ, Ψは正定号行列 (5.62)

2

説明変数間ではないことに注意

(8)

という仮定をおきましょう。これは説明変数間の積率が有限であることを要請するものです。正定号行列は最小二乗推定量の最初で示した最適性の性質を維持するのに必要な仮定です。当然、

E^X

′X N

= ¹ N

_N

i=1

xix^′_i

= Ψ (5.63)

です。すると、確率極限に関する演算法則と、ヒンチンの定理または大数の強法則から、

β^∗+

plim^X

′X N

⁻¹

plim^X

′ǫ^∗ N

= β^∗+ (plimΨ)⁻¹(o) = β^∗ (5.64)

が得られます。

より一般的な仮定では、説明変数の性質の基本的な仮定よりも一般的な、確率変数である説明変数が独立だが同一ではない分布に従うとして考えて見ましょう。すなわち、説明変数は標本同士の関係が独立であっても、分散や平均はもとより分布さえも異なる標本から取り出されていると考えるのです。このときには_(5.62) 式のようなことは言えなくなります。そこで、

E[(xix^′_i)jk,i] = ψjk,i _{⇒ E[x}ix^′_i] = Ψi, Ψi^{は正定号行列} (5.65) というのを考えて見ましょう。(5.62) 式と (5.65) 式との違いは標本数で期待値 (平均値) が変わるということです。この場合でも、それらの平均値が期待値の平均値に一致するという定理で、定理の弱い順から、チェビシェフの弱大数の法則、コルモゴロフの強大数の法則、マルコフの強大数の法則から、

β^∗+

plim^X

′X N

⁻¹

plim^X

′ǫ^∗ N

= β^∗+ (plimΨ)⁻¹(o) = β^∗ (5.66)

がいえることになります。なお、少なくとも確率収束の概念を使っていますから、一致性がいえていることになります。

時系列への拡張なお、すべての説明変数の条件付期待値が0 を要請する、(5.50) 式はきついことも考えられます。たとえば、時系列分析などでは、

E[ǫtxt+s] = 0, s > 0 (5.67) という条件までは要請せず、代わって、

E[ǫtxt−s] = 0, s > 0 (5.68)

E[ǫt_|xt] = 0 (5.69)

E[ǫ^r_t_|xt] = µr < ∞, r ≥ 2 ^(5.70)

(9)

を考えて見ましょう。この場合には、(5.55) 式は利用できないので、一致性を利用するだけになります。ただ、この場合には標本が独立であるという仮定が崩れてしまいます。その代わり、

1 T − s^E

_T

t=s+1

xtx^′_t−s

= ¹ T − s

T t=s+1

Extx^′_t−s (5.71)

= Q(s) < ∞, s > 0 ^(5.72) を仮定しましょう。なお、期待値の無限和が有限ということは相関関係が発散しないという定常性と時点間の関係がその時間の差だけであるというエルゴード性を仮定していることになります。これがいえれば、

plim^X

′X

N ^{= ˜}^Ψ ^(5.73)

になるので、一致性を保証できます。

5.5 説明変数の確率化と仮説検定

大標本の概念では、標本が膨大になるので一致性から、真の母数が得られ、仮説検定が不要になります。しかし、無限の標本というのは実際的には無理でしょう。その意味では一致性というのは十分な標本を用いてある程度真の母数に近い値を求められるという程度のぎっろんだといえそうです。そうなると仮説検定がやはり必要になります。

でも、仮説検定に有力な仮定として、

• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ²⁾⁾ がありました。この性質を使うと、正規分布や_χ

2

分布などをすぐに利用することができます。しかし、説明変数がどの分布に従うか規定できないときには_β(=^ˆ β^∗+ (X^′X)⁻¹X^′ǫ) などがどのような分布に従うかは特定できなくなってしまいます。このときには通常の仮説検定を何も考えずに行うことはできません。

では、どうしたらよいかというと、次のような方法があります。標本が無限大ほど持っていなくても、十分な標本であれば、分布の性質を決める定理である中心極限定理を使うことができます。中心極限定理は漸近的に正規分布を持つ性質を主張しています。ということは、標本を多くすることで、標本がどのような分布に従うかにかかわらず、平均を利用した漸近的な正規分布として、かなり強力な仮説検定を行えます。

5.5.1 仮説検定の考え方

説明変数が確率化されてしまった状態では、

(10)

• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ²⁾⁾

はそれほど大きな意味を持たなくなります。確かに、ǫ が正規分布に従えば、誤差項についてはこれまでの話を使えますが、先に述べたように、

β = βˆ ^∗+ (X^′X)⁻¹X^′ǫ (5.74)

などは、誤差項と確率化された説明変数の積と和であるため、この分布がどのような確率分布に従うかを規定することができなくなります。でも、

β = βˆ ^∗+ (X^′X)⁻¹X^′ǫ (5.75)

= β^∗+

_N

i=1

xix^′_i

⁻¹ _N

i=1

xiǫi

(5.76)

= β^∗+

1 N

N i=1

xix^′_i

⁻¹ 1 N

N i=1

xiǫi

(5.77)

と考えれば、それぞれの要素が確率変数である行列_x_i_x

′

iと確率変数であるベクトル_x_i_ǫ_iの平均値となっていることがわかります。このとき、確率変数である説明変数がある性質を持っていれば、Lindenberg-Levy または Lindenberg-Feller の中心極限定理が成立します

3

。必要となる性質は、

E[xi,j_{] < ∞} (5.78) E[xi1,j1xi2,j2xi3,j3xi4,j4_{] < ∞} (5.79) であることです。この性質を満たせば、

βˆ _{∼ N(β}^a ^∗, σ²(X^′X)⁻¹) (5.80)

がいえます。なお、このときの分散の推定量は

Asy.V ar[ ˆβ] = s²(X^′X)⁻¹ (5.81) です。

E 漸近理論の補足

E.1 確率化された説明変数に関する条件の検討

確率化された説明変数について、

E[xix^′_i] = Mxx+ µxµ^′_x= Ψ^∗ _{< ∞} (E.1)

3

この際、中心極限定理より一般的な、確率変数間に独立の仮定が必要ないケースも含まれます。それらはWhite(1984) 等を参照してください。

(11)

であることが要請されます。このとき、 Ψ¯N = ¹

N N

i=1

xix^′_i (E.2)

であらわすことにしましょう。この確率変数が一致性

N →∞lim X^′X

N ^{= Ψ} ^(E.3)

を持つには、分散に関する条件 Cov[ ¯ΨN,jk, ¯ΨN,lm] = ψjklm_{− Ψ}

∗ jk^Ψ

∗

lm ^(E.4)

が必要となります。この条件が満たされれば、分散が0 に落ちてゆくため、一致性を満たすことができます。

E.2 Grenander _条件

通常置く、説明変数の条件

N →∞lim X^′X

N ^{= Ψ} ^(E.5)

という、正定号行列に収束すると仮定があります。ただ、この仮定はトレンドや時系列分析において、満たされない場合があります。その際、

G.I _{X, x}_kの各列について_d

2 nk ^{= x}

′

k^xk^{と置けば、}limn→∞d²_nk = +∞ である。したがって、_x_kがゼロのベクトルに退化することはない。

G.II すべての_{i において、lim}_n→∞_x

2 ik^/d

2

nk ^{= 0 である。}

この条件は説明変数ベクトル_x

′

k^xkのなかで、ひとつの観測値が支配的な影響を与えず、標本の増加に従って効果が小さくなってゆく。

G.III _R_nをデータ行列の定数項部分を除いた共分散行列とする。このとき、_lim_n→∞_R_n ₌ C である

この条件はX が列フルランクであることを意味する。

という条件を与えましょう。これをGrenander 条件と呼びます。また、この条件はデータ行列の性質がよい(Well-behaved) の条件を満たすものです。また、この仮定は非常に弱い仮定である為、実証分析ではほぼ十分この条件を満たすといえます。

(12)

E.3 _{非線形関数とデルタ法}

一般的なケースについて考えてみましょう。 C = ^{∂f (β)}

∂β^′ ^(E.6)

スラツキーの定理より、

plim f (β) = f (β^∗) (E.7)

plim C = ^{∂f (β}

∗)

∂β^′^∗ ^{= Γ} ^(E.8)

がいえる。このとき、テイラー展開より、

f (β) = f (β^∗) + Γ(β − β^∗^{) + 高次の項} ^(E.9) N が十分大きければ、右辺の2 項まで考えればよく、

Asy.V ar[f (β)] = Asy.V ar[f (β^∗) + Γ(β − β^∗^)] ^(E.10)

= Asy.V ar[Γ(β − β^∗)] = ΓAsy.V ar[(β − β^∗^)]Γ^′ ^(E.11) になるから、

f (β)_{∼ N}^a

f (β^∗),^σ

2

N^ΓΨ

−1Γ^′

(E.12)

が得られます。

大学院 計量経済分析 Masumi Kawade Site 05daihyo

5 説明変数に関する古典的仮定の緩和と大標本理論

5.1 説明変数の確率変数への拡張 — 大標本理論での望ましさ

5.2 仮定を緩めない場合の漸近的性質

5.3 誤差項の正規性に関する仮定の緩和

5.4 説明変数の確率化と推定

5.5 説明変数の確率化と仮説検定

E 漸近理論の補足

E.1 確率化された説明変数に関する条件の検討

E.2 Grenander 条件

E.3 非線形関数とデルタ法

大学院計量経済分析 Masumi Kawade Site 05daihyo

5.1 説明変数の確率変数への拡張 ^— 大標本理論での望ましさ

E.2 Grenander _条件

E.3 _{非線形関数とデルタ法}