5 説明変数に関する古典的仮定の緩和と大標本理論
5.1 説明変数の確率変数への拡張 — 大標本理論での望ましさ
古典的仮定で非常に強い仮定である
• 説明変数は非確率的である ⇒ 誤差項と説明変数は無相関
• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ2))
について考えて見ましょう。学部での計量経済学はこの仮定は緩められることは 無く、最後までこの仮定を維持し続けました。しかし、この仮定は闇雲につけら れていた仮定ではなく、これを崩すには同時に統計学的な高度な知識を必要とし ます。
これまでは望ましいデータの性質を強制することで、比較的少ないデータでも 推定を行っても良いことを示していました。それはデータ自身に望ましい性質が あるためでした。しかし、データに望ましい性質があるかどうかわからない場合 には利用できるような性質のよりどころを失ってしまうのです。
かといって終わってしまったわけではありません。そうではなく標本を増やす ことで、ある性質を利用しようというのです。すなわち、そこで出てくるのは大 数の法則、中心極限定理です。
5.2 仮定を緩めない場合の漸近的性質
仮定を緩めることなく、単に標本だけ増やしたらどのようなことがおきるので しょう。この際には通常の手続きにのっとって、評価すれば、基本的に何も問題 はありません。ただ、それでは将来的な発展性がないので、代表本という枠組み の中で、評価してみましょう。
推定量β の統計的な構造は
β = β∗+ (X′X)−1X′ǫ (5.1) と書き表せます。このとき、E[β] = β
∗
ですが、それを評価する方法として、標本 を増やした場合(N → ∞) を考えて見ましょう。この際、
N →∞lim (X
′X)−1X′ǫ (5.2)
を評価しなければないのですが、これでは評価できそうにありません。そこで、 β = β∗+ X
′X N
−1 X′ǫ
N (5.3)
と書き直した上で、
N →∞lim
X′X N
−1 X′ǫ
N (5.4)
を評価することを考えて見ましょう。このとき、
N →∞lim X′X
N = Ψ (5.5)
という、正定号行列に収束すると仮定しましょう。すると、
N →∞lim
X′X N
−1 X′ǫ
N = Ψ
−1 lim
N →∞
X′ǫ
N (5.6)
となりますが、
X′ǫ =
x′1ǫ x′2ǫ ... x′Kǫ
(5.7)
であり、 x′kǫ =
N i=1
xi,kǫi (5.8)
です。このとき、古典的仮定より、
E[x′kǫ] = 0 (5.9)
であったので、大数の法則から、 x′kǫ =
∞ i=1
xi,kǫi = 0 (5.10)
が得られます。したがって、
N →∞lim β
∗+ X
′X N
−1 X′ǫ
N = β
∗+ Ψ · 0 = β∗ (5.11) になります。
また、有限標本とは異なり標本を非常に大きくとった際の一致性は、E[X
′ǫ] = 0 であることを利用して、
V ar X
′ǫ N
= E X
′ǫ N
ǫ′X N
(5.12)
= X
′E [ǫǫ′] X
N2 (5.13)
= X′σ2IX = σ
2
N X′X
N (5.14)
となり、
N →∞lim σ2 N
X′X
N = 0 · Ψ = 0 (5.15)
が得られて、確認できます。
5.3 誤差項の正規性に関する仮定の緩和
次に、
• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ2)) だけをはずし、
• 説明変数は非確率的である ⇒ 誤差項と説明変数は無相関 を残しましょう。なお、誤差項に関する積率条件
E[ǫ] = 0 (5.16)
V ar[ǫ] = σ2I (5.17)
は残しておきます。
このとき、(5.18) 式を変形して両辺に√N をかけて、
√N (β − β∗) = X
′X N
−1 X′ǫ
√N (5.18)
を得ます。このとき、確率変数ǫ を持つ X′ǫ
√N =
√NX
′ǫ
N (5.19)
に着目して、(5.14) 式から、 V ar√NX
′ǫ N
= Nσ
2
N X′X
N = σ
2X′X
N (5.20)
が得られます。(5.5) 式が成り立つならば、(5.7) 式および (5.8) 式から、
√1 NX
′ǫ = √1 N
N
i=1xi,1ǫi
N i=1xi,2ǫi
... N
i=1xi,Kǫi
=√N
N−1Ni=1xi,1ǫi
N−1Ni=1xi,2ǫi
...
N−1Ni=1xi,Kǫi
(5.21)
≡ √N
¯ w1
¯ w2
...
¯ wK
=√N ¯w (5.22)
について、有限の期待値と分散を持つことから、Lindenberg-Feller はもとより、分 散や平均の違いも許容するLindenberg-Feller の中心極限定理が利用できます。ま た、すべてのǫiが独立同一分布に従っているという古典的仮定を使えば、
√1 NX
′ǫ−−→ N[0, σd 2Ψ] (5.23)
となりますので、
√N (β − β∗) = X
′X N
−1
X′ǫ
√N
−−→ N[0, σd 2Ψ−1] (5.24)
が得られます
1
。したがって、漸近分布は β ∼ Na
β∗,σ
2
NΨ
−1
(5.25)
といえます。
5.3.1 誤差項の分散を推定する際の条件
有限標本理論では、不偏性が推定に重要な要素であったが、大標本理論では一 致性が重要になる。誤差項の分散について、その一致性の条件を考えてみよう。ま ず、σ
2
の不偏推定量は s2 = ǫ
′Mrǫ
N − K (5.26)
= N N − K
ǫ′ǫ N −
ǫ′X N
X′X N
−1 X′ǫ
N
(5.27)
です。このときN → ∞ ならば、 N
N − K → 1, ǫ′X
N
X′X N
−1 X′ǫ
N → OΨO = O (5.28) になり、
N →∞lim N N − K
ǫ′ǫ N −
ǫ′X N
X′X N
−1 X′ǫ
N
= lim
N →∞
ǫ′ǫ
N = limN →∞ 1 N
N i=1
ǫ2i (5.29)
になるので、 V ar
1 N
N i=1
ǫ2i
= E 1
N N
i=1
ǫ2i − σ∗2
2
(5.30)
について考えると、 E
1 N
N i=1
ǫ2i − σ∗2
2
= 1 N2E
N
i=1
ǫ2i − Nσ∗2
2
(5.31)
= 1 N2E
N
i=1
ǫ2i
2
− σ
∗4
N (5.32)
1N[0 · Ψ−1,Ψ−1σ2ΨΨ−1] → N[0, σ2Ψ−1]
が得られますが、このとき誤差項は独立かつ同一であるという仮定から、 1
N2E N
i=1
ǫ2i
2
− σ
∗4
N = N
i=1E [ǫ 4 i]
N2 − σ∗4
N = E [ǫ4i]
N − σ∗4
N (5.33) となります。このとき、E [ǫ
4
i] < ∞ ならば、 V ar
N →∞lim 1 N
N i=1
ǫ2i
= lim
N →∞
E [ǫ4i] N −
σ∗4 N
= 0 (5.34)
となって、一致性が示されます。
なお、古典的仮定にある正規性の仮定は、不偏推定量の中で、線形モデル以外 でも推定量の効率性を保証する仮定となっています。これを、Rao-Blackwell の定 理といい、Gauss-Markov の定理よりも強い結果を導くことができるのです。
5.3.2 仮説検定の漸近的性質
仮説検定の中で、F 検定に与える影響を評価しましょう。
H0 : Rβ − q = 0 (5.35)
の検定統計量は
F (M, N − K) = (R ˆβ − q)
′[σ2R(X′X)−1R′]−1(R ˆβ − q)/M
(ˆǫ′ˆǫ/σ2)/(N − K) (5.36) であり、仮説が真であれば、
R ˆβ − q = R(β∗+ (X′X)−1X′ǫ) − q = R(X′X)−1X′ǫ (5.37) なので、(5.23) 式より、
X′ǫ −−→ N[0, Nσd 2Ψ] (5.38) となって、漸近的に正規分布に従うことがわかります。ところで、
V ar[R(X′X)−1X′(ǫ/σ)] = 1
σ2E[R(X
′X)−1X′ǫǫ′X(X′X)−1R′] (5.39)
= 1 σ2R(X
′X)−1X′σ2I′X(X′X)−1R′ (5.40)
= R(X′X)−1R′ (5.41) となるので、(ǫ
′/σ)X(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1X′(ǫ/σ) についてワルド 原理が適用でき、
rank[X(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1X′] (5.42)
= tr[X(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1X′] (5.43)
= tr[[R(X′X)−1R′]−1R(X′X)−1X′X(X′X)−1R′] (5.44)
= tr[[R(X′X)−1R′]−1R(X′X)−1R′
M ×M
] (5.45)
= tr[I] = M (5.46)
となるので、
χ2(M) = (ǫ′/σ)X(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1X′(ǫ/σ)/M (5.47) といえます。したがって、
F (M, N − K) = (ǫ
′/σ)X(X′X)−1R′[R(X′X)−1R′]−1R(X′X)−1X′(ǫ/σ)/M (ˆǫ′/σ)(ˆǫ/σ)/(N − K)
(5.48) になります。
5.4 説明変数の確率化と推定
説明変数の確率化、
X は確率変数である (5.49)
を考えます。その際には、分析方針を考えなければ、議論ができません。
5.4.1 限定的な分析とその望ましさ 最も簡単にできる議論である
E[ǫ|X] = 0
V ar[ǫ|X] = σ2I (5.50)
で考えてみましょう。このとき、
Cov[ǫ, xi] = E[(ǫ − E[ǫ])(xi− E[xi])] (5.51)
= EX{E[ǫ(xi− E[xi])|X]} (5.52)
= EX{E[ǫ|X](xi− E[xi])} = 0 (5.53) となるので、古典的仮定は満たされます。また、不偏性も
E[ ˆβ] = E[β∗+ (X′X)−1X′ǫ∗|X] (5.54)
= β∗+ E{(X′X)−1X′E[ǫ∗|X]} = β∗ (5.55) となります。すなわち、(5.50) 式の仮定を用いれば、たとえ X が確率変数であっ ても、問題は無いといえます。
5.4.2 一般的な分析とその望ましさ
仮定を厳しくしなかった場合はどうでしょう。当然、
β = βˆ ∗+ (X′X)−1X′ǫ∗ (5.56)
はどのような値をとるかは期待値をとるだけでは、直ちに計算することができま せん。ということは不偏性の評価ができなくなってしまいました。そこで、一致 性を用いることを考えて、大標本の性質から評価するため、
β = βˆ ∗+ X
′X N
−1 X′
ǫ∗ N
(5.57)
を考えて見ましょう。その上で、確率極限 plim ˆβ = β∗+
plimX
′X N
−1
plimX
′ǫ∗ N
(5.58)
をとってみましょう。このとき、 X′X
N = 1 N
N i=1
xix′i (5.59)
X′ǫ∗ N =
1 N
N i=1
ǫixi (5.60)
であることから、説明変数xiと誤差項ǫiに関する平均値を求めていることがわか ります。行列やベクトル表記になっているとはいえ、それぞれは確率変数の平均 値です。このとき、それぞれの確率変数が期待値を持つことを仮定すれば、確率 収束の概念に基づく、大数の弱法則を用いることができて、関係性を明示するこ とができます。
このとき、古典的仮定の中で、
E[xiǫ] = 0 (5.61)
がありました。
基本的な仮定 ただし、説明変数の性質は仮定していないので、基本的な仮定と して、確率変数である説明変数が独立同一分布(i.i.d.) に従うとして2、標本間の関 係について、
E[(xix′i)jk] = ψjk ⇒ E[xix′i] = Ψ, Ψは正定号行列 (5.62)
2
説明変数間ではないことに注意
という仮定をおきましょう。これは説明変数間の積率が有限であることを要請す るものです。正定号行列は最小二乗推定量の最初で示した最適性の性質を維持す るのに必要な仮定です。当然、
E X
′X N
= 1 N
N
i=1
xix′i
= Ψ (5.63)
です。すると、確率極限に関する演算法則と、ヒンチンの定理または大数の強法 則から、
β∗+
plimX
′X N
−1
plimX
′ǫ∗ N
= β∗+ (plimΨ)−1(o) = β∗ (5.64)
が得られます。
より一般的な仮定 では、説明変数の性質の基本的な仮定よりも一般的な、確率 変数である説明変数が独立だが同一ではない分布に従うとして考えて見ましょう。 すなわち、説明変数は標本同士の関係が独立であっても、分散や平均はもとより 分布さえも異なる標本から取り出されていると考えるのです。このときには(5.62) 式のようなことは言えなくなります。そこで、
E[(xix′i)jk,i] = ψjk,i ⇒ E[xix′i] = Ψi, Ψiは正定号行列 (5.65) というのを考えて見ましょう。(5.62) 式と (5.65) 式との違いは標本数で期待値 (平 均値) が変わるということです。この場合でも、それらの平均値が期待値の平均値 に一致するという定理で、定理の弱い順から、チェビシェフの弱大数の法則、コ ルモゴロフの強大数の法則、マルコフの強大数の法則から、
β∗+
plimX
′X N
−1
plimX
′ǫ∗ N
= β∗+ (plimΨ)−1(o) = β∗ (5.66)
がいえることになります。なお、少なくとも確率収束の概念を使っていますから、 一致性がいえていることになります。
時系列への拡張 なお、すべての説明変数の条件付期待値が0 を要請する、(5.50) 式はきついことも考えられます。たとえば、時系列分析などでは、
E[ǫtxt+s] = 0, s > 0 (5.67) という条件までは要請せず、代わって、
E[ǫtxt−s] = 0, s > 0 (5.68)
E[ǫt|xt] = 0 (5.69)
E[ǫrt|xt] = µr < ∞, r ≥ 2 (5.70)
を考えて見ましょう。この場合には、(5.55) 式は利用できないので、一致性を利用 するだけになります。ただ、この場合には標本が独立であるという仮定が崩れて しまいます。その代わり、
1 T − sE
T
t=s+1
xtx′t−s
= 1 T − s
T t=s+1
Extx′t−s (5.71)
= Q(s) < ∞, s > 0 (5.72) を仮定しましょう。なお、期待値の無限和が有限ということは相関関係が発散し ないという定常性と時点間の関係がその時間の差だけであるというエルゴード性 を仮定していることになります。これがいえれば、
plimX
′X
N = ˜Ψ (5.73)
になるので、一致性を保証できます。
5.5 説明変数の確率化と仮説検定
大標本の概念では、標本が膨大になるので一致性から、真の母数が得られ、仮説 検定が不要になります。しかし、無限の標本というのは実際的には無理でしょう。 その意味では一致性というのは十分な標本を用いてある程度真の母数に近い値を 求められるという程度のぎっろんだといえそうです。そうなると仮説検定がやは り必要になります。
でも、仮説検定に有力な仮定として、
• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ2)) がありました。この性質を使うと、正規分布やχ
2
分布などをすぐに利用するこ とができます。しかし、説明変数がどの分布に従うか規定できないときにはβ(=ˆ β∗+ (X′X)−1X′ǫ) などがどのような分布に従うかは特定できなくなってしまいま す。このときには通常の仮説検定を何も考えずに行うことはできません。
では、どうしたらよいかというと、次のような方法があります。標本が無限大 ほど持っていなくても、十分な標本であれば、分布の性質を決める定理である中 心極限定理を使うことができます。中心極限定理は漸近的に正規分布を持つ性質 を主張しています。ということは、標本を多くすることで、標本がどのような分 布に従うかにかかわらず、平均を利用した漸近的な正規分布として、かなり強力 な仮説検定を行えます。
5.5.1 仮説検定の考え方
説明変数が確率化されてしまった状態では、
• 真の誤差項は正規分布に従う (ǫ ∼ N(0, σ2))
はそれほど大きな意味を持たなくなります。確かに、ǫ が正規分布に従えば、誤差 項についてはこれまでの話を使えますが、先に述べたように、
β = βˆ ∗+ (X′X)−1X′ǫ (5.74)
などは、誤差項と確率化された説明変数の積と和であるため、この分布がどのよ うな確率分布に従うかを規定することができなくなります。でも、
β = βˆ ∗+ (X′X)−1X′ǫ (5.75)
= β∗+
N
i=1
xix′i
−1 N
i=1
xiǫi
(5.76)
= β∗+
1 N
N i=1
xix′i
−1 1 N
N i=1
xiǫi
(5.77)
と考えれば、それぞれの要素が確率変数である行列xix
′
iと確率変数であるベクト ルxiǫiの平均値となっていることがわかります。このとき、確率変数である説明 変数がある性質を持っていれば、Lindenberg-Levy または Lindenberg-Feller の中 心極限定理が成立します
3
。必要となる性質は、
E[xi,j] < ∞ (5.78) E[xi1,j1xi2,j2xi3,j3xi4,j4] < ∞ (5.79) であることです。この性質を満たせば、
βˆ ∼ N(βa ∗, σ2(X′X)−1) (5.80)
がいえます。なお、このときの分散の推定量は
Asy.V ar[ ˆβ] = s2(X′X)−1 (5.81) です。
E 漸近理論の補足
E.1 確率化された説明変数に関する条件の検討
確率化された説明変数について、
E[xix′i] = Mxx+ µxµ′x= Ψ∗ < ∞ (E.1)
3
この際、中心極限定理より一般的な、確率変数間に独立の仮定が必要ないケースも含まれます。 それらはWhite(1984) 等を参照してください。
であることが要請されます。このとき、 Ψ¯N = 1
N N
i=1
xix′i (E.2)
であらわすことにしましょう。この確率変数が一致性
N →∞lim X′X
N = Ψ (E.3)
を持つには、分散に関する条件 Cov[ ¯ΨN,jk, ¯ΨN,lm] = ψjklm− Ψ
∗ jkΨ
∗
lm (E.4)
が必要となります。この条件が満たされれば、分散が0 に落ちてゆくため、一致 性を満たすことができます。
E.2 Grenander 条件
通常置く、説明変数の条件
N →∞lim X′X
N = Ψ (E.5)
という、正定号行列に収束すると仮定があります。ただ、この仮定はトレンドや 時系列分析において、満たされない場合があります。その際、
G.I X, xkの各列についてd
2 nk = x
′
kxkと置けば、limn→∞d2nk = +∞ である。した がって、xkがゼロのベクトルに退化することはない。
G.II すべてのi において、limn→∞x
2 ik/d
2
nk = 0 である。
この条件は説明変数ベクトルx
′
kxkのなかで、ひとつの観測値が支配的な影 響を与えず、標本の増加に従って効果が小さくなってゆく。
G.III Rnをデータ行列の定数項部分を除いた共分散行列とする。このとき、limn→∞Rn = C である
この条件はX が列フルランクであることを意味する。
という条件を与えましょう。これをGrenander 条件と呼びます。また、この条件 はデータ行列の性質がよい(Well-behaved) の条件を満たすものです。また、この 仮定は非常に弱い仮定である為、実証分析ではほぼ十分この条件を満たすといえ ます。
E.3 非線形関数とデルタ法
一般的なケースについて考えてみましょう。 C = ∂f (β)
∂β′ (E.6)
スラツキーの定理より、
plim f (β) = f (β∗) (E.7)
plim C = ∂f (β
∗)
∂β′∗ = Γ (E.8)
がいえる。このとき、テイラー展開より、
f (β) = f (β∗) + Γ(β − β∗) + 高次の項 (E.9) N が十分大きければ、右辺の2 項まで考えればよく、
Asy.V ar[f (β)] = Asy.V ar[f (β∗) + Γ(β − β∗)] (E.10)
= Asy.V ar[Γ(β − β∗)] = ΓAsy.V ar[(β − β∗)]Γ′ (E.11) になるから、
f (β)∼ Na
f (β∗),σ
2
NΓΨ
−1Γ′
(E.12)
が得られます。