静学的パネルデータモデル教育 OKUI, Ryo

(1)

平成26年度ミクロ計量経済学講義ノート¹ 静学的パネルデータモデル

このノートでは、線形な静学的パネルデータ分析の手法を紹介する。パネルデータは、観測が難しい個人間の異質性を制御することが可能であり、近年のミクロ計量分析では、広くつかわれている。なお、動学モデルや非線形モデルは別のノートで扱う。

1.1 静学パネルデータモデル

パネルデータとして、(yit, xit), i = 1, . . . N かつt = 1, . . . T を観測する状況を考える。iは個人を表し、tは時間を表すとする。ここでは、短期間のパネルデータを考える。つまり、 T固定で、_{N → ∞}となる漸近理論を考える。また、データは、iに関しては無作為標本となっているとする。

yitとxitの間には線形関係があると仮定する。

yit= β^′xit+ uit (1)

ここで、観測できないu_itは次の二つの項から成り立っているとする。 u_it = η_i

観測できない個人間の異質性を表現|{z}

+ ϵ_it

いわゆる誤差項|{z}

. (2)

時間を通じて一定なη_iは、x_itと相関していてもよい。したがって、u_itとx_itはη_iを通じて相関している可能性を排除しない。誤差項と説明変数に相関があると、OLS推定量は、バイアスを持ち、一致性もない。

• このようなモデルを考える目的は、欠落変数によるバイアスが、時間を通じて一定なものによって、引き起こされているときに、パネルデータがあれば、そのようなバイアスを回避できるということを、示すことである。固定効果は、そのような、時間を通じて一定な、観測できない、x_itと相関しているかもしれないものを、表現している。強外生の仮定^(SE)

E(ϵ_it_|x_i, η_i) = 0, (3)

xi = (xi1, . . . , xiT)^′ としている。ϵitは任意の時間におけるxitと無相関であると仮定している。この仮定を満たすモデルを静学的パネルデータモデルという。

• 強外生の仮定を満たさないモデルで重要なものとしては、先決変数を含むモデルがあげられる。先決変数とは、E(ϵ_it_|x_i1, . . . x_it, η_i) = 0の仮定を満たすx_itである。強外生の場合と異なり、ϵitは将来のxitとは相関をしている可能性がある。たとえば、y_i,t−1 がxitに含まれる場合が相当する。先決変数を含むモデルは動学モデルと呼ばれる。

1.2 _{固定効果推定量}

推定量は次のステップで得ることができる。 1. η_iを取り除く。

2. η_iを取り除いたデータに対して、回帰をかける。

(2)

固定効果ηiは、各個人ごとの平均を計算し、それを各変数から引くことで、消去できる。まず、各個人の時間を通じた平均を考える。

¯

yi = β^′x¯i+ ηi+ ¯ϵi. (4) この式を元の式から引くことによって、ηiを消去することができる。

y_it_{− ¯y}_i= β^′(x_it_{− ¯x}_i) + ϵ_it_{− ¯ϵ}_i (5) 上の式を次のように書く。

¨

yit= β^′x¨it+ ¨ϵit (6) 強外生の仮定のもとで、上の式の回帰変数と誤差項は無相関であり、回帰をまわすと、

N → ∞^で^T が固定されているときに一致性のある推定量を得ることが出来る。推定量は

β =ˆ ( _N

∑

i=1

∑T t=1

¨ x_itx¨^′_it

)_{−1 N}

∑

i=1

∑T t=1

¨

x_ity¨_it (7)

と書ける。この推定量には、いくつかの名前がある。 1. Fixed Effects Estimator（固定効果推定量） 2. Within Group Estimator

3. Least squares dummy variables 仮定

• E(ϵ^it|xⁱ¹, . . . , xiT, ηi) = 0

• (xi1, . . . , x_iT, ϵ_i1, . . . , ϵ_iT), i = 1, . . . , Nは個人間について、i.i.d.である。

• (x^′it^{, ϵ}^it⁾ は少なくとも４次までのモーメントを持つ。

• 多重共線性の問題は存在しない。

漸近的性質以上の仮定の下で、固定効果推定量は、一致性をもち、漸近正規である。一致性の証明は省略する。

固定効果推定量の漸近分布を導出する。まず、

√N ( ˆ_{β − β) =} (1

N

∑N i=1

∑T t=1

¨ x_itx¨^′_it

)−1

√1 N

∑N i=1

∑T t=1

¨

x_itϵ¨_it (8)

= (1

N

∑N i=1

∑T t=1

¨ xitx¨^′_it

)−1

√1 N

∑N i=1

∑T t=1

¨

xitϵit (9)

という展開する。なお、ここでは、^∑^T_t=1x¨it¨ϵit=^∑^T_t=1x¨itϵitという性質を使った。通常の漸近理論を使って、

1 N

∑N i=1

∑T t=1

¨

x_itx¨^′_it_→_p E ( _T

∑

t=1

¨ x_itx¨^′_it

)

(10)

(3)

ならびに、

√1 N

∑N i=1

∑T t=1

¨

x_itϵ_it_→_dN (

0, E ( _T

∑

t=1

∑T s=1

ϵ_itϵ_isx¨_itx¨^′_is ))

(11) は証明できる。

したがって、固定効果推定量の漸近分布は、

√N ( ˆ_{β − β) →}_dN (0, VF E) . (12) であり、漸近分散は、

VF E = (

E ( _T

∑

t=1

¨ xitx¨^′_it

))−1

E ( _T

∑

t=1

∑T s=1

ϵitϵisx¨itx¨^′_is ) (

E ( _T

∑

t=1

¨ xitx¨^′_it

))−1

(13)

である。

• ^{強外生の仮定は、}^x^¨ît^とû^¨ît^{あるいは、}^¨^ϵîtを無相関にするための十分条件である。単に x_itとϵ_itが無相関であると言う仮定だけでは、不十分である。なぜなら、x¨_itには過去も未来もすべての時点でのxitを含み、¨ϵitも同様に過去と未来のすべての時点でのϵit

を含んでいるからである。

• 多重共線性の仮定は、固定効果を取り除いたデータに対しておかれている。従って、固定効果変換をすることで、0になってしまう、時間を通じて一定な変数は、その係数を推定することはできない。もし、時間を通じて一定な変数に興味がある場合には、別の方法を使用する必要がある。

1.3 固定効果推定量の標準誤差

VF Eの推定を考える。VF Eは俗にいうサンドイッチ型をとり、二つの部分からなる。まず、 1

N

∑N i=1

∑T t=1

¨

x_itx¨^′_it_→_p E ( _T

∑

t=1

¨ x_itx¨^′_it

)

(14)

なので、E^(∑^T_t=1x¨itx¨^′_it⁾は簡単に推定できる。次に、

E ( _T

∑

t=1

∑T s=1

ϵ_itϵ_isx¨_itx¨^′_is )

(15) の推定の問題を考える。まず、残差項をとる。

ˆ¨

ϵ_it= ¨y_it_{− ˆ}β^′x¨_it (16) そして、誤差項の代わりに、残差項を使って、漸近分散の推定をする。

1 N

∑N i=1

∑T t=1

∑T s=1

ˆ¨

ϵit^ˆ¨ϵisx¨itx¨^′_is. (17)

一致性の証明はそれほど難しくない。 1

N

∑N i=1

∑T t=1

∑T s=1

ˆ¨ϵitˆ¨ϵisx¨itx¨^′_is_→p E ( _T

∑

t=1

∑T s=1

ϵitϵisx¨itx¨^′_is )

. (18)

(4)

• ^{この推定量は}Cluster-RobustとかHeteroskedasticity and Autocorrelation Constent と呼ばれる。(Arellano (1987))

• その名の通り、この推定量は、各個人の時系列に系列相関があっても、分散不均一でも、一致性を持つ。

• 多くの計量用パッケージで、この漸近分散を基にした、標準誤差や、検定統計量を計算することが可能。

• 通常は、この漸近分散推定量を使うべき。なぜ、Cluster-Robust_{を使うべきか}

• 分散不均一は、経済データの分析では、常に気にする必要がある。

• また、系列相関も、近年、重要な問題であると指摘されている。(Bertrand, Duflo and Mullainathan (2004))

系列相関がない場合系列相関がない場合は、Cluster robust推定量よりも精度の高い分散推定量を得ることができるように思うやもしれないが、話は意外と単純ではない。もし系列相関がないなら、

E ( _T

∑

t=1

∑T s=1

ϵ_itϵ_isx¨_itx¨^′_is )

= E ( _T

∑

t=1

ϵ²_itx¨_itx¨^′_it )

(19)

となる。これを単純に

1 N

∑N i=1

∑T t=1

ˆ¨

ϵ²_itx¨itx¨^′_it (20)

として推定すると問題がおこる。注意すべきことに、この推定量は、多くの計量パッケージで計算できてしまう。

問題 Stock and Watson (2008)は、N が無限にいき、Tが固定されているという漸近理論の元では、

1 N

∑N i=1

∑T t=1

ˆ¨

ϵ²_itx¨itx¨^′_it (21)

は、一致性を持たないことを証明した。一致性がない原因はηiを取り除く固定効果変換にある。固定効果変換は、実質的には、η_tを推定することで、その影響を取り除いている。しかし、η_iの推定に使用可能な観測値はTしかなく、Tは小さい状況を考えているので、η_iの推定はうまくいかない。

• T が無限に行くなら、一致性を持つ。

• Stock and Watson (2008)では、一致性を持つように、バイアス修正する方法を紹介している。

(5)

なぜ一致性を持たないのかを、理解するために、βの推定誤差がない場合の、漸近分散推定量の、期待値を計算する。まず、i.i.d.の仮定と、¨ϵitの定義により、

E ( 1

N

∑N i=1

∑T t=1

¨ ϵ²_itx¨itx¨^′_it

)

= E ( _T

∑

t=1

¨ ϵ²_itx¨itx¨^′_it

)

(22)

= E





∑T t=1

( ϵ_it₋ ¹

T

∑T s=1

ϵ_is )²

¨ x_itx¨^′_it



 (23)

となる。次に２次の項を展開して、系列相関がないという仮定を使うと、

E





∑T t=1

( ϵ_it₋ ¹

T

∑T s=1

ϵ_is )²

¨ x_itx¨^′_it



 (24)

= E ( _T

∑

t=1

ϵ²_itx¨itx¨^′_it )

−_T²^E ( _T

∑

t=1

∑T s=1

ϵitϵisx¨itx¨^′_it )

(25)

+ ¹ T²^E

( _T

∑

t=1

∑T s=1

∑T r=1

ϵ_isϵ_irx¨_itx¨^′_it )

(26)

= ^{T − 2} T ^E

( _T

∑

t=1

ϵ²_itx¨_itx¨^′_it )

+ ¹ T²^E

( _T

∑

t=1

∑T s=1

ϵ²_isx¨_itx¨^′_it )

(27)

となる。まず、1/T のオーダーで、

2 T^E

( _T

∑

t=1

ϵ²_itx¨itx¨^′_it )

(28)

の分の、バイアスがでる。この部分のバイアスは簡単に修正できるが、その大きさは、無視できない。

また、

E ( _T

∑

t=1

∑T s=1

ϵ²_isx¨itx¨^′_it )

= E ( _T

∑

s=1

ϵ²_is

∑T t=1

¨ xitx¨^′_it

)

(29)

という推定が必要となる項も出てくる。

• 計算からわかるように、バイアスをもたらす原因は、¨ϵitには、¯ϵiが入っていることである。つまり、固定効果を取り除くことによって生じる誤差が、問題となっている。

• ^{これは、いわゆる、}Incidental Parameter Problem (Neyman and Scott (1948))の一例である。

T_{が大きい場合} Cluster-robustな漸近分散推定量は系列相関について、何の仮定もしていない。したがって、もし時系列が長い場合には、定常性を仮定しないため、この推定量がどのような振る舞いをするかは、それほど単純な問題ではない。

ここでは、Hansen (2007)の論文の結果を簡単に紹介する。Hansen (2007)によると

• ^もし、N, T → ∞なら、この漸近分散推定量は一致性を持つ。

(6)

• ただ、収束の速度は遅く、^√Nでしかない。もっと速い収束がほしい場合は、他の推定量を使う必要がある。

もし、T は無限に行くものの、N が固定されているなら、

• この漸近分散推定量は、一致性を持たず、ある乱数に収束する。

• しかし、この漸近分散推定量を基にした、t統計量は、^√_{N −1}^N t_{N −1}分布に従い、Wald 統計量は、 _{N −q}^{N q} F_{q,N −q}分布(qは制約の数)に従う。

• ^なお、^√_{N −1}^N ^tN −1→d^{N (0, 1)}であり、_{N −q}^{N q} F_{q,N −q}_→_d χ²_qなので、t分布や、F 分布を使って、統計的推測をすれば、いかなる状況でも、うまくいく。

漸近分散推定量については、以下の論文も参考になる。

• Kezdi (2004)

• Peterson (2009) 1.4 _時間効果

時間を通じて変化するが個人間では同じ影響を与える観測できない変数も、パネルデータを用いることで、その影響を取り除くことができる。まず、回帰モデルは

yit= x^′_itβ + µi+ ηt+ wit (30) である。µiは個人固定効果である。さらにηtという、時間とともに変化するが個人間では同じである変数も入っている。このη_tを時間効果(time effect)、あるいは時間固定効果(time fixed effect)と呼ぶ。

個人効果と時間効果の両者が存在しても、ある種の変数変換を用いることでこれら変数を除去することできる。y¨_it= y_it_{− ¯y}_i_{− ¯y}_t+ ¯yとして変数変換を行う。ただし、y¯_t=^∑^N_i=1y_it/N、

¯

y =^∑^N_i=1^∑^T_t=1y_it/(N T )である。すると、変換後の変数は

¨

y_it = ¨x^′_itβ + ¨w_it (31) をいうモデルを満たす。変換後の回帰式からは、µ_iもη_tもなくなっている。E(¨x_itw¨_it) = 0 と仮定すると、

βˆ_{F E2}= ( _N

∑

i=1

∑T t=1

¨ x_itx¨^′_it

)_{−1 N}

∑

i=1

∑T t=1

¨

x_ity¨_it = β + ( _N

∑

i=1

∑T t=1

¨ x_itx¨^′_it

)_{−1 N}

∑

i=1

∑T t=1

¨

x_itw¨_it (32)

という推定量は一致性をもつ。

1.5 _{交互作用効果}

個人効果と時間効果が、先ほどのように加法的に入っているのではなく、交互作用をもって入っている場合も考慮することができる。これは、いわゆる因子モデルの一例である。モデルは

yit= x^′_itβ + λ^′_iFt+ wit (33) である。λiが個人効果であるが、交互作用効果モデルでは、因子負荷(factor loading)とよばれる。Ftが時間効果である。これも交互作用効果も出るでは、共通因子(factor)と呼ばれ

(7)

る。加法モデルでは、一般性を失わずに個人効果や時間効果はスカラーであると仮定できたが、交互作用効果モデルでは、個人効果の数によってモデルの意味合いが違ってくる。これらの用語は因子モデルから来ている。

このモデルでもλiを除去する変換方法は考案されている。Holtz-Eakin, Newey and Rosen (1988)、Ahn, Lee and Schmidt (2013)やHayakawa (2012)などを参照。なお、この変換ではF_tは除去できない。しかしTが小さい場合を考えるためF_tの数も少なく、そのことは問題とならない。

まず、共通因子の数が一つの場合にモデルからλiを除去する変換を紹介する。モデルは、 yit= x^′_itβ + λiFt+ wit (34) である。λiもFtもスカラーであると仮定する。(34)の両辺から、ϕt+1 = Ft+1/Ftを掛けると、

ϕt+1yit= ϕt+1x^′_itβ + λiϕt+1Ft+ ϕt+1wit= ϕt+1x^′_itβ + λiFt+1+ ϕt+1wit (35)

となる。yit_{− ϕ}ty_i,t−1を計算してまとめると、

yit= ϕty_i,t−1+ x^′_it_{β − ϕ}tx^′_i,t−1β + wit_{− ϕ}tw_i,t−1 (36) となる。変換後のモデルからは、λ_iが消えている。ϕ_tは残るが、これはパラメータとして扱い、推定する。

推定に関しての注意点

• F^t^{で割るので、}^F^t^{= 0}^となる^tがある場合には問題が起こる。

• ^{説明変数に}^yi,t−1があり、これは誤差項のwit_{− ϕ}tw_i,t−1は相関している。そのため、最小二乗法は使えない。動学パネルデータモデルの推定のように、操作変数推定をする必要が出てくる。

• xi,t−1^の係数は^ϕtβであり、ここからも、βに関する情報を得ることができる。そのた

め、非線形な関係式を解くことで、さらに効率的な推定量を得ることが可能である。共通因子の数が複数ある場合にも同様の変換を拡張できる。共通因子の数が二つの場合、モデルは

y_it= β^′x_it+ λ_i1F_t1+ λ_i2F_t2+ w_it (37) と表される。なお、λ_i1、λ_i2、F_t1、F_t2は全てスカラーである。まずλ_i1を除去する。ϕ_t+1,1= Ft+1,1/Ft1とすると、

y_it= ϕ_t1y_i,t−1+ β^′x_it_{− ϕ}_t1β^′x_i,t−1+ λ_i2(F_t2_{− ϕ}_t1F_t−1,2) + w_it_{− ϕ}_t1w_i,t−1 (38) と表すことができる。これは、F_t2_{− ϕ}_t1F_t−1,2を共通因子とする、共通因子が一つのモデルとなる。したがって、同じ変換をもう一度すれば、λi2を消すことができる。共通因子の数が３以上の場合も、同様の変換を繰り返せばよい。

1.6 _{変量効果モデル}

変量効果モデルは次の仮定をおく。

E(η_i_|x_i) = 0. (39)

この仮定のもとでは、通常のOLSによって、一致推定が可能になる。

(8)

• ^{変量効果モデルの欠点}^: 変量効果の仮定は強すぎるかもしれない。個人間の異質性に起因する欠落変数のバイアスはないと仮定しているため。

• ^{固定効果モデルの欠点}^: 時間を通じて一定な変数の効果を推定できない。

• 一般に変量効果モデルのほうが有効な推定量を得ることができる。変量効果推定量次の表記を使う。

y_i=



 yi1

. . . yiT



, x_i=



 x^′_i1 . . . x^′_iT



, u_i =



 ui1

. . . uiT



, (40)

次の仮定を置く。(Balestra-Nerloveモデルと呼ばれるものである。)

var(ϵ_i_|x_i) = σ_ϵ²I_T (41)

var(η_i_|x_i) = σ_η² (42)

var(ui_|xi) = σ_ϵ²IT + σ_η²_{J ≡ ω,} (43) ここで、Jは_{T × T} の1の行列である。

変量効果推定量はGLS推定量として定義し、それは、

βˆRE = ( _N

∑

i=1

x^′_iω⁻¹xi

)_{−1 N}

∑

i=1

x^′_iω⁻¹yi (44) となる。ωがわからない場合は、推定量ωˆを使用して、FGLS推定量として、変量効果推定量を定めることができる。

βˆ_RE = ( _N

∑

i=1

x^′_iωˆ⁻¹x_i )_{−1 N}

∑

i=1

x^′_iωˆ⁻¹y_i (45)

なお、変量効果推定量の一致性のためには、強外生の仮定は必要である。なぜなら、x^′_iωˆ⁻¹ϵ_i の期待値が0出ないといけないため。通常のOLSでは必要がない。

ちなみに、σ²_ϵ と、σ_η²は次のように推定することができる。まず、固定効果推定(OLS推定量を使用する場合もある)をして、

ˆ

σ_ϵ²= ¹ N (T − 1) − k

∑n i=1

∑T t=1

ˆ¨ ϵ²_it

|{z}

FE_の残差

. (46)

として、推定する。次に、

¯

yi = β ¯xi+ ¯ui. (47) を考えると、

var(¯u_i) = σ²_η+ ¹ T^σ

2

ϵ^, ⁽⁴⁸⁾

であり、var(¯ui)は ¹_n^∑ⁿ_i=1u¯²_i で推定できるので、

ˆ

σ²_η = \var(¯ui_{) −}

1 T^σ^ˆ

2

ϵ^. ⁽⁴⁹⁾

としてして推定できる。

(9)

変量効果と固定効果どちらを使用するべきか？経済理論から、変量効果の仮定はあり得ないことも多い。

また、Hausman検定をすることもできる。推定量 /モデル変量効果固定効果

変量効果一致、有効不一致固定効果一致、有効でない一致

∆ = ˆβF E_{− ˆ}βREとする。変量効果モデルの仮定のもとで、

var(∆) = var( ˆβ_{F E}_{) − var( ˆ}β_RE). (50) つまり、変量効果モデルが正しいという仮定の下で、

∆^′_{{ \}_var(∆)}⁻¹_{∆ →}dχ²_k, (51) となる。

• ^しかし、Guggenberger (2010)の研究によると、Hausman検定を行い、もし棄却できないなら変量効果推定量を使用することは、推奨されない。問題は、Hausman検定はあまり検出力が高くないため、誤って、変量効果モデルが正しいとしてしまうことがよくあり、その場合、変量効果推定量をもとにした検定は、検定の水準を正しく定めることができなくなるということである。

References

[1] S. C. Ahn, Y. H. Lee, and P. Schmidt. Panal data models with multiple time-varying individual effects. Journal of Econometrics, 174:1–14, 2013.

[2] M. Arellano. Computing robust standard errors for within-groups estimators. Oxford Bulletin of Economics and Statistics, 49(4):431–434, 1987.

[3] M. Bertrand, E. Duflo, and S. Mullainathan. How much should we trust differences-in- differences estimates. The Quarterly Journal of Economics, 119:249–275, 2004.

[4] P. Guggenberger. The impact of a hausman pretest on the size of a hypothesis test: The panel data case. Journal of Econometrics, 156:337–343, 2010.

[5] C. B. Hansen. Asymptotic properties of a robust variance matrix estimator for panel data when T is large. Journal of Econometrics, 141:597–620, 2007.

[6] K. Hayakawa. GMM estimation of short dynamic panel data models with interactive fixed effects. Journal of Japan Statistical Society, 42(2):109–123, 2012.

[7] D. Holtz-Eakin, W. Newey, and H. S. Rosen. Estimating vector autoregressions with panel data. Econometrica, 56(6):1371–1395, 1988.

[8] G. K´ezdi. Robust standard error estimation in fixed-effects panel models. Hangarian Statistical Review, 9:95–116, 2004.

[9] J. Neyman and E. L. Scott. Consistent estimates based on partially consistent observations. Econometrica, 16:1–32, 1948.

[10] M. A. Peterson. Estimating standard errors in finance panel data sets: Comparing approaches. Review of Financial Studies, 22(1):435–480, 2009.

[11] J. H. Stock and M. W. Watson. Heteroskedasticity-robust standard errors for fixed effects panel data regression. Econometrica, 76(1):155–174, 2008.

静学的パネルデータモデル 教育 OKUI, Ryo

References

静学的パネルデータモデル教育 OKUI, Ryo