平成26年度 ミクロ計量経済学 講義ノート2 頑健な標準誤差
このノートでは、分散不均一性や観測値間の相関に頑健な標準誤差の求め方を議論する。 経済学での実証分析では、通常は誤差項の分散不均一性を考慮する必要がある。また、無作 為標本とはいえないデータを扱うことも多いので、観測値間の相関構造を考慮する方法の 知識も必要となる。たとえば、パネルデータでは、個人間ではi.i.d.を仮定できる場合でも 同一個人の時系列に関しては相関構造があると考えるのが自然である。また、貿易の実証研 究では、国ごと、産業ごと、時系列などといった3種類のクラスター構造を考慮する場合も ある。このノートでは、ミクロ計量で重要となる、分散不均一に頑健な標準誤差と、クラス ター構造による相関に頑健な標準誤差の議論を行う。なお、ミクロ計量の授業であるため、 いわゆる時系列のHAC標準誤差については、このノートでは議論しない。
2.1 設定
このノートでは、一般的な標本平均の分散を推定する方法を議論する。ここで紹介するの は、推定量の分散がいわゆるサンドイッチ形式をとる場合の、俗にいう「肉」部分の推定に 関する理論である。サンドイッチの「パン」部分の推定は、通常は簡単であり、ここでの説 明を省略する。
具体的には、ui, i = 1, . . . , Nを乱数列とし、その標本平均の分散を推定する方法を議論 する。uiは平均0であるとする。つまり
√1 N
N
∑
i=1
ui (1)
の分散である、
1 N
N
∑
i=1 N
∑
j=1
E(uiu′j) (2)
を推定する。通常は、uiは観測できないため、推定誤差などを求めてuˆiとして計算できる 者を使用する。
一般に、uiの乱数列の相関構造に何らかの仮定を置くことなしには、分散の推定はでき ない。このノートでは、よく使用されるuiの相関構造に関する仮定をいくつか取り上げ、そ れぞれの場合の分散推定の方法を議論する。
例 例として、線形回帰モデルのOLS推定量の標準誤差を考える。(yi, Xi), i = 1, . . . , N をデータとする。次の線形回帰モデル、
yi= Xi′β + ϵi (3)
をOLSで推定する。OLS推定量は、
β =ˆ (1
N
n
∑
i=1
XiXi′ )−1
1 N
n
∑
i=1
Xiyi (4)
である。OLS推定量は
√N ( ˆβ − β) = (1
N
N
∑
i=1
XiXi′ )−1
√1 N
N
∑
i=1
Xiϵi (5)
と変形できる。この式から、OLS推定量の分散を推定するためには、
√1 N
N
∑
i=1
Xiϵi (6)
の分散である、
1 N
n
∑
i=1 N
∑
j=1
E(XiϵiϵjXj′) (7)
を推定すればよいことがわかる。ϵiは観測できないため、ˆϵi= yi− Xi′βˆによって置き換える。 先ほどの表記をこの例に当てはめると、ui= Xiϵiであり、uˆi = Xiˆϵiである。
2.2 分散不均一に頑健な標準誤差
始めに、uiが独立系列である場合を議論する。この場合は、i ̸= jならば、E(uiuj) = 0で あるため、求めるべき分散は、
1 N
N
∑
i=1 N
∑
j=1
E(uiu′j) = 1 N
N
∑
i=1
E(uiu′i) (8)
となる。分散の推定は、残差を使い、 1 N
N
∑
i=1
ˆ
uiuˆ′i (9)
を推定量と使用する。
この分散推定量は、分散不均一に頑健な標準誤差に相当する。実際、OLS推定量の標準 誤差の場合には、
1 N
N
∑
i=1
XiˆϵiˆϵiXi′ (10)
であり、White (1980)の頑健な分散推定量となる。
2.3 パネルデータのためのクラスター標準誤差
この節では、パネルデータの場合を考える。uit, i = 1, . . . , N , t = 1, . . . , Tをパネルデータ とし、
1 N
N
∑
i=1 N
∑
j=1 T
∑
t=1 T
∑
s=1
E(uitujs) (11)
を推定する問題を考える。ここでは、N → ∞として、Tは固定されている状況を考察する。 uitは個人間ではi.i.d.が成り立っていると仮定する。しかし、個人内での時系列には、相関 構造に関する仮定を置かない。
この場合は、uˆitを観測可能なuitの推定値として、 1
N
N
∑
i=1 T
∑
t=1 T
∑
s=1
ˆ
uituˆjt (12)
として、分散の推定が可能である。
この推定量はCluster-RobustとかHeteroskedasticity and Autocorrelation Constentと 呼ばれる。Arellano (1987)によって考察された。近年のパネルデータを用いた分析では、系 列相関を考慮することが重要であると指摘されており(Bertrand, Duflo and Mullainathan
(2004))、こうした分散推定量を使用するべきである。
例として、固定効果推定量の分散推定を考える。モデルは、
yit = β′Xit+ µi+ ϵit (13) である。固定効果推定量は、固定効果変換で固定効果を除いた式にOLSを当てはめること で計算できる。y¨it = yit−∑Tt=1yit/Tと定義する。X¨itと¨ϵitも同様に定義する。すると、固 定効果推定量は、
β =ˆ ( N
∑
i=1 T
∑
t=1
X¨itX¨it
)−1 N
∑
i=1 T
∑
t=1
X¨ity¨it (14)
となる。固定効果推定量の漸近分散は、
E ( T
∑
t=1
X¨itX¨it
)−1
E ( T
∑
t=1 T
∑
s=1
X¨it¨ϵit¨ϵisX¨i
) E
( T
∑
t=1
X¨itX¨it
)−1
(15)
となる。このうちE(∑Tt=1X¨itX¨it)は∑Ni=1∑Tt=1X¨itX¨it/Nで推定できる。
このノートの主眼は、E(∑Tt=1∑Ts=1X¨it¨ϵit¨ϵisX¨i)の推定である。まず、残差項をとる。
ˆ¨
ϵit= ¨yit− ˆβ′x¨it (16) そして、誤差項の代わりに、残差項を使って、漸近分散の推定をする。
1 N
N
∑
i=1 T
∑
t=1 T
∑
s=1
ˆ¨
ϵitˆ¨ϵisx¨itx¨′is. (17)
これが、Arellano (1987)のCluster robust推定量である。
• 固定効果推定量のように、数が無限に大きくなるパラメーター(この場合は固定効果)を 考慮している推定量の場合は、そうしたパラメータの影響を考慮すべきである。Cluster-
robustの場合は、たまたま、そうした問題が発生しないようになっている。しかし、
たとえば、系列相関がない場合に通常の分散不均一に頑健な推定量を使用する場合に は、固定効果の問題が発生する場合があり(Stock and Watson, 2008)、注意が必要と なる。
• T が大きい場合の分散推定量の振る舞いについては、Hansen (2007)を参照のこと。
2.4 横断面の相関に頑健な標準誤差
再び、横断データの場合には話を戻し、横断面の相関に頑健な標準誤差を考察する。横断面 の相関も、近年の実証研究では重要視されている問題である。しかし、横断面での相関は、 ある種の仮定を置かないことには、対処することができない。よく使われる議論は、横断面 の観測値間の「距離」を定義し、その距離が小さい場合には相関はあるかもしれないが、距
離が十分に大きくなると相関は無視できるほど小さくなるというものである。そうした、距 離の情報を用いることで、横断面での相関を許した分散の推定が可能になる場合がある。
まず、d(i, j)として、i観測値とj観測値間の距離を定義し、iとjの相関は、この距離 が十分に大きいと小さいと仮定する。たとえば、地理的なデータであれば、物理的な2点間 の距離をd(i, j)として用いる。しかし、経済データでは、物理的な距離では2点間の相関を 十分にとらえられるとは限らない。そのため、「経済的な距離」というものを定義する場合 も多い。たとえば、国ごとのデータでは、国ごとの経済的結びつきの強さの指標を、経済的 な距離として使用する。
Conley (1999)による横断面の相関に頑健な分散推定量は、 1
N
N
∑
i=1 N
∑
j=1
w(d(i, j))ˆuiuˆj (18)
として、計算する。ここでw(·)はw(0) = 1である単調減少な関数である。どのような関数 を使うのがよいかは、使用する距離に依存するが、たとえば、w(d(i, j)) = min(1, 1/d(i, j)) などが考えられる。距離が大きい観測値間の相関は0に近いという仮定を利用して、そのよ うな観測値間の相関に相当する部分を0に近づけておくのである。
こうした、横断面の相関に頑健な分散推定量の理論的考察については、Conley (1999)や Kelejian and Prucha (2007)を参照。この分野は、現在でも多くの研究が行われており、最 新の結果を参照する必要がある場合もある。また、パネルデータの場合に、この節で述べた 横断面の相関に頑健にするアイデアと、前節の系列相関に頑健にするアイデアを組み合わせ た方法も存在する。
2.5 パネルデータで横断面と時系列の双方の相関が疑われる場合
この節では、パネルデータの場合に、横断面にも時系列方向にも相関の頑健な標準誤差の計 算法を解説する。ここで紹介する手法はThompson (2011)によるものである。N, T → ∞ の場合を考える。uit, i = 1, . . . , N , t = 1, . . . , Tとし、求める分散は
1
N T2+ N2T − NT
N
∑
i=1 N
∑
j=1 T
∑
t=1 T
∑
s=1
E(uitujs) (19)
である。分散の式でN T2+ N2T − NT で割っているのは、0と異なるE(uitujs)の数が、 N T2N2T − NT だけあるからである。以下、AN T = N T2+ N2T − NT と置く。
ここでは、uitは時系列方向にも相関しており、なおかつ横断面方向にも相関している状 況を考えるが、時系列と横断面の双方がずれている場合には相関はないとする。つまり、
E(uitujs) = 0 if i ̸= j and t ̸= s (20) であると仮定する。もし、i = jあるいはt = sであれば、E(uitujs) ̸= 0であることを許す。 相関の形状については、特に仮定をもうけない。つまり、求める分散は、
1 AN T
N
∑
i=1 N
∑
j=1 T
∑
t=1 T
∑
s=1
E(uitujs)1{i = j or t = s} (21) となる。この状況では、分散推定量は、
1 AN T
N
∑
i=1 N
∑
j=1 T
∑
t=1 T
∑
s=1
ˆ
uituˆjs1{i = j or t = s} (22)
とすればよい。Thompson (2011)によると、この分散推定量は、N, T → ∞かつN/T → ρ、 ただし0 < ρ < ∞の場合に一致性を持つ。
ここで紹介した分散推定量は、既存のパッケージで計算できる頑健な分散推定量を組み 合わせることで簡単に計算することができる。実際、分散推定量を展開すると、
1 AN T
N
∑
i=1 N
∑
j=1 T
∑
t=1 T
∑
s=1
ˆ
uituˆjs1{i = j or t = s} (23)
= 1 AN T
N
∑
i=1 T
∑
t=1 T
∑
s=1
ˆ
uituˆis+ 1 AN T
N
∑
i=1 N
∑
j=1 T
∑
t=1
ˆ uituˆjt−
1 AN T
N
∑
i=1 T
∑
t=1
ˆ
uituˆit (24)
となる。右辺は、
t方向のArellano推定量+ i方向のArellano推定量− White推定量 (25) となっている。AN T で割るところは、通常の分散推定量と異なるが、この部分は、標準誤 差の計算や、t値の計算には影響しない。従って、右辺の各項は、既存の統計パッケージで 簡単に推定することができる。
この分散推定量を使用するに当たっての注意は以下の2点である。
• N, T → ∞かつN/T → ρという条件をおいているため、時系列の長さと横断面の標 本数が同じようなデータに対しては使用することが想定されている。そうでないデー タに対して使用する際には注意が必要となる。
• なお、Thompson (2011)では、個人効果や時間効果を考慮した推定量の、2方向に頑 健な分散推定量の性質は、議論していない。N, T の両者とも大きいとしているので、 仮に個人効果や時間効果が含まれたモデルであっても、それらが引き起こすincidental parameter problemを考慮しなくともよいはずである。とはいえ、こうしたmultiway clusteringでのincidental parameter problemの分散推定への影響は、まだよくわかっ ていないのではないかと思われる。
なお、Thompson (2011)では、もう少し一般的な方法として、E(uitujs) ̸= 0 for |t−s| < q という状況でも、頑健な標準誤差の計算も紹介している。しかし、この場合には、頑健な分 散推定量は、上述したよな既存の方法の組み合わせで計算することはできない。
2.6 Multiway Clustering
先ほどの方法を一般化した、3方向以上のclusteringがある場合でも使用可能な分散推定量 がCameron, Gelbach and Miller (2011)によって考案されている。こうした標準誤差は、た とえば、貿易の実証研究で有用である。貿易の実証研究では、立地、産業、時間という三つ の指標があるデータ、あるいは、輸入元、輸出先、商品カテゴリー、時間という4つの指標 をもつデータを使用することがある。こうしたデータを使用する際には、どれかの指標が同 じであれば、相関が疑われる状況も多い。
一般的なclusteringを議論するには、データの番号はi = 1, . . . , N と単一にそろえ、ク ラスターの表記を別途用意するほうが便利である。ui, i = 1, . . . , N をデータとし、
1 AN T
N
∑
i=1 N
∑
j=1
E(uiuj) (26)
という分散の推定を考える。なお、AN T は、0でないE(uiuj)の個数を入れる。具体的な AN T の形は、後で議論する。クラスターの種類の数をD個とする。d番目のカテゴリーの
クラスターはGd個のクラスターを含んでいるとする。D次元のベクトルδiを、観測値iが クラスターに属しているかを示す。つまり、δiのd番目の要素はd種のクラスターの何番目 のグループに属しているかを示す。たとえば、パネルデータであれば、D = 2でδiは2次 元ベクトルで、1番目の要素は横断面での観測値の番号、2番目の要素は期間を表す。
つぎに、クラスターをともにしている観測値同士を記述するために、rというD次元ベク トルを導入する。rは各要素が0か1をとるベクトルである。rdをrのd番目の要素とする。 そして、R := {r; rd ∈ {0, 1}, d = 1, . . . , D, r ̸= 0}とする。Ir(i, j) := 1(rdδid = rdδjd, ∀d)
とする。このIr(i, j)はiとjがrd= 1であるすべてのクラスターで同一クラスターに入っ てることを示す関数である。たとえば、先ほどのパネルデータの例では、r = (1, 1)のとき Ir(i, j) = 1は同一の観測値であることをしめし、r = (1, 0)のとき、Ir(i, j) = 1は同じ横断 面の単位(たとえば同じ個人から観測値)であることを、r = (0, 1)の時は、同一時点からの 観測値であることを示す。
以上の表記の下で、クラスター間には相関があるが、クラスターを全く共有していない 観測値には相関はないという条件は、
E(uiuj) ̸= 0, ∃r ∈ R, Ir(i, j) = 1 (27) E(uiuj) = 0, ∀r ∈ R, Ir(i, j) = 0 (28) となる。したがって、
AN T =
N
∑
i=1 N
∑
j=1
maxr∈R Ir(i, j) (29)
となる。
Multiway clusteringに頑健な推定量は、 1
AN T N
∑
i=1 N
∑
j=1
ˆ
uiuˆjmax
r∈R Ir(i, j) (30)
である。この推定量は次のように表記することもできる。 1
AN T
N
∑
i=1 N
∑
j=1
ˆ
uiuˆjmax
r∈R Ir(i, j) =
1 AN T
∑
∥r∥=k,r∈R
(−1)k+1Br, (31)
ただし、
Br = 1 AN T
N
∑
i=1 N
∑
j=1
ˆ
uiuˆjIr(i, j) (32)
である。
例として、D = 2とD = 3の場合を考えよう。D = 2の時は、
B(1,0)+ B(0,1)− B(1,1) (33)
であり、パネルデータの場合の、Thompson (2011)の分散推定量と同じである。D = 3の 場合は、
B(1,0,0)+ B(0,1,0)+ B(0,0,1)− B(1,1,0)− B(1,0,1)− B(0,1,1)+ B(1,1,1) (34) である。
このMultiway Clustering に頑健な推定量は、各Br(あるいはAN T をBrにかけたも の)が標準的なソフトウェアで計算できることから、実装は簡単である。また、Cameron, Gelbach and Miller (2011)によるSTATAのadoファイルも存在する。たとえば、時間、産 業、国という三つのクラスターの種類がある場合には、時間クラスターに頑健な推定量、産 業クラスターに頑健な推定量、国クラスターに頑健な推定量、時間と産業のクラスターに頑 健な推定量、時間と国クラスターに頑健な推定量、産業と国クラスターに頑健な推定量、総 合クラスターに頑健な推定量をそれぞれ計算して組み合わせればよい。
漸近的性質は、最も数の少ないクラスターによって決まる。各クラスター種のクラスター 数をGdとする。すると、分散推定量の一致性をみる場合には、
√mind Gd
1 AN T
N
∑
i=1 N
∑
j=1
ˆ
uiuˆjmax
r∈RIr(i, j) −
1 AN T
N
∑
i=1 N
∑
j=1
E(uiuj)
(35)
の漸近的性質を調べる。つまり、漸近分散推定量の収束のオーダーは√mindGdである。たと えば、横断面でのi.i.d.を仮定したパネルデータではクラスターの種類は一種類で、Gd= N である。Thompson (2011)の状況では、クラスターは2種類あり、G1= N かつG2= T で あるので、min(N, T )が、実質的な標本のサイズになる。
References
[1] M. Arellano. Computing robust standard errors for within-groups estimators. Oxford Bulletin of Economics and Statistics, 49(4):431–434, 1987.
[2] M. Bertrand, E. Duflo, and S. Mullainathan. How much should we trust differences-in- differences estimates. The Quarterly Journal of Economics, 119:249–275, 2004.
[3] A. C. Cameron, J. B. Gelbach, and D. L. Miller. Robust inference with multiway clustering. Journal of Business & Economic Statistics, 29(2):238–249, 2011.
[4] T. G. Conley. GMM estimaton with cross sectional dependence. Journal of Econometrics, 92:1–45, 1999.
[5] C. B. Hansen. Asymptotic properties of a robust variance matrix estimator for panel data when T is large. Journal of Econometrics, 141:597–620, 2007.
[6] H. H. Kelejian and I. R. Prucha. HAC estimation in a spatial framework. Journal of Econo- metrics, 140:131–154, 20-7.
[7] J. H. Stock and M. W. Watson. Heteroskedasticity-robust standard errors for fixed effects panel data regression. Econometrica, 76(1):155–174, 2008.
[8] S. B. Thompson. Simple formulas for standard errors that cluster by both firm ad time. Journal of Financial Economics, 99:1–10, 2011.