頑健な標準誤差教育 OKUI, Ryo

(1)

平成²⁶年度ミクロ計量経済学講義ノート² 頑健な標準誤差

このノートでは、分散不均一性や観測値間の相関に頑健な標準誤差の求め方を議論する。経済学での実証分析では、通常は誤差項の分散不均一性を考慮する必要がある。また、無作為標本とはいえないデータを扱うことも多いので、観測値間の相関構造を考慮する方法の知識も必要となる。たとえば、パネルデータでは、個人間ではi.i.d.を仮定できる場合でも同一個人の時系列に関しては相関構造があると考えるのが自然である。また、貿易の実証研究では、国ごと、産業ごと、時系列などといった3種類のクラスター構造を考慮する場合もある。このノートでは、ミクロ計量で重要となる、分散不均一に頑健な標準誤差と、クラスター構造による相関に頑健な標準誤差の議論を行う。なお、ミクロ計量の授業であるため、いわゆる時系列のHAC標準誤差については、このノートでは議論しない。

2.1 _設定

このノートでは、一般的な標本平均の分散を推定する方法を議論する。ここで紹介するのは、推定量の分散がいわゆるサンドイッチ形式をとる場合の、俗にいう「肉」部分の推定に関する理論である。サンドイッチの「パン」部分の推定は、通常は簡単であり、ここでの説明を省略する。

具体的には、ui, i = 1, . . . , Nを乱数列とし、その標本平均の分散を推定する方法を議論する。uiは平均0であるとする。つまり

√1 N

N

∑

i=1

ui (1)

の分散である、

1 N

N

∑

i=1 N

∑

j=1

E(u_iu^′_j) (2)

を推定する。通常は、u_iは観測できないため、推定誤差などを求めてuˆ_iとして計算できる者を使用する。

一般に、uiの乱数列の相関構造に何らかの仮定を置くことなしには、分散の推定はできない。このノートでは、よく使用されるu_iの相関構造に関する仮定をいくつか取り上げ、それぞれの場合の分散推定の方法を議論する。

例例として、線形回帰モデルのOLS推定量の標準誤差を考える。(yi, Xi), i = 1, . . . , N をデータとする。次の線形回帰モデル、

yi= X_i^′β + ϵi (3)

をOLSで推定する。OLS推定量は、

β =ˆ (1

N

n

∑

i=1

X_iX_i^′ )−1

1 N

n

∑

i=1

X_iy_i (4)

である。OLS推定量は

√N ( ˆ_{β − β) =} (1

N

∑

i=1

XiX_i^′ )−1

√1 N

N

∑

i=1

Xiϵi (5)

(2)

と変形できる。この式から、OLS推定量の分散を推定するためには、

√1 N

N

∑

i=1

Xiϵi (6)

の分散である、

1 N

n

∑

i=1 N

∑

j=1

E(XiϵiϵjX_j^′) (7)

を推定すればよいことがわかる。ϵiは観測できないため、ˆϵi= yi_{− X}_i^′β^ˆによって置き換える。先ほどの表記をこの例に当てはめると、ui= Xiϵiであり、uˆi = Xiˆϵiである。

2.2 分散不均一に頑健な標準誤差

始めに、uiが独立系列である場合を議論する。この場合は、_{i ̸= j}ならば、E(uiuj) = 0であるため、求めるべき分散は、

1 N

N

∑

i=1 N

∑

j=1

E(uiu^′_j) = ¹ N

N

∑

i=1

E(uiu^′_i) (8)

となる。分散の推定は、残差を使い、 1 N

N

∑

i=1

ˆ

u_iuˆ^′_i (9)

を推定量と使用する。

この分散推定量は、分散不均一に頑健な標準誤差に相当する。実際、OLS推定量の標準誤差の場合には、

1 N

N

∑

i=1

XiˆϵiˆϵiX_i^′ (10)

であり、White (1980)の頑健な分散推定量となる。

2.3 パネルデータのためのクラスター標準誤差

この節では、パネルデータの場合を考える。uit, i = 1, . . . , N , t = 1, . . . , Tをパネルデータとし、

1 N

N

∑

i=1 N

∑

j=1 T

∑

t=1 T

∑

s=1

E(u_itu_js) (11)

を推定する問題を考える。ここでは、_{N → ∞}として、Tは固定されている状況を考察する。 uitは個人間ではi.i.d.が成り立っていると仮定する。しかし、個人内での時系列には、相関構造に関する仮定を置かない。

この場合は、uˆ_itを観測可能なu_itの推定値として、 1

N

∑

i=1 T

∑

t=1 T

∑

s=1

ˆ

uituˆjt (12)

(3)

として、分散の推定が可能である。

この推定量はCluster-RobustとかHeteroskedasticity and Autocorrelation Constentと呼ばれる。Arellano (1987)によって考察された。近年のパネルデータを用いた分析では、系列相関を考慮することが重要であると指摘されており(Bertrand, Duflo and Mullainathan

(2004))、こうした分散推定量を使用するべきである。

例として、固定効果推定量の分散推定を考える。モデルは、

y_it = β^′X_it+ µ_i+ ϵ_it (13) である。固定効果推定量は、固定効果変換で固定効果を除いた式にOLSを当てはめることで計算できる。y¨_it = y_it₋^∑^T_t=1y_it/Tと定義する。X^¨_itと¨ϵ_itも同様に定義する。すると、固定効果推定量は、

β =ˆ ( _N

∑

i=1 T

∑

t=1

X¨itX^¨it

)_{−1 N}

∑

i=1 T

∑

t=1

X¨ity¨it (14)

となる。固定効果推定量の漸近分散は、

E ( _T

∑

t=1

X¨itX^¨it

)−1

E ( _T

∑

t=1 T

∑

s=1

X¨it¨ϵit¨ϵisX^¨i

) E

( _T

∑

t=1

X¨itX^¨it

)−1

(15)

となる。このうちE⁽^∑^T_t=1X^¨_itX^¨_it⁾は^∑^N_i=1^∑^T_t=1X^¨_itX^¨_it/Nで推定できる。

このノートの主眼は、E⁽^∑^T_t=1^∑^T_s=1X^¨_it¨ϵ_it¨ϵ_isX^¨_i⁾の推定である。まず、残差項をとる。

ˆ¨

ϵit= ¨yit_{− ˆ}β^′x¨it (16) そして、誤差項の代わりに、残差項を使って、漸近分散の推定をする。

1 N

N

∑

i=1 T

∑

t=1 T

∑

s=1

ˆ¨

ϵit^ˆ¨ϵisx¨itx¨^′_is. (17)

これが、Arellano (1987)のCluster robust推定量である。

• 固定効果推定量のように、数が無限に大きくなるパラメーター(この場合は固定効果)を考慮している推定量の場合は、そうしたパラメータの影響を考慮すべきである。Cluster-

robustの場合は、たまたま、そうした問題が発生しないようになっている。しかし、

たとえば、系列相関がない場合に通常の分散不均一に頑健な推定量を使用する場合には、固定効果の問題が発生する場合があり(Stock and Watson, 2008)、注意が必要となる。

• T が大きい場合の分散推定量の振る舞いについては、Hansen (2007)を参照のこと。

2.4 横断面の相関に頑健な標準誤差

再び、横断データの場合には話を戻し、横断面の相関に頑健な標準誤差を考察する。横断面の相関も、近年の実証研究では重要視されている問題である。しかし、横断面での相関は、ある種の仮定を置かないことには、対処することができない。よく使われる議論は、横断面の観測値間の「距離」を定義し、その距離が小さい場合には相関はあるかもしれないが、距

(4)

離が十分に大きくなると相関は無視できるほど小さくなるというものである。そうした、距離の情報を用いることで、横断面での相関を許した分散の推定が可能になる場合がある。

まず、d(i, j)として、i観測値とj観測値間の距離を定義し、iとjの相関は、この距離が十分に大きいと小さいと仮定する。たとえば、地理的なデータであれば、物理的な2点間の距離をd(i, j)として用いる。しかし、経済データでは、物理的な距離では2点間の相関を十分にとらえられるとは限らない。そのため、「経済的な距離」というものを定義する場合も多い。たとえば、国ごとのデータでは、国ごとの経済的結びつきの強さの指標を、経済的な距離として使用する。

Conley (1999)による横断面の相関に頑健な分散推定量は、 1

N

∑

i=1 N

∑

j=1

w(d(i, j))ˆuiuˆj (18)

として、計算する。ここで_w(·)はw(0) = 1である単調減少な関数である。どのような関数を使うのがよいかは、使用する距離に依存するが、たとえば、w(d(i, j)) = min(1, 1/d(i, j)) などが考えられる。距離が大きい観測値間の相関は0に近いという仮定を利用して、そのような観測値間の相関に相当する部分を0に近づけておくのである。

こうした、横断面の相関に頑健な分散推定量の理論的考察については、Conley (1999)や Kelejian and Prucha (2007)を参照。この分野は、現在でも多くの研究が行われており、最新の結果を参照する必要がある場合もある。また、パネルデータの場合に、この節で述べた横断面の相関に頑健にするアイデアと、前節の系列相関に頑健にするアイデアを組み合わせた方法も存在する。

2.5 パネルデータで横断面と時系列の双方の相関が疑われる場合

この節では、パネルデータの場合に、横断面にも時系列方向にも相関の頑健な標準誤差の計算法を解説する。ここで紹介する手法はThompson (2011)によるものである。_{N, T → ∞} の場合を考える。uit, i = 1, . . . , N , t = 1, . . . , Tとし、求める分散は

1

N T²+ N²_{T − NT}

N

∑

i=1 N

∑

j=1 T

∑

t=1 T

∑

s=1

E(uitujs) (19)

である。分散の式でN T²+ N²_{T − NT} で割っているのは、0と異なるE(uitujs)の数が、 N T²N²_{T − NT} だけあるからである。以下、A_{N T} = N T²+ N²_{T − NT} と置く。

ここでは、uitは時系列方向にも相関しており、なおかつ横断面方向にも相関している状況を考えるが、時系列と横断面の双方がずれている場合には相関はないとする。つまり、

E(uitujs) = 0 if i ̸= j and t ̸= s ⁽²⁰⁾ であると仮定する。もし、i = jあるいはt = sであれば、E(uitujs_{) ̸= 0}であることを許す。相関の形状については、特に仮定をもうけない。つまり、求める分散は、

1 A_{N T}

N

∑

i=1 N

∑

j=1 T

∑

t=1 T

∑

s=1

E(uitujs)1{i = j or t = s} ⁽²¹⁾ となる。この状況では、分散推定量は、

1 AN T

N

∑

i=1 N

∑

j=1 T

∑

t=1 T

∑

s=1

ˆ

u_ituˆ_js¹{i = j or t = s} ⁽²²⁾

(5)

とすればよい。Thompson (2011)によると、この分散推定量は、_{N, T → ∞}かつ_{N/T → ρ}、ただし0 < ρ < ∞の場合に一致性を持つ。

ここで紹介した分散推定量は、既存のパッケージで計算できる頑健な分散推定量を組み合わせることで簡単に計算することができる。実際、分散推定量を展開すると、

1 A_{N T}

N

∑

i=1 N

∑

j=1 T

∑

t=1 T

∑

s=1

ˆ

u_ituˆ_js¹{i = j or t = s} ⁽²³⁾

= ¹ A_{N T}

N

∑

i=1 T

∑

t=1 T

∑

s=1

ˆ

uituˆis+ ¹ A_{N T}

N

∑

i=1 N

∑

j=1 T

∑

t=1

ˆ uituˆjt₋

1 A_{N T}

N

∑

i=1 T

∑

t=1

ˆ

uituˆit (24)

となる。右辺は、

t方向のArellano推定量+ i方向のArellano推定量_{− White}推定量 (25) となっている。AN T で割るところは、通常の分散推定量と異なるが、この部分は、標準誤差の計算や、t値の計算には影響しない。従って、右辺の各項は、既存の統計パッケージで簡単に推定することができる。

この分散推定量を使用するに当たっての注意は以下の2点である。

• N, T → ∞^かつN/T → ρという条件をおいているため、時系列の長さと横断面の標本数が同じようなデータに対しては使用することが想定されている。そうでないデータに対して使用する際には注意が必要となる。

• ^なお、Thompson (2011)では、個人効果や時間効果を考慮した推定量の、2方向に頑健な分散推定量の性質は、議論していない。N, T の両者とも大きいとしているので、仮に個人効果や時間効果が含まれたモデルであっても、それらが引き起こすincidental parameter problemを考慮しなくともよいはずである。とはいえ、こうしたmultiway clusteringでのincidental parameter problemの分散推定への影響は、まだよくわかっていないのではないかと思われる。

なお、Thompson (2011)では、もう少し一般的な方法として、E(u_itu_js) ̸= 0 for |t−s| < q という状況でも、頑健な標準誤差の計算も紹介している。しかし、この場合には、頑健な分散推定量は、上述したよな既存の方法の組み合わせで計算することはできない。

2.6 Multiway Clustering

先ほどの方法を一般化した、3方向以上のclusteringがある場合でも使用可能な分散推定量がCameron, Gelbach and Miller (2011)によって考案されている。こうした標準誤差は、たとえば、貿易の実証研究で有用である。貿易の実証研究では、立地、産業、時間という三つの指標があるデータ、あるいは、輸入元、輸出先、商品カテゴリー、時間という4つの指標をもつデータを使用することがある。こうしたデータを使用する際には、どれかの指標が同じであれば、相関が疑われる状況も多い。

一般的なclusteringを議論するには、データの番号はi = 1, . . . , N と単一にそろえ、クラスターの表記を別途用意するほうが便利である。ui, i = 1, . . . , N をデータとし、

1 AN T

N

∑

i=1 N

∑

j=1

E(u_iu_j) (26)

という分散の推定を考える。なお、AN T は、0でないE(uiuj)の個数を入れる。具体的な AN T の形は、後で議論する。クラスターの種類の数をD個とする。d番目のカテゴリーの

(6)

クラスターはGd個のクラスターを含んでいるとする。D次元のベクトルδiを、観測値iがクラスターに属しているかを示す。つまり、δiのd番目の要素はd種のクラスターの何番目のグループに属しているかを示す。たとえば、パネルデータであれば、D = 2でδ_iは2次元ベクトルで、1番目の要素は横断面での観測値の番号、2番目の要素は期間を表す。

つぎに、クラスターをともにしている観測値同士を記述するために、rというD次元ベクトルを導入する。rは各要素が0か1をとるベクトルである。r_dをrのd番目の要素とする。そして、_{R := {r; r}d ∈ {0, 1}, d = 1, . . . , D, r ̸= 0}^とする。^I^r(i, j) := 1(rdδid = rdδjd_{, ∀d)}

とする。このIr(i, j)はiとjがr_d= 1であるすべてのクラスターで同一クラスターに入ってることを示す関数である。たとえば、先ほどのパネルデータの例では、r = (1, 1)のとき Ir(i, j) = 1は同一の観測値であることをしめし、r = (1, 0)のとき、Ir(i, j) = 1は同じ横断面の単位(たとえば同じ個人から観測値)であることを、r = (0, 1)の時は、同一時点からの観測値であることを示す。

以上の表記の下で、クラスター間には相関があるが、クラスターを全く共有していない観測値には相関はないという条件は、

E(uiuj_{) ̸= 0,} _{∃r ∈ R, I}r(i, j) = 1 (27) E(u_iu_j) = 0, _{∀r ∈ R, I}_r(i, j) = 0 (28) となる。したがって、

AN T =

N

∑

i=1 N

∑

j=1

maxr∈R ^I^r^{(i, j)} ⁽²⁹⁾

となる。

Multiway clusteringに頑健な推定量は、 1

AN T N

∑

i=1 N

∑

j=1

ˆ

u_iuˆ_jmax

r∈R ^I^r^{(i, j)} ⁽³⁰⁾

である。この推定量は次のように表記することもできる。 1

A_{N T}

N

∑

i=1 N

∑

j=1

ˆ

uiuˆjmax

r∈R ^I^r^{(i, j) =}

1 A_{N T}

∑

∥r∥=k,r∈R

(−1)^k+1^B^r^, ⁽³¹⁾

ただし、

B_r = ¹ AN T

N

∑

i=1 N

∑

j=1

ˆ

u_iuˆ_jI_r(i, j) (32)

である。

例として、D = 2とD = 3の場合を考えよう。D = 2の時は、

B_(1,0)+ B_(0,1)_{− B}_(1,1) (33)

であり、パネルデータの場合の、Thompson (2011)の分散推定量と同じである。D = 3の場合は、

B_(1,0,0)+ B_(0,1,0)+ B_(0,0,1)_{− B}_(1,1,0)_{− B}_(1,0,1)_{− B}_(0,1,1)+ B_(1,1,1) (34) である。

(7)

このMultiway Clustering に頑健な推定量は、各Br(あるいはAN T をBrにかけたもの)が標準的なソフトウェアで計算できることから、実装は簡単である。また、Cameron, Gelbach and Miller (2011)によるSTATAのadoファイルも存在する。たとえば、時間、産業、国という三つのクラスターの種類がある場合には、時間クラスターに頑健な推定量、産業クラスターに頑健な推定量、国クラスターに頑健な推定量、時間と産業のクラスターに頑健な推定量、時間と国クラスターに頑健な推定量、産業と国クラスターに頑健な推定量、総合クラスターに頑健な推定量をそれぞれ計算して組み合わせればよい。

漸近的性質は、最も数の少ないクラスターによって決まる。各クラスター種のクラスター数をG_dとする。すると、分散推定量の一致性をみる場合には、

√mind ^G^d



 1 AN T

N

∑

i=1 N

∑

j=1

ˆ

u_iuˆ_jmax

r∈R^I^r^{(i, j) −}

1 AN T

N

∑

i=1 N

∑

j=1

E(u_iu_j)



 (35)

の漸近的性質を調べる。つまり、漸近分散推定量の収束のオーダーは^√mindGdである。たとえば、横断面でのi.i.d.を仮定したパネルデータではクラスターの種類は一種類で、G_d= N である。Thompson (2011)の状況では、クラスターは2種類あり、G₁= N かつG₂= T であるので、min(N, T )が、実質的な標本のサイズになる。

References

[1] M. Arellano. Computing robust standard errors for within-groups estimators. Oxford Bulletin of Economics and Statistics, 49(4):431–434, 1987.

[2] M. Bertrand, E. Duflo, and S. Mullainathan. How much should we trust differences-in- differences estimates. The Quarterly Journal of Economics, 119:249–275, 2004.

[3] A. C. Cameron, J. B. Gelbach, and D. L. Miller. Robust inference with multiway clustering. Journal of Business & Economic Statistics, 29(2):238–249, 2011.

[4] T. G. Conley. GMM estimaton with cross sectional dependence. Journal of Econometrics, 92:1–45, 1999.

[5] C. B. Hansen. Asymptotic properties of a robust variance matrix estimator for panel data when T is large. Journal of Econometrics, 141:597–620, 2007.

[6] H. H. Kelejian and I. R. Prucha. HAC estimation in a spatial framework. Journal of Econo- metrics, 140:131–154, 20-7.

[7] J. H. Stock and M. W. Watson. Heteroskedasticity-robust standard errors for fixed effects panel data regression. Econometrica, 76(1):155–174, 2008.

[8] S. B. Thompson. Simple formulas for standard errors that cluster by both firm ad time. Journal of Financial Economics, 99:1–10, 2011.

頑健な標準誤差 教育 OKUI, Ryo

2.1 設定

2.2 分散不均一に頑健な標準誤差

2.3 パネルデータのためのクラスター標準誤差

2.4 横断面の相関に頑健な標準誤差

2.5 パネルデータで横断面と時系列の双方の相関が疑われる場合

2.6 Multiway Clustering

References

頑健な標準誤差教育 OKUI, Ryo

2.1 _設定