平成26年度 ミクロ計量経済学 講義ノート8: ジャックナイフ
このノートでは、ジャックナイフ(jackknife)法を紹介する。ジャックナイフ法は、もとの 標本から1点あるいは複数の観測値を除くことで、多くの疑似標本を構成し、各疑似標本ご とに統計量を計算し、そうして得られた統計量の分布をもとに、統計量の性質を調べる方法 である。これまでに、バイアス修正法や推定量の分散の推定、さらにはモデル選択基準とし て、ジャックナイフ法は広く使われている。このノートでは、ジャックナイフ法の紹介と、そ の応用例をみていく。
8.1 ジャックナイフ法
ジャックナイフ法の定義をまず述べる。
設定 無作為標本として、(x1, . . . xn)があるとする。この標本をもとに、ある統計量Tn= Tn(x1, . . . xn)を計算する。
ジャックナイフ法の手順
1. まず、もとの標本から、一つ観測値を除き、統計量を計算し直す。例えば、i番目の観 測値を除いた標本からTn−1,i= Tn−1(x1, . . . xi−1, xi+1, . . . xn)を計算する。
2. このようにして、Tn−1,1, . . . , Tn−1,nというn個の統計量を計算することができる。 3. こうして得られた統計量の標本 {Tn−1,i}ni=1 を用いて、Tn の性質を推定する方法が
ジャックナイフ法である。
8.2 バイアス修正法
ジャックナイフ法の応用で特に重要なものは、バイアスの推定と、バイアス修正法である。 このアイデアは、Quenouille (1949)によって提唱された。ここでの議論では、対象となる 統計量Tnは推定量であるとする。θをTnが推定したい真の母数の値であるとする。バイア スの定義は、
E(Tn− θ) (1)
である。
ジャックナイフ法では、バイアスを
(n − 1) (1
n
n
∑
i=1
Tn−1,i− Tn
)
(2)
として推定する。
なぜこの統計量がバイアスの推定量になっているのかをみるために、Tnの期待値がつぎ のようになっているとする。
E(Tn) = θ + a n+
b n2 + O
( 1 n3
)
(3)
このとき、ジャックナイフによって計算された各統計量は、Tnが大きさnの標本を使って いるのに対し、Tn−1,iは大きさn − 1の標本を使っているので、
E(Tn−1,i) = θ + a n − 1 +
b
(n − 1)2 + O
( 1
(n − 1)3 )
(4)
となるはずである。従って、ジャックナイフによるバイアス推定量は、
E (
(n − 1) (1
n
n
∑
i=1
Tn−1,i− Tn
))
(5)
= (n − 1)
(( 1 n − 1−
1 n
) a +
( 1
(n − 1)2 − 1 n2
)
b + O( 1 n3
))
(6)
= a n+
(2n − 1) n2(n − 1)b + O
( 1 n2
)
(7)
となり、少なくとも、n2のオーダーまでは、バイアスを正しくとらえていることになる。 またジャックナイフによるバイアス修正法は、
Tn− (n − 1)
(1 n
n
∑
i=1
Tn−1,i− Tn
)
= nTn−n − 1
n
n
∑
i=1
Tn−1,i (8)
である。この推定量は、ジャックナイフ推定量と呼ばれることもある。
このノートでは、ジャックナイフによるバイアス推定量の厳密な性質は議論しない。興味 のある人は、Shao and Tu (1995)を参照のこと。その本に、バイアス推定量は、もとの推 定量が十分に滑らかである場合には、バイアスの一致推定量になっていること、またジャッ クナイフ推定量がバイアスのオーダーを下げていることが証明されている。
8.3 分散推定
ジャックナイフを用いて、統計量の分散の推定をすることも可能である。この方法は、Tukey (1958)によって提唱され、Miller (1964)によって、最初に理論的な正当性が示された。
まず、標本として、{zi}ni=1があるとする。Tn = Tn(z1, . . . , zn)を統計量とし、Tn−1,i = Tn−1(z1, . . . zi−1, zi+1, . . . , zn)をジャックナイフによって計算した統計量とする。
Tnの分散のジャックナイフによる推定量は
n − 1 n
n
∑
i=1
Tn−1,i− 1 n
n
∑
j=1
Tn−1,i
2
(9)
である。Miller (1958)はこの分散推定量が、Tnが平均の滑らかな関数である場合の、一致 性を証明した。より一般的な場合の分散推定量の一致性については、Shao and Tu (1995, Section 2.2)に議論がある。
• ジャックナイフ分散推定量の欠点は、「滑らか」な統計量の分散しか推定できないこと である。例えば、ジャックナイフで分位点推定量の分散を推定すると、一致性を持た ないことが証明できる。ブートストラップの方が、適用可能な推定量が多い。
8.4 モデル選択と cross-validation
この節では、ジャックナイフを使用したモデル選択法を紹介する。なお、モデル選択の場 合、ジャックナイフという名称はそれほど使われず、cross-validationという名前の方がよく 知られている。
ここでは、線形回帰モデルにおける変数選択を考える。{(yi, xi)}ni=1という標本があると
し、yiがスカラーの被説明変数であり、xiが説明変数のベクトルであるとする。つぎの線 形回帰モデルを考える。
yi = x′iβ + ϵi (10)
βαとxαiをβとxiの対応する各要素を取り出したものとする。つまり、xiをすべての説明 変数を含むベクトルとし、そのうちで、xα,iだけを用いたモデルを推定する。また以下の説 明では、簡単化の為にϵiは分散均一であると仮定するが、cross-validationは分散不均一で もうまく行くことが知られている。
次に、モデルの推定を考える。ここでは、最小二乗法を使用する。Xα= (xα,1, . . . , xα,n)′ かつy = (y1, . . . , yn)′とする。yiをxα,iに回帰したOLS推定量は、
βˆα =(Xα′Xα)−1Xα′y (11) である。この推定量から、yの予測値を計算すると、
ˆ
yαi= x′αiβˆα (12)
である。
この推定の平均二乗誤差(MSE)は、
E (1
n
n
∑
i=1
(x′iβ − ˆyαi)2 )
= σ2p n +
1 nβ
′X′
(I − Xα(Xα′Xα)−1Xα′)Xβ (13)
である。第一項は、誤差項の分散であり、モデルに依存しない。第2項は、モデルに含まれ る変数の数へのペナルティーである。モデルはできるだけ、少ない変数で記述できたほうが 良いことを示している。第3項は、バイアス項であり、モデルに含まれるべき変数が入って いないとおおきくなる。なお、モデルに入っている変数をすべて含めばよいものでもなく、 それは、第2項との兼ね合いにより、決まる。
モデル選択の目的を、MSEを最小化することにおく。MSEの推定の方法として、ジャック ナイフ法を使用することができる。ただし、モデル選択においては、あまりジャックナイフ という言葉は使用されず(使用例もある)、cross-validationということが多い。なお、MSE の推定を解析的に行うことも可能であり、Mallows (1973)のCp基準はその一例である。
cross-validationによるモデル選択基準は、以下の通りである。まず、i番目の観測値を除 いて、βαを推定する。
βˆα,i=
∑
j̸=i
xαjx′αj
−1
∑
j̸=i
xαjyj (14)
そして、x′αiβˆα,iをyiの予測値をし、その予測値とyiの差をMSEの推定値とするものであ る。つまり、
1 n
n
∑
i=1
(
yi− x′αiβˆα,i
)2
(15)
である。この基準を最小化するように、モデルを選ぶ。
cross-validation基準は、以下のように書くことも可能である。
1 n
n
∑
i=1
(
yi− x′αiβˆα
)2
(1 − hα,i)2 (16)
なお、hα,iはXα(Xα′Xα)−1Xα′ のi番目の対角要素である。またhα,i = x′α,i(Xα′Xα)−1xα,i である。なぜcross-validation基準がこのようにかけるのかを議論するには、次のupdating
formulaと呼ばれる公式を経由する必要がある。
(X′X − xix′i)−1= (X′X)−1+ 1
1 − x′i(X′X)−1xi
(X′X)−1xix′i(X′X)−1 (17)
この公式により、
βˆα,i = (Xα′Xα− xα,ix′α,i)−1(Xα′y − xα,iyi) (18)
= (Xα′Xα)−1Xα′y − (Xα′Xα)−1xα,iyi (19)
+ 1
1 − hα,i(X
′
αXα)−1xα,ix′α,i(Xα′Xα)−1Xα′y (20)
− hα,i 1 − hα,i
(Xα′Xα)−1xα,iyi (21)
となり、
yi− xα,iβˆα,i= yi− xα,iβˆα+ hα,iyi− hα,i 1 − hα,i
xα,iβˆα+ h
2α,i
1 − hα,i
yi= yi− x
′α,iβˆα
1 − hα,i
(22)
となるからである。
なお、CVによるモデル選択では、真のモデルを確率1で選択することはできない。一方 で、この方法により、MSEを最小化するようなモデルを選択するという意味での性質をLi (1987)は証明している。
8.5 delete-d jackknife
通常ジャックナイフというときには、標本から一つの観測値を除くことを意味するが、複 数の観測値を除く作業も可能である。dこの観測値を除く作業を施すジャックナイフ法を delete-d jackknifeという。
• 通常のジャックナイフよりも適用範囲が広い。
• サブサンプリング法と同じ方法になるか、そうでなくとも深い関係にある。
8.6 非線形パネルデータモデルへの応用
近年、パネルデータ分析における、ジャックナイフ法の有用性が着目されてきている。固 定効果を含むパネルデータモデルの推定では、漸近分布にも影響を与えるほどの深刻なバ イアスが出てくることが、ままある。しかし、バイアスのでない推定量の開発は一般に難し く、また推定量の導出もモデルに依存するため、それほど使い勝手のよいものではない。近
年着目されている方法は、バイアスのでる推定量を許容するが、推定量のバイアス修正を行 うというものである。ジャックナイフ法により、広い範囲のモデルで利用可能な、バイアス 修正が可能になった。
ここでの議論は、Hahn and Newey (2004)による。また、Li, Lindsay and Waterman (2003)にその原点がある。
8.6.1 モデル
次のような、密度関数で書かれるモデルを考える。
fit(yit|θ, αi) = f (yit|xi1, . . . , xiT; θ, αi) (23) ここで、yitは内生変数、xitは外生変数と考える。θが推定したいパラメーターであり、αi
が固定効果である。Nが大きく、Tはそれほど大きくない状況を分析の対象とする。ただT が小さすぎても問題であり、以下で紹介する方法がうまくいくにはT ≥ 7程度は必要であ ると思われる。
• 例として、2項選択モデルを考える。この場合、yit ∈ {0, 1}で、Fをある分布関数と して、
E(yit|xit) = P (yit= 1|xit) = F (θ′xit+ αi) (24) とする。したがって、各観測値の尤度への貢献は、
fit(yit|θ, αi) = F (θ′xit+ αi)yit(1 − F (θ′xit+ αi))1−yit (25) と書ける。
固定効果推定量 αiを母数として扱った、最尤推定量を、固定効果推定量と呼ぶことにす る。推定量は、次のように
θˆT = arg max
θ
1 N
N
∑
i=1 T
∑
t=1
log f (yit|θ, ˆαi(θ)) (26)
と定義する。ここで、
ˆ
αi(θ) = arg max
α T
∑
t=1
log f (yit|θ, α) (27)
であり、それぞれのαiを母数として取り扱っている。
固定効果推定量の問題は、N → ∞でT を固定とした漸近理論を考えたときに、θˆT は、 一致性を持たないことである。なぜこのような問題が起こるのかを考察する。まず、目的関 数は、
LT(θ) = E ( T
∑
t=1
log f (yit|θ, ˆαi(θ)) )
(28)
に収束する。ここでのポイントは、αˆi(θ)はそのままで、何かに収束するということはない ということである。通常の議論から、
θˆT →pθT = arg max
θ LT(θ) (29)
が成り立つ。しかし、一般的に、θT ̸= θ0であり、したがって、θˆT は、一致性を持たない。 不一致の原因は、αˆiの推定誤差が漸近的にも残ってしまうことである。ちなみに、
θ0= arg max
θ E
( T
∑
t=1
log f (yit|θ, αi) )
(30)
である。
この問題は付随パラメーター問題(Incidental Parameters Problem, Neyman and Scott (1948))の一種である。
8.6.2 固定効果推定量のバイアス
バイアス修正推定量を考えるために、まず、推定量のバイアスを考察する。
ここでは、N とT が同じ速度で、無限に行くような、漸近理論を使用する。さて、この とき、通常のモデルでは、
√N T (ˆθT − θT) →dN (0, Ω) (31)
となる。Ωは漸近分散であるが、ここの議論には直接関係しない。
さて、θT はθ0ではないが、Tが無限にいくとき、θ0に収束する。通常のモデルなら、
θT = θ0+B T + O
( 1 T2
)
(32)
と書くことが出来る。よって、
√N T (ˆθT − θ0) =
√N T (ˆθT − θT) +√N TB T + O
(√N T3
)
(33)
→d N (
B lim√ N T , Ω
)
(34)
となり、漸近分布を考えると、T が無限にいく状況でも、漸近分布の平均は、0にならず、 バイアスが存在する。
8.6.3 ジャックナイフ法によるバイアス修正
ジャックナイフ法によるバイアス修正法を紹介する。この方法は、バイアスの解析的な式 を計算する必要がないため、簡単にいろいろなモデルに応用可能であり、非常に便利である。 ただ、推定量を何度も計算する必要があるため、計算時間の面では、劣るかもしれない。
まず、θˆ(t)をt期のデータを抜いて計算した推定量とする。つまり、
θˆ(t) = arg max
θ
1 N
N
∑
i=1
∑
s̸=t
log f (yis|θ, ˆαi(θ)) (35)
かつ、
ˆ
α(t)i (θ) = arg max
α
∑
s̸=t
log f (yis|θ, α) (36)
と定義する。
そして、バイアス修正推定量を、
θˇT = T ˆθT − (T − 1)
T
∑
t=1
θˆ(t)/T (37)
とする。
この推定量は、バイアスを次のBˇで修正した推定量である。つまり、
θˇT = ˆθT −Bˇ
T, (38)
Bˇ
T = (T − 1) (1
T
T
∑
t=1
θˆ(t)− ˆθT
)
(39)
として、バイアスを推定している。
次に、ジャックナイフ法により、なぜバイアス修正ができるのかを考察する。そのために は、上にみたよりさらに高次のT2のオーダーのバイアスまで考える必要がある。まず、θˆ の期待値は、
θ0+B T +
D T2 + O
( 1 T3
)
(40)
とかけるとする。このとき、θˆ(t)の期待値は、
θ0+ B T − 1+
D
(T − 1)2 + O ( 1
T3 )
(41)
となる。従って、
(T − 1) (1
T
T
∑
t=1
θˆ(t)− ˆθ )
(42)
は
(T − 1) (
θ0+ B T − 1+
D
(T − 1)2 + O ( 1
T3 ))
(43)
−(T − 1) (
θ0+B T +
D T2 + O
( 1 T3
))
(44)
= B
T +
2T − 1
T2(T − 1)D + O ( 1
T2 )
(45)
となり、バイアスの推定量としては、T のオーダーまでは正しくとらえていることになる。
• ジャックナイフ法の利点は、バイアスの式などが必要ないので、既存の計量パッケー ジでも、計算することが可能である。
• 限界効果の推定のバイアス修正もジャックナイフを用いて行うことが可能である。
• このバイアス修正法では、漸近分散はΩのままで変化しない。つまり、漸近的には分 散に影響を与えずバイアスを修正できる。そのような例は実はかなり稀でであり、通 常はバイアスを修正すると分散が大きくなる。
• また、最尤推定の場合は、Ωが最小分散、つまり、θ˜T が有効推定量であることを示す ことができる。Iwakura (2014)を参照。
他の方法
• T が固定されていても、一致性を持つ推定量を考える。T が固定されている状況で、 一致性をもつような推定量は、これまでいろいろ研究があり、Arellano and Honore
(2001)にまとめられている。ただこの場合の問題は、
– 推定できないモデルが存在する。
– また、推定可能な場合でも、推定量の導出のやり方は、モデルに依存する。 – ある種のモデルでは、推定量の収束速度が√Nより遅くなる。たとえば、Honore
and Kyriazidou (2000)などである。
– また、実証研究で必要となるすべての母数を推定できるわけではないので、可能 な分析の幅が狭くなる。
• またジャンクナイフによるかわりに、バイアスの明示的な式を出し、バイアスを解析 的に推定することで、バイアス修正を行う方法もある。Hahn and Newey (2004)にそ の方法がある。Arellano and Hahn (2007)に概説がある。
8.7 動学的パネルデータモデルの場合
動学モデルの場合、あるいはデータに自己相関がある場合には、ジャックナイフは、そのま ま適用することはできない。なぜなら、単純に標本から観測値を一つ除いた場合には、デー タの動学構造が崩れてしまうからである。動学構造を維持したまま、ジャックナイフのよう な方法を使用するには、データを系列に沿ってある固まりで観測値を除く作業をする必要が ある。
ここでは、特に有用な、half-panel jackknife法を紹介する。これは、動学パネルモデルに 適用可能なバイアス修正法である。非常に簡単に計算できるため、今後広く使用されるであ ろうと思われる。これは、時系列分析において、Quenouille (1949)によって提唱されたも のであり、Dhaene and Jockmans (2014)によって、動学パネルモデルに拡張された。
パネルデータとして{{zit}ni=1}Tt=1があるとする。まず、このパネルデータ全体を使用して、 推定量θˆnTを計算する。次に、τをT /2の整数部分として、パネルデータを前半{{zit}ni=1}τt=1
と、後半{{zit}ni=1}Tt=τ +1にわける。二つに分けたパネルデータから、推定量を計算し、そ
れぞれ、θˆnT,1とθˆnT,2とする。half-panel jackknifeによるバイアス修正推定量は、
2ˆθnT −
θˆnT,1+ ˆθnT,2
2 (46)
例として、Okui (2010)による、自己共分散の推定を考える。なお、Okui (2010)では half-panel jackknifeの適用は議論されていない。Okui (2010)では、
yit= µi+ wit (47)
というモデルを考え、witの自己共分散を推定する問題を考えている。µiを取り除くため、 固定効果変換を施し、自己共分散を推定すると、
ˆ
γk = 1 n(T − k)
n
∑
i=1 T
∑
t=k+1
(yit− ¯yi)(yi,t−k− ¯yi) (48)
となる。この推定量の漸近分布は、
√nT (ˆγk− γk+ V /T ) →dN (0, Ω) (49)
のようになり、1/T のオーダーのバイアスが出る。なお、V はwitの長期分散である。この バイアスを、half-panel jackknifeで取り除くには、
ˆ
γk,1 = 1
n(T /2 − k)
n
∑
i=1 τ
∑
t=k+1
(yit− ¯yi,1)(yi,t−k− ¯yi,1) (50)
ˆ
γk,2 = 1
n(T /2 − k)
n
∑
i=1 T
∑
t=τ +k+1
(yit− ¯yi,2)(yi,t−k− ¯yi,2) (51)
とし、
2ˆγk−
ˆ
γk,1+ ˆγk,1
2 (52)
という推定量を考えると良い。
8.8 さらなる学習のために
Shao and Tu (1995)はジャックナイフとブートストラップを扱った本である。大部である が、意外と読みやすい。パネルデータ分析におけるジャックナイフ法の応用は、その手軽さ から、これからも広く使われると、教員は考えている。しかし、教科書はなく、Hahn and Newey (2004)やDhaene and Jockmans (2014)などの論文から学習することになる。
参考文献
[1] M. Arellano and J. Hahn. Understanding bias in nonlinear panel models: Some recent de- velopments. In R. Blundell, W. K. Newey, and T. Persson, editors, Advances in Economics and Econometrics: Theory and Applications, Ninth World Congress, volume III, chapter 12, pages 381–409. Cambridge University Press, 2007.
[2] M. Arellano and B. Honor´e. Panel data models: Some recent development. In J. J. Heckman and E. Leamer, editors, Handbook of Econometrics, volume 5, chapter 53, pages 3229–3296. Elsevier Science B. V., 2001.
[3] G. Dhaene and K. Jockmans. Split-panel jackknife estimation of fixed effects models. mimeo, 2014.
[4] J. Hahn and W. Newey. Jackknife and analytical bias reduction for nonlinear panel models. Econometrica, 72(4):1295–1319, 2004.
[5] B. E. Honor´e and E. Kyriazidou. Panel data dicrete choice models with lagged dependent variables. Econometrica, 68(4):839–874, 2000.
[6] H. Iwakura. Deriving the information bounds for nonlinear panel data models with fixed effects. mimeo, 2014.
[7] H. Li, B. G. Lindsay, and R. P. Waterman. Efficiency of projected score methods in rectangular array asymptotics. Journal of the Royal Statistical Society, Series B, 65:191–208, 2003. [8] K.-C. Li. Asymptotic optimality for Cp, CL, cross-validation and generalized cross-validation:
Discrete index set. The Annals of Statistics, 15(3):958–975, 1987. [9] C. L. Mallows. Some comments on cp. Technometics, 15:661–675, 1973.
[10] R. G. Miller. A trustworthy jackknife. Annals of Mathematical Statistics, 35:1594–1605, 1964. [11] J. Neyman and E. L. Scott. Consistent estimates based on partially consistent observations.
Econometrica, 16:1–32, 1948.
[12] R. Okui. Asymptotically unbiased estimation of autocovariances and autocorrelations with long panel data. Econometric Theory, 26:1263–1304, 2010.
[13] M. Quenouille. Approximation tests of correlation in time series. Journal of Royal Statistical Society, B, 11:18–84, 1949.
[14] J. Shao and D. Tu. The Jackknife and Bootstrap. Springer-Verlag New York, Inc., 1995. [15] J. Tukey. Bias and confidence in not quite large samples. Annals of Mathematical Statistics,
29:614, 1958.