ジャックナイフ教育 OKUI, Ryo

(1)

平成²⁶年度ミクロ計量経済学講義ノート^8: ジャックナイフ

このノートでは、ジャックナイフ(jackknife)法を紹介する。ジャックナイフ法は、もとの標本から１点あるいは複数の観測値を除くことで、多くの疑似標本を構成し、各疑似標本ごとに統計量を計算し、そうして得られた統計量の分布をもとに、統計量の性質を調べる方法である。これまでに、バイアス修正法や推定量の分散の推定、さらにはモデル選択基準として、ジャックナイフ法は広く使われている。このノートでは、ジャックナイフ法の紹介と、その応用例をみていく。

8.1 _{ジャックナイフ法}

ジャックナイフ法の定義をまず述べる。

設定無作為標本として、(x1, . . . xn)があるとする。この標本をもとに、ある統計量Tn= Tn(x1, . . . xn)を計算する。

ジャックナイフ法の手順

1. まず、もとの標本から、一つ観測値を除き、統計量を計算し直す。例えば、i番目の観測値を除いた標本からTn−1,i= Tn−1(x1, . . . xi−1, xi+1, . . . xn)を計算する。

2. このようにして、T_n−1,1, . . . , T_n−1,nというn個の統計量を計算することができる。 3. こうして得られた統計量の標本 _{Tn−1,i}ⁿi=1 ^{を用いて、}^Tⁿ の性質を推定する方法が

ジャックナイフ法である。

8.2 _{バイアス修正法}

ジャックナイフ法の応用で特に重要なものは、バイアスの推定と、バイアス修正法である。このアイデアは、Quenouille (1949)によって提唱された。ここでの議論では、対象となる統計量Tnは推定量であるとする。θをTnが推定したい真の母数の値であるとする。バイアスの定義は、

E(T_n_{− θ)} (1)

である。

ジャックナイフ法では、バイアスを

(n − 1) (1

n

∑

i=1

T_n−1,i_{− T}n

)

(2)

として推定する。

なぜこの統計量がバイアスの推定量になっているのかをみるために、Tnの期待値がつぎのようになっているとする。

E(Tn) = θ + ^a n⁺

b n² ^{+ O}

( 1 n³

)

(3)

(2)

このとき、ジャックナイフによって計算された各統計量は、Tnが大きさnの標本を使っているのに対し、T_n−1,iは大きさ_{n − 1}の標本を使っているので、

E(Tn−1,i) = θ + ^a n − 1 ⁺

b

(n − 1)² ^{+ O}

( 1

(n − 1)³ )

(4)

となるはずである。従って、ジャックナイフによるバイアス推定量は、

E (

(n − 1) (1

n

∑

i=1

Tn−1,i_{− T}n

))

(5)

= (n − 1)

(( 1 n − 1⁻

1 n

) a +

( 1

(n − 1)² ⁻ 1 n²

)

b + O^{( 1} n³

))

(6)

= ^a n⁺

(2n − 1) n²_{(n − 1)}^{b + O}

( 1 n²

)

(7)

となり、少なくとも、n²のオーダーまでは、バイアスを正しくとらえていることになる。またジャックナイフによるバイアス修正法は、

Tn_{− (n − 1)}

(1 n

n

∑

i=1

T_n−1,i_{− T}n

)

= nTn₋^{n − 1}

n

∑

i=1

T_n−1,i (8)

である。この推定量は、ジャックナイフ推定量と呼ばれることもある。

このノートでは、ジャックナイフによるバイアス推定量の厳密な性質は議論しない。興味のある人は、Shao and Tu (1995)を参照のこと。その本に、バイアス推定量は、もとの推定量が十分に滑らかである場合には、バイアスの一致推定量になっていること、またジャックナイフ推定量がバイアスのオーダーを下げていることが証明されている。

8.3 _分散推定

ジャックナイフを用いて、統計量の分散の推定をすることも可能である。この方法は、Tukey (1958)によって提唱され、Miller (1964)によって、最初に理論的な正当性が示された。

まず、標本として、_{zi_}ⁿ_i=1があるとする。Tn = Tn(z₁, . . . , zn)を統計量とし、T_n−1,i = T_n−1(z₁, . . . z_i−1, z_i+1, . . . , zn)をジャックナイフによって計算した統計量とする。

Tnの分散のジャックナイフによる推定量は

n − 1 n

n

∑

i=1



T_n−1,i₋ ¹ n

n

∑

j=1

T_n−1,i





2

(9)

である。Miller (1958)はこの分散推定量が、Tnが平均の滑らかな関数である場合の、一致性を証明した。より一般的な場合の分散推定量の一致性については、Shao and Tu (1995, Section 2.2)に議論がある。

• ジャックナイフ分散推定量の欠点は、「滑らか」な統計量の分散しか推定できないことである。例えば、ジャックナイフで分位点推定量の分散を推定すると、一致性を持たないことが証明できる。ブートストラップの方が、適用可能な推定量が多い。

(3)

8.4 モデル選択と cross-validation

この節では、ジャックナイフを使用したモデル選択法を紹介する。なお、モデル選択の場合、ジャックナイフという名称はそれほど使われず、cross-validationという名前の方がよく知られている。

ここでは、線形回帰モデルにおける変数選択を考える。_{(yi^{, x}i)}ⁿi=1^{という標本があると}

し、yiがスカラーの被説明変数であり、xiが説明変数のベクトルであるとする。つぎの線形回帰モデルを考える。

yi = x^′_iβ + ϵi (10)

β_αとx_αiをβとx_iの対応する各要素を取り出したものとする。つまり、x_iをすべての説明変数を含むベクトルとし、そのうちで、x_α,iだけを用いたモデルを推定する。また以下の説明では、簡単化の為にϵiは分散均一であると仮定するが、cross-validationは分散不均一でもうまく行くことが知られている。

次に、モデルの推定を考える。ここでは、最小二乗法を使用する。Xα= (x_α,1, . . . , xα,n)^′ かつy = (y₁, . . . , yn)^′とする。yiをxα,iに回帰したOLS推定量は、

βˆ_α =(X_α^′X_α⁾⁻¹X_α^′y (11) である。この推定量から、yの予測値を計算すると、

ˆ

yαi= x^′_αiβ^ˆα (12)

である。

この推定の平均二乗誤差(MSE)は、

E (1

n

∑

i=1

(x^′_i_{β − ˆy}αi)² )

= σ²^p n ⁺

1 n^β

′_X′

(I − X^α^(Xα^′^X^α⁾⁻¹^Xα^′^)Xβ ⁽¹³⁾

である。第一項は、誤差項の分散であり、モデルに依存しない。第２項は、モデルに含まれる変数の数へのペナルティーである。モデルはできるだけ、少ない変数で記述できたほうが良いことを示している。第３項は、バイアス項であり、モデルに含まれるべき変数が入っていないとおおきくなる。なお、モデルに入っている変数をすべて含めばよいものでもなく、それは、第２項との兼ね合いにより、決まる。

モデル選択の目的を、MSEを最小化することにおく。MSEの推定の方法として、ジャックナイフ法を使用することができる。ただし、モデル選択においては、あまりジャックナイフという言葉は使用されず(使用例もある)、cross-validationということが多い。なお、MSE の推定を解析的に行うことも可能であり、Mallows (1973)のCp基準はその一例である。

cross-validationによるモデル選択基準は、以下の通りである。まず、i番目の観測値を除いて、βαを推定する。

βˆα,i=





∑

j̸=i

xαjx^′_αj





−1

∑

j̸=i

xαjyj (14)

そして、x^′_αiβ^ˆα,iをyiの予測値をし、その予測値とyiの差をMSEの推定値とするものである。つまり、

1 n

n

∑

i=1

(

yi_{− x}^′_αiβ^ˆα,i

)2

(15)

(4)

である。この基準を最小化するように、モデルを選ぶ。

cross-validation基準は、以下のように書くことも可能である。

1 n

n

∑

i=1

(

yi_{− x}^′_αiβ^ˆα

)2

(1 − h^α,i⁾² ⁽¹⁶⁾

なお、h_α,iはX_α(X_α^′X_α)⁻¹X_α^′ のi番目の対角要素である。またh_α,i = x^′_α,i(X_α^′X_α)⁻¹x_α,i である。なぜcross-validation基準がこのようにかけるのかを議論するには、次のupdating

formulaと呼ばれる公式を経由する必要がある。

(X^′_{X − x}ix^′_i)⁻¹= (X^′X)⁻¹+ ¹

1 − x^′i^(X^′^X)⁻¹^xⁱ

(X^′X)⁻¹xix^′_i(X^′X)⁻¹ (17)

この公式により、

βˆα,i = (X_α^′Xα_{− x}α,ix^′_α,i⁾⁻¹(X_α^′_{y − x}α,iyi) (18)

= (X_α^′X_α)⁻¹X_α^′_{y − (X}_α^′X_α)⁻¹x_α,iy_i (19)

+ ¹

1 − h^α,i^(X

′

α^X^α⁾⁻¹^x^α,i^x^′α,i^(Xα^′^X^α⁾⁻¹^Xα^′^y ⁽²⁰⁾

− ^h^α,i 1 − hα,i

(X_α^′Xα)⁻¹xα,iyi (21)

となり、

y_i_{− x}_α,iβ^ˆ_α,i= y_i_{− x}_α,iβ^ˆ_α+ h_α,iy_i₋ ^h^α,i 1 − hα,i

x_α,iβ^ˆ_α+ ^h

2α,i

1 − hα,i

y_i= ^yⁱ^{− x}

′α,i^β^ˆ^α

1 − hα,i

(22)

となるからである。

なお、CVによるモデル選択では、真のモデルを確率１で選択することはできない。一方で、この方法により、MSEを最小化するようなモデルを選択するという意味での性質をLi (1987)は証明している。

8.5 delete-d jackknife

通常ジャックナイフというときには、標本から一つの観測値を除くことを意味するが、複数の観測値を除く作業も可能である。dこの観測値を除く作業を施すジャックナイフ法を delete-d jackknifeという。

• 通常のジャックナイフよりも適用範囲が広い。

• サブサンプリング法と同じ方法になるか、そうでなくとも深い関係にある。

8.6 非線形パネルデータモデルへの応用

近年、パネルデータ分析における、ジャックナイフ法の有用性が着目されてきている。固定効果を含むパネルデータモデルの推定では、漸近分布にも影響を与えるほどの深刻なバイアスが出てくることが、ままある。しかし、バイアスのでない推定量の開発は一般に難しく、また推定量の導出もモデルに依存するため、それほど使い勝手のよいものではない。近

(5)

年着目されている方法は、バイアスのでる推定量を許容するが、推定量のバイアス修正を行うというものである。ジャックナイフ法により、広い範囲のモデルで利用可能な、バイアス修正が可能になった。

ここでの議論は、Hahn and Newey (2004)による。また、Li, Lindsay and Waterman (2003)にその原点がある。

8.6.1 _モデル

次のような、密度関数で書かれるモデルを考える。

fit(yit_{|θ, α}i) = f (yit_|xi1, . . . , xiT; θ, αi) (23) ここで、yitは内生変数、xitは外生変数と考える。θが推定したいパラメーターであり、αi

が固定効果である。Nが大きく、Tはそれほど大きくない状況を分析の対象とする。ただT が小さすぎても問題であり、以下で紹介する方法がうまくいくには_{T ≥ 7}程度は必要であると思われる。

• ^{例として、}²項選択モデルを考える。この場合、yit _{∈ {0, 1}}で、Fをある分布関数として、

E(yit_|xit) = P (yit_{= 1|x}it) = F (θ^′xit+ αi) (24) とする。したがって、各観測値の尤度への貢献は、

fit(yit_{|θ, α}i) = F (θ^′xit+ αi)^y^it_{(1 − F (θ}^′xit+ αi))^1−y^it (25) と書ける。

固定効果推定量 αiを母数として扱った、最尤推定量を、固定効果推定量と呼ぶことにする。推定量は、次のように

θˆ_T = arg max

θ

1 N

N

∑

i=1 T

∑

t=1

log f (y_it_{|θ, ˆ}α_i(θ)) (26)

と定義する。ここで、

ˆ

αi(θ) = arg max

α T

∑

t=1

log f (yit_{|θ, α)} (27)

であり、それぞれのα_iを母数として取り扱っている。

固定効果推定量の問題は、_{N → ∞}でT を固定とした漸近理論を考えたときに、θ^ˆT は、一致性を持たないことである。なぜこのような問題が起こるのかを考察する。まず、目的関数は、

L_T(θ) = E ( _T

∑

t=1

log f (y_it_{|θ, ˆ}α_i(θ)) )

(28)

(6)

に収束する。ここでのポイントは、αˆi(θ)はそのままで、何かに収束するということはないということである。通常の議論から、

θˆT _→pθT = arg max

θ ^L^T^(θ) ⁽²⁹⁾

が成り立つ。しかし、一般的に、θT _{̸= θ}0であり、したがって、θ^ˆT は、一致性を持たない。不一致の原因は、αˆiの推定誤差が漸近的にも残ってしまうことである。ちなみに、

θ₀= arg max

θ ^E

( _T

∑

t=1

log f (y_it_{|θ, α}_i) )

(30)

である。

この問題は付随パラメーター問題(Incidental Parameters Problem, Neyman and Scott (1948))の一種である。

8.6.2 固定効果推定量のバイアス

バイアス修正推定量を考えるために、まず、推定量のバイアスを考察する。

ここでは、N とT が同じ速度で、無限に行くような、漸近理論を使用する。さて、このとき、通常のモデルでは、

√N T (ˆθT _{− θ}T_{) →}dN (0, Ω) (31)

となる。Ωは漸近分散であるが、ここの議論には直接関係しない。

さて、θ_T はθ₀ではないが、Tが無限にいくとき、θ₀に収束する。通常のモデルなら、

θ_T = θ₀+^B T ^{+ O}

( 1 T²

)

(32)

と書くことが出来る。よって、

√N T (ˆθT _{− θ}0⁾ ⁼

√N T (ˆθT _{− θ}T) +^√N T^B T ^{+ O}

(√N T³

)

(33)

→^d ^N (

B lim^{√ N} T ^{, Ω}

)

(34)

となり、漸近分布を考えると、T が無限にいく状況でも、漸近分布の平均は、0にならず、バイアスが存在する。

8.6.3 ジャックナイフ法によるバイアス修正

ジャックナイフ法によるバイアス修正法を紹介する。この方法は、バイアスの解析的な式を計算する必要がないため、簡単にいろいろなモデルに応用可能であり、非常に便利である。ただ、推定量を何度も計算する必要があるため、計算時間の面では、劣るかもしれない。

まず、θ^ˆ^(t)をt期のデータを抜いて計算した推定量とする。つまり、

θˆ^(t) = arg max

θ

1 N

N

∑

i=1

∑

s̸=t

log f (y_is_{|θ, ˆ}α_i(θ)) (35)

(7)

かつ、

ˆ

α^(t)_i (θ) = arg max

α

∑

s̸=t

log f (y_is_{|θ, α)} (36)

と定義する。

そして、バイアス修正推定量を、

θˇ_T = T ˆθ_T _{− (T − 1)}

T

∑

t=1

θˆ^(t)/T (37)

とする。

この推定量は、バイアスを次のB^ˇで修正した推定量である。つまり、

θˇ_T = ˆθ_T ₋^B^ˇ

T^, ⁽³⁸⁾

Bˇ

T ^{= (T − 1)} (1

T

∑

t=1

θˆ^(t)_{− ˆ}θT

)

(39)

として、バイアスを推定している。

次に、ジャックナイフ法により、なぜバイアス修正ができるのかを考察する。そのためには、上にみたよりさらに高次のT²のオーダーのバイアスまで考える必要がある。まず、θ^ˆ の期待値は、

θ₀+^B T ⁺

D T² ^{+ O}

( 1 T³

)

(40)

とかけるとする。このとき、θ^ˆ^(t)の期待値は、

θ₀+ ^B T − 1⁺

D

(T − 1)² ^{+ O} ( 1

T³ )

(41)

となる。従って、

(T − 1) (1

T

∑

t=1

θˆ^(t)_{− ˆ}θ )

(42)

は

(T − 1) (

θ₀+ ^B T − 1⁺

D

(T − 1)² ^{+ O} ( 1

T³ ))

(43)

−(T − 1) (

θ0+^B T ⁺

D T² ^{+ O}

( 1 T³

))

(44)

= ^B

T ⁺

2T − 1

T²_{(T − 1)}^{D + O} ( 1

T² )

(45)

となり、バイアスの推定量としては、T のオーダーまでは正しくとらえていることになる。

• ジャックナイフ法の利点は、バイアスの式などが必要ないので、既存の計量パッケージでも、計算することが可能である。

(8)

• 限界効果の推定のバイアス修正もジャックナイフを用いて行うことが可能である。

• このバイアス修正法では、漸近分散はΩのままで変化しない。つまり、漸近的には分散に影響を与えずバイアスを修正できる。そのような例は実はかなり稀でであり、通常はバイアスを修正すると分散が大きくなる。

• また、最尤推定の場合は、Ωが最小分散、つまり、θ^˜T が有効推定量であることを示すことができる。Iwakura (2014)を参照。

他の方法

• T が固定されていても、一致性を持つ推定量を考える。T が固定されている状況で、一致性をもつような推定量は、これまでいろいろ研究があり、Arellano and Honore

(2001)にまとめられている。ただこの場合の問題は、

– 推定できないモデルが存在する。

– また、推定可能な場合でも、推定量の導出のやり方は、モデルに依存する。 – ある種のモデルでは、推定量の収束速度が^√Nより遅くなる。たとえば、Honore

and Kyriazidou (2000)などである。

– また、実証研究で必要となるすべての母数を推定できるわけではないので、可能な分析の幅が狭くなる。

• またジャンクナイフによるかわりに、バイアスの明示的な式を出し、バイアスを解析的に推定することで、バイアス修正を行う方法もある。Hahn and Newey (2004)にその方法がある。Arellano and Hahn (2007)に概説がある。

8.7 動学的パネルデータモデルの場合

動学モデルの場合、あるいはデータに自己相関がある場合には、ジャックナイフは、そのまま適用することはできない。なぜなら、単純に標本から観測値を一つ除いた場合には、データの動学構造が崩れてしまうからである。動学構造を維持したまま、ジャックナイフのような方法を使用するには、データを系列に沿ってある固まりで観測値を除く作業をする必要がある。

ここでは、特に有用な、half-panel jackknife法を紹介する。これは、動学パネルモデルに適用可能なバイアス修正法である。非常に簡単に計算できるため、今後広く使用されるであろうと思われる。これは、時系列分析において、Quenouille (1949)によって提唱されたものであり、Dhaene and Jockmans (2014)によって、動学パネルモデルに拡張された。

パネルデータとして_{{zit}ⁿi=1}^Tt=1があるとする。まず、このパネルデータ全体を使用して、推定量θ^ˆnTを計算する。次に、τをT /2の整数部分として、パネルデータを前半_{{zit_}ⁿ_i=1_}^τ_t=1

と、後半_{{zit_}ⁿ_i=1_}^T_{t=τ +1}にわける。二つに分けたパネルデータから、推定量を計算し、そ

れぞれ、θ^ˆ_nT,1とθ^ˆ_nT,2とする。half-panel jackknifeによるバイアス修正推定量は、

2ˆθnT ₋

θˆ_nT,1+ ˆθ_nT,2

2 ⁽⁴⁶⁾

(9)

例として、Okui (2010)による、自己共分散の推定を考える。なお、Okui (2010)では half-panel jackknifeの適用は議論されていない。Okui (2010)では、

y_it= µ_i+ w_it (47)

というモデルを考え、witの自己共分散を推定する問題を考えている。µiを取り除くため、固定効果変換を施し、自己共分散を推定すると、

ˆ

γk = ¹ n(T − k)

n

∑

i=1 T

∑

t=k+1

(yit_{− ¯y}i)(yi,t−k_{− ¯y}i) (48)

となる。この推定量の漸近分布は、

√nT (ˆγ_k_{− γ}_k_{+ V /T ) →}_dN (0, Ω) (49)

のようになり、1/T のオーダーのバイアスが出る。なお、V はwitの長期分散である。このバイアスを、half-panel jackknifeで取り除くには、

ˆ

γ_k,1 = ¹

n(T /2 − k)

n

∑

i=1 τ

∑

t=k+1

(yit_{− ¯y}i,1^)(yi,t−k_{− ¯y}i,1⁾ ⁽⁵⁰⁾

ˆ

γ_k,2 = ¹

n(T /2 − k)

n

∑

i=1 T

∑

t=τ +k+1

(yit_{− ¯y}i,2^)(yi,t−k_{− ¯y}i,2⁾ ⁽⁵¹⁾

とし、

2ˆγk₋

ˆ

γ_k,1+ ˆγ_k,1

2 ⁽⁵²⁾

という推定量を考えると良い。

8.8 _{さらなる学習のために}

Shao and Tu (1995)はジャックナイフとブートストラップを扱った本である。大部であるが、意外と読みやすい。パネルデータ分析におけるジャックナイフ法の応用は、その手軽さから、これからも広く使われると、教員は考えている。しかし、教科書はなく、Hahn and Newey (2004)やDhaene and Jockmans (2014)などの論文から学習することになる。

参考文献

[1] M. Arellano and J. Hahn. Understanding bias in nonlinear panel models: Some recent de- velopments. In R. Blundell, W. K. Newey, and T. Persson, editors, Advances in Economics and Econometrics: Theory and Applications, Ninth World Congress, volume III, chapter 12, pages 381–409. Cambridge University Press, 2007.

[2] M. Arellano and B. Honor´e. Panel data models: Some recent development. In J. J. Heckman and E. Leamer, editors, Handbook of Econometrics, volume 5, chapter 53, pages 3229–3296. Elsevier Science B. V., 2001.

[3] G. Dhaene and K. Jockmans. Split-panel jackknife estimation of fixed effects models. mimeo, 2014.

(10)

[4] J. Hahn and W. Newey. Jackknife and analytical bias reduction for nonlinear panel models. Econometrica, 72(4):1295–1319, 2004.

[5] B. E. Honor´e and E. Kyriazidou. Panel data dicrete choice models with lagged dependent variables. Econometrica, 68(4):839–874, 2000.

[6] H. Iwakura. Deriving the information bounds for nonlinear panel data models with fixed effects. mimeo, 2014.

[7] H. Li, B. G. Lindsay, and R. P. Waterman. Efficiency of projected score methods in rectangular array asymptotics. Journal of the Royal Statistical Society, Series B, 65:191–208, 2003. [8] K.-C. Li. Asymptotic optimality for Cp, CL, cross-validation and generalized cross-validation:

Discrete index set. The Annals of Statistics, 15(3):958–975, 1987. [9] C. L. Mallows. Some comments on cp. Technometics, 15:661–675, 1973.

[10] R. G. Miller. A trustworthy jackknife. Annals of Mathematical Statistics, 35:1594–1605, 1964. [11] J. Neyman and E. L. Scott. Consistent estimates based on partially consistent observations.

Econometrica, 16:1–32, 1948.

[12] R. Okui. Asymptotically unbiased estimation of autocovariances and autocorrelations with long panel data. Econometric Theory, 26:1263–1304, 2010.

[13] M. Quenouille. Approximation tests of correlation in time series. Journal of Royal Statistical Society, B, 11:18–84, 1949.

[14] J. Shao and D. Tu. The Jackknife and Bootstrap. Springer-Verlag New York, Inc., 1995. [15] J. Tukey. Bias and confidence in not quite large samples. Annals of Mathematical Statistics,

29:614, 1958.

ジャックナイフ 教育 OKUI, Ryo

8.1 ジャックナイフ法

8.2 バイアス修正法

8.3 分散推定

8.4 モデル選択と cross-validation

8.5 delete-d jackknife

8.6 非線形パネルデータモデルへの応用

8.7 動学的パネルデータモデルの場合

8.8 さらなる学習のために

参考文献

ジャックナイフ教育 OKUI, Ryo

8.1 _{ジャックナイフ法}

8.2 _{バイアス修正法}

8.3 _分散推定

8.8 _{さらなる学習のために}