平成26年度 ミクロ計量経済学 講義ノート7 ブートストラップ
このノートでは、ブートスラップによる統計量の分布を近似する方法を解説する。統計量 の分布を近似することは、検定や母数の信頼区間を求める上で、重要な作業である。最もよ く使用されている近似法は、漸近分布によるものである。しかし、ブートストラップによっ て、漸近分布の導出が難しい場合での近似が可能になることもあり、また漸近分布が導出で きる場合でもさらに精度の高い近似ができることが知られている。ブートストラップの近似 もその理論的背景は漸近理論によるものであるが、実際の使用上は漸近分布による近似と異 なり、コンピューターを用いたシミュレーションを行う。こうしたコンピューターの計算能 力に依存する方法は、近年の実証研究においてますます重要性を増しており、その手法を正 しく理解することは、研究者にとって不可欠となっている。
7.1 ブートストラップとは
はじめに、統計量の定義を確認する。あるデータ{zi}, i = 1, . . . , nがあり、その分布を Fとする。そのデータから、Tnという統計量を計算する。つまり、TnはziとFの関数と して書ける。
Tn= Tn(z1, . . . , zn, F ). (1) 統計量TnはF に依存することもある。例えば、t検定統計量には、真の母数の値が入って いるので、F に依存する。
検定や信頼区間の構築に当たっては、統計量Tnの分布の近似が必要となる。なお、正確 な分布の導出には、非常に強い条件が必要となる場合が多く、しかも正確な分布は実用的で ないほどに複雑になる場合も多い。近似の方法は、主に二つある。
1. 漸近分布
2. ブートストラップ
これらの近似は次のように定義される。Tnの分布をGnとする。
Gn(u) = Pr(Tn≤ u|F ). (2)
漸近分布Gは、Gnの極限である。
G(u) = lim
n→∞Gn(u). (3)
一方ブートストラップとは、F の近似あるいは推定量Fnを使用して
G∗n(u) = Pr(Tn≤ u|Fn) (4)
をTnの分布の近似として利用するものである。どのようなFnを利用するかによって、い ろいろなブートスラップの種類がある。
• なお、ブートストラップというと、コンピューターシミュレーションによる方法を指 すとイメージがあり、実際に行う作業からすると、そのイメージは間違いではないが、 厳密な意味でのブートストラップの定義からすると誤りである。ブートストラップは、 上記のように、単にデータの分布を何らかの推定量で置き換えて、統計量の分布を近 似する方法であり、コンピューターシミュレーションはそのための一手段に過ぎない。
7.2 ノンパラメトリックブートストラップ
ブートストラップの方法のうちで最もよく使用されているのは、ノンパラメトリックブー トストラップと呼ばれる方法である。ノンパラメトリックブートストラップでは、Fnとし て経験分布を使用する。経験分布とは、観測されたデータの分布である。数学上は、
Fˆn(u) = 1 n
n
∑
i=1
1(zi≤ u) (5)
と定義する。
例 簡単な数値例をあげる。仮にデータが{1, 1, 2}であったとする。この経験分布は、
Pr(x = 1) = 2/3, Pr(x = 2) = 1/3 (6)
である。さて、標本平均のブートストラップ分布を求めてみよう。上記の経験分布の下での 標本平均の分布が、ノンパラメトリックブートストラップ分布である。その分布は簡単な計 算の下で、
Pr( ¯X = 1) = ( 2 3
)3
= 8
27, (7)
Pr (
X =¯ 4 3
)
= 3( 2 3
)2 1 3 =
12 27 =
4
9, (8)
Pr (
X =¯ 5 3
)
= 32 3
( 1 3
)2
= 6 27 =
2
9, (9)
Pr(X = 2¯ ) = ( 1 3
)3
= 1
27 (10)
と求まる。
再抽出法 ブートストラップ分布の計算は、通常はシミュレーションによって行う。ノンパ ラメトリックブートストラップによる近似は、上の例のように原理的には、厳密に求めるこ とが可能である。しかし、データ数が多い場合などでは、そのような計算は労力がかかりす ぎて、実用的ではない。しかし、モンテカルロシミュレーションによって、求める分布をコ ンピューターを使用することにより、比較的簡単に求めることができる。
1. {zi}, i = 1, . . . , nの中から一つziを、確率1/nで抽出する。
2. 上の作業をn回繰り返す。{z∗i}, i = 1, . . . , nという新しいデータセットを得る。 3. Tn∗ = Tn(z1∗. . . , zn∗, ˆFn)を計算する。
4. 上の1-3をB回計算する。B個の統計量の組、Tn∗(b), b = 1. . . . , Bを得る。 5. Tn∗(b), b = 1. . . . , Bの経験分布をブートストラップ分布の近似として得る。
Bはできるだけ大きく取るほうが望ましい。B = 1000ぐらいあれば十分と思われる。統 計量の計算に時間がかかる場合などは、B = 50ぐらいで済ませる場合もある。Bの選び方 については、Andrews and Buchinsky (2000)が方法を提唱している。
7.3 ブートストラップによるバイアスと分散の推定
ブートストラップによるバイアスの推定を紹介する。θを求める母数とし、θˆnをその推定 量とする。バイアスは、E(ˆθn− θ)である。これをブートストラップによって求めてみよう。 Tn= ˆθn− θであるので、再抽出法によるバイアスの推定値は、
1 B
B
∑
b=1
Tn∗(b) = 1 B
B
∑
b=1
(ˆθ∗n(b) − ˆθn) = ¯ˆθn∗− ˆθn (11)
である。なお、θをθˆnで置き換えるのは、θˆnがFnの下でのθの真の値であるからである。 θはFの元での真値であり、一般にFnの元での真値とは異なる。
ブートストラップによるバイアス修正推定量は、
θˆn− (θ¯ˆ∗n− ˆθn) = 2ˆθn−θ¯ˆ∗n (12) となる。
次に、ブートストラップ分散推定量を考える。これは、
1 B
B
∑
b=1
(ˆθn∗(b) −θ¯ˆn∗)2 (13)
である。ブートストラップ標準誤差は、 v u u t
1 B
B
∑
b=1
(ˆθ∗n(b) −θ¯ˆ∗n)2 (14)
となる。ブートストラップ標準誤差は、解析的に標準誤差の計算をすることが難しい場合 (いくつもの段階を踏む推定方法や、構造モデルの推定量など)に良く使われている方法で ある。
7.4 ブートストラップによる信頼区間の構築
信頼区間とは、ある確率で真のパラメーターを含む確率的な区間である。ここでは、θ0が
スカラーである場合を考える。αを真の確率を含まない確率とすると、信頼区間は、Lnと Unという次の性質を満たす統計量である。
1 − α = Pr(Ln≤ θ ≤ Un). (15)
さて、信頼区間をTn = ˆθn− θ0 の分布から構築することを考える。Tnの分位点関数を qn(α)とする。つまりα = Gn(qn(α))を満たすものとして、qn(α)を定義する。このとき、 1 − α = Pr(qn(α/2) ≤ Tn≤ qn(1 − α/2)) (16)
= Pr(ˆθn− qn(1 − α/2) ≤ θ0 ≤ ˆθn− qn(α/2)) (17)
であるので、
[ˆθn− qn(1 − α/2), ˆθn− qn(α/2)] (18)
が信頼区間として使える。
分位点関数qnをブートストラップで求めることにより、信頼区間を構築できる。つまり、 再抽出法によるなら、
α = 1 B
B
∑
b=1
1(ˆθ∗
n(b) − ˆθn≤ qn∗(α)) (19)
として、q∗nという関数を求め、
[ˆθn− q∗n(1 − α/2), ˆθn− q∗n(α/2)] (20)
がブートストラップ信頼区間となる。θˆn− θ0でなく、θˆnを考え、そのブートストラップ分 布での分位点関数をq˜n∗とするなら、
[2ˆθn− ˜q∗n(1 − α/2), ˆ2θn− ˜q∗n(α/2)] (21)
がブートストラップ信頼区間である。
• よく使われるが潜在的に問題のある方法は、信頼区間として、
[˜qn∗(α/2), ˜q∗n(1 − α/2)] (22) を使用するものである。この方法は、確率1 − αでθˆnが入る区間を推定している。信 頼区間は、ある確率でθ0が入る区間であり、θˆnが入る区間ではない。したがって、こ の方法でえら得るものは、適切な信頼区間となるとは限らない。θˆnの分布がθ0で対
称の場合などでは、この方法でも適切な信頼区間が得られるため、θˆnが漸近正規性を 持つ場合などでは、漸近的に正当化可能である。しかし、一般にその保証はなく、ま たブートストラップの手法の自然な適用でもない。問題は、この方法が実際には良く 使われている、もしかすると上で紹介した適切な信頼区間よりも、良く使われている 可能性があることである。
パーセンタイルt信頼区間 上の方法では、θˆn− θ0の分布を利用したが、理論的には、t検 定統計量の分布を利用したほうが、より正確なブートストラップ信頼区間が得られることが 分かっている。その理論は次の節で紹介する。ここでは、信頼区間の導出を説明する。統計 量として、t統計量、Tn= (ˆθn− θ0)/s(ˆθn)を考える。s(ˆθn)はθˆnの標準誤差である。Tnの ブートストラップ分布での分位点関数をq∗nとする。つまり、再抽出法によるなら、
α = 1 B
B
∑
b=1
1( ˆθ
∗
n(b) − ˆθn
s(ˆθ∗n(b)) ≤ q
∗ n(α)
)
(23)
として定義する。標準誤差もブートストラップのもとで計算することが肝要である。信頼区 間は、
[ˆθn− s(ˆθn)q∗n(1 − α/2), ˆθn− s(ˆθn)qn∗(α/2)] (24)
として求めることができる。この信頼区間をパーセンタイルt信頼区間と呼ぶ。
対称パーセンタイルt信頼区間 さらに理論的に優れている信頼区間は、Tn= |ˆθn−θ0|/s(ˆθn)
の分布を利用することで得られる。Tnのブートストラップ分布での分位点関数をqn∗とし、 [ˆθn− s(ˆθn)qn∗(1 − α), ˆθn+ s(ˆθn)qn∗(1 − α)] (25) として、信頼区間を構築する。この信頼区間を対称パーセンタイルt信頼区間と呼ぶ。
7.5 エッジワース展開によるブートストラップ法の理論
ここでは、ブートストラップの理論を簡単に紹介する。まず、エッジワース展開を説明す る。エッジワース展開は、中心極限定理をさらに高次まで拡張したもので、その証明も中心 極限定理の拡張といえる。
エッジワース展開 これは、統計量の分布の高次漸近展開の一種である。統計量Tnは漸近 正規であるとする。つまり漸近分散をσ2として
Tn→dN (0, σ2) (26)
であると仮定する。Tnの分布をGn(u, F )とかく。このとき、ある条件のもとで、
Gn(u, F ) = Φ(u σ
) +√1
ng1(u, F ) + 1
ng2(u, F ) + O ( 1
n√n )
(27)
となる。ここで、Φ(·)は標準正規分布関数、g1(·, ·)は偶関数、g2(·, ·)は奇関数である。この
Gn(u, F )の展開をエッジワース展開と呼ぶ。
エッジワース展開の証明の仕方 エッジワース展開の証明は、中心極限定理の証明と同じよ うに、特性関数を使用して行う。ここでは、簡単のために{zi}, i = 1, . . . , nがスカラーの 列で、i.i.d.であり、E(zi) = 0かつE(zi2) = 1の場合を考え、Tn=√n¯zとする。また、上 の展開のg1の導出だけを考える。g2の導出も同様にできるが計算がさらに複雑になる。
最初に特性関数の展開を行う。Tnの特性関数は、
ψ(t) = E(eitTn) (28)
である。特性関数と分布関数は一対一に対応するため、特性関数の近似を与えれば、分布関 数の近似を得ることができる。ψzをzの分布の特性関数とすると、
ψ(t) = E (
exp (
it√1 n
n
∑
i=1
zi ))
= (
E (
exp (
i√t nzi
)))n
(29)
= (
ψz
( t
√n ))n
= exp (
n log ψz
( t
√n ))
(30)
と書ける。これをt/√n = 0の周りでテーラー展開すると、
n log ψz
( t
√n )
(31)
= n log ψz(0) + nψ
′ z(0)
ψz(0)
√t n + n
1 2
( ψ′′z(0) ψz(0) −
(ψ′z(0))2 (ψz(0))2
) ( t
√n )2
(32)
+n1 6
( ψz′′′(0) ψz(0) − 3
ψz′(0)ψz′′(0) (ψz(0))2 +
(ψz′(0))3 (ψz(0))3
) ( t
√n )3
+ O (
n ( t
√n )4)
(33)
ここで、ψz(0) = 1、ψ′z(0) = iE(zi) = 0、ψz′′(0) = i2E(zi2) = −1であり、E(zi3) = µ3と定
義すると、ψz′′′(0) = i3E(zi3) = −iµ3である。よって、
n log ψz ( t
√n )
= −1 2t
2− i 6µ3
t3
√n + O ( t4
n )
(34)
となり、ψ(t)の近似は、
ψ(t) = exp (
−t
2
2 )
exp (
−6iµ3 t
3
√n+ O ( t4
n ))
(35)
= exp (
−t
2
2 ) (
1 −6iµ3 t
3
√n + O ( 1
n ))
(36)
として与えられる。なお、二つ目の等式では、expのテーラー展開を使用している。 この特性関数の近似から、密度関数を求める。これには、ラブラス逆変換の一種を使用す る。g(u)を密度関数とすると
g(u) = 1 2π
∫
e−iutψ(t)dt = 1 2π
∫
e−iute−t2/2 (
1 −6iµ3 t
3
√n+ O ( 1
n ))
dt (37)
= 1
2π
∫
e−iute−t2/2dt − 1 2π
∫
e−iute−t2/2i 6µ3
t3
√ndt + O( 1n )
(38)
= φ(u) −16√µ3 nφ
′′′(u) + O( 1 n
)
(39)
となる。φ(·)は標準正規密度関数である。
この密度関数を積分することにより、分布関数の近似が得られる。つまり、
Gn(u, F ) =
∫ u
−∞
g(x)dx = Φ(u) −16√µ3 nφ
′′(u) + O( 1 n
)
(40)
= Φ(u) +1 6
µ3
√n(1 − u
2)φ(u) + O( 1 n
)
(41)
となる。g1(u, F ) = µ3(1 − u2)φ(u)/6は偶関数である。
ブートストラップ信頼区間の精度 ブートストラップ法による近似は、漸近理論による解析 的なやり方と比べて、精度がよい近似となっているかどうかが、焦点となる。
まず、漸近理論による方法であるが、これはθˆn− θ0の分布によるにせよ、t統計量によ るせよ、エッジワース展開の最初の項のみを用いて行うため、近似の精度は1/√nとなる。
次に、θˆn− θ0の分布に基づいたブートストラップ信頼区間を考える。以下では漸近分布 による近似と同じ精度であることを示す。Tn = √n(ˆθn− θ0)が漸近正規であるとすると、 ブートストラップ分布は、
Gn(u, Fn) = Φ(u ˆ σ
)+ Op ( 1
√n )
(42)
となる。ここで、ˆσはブートストラップ分布での分散である。したがって、
Gn(u, Fn) − Gn(u, F ) = Φ(u ˆ σ )
− Φ(σu)+ O ( 1
√n )
+ Op
( 1
√n )
= Op
( 1
√n )
(43)
となる。なお、等式の間にあるO(1/√n)にpの添字がないのは、これがGn(u, F )と正規 分布関数の差であり、Gn(u, F )には乱数の要素はないからである。また、通常は、σ − σ =ˆ Op(1/√n)となるため上の二つ目の等式が成り立つ。よって、この方法では、漸近分布を利 用するのとおなじ精度の信頼区間が得られる。ブートストラップを使用する理論的な利点は ないが、それでも漸近分散の計算を避けることができるため、ブートストラップは有用であ る可能性がある。
次に、パーセンタイルt信頼区間を考える。これは漸近分布による近似よりも精度が良く なることを示す。このとき、Tnはt統計量のため、Tn→dN (0, 1)である。つまり、
Gn(u, F ) = Φ (u) + √1
ng1(u, F ) + O( 1 n
)
(44)
かつ、
Gn(u, Fn) = Φ (u) +√1
ng1(u, Fn) + Op ( 1
n )
(45)
が得られる。ここで、FnのF への収束速度は √nであるので、g1(u, F ) − g1(u, Fn) =
Op(1/√n)となり、
Gn(u, Fn) − Gn(u, F ) = Op( 1 n
)
(46)
となる。したがって、パーセンタイルt信頼区間は、漸近分布によるものよりも、精度が 高い。
さらに、対称パーセンタイルt信頼区間を考え、さらに精度の高い近似となることを示す。 Φ(·)¯ を
Φ(u) = Φ(u) − Φ(−u) = 2Φ(u) − 1¯ (47) とすると、Tnはt統計量の絶対値のため、Tnの漸近分布はΦ(·)¯ となる。さらにエッジワー ス展開により、
Gn(u, F ) = (
Φ (u) + √1
ng1(u, F ) + 1
ng2(u, F ) + O ( 1
n√n ))
(48)
− (
Φ (−u) +√1
ng1(−u, F ) + 1
ng2(−u, F ) + O ( 1
n√n ))
(49)
= Φ(u) +¯ 2
ng2(u, F ) + O ( 1
n√n )
(50)
となる。最後の等式は、g1が偶関数であり、g2が奇関数であることより従う。同様に、ブー トストラップ分布のエッジワース展開をすると、
Gn(u, Fn) = ¯Φ(u) + 2
ng2(u, Fn) + Op ( 1
n√n )
(51)
となる。Fnの収束速度が√nのため、
Gn(u, Fn) − Gn(u, F ) = Op ( 1
n√n )
(52)
となり、対称パーセンタイルt信頼区間は、さらに高い精度の信頼区間となっている。
7.6 他のブートストラップ法とサブサンプリング
ブートストラップ法にはいろいろな種類がある。ここではノンパラメトリックブートスト ラップ法を紹介したが、主なものとしては、以下のようなものがある。まず、Fnとして、経 験分布でなく、パラメトリックに推定した分布を使用する。パラメトリックブートストラッ プがある。また回帰モデルなどで使われるワイルドブートストラップもよく知られている。 これは、
yi = g(xi, β) + ei (53)
という回帰式のためにE(ei|xi) = 0という条件をブートストラップ分布でも成立するよう に、eˆiを回帰残差として、
Pr (
e∗i =
(1 +√5 2
) ˆ ei
)
=
√5 − 1
2√5 , (54)
Pr (
e∗i =
(1 −√5 2
) ˆ ei
)
=
√5 + 1
2√5 (55)
という分布を考えるものである。この分布の下で、E(e∗i|xi) = 0, E((e∗i)2|xi) = ˆe2i, E((e∗i)3|xi) = ˆ
e3i がなりたつ。また時系列分析では、各観測点ごとに再抽出するのではなく、観測点の列を まとめて抽出するブロックブートストラップ法が使われる。
また、作業はブートストラップと似ているが、その哲学や理論が大きく異なる方法として サブサンプリングがある。{zi}, i = 1, . . . , nを標本とする。ここから、大きさbの標本を抽 出する。そのような標本は
q = (n
b )
(56)
個ある。分布を近似したい統計量をτn(ˆθn− θ0)とする。θˆnを各部分標本で計算しなおした
ものをθˆn,b,r とする。そして、分布を
Ln,b(u) = 1 q
q
∑
r=1
1 (
τb(ˆθn,b,r− ˆθn) ≤ u) (57)
で近似する。これがサブサンプリング法である。
定理 1. τn(ˆθn− θ0) →dJ(u)であるとする。この時、b → ∞, b/n → 0かつτb/τn → 0で あれば、Ln,b(u) − J(u) →p 0である。
定理にあるように、サブサンプリング法は、統計量が漸近分布をもてば、近似が正当化で き、これは非常に緩い条件のため、応用範囲が非常に広い。このため、漸近分布の解析的表 現が難しい場合でブートストラップも使えない場合などでは、サブサンプリング法を用いて 統計的推測を行うことが近年盛んになってきている。
7.7 さらなる学習のために
このノートの作成に当たり、特に参考にしたのは、Hansen (2013)の10章である。また、
Horowitz (2001)は、ブートストラップ法が使用できない場合や、適用に当たって変更が必
要となる状況についての解説が多くあり、一読に値する。
Hall (1992)はブートストラップの理論の学習によく参考にされる書物であるが、読むの は大変である。サブサンプリングはPolitis, Romano and Wolf (1999)が読みやすく、ま た理論的に高度なところまで解説している。またサブサンプリング法については、近年そ の方法の適用可能性について計量経済学界で研究が進んでいる。たとえば、Andrews and Guggenberger (2009)などを参照。
参考文献
[1] D. W. K. Andrews and M. Buchinsky. A three-step method for choosing the number of boot- strap repetittions. Econometrica, 68(1):23–51, 2000.
[2] D. W. K. Andrews and P. Guggenberger. Hybrid and size-corrected subsampling methods. Econometrica, 77(3):721–762, 2009.
[3] P. Hall. The Bootstrap and Edgeworth Expansion. Springer-Verlag, 1992.
[4] B. E. Hansen. Econometrics. http://www.ssc.wisc.edu/~bhansen/econometrics/, 2013. [5] J. L. Horowitz. The bootstrap. In J. J. Heckman and E. Leamer, editors, Handbook of Econo-
metrics, volume 5, chapter 52, pages 3159–3228. Elsevier, 2001.
[6] D. N. Politis, J. P. Romano, and M. Wolf. Subsampling. Springer, 1999.