ブートストラップ教育 OKUI, Ryo

(1)

平成²⁶年度ミクロ計量経済学講義ノート⁷ ブートストラップ

このノートでは、ブートスラップによる統計量の分布を近似する方法を解説する。統計量の分布を近似することは、検定や母数の信頼区間を求める上で、重要な作業である。最もよく使用されている近似法は、漸近分布によるものである。しかし、ブートストラップによって、漸近分布の導出が難しい場合での近似が可能になることもあり、また漸近分布が導出できる場合でもさらに精度の高い近似ができることが知られている。ブートストラップの近似もその理論的背景は漸近理論によるものであるが、実際の使用上は漸近分布による近似と異なり、コンピューターを用いたシミュレーションを行う。こうしたコンピューターの計算能力に依存する方法は、近年の実証研究においてますます重要性を増しており、その手法を正しく理解することは、研究者にとって不可欠となっている。

7.1 _{ブートストラップとは}

はじめに、統計量の定義を確認する。あるデータ_{zi}, i = 1, . . . , n^{があり、その分布を} Fとする。そのデータから、T_nという統計量を計算する。つまり、T_nはz_iとFの関数として書ける。

T_n= T_n(z1, . . . , z_n, F ). (1) 統計量T_nはF に依存することもある。例えば、t検定統計量には、真の母数の値が入っているので、F に依存する。

検定や信頼区間の構築に当たっては、統計量T_nの分布の近似が必要となる。なお、正確な分布の導出には、非常に強い条件が必要となる場合が多く、しかも正確な分布は実用的でないほどに複雑になる場合も多い。近似の方法は、主に二つある。

1. 漸近分布

2. ブートストラップ

これらの近似は次のように定義される。Tnの分布をGnとする。

G_n(u) = Pr(T_n_{≤ u|F ).} (2)

漸近分布Gは、Gnの極限である。

G(u) = lim

n→∞^Gⁿ^(u). ⁽³⁾

一方ブートストラップとは、F の近似あるいは推定量F_nを使用して

G^∗_n(u) = Pr(T_n_{≤ u|F}_n) (4)

をT_nの分布の近似として利用するものである。どのようなF_nを利用するかによって、いろいろなブートスラップの種類がある。

• なお、ブートストラップというと、コンピューターシミュレーションによる方法を指すとイメージがあり、実際に行う作業からすると、そのイメージは間違いではないが、厳密な意味でのブートストラップの定義からすると誤りである。ブートストラップは、上記のように、単にデータの分布を何らかの推定量で置き換えて、統計量の分布を近似する方法であり、コンピューターシミュレーションはそのための一手段に過ぎない。

(2)

7.2 ノンパラメトリックブートストラップ

ブートストラップの方法のうちで最もよく使用されているのは、ノンパラメトリックブートストラップと呼ばれる方法である。ノンパラメトリックブートストラップでは、F_nとして経験分布を使用する。経験分布とは、観測されたデータの分布である。数学上は、

Fˆ_n(u) = ¹ n

n

∑

i=1

1_(z_i_{≤ u)} ₍₅₎

と定義する。

例簡単な数値例をあげる。仮にデータが_{{1, 1, 2}}であったとする。この経験分布は、

Pr(x = 1) = 2/3, Pr(x = 2) = 1/3 (6)

である。さて、標本平均のブートストラップ分布を求めてみよう。上記の経験分布の下での標本平均の分布が、ノンパラメトリックブートストラップ分布である。その分布は簡単な計算の下で、

Pr( ¯X = 1) = ^{( 2} 3

)³

= ⁸

27^, ⁽⁷⁾

Pr (

X =¯ ⁴ 3

)

= 3^{( 2} 3

)² 1 3 ⁼

12 27 ⁼

4

9^, ⁽⁸⁾

Pr (

X =¯ ⁵ 3

)

= 3² 3

( 1 3

)²

= ⁶ 27 ⁼

2

9^, ⁽⁹⁾

Pr⁽X = 2^¯ ⁾ = ^{( 1} 3

)³

= ¹

27 ⁽¹⁰⁾

と求まる。

再抽出法ブートストラップ分布の計算は、通常はシミュレーションによって行う。ノンパラメトリックブートストラップによる近似は、上の例のように原理的には、厳密に求めることが可能である。しかし、データ数が多い場合などでは、そのような計算は労力がかかりすぎて、実用的ではない。しかし、モンテカルロシミュレーションによって、求める分布をコンピューターを使用することにより、比較的簡単に求めることができる。

1. {zi}, i = 1, . . . , n^{の中から一つ}^ziを、確率1/nで抽出する。

2. 上の作業をn回繰り返す。_{z^∗_i}, i = 1, . . . , nという新しいデータセットを得る。 3. T_n^∗ = T_n(z1^∗. . . , z_n^∗, ˆF_n)を計算する。

4. 上の1-3をB回計算する。B個の統計量の組、T_n^∗(b), b = 1. . . . , Bを得る。 5. T_n^∗(b), b = 1. . . . , Bの経験分布をブートストラップ分布の近似として得る。

Bはできるだけ大きく取るほうが望ましい。B = 1000ぐらいあれば十分と思われる。統計量の計算に時間がかかる場合などは、B = 50ぐらいで済ませる場合もある。Bの選び方については、Andrews and Buchinsky (2000)が方法を提唱している。

(3)

7.3 ブートストラップによるバイアスと分散の推定

ブートストラップによるバイアスの推定を紹介する。θを求める母数とし、θ^ˆ_nをその推定量とする。バイアスは、E(ˆθ_n_{− θ)}である。これをブートストラップによって求めてみよう。 T_n= ˆθ_n_{− θ}であるので、再抽出法によるバイアスの推定値は、

1 B

B

∑

b=1

T_n^∗(b) = ¹ B

B

∑

b=1

(ˆθ^∗_n_{(b) − ˆ}θ_n) = ¯ˆθ_n^∗_{− ˆ}θ_n (11)

である。なお、θをθ^ˆ_nで置き換えるのは、θ^ˆ_nがF_nの下でのθの真の値であるからである。 θはFの元での真値であり、一般にF_nの元での真値とは異なる。

ブートストラップによるバイアス修正推定量は、

θˆ_n_{− (}θ^¯^ˆ^∗_n_{− ˆ}θ_n) = 2ˆθ_n₋θ^¯^ˆ^∗_n (12) となる。

次に、ブートストラップ分散推定量を考える。これは、

1 B

B

∑

b=1

(ˆθ_n^∗_{(b) −}θ^¯^ˆ_n^∗)² (13)

である。ブートストラップ標準誤差は、 v u u t

1 B

B

∑

b=1

(ˆθ^∗_n_{(b) −}θ^¯^ˆ^∗_n)² (14)

となる。ブートストラップ標準誤差は、解析的に標準誤差の計算をすることが難しい場合 (いくつもの段階を踏む推定方法や、構造モデルの推定量など)に良く使われている方法である。

7.4 ブートストラップによる信頼区間の構築

信頼区間とは、ある確率で真のパラメーターを含む確率的な区間である。ここでは、θ0_が

スカラーである場合を考える。αを真の確率を含まない確率とすると、信頼区間は、Lnと Unという次の性質を満たす統計量である。

1 − α = Pr(Ln≤ θ ≤ Un^). ⁽¹⁵⁾

さて、信頼区間をT_n = ˆθ_n_{− θ}0 の分布から構築することを考える。T_nの分位点関数を q_n(α)とする。つまりα = G_n(q_n(α))を満たすものとして、q_n(α)を定義する。このとき、 1 − α = Pr(qⁿ(α/2) ≤ Tⁿ≤ qⁿ(1 − α/2)) ⁽¹⁶⁾

= Pr(ˆθ_n_{− q}_n(1 − α/2) ≤ θ⁰ ≤ ˆ^θn− qn^(α/2)) ⁽¹⁷⁾

であるので、

[ˆθ_n_{− q}_n(1 − α/2), ˆ^θn− qn^(α/2)] ⁽¹⁸⁾

(4)

が信頼区間として使える。

分位点関数q_nをブートストラップで求めることにより、信頼区間を構築できる。つまり、再抽出法によるなら、

α = ¹ B

B

∑

b=1

1_(ˆ_θ^∗

n(b) − ˆ^θn≤ qn^∗^(α)) ⁽¹⁹⁾

として、q^∗_nという関数を求め、

[ˆθn_{− q}^∗_n(1 − α/2), ˆ^θⁿ− q^∗n^(α/2)] ⁽²⁰⁾

がブートストラップ信頼区間となる。θ^ˆ_n_{− θ}0_でなく、θ^ˆ_nを考え、そのブートストラップ分布での分位点関数をq˜_n^∗とするなら、

[2ˆθ_n_{− ˜q}^∗_n(1 − α/2), ˆ2θn− ˜q^∗n^(α/2)] ⁽²¹⁾

がブートストラップ信頼区間である。

• よく使われるが潜在的に問題のある方法は、信頼区間として、

[˜q_n^∗(α/2), ˜q^∗_n_{(1 − α/2)]} (22) を使用するものである。この方法は、確率_{1 − α}でθ^ˆ_nが入る区間を推定している。信頼区間は、ある確率でθ0_{が入る区間であり、}θ^ˆ_nが入る区間ではない。したがって、この方法でえら得るものは、適切な信頼区間となるとは限らない。θ^ˆ_nの分布がθ0_で対

称の場合などでは、この方法でも適切な信頼区間が得られるため、θ^ˆ_nが漸近正規性を持つ場合などでは、漸近的に正当化可能である。しかし、一般にその保証はなく、またブートストラップの手法の自然な適用でもない。問題は、この方法が実際には良く使われている、もしかすると上で紹介した適切な信頼区間よりも、良く使われている可能性があることである。

パーセンタイル^t信頼区間上の方法では、^θ^ˆn− θ⁰の分布を利用したが、理論的には、t検定統計量の分布を利用したほうが、より正確なブートストラップ信頼区間が得られることが分かっている。その理論は次の節で紹介する。ここでは、信頼区間の導出を説明する。統計量として、t統計量、Tn= (ˆθn_{− θ}⁰)/s(ˆθn)を考える。s(ˆθn)はθ^ˆnの標準誤差である。Tnのブートストラップ分布での分位点関数をq^∗_nとする。つまり、再抽出法によるなら、

α = ¹ B

B

∑

b=1

1^{( ˆ}^θ

∗

n(b) − ˆ^θn

s(ˆθ^∗_n(b)) ^{≤ q}

∗ n^(α)

)

(23)

として定義する。標準誤差もブートストラップのもとで計算することが肝要である。信頼区間は、

[ˆθ_n_{− s(ˆ}θ_n)q^∗_n(1 − α/2), ˆ^θn− s(ˆ^θn^)q_n^∗^(α/2)] ⁽²⁴⁾

として求めることができる。この信頼区間をパーセンタイルt信頼区間と呼ぶ。

(5)

対称パーセンタイル^t信頼区間さらに理論的に優れている信頼区間は、^Tn= |ˆ^θn−θ⁰|/s(ˆ^θn⁾

の分布を利用することで得られる。T_nのブートストラップ分布での分位点関数をq_n^∗とし、 [ˆθ_n_{− s(ˆ}θ_n)q_n^∗_{(1 − α), ˆ}θ_n+ s(ˆθ_n)q_n^∗_{(1 − α)]} (25) として、信頼区間を構築する。この信頼区間を対称パーセンタイルt信頼区間と呼ぶ。

7.5 エッジワース展開によるブートストラップ法の理論

ここでは、ブートストラップの理論を簡単に紹介する。まず、エッジワース展開を説明する。エッジワース展開は、中心極限定理をさらに高次まで拡張したもので、その証明も中心極限定理の拡張といえる。

エッジワース展開これは、統計量の分布の高次漸近展開の一種である。統計量Tnは漸近正規であるとする。つまり漸近分散をσ²として

T_n_→_dN (0, σ²) (26)

であると仮定する。T_nの分布をG_n(u, F )とかく。このとき、ある条件のもとで、

G_n(u, F ) = Φ⁽^u σ

) +_√¹

n^g¹^{(u, F ) +} 1

n^g²(u, F ) + O ( 1

n^√n )

(27)

となる。ここで、_Φ(·)は標準正規分布関数、g1_{(·, ·)}_{は偶関数、}g2_{(·, ·)}_{は奇関数である。この}

G_n(u, F )の展開をエッジワース展開と呼ぶ。

エッジワース展開の証明の仕方エッジワース展開の証明は、中心極限定理の証明と同じように、特性関数を使用して行う。ここでは、簡単のために_{zi}, i = 1, . . . , n^{がスカラーの} 列で、i.i.d.であり、E(zi) = 0かつE(z_i²) = 1の場合を考え、Tn=^√n¯zとする。また、上の展開のg¹の導出だけを考える。g²の導出も同様にできるが計算がさらに複雑になる。

最初に特性関数の展開を行う。T_nの特性関数は、

ψ(t) = E(e^itTⁿ) (28)

である。特性関数と分布関数は一対一に対応するため、特性関数の近似を与えれば、分布関数の近似を得ることができる。ψ_zをzの分布の特性関数とすると、

ψ(t) = E (

exp (

it_√¹ n

n

∑

i=1

z_i ))

= (

E (

exp (

i_√^t n^zⁱ

)))n

(29)

= (

ψz

( t

√n ))n

= exp (

n log ψz

( t

√n ))

(30)

と書ける。これをt/^√n = 0の周りでテーラー展開すると、

n log ψz

( t

√n )

(31)

= n log ψ_z(0) + n^ψ

′ z⁽⁰⁾

ψ_z(0)

√t n ^{+ n}

1 2

( ψ^′′_z(0) ψ_z(0) ⁻

(ψ^′_z(0))² (ψ_z(0))²

) ( t

√n )²

(32)

+n¹ 6

( ψ_z^′′′(0) ψ_z(0) ^{− 3}

ψ_z^′(0)ψ_z^′′(0) (ψ_z(0))² ⁺

(ψ_z^′(0))³ (ψ_z(0))³

) ( t

√n )³

+ O (

n ( t

√n )⁴⁾

(33)

(6)

ここで、ψ_z(0) = 1、ψ^′_z(0) = iE(z_i) = 0、ψ_z^′′(0) = i²E(z_i²_{) = −1}であり、E(z_i³) = µ3_と定

義すると、ψ_z^′′′(0) = i³E(z_i³_{) = −iµ}3_{である。よって、}

n log ψ_z ( t

√n )

= −¹ 2^t

2− ⁱ 6^µ³

t³

√n ^{+ O} ( t⁴

n )

(34)

となり、ψ(t)の近似は、

ψ(t) = exp (

−^t

2

2 )

exp (

−₆ⁱ^µ³ ^t

3

√n^{+ O} ( t⁴

n ))

(35)

= exp (

−^t

2

2 ) (

1 −₆ⁱ^µ³ ^t

3

√n ^{+ O} ( 1

n ))

(36)

として与えられる。なお、二つ目の等式では、expのテーラー展開を使用している。この特性関数の近似から、密度関数を求める。これには、ラブラス逆変換の一種を使用する。g(u)を密度関数とすると

g(u) = ¹ 2π

∫

e⁻^iutψ(t)dt = ¹ 2π

∫

e⁻^iute⁻^t²^/2 (

1 −₆ⁱ^µ³ ^t

3

√n^{+ O} ( 1

n ))

dt (37)

= ¹

2π

∫

e⁻^iute⁻^t²^/2_{dt −} ¹ 2π

∫

e⁻^iute⁻^t²^/2ⁱ 6^µ³

t³

√_n^{dt + O}^{( 1}_n )

(38)

= φ(u) −¹₆√^µ³ n^φ

′′′(u) + O^{( 1} n

)

(39)

となる。_φ(·)は標準正規密度関数である。

この密度関数を積分することにより、分布関数の近似が得られる。つまり、

Gn(u, F ) =

∫ u

−∞

g(x)dx = Φ(u) −¹₆√^µ³ n^φ

′′(u) + O^{( 1} n

)

(40)

= Φ(u) +¹ 6

µ3

√n^{(1 − u}

2)φ(u) + O^{( 1} n

)

(41)

となる。g1(u, F ) = µ3_{(1 − u}²)φ(u)/6は偶関数である。

ブートストラップ信頼区間の精度ブートストラップ法による近似は、漸近理論による解析的なやり方と比べて、精度がよい近似となっているかどうかが、焦点となる。

まず、漸近理論による方法であるが、これはθ^ˆ_n_{− θ}⁰の分布によるにせよ、t統計量によるせよ、エッジワース展開の最初の項のみを用いて行うため、近似の精度は1/^√nとなる。

次に、θ^ˆ_n_{− θ}0の分布に基づいたブートストラップ信頼区間を考える。以下では漸近分布による近似と同じ精度であることを示す。T_n = ^√n(ˆθ_n_{− θ}0)が漸近正規であるとすると、ブートストラップ分布は、

G_n(u, F_n) = Φ⁽^u ˆ σ

)+ O_p ( 1

√n )

(42)

となる。ここで、ˆσはブートストラップ分布での分散である。したがって、

Gn(u, Fn_{) − G}n(u, F ) = Φ⁽^u ˆ σ )

− Φ⁽_σ^u⁾^{+ O} ( 1

√n )

+ Op

( 1

√n )

= Op

( 1

√n )

(43)

(7)

となる。なお、等式の間にあるO(1/^√n)にpの添字がないのは、これがG_n(u, F )と正規分布関数の差であり、Gn(u, F )には乱数の要素はないからである。また、通常は、_{σ − σ =}ˆ Op(1/^√n)となるため上の二つ目の等式が成り立つ。よって、この方法では、漸近分布を利用するのとおなじ精度の信頼区間が得られる。ブートストラップを使用する理論的な利点はないが、それでも漸近分散の計算を避けることができるため、ブートストラップは有用である可能性がある。

次に、パーセンタイルt信頼区間を考える。これは漸近分布による近似よりも精度が良くなることを示す。このとき、Tnはt統計量のため、Tn_→dN (0, 1)である。つまり、

Gn(u, F ) = Φ (u) + _√¹

n^g¹(u, F ) + O^{( 1} n

)

(44)

かつ、

G_n(u, F_n) = Φ (u) +_√¹

n^g¹^{(u, F}ⁿ^{) + O}^p ( 1

n )

(45)

が得られる。ここで、F_nのF への収束速度は ^√nであるので、g1(u, F ) − g¹^{(u, F}n^{) =}

O_p(1/^√n)となり、

G_n(u, F_n_{) − G}_n(u, F ) = O_p^{( 1} n

)

(46)

となる。したがって、パーセンタイルt信頼区間は、漸近分布によるものよりも、精度が高い。

さらに、対称パーセンタイルt信頼区間を考え、さらに精度の高い近似となることを示す。 Φ(·)¯ ^を

Φ(u) = Φ(u) − Φ(−u) = 2Φ(u) − 1¯ ⁽⁴⁷⁾ とすると、T_nはt統計量の絶対値のため、T_nの漸近分布は_Φ(·)^¯ となる。さらにエッジワース展開により、

G_n(u, F ) = (

Φ (u) + _√¹

n^g¹^{(u, F ) +} 1

n^g²(u, F ) + O ( 1

n^√n ))

(48)

− (

Φ (−u) +√¹

n^g¹^{(−u, F ) +} 1

n^g²(−u, F ) + O ( 1

n^√n ))

(49)

= Φ(u) +^¯ ²

n^g²(u, F ) + O ( 1

n^√n )

(50)

となる。最後の等式は、g1_{が偶関数であり、}g2が奇関数であることより従う。同様に、ブートストラップ分布のエッジワース展開をすると、

Gn(u, Fn) = ¯Φ(u) + ²

n^g²^{(u, F}ⁿ^{) + O}^p ( 1

n^√n )

(51)

となる。Fnの収束速度が^√nのため、

G_n(u, F_n_{) − G}_n(u, F ) = O_p ( 1

n^√n )

(52)

となり、対称パーセンタイルt信頼区間は、さらに高い精度の信頼区間となっている。

(8)

7.6 他のブートストラップ法とサブサンプリング

ブートストラップ法にはいろいろな種類がある。ここではノンパラメトリックブートストラップ法を紹介したが、主なものとしては、以下のようなものがある。まず、F_nとして、経験分布でなく、パラメトリックに推定した分布を使用する。パラメトリックブートストラップがある。また回帰モデルなどで使われるワイルドブートストラップもよく知られている。これは、

y_i = g(x_i, β) + e_i (53)

という回帰式のためにE(e_i_|x_i) = 0という条件をブートストラップ分布でも成立するように、eˆ_iを回帰残差として、

Pr (

e^∗_i =

(1 +^√5 2

) ˆ e_i

)

=

√5 − 1

2^√5 ^, ⁽⁵⁴⁾

Pr (

e^∗_i =

(1 −^√⁵ 2

) ˆ e_i

)

=

√5 + 1

2^√5 ⁽⁵⁵⁾

という分布を考えるものである。この分布の下で、E(e^∗_i_|x_i) = 0, E((e^∗_i)²_|x_i) = ˆe²_i, E((e^∗_i)³_|x_i) = ˆ

e³_i がなりたつ。また時系列分析では、各観測点ごとに再抽出するのではなく、観測点の列をまとめて抽出するブロックブートストラップ法が使われる。

また、作業はブートストラップと似ているが、その哲学や理論が大きく異なる方法としてサブサンプリングがある。_{zi}, i = 1, . . . , nを標本とする。ここから、大きさbの標本を抽出する。そのような標本は

q = (n

b )

(56)

個ある。分布を近似したい統計量をτ_n(ˆθ_n_{− θ}0)とする。θ^ˆ_nを各部分標本で計算しなおした

ものをθ^ˆ_n,b,r とする。そして、分布を

L_n,b(u) = ¹ q

q

∑

r=1

1 (

τ_b(ˆθ_n,b,r_{− ˆ}θ_n_{) ≤ u}⁾ (57)

で近似する。これがサブサンプリング法である。

定理 ^1. ^τn^(ˆ^θn− θ⁰) →d^J(u)であるとする。この時、b → ∞, b/n → 0^かつ^τb^/τn → 0^であれば、L_n,b(u) − J(u) →p ⁰である。

定理にあるように、サブサンプリング法は、統計量が漸近分布をもてば、近似が正当化でき、これは非常に緩い条件のため、応用範囲が非常に広い。このため、漸近分布の解析的表現が難しい場合でブートストラップも使えない場合などでは、サブサンプリング法を用いて統計的推測を行うことが近年盛んになってきている。

7.7 _{さらなる学習のために}

このノートの作成に当たり、特に参考にしたのは、Hansen (2013)の10章である。また、

Horowitz (2001)は、ブートストラップ法が使用できない場合や、適用に当たって変更が必

要となる状況についての解説が多くあり、一読に値する。

(9)

Hall (1992)はブートストラップの理論の学習によく参考にされる書物であるが、読むのは大変である。サブサンプリングはPolitis, Romano and Wolf (1999)が読みやすく、また理論的に高度なところまで解説している。またサブサンプリング法については、近年その方法の適用可能性について計量経済学界で研究が進んでいる。たとえば、Andrews and Guggenberger (2009)などを参照。

参考文献

[1] D. W. K. Andrews and M. Buchinsky. A three-step method for choosing the number of bootstrap repetittions. Econometrica, 68(1):23–51, 2000.

[2] D. W. K. Andrews and P. Guggenberger. Hybrid and size-corrected subsampling methods. Econometrica, 77(3):721–762, 2009.

[3] P. Hall. The Bootstrap and Edgeworth Expansion. Springer-Verlag, 1992.

[4] B. E. Hansen. Econometrics. http://www.ssc.wisc.edu/~bhansen/econometrics/, 2013. [5] J. L. Horowitz. The bootstrap. In J. J. Heckman and E. Leamer, editors, Handbook of Econo-

metrics, volume 5, chapter 52, pages 3159–3228. Elsevier, 2001.

[6] D. N. Politis, J. P. Romano, and M. Wolf. Subsampling. Springer, 1999.

ブートストラップ 教育 OKUI, Ryo

7.1 ブートストラップとは

7.2 ノンパラメトリックブートストラップ

7.3 ブートストラップによるバイアスと分散の推定

7.4 ブートストラップによる信頼区間の構築

7.5 エッジワース展開によるブートストラップ法の理論

7.6 他のブートストラップ法とサブサンプリング

7.7 さらなる学習のために

参考文献

ブートストラップ教育 OKUI, Ryo

7.1 _{ブートストラップとは}

7.7 _{さらなる学習のために}