• 検索結果がありません。

ブートストラップ 教育 OKUI, Ryo

N/A
N/A
Protected

Academic year: 2018

シェア "ブートストラップ 教育 OKUI, Ryo"

Copied!
9
0
0

読み込み中.... (全文を見る)

全文

(1)

平成26年度 ミクロ計量経済学 講義ノート7 ブートストラップ

このノートでは、ブートスラップによる統計量の分布を近似する方法を解説する。統計量 の分布を近似することは、検定や母数の信頼区間を求める上で、重要な作業である。最もよ く使用されている近似法は、漸近分布によるものである。しかし、ブートストラップによっ て、漸近分布の導出が難しい場合での近似が可能になることもあり、また漸近分布が導出で きる場合でもさらに精度の高い近似ができることが知られている。ブートストラップの近似 もその理論的背景は漸近理論によるものであるが、実際の使用上は漸近分布による近似と異 なり、コンピューターを用いたシミュレーションを行う。こうしたコンピューターの計算能 力に依存する方法は、近年の実証研究においてますます重要性を増しており、その手法を正 しく理解することは、研究者にとって不可欠となっている。

7.1 ブートストラップとは

はじめに、統計量の定義を確認する。あるデータ{zi}, i = 1, . . . , nがあり、その分布を Fとする。そのデータから、Tnという統計量を計算する。つまり、TnはziとFの関数と して書ける。

Tn= Tn(z1, . . . , zn, F ). (1) 統計量TnはF に依存することもある。例えば、t検定統計量には、真の母数の値が入って いるので、F に依存する。

検定や信頼区間の構築に当たっては、統計量Tnの分布の近似が必要となる。なお、正確 な分布の導出には、非常に強い条件が必要となる場合が多く、しかも正確な分布は実用的で ないほどに複雑になる場合も多い。近似の方法は、主に二つある。

1. 漸近分布

2. ブートストラップ

これらの近似は次のように定義される。Tnの分布をGnとする。

Gn(u) = Pr(Tn≤ u|F ). (2)

漸近分布Gは、Gnの極限である。

G(u) = lim

n→∞Gn(u). (3)

一方ブートストラップとは、F の近似あるいは推定量Fnを使用して

Gn(u) = Pr(Tn≤ u|Fn) (4)

をTnの分布の近似として利用するものである。どのようなFnを利用するかによって、い ろいろなブートスラップの種類がある。

• なお、ブートストラップというと、コンピューターシミュレーションによる方法を指 すとイメージがあり、実際に行う作業からすると、そのイメージは間違いではないが、 厳密な意味でのブートストラップの定義からすると誤りである。ブートストラップは、 上記のように、単にデータの分布を何らかの推定量で置き換えて、統計量の分布を近 似する方法であり、コンピューターシミュレーションはそのための一手段に過ぎない。

(2)

7.2 ノンパラメトリックブートストラップ

ブートストラップの方法のうちで最もよく使用されているのは、ノンパラメトリックブー トストラップと呼ばれる方法である。ノンパラメトリックブートストラップでは、Fnとし て経験分布を使用する。経験分布とは、観測されたデータの分布である。数学上は、

n(u) = 1 n

n

i=1

1(zi≤ u) (5)

と定義する。

例 簡単な数値例をあげる。仮にデータが{1, 1, 2}であったとする。この経験分布は、

Pr(x = 1) = 2/3, Pr(x = 2) = 1/3 (6)

である。さて、標本平均のブートストラップ分布を求めてみよう。上記の経験分布の下での 標本平均の分布が、ノンパラメトリックブートストラップ分布である。その分布は簡単な計 算の下で、

Pr( ¯X = 1) = ( 2 3

)3

= 8

27, (7)

Pr (

X =¯ 4 3

)

= 3( 2 3

)2 1 3 =

12 27 =

4

9, (8)

Pr (

X =¯ 5 3

)

= 32 3

( 1 3

)2

= 6 27 =

2

9, (9)

Pr(X = 2¯ ) = ( 1 3

)3

= 1

27 (10)

と求まる。

再抽出法 ブートストラップ分布の計算は、通常はシミュレーションによって行う。ノンパ ラメトリックブートストラップによる近似は、上の例のように原理的には、厳密に求めるこ とが可能である。しかし、データ数が多い場合などでは、そのような計算は労力がかかりす ぎて、実用的ではない。しかし、モンテカルロシミュレーションによって、求める分布をコ ンピューターを使用することにより、比較的簡単に求めることができる。

1. {zi}, i = 1, . . . , nの中から一つziを、確率1/nで抽出する。

2. 上の作業をn回繰り返す。{zi}, i = 1, . . . , nという新しいデータセットを得る。 3. Tn = Tn(z1. . . , zn, ˆFn)を計算する。

4. 上の1-3をB回計算する。B個の統計量の組、Tn(b), b = 1. . . . , Bを得る。 5. Tn(b), b = 1. . . . , Bの経験分布をブートストラップ分布の近似として得る。

Bはできるだけ大きく取るほうが望ましい。B = 1000ぐらいあれば十分と思われる。統 計量の計算に時間がかかる場合などは、B = 50ぐらいで済ませる場合もある。Bの選び方 については、Andrews and Buchinsky (2000)が方法を提唱している。

(3)

7.3 ブートストラップによるバイアスと分散の推定

ブートストラップによるバイアスの推定を紹介する。θを求める母数とし、θˆnをその推定 量とする。バイアスは、E(ˆθn− θ)である。これをブートストラップによって求めてみよう。 Tn= ˆθn− θであるので、再抽出法によるバイアスの推定値は、

1 B

B

b=1

Tn(b) = 1 B

B

b=1

(ˆθn(b) − ˆθn) = ¯ˆθn− ˆθn (11)

である。なお、θをθˆnで置き換えるのは、θˆnがFnの下でのθの真の値であるからである。 θはFの元での真値であり、一般にFnの元での真値とは異なる。

ブートストラップによるバイアス修正推定量は、

θˆn− (θ¯ˆn− ˆθn) = 2ˆθnθ¯ˆn (12) となる。

次に、ブートストラップ分散推定量を考える。これは、

1 B

B

b=1

(ˆθn(b) −θ¯ˆn)2 (13)

である。ブートストラップ標準誤差は、 v u u t

1 B

B

b=1

(ˆθn(b) −θ¯ˆn)2 (14)

となる。ブートストラップ標準誤差は、解析的に標準誤差の計算をすることが難しい場合 (いくつもの段階を踏む推定方法や、構造モデルの推定量など)に良く使われている方法で ある。

7.4 ブートストラップによる信頼区間の構築

信頼区間とは、ある確率で真のパラメーターを含む確率的な区間である。ここでは、θ0

スカラーである場合を考える。αを真の確率を含まない確率とすると、信頼区間は、Lnと Unという次の性質を満たす統計量である。

1 − α = Pr(Ln≤ θ ≤ Un). (15)

さて、信頼区間をTn = ˆθn− θ0 の分布から構築することを考える。Tnの分位点関数を qn(α)とする。つまりα = Gn(qn(α))を満たすものとして、qn(α)を定義する。このとき、 1 − α = Pr(qn(α/2) ≤ Tn≤ qn(1 − α/2)) (16)

= Pr(ˆθn− qn(1 − α/2) ≤ θ0 ≤ ˆθn− qn(α/2)) (17)

であるので、

[ˆθn− qn(1 − α/2), ˆθn− qn(α/2)] (18)

(4)

が信頼区間として使える。

分位点関数qnをブートストラップで求めることにより、信頼区間を構築できる。つまり、 再抽出法によるなら、

α = 1 B

B

b=1

1θ

n(b) − ˆθn≤ qn(α)) (19)

として、qnという関数を求め、

[ˆθn− qn(1 − α/2), ˆθn− qn(α/2)] (20)

がブートストラップ信頼区間となる。θˆn− θ0でなく、θˆnを考え、そのブートストラップ分 布での分位点関数をq˜nとするなら、

[2ˆθn− ˜qn(1 − α/2), ˆ2θn− ˜qn(α/2)] (21)

がブートストラップ信頼区間である。

• よく使われるが潜在的に問題のある方法は、信頼区間として、

[˜qn(α/2), ˜qn(1 − α/2)] (22) を使用するものである。この方法は、確率1 − αでθˆnが入る区間を推定している。信 頼区間は、ある確率でθ0が入る区間であり、θˆnが入る区間ではない。したがって、こ の方法でえら得るものは、適切な信頼区間となるとは限らない。θˆnの分布がθ0で対

称の場合などでは、この方法でも適切な信頼区間が得られるため、θˆnが漸近正規性を 持つ場合などでは、漸近的に正当化可能である。しかし、一般にその保証はなく、ま たブートストラップの手法の自然な適用でもない。問題は、この方法が実際には良く 使われている、もしかすると上で紹介した適切な信頼区間よりも、良く使われている 可能性があることである。

パーセンタイルt信頼区間 上の方法では、θˆn− θ0の分布を利用したが、理論的には、t検 定統計量の分布を利用したほうが、より正確なブートストラップ信頼区間が得られることが 分かっている。その理論は次の節で紹介する。ここでは、信頼区間の導出を説明する。統計 量として、t統計量、Tn= (ˆθn− θ0)/s(ˆθn)を考える。s(ˆθn)はθˆnの標準誤差である。Tnの ブートストラップ分布での分位点関数をqnとする。つまり、再抽出法によるなら、

α = 1 B

B

b=1

1( ˆθ

n(b) − ˆθn

s(ˆθn(b)) ≤ q

n(α)

)

(23)

として定義する。標準誤差もブートストラップのもとで計算することが肝要である。信頼区 間は、

[ˆθn− s(ˆθn)qn(1 − α/2), ˆθn− s(ˆθn)qn(α/2)] (24)

として求めることができる。この信頼区間をパーセンタイルt信頼区間と呼ぶ。

(5)

対称パーセンタイルt信頼区間 さらに理論的に優れている信頼区間は、Tn= |ˆθn−θ0|/s(ˆθn)

の分布を利用することで得られる。Tnのブートストラップ分布での分位点関数をqnとし、 [ˆθn− s(ˆθn)qn(1 − α), ˆθn+ s(ˆθn)qn(1 − α)] (25) として、信頼区間を構築する。この信頼区間を対称パーセンタイルt信頼区間と呼ぶ。

7.5 エッジワース展開によるブートストラップ法の理論

ここでは、ブートストラップの理論を簡単に紹介する。まず、エッジワース展開を説明す る。エッジワース展開は、中心極限定理をさらに高次まで拡張したもので、その証明も中心 極限定理の拡張といえる。

エッジワース展開 これは、統計量の分布の高次漸近展開の一種である。統計量Tnは漸近 正規であるとする。つまり漸近分散をσ2として

TndN (0, σ2) (26)

であると仮定する。Tnの分布をGn(u, F )とかく。このとき、ある条件のもとで、

Gn(u, F ) = Φ(u σ

) +1

ng1(u, F ) + 1

ng2(u, F ) + O ( 1

nn )

(27)

となる。ここで、Φ(·)は標準正規分布関数、g1(·, ·)は偶関数、g2(·, ·)は奇関数である。この

Gn(u, F )の展開をエッジワース展開と呼ぶ。

エッジワース展開の証明の仕方 エッジワース展開の証明は、中心極限定理の証明と同じよ うに、特性関数を使用して行う。ここでは、簡単のために{zi}, i = 1, . . . , nがスカラーの 列で、i.i.d.であり、E(zi) = 0かつE(zi2) = 1の場合を考え、Tn=n¯zとする。また、上 の展開のg1の導出だけを考える。g2の導出も同様にできるが計算がさらに複雑になる。

最初に特性関数の展開を行う。Tnの特性関数は、

ψ(t) = E(eitTn) (28)

である。特性関数と分布関数は一対一に対応するため、特性関数の近似を与えれば、分布関 数の近似を得ることができる。ψzをzの分布の特性関数とすると、

ψ(t) = E (

exp (

it1 n

n

i=1

zi ))

= (

E (

exp (

it nzi

)))n

(29)

= (

ψz

( t

√n ))n

= exp (

n log ψz

( t

√n ))

(30)

と書ける。これをt/n = 0の周りでテーラー展開すると、

n log ψz

( t

√n )

(31)

= n log ψz(0) + nψ

z(0)

ψz(0)

√t n + n

1 2

( ψ′′z(0) ψz(0)

z(0))2z(0))2

) ( t

√n )2

(32)

+n1 6

( ψz′′′(0) ψz(0) − 3

ψz(0)ψz′′(0) (ψz(0))2 +

z(0))3z(0))3

) ( t

√n )3

+ O (

n ( t

√n )4)

(33)

(6)

ここで、ψz(0) = 1、ψz(0) = iE(zi) = 0、ψz′′(0) = i2E(zi2) = −1であり、E(zi3) = µ3と定

義すると、ψz′′′(0) = i3E(zi3) = −iµ3である。よって、

n log ψz ( t

√n )

= −1 2t

2i 6µ3

t3

√n + O ( t4

n )

(34)

となり、ψ(t)の近似は、

ψ(t) = exp (

t

2

2 )

exp (

6iµ3 t

3

√n+ O ( t4

n ))

(35)

= exp (

t

2

2 ) (

1 −6iµ3 t

3

√n + O ( 1

n ))

(36)

として与えられる。なお、二つ目の等式では、expのテーラー展開を使用している。 この特性関数の近似から、密度関数を求める。これには、ラブラス逆変換の一種を使用す る。g(u)を密度関数とすると

g(u) = 1

eiutψ(t)dt = 1

eiutet2/2 (

1 −6iµ3 t

3

√n+ O ( 1

n ))

dt (37)

= 1

eiutet2/2dt − 1

eiutet2/2i 6µ3

t3

ndt + O( 1n )

(38)

= φ(u) −16µ3 nφ

′′′(u) + O( 1 n

)

(39)

となる。φ(·)は標準正規密度関数である。

この密度関数を積分することにより、分布関数の近似が得られる。つまり、

Gn(u, F ) =

u

−∞

g(x)dx = Φ(u) −16µ3 nφ

′′(u) + O( 1 n

)

(40)

= Φ(u) +1 6

µ3

√n(1 − u

2)φ(u) + O( 1 n

)

(41)

となる。g1(u, F ) = µ3(1 − u2)φ(u)/6は偶関数である。

ブートストラップ信頼区間の精度 ブートストラップ法による近似は、漸近理論による解析 的なやり方と比べて、精度がよい近似となっているかどうかが、焦点となる。

まず、漸近理論による方法であるが、これはθˆn− θ0の分布によるにせよ、t統計量によ るせよ、エッジワース展開の最初の項のみを用いて行うため、近似の精度は1/nとなる。

次に、θˆn− θ0の分布に基づいたブートストラップ信頼区間を考える。以下では漸近分布 による近似と同じ精度であることを示す。Tn = n(ˆθn− θ0)が漸近正規であるとすると、 ブートストラップ分布は、

Gn(u, Fn) = Φ(u ˆ σ

)+ Op ( 1

√n )

(42)

となる。ここで、ˆσはブートストラップ分布での分散である。したがって、

Gn(u, Fn) − Gn(u, F ) = Φ(u ˆ σ )

− Φ(σu)+ O ( 1

√n )

+ Op

( 1

√n )

= Op

( 1

√n )

(43)

(7)

となる。なお、等式の間にあるO(1/n)にpの添字がないのは、これがGn(u, F )と正規 分布関数の差であり、Gn(u, F )には乱数の要素はないからである。また、通常は、σ − σ =ˆ Op(1/n)となるため上の二つ目の等式が成り立つ。よって、この方法では、漸近分布を利 用するのとおなじ精度の信頼区間が得られる。ブートストラップを使用する理論的な利点は ないが、それでも漸近分散の計算を避けることができるため、ブートストラップは有用であ る可能性がある。

次に、パーセンタイルt信頼区間を考える。これは漸近分布による近似よりも精度が良く なることを示す。このとき、Tnはt統計量のため、TndN (0, 1)である。つまり、

Gn(u, F ) = Φ (u) + 1

ng1(u, F ) + O( 1 n

)

(44)

かつ、

Gn(u, Fn) = Φ (u) +1

ng1(u, Fn) + Op ( 1

n )

(45)

が得られる。ここで、FnのF への収束速度は nであるので、g1(u, F ) − g1(u, Fn) =

Op(1/n)となり、

Gn(u, Fn) − Gn(u, F ) = Op( 1 n

)

(46)

となる。したがって、パーセンタイルt信頼区間は、漸近分布によるものよりも、精度が 高い。

さらに、対称パーセンタイルt信頼区間を考え、さらに精度の高い近似となることを示す。 Φ(·)¯

Φ(u) = Φ(u) − Φ(−u) = 2Φ(u) − 1¯ (47) とすると、Tnはt統計量の絶対値のため、Tnの漸近分布はΦ(·)¯ となる。さらにエッジワー ス展開により、

Gn(u, F ) = (

Φ (u) + 1

ng1(u, F ) + 1

ng2(u, F ) + O ( 1

nn ))

(48)

− (

Φ (−u) +√1

ng1(−u, F ) + 1

ng2(−u, F ) + O ( 1

nn ))

(49)

= Φ(u) +¯ 2

ng2(u, F ) + O ( 1

nn )

(50)

となる。最後の等式は、g1が偶関数であり、g2が奇関数であることより従う。同様に、ブー トストラップ分布のエッジワース展開をすると、

Gn(u, Fn) = ¯Φ(u) + 2

ng2(u, Fn) + Op ( 1

nn )

(51)

となる。Fnの収束速度がnのため、

Gn(u, Fn) − Gn(u, F ) = Op ( 1

nn )

(52)

となり、対称パーセンタイルt信頼区間は、さらに高い精度の信頼区間となっている。

(8)

7.6 他のブートストラップ法とサブサンプリング

ブートストラップ法にはいろいろな種類がある。ここではノンパラメトリックブートスト ラップ法を紹介したが、主なものとしては、以下のようなものがある。まず、Fnとして、経 験分布でなく、パラメトリックに推定した分布を使用する。パラメトリックブートストラッ プがある。また回帰モデルなどで使われるワイルドブートストラップもよく知られている。 これは、

yi = g(xi, β) + ei (53)

という回帰式のためにE(ei|xi) = 0という条件をブートストラップ分布でも成立するよう に、eˆiを回帰残差として、

Pr (

ei =

(1 +5 2

) ˆ ei

)

=

√5 − 1

25 , (54)

Pr (

ei =

(1 −5 2

) ˆ ei

)

=

√5 + 1

25 (55)

という分布を考えるものである。この分布の下で、E(ei|xi) = 0, E((ei)2|xi) = ˆe2i, E((ei)3|xi) = ˆ

e3i がなりたつ。また時系列分析では、各観測点ごとに再抽出するのではなく、観測点の列を まとめて抽出するブロックブートストラップ法が使われる。

また、作業はブートストラップと似ているが、その哲学や理論が大きく異なる方法として サブサンプリングがある。{zi}, i = 1, . . . , nを標本とする。ここから、大きさbの標本を抽 出する。そのような標本は

q = (n

b )

(56)

個ある。分布を近似したい統計量をτn(ˆθn− θ0)とする。θˆnを各部分標本で計算しなおした

ものをθˆn,b,r とする。そして、分布を

Ln,b(u) = 1 q

q

r=1

1 (

τb(ˆθn,b,r− ˆθn) ≤ u) (57)

で近似する。これがサブサンプリング法である。

定理 1. τnθn− θ0) →dJ(u)であるとする。この時、b → ∞, b/n → 0かつτbn → 0 あれば、Ln,b(u) − J(u) →p 0である。

定理にあるように、サブサンプリング法は、統計量が漸近分布をもてば、近似が正当化で き、これは非常に緩い条件のため、応用範囲が非常に広い。このため、漸近分布の解析的表 現が難しい場合でブートストラップも使えない場合などでは、サブサンプリング法を用いて 統計的推測を行うことが近年盛んになってきている。

7.7 さらなる学習のために

このノートの作成に当たり、特に参考にしたのは、Hansen (2013)の10章である。また、

Horowitz (2001)は、ブートストラップ法が使用できない場合や、適用に当たって変更が必

要となる状況についての解説が多くあり、一読に値する。

(9)

Hall (1992)はブートストラップの理論の学習によく参考にされる書物であるが、読むの は大変である。サブサンプリングはPolitis, Romano and Wolf (1999)が読みやすく、ま た理論的に高度なところまで解説している。またサブサンプリング法については、近年そ の方法の適用可能性について計量経済学界で研究が進んでいる。たとえば、Andrews and Guggenberger (2009)などを参照。

参考文献

[1] D. W. K. Andrews and M. Buchinsky. A three-step method for choosing the number of boot- strap repetittions. Econometrica, 68(1):23–51, 2000.

[2] D. W. K. Andrews and P. Guggenberger. Hybrid and size-corrected subsampling methods. Econometrica, 77(3):721–762, 2009.

[3] P. Hall. The Bootstrap and Edgeworth Expansion. Springer-Verlag, 1992.

[4] B. E. Hansen. Econometrics. http://www.ssc.wisc.edu/~bhansen/econometrics/, 2013. [5] J. L. Horowitz. The bootstrap. In J. J. Heckman and E. Leamer, editors, Handbook of Econo-

metrics, volume 5, chapter 52, pages 3159–3228. Elsevier, 2001.

[6] D. N. Politis, J. P. Romano, and M. Wolf. Subsampling. Springer, 1999.

参照

関連したドキュメント

ところが,ろう教育の大きな目標は,聴覚口話

詳細情報: 発がん物質, 「第 1 群」はヒトに対して発がん性があ ると判断できる物質である.この群に分類される物質は,疫学研 究からの十分な証拠がある.. TWA

大学は職能人の育成と知の創成を責務とし ている。即ち,教育と研究が大学の両輪であ

などに名を残す数学者であるが、「ガロア理論 (Galois theory)」の教科書を

ピアノの学習を取り入れる際に必ず提起される

読書試験の際には何れも陰性であった.而して

節の構造を取ると主張している。 ( 14b )は T-ing 構文、 ( 14e )は TP 構文である が、 T-en 構文の例はあがっていない。 ( 14a

しい昨今ではある。オコゼの美味には 心ひかれるところであるが,その猛毒には要 注意である。仄聞 そくぶん