• 検索結果がありません。

ブートストラップ

ドキュメント内 mathematical statistics v4 (ページ 133-138)

FをR上のd.f.とし,X1, . . . , Xn ∼F i.i.d.とする.このとき,F の汎関数θ=θ(F) に対してCIを構成することを考える.θ(F)の例として,Fの平均,分散,分位点などが ある.さらに,θに対して,推定量

bθ=θ(Xb 1, . . . , Xn)

と何らかの統計量σb=σ(Xb 1, . . . , Xn)>0が存在して,n→ ∞のとき,

Tn:=

√n(bθ−θ) b σ

d T

とする.G(t) =P(T ≤t), t ∈Rとおき,α ∈(0,1)に対して,ξαをGの(1−α)分位点 とする:ξα =G(1−α).Gが連続なら,α, β >0, α+β <1に対して,

[θb−ξβbσ/√

n,θb−ξ1ασ/b √ n] はθに対する近似的に水準(1−α−β)のCIになる26.これは,

θ∈[

θb−ξβσ/b √

n,θb−ξ1αbσ/√ n]

⇔ξ1α

√n(bθ−θ) b

σ ≤ξβ

という同値関係からわかる.例えば,水準0.95のCIを構成したいなら,α=β = 0.025 とすればよい.

26ここではパラメータFであって,その関数θ(F)に対してCIを構成することを考えている.よっ て,ここでの設定はこれまでの設定と少し異なっている.

Example 5.5. σbとTの分布の組み合わせには任意性がある.あるτ =τ(F)>0が存在 して,n→ ∞のとき,

√n(θb−θ)→d N(0, τ2)

としよう.このとき,bσ= 1とすると,T ∼N(0, τ2)となり,bσをτの一致推定量とする と,T ∼N(0,1)となる.

ブートストラップ (bootstrap)とは統計量の標本分布を推定する汎用的な手法であり,

Efron (1979)によって提案された.Fbn(x) = n1n

i=1I(Xi ≤ x)を経験分布関数とし,

X1, . . . , Xnを所与として,

X1, . . . , Xn ∼Fbn

を人工的に発生させる.X1, . . . , Xnを ブートストラップ標本(bootstrap sample)と呼ぶ.

Pをブートストラップ標本に関する確率とする.例えば,

P(Xi ≤x) =Fbn(x) である.ここで,

θb =θ(Xb 1, . . . , Xn), bσ=bσ(X1, . . . , Xn), Tn =

√n(θb−θ)b b σ とおいて,TnのPのもとでのd.f.をGbnとおく:

Gbn(t) =P(Tn ≤t), t∈R.

GbnはX1, . . . , Xnに依存するから,確率的なd.f.である.また,ξbαをGbnの(1−α)分位 点とおく:

ξbα=Gbn (1−α).

GbnはGを近似していると考えられるから,

P(Tn≤ξbα)≈1−α となることが予想される.そこで,

[θb−ξbβbσ/√

n,θb−ξb1ασ/b √ n]

(*) というCIを考える.

Remark 5.4. ほとんどの場合,ξbαは陽には計算できないので,その計算はシミュレー ションによる.ブートストラップ標本を独立にB回発生させる:

X1,b , . . . , Xn,b ∼Fbn, b= 1, . . . , B, i.i.d.

このとき,bθb = θ(Xb 1,b , . . . , Xn,b ),σbb = bσ(X1,b , . . . , Xn,b ), Tn,b = √n(θbb−θ)/b bσbとおく と,X1, . . . , Xnを与えたとき,

Tn,1 , . . . , Tn,B ∼Gbn i.i.d.

であるから,Gbn(t)は

Gbn(t)≈ 1 B

B b=1

I(Tn,b ≤t) と近似できる.以上より,ξbα

ξbα ≈inf {

t∈R: 1 B

B b=1

I(Tn,b ≤t)≥1−α }

と近似すればよい.

• bσ= 1のとき,(*)のCIの構成法を パーセンタイル法 (percentile method)と呼ぶ.

ζbαをθbのPのもとでのd.f.の(1−α)分位点とする:

ζbα= inf{t∈R:P(bθ≤t)≥1−α}. このとき,Tn =√n(bθ−θ)b より,

ξbα=√n(bζα−bθ) となる.よって,パーセンタイル法によるCIは

[2θb−ζbβ,2θb−ζb1α

]

とも表せる.ζbαもブートスラップ標本を多数発生させることによって,近似計算で きる.

• √

n(θb−θ)→d N(0, τ2), τ >0であって,bσがτの一致推定量のとき,(*)のCIの構 成法を パーセンタイルt法(percentile t-method)と呼ぶ.

√n(bθ−θ)→d N(0, τ2)であって,τの一致推定量が容易に構成できる場合,パーセンタ イルt法は,パーセンタイル法や正規近似にもとづくCI [θb−zβbσ/√

n,θb−z1αbσ/√ n]と 比べて (ここでσbはτ の一致推定量とする),より小さい被覆確率の誤差をもつといわれ る27.しかし,パーセンタイル法はτ の推定を必要としない分,τの一致推定が難しい問 題に対しても有効である.そのような問題として,分位点の推定を考察してみよう.

27こうした被覆確率の比較はEdgeworth展開 と呼ばれる正規近似の精密評価にもとづく.詳細はHall (1993)を参照せよ.

Example 5.6. u ∈ (0,1)とし,F のu分位点θu = F(u)の推定を考える.経験分 布関数をFbn(x) = n1n

i=1I(Xi ≤ x)とおくと,θuの標準的な推定量は標本u分位点 θbu=Fbn(u)である.いま,Fは密度関数fをもち,fはθuで正かつ連続と仮定する.こ のとき, √n(bθu−θu)→d N

(

0,u(1−u) f(θu)2

)

となる (後述).ここで,漸近分散

u(1−u) f(θu)2

は未知の密度関数に依存していて,その推定はそれほど明らかではない.密度関数の値 f(θu)を一致推定する手法はいくつかあるが,その場合,バンド幅と呼ばれるパラメータ をユーザーが決めなければならない.

u分位点θuに対してパーセンタイル法を使ったCIを構成してみよう.θbuをブートスト ラップ標本X1, . . . , Xnにもとづく標本u分位点とする.すなわち,

Fbn(x) = 1 n

n i=1

I(Xi ≤x), x∈R とおくと,

θbu =Fbn∗←(u) = inf{x∈R:Fbn(x)≥u} である.そこで,θbuのPのもとでの1−α分位点をζbu,αとおく:

ζbu,α = inf{x∈R:P(bθu≤x)≥1−α}. このとき,パーセンタイル法にもとづくCIは

[2θbu−ζbu,β,2θbu−ζbu,1α

]

で与えられる.このCIの利点は複雑な漸近分散の推定を省略できる点にある.このCIは,

前述の仮定のもとで近似的に水準1−α−βをもつことが示される (6.2節を参照せよ). (*)のCIの漸近的な正当性を保証する十分条件を与えよう.

Theorem 5.3. Gは連続であって,さらに次の条件が成り立つことを仮定する:

sup

tR|Gbn(t)−G(t)|→P 0. (**) このとき,

P{ θ∈[

bθ−ξbβσ/b √

n,θb−ξb1αbσ/√ n]}

→1−α−β.

Proof. Gn(t) =P(Tn≤t), t∈Rとおく.Gnd GとGが連続なことから,P´olyaの定理 より,

sup

tR|Gn(t)−G(t)| →0 となる.Yn P

→0なら,ある数列εn→0が存在してP(|Yn|> εn)≤εnとなるから,十分 遅いεn→0に対して,

sup

tR|Gn(t)−G(t)| ≤εn, P {

sup

tR|Gbn(t)−G(t)| ≤εn }

>1−εn となる.そこで,

En= {

sup

tR|Gbn(t)−G(t)| ≤εn

}

⊂Ω とおくと,En上で,

Gbnαεn)≥G(ξαεn)−εn= 1−(α−εn)−εn= 1−α となることから,

ξbα ≤ξαεn onEn を得る.これから,

P(Tn≤ξbα)≤P(Tn≤ξαεn)

| {z }

=Gnα−εn)

+P(Enc)≤G(ξαεn) + 2εn= 1−α+ 3εn

を得る.次に,En上で,

G(ξbα)≥Gbn(ξbα)−εn≥1−α−εn

となることから,

ξα+εn ≤ξbα onEn

を得る.よって,

P(Tn≤ξbα)≥P(Tn≤ξα+εn)

| {z }

=Gnα+εn)

−P(Enc)≥G(ξα+εn)−2εn= 1−α−3εn.

以上より,P(Tn≤ξbα)→1−αを得る.同様に,P(Tn<ξbα)→1−αも従う.よって,

P{ θ∈[

θb−ξbβbσ/√

n,bθ−ξb1αbσ/√ n]}

=P(Tn≤ξbβ)−P(Tn<ξb1α)

→1−α−β となるから定理が示された.

(**)の条件は多くの例に対して成り立つが,ここではもっとも単純な例を考察しよう.

Example 5.7. E[X12]<∞と仮定して,θ=E[X1],θb=X,bσ= 1とする.このとき,

Tn=√

n(X−θ), Tn =√

n(X−X) である.また,τ2 = Var(X1)とおくと,CLTより,

Tnd N(0, τ2)

となる.τ >0と仮定すると,N(0, τ2)のd.f.はΦ(·/τ)である.このとき,

sup

tR|Gbn(t)−Φ(t/τ)|→P 0 (*3) となる.直観的には,Pのもとで,Xi, i= 1, . . . , nはi.i.d.であって,その平均と分散は それぞれX, n1n

i=1(Xi−X)2 =:τb2であるから,CLTより,

Gbn(t)≈Φ(t/bτ) (*4)

となることが予想される.さらに,bτ2P τ2であるから,

Φ(t/τb)→P Φ(t/τ)

であるので,(*3)が従うことが予想される.以上の議論は直観的なものであって,厳密で はない.厳密には,(*4)の近似の意味を明確にする必要があるし,(*3)を示すためには,

各t∈Rに対して確率収束Gbn(t)→P Φ(t/τ)を示すだけでは不十分であって,t∈Rに関し て一様に確率収束を示さなくてはならない.(*3)のフォーマルな証明は次節を参照せよ.

Example 5.8. ブートストラップは常にうまく働くわけではない.例えば,X1, . . . , Xn∼ U[0, θ] i.i.d.として,θに対してCIを構成することを考える.このとき,θのMLEはX(n) であって,n(θ−X(n))→d Ex(1/θ)となる.しかし,X1, . . . , XnのなかにX(n)が含まれる 確率は1−(1−(1/n))n= 1−e1+o(1)だから,(X1, . . . , Xn)を与えたとき,n(X(n)−X(n) ) は1−e1+o(1)の確率で0になってしまって,Pのもとでの分布がEx(1/θ)を近似し ない.よって,この場合,パーセンタイル法によるCIは誤った被覆確率をもつ.

ドキュメント内 mathematical statistics v4 (ページ 133-138)