ブートストラップ数理統計 2016 S1・S2 Kengo Kato

(1)

2016.7.4. 修正：2016.7.7. 作成：加藤賢悟ブートストラップ

FをR上のd.f.とし，X₁, . . . , Xn _{∼ F i.i.d.}とする．このとき，F の汎関数θ = θ(F ) に対してCIを構成することを考える．θ(F )の例として，Fの平均，分散，分位点などがある．さらに，θに対して，推定量

θ = ˆˆ θ(X1, . . . , Xn)

と何らかの統計量σ = ˆˆ σ(X1, . . . , Xn) > 0が存在して，_{n → ∞}のとき，

Tn:=

√n(ˆ_{θ − θ)} ˆ σ

→ Td

とする．G(t) = P (T ≤ t), t ∈ R^とおき，α ∈ (0, 1)^{に対して，}^ξαをGの_{(1 − α)}分位点とする：ξ_α = G^←_{(1 − α)}．Gが連続なら，α, β > 0, α + β < 1に対して，

[_{θ − ξ}ˆ _β_σ/_ˆ ^√_{n, ˆ}_{θ − ξ}_1−α_σ/_ˆ ^√_n^]

はθに対する近似的に水準(1 − α − β)^の^CI^になる¹^．

Example 1. σˆとTの分布の組み合わせには任意性がある．あるτ = τ (F ) > 0が存在して，_{n → ∞}のとき，

√n(ˆ_{θ − θ)}_{→ N(0, τ}^d ²)

としよう．このとき，σ = 1ˆ とすると，_{T ∼ N(0, τ}²)となり，σˆをτの一致推定量とすると，T ∼ N(0, 1)^となる．

ブートストラップ (bootstrap)とは統計量の標本分布を推定する汎用的な手法であり， Efron (1979)によって提案された．F^ˆn(x) = n⁻¹^∑ⁿ_i=1I(Xi _{≤ x)}を経験分布関数とし， X₁, . . . , Xnを所与として，

X₁^∗, . . . , X_n^∗ _{∼ ˆ}F_n

を人工的に発生させる．X₁^∗, . . . , X_n^∗をブートストラップ標本(bootstrap sample)と呼ぶ． P^∗をブートストラップ標本に関する確率とする．例えば，

P^∗(X_i^∗ _{≤ x) = ˆ}Fn(x) である．ここで，

θˆ^∗ = ˆθ(X₁^∗, . . . , X_n^∗), ˆσ^∗= ˆσ(X₁^∗, . . . , X_n^∗), T_n^∗ =

√n(ˆθ^∗_{− ˆ}θ) ˆ σ^∗

1_ここでは

“パラメータ”は^Fであって，その“関数” θ(F )に対してCIを構成することを考えている．よって，ここでの設定はこれまでの設定と少し異なっている．

(2)

とおいて，T_n^∗のP^∗のもとでのd.f.をG^ˆnとおく：

Gˆ_n(t) = P^∗(T_n^∗ ≤ t), t ∈ R.

GˆnはX₁, . . . , Xnに依存するから，ランダムなd.f.である．また，ξ^ˆαをG^ˆnの_{(1 − α)}分位点とおく：

ξˆ_α= ˆG^←_n _{(1 − α).} GˆnはGを近似していると考えられるから，

P (Tn_{≤ ˆ}ξα_{) ≈ 1 − α}

となることが予想される．そこで，

[_{θ − ˆ}ˆ _ξ_β_σ/_ˆ ^√_{n, ˆ}_{θ − ˆ}_ξ_1−α_σ/_ˆ ^√_n^] _(*)

というCIを考える．

• ˆσ = 1^のとき，^(*)^の^CIの構成法をパーセンタイル法 (percentile method)と呼ぶ． ζˆαをθ^ˆ^∗のP^∗のもとでのd.f.の_{(1 − α)}分位点とする：

ζˆα= inf{t ∈ R : P^∗^(ˆ^θ^∗≤ t) ≥ 1 − α}.

このとき，T_n^∗ =^√n(ˆθ^∗_{− ˆ}θ)より，

ξˆ_α=^√n(ˆζ_α_{− ˆ}θ) となる．よって，パーセンタイル法によるCIは

[

2ˆ_{θ − ˆ}ζβ, 2ˆ_{θ − ˆ}ζ1−α

]

とも表せる．

• ^√^n(ˆθ − θ)→ N(0, τ^d ²), τ > 0であって，σˆがτの一致推定量のとき，(*)のCIの構成法をパーセンタイルt法(percentile t-method)と呼ぶ．

√n(ˆ_{θ − θ)}_{→ N(0, τ}^d ²)であって，τの一致推定量が容易に構成できる場合，パーセンタイルt法は，パーセンタイル法や正規近似にもとづくCI [ˆ_{θ − z}βσ/ˆ ^√n, ˆ_{θ − z}_1−αˆσ/^√n]と比べて，より小さい被覆確率の誤差をもつといわれる²．しかし，パーセンタイル法はτ の推定を必要としない分，τ の一致推定が難しい問題に対しても有効である．そのような問題として，分位点の推定がある．

(3)

Example 2. _{u ∈ (0, 1)}とし，F のu分位点θu = F^←(u)の推定を考える．経験分布関数をF^ˆn(x) = n⁻¹^∑_i=1ⁿ I(Xi _{≤ x)}とおいたとき，θuの標準的な推定量は標本u分位点 θˆ_u= ˆF_n^←(u)である．いま，Fは密度関数fをもち，fはθ_uで正かつ連続と仮定する．こ

のとき， √

n(ˆθu_{− θ}u)→ N(0, u(1 − u)/{f(θ^d ^u)}²⁾ となる (後述)．

Remark 1. ほとんどの場合，ξ^ˆαは陽には計算できないので，その計算はシミュレーショ

ンによる．ブートストラップ標本を独立にB回発生させる：

X_1,b^∗ , . . . , X_n,b^∗ _{∼ ˆ}Fn, b = 1, . . . , B, i.i.d.

このとき，θ^ˆ_b^∗ = ˆθ(X_1,b^∗ , . . . , X_n,b^∗ ), ˆσ^∗_b = ˆσ(X_1,b^∗ , . . . , X_n,b^∗ ), T_n,b^∗ = ^√n(ˆθ_b^∗_{− ˆ}θ)/ˆσ_b^∗とおくと，X1, . . . , Xnを与えたとき，

T_n,1^∗ , . . . , T_n,B^∗ _{∼ ˆ}G_n i.i.d. であるから，G^ˆn(t)は

Gˆn_{(t) ≈}

1 B

∑B b=1

I(T_n,b^∗ _{≤ t)}

と近似できる．以上より，ξ^ˆ_αは

ξˆα _{≈ inf}

{

t ∈ R : _B¹

∑B b=1

I(T_n,b^∗ ≤ t) ≥ 1 − α }

と近似すればよい．

(*)のCIの漸近的な正当性を証明しよう．

Theorem 1. Gは連続であって，さらに次の条件が成り立つことを仮定する：

sup

t∈R^{| ˆ}

Gn(t) − G(t)|→ 0.^P ^(**)

このとき，

P^{_{θ ∈}^[_{θ − ˆ}^ˆ ξ_βσ/ˆ ^√n, ˆ_{θ − ˆ}ξ_1−αˆσ/^√n^]}→ 1 − α − β.

Proof. Gn(t) = P (Tn≤ t), t ∈ R^とおく．^Gⁿ→ G^d ^と^Gが連続なことから，ポリアの定理より，

sup

t∈R^|Gⁿ(t) − G(t)| → 0

(4)

となる．Y_n_{→ 0}^P なら，_∃εn→ 0 s.t. P (|Yn| > εn) ≤ εnとなるから，十分遅いε_n_{→ 0}に対して，

sup

t∈R^|G

n(t) − G(t)| ≤ εⁿ^{, P} {

sup

t∈R^{| ˆ}

Gn(t) − G(t)| ≤ εⁿ }

> 1 − εⁿ となる．そこで，

En= {

sup

t∈R^{| ˆ}

Gn(t) − G(t)| ≤ εⁿ }

⊂ Ω とおくと，E_n上で，

Gˆn(ξα−εn_{) ≥ G(ξ}α−εn_{) − ε}n= 1 − (α − εⁿ) − εⁿ= 1 − α となることから，

ξˆα _{≤ ξ}α−εn on En

を得る．これから，

P (T_n_{≤ ˆ}ξ_α_{) ≤ P (T}_n_{≤ ξ}_α−εn)

| {z }

=Gn(ξ_α−εn)

+P (E_n^c_{) ≤ G(ξ}_α−εn) + 2ε_n= 1 − α + 3εn

を得る．次に，E_n上で，

G( ˆξα_{) ≥ ˆ}Gn( ˆξα_{) − ε}n≥ 1 − α − εⁿ となることから，

ξ_α+εn _{≤ ˆ}ξα on En

を得る．よって，

P (T_n_{≤ ˆ}ξ_α_{) ≥ P (T}_n_{≤ ξ}_α+εn)

| {z }

=Gn(ξα_+εn)

−P (En^c) ≥ G(ξα+εⁿ) − 2εn= 1 − α − 3εn^.

以上より，P (T_n_{≤ ˆ}ξ_α_{) → 1 − α}を得る．同様に，P (T_n< ˆξ_α_{) → 1 − α}も従う．よって， P^{_{θ ∈}^[_{θ − ˆ}^ˆ ξβσ/ˆ ^√n, ˆ_{θ − ˆ}ξ_1−ασ/ˆ ^√n^]}

= P (Tn_{≤ ˆ}ξβ_{) − P (T}n< ˆξ1−α)

→ 1 − α − β.

(**)の条件は多くの例に対して成り立つが，ここではもっとも単純な例を考察しよう．

(5)

Example 3. E[X_i²_{] < ∞}と仮定して，θ = E[Xi], ˆθ = X, ˆσ = 1とする．このとき， Tn=^√n(X − θ), Tn^∗ ⁼

√n(X^∗_{− X)}

である．また，τ² = Var(Xi)とおくと，CLTより，

T_n_{→ N(0, τ}^d ²)

となる．τ > 0と仮定すると，N (0, τ²)のd.f.は_Φ(·/τ)である．このとき， sup

t∈R^{| ˆ}

Gn(t) − Φ(t/τ)|→ 0^P

となる．証明は後述．

Example 4. ブートストラップはつねにうまく働くわけではない．例えば，X₁, . . . , Xn_∼

U [0, θ] i.i.d.として，θに対してCIを構成することを考える．このとき，θのMLEはX_(n) であって，_{n(θ − X}_(n))_{→ Ex(1/θ)}^d となる．しかし，X₁^∗, . . . , X_n^∗のなかにX_(n)が含まれる確率は1−(1−(1/n))ⁿ= 1−e⁻¹^+o(1)^だから，^(X1, . . . , X_n)を与えたとき，n(X_(n)_−X_(n)^∗ ) は_{1 − e}⁻¹+ o(1)の確率で0になってしまって，P^∗のもとでの分布がEx(1/θ)を近似しない．よって，この場合，パーセンタイル法によるCIは誤った被覆確率をもつ．

参考文献

Efron, B. (1979). Bootstrap: another look at the jackknife. Ann. Statist. 7 1-26. Hall, P. (1993). The Bootstrap and Edgeworth Expansion. Springer.

ブートストラップ 数理統計 2016 S1・S2 Kengo Kato

参考文献

ブートストラップ数理統計 2016 S1・S2 Kengo Kato