2016.7.4. 修正:2016.7.7. 作成:加藤賢悟 ブートストラップ
FをR上のd.f.とし,X1, . . . , Xn ∼ F i.i.d.とする.このとき,F の汎関数θ = θ(F ) に対してCIを構成することを考える.θ(F )の例として,Fの平均,分散,分位点などが ある.さらに,θに対して,推定量
θ = ˆˆ θ(X1, . . . , Xn)
と何らかの統計量σ = ˆˆ σ(X1, . . . , Xn) > 0が存在して,n → ∞のとき,
Tn:=
√n(ˆθ − θ) ˆ σ
→ Td
とする.G(t) = P (T ≤ t), t ∈ Rとおき,α ∈ (0, 1)に対して,ξαをGの(1 − α)分位点 とする:ξα = G←(1 − α).Gが連続なら,α, β > 0, α + β < 1に対して,
[θ − ξˆ βσ/ˆ √n, ˆθ − ξ1−ασ/ˆ √n]
はθに対する近似的に水準(1 − α − β)のCIになる1.
Example 1. σˆとTの分布の組み合わせには任意性がある.あるτ = τ (F ) > 0が存在し て,n → ∞のとき,
√n(ˆθ − θ)→ N(0, τd 2)
としよう.このとき,σ = 1ˆ とすると,T ∼ N(0, τ2)となり,σˆをτの一致推定量とする と,T ∼ N(0, 1)となる.
ブートストラップ (bootstrap)とは統計量の標本分布を推定する汎用的な手法であり, Efron (1979)によって提案された.Fˆn(x) = n−1∑ni=1I(Xi ≤ x)を経験分布関数とし, X1, . . . , Xnを所与として,
X1∗, . . . , Xn∗ ∼ ˆFn
を人工的に発生させる.X1∗, . . . , Xn∗を ブートストラップ標本(bootstrap sample)と呼ぶ. P∗をブートストラップ標本に関する確率とする.例えば,
P∗(Xi∗ ≤ x) = ˆFn(x) である.ここで,
θˆ∗ = ˆθ(X1∗, . . . , Xn∗), ˆσ∗= ˆσ(X1∗, . . . , Xn∗), Tn∗ =
√n(ˆθ∗− ˆθ) ˆ σ∗
1ここでは
“パラメータ”はFであって,その“関数” θ(F )に対してCIを構成することを考えている.よっ て,ここでの設定はこれまでの設定と少し異なっている.
とおいて,Tn∗のP∗のもとでのd.f.をGˆnとおく:
Gˆn(t) = P∗(Tn∗ ≤ t), t ∈ R.
GˆnはX1, . . . , Xnに依存するから,ランダムなd.f.である.また,ξˆαをGˆnの(1 − α)分 位点とおく:
ξˆα= ˆG←n (1 − α). GˆnはGを近似していると考えられるから,
P (Tn≤ ˆξα) ≈ 1 − α
となることが予想される.そこで,
[θ − ˆˆ ξβσ/ˆ √n, ˆθ − ˆξ1−ασ/ˆ √n] (*)
というCIを考える.
• ˆσ = 1のとき,(*)のCIの構成法を パーセンタイル法 (percentile method)と呼ぶ. ζˆαをθˆ∗のP∗のもとでのd.f.の(1 − α)分位点とする:
ζˆα= inf{t ∈ R : P∗(ˆθ∗≤ t) ≥ 1 − α}.
このとき,Tn∗ =√n(ˆθ∗− ˆθ)より,
ξˆα=√n(ˆζα− ˆθ) となる.よって,パーセンタイル法によるCIは
[
2ˆθ − ˆζβ, 2ˆθ − ˆζ1−α
]
とも表せる.
• √n(ˆθ − θ)→ N(0, τd 2), τ > 0であって,σˆがτの一致推定量のとき,(*)のCIの構 成法を パーセンタイルt法(percentile t-method)と呼ぶ.
√n(ˆθ − θ)→ N(0, τd 2)であって,τの一致推定量が容易に構成できる場合,パーセンタ イルt法は,パーセンタイル法や正規近似にもとづくCI [ˆθ − zβσ/ˆ √n, ˆθ − z1−αˆσ/√n]と 比べて,より小さい被覆確率の誤差をもつといわれる2.しかし,パーセンタイル法はτ の推定を必要としない分,τ の一致推定が難しい問題に対しても有効である.そのような 問題として,分位点の推定がある.
Example 2. u ∈ (0, 1)とし,F のu分位点θu = F←(u)の推定を考える.経験分布関 数をFˆn(x) = n−1∑i=1n I(Xi ≤ x)とおいたとき,θuの標準的な推定量は標本u分位点 θˆu= ˆFn←(u)である.いま,Fは密度関数fをもち,fはθuで正かつ連続と仮定する.こ
のとき, √
n(ˆθu− θu)→ N(0, u(1 − u)/{f(θd u)}2) となる (後述).
Remark 1. ほとんどの場合,ξˆαは陽には計算できないので,その計算はシミュレーショ
ンによる.ブートストラップ標本を独立にB回発生させる:
X1,b∗ , . . . , Xn,b∗ ∼ ˆFn, b = 1, . . . , B, i.i.d.
このとき,θˆb∗ = ˆθ(X1,b∗ , . . . , Xn,b∗ ), ˆσ∗b = ˆσ(X1,b∗ , . . . , Xn,b∗ ), Tn,b∗ = √n(ˆθb∗− ˆθ)/ˆσb∗とおく と,X1, . . . , Xnを与えたとき,
Tn,1∗ , . . . , Tn,B∗ ∼ ˆGn i.i.d. であるから,Gˆn(t)は
Gˆn(t) ≈
1 B
∑B b=1
I(Tn,b∗ ≤ t)
と近似できる.以上より,ξˆαは
ξˆα ≈ inf
{
t ∈ R : B1
∑B b=1
I(Tn,b∗ ≤ t) ≥ 1 − α }
と近似すればよい.
(*)のCIの漸近的な正当性を証明しよう.
Theorem 1. Gは連続であって,さらに次の条件が成り立つことを仮定する:
sup
t∈R| ˆ
Gn(t) − G(t)|→ 0.P (**)
このとき,
P{θ ∈[θ − ˆˆ ξβσ/ˆ √n, ˆθ − ˆξ1−αˆσ/√n]}→ 1 − α − β.
Proof. Gn(t) = P (Tn≤ t), t ∈ Rとおく.Gn→ Gd とGが連続なことから,ポリアの定理 より,
sup
t∈R|Gn(t) − G(t)| → 0
となる.Yn→ 0P なら,∃εn→ 0 s.t. P (|Yn| > εn) ≤ εnとなるから,十分遅いεn→ 0に 対して,
sup
t∈R|G
n(t) − G(t)| ≤ εn, P {
sup
t∈R| ˆ
Gn(t) − G(t)| ≤ εn }
> 1 − εn となる.そこで,
En= {
sup
t∈R| ˆ
Gn(t) − G(t)| ≤ εn }
⊂ Ω とおくと,En上で,
Gˆn(ξα−εn) ≥ G(ξα−εn) − εn= 1 − (α − εn) − εn= 1 − α となることから,
ξˆα ≤ ξα−εn on En
を得る.これから,
P (Tn≤ ˆξα) ≤ P (Tn≤ ξα−εn)
| {z }
=Gn(ξα−εn)
+P (Enc) ≤ G(ξα−εn) + 2εn= 1 − α + 3εn
を得る.次に,En上で,
G( ˆξα) ≥ ˆGn( ˆξα) − εn≥ 1 − α − εn となることから,
ξα+εn ≤ ˆξα on En
を得る.よって,
P (Tn≤ ˆξα) ≥ P (Tn≤ ξα+εn)
| {z }
=Gn(ξα+εn)
−P (Enc) ≥ G(ξα+εn) − 2εn= 1 − α − 3εn.
以上より,P (Tn≤ ˆξα) → 1 − αを得る.同様に,P (Tn< ˆξα) → 1 − αも従う.よって, P{θ ∈[θ − ˆˆ ξβσ/ˆ √n, ˆθ − ˆξ1−ασ/ˆ √n]}
= P (Tn≤ ˆξβ) − P (Tn< ˆξ1−α)
→ 1 − α − β.
(**)の条件は多くの例に対して成り立つが,ここではもっとも単純な例を考察しよう.
Example 3. E[Xi2] < ∞と仮定して,θ = E[Xi], ˆθ = X, ˆσ = 1とする.このとき, Tn=√n(X − θ), Tn∗ =
√n(X∗− X)
である.また,τ2 = Var(Xi)とおくと,CLTより,
Tn→ N(0, τd 2)
となる.τ > 0と仮定すると,N (0, τ2)のd.f.はΦ(·/τ)である.このとき, sup
t∈R| ˆ
Gn(t) − Φ(t/τ)|→ 0P
となる.証明は後述.
Example 4. ブートストラップはつねにうまく働くわけではない.例えば,X1, . . . , Xn∼
U [0, θ] i.i.d.として,θに対してCIを構成することを考える.このとき,θのMLEはX(n) であって,n(θ − X(n))→ Ex(1/θ)d となる.しかし,X1∗, . . . , Xn∗のなかにX(n)が含まれる 確率は1−(1−(1/n))n= 1−e−1+o(1)だから,(X1, . . . , Xn)を与えたとき,n(X(n)−X(n)∗ ) は1 − e−1+ o(1)の確率で0になってしまって,P∗のもとでの分布がEx(1/θ)を近似し ない.よって,この場合,パーセンタイル法によるCIは誤った被覆確率をもつ.
参考文献
Efron, B. (1979). Bootstrap: another look at the jackknife. Ann. Statist. 7 1-26. Hall, P. (1993). The Bootstrap and Edgeworth Expansion. Springer.