FをR上のd.f.とし,X1, . . . , Xn ∼F i.i.d.とする.このとき,F の汎関数θ=θ(F) に対してCIを構成することを考える.θ(F)の例として,Fの平均,分散,分位点などが ある.さらに,θに対して,推定量
bθ=θ(Xb 1, . . . , Xn)
と何らかの統計量σb=σ(Xb 1, . . . , Xn)>0が存在して,n→ ∞のとき,
Tn:=
√n(bθ−θ) b σ
→d T
とする.G(t) =P(T ≤t), t ∈Rとおき,α ∈(0,1)に対して,ξαをGの(1−α)分位点 とする:ξα =G←(1−α).Gが連続なら,α, β >0, α+β <1に対して,
[θb−ξβbσ/√
n,θb−ξ1−ασ/b √ n] はθに対する近似的に水準(1−α−β)のCIになる26.これは,
θ∈[
θb−ξβσ/b √
n,θb−ξ1−αbσ/√ n]
⇔ξ1−α≤
√n(bθ−θ) b
σ ≤ξβ
という同値関係からわかる.例えば,水準0.95のCIを構成したいなら,α=β = 0.025 とすればよい.
26ここでは“パラメータ”はFであって,その“関数”θ(F)に対してCIを構成することを考えている.よっ て,ここでの設定はこれまでの設定と少し異なっている.
Example 5.5. σbとTの分布の組み合わせには任意性がある.あるτ =τ(F)>0が存在 して,n→ ∞のとき,
√n(θb−θ)→d N(0, τ2)
としよう.このとき,bσ= 1とすると,T ∼N(0, τ2)となり,bσをτの一致推定量とする と,T ∼N(0,1)となる.
ブートストラップ (bootstrap)とは統計量の標本分布を推定する汎用的な手法であり,
Efron (1979)によって提案された.Fbn(x) = n−1∑n
i=1I(Xi ≤ x)を経験分布関数とし,
X1, . . . , Xnを所与として,
X1∗, . . . , Xn∗ ∼Fbn
を人工的に発生させる.X1∗, . . . , Xn∗を ブートストラップ標本(bootstrap sample)と呼ぶ.
P∗をブートストラップ標本に関する確率とする.例えば,
P∗(Xi∗ ≤x) =Fbn(x) である.ここで,
θb∗ =θ(Xb 1∗, . . . , Xn∗), bσ∗=bσ(X1∗, . . . , Xn∗), Tn∗ =
√n(θb∗−θ)b b σ∗ とおいて,Tn∗のP∗のもとでのd.f.をGbnとおく:
Gbn(t) =P∗(Tn∗ ≤t), t∈R.
GbnはX1, . . . , Xnに依存するから,確率的なd.f.である.また,ξbαをGbnの(1−α)分位 点とおく:
ξbα=Gb←n (1−α).
GbnはGを近似していると考えられるから,
P(Tn≤ξbα)≈1−α となることが予想される.そこで,
[θb−ξbβbσ/√
n,θb−ξb1−ασ/b √ n]
(*) というCIを考える.
Remark 5.4. ほとんどの場合,ξbαは陽には計算できないので,その計算はシミュレー ションによる.ブートストラップ標本を独立にB回発生させる:
X1,b∗ , . . . , Xn,b∗ ∼Fbn, b= 1, . . . , B, i.i.d.
このとき,bθb∗ = θ(Xb 1,b∗ , . . . , Xn,b∗ ),σb∗b = bσ(X1,b∗ , . . . , Xn,b∗ ), Tn,b∗ = √n(θbb∗−θ)/b bσb∗とおく と,X1, . . . , Xnを与えたとき,
Tn,1∗ , . . . , Tn,B∗ ∼Gbn i.i.d.
であるから,Gbn(t)は
Gbn(t)≈ 1 B
∑B b=1
I(Tn,b∗ ≤t) と近似できる.以上より,ξbαは
ξbα ≈inf {
t∈R: 1 B
∑B b=1
I(Tn,b∗ ≤t)≥1−α }
と近似すればよい.
• bσ= 1のとき,(*)のCIの構成法を パーセンタイル法 (percentile method)と呼ぶ.
ζbαをθb∗のP∗のもとでのd.f.の(1−α)分位点とする:
ζbα= inf{t∈R:P∗(bθ∗≤t)≥1−α}. このとき,Tn∗ =√n(bθ∗−θ)b より,
ξbα=√n(bζα−bθ) となる.よって,パーセンタイル法によるCIは
[2θb−ζbβ,2θb−ζb1−α
]
とも表せる.ζbαもブートスラップ標本を多数発生させることによって,近似計算で きる.
• √
n(θb−θ)→d N(0, τ2), τ >0であって,bσがτの一致推定量のとき,(*)のCIの構 成法を パーセンタイルt法(percentile t-method)と呼ぶ.
√n(bθ−θ)→d N(0, τ2)であって,τの一致推定量が容易に構成できる場合,パーセンタ イルt法は,パーセンタイル法や正規近似にもとづくCI [θb−zβbσ/√
n,θb−z1−αbσ/√ n]と 比べて (ここでσbはτ の一致推定量とする),より小さい被覆確率の誤差をもつといわれ る27.しかし,パーセンタイル法はτ の推定を必要としない分,τの一致推定が難しい問 題に対しても有効である.そのような問題として,分位点の推定を考察してみよう.
27こうした被覆確率の比較はEdgeworth展開 と呼ばれる正規近似の精密評価にもとづく.詳細はHall (1993)を参照せよ.
Example 5.6. u ∈ (0,1)とし,F のu分位点θu = F←(u)の推定を考える.経験分 布関数をFbn(x) = n−1∑n
i=1I(Xi ≤ x)とおくと,θuの標準的な推定量は標本u分位点 θbu=Fbn←(u)である.いま,Fは密度関数fをもち,fはθuで正かつ連続と仮定する.こ のとき, √n(bθu−θu)→d N
(
0,u(1−u) f(θu)2
)
となる (後述).ここで,漸近分散
u(1−u) f(θu)2
は未知の密度関数に依存していて,その推定はそれほど明らかではない.密度関数の値 f(θu)を一致推定する手法はいくつかあるが,その場合,バンド幅と呼ばれるパラメータ をユーザーが決めなければならない.
u分位点θuに対してパーセンタイル法を使ったCIを構成してみよう.θb∗uをブートスト ラップ標本X1∗, . . . , Xn∗にもとづく標本u分位点とする.すなわち,
Fbn∗(x) = 1 n
∑n i=1
I(Xi∗ ≤x), x∈R とおくと,
θb∗u =Fbn∗←(u) = inf{x∈R:Fbn∗(x)≥u} である.そこで,θb∗uのP∗のもとでの1−α分位点をζbu,αとおく:
ζbu,α = inf{x∈R:P∗(bθ∗u≤x)≥1−α}. このとき,パーセンタイル法にもとづくCIは
[2θbu−ζbu,β,2θbu−ζbu,1−α
]
で与えられる.このCIの利点は複雑な漸近分散の推定を省略できる点にある.このCIは,
前述の仮定のもとで近似的に水準1−α−βをもつことが示される (6.2節を参照せよ). (*)のCIの漸近的な正当性を保証する十分条件を与えよう.
Theorem 5.3. Gは連続であって,さらに次の条件が成り立つことを仮定する:
sup
t∈R|Gbn(t)−G(t)|→P 0. (**) このとき,
P{ θ∈[
bθ−ξbβσ/b √
n,θb−ξb1−αbσ/√ n]}
→1−α−β.
Proof. Gn(t) =P(Tn≤t), t∈Rとおく.Gn→d GとGが連続なことから,P´olyaの定理 より,
sup
t∈R|Gn(t)−G(t)| →0 となる.Yn P
→0なら,ある数列εn→0が存在してP(|Yn|> εn)≤εnとなるから,十分 遅いεn→0に対して,
sup
t∈R|Gn(t)−G(t)| ≤εn, P {
sup
t∈R|Gbn(t)−G(t)| ≤εn }
>1−εn となる.そこで,
En= {
sup
t∈R|Gbn(t)−G(t)| ≤εn
}
⊂Ω とおくと,En上で,
Gbn(ξα−εn)≥G(ξα−εn)−εn= 1−(α−εn)−εn= 1−α となることから,
ξbα ≤ξα−εn onEn を得る.これから,
P(Tn≤ξbα)≤P(Tn≤ξα−εn)
| {z }
=Gn(ξα−εn)
+P(Enc)≤G(ξα−εn) + 2εn= 1−α+ 3εn
を得る.次に,En上で,
G(ξbα)≥Gbn(ξbα)−εn≥1−α−εn
となることから,
ξα+εn ≤ξbα onEn
を得る.よって,
P(Tn≤ξbα)≥P(Tn≤ξα+εn)
| {z }
=Gn(ξα+εn)
−P(Enc)≥G(ξα+εn)−2εn= 1−α−3εn.
以上より,P(Tn≤ξbα)→1−αを得る.同様に,P(Tn<ξbα)→1−αも従う.よって,
P{ θ∈[
θb−ξbβbσ/√
n,bθ−ξb1−αbσ/√ n]}
=P(Tn≤ξbβ)−P(Tn<ξb1−α)
→1−α−β となるから定理が示された.
(**)の条件は多くの例に対して成り立つが,ここではもっとも単純な例を考察しよう.
Example 5.7. E[X12]<∞と仮定して,θ=E[X1],θb=X,bσ= 1とする.このとき,
Tn=√
n(X−θ), Tn∗ =√
n(X∗−X) である.また,τ2 = Var(X1)とおくと,CLTより,
Tn→d N(0, τ2)
となる.τ >0と仮定すると,N(0, τ2)のd.f.はΦ(·/τ)である.このとき,
sup
t∈R|Gbn(t)−Φ(t/τ)|→P 0 (*3) となる.直観的には,P∗のもとで,Xi∗, i= 1, . . . , nはi.i.d.であって,その平均と分散は それぞれX, n−1∑n
i=1(Xi−X)2 =:τb2であるから,CLTより,
Gbn(t)≈Φ(t/bτ) (*4)
となることが予想される.さらに,bτ2 →P τ2であるから,
Φ(t/τb)→P Φ(t/τ)
であるので,(*3)が従うことが予想される.以上の議論は直観的なものであって,厳密で はない.厳密には,(*4)の近似の意味を明確にする必要があるし,(*3)を示すためには,
各t∈Rに対して確率収束Gbn(t)→P Φ(t/τ)を示すだけでは不十分であって,t∈Rに関し て一様に確率収束を示さなくてはならない.(*3)のフォーマルな証明は次節を参照せよ.
Example 5.8. ブートストラップは常にうまく働くわけではない.例えば,X1, . . . , Xn∼ U[0, θ] i.i.d.として,θに対してCIを構成することを考える.このとき,θのMLEはX(n) であって,n(θ−X(n))→d Ex(1/θ)となる.しかし,X1∗, . . . , Xn∗のなかにX(n)が含まれる 確率は1−(1−(1/n))n= 1−e−1+o(1)だから,(X1, . . . , Xn)を与えたとき,n(X(n)−X(n)∗ ) は1−e−1+o(1)の確率で0になってしまって,P∗のもとでの分布がEx(1/θ)を近似し ない.よって,この場合,パーセンタイル法によるCIは誤った被覆確率をもつ.