(**)の条件は多くの例に対して成り立つが,ここではもっとも単純な例を考察しよう.
Example 5.7. E[X12]<∞と仮定して,θ=E[X1],θb=X,bσ= 1とする.このとき,
Tn=√
n(X−θ), Tn∗ =√
n(X∗−X) である.また,τ2 = Var(X1)とおくと,CLTより,
Tn→d N(0, τ2)
となる.τ >0と仮定すると,N(0, τ2)のd.f.はΦ(·/τ)である.このとき,
sup
t∈R|Gbn(t)−Φ(t/τ)|→P 0 (*3) となる.直観的には,P∗のもとで,Xi∗, i= 1, . . . , nはi.i.d.であって,その平均と分散は それぞれX, n−1∑n
i=1(Xi−X)2 =:τb2であるから,CLTより,
Gbn(t)≈Φ(t/bτ) (*4)
となることが予想される.さらに,bτ2 →P τ2であるから,
Φ(t/τb)→P Φ(t/τ)
であるので,(*3)が従うことが予想される.以上の議論は直観的なものであって,厳密で はない.厳密には,(*4)の近似の意味を明確にする必要があるし,(*3)を示すためには,
各t∈Rに対して確率収束Gbn(t)→P Φ(t/τ)を示すだけでは不十分であって,t∈Rに関し て一様に確率収束を示さなくてはならない.(*3)のフォーマルな証明は次節を参照せよ.
Example 5.8. ブートストラップは常にうまく働くわけではない.例えば,X1, . . . , Xn∼ U[0, θ] i.i.d.として,θに対してCIを構成することを考える.このとき,θのMLEはX(n) であって,n(θ−X(n))→d Ex(1/θ)となる.しかし,X1∗, . . . , Xn∗のなかにX(n)が含まれる 確率は1−(1−(1/n))n= 1−e−1+o(1)だから,(X1, . . . , Xn)を与えたとき,n(X(n)−X(n)∗ ) は1−e−1+o(1)の確率で0になってしまって,P∗のもとでの分布がEx(1/θ)を近似し ない.よって,この場合,パーセンタイル法によるCIは誤った被覆確率をもつ.
分布についてこれ以上の情報はないとき,CLTやブートストラップはこのようなUCBを 構成する方法を与えるが,水準に近似誤差が生じる.有限標本において(*)を 厳密に みた すようなUCBは作れないだろうか.もちろん,U(X) =bとしてしまえば,(*)が必ず成 り立つが,それでは意味がない.Fの分散σ2を既知とすると,CLTにもとづくUCBは U(X) = X+zασ/√
nであって,µとの差は|U(X)−µ| ≤ |X−µ|+|zα|σ/√
nである.
ここで,|X−µ|は“確率的に” O(n−1/2)であって28,zα =O(√
log(1/α)) (α→0)だか ら,µとの差がO(√
log(1/α)/√
n) (n→ ∞, α→ 0)であって,かつ(*)を厳密にみたす ようなUCBを作りたい.その1つの方法は次のHoeffdingの不等式を用いるものである.
Theorem 5.4 (Hoeffding (1963)). X1, . . . , Xnを独立なr.v.’sとし,各Xi はP(Xi ∈ [ai, bi]) = 1をみたすとする (−∞< ai< bi<∞).このとき,任意のx >0に対して,
P { n
∑
i=1
(Xi−E[Xi])> x }
≤e−
2x2
∑n
i=1(bi−ai)2 (**)
が成り立つ.
Proof. E[Xi] = 0と仮定してよい(このとき,ai≤0, bi ≥0である).Markovの不等式よ り,x, t >0に対して,
P ( n
∑
i=1
Xi> x )
=P(
et∑ni=1Xi > etx)
≤e−txE[et∑ni=1Xi] =e−tx
∏n i=1
E[etXi].
iを固定する.Xi∈[ai, bi]だから,α= (Xi−ai)/(bi−ai)とおくと,α∈[0,1]であって,
Xi =αbi+ (1−α)ai と表せる.ここで,x7→etxは凸関数だから,
etXi ≤αetbi+ (1−α)etai = Xi−ai
bi−ai etbi+bi−Xi
bi−ai etai であって,両辺の期待値をとって,
E[etXi]≤ −ai
bi−ai
| {z }
=γ
etbi+ bi
bi−aietai =e−γt(bi−ai){
γet(bi−ai)+ (1−γ)}
を得る.そこで,u = t(bi −ai), g(y) = −γy + log(1−γ +γey)とおくと,上式の最右 辺はeg(u)と表せる.ai ≤ 0よりγ ≥ 0だから,gはR上で定義されている.ここで,
g(0) =g′(0) = 0であって,
g′′(y) = γey(1−γ)
(1−γ+γey)2 = γey/(1−γ)
{1 +γey/(1−γ)}2 ≤ 1 4
28次節を参照.
だから,Taylorの定理より,g(u)≤u2/8 =t2(bi−ai)2/8を得る.以上より,
P ( n
∑
i=1
Xi> x )
≤e−tx+t2∑ni=1(bi−ai)2/8 を得る.あとは右辺をtについて最適化して定理の結論を得る.
(**)において,Xiを−Xiに取り替えると,任意のx >0に対して,
P { n
∑
i=1
(Xi−E[Xi])<−x }
≤e−
2x2
∑n
i=1(bi−ai)2
が成り立つことをわかる.これと(**)を合わせて,
P{
∑n i=1
(Xi−E[Xi]) > x
}
≤2e−
2x2
∑n
i=1(bi−ai)2, ∀x >0 を得る.
Chebyshevの不等式から導かれる評価
P{
∑n i=1
(Xi−E[Xi]) > x
}
≤x−2
∑n i=1
Var(Xi)
と比較すると,Hoeffdingの不等式はx→ ∞のとき,バウンドがe−const.x2 のオーダーで 減衰していくのに比べて,Chebyshevの不等式のバウンドはx−2のオーダーでしか減衰し ない.この意味で,Hoeffdingの不等式はよりシャープなバウンドと導くといえる(ただし,
Chebyshevの不等式は2次モーメントが有限であれば適用できるのに対して,Hoeffding
の不等式は有界なr.v.’sに対してしか適用できないことに注意する).
Hoeffdingの不等式 (Chebyshev不等式もであるが)は,集中不等式(concentration
in-equality)と呼ばれるものの代表的な例である29.近年,集中不等式は数理統計学や関連
分野において極めて重要な役割を果たすことが認識されてきている.集中不等式について は,Boucheron et al. (2013)が優れた文献である.
もともとの問題に戻ると,X1, . . . , Xnをi.i.d.とし,P(Xi ∈ [a, b]) = 1とする.µ = E[Xi]とおくと,Hoeffdingの不等式より,任意のα ∈(0,1)に対して,
X+ (b−a)
√log(1/α) 2n はµに対する水準(1−α)のUCBになる.
29集中不等式とはr.v.が適当な定数(平均やメディアン)から乖離する確率をバウンドする不等式のことを いう.
Example 5.9 (モンテカルロ近似に必要な標本サイズ). モンテカルロ近似に必要な標本 サイズを考察してみる.fをRk上の密度関数とし,h:Rk →[a, b]を所与の関数とする.
このとき,積分
J =
∫
h(x)f(x)dx
をモンテカルロ法によって近似する.X1, . . . , XN ∼f i.i.d.とし,
JN = 1 N
∑N i=1
h(Xi)
とする.所与のε >0とα∈(0,1) (いずれも十分小さい値とする)に対して,確率(1−α) 以上でJN がJのε近傍に入るように標本サイズNを決めたい.いま,E[JN] =Jであっ て,Hoeffdingの不等式より,
P(|JN −J| ≤ε)≥1−2e−
2N ε2 (b−a)2
となる.右辺が(1−α)に等しくなるようなN は,
N =N(ε, α) = (b−a)2
2ε2 log(2/α) である.
6 漸近理論
推定量の“良さ”を評価したり,検定統計量の棄却点を決めたり,信頼区間を構成する ときに,統計量の標本分布を求める必要があるが,有限標本において標本分布の厳密分布 を求めるのは難しいことが多い.また,そもそもパラメトリックモデルを仮定しない場合,
統計量の厳密分布の評価は(ほとんどの場合)不可能である.従って,そのような場合,漸 近理論に頼ることになる30.本節は漸近理論に関するごく基本的な内容を扱う.