Hoeffding の不等式 - mathematical statistics v4

(**)の条件は多くの例に対して成り立つが，ここではもっとも単純な例を考察しよう．

Example 5.7. E[X₁²]<∞^{と仮定して，}θ=E[X₁],θb=X,bσ= 1とする．このとき，

T_n=√

n(X−θ), T_n^∗ =√

n(X^∗−X) である．また，τ² = Var(X₁)とおくと，CLTより，

T_n→^d N(0, τ²)

となる．τ >0と仮定すると，N(0, τ²)のd.f.はΦ(·/τ)である．このとき，

sup

t∈R|Gb_n(t)−Φ(t/τ)|→^P 0 (*3) となる．直観的には，P^∗のもとで，X_i^∗, i= 1, . . . , nはi.i.d.であって，その平均と分散はそれぞれX, n⁻¹∑n

i=1(Xi−X)² =:τb²であるから，CLTより，

Gb_n(t)≈Φ(t/bτ) (*4)

となることが予想される．さらに，bτ² →^P τ²であるから，

Φ(t/τb)→^P Φ(t/τ)

であるので，(*3)が従うことが予想される．以上の議論は直観的なものであって，厳密ではない．厳密には，(*4)の近似の意味を明確にする必要があるし，(*3)を示すためには，

各t∈Rに対して確率収束Gbn(t)→^P Φ(t/τ)を示すだけでは不十分であって，t∈Rに関して一様に確率収束を示さなくてはならない．(*3)のフォーマルな証明は次節を参照せよ．

Example 5.8. ブートストラップは常にうまく働くわけではない．例えば，X1, . . . , Xn∼ U[0, θ] i.i.d.として，θに対してCIを構成することを考える．このとき，θのMLEはX_(n) であって，n(θ−X_(n))→^d Ex(1/θ)となる．しかし，X₁^∗, . . . , X_n^∗のなかにX_(n)が含まれる確率は1−(1−(1/n))ⁿ= 1−e⁻¹+o(1)だから，(X₁, . . . , X_n)を与えたとき，n(X_(n)−X_(n)^∗ ) は1−e⁻¹+o(1)の確率で0になってしまって，P^∗のもとでの分布がEx(1/θ)を近似しない．よって，この場合，パーセンタイル法によるCIは誤った被覆確率をもつ．

分布についてこれ以上の情報はないとき，CLTやブートストラップはこのようなUCBを構成する方法を与えるが，水準に近似誤差が生じる．有限標本において(*)を厳密にみたすようなUCBは作れないだろうか．もちろん，U(X) =bとしてしまえば，(*)が必ず成り立つが，それでは意味がない．Fの分散σ²を既知とすると，CLTにもとづくUCBは U(X) = X+zασ/√

nであって，µとの差は|U(X)−µ| ≤ |X−µ|+|zα|σ/√

nである．

ここで，|X−µ|^は“確率的に” O(n⁻^1/2)であって²⁸，z_α =O(√

log(1/α)) (α→0)だから，µとの差がO(√

log(1/α)/√

n) (n→ ∞, α→ 0)であって，かつ(*)を厳密にみたすようなUCBを作りたい．その1つの方法は次のHoeffdingの不等式を用いるものである．

Theorem 5.4 (Hoeffding (1963)). X₁, . . . , X_nを独立なr.v.’sとし，各X_i はP(X_i ∈ [ai, bi]) = 1をみたすとする (−∞< ai< bi<∞)．このとき，任意のx >0に対して，

P { _n

∑

i=1

(X_i−E[X_i])> x }

≤e⁻

2x2

∑n

i=1(bi−ai)2 (**)

が成り立つ．

Proof. E[Xi] = 0と仮定してよい(このとき，ai≤0, bi ≥0である)．Markovの不等式より，x, t >0に対して，

P ( _n

∑

i=1

X_i> x )

=P(

e^t^∑ⁿⁱ⁼¹^Xⁱ > e^tx)

≤e⁻^txE[e^t^∑ⁿⁱ⁼¹^Xⁱ] =e⁻^tx

∏n i=1

E[e^tXⁱ].

iを固定する．X_i∈[a_i, b_i]だから，α= (X_i−a_i)/(b_i−a_i)とおくと，α∈[0,1]であって，

X_i =αb_i+ (1−α)a_i と表せる．ここで，x7→e^txは凸関数だから，

e^tXⁱ ≤αe^tbⁱ+ (1−α)e^taⁱ = Xi−ai

b_i−a_i e^tbⁱ+bi−Xi

b_i−a_i e^taⁱ であって，両辺の期待値をとって，

E[e^tXⁱ]≤ −ai

b_i−a_i

| {z }

=γ

e^tbⁱ+ bi

b_i−a_ie^taⁱ =e⁻^γt(bⁱ⁻^aⁱ⁾{

γe^t(bⁱ⁻^aⁱ⁾+ (1−γ)}

を得る．そこで，u = t(b_i −a_i), g(y) = −γy + log(1−γ +γe^y)とおくと，上式の最右辺はe^g(u)と表せる．a_i ≤ 0よりγ ≥ 0だから，gはR上で定義されている．ここで，

g(0) =g^′(0) = 0であって，

g^′′(y) = γe^y(1−γ)

(1−γ+γe^y)² = γe^y/(1−γ)

{1 +γe^y/(1−γ)}² ≤ 1 4

28次節を参照．

だから，Taylorの定理より，g(u)≤u²/8 =t²(b_i−a_i)²/8を得る．以上より，

P ( _n

∑

i=1

Xi> x )

≤e⁻^tx+t²^∑ⁿⁱ⁼¹^(bⁱ⁻^aⁱ⁾²^/8 を得る．あとは右辺をtについて最適化して定理の結論を得る．

(**)において，X_iを−X_iに取り替えると，任意のx >0に対して，

P { _n

∑

i=1

(X_i−E[X_i])<−x }

≤e⁻

2x2

∑n

i=1(bi−ai)2

が成り立つことをわかる．これと(**)を合わせて，

∑n i=1

(X_i−E[X_i]) > x

}

≤2e⁻

2x2

∑n

i=1(bi−ai)2, ∀x >0 を得る．

Chebyshevの不等式から導かれる評価

∑n i=1

(X_i−E[X_i]) > x

}

≤x⁻²

∑n i=1

Var(X_i)

と比較すると，Hoeffdingの不等式はx→ ∞^{のとき，バウンドが}e⁻^const.x² のオーダーで減衰していくのに比べて，Chebyshevの不等式のバウンドはx⁻²のオーダーでしか減衰しない．この意味で，Hoeffdingの不等式はよりシャープなバウンドと導くといえる(ただし，

Chebyshevの不等式は2次モーメントが有限であれば適用できるのに対して，Hoeffding

の不等式は有界なr.v.’sに対してしか適用できないことに注意する)．

Hoeffdingの不等式 (Chebyshev不等式もであるが)は，集中不等式(concentration

in-equality)と呼ばれるものの代表的な例である²⁹．近年，集中不等式は数理統計学や関連

分野において極めて重要な役割を果たすことが認識されてきている．集中不等式については，Boucheron et al. (2013)が優れた文献である．

もともとの問題に戻ると，X₁, . . . , X_nをi.i.d.とし，P(X_i ∈ [a, b]) = 1とする．µ = E[X_i]とおくと，Hoeffdingの不等式より，任意のα ∈(0,1)に対して，

X+ (b−a)

√log(1/α) 2n はµに対する水準(1−α)のUCBになる．

29集中不等式とはr.v.が適当な定数(平均やメディアン)から乖離する確率をバウンドする不等式のことをいう．

Example 5.9 (モンテカルロ近似に必要な標本サイズ). モンテカルロ近似に必要な標本サイズを考察してみる．fをR^k上の密度関数とし，h:R^k →[a, b]を所与の関数とする．

このとき，積分

J =

∫

h(x)f(x)dx

をモンテカルロ法によって近似する．X₁, . . . , X_N ∼f i.i.d.とし，

J_N = 1 N

∑N i=1

h(X_i)

とする．所与のε >0とα∈(0,1) (いずれも十分小さい値とする)に対して，確率(1−α) 以上でJ_N がJのε近傍に入るように標本サイズNを決めたい．いま，E[J_N] =Jであって，Hoeffdingの不等式より，

P(|J_N −J| ≤ε)≥1−2e⁻

2N ε2 (b−a)2

となる．右辺が(1−α)に等しくなるようなN は，

N =N(ε, α) = (b−a)²

2ε² log(2/α) である．

6 漸近理論

推定量の“良さ”を評価したり，検定統計量の棄却点を決めたり，信頼区間を構成するときに，統計量の標本分布を求める必要があるが，有限標本において標本分布の厳密分布を求めるのは難しいことが多い．また，そもそもパラメトリックモデルを仮定しない場合，

統計量の厳密分布の評価は(ほとんどの場合)不可能である．従って，そのような場合，漸近理論に頼ることになる³⁰．本節は漸近理論に関するごく基本的な内容を扱う．

ドキュメント内 mathematical statistics v4 (ページ 138-142)