MLE の漸近理論 - mathematical statistics v4

この展開は標本分位点に対するBahadur表現とも呼ばれる．bθ_u^∗に対しても同様にして，

√n(θb^∗_u−θu) = 1 f(θ_u)

√n{u−Fb_n^∗(θu)}+oP(1) という展開が成り立つ．これらから，

√n(θb^∗_u−θbu) = 1 f(θ_u)

√n{Fbn(θu)−Fb_n^∗(θu)}

| {z }

=U_n^∗

+oP(1)

を得る．ここで，P^∗のもとで，I(X_i^∗ ≤ θ_u), i = 1, . . . , nがi.i.d.で平均Fb_n(θ_u)と分散 Fbn(θu)(1−Fbn(θu)) =u(1−u) +oP(1)をもつことと，Berry-Esseenの定理から，

sup

t∈R|P^∗(U_n^∗ ≤t)−Φ(t/σu)|→^P 0

を得る．Φ(t/σ_u)が連続なことを使って，求める結論を得る．

Remark 6.4. 標本分位点に対する漸近正規性は，汎関数デルタ法(functional delta method) によっても示すことができる．こちらのほうがよりモダンな証明方法である．ブートストラップの正当性も汎関数デルタ法を使って示すことができる．汎関数デルタ法の厳密な説明は講義ノートのレベルを超えるので，関心がある場合は，van der Vaart (1998)を参照せよ．

と定義される．ℓⁿ(θ)がθについてなめらかで，θbがΘの内点なら，θbは尤度方程式 ℓ˙ⁿ(θ) =

(∂ℓⁿ(θ)

∂θ₁ , . . . ,∂ℓⁿ(θ)

∂θ_k )_′

= 0 をみたす．

以下では，k= 1のとき，MLEの漸近正規性を示そう．説明のために，p(·;θ)は密度関数とする．Θ⊂Rを開区間，θ=θ0を真値として，次の条件を仮定する．

• A:={u∈ X :p(u;θ)>0}^はθによらない．

• p(u;θ)はθについて3回微分可能である．

• θ₀の開近傍B ⊂Θと関数g:A→R₊, H :A→R₊が存在して，

∂p(u;θ)

∂θ

≤g(u),

∂²p(u;θ)

∂θ²

≤g(u),

∂³ℓ(u;θ)

∂θ³

≤H(u), ∀u∈A,∀θ∈B,

∫

g(u)du <∞, E_θ₀[H(X1)]<∞ をみたす．

• 0< I(θ0) :=E_θ₀[{ℓ(X˙ 1;θ0)}²]<∞.

以上の仮定のもとで，Lebesgueの優収束定理より，次の微分と積分の交換が成り立つ：

θ∈Bに対して，

∫ ∂p(u;θ)

∂θ du= d dθ

∫

p(u;θ)du= 0,

∫ ∂²p(u;θ)

∂θ² du= d² dθ²

∫

p(u;θ)du= 0.

よって，情報量等式

I(θ₀) =E_θ₀[−ℓ(X¨ ₁;θ₀)]

が成り立つ．

Theorem 6.10 (Cram´er (1946)). (a)次をみたす推定量bθが存在する：n→ ∞^のとき，

P_θ₀{ℓ˙ⁿ(bθ) = 0} →1, θb→^P θ. (*) (b) (*)をみたす任意の推定量θbに対して，√n(bθ−θ₀)→^d N(0,1/I(θ₀)).

Proof. (a). θ∈Bに対して，Taylorの定理より，θとθ₀の間の点θが存在して，

nℓ˙ⁿ(θ) = 1 nℓ˙ⁿ(θ0)

| {z }

=Sn

+1 nℓ¨ⁿ(θ0)

| {z }

=Jn

(θ−θ0) + 1 2n

...ℓⁿ(θ)(θ−θ0)²

と展開できる．ここで，大数の弱法則より，

S_n= 1 n

∑n i=1

ℓ(X˙ _i;θ₀)→^P 0, J_n= 1 n

∑n i=1

ℓ(X¨ _i;θ₀)→ −^P I(θ₀)<0, であって，さらに，

1 n|...

ℓⁿ(θ)| ≤ 1 n

∑n i=1

H(X_i)→^P E_θ₀[H(X₁)] =:C となる．従って，

nℓ˙ⁿ(θ) +I(θ₀)(θ−θ₀)

≤o_P(1) +o_P(1)|θ−θ₀|+1

2{C+o_P(1)}(θ−θ₀)² を得る．ここで，o_P(1)の項はθに依存しない．Y_n =o_P(1)なら，∃ε_n↓0 s.t. P(|Y_n|>

ε_n)≤ε_nとなるから，十分遅いε_n→0に対して，

P_θ₀{

∃θ∈[θ₀−ε_n, θ₀+ε_n] s.t. ˙ℓⁿ(θ) = 0}

→1 を得る．そこで，

θb=





min{θ∈[θ₀−ε_n, θ₀+ε_n] : ˙ℓⁿ(θ) = 0} 右辺の集合が空でないとき

0 それ以外のとき

とおくと，P_θ₀{ℓ˙ⁿ(bθ) = 0} →1であって，bθ→^P θ₀をみたす．

(b). bθを(*)をみたす推定量とする．このとき，Taylorの定理より，θbとθ₀の間の点θ が存在して，

nℓ˙ⁿ(θ) =b Sn+Jn(θb−θ0) + 1 2n

...ℓⁿ(θ)(θb−θ0)²

と展開できる．ここで，P_θ₀{ℓ˙ⁿ(bθ) = 0} → 0だから，左辺はo_P(n⁻^1/2)である．また，

|θ−θ₀| ≤ |θb−θ₀|= o_P(1)より，P(θ∈ B) →1であって，θ∈B のとき|n⁻¹...

ℓⁿ(θ)| ≤ n⁻¹∑n

i=1H(X_i)が成り立つ．いま，n⁻¹∑n

i=1H(X_i) = O_P(1)だから，|n⁻¹...

ℓⁿ(θ)| = OP(1)であって，よって，

1 n

...ℓⁿ(θ)(bθ−θ₀)

=O_P(1)o_P(1) =o_P(1) を得る．以上の評価と，J_n=−I(θ₀) +o_P(1)より，

o_P(n⁻^1/2) =S_n+{−I(θ₀) +o_P(1)}(θb−θ₀) を得る．あとは，CLTとSlutskyの補題より，

√n(θb−θ₀) ={I(θ₀) +o_P(1)}⁻¹√

nS_n＋o_P(1)→^d N(0,1/I(θ₀)) を得る．

この定理の言っていることは，尤度方程式の根のなかには一致性をみたすものが存在し，

そのような根は漸近正規性をみたす，ということである．尤度方程式が複数の根をもつ場合，MLEが一致性をみたす尤度方程式の根に一致しているとは限らないので，Theorem 6.10は必ずしもMLEの漸近正規性を保証するものではない．しかし，尤度方程式が一意な根をもつ場合は，それはMLEに一致しかつ一致性をみたすので，その場合はMLEの漸近正規性が従う³³．

後述するように，いくつかの観点から，N(0,1/I(θ₀))は最良の極限分布である．しかし，尤度方程式が複数の根をもつ場合などはMLEの計算が難しいし，MLEが一致性をもつ尤度方程式の根に一致している保証はない．そのような場合でも，適当な初期推定量からN(0,1/I(θ₀))を極限分布にもつような推定量を構成できる．

Ib(θ) =−n⁻¹ℓ¨ⁿ(θ)

とおく．Ib(θ)は観測Fisher情報量(observed Fisher information)と呼ばれる．初期推定量θeに対して，

θˇ=eθ+I(ebθ)⁻¹{n⁻¹ℓ˙ⁿ(θ)e}

とおく．θˇはワンステップ推定量 (one-step estimator)と呼ばれる．θˇをワンステップ推定量と呼ぶ理由は，尤度方程式をニュートン・ラフソン法によって解くときに，θˇが初期値θeを1回更新した値になっているためである．

Theorem 6.11. θeがn^1/4(eθ−θ₀) =o_P(1)をみたせば，

√n(ˇθ−θ₀)→^d N(0,1/I(θ₀)) となる．

Proof. Taylorの定理より，θeとθ₀の間の点θが存在して，

n⁻¹ℓ¨ⁿ(eθ) =n⁻¹ℓ¨ⁿ(θ₀)

| {z }

=Jn

+n⁻¹...

ℓⁿ(θ)(eθ−θ₀)

と展開できる．ここで，n⁻¹...

ℓⁿ(θ) =O_P(1)であって，J_n→ −^P I(θ₀)̸= 0より，

I(eθ)⁻¹ ={−n⁻¹ℓ¨ⁿ(eθ)}⁻¹=−J_n⁻¹+O_P(1)|bθ−θ₀|=J_n⁻¹+o_P(n⁻^1/4) を得る．一方，

√1

nℓ˙ⁿ(eθ) = 1

√nℓ˙ⁿ(θ₀)

| _√{z }

nSn

+1 nℓ¨ⁿ(θ₀)

| {z }

=Jn

√n(eθ−θ₀) +1

2{n^1/4(eθ−θ₀)}²· 1 n

...ℓⁿ(θ)

| {z }

=o_P(1)

=√

nSn+Jn√

n(θe−θ0) +oP(1)

33とはいえもっと一般的な条件のもとでMLEの一致性を証明することをできる．これはWald (1949)による．van der Vaart (1998, Section 5.2)を参照せよ．

であって，√nS_n=O_P(1), J_n⁻¹ =O_P(1),√n(eθ−θ₀) =o_P(n^1/4)より，

√n(ˇθ−θ₀) =√n(eθ−θ₀) +{−J_n⁻¹+o_P(n⁻^1/4)}{√

nS_n+J_n√n(eθ−θ₀) +o_P(1)}

=−J_n⁻¹√

nS_n+o_P(1) を得る．あとはJn P

→ −I(θ0),√ nSn d

→N(0,1/I(θ0))とSlutskyの補題より，

√n(ˇθ−θ₀)→^d N(0,1/I(θ₀)) を得る．

初期推定量が√n(θe−θ₀) =O_P(1)であって，I(θ)がθ=θ₀において連続なら，I(ebθ)を I(θ)e に取り換えてよい．

Corollary 6.2. √

n(θe−θ₀) =O_P(1)とし，I(θ)はθ =θ₀において連続とする．このとき，θˇ=θe+I(eθ)⁻¹{n⁻¹ℓ˙ⁿ(eθ)}^{に対して，}

√n(ˇθ−θ₀)→^d N(0,1/I(θ₀)) となる．この推定量θˇのこともワンステップ推定量と呼ぶ．

Proof. Theorem 6.11の証明とJn=−I(θ0) +oP(1),√

n(θe−θ0) =OP(1)より，

√1

nℓ˙ⁿ(θ) =e √

nSn+Jn√

n(θe−θ0) +o_P(1) =√

nSn−I(θ0)√

n(θe−θ0) +o_P(1).

一方，I(θ)はθ=θ₀で連続だから，I(θ) =e I(θ₀) +o_P(1)となる．よって，

√n(ˇθ−θ₀) =√n(eθ−θ₀) +{I(θ₀)⁻¹+o_P(1)}{√

nS_n−I(θ₀)√n(eθ−θ₀) +o_P(1)}

=I(θ0)⁻¹√

nSn+oP(1)→^d N(0,1/I(θ0)).

Example 6.13. fをCauchy分布の密度関数とする：

f(u) = 1

π(1 +u²), u∈R.

θ∈Rに対して，X₁, . . . , X_n∼f(• −θ) i.i.d.とすると，尤度方程式は

∑n i=1

2(X_i−θ) 1 + (X_i−θ)² = 0 である．両辺に∏n

i=1{1 + (X_i−θ)²}をかけると，尤度方程式は

∑n i=1

(Xi−θ)∏

j̸=i

{1 + (Xj−θ)²}= 0

と等価である．これはθの(2n−1)次多項式だから，尤度方程式は一般に(2n−1)個の根をもつ．ところで，f は原点対称なので，θはX_iのd.f.のメディアンでもある．よって，

標本メディアンをθeとおくと，f(0) = 1/πより，

√n(eθ−θ)→^d N(0, π²/4) となる．しかし，f(• −θ)のFisher情報量は

I(θ) =

∫ {f^′(u)}²

f(u) du=· · ·= 1 2 だから，1/I(θ) = 2< π²/4である．

そこで，ワンステップ推定を使って漸近分散を改善する．√n(eθ−θ) =O_P(1)であって，

I(θ) = 1/2だから，

θˇ=θe+ 4 n

∑n i=1

Xi−θe 1 + (X_i−eθ)² とおくと，√

n(ˇθ−θ)→^d N(0,2)となる．

Remark 6.5 (多次元の場合). 多次元の場合も，1次元の場合と同様に，いくつかの正則条件のもとで，I(θ)をp(·;θ)のFisher情報行列として，θ=θ₀を真値とすると，n→ ∞ のとき，

P_θ₀{ℓ˙ⁿ(θ) = 0b } →1, √n(bθ−θ₀)→^d N(0, I(θ₀)⁻¹) をみたす推定量θbが存在する．

MLEの漸近最適性

MLEの漸近最適性を考察する．厳密な考察は講義のレベルを超えるので，van der Vaart (1998, Chapter 8)に譲る．以下では，簡単のために，k= 1とし，ΘをRの開区間とする．

θ∈Θに対する2つの推定量θbn =bθn(X1, . . . , Xn),θen =θen(X1, . . . , Xn)が与えられていて，n→ ∞^のとき，

√n(bθ_n−θ)→^d N(0, σ²(θ)), √n(eθ_n−θ)→^d N(0, τ²(θ))

とする．σ²(θ)>0, τ²(θ)>0とする．このとき，θにおける，θb_nのθe_nに対する漸近相対有効性 (asymptotic relative efficiency, ARE)を

ARE_θ(bθ_n,θe_n) = τ²(θ) σ²(θ)

と定義する．ARE_θ(bθ_n,θe_n)が1より大きいとき，θにおいてbθ_nはθe_nより漸近有効であるという．

Example 6.14. X₁, . . . , X_n ∼ N(θ,1) i.i.d.のとき，θのMLEはθb_n = Xであって，

√n(θb−θ)∼N(0,1)．一方，θはN(θ,1)のメディアンであるから，θenを標本メディアンとすると，

√n(θe_n−θ)→^d N(0, π/2) となる．よって，AREは，

ARE_θ(bθ_n,θe_n) = π 2 >1 である．

Example 6.15. X1, . . . , Xn ∼P o(λ) i.i.d. (λ >0)とし，θ=e⁻^λ =P_λ(Xi = 0)の推定を考える．このとき，λのMLEはXだから，θのMLEはθb_n =e⁻^X である．その他に θe_n=n⁻¹∑n

i=1I(X_i = 0)も自然な推定量である．ここで，CLTとデルタ法より，

√n(bθ_n−θ)→^d N(0, λe⁻^2λ), √n(eθ_n−θ)→^d N(0, e⁻^λ−e⁻^2λ) であるから，AREは

ARE_λ(θbn,θen) = e^λ−1 λ >1 である．

AREには次の意味がある．δ >0とし，推定量がθのδ近傍に入る確率を考える．P_θ(|θb_n− θ| ≤ δ)に対して，同じ確率をθemが達成するために必要な標本サイズをmとする．このとき，Z ∼N(0,1)に対して，

P_θ(|θb_n−θ| ≤δ)≈P(|Z| ≤δσ(θ)/√

n), P_θ(|θe_m−θ| ≤δ)≈P(|Z| ≤δτ(θ)/√ m) であるから，

σ(θ)√

n ≈ τ(θ)

√m, i.e., m

n ≈ τ²(θ) σ²(θ)

である．すなわち，AREは同じ精度を達成するために必要な標本サイズの比の近似になっている．

推定量bθ_n=θb_n(X₁, . . . , X_n)が，各θ₀∈Θ, h∈Rに対して，θ=θ_n=θ₀+h/√ nが真値のときに，

√n(bθ_n−θ_n)→^d L_θ₀

|{z}

d.f.

をみたし，L_θ₀ がhに依存しないとき，θbは正則 (regular)な推定量であるという．ここで，h= 0のときθ_n=θ₀だから，L_θ₀は√

n(θb−θ₀)のθ=θ₀のもとでの極限分布である．

いくつかの条件のもとで，MLEは正則になる．さらに，任意の正則な推定量θb_nに対して，

(L_θ₀ の分散)≥1/I(θ0)

となる(分散が存在しないときは，左辺は+∞^とみなす)．よって，MLEは正則な推定量のなかで最小な極限分散(正確には極限分布の分散)をもつ．この結果はH´ajek-Le Camのたたみ込み定理 (convolution theorem)から従う．

では，正則でない推定量であって，すべてのθ∈Θに対して，極限分散が1/I(θ)以下で，かつあるθ0 ∈ Θにおいて極限分散が1/I(θ0)より小さくなるものは存在するであろうか．答えはYESである．

Example 6.16. X₁, . . . , X_n∼N(θ,1) i,i.d.とすると，MLEはθb_n=Xであって，√ n(θb_n− θ)∼N(0,1). ここで，次のような推定量を考える：

θe_n=





0 if|X| ≤n⁻^1/4 X otherwise . θe_nをHodgesの推定量と呼ぶ．√nX ∼N(√nθ,1)だから，

P_θ(|X| ≤n⁻^1/4) =P_θ(|√

nX| ≤n^1/4) = Φ(n^1/4−√

nθ)−Φ(−n^1/4−√ nθ)

→





1 θ= 0 0 θ̸= 0. よって，

√n(eθ_n−θ)→^d





0 θ= 0

N(0,1) θ̸= 0 となる．

Hodgesの推定量は正則でない．実際，θ = θn = h/√

nが真値のとき，P_θ_n(|X| ≤ n⁻^1/4)→1だから，

√n(θen−θn)→ −^P h となる．

しかしながら，この結果からHodgesの推定量はMLEよりよいと結論づけるのは早計である．リスクE_θ[{√n(eθ_n−θ)}²]をシミュレーションしてみればわかるように，有限の nにおいて，Hodgesの推定量はθ= 0でのリスクを改善する代わりに，θ= 0の近傍でのリスクを増大させている．実際，θ=θ_n=h/√nのとき，Fatouの補題より，

lim inf

n E_h/^√_n[{√n(eθ_n−h/√

n)}²]≥h²

となって，右辺は|h| → ∞^のとき∞^{に発散する．一方，}MLEのリスクはEθ[{√ n(θb− θ)}²] = 1であって，nにもθに依存しない．

正則とは限らない推定量と比較したときのMLEの漸近最適性に関しては次の2つの結果が知られている．

• θb_nを各θ ∈Θに対して√n(bθ−θ) →^d L_θをみたす任意の推定量とする(θbは正則である必要はない)．このとき，いくつかの条件のもとで，“ほとんどすべての”θ∈Θ に対して，

(L_θの分散)≥1/I(θ)

が成り立つ．つまり，極限分散が1/I(θ)より小さくなるようなθの集合はLebesgue 測度0である(概たたみ込み定理³⁴)．

• ℓ:R→R₊を次をみたす関数とする：各c≥0に対して{x∈R:ℓ(x)≤c}^が凸集合かつ原点対称となる．このとき，いくつかの条件のもとで，任意の(正則とは限らない)推定量θb_nと各θ∈Θに対して，

sup

I⊂R:finite

lim inf

n sup

h∈I

E_θ+h/^√_n[ ℓ(√

n(θbn−(θ+h/√ n)))]

≥E[ℓ(Z)], Z ∼N(0,1/I(θ))

が成り立つ(H´ajek-Le Camの局所漸近ミニマクス定理)．

Neyman-Scott問題³⁵

(X1, Y1), . . . ,(Xn, Yn)を独立な2次元確率ベクトルとし，

(X_i Y_i

)

∼N ((µ_i

µ_i )

(σ² 0 0 σ²

))

, µ_i ∈R, σ² >0 とする．σ²の推定を考える．X_i−Y_i∼N(0,2σ²)だから，

e σ² = 1

∑n i=1

(Xi−Yi)²

とおくと，σe² →^P σ²となる．しかしσ²のMLEは一致性をもたない．(X₁, Y₁), . . . ,(X_n, Y_n) の同時密度は，

(2πσ²)ⁿexp {

− 1 2σ²

∑n i=1

(x_i−µ_i)²− 1 2σ²

∑n i=1

(y_i−µ_i)² }

だから，µ1, . . . , µn, σ²のMLEは，

µb_i = 1

2(X_i+Y_i), σb² = 1 2n

{ _n

∑

i=1

(X_i−µb_i)²+

∑n i=1

(Y_i−µb_i)² }

34“Almost everywhere convolution theorem”の訳．

35Neyman and Scott (1948).

である．{(X_i−µb_i)²+ (Y_i−µb_i)²}/σ²は独立にχ²(1)に従うから，

(2n)bσ²/σ² ∼χ²(n) である．従って，

σ²→^P σ² 2 となって，一致性をもたない．

σ²が一致性をもたない理由は，µ_iの推定に使える標本サイズが2しかないため，bµ_iが一致性をもたず，そのバイアスがσ²の推定に影響を及ぼすためである．このように局外パラメータの数が標本サイズとともに増えていくために，関心のある共通パラメータの推定量が一致性をもたなくなる問題は，局外パラメータ問題(incidental parameters problem) と呼ばれる．局外パラメータ問題は計量経済学において固定効果をもつパネルデータモデルの推定に現れる(Lancaster, 2000)．

なお，µ_iの推定に使える標本サイズが2ではなくnとともに増える場合，σ²のMLEは一致性をもつ．すなわち，X_i,j, i= 1, . . . , n, j = 1, . . . , mを独立なr.v.’sとし，各iに対して，

Xi,j ∼N(µi, σ²) とする．このとき，σ²のMLEは，

b σ² = 1

∑n i=1

∑m j=1

(X_i,j−µb_i)², µb_i= 1 m

∑m j=1

X_i,j である．ここで，

(nm)σb²/σ² ∼χ²(n(m−1)) だから，平均と分散を評価すると，

E[bσ²] = (m−1)

m σ², Var(bσ²) = 2(m−1) nm² σ⁴

である．よって，m =m_n → ∞^なら，E[bσ²]→ σ²,Var(σb²) →0だから，Chebyshevの不等式より，

b σ²→^P σ² を得る．

ドキュメント内 mathematical statistics v4 (ページ 161-170)