6 最尤法とその周辺
分布が知れているという、強い仮定の下に、推定法を構築してゆきます。不偏 推定量の無い場合や、不変性を重視するような一般的な関数での推定を行う際な どに便利な推定方法になります。
ただし、大標本下の漸近理論を中心とした議論の中で使われることが多いとい えます。大標本理論では一致性と漸近正規性を利用します。標本を無限大にでき ないので、一致性の保証の下で、漸近的な議論を行います。その際には効率性が 重要な役割を演じます。そして、最尤推定量は正規分布など、特定の分布に従って いることがわかっている場合には効率的といえます。
6.1 推定上の仮定とその意味
最尤法に必要な仮定は誤差項の確率分布が既知であって、標本が無作為抽出である ことに加えて、特徴的な仮定があります。誤差項の起きる確率f (ǫi, θ) = f (yi, xi, θ) と対数尤度ln f (yi, xi, θ) が、
1. θ に関する f (yi, xi, θ) の三回までの微分はほぼすべての θ, yiで有限である
この条件はテイラー展開とln L の 1 回微分の分散の有限性を担保します 2. ln f (yi, xi, θ) の 1 回および 2 回微分の期待値に必要な条件が整っている 3. 任意の θ について |∂3∂θln f (yj∂θki,x∂θil,θ)| は有限な期待値を持つある関数よりも小さい
テイラー展開をある次数までで止めてもよいことを意味します
を満たすことです。なお、これを正則条件(Reqularity Condition) とよび、最小二 乗法の古典的仮定に相当します。
誤差項の起きる確率f (ǫi, θ) = f (yi, xi, θ) を見てみましょう。これはある標本 x1, x2, · · · , xN が起きた状況を所与として、母数θ を与えると確率がどうなるかを 示す関数になります。このとき、母数θ の一部 β について、
ǫi = yi− g(xi, β) (6.1)
という関係式を満たします。β は定数なので、f (yi, xi|θ) と書くことができます。 また、yi, xiに関する同時確率ですが、θ は yiに関する母数であり、yiはモデル上 でxiで説明されているため、f (yi, xi|θ) は
f (yi, xi|θ) = f(yi|xi, θ)g(xi) (6.2) のように書き直せます。なお、g(xi) は xiが起きる確率です。そう考えれば、対数 尤度ln f (yi, xi, θ) が
ln f (yi, xi|θ) = ln f(yi|xi, θ) + ln g(xi) (6.3)
となって、θ を考慮する際に xiが起きる確率を考慮しなくてもよくなります。こ のとき、
1. ln f (yi, xi|θ),∂ ln f (y∂θi,xi|θ),∂2ln f (y∂θ∂θi,x′ i|θ) が無作為標本である
2. E[∂ ln f (y∂θi,xi|θ)] = 0
3. V ar[∂ ln f (y∂θi,xi|θ)] = −E[∂2ln f (y∂θ∂θi,x′ i|θ)]
がいえます。なお、補論C.1 で詳細を説明しています。
6.2 推定量の導出
6.2.1 推定量自身の計算
推定量を求めるために尤度関数L(θ) を考えます。尤度関数は
L(θ) ≡ f(ǫ1, ǫ2, · · · , ǫN) (6.4)
= f (y1, y2, · · · , yN, x1, x2, · · · , xN|θ) =
N
i=1
f (yi, xi|θ) (6.5)
です。最尤原理によれば、標本の同時確率が最も高くなるように母数を定めること になるので、この尤度関数が最大になるような母数を求めることになります。と ころで、そのまま演算するのは困難なので、
ln L(ˆθ) = ln
N
i=1
f (yi, xi|ˆθ) = n
i=1
ln f (yi, xi|ˆθ) (6.6)
=
n
i=1
ln f (yi|xi, θ)g(xi) =
n
i=1
ln f (yi|xi, θ) +
n
i=1
ln g(xi) (6.7)
とした上で、最大化の一階の条件
∂ ln L(ˆθ)
∂ ˆθ = 0 (6.8)
を満たす ˆθ を求めることになります。これを尤度方程式 (Likelihood Equation) とよびます。なお、別の書き方として、
θ = arg minˆ
θˇ ln L(ˇθ) (6.9)
と書くこともできます。これはln L(ˇθ) がもっとも小さくなる ˇθ を求めよという意 味です。
このとき、g(xi, ˆβ) は最小二乗法で議論してきた線形性よりも広い一般的な非線 形関数も含んだ推定法であることに注意してください。なお、線形性の仮定の下で g(xi, ˆβ) = x′iβ ⇒ y = Xβ + ǫ (6.10) とした上で、誤差項が正規分布に従うと仮定しすると、
ln L( ˆβ) = ln(2πˆσ2)−N/2− ˆǫ
′ˆˆǫ
2ˆσ2 = ln(2πˆσ
2)−N/2
−(y − Xβ)
′(y − X ˆβ)
2ˆσ2 (6.11) がえられ、推定量の条件から、
∂ ln L( ˆβ)
∂ ˆβ =
X′(y − X ˆβ) ˆ
σ2 = 0 (6.12)
∂ ln L( ˆβ)
∂ ˆσ2 = − N 2ˆσ2 +
(y − X ˆβ)′(y − X ˆβ)
2ˆσ4 = 0 (6.13)
が得られて、推定量
βˆM L∗ = (X′X)−1X′y (6.14) ˆ
σM L2 = (y − Xβ)
′(y − X ˆβ)
N =
ˆǫ′ˆǫ
N (6.15)
が計算できます。 ˆβM L∗ は最小二乗推定量と同じもの、σˆ2M Lは最小二乗推定量と分 母の部分が異なっています。異なる部分はちょうど自由度の修正部分であり、最尤 推定量は自由度の修正が行われていないことがわかります。したがって、小標本 で求められる不偏性が無い推定量でもあります。
6.2.2 推定量の分布の推定 推定量の共分散行列は
Σ = [I(θ)]−1 (6.16)
を知りたいのですが、直接はわかりません。そこで、
Σ = [I(ˆˆ θ)]−1 (6.17)
を考えて見ましょう。しかし、 [I(ˆθ)]−1=
−∂
2ln L
∂ ˆβ∂ ˆβ′
−1
(6.18)
であり、2 回微分を計算しなければいけなくなります。そこで、 E
−∂
2ln L
∂β∂β′
= E
−∂
2 ln f (y i|xi, θ)
∂β∂β′
(6.19)
= E
−∂
2ln f (y i|xi, θ)
∂β∂β′
(6.20)
であったことを思い出すと、 E
−∂
2ln f (y i|xi, θ)
∂β∂β′
= −E ∂ ln f (yi|xi, θ)
∂β
∂ ln f (yi|xi, θ)
∂β′
(6.21)
とすれば、
∂ ln f (yi|xi,θ)
∂β の部分が出てくるため、 [I(ˆθ)]−1= −
∂ ln f (yi|xi, θ)
∂ ˆβ
∂ ln f (yi|xi, θ)
∂ ˆβ′
−1
(6.22)
となって、1 回微分を利用するだけですみます。これを BHHH 推定量と呼びます。
6.2.3 望ましさ
正則条件を満たせば、最尤推定量は
1. 標本が十分に大きくなってゆけば、最尤推定量は真の母数に至る (plimˆθ = θ∗ : 一致性)
2. 標本が十分に大きくなってゆけば、最尤推定量は正規分布を持つ (ˆθ ∼ N(θ∗, I−1(θ∗)), where I(θ∗) = −E{∂2ln L/∂θ′∂θ′} : 漸近正規性)
3. 最尤推定量 ˆθ は漸近的に効率的でクラーメル=ラオの下限に至る (漸近効率性) 4. 母数を用いてえられる任意の関数 c(θ) の最尤推定量は母数の個別の推定量 ˆθ
をその関数に代入したc(ˆθ) を用いればよい (不変性:Invariance) という性質を持ちます。
このとき注意すべきなのは、不偏性に関する記述がないことと漸近性を多用し ていることです。これは誤差項の確率分布が特定の分布に決めた上で、その計算 仮定で出てくる確率分布が何であっても、大標本の下での推定量の性質は同じと なるということを意図しているのです。したがって、最尤推定量は大標本で威力 を発揮することを意味しています。
なお、有限標本で重要となる不偏性が、誤差項の分散の推定量が(6.15) 式で示 されるようにないことがわかります。ただし、一致性と漸近的効率性を持つ推定 量なので、大標本では問題なく、不変性を持つため複雑な推定にも威力を発揮し ます。
6.3 仮説検定
6.3.1 尤度比検定量
母数の制約c(β) を正しいと考えた場合、その制約によって大きく尤度が変化す る場合には何かしらの影響があると考えるのが正しいでしょう。それを利用した
検定が尤度比検定量(Likelihood Ratio Statistics) です。仮説は H0 : c(β) = 0
H1 : c(β) = 0
になります。制約がある場合の尤度をln L0、無い場合をln L1として、制約の数を J とすれば、
LR = −2[ln L0 − ln L1]
→ χd 2[J] (6.23)
ということが知られています。
線形モデルの場合 線形モデルの場合は簡単に表せて、 LR = N ln ǫ
′RǫR
ǫ′ǫ
(6.24)
となります。
6.3.2 ワルド検定量
尤度比検定のように2 つの推定量を比較するのではなく、母数の制約 c(β) を正 しいと考えた場合、十分標本が多ければ、制約を課したパラメータの推定値と仮 説検定で与えられた制約付の真の値との乖離は推定量の漸近性からほとんどない といえるはずです。それを利用した検定がワルド検定量(Wald Statistics) です。 仮説は
H0 : c(β) = q H1 : c(β) = q
になります。制約の数をJ とすれば、
W = [c( ˆβ) − q]′{Asy.V ar[c( ˆβ)]}−1[c( ˆβ) − q] → χd 2[J] (6.25) where C( ˆβ) ≡ ∂c( ˆβ)
∂ ˆβ′
ということが知られています。なお、Asy.V ar[c( ˆβ)] = [I(ˆθ)]−1をBHHH 推定で用 いればいいでしょう。
線形モデルの場合 なお、線形モデルでは
Asy.V ar[c( ˆβ)] = Asy.V ar[R ˆβ] = RAsy.V ar[ ˆβ]R′ (6.26)
なので、
W = [R ˆβ − q]′{RAsy.V ar[ ˆβ]R′}−1[R ˆβ − q] (6.27)
= [R ˆβ − q]′{Rs2(X′X)−1R′}−1[R ˆβ − q] (6.28) になります。このとき
s2LM = N − K N s
2
LS (6.29)
であることに注意すれば、 F = [R ˆβ − q]
′{Rs2
LS(X′X)−1R′}−1[R ˆβ − q]
J (6.30)
であるので、 W = NJ
N − KF (6.31)
であることがわかります。すなわち、F 検定とワルド検定は漸近的には一致した 検定になります。
6.3.3 ラグランジュ乗数検定量
母数の制約c(β) を正しいと考えた場合、制約付推定量の尤度関数も最大値に近 いはずです。したがって、その制約を少しでも変更した場合の変化(ラグランジュ 乗数) が限りなく 0 になっている必要があります。それを利用した検定がラグラン ジュ乗数検定量(Lagrange Multiplier Statistics) です。仮説は
H0 : c(β) = q H1 : c(β) = q
になります。もともと、最大値問題は maxθ L(θ) − λ
′[c( ˆ
β) − q] (6.32)
ですから、λ は制約である c(β) の限界的な変化に対する L(θ) の変化ということに なります。c(β) が真の定式化であれば、限界的な変化に対する対数尤度の変化 λ が0 になり、c( ˆβ) が 0 の周囲で分布することになるはずです。それを検定として 利用するため、制約の数をJ として、ワルド検定を用いると、
LM = ˆλ′(V ar[ˆλ])−1λˆ → χd 2[J] (6.33) ということが知られています。
線形モデルの場合 線形モデルの場合は、最適であるときの必要条件であるλ = 0 として、対数尤度と制約の偏微分との関係として、
E ∂ ln LR
∂ ˆβR
= E X
′ǫ
σ2
= 0 (6.34)
V ar ∂ ln LR
∂ ˆβR
= E
− ∂ ln LR
∂ ˆβR∂ ˆβR′
(6.35)
= σR−2(X′X) (6.36)
が得られます。これは平均と分散を求めているので、ワルド検定として、 LM = X
′ǫ R
s2R
′
[s−2R (X′X)]−1 X
′ǫ R
s2R
(6.37)
= ǫ′RX(X′X)−1 X
′ǫ R
s2R
= ǫ
′RX(X′X)−1X′ǫR
ǫ′RǫR/N
(6.38)
となります。こうすれば、わざわざλ を計算せずともラグランジュ検定が行われ ることになります。
6.3.4 線形モデルでの関係
線形モデルでは帰無仮説が棄却できない、すなわちF 値が十分小さければ、 W = NJ
N − KF (6.39)
LR = N ln
1 + NJ N − KF
≃ NJ
N − KF (6.40)
LM = NJ
(N − K) + JF/(N − K)F ≃ NJ
N − KF (6.41) がいえます。ただし、
W ≥ LR ≥ LM (6.42)
が成立していることに注意してください。大標本でかつ帰無仮説が棄却できない 場合にはどの検定を使ってもほぼ同じ結果になることがわかります。ただし、LM 検定が仮説検定としては厳しい検定になっているともいえるでしょう。
なお、
NJF
(N − K) + JF/(N − K) − F =
F (NJ − 1)
(N − K) + JF/(N − K) > 0 (6.43) ゆえ、
W ≥ LR ≥ LM ≥ F (6.44)
ということがわかります。F 検定よりも大きな値をとる傾向があるということは、 帰無仮説が棄却されやすくなる、すなわち、第1 の誤謬を犯してしまう可能性が 高いとも考えられます。その意味では慎重さを重視してF 検定を行うのも妥当で しょう。
6.3.5 確率分布の検定
誤差項の正規性の検定は重要な検定として、 mr= 1
N
N
i=1
ˆǫ2 (6.45)
をモーメントの一致推定量として、 b1 = m
23
σ6 (6.46)
b2 = m4
σ4 (6.47)
と置くと、 N b1
6 +
(b2− 3)2
24
d
−−→ χ2(2) (6.48)
となるので、これを仮説検定することができます。
6.4 推定量の応用
6.4.1 不均一分散
不均一分散についても最尤法は有益です。まず、 L = −N2[ln(2π) + 2 ln σi] −
1 2
N
i=1
1
σi2(yi− x
′ iβ)2
(6.49)
について、
σi2 = σ2g(zi′α) (6.50)
を考えます。これを代入して、
L = −N2[ln(2π) + 2 ln σ + ln g(zi′α)] − 1 2
N
i=1
1
σ2g(zi′α)(yi− x
′iβ)2
(6.51)
とした上で、一階の条件から
∂ ln L
∂α = 1 2
N
i=1
ǫ2i
σ2g(z′iα)− 1
1 g(zi′α)
∂g(zi′α)
∂α = 0 (6.52)
∂ ln L
∂β =
N
i=1
xi
ǫi
σ2g(z′iα) = 0 (6.53)
∂ ln L
∂σ2 = 1 2σ2
N
i=1
ǫ2i
σ2g(zi′α) − 1
= 0 (6.54)
が得られるため、これを条件として求めることになります。
6.4.2 系列相関
系列相関には誤差項の尤度関数は
L = f (ǫ) = f (ǫ1)f (ǫ2|ǫ1)f (ǫ3|ǫ2) · · · f(ǫT|ǫT −1) (6.55)
のように示されてることになります。 ln L = ln f (ǫ1) +
T
i=2
ln f (ǫi|ǫi−1) (6.56)
この関数に条件を与えて、相関を定式化することになります。 AR(1) 過程の推定 系列相関でもよく出てくる AR(1)
ǫt = ρǫt−1+ ut (6.57)
を考えてみましょう。このとき、AR(1) の誤差項が
E[ut] = 0 (6.58)
V ar[ut] = σ2u (6.59)
Cov[ut, us] = 0, t = s (6.60) とすると、
ǫt = ut+ ρut−1+ ρ2ut−2+ · · · (6.61) であり、
ǫt = ρǫt−1+ ut (6.62)
= ρ2ǫt−2+ ut+ ρut−1 (6.63)
= ρsǫt−s+
s−1
i=0
ρiut−i (6.64)
であることを用いると、
E[ǫt] = 0 (6.65)
V ar[ǫt] = σu2 + ρ2σu2+ ρ4σu2+ · · · (6.66)
= σu2(1 + ρ2+ ρ4+ · · · ) = σ2u
1
1 − ρ2 (6.67) Cov[ǫt, ǫt−s] = Cov
ρsǫt−s+
s−1
i=0
ρiut−i, ǫt−s
(6.68)
= E
ρsǫ2t−s+ ǫt−s
s−1
i=0
ρiut−i
(6.69)
= σu2 ρ
s
1 − ρ2, t > s (6.70) がわかります。ところで、AR(1) であることを考えると、
ǫt− ρǫt−1 = ρǫt−1+ ut− ρǫt−1 (6.71) ut = yt− ρyt−1− (xt− ρxt−1)β (6.72) が得られます。なお、ǫ1は過去の確率変数に依存しないと考えれば、u1に関する 確率変数として、
ǫ1 = u1
1 − ρ2 (6.73)
を考えられます。このように考えると、
L = f (ǫ) = f (ǫ1)f (ǫ2|ǫ1)f (ǫ3|ǫ2) · · · f(ǫT|ǫT −1) (6.74)
⇒ f(ǫ1, u) = f (ǫ1)f (u2) · · · f(uT) = f∗(u1)f (u2) · · · f(uT) (6.75) という尤度を考えればよいと考えられます。そう考えると尤度関数は
L = −T2[ln(2π) + 2 ln σu] − ln(1 − ρ2)
−2σ12
u
(1 − ρ2) [y1− x′1β] 2+
T
i=2
[yt− ρyt−1− (xt− ρxt−1)β]2
(6.76)
= −T2[ln(2π) + 2 ln σu] − ln(1 − ρ2)
− 1 2σu2
1 − ρ2y1−1 − ρ2x′1β
2
+
T
i=2
[yt− ρyt−1− (xt− ρxt−1)β]2
(6.77) であり、これを最大化すればよいことになります。なお、ρ が既知であれば、一般 化最小二乗法と同じになりますが、未知であれば、ρ の限界条件を 0 とせずに、β, σ の限界条件を与えて、尤度が最大となるρ を少しずつずらして計算することにな ります1。
1それを簡便化したものはBeach and MacKinnon(1978) を参照。
6.5 推定量の利用先
6.5.1 二値選択データ ある対象が起きる確率を
P rob(Y = 1) = F (x, β)
P rob(Y = 0) = 1 − F (x, β) (6.78) のように考えるときの推定量を考えてみます。このとき、モデルを
y = xβ (6.79)
のように考えることもできますが、説明変数の値が過大だと1 を超えたりマイナ スになることが考えられます。そこで、
y =
xβ
−∞
f (z)dz = F (xβ) (6.80)
として、分布関数で表現してみましょう。このとき、分布関数をそれぞれ、
√1
2πexp
−(xβ)2 2
(標準正規分布) でとる −→ プロビットモデル exp {xβ}
1 + exp {xβ}(ロジスティック関数) でとる −→ ロジットモデル
と呼びます。なお、両者の利用についてはロジットモデルが比較的よく使われま すが、特にどちらかがよいというものはありません。
実際に推定する際には、Isを成功した際1 をとりそれ以外を 0 をとるインデッ クス関数として、尤度関数を
L =
N
i=1
F (xiβ)Is[1 − F (xiβ)]1−Is (6.81)
とおいて、対数を取った ln L =
N
i=1
Isln F (xiβ) + (1 − Is) ln[1 − F (xiβ)] (6.82)
についての母数に関する一階条件の
∂ ln L
∂β =
N
i=1
Is
f (xiβ)
F (xiβ) − (1 − Is)
f (xiβ) 1 − F (xiβ)
xi = 0 (6.83)
を満たすβ が推定量となります。この後は標準正規分布やロジスティック関数等の 分布関数の形状に依存します。仮説検定は通常の最尤法ですから、通常どおりの 検定が行えます。
なお、ロジットモデルは
∂E[y|x]
∂x =
∂
∂x(0[1 − F (xβ)] + 1[F (xβ)]) = f(xβ)β (6.84)
∂
∂xβ
exp {xβ} 1 + exp {xβ}
= exp {xβ} 1 + exp {xβ}
1 − exp {xβ} 1 + exp {xβ}
(6.85)
なので、
∂E[y|x]
∂x =
exp {xβ} 1 + exp {xβ}
1 − exp {xβ} 1 + exp {xβ}
β (6.86)
となって、期待値に与える限界効果を即座に計算できるのが便利です。
C 関連内容の補足
C.1 仮定から導かれる性質の証明
まず、A(θ), B(θ) がそれぞれ確率変数の取る最小値、最大値とすると、確率の公 理から
B(θ) A(θ)
f (yi|θ)dyi = 1 (C.1)
が満たされなければいけない。このとき、θ の限界的変化について、ライプニッツ 定理(Leibniz’s Theorem) より、
∂
∂θ
B(θ) A(θ)
f (yi|θ)dyi
=
B(θ) A(θ)
∂f (yi|θ)
∂θ dyi+ f (B(θ)|θ)∂B(θ)
∂θ − f(A(θ)|θ)∂A(θ)
∂θ (C.2) が成立する。なお、公理が常に満たされるはずなので、この値は常に0 となる。な お、A(θ), B(θ) が変化しないと仮定すると、微分積分の順序交換が成り立ち、
∂
∂θ
B(θ) A(θ)
f (yi|θ)dyi =
B(θ) A(θ)
∂f (yi|θ)
∂θ dyi = 0 (C.3)
が満たされる。仮定をした上で話を進めれば、
∂
∂θ
f (yi|θ)dyi =
∂f (y
i|θ)
∂θ dyi =
∂ ln f (y
i|θ)
∂θ f (yi|θ)dyi (C.4)
= E ∂ ln f (yi|θ)
∂θ
= 0 (C.5)
が得られて、対数尤度に関する一回微分の期待値が0 となることが確認できる。な お、期待値をとるときの確率は変化していないことに注意してください。このこ
とは与える母数を変化させれば対数尤度は変化するものの、期待値で評価すれば、 変化しないことを意味します。いったん母数を与えると、その母数での対数尤度 で最適化されていると考えられます。実際、極大か極小かについてはその二回微 分を取ってみましょう。
それには、ライプニッツの定理の条件が満たされるとして、ライプニッツの定 理と仮定を再度適用すれば、微分積分の交換法則は引き続き成り立ち、
∂
∂θ
∂f (yi|θ)
∂θ dyi =
∂f (yi|θ)
∂θ∂θ′ dyi =
∂
∂θ
∂ ln f (yi|θ)
∂θ f (yi|θ)
dy(C.6)i
=
∂ ln f (yi|θ)
∂θ∂θ′ f (yi|θ) +
∂ ln f (yi|θ)
∂θ
∂f (yi|θ)
∂θ
dy(C.7)i
= 0 (C.8)
が得られる。この関係式は次のように書き換えることができる。
∂ ln f (y
i|θ)
∂θ∂θ′ f (yi|θ)dyi = −
∂ ln f (y
i|θ)
∂θ
∂f (yi|θ)
∂θ dyi (C.9)
∂ ln f (yi|θ)
∂θ∂θ′ f (yi|θ)dyi = E
∂ ln f (yi|θ)
∂θ∂θ′
であり、
∂ ln f (yi|θ)
∂θ
∂f (yi|θ)
∂θ dyi =
∂ ln f (yi|θ)
∂θ − 0
2
f (yi|θ) dyi
= V ar ∂ ln f (yi|θ)
∂θ
(C.10) であるから、
E ∂ ln f (yi|θ)
∂θ∂θ′
= −V ar ∂ ln f (yi|θ)
∂θ
(C.11) が確認されます。
C.2 漸近正規性の確認
推定されるパラメータベクトルの漸近正規性を確認するために、 h(θ) = ∂ ln L(θ)
∂θ =
i
∂ ln f (yi|xi, θ)
∂θ (C.12)
H(θ) = ∂
2ln L(θ)
∂θ∂θ′ =
∂h(θ)
∂θ′ (C.13)
と置いて、テーラー展開により、
h(ˆθ) = h(θ∗) + H(¯θ)[ˆθ − θ∗] (C.14) が得られます。推定量であるため、h(θ) = 0 であることを踏まえて、変形して、
[ˆθ − θ∗] = −[H(¯θ)]−1[h(θ∗)] (C.15)
を得ます。このとき、N → ∞ とすると、一致性より plimˆθ = θ∗になります。当 然、 ¯θ = w ˆθ + (1 − w)θ∗, w ∈ (0, 1) なので、plim¯θ = θ∗にもなって分布が潰れて しまいます。そこで、
√N [ˆθ − θ∗] = −√N[H(¯θ)]−1[h(θ∗)] (C.16)
としてみましょう。これは中心極限定理を利用することを意図したものです。
√N 倍することで平均値の確率分布が潰れないようにする目的があります。では、平 均値がどこにあるのかというと、(C.12) 式と (C.13) 式を見れば、標本数の和で構 成されていることがわかります。したがって、
−√N[H(¯θ)]−1[h(θ∗)] = − H(¯Nθ)
−1√ Nh(θ
∗)
N
(C.17) と書いて、E[
∂ ln f (yi|xi,θ∗)
∂θ∗ ] = 0 であることを利用して、
√Nh(θ
∗)
N
→d N
0, V ar ∂ ln f (yi|xi, θ∗)
∂θ∗
(C.18) になります。ところで、無作為標本なので、
N V ar ∂ ln f (yi|xi, θ∗)
∂θ∗
=
i
E ∂
2ln f (y i|xi, θ)
∂θ∗∂θ∗′
(C.19)
= E[H(θ∗)] (C.20) となります。したがって、両辺をN で割って、
√Nh(θ
∗)
N
→d N
0, E H(θ
∗)
N
(C.21) となります。一方、N → ∞ のとき、¯θ = wˆθ + (1 − w)θ∗, w ∈ (0, 1) なので、
H(¯θ) N
−1
→d H(θ
∗)
N
−1
(C.22) となります。このとき、(C.12) 式と (C.13) 式で和の計算になっていることに注意 しつつ、
plim H(θ
∗)
N = E
H(θ∗) N
(C.23) が得られます。再確認ですが、和の計算が含まれており、それをN で割っている ことから、行列定数に収束します。したがって、
√N[ˆθ − θ∗] → Nd
0,
E
−H(θ
∗)
N
−1
E
−H(θ
∗)
N
E
−H(θ
∗)
N
−1
(C.24) すなわち、
√N [ˆθ − θ∗] → Nd
0,
E
−H(θ
∗)
N
−1
(C.25)
であることが示されました。