大学院計量経済分析 Masumi Kawade Site 06saiyu

(1)

6 ^{最尤法とその周辺}

分布が知れているという、強い仮定の下に、推定法を構築してゆきます。不偏推定量の無い場合や、不変性を重視するような一般的な関数での推定を行う際などに便利な推定方法になります。

ただし、大標本下の漸近理論を中心とした議論の中で使われることが多いといえます。大標本理論では一致性と漸近正規性を利用します。標本を無限大にできないので、一致性の保証の下で、漸近的な議論を行います。その際には効率性が重要な役割を演じます。そして、最尤推定量は正規分布など、特定の分布に従っていることがわかっている場合には効率的といえます。

6.1 推定上の仮定とその意味

最尤法に必要な仮定は誤差項の確率分布が既知であって、標本が無作為抽出であることに加えて、特徴的な仮定があります。誤差項の起きる確率_{f (ǫ}_i, θ) = f (yi, xi, θ) と対数尤度_{ln f (y}_i_{, x}_i_{, θ) が、}

1. θ に関する f (yi, xi, θ) の三回までの微分はほぼすべての θ, yi^{で有限である}

この条件はテイラー展開とln L の 1 回微分の分散の有限性を担保します 2. ln f (yi, xi, θ) の 1 回および 2 回微分の期待値に必要な条件が整っている 3. 任意の θ について |^∂³_∂θ^{ln f (y}_j_∂θ_kⁱ^,x_∂θⁱ_l^,θ)| は有限な期待値を持つある関数よりも小さい

テイラー展開をある次数までで止めてもよいことを意味します

を満たすことです。なお、これを正則条件(Reqularity Condition) とよび、最小二乗法の古典的仮定に相当します。

誤差項の起きる確率_{f (ǫ}_i, θ) = f (yi, xi, θ) を見てみましょう。これはある標本 x₁, x₂, · · · , xN が起きた状況を所与として、母数θ を与えると確率がどうなるかを示す関数になります。このとき、母数θ の一部 β について、

ǫ_i = y_i_{− g(x}_i, β) (6.1)

という関係式を満たします。β は定数なので、f (yi, xi|θ) と書くことができます。また、_y_i_{, x}_iに関する同時確率ですが、_{θ は y}_iに関する母数であり、_y_iはモデル上で_x_iで説明されているため、_{f (y}_i_{, x}_i_{|θ) は}

f (yi, xi_{|θ) = f(y}i_|xi, θ)g(xi) (6.2) のように書き直せます。なお、_g(x_i_{) は x}_iが起きる確率です。そう考えれば、対数尤度_{ln f (y}_i_{, x}_i_{, θ) が}

ln f (yi, xi|θ) = ln f(yⁱ|xⁱ, θ) + ln g(xi) (6.3)

(2)

となって、θ を考慮する際に xiが起きる確率を考慮しなくてもよくなります。このとき、

1. ln f (yi, xi_|θ),^{∂ ln f (y}_∂θⁱ^,xⁱ^|θ),^∂²^{ln f (y}_∂θ∂θⁱ^,x′ ⁱ^|θ) ^{が無作為標本である}

2. E[^{∂ ln f (y}_∂θⁱ^,xⁱ^|θ)] = 0

3. V ar[^{∂ ln f (y}_∂θⁱ^,xⁱ^|θ)_{] = −E[}^∂²^{ln f (y}_∂θ∂θⁱ^,x′ ⁱ^|θ)]

がいえます。なお、補論C.1 で詳細を説明しています。

6.2 ^{推定量の導出}

6.2.1 ^{推定量自身の計算}

推定量を求めるために尤度関数L(θ) を考えます。尤度関数は

L(θ) ≡ f(ǫ¹^{, ǫ}², · · · , ǫ^N⁾ ^(6.4)

= f (y₁, y₂, · · · , yN^{, x}1^{, x}2, · · · , xN|θ) =

N

i=1

f (y_i, x_i_|θ) (6.5)

です。最尤原理によれば、標本の同時確率が最も高くなるように母数を定めることになるので、この尤度関数が最大になるような母数を求めることになります。ところで、そのまま演算するのは困難なので、

ln L(ˆθ) = ln

N

i=1

f (yi, xi_{|ˆθ) =} n

i=1

ln f (yi, xi_|ˆθ) (6.6)

=

n

i=1

ln f (yi_|xi, θ)g(xi) =

n

i=1

ln f (yi_|xi, θ) +

n

i=1

ln g(xi) (6.7)

とした上で、最大化の一階の条件

∂ ln L(ˆθ)

∂ ˆθ ^{= 0} ^(6.8)

を満たす ˆθ を求めることになります。これを尤度方程式 (Likelihood Equation) とよびます。なお、別の書き方として、

θ = arg minˆ

θˇ ^{ln L(ˇ}^θ) ^(6.9)

と書くこともできます。これは_{ln L(ˇ}θ) がもっとも小さくなる ˇθ を求めよという意味です。

(3)

このとき、_g(x_i_{, ˆ}β) は最小二乗法で議論してきた線形性よりも広い一般的な非線形関数も含んだ推定法であることに注意してください。なお、線形性の仮定の下で g(xi, ˆβ) = x^′_iβ ⇒ y = Xβ + ǫ ^(6.10) とした上で、誤差項が正規分布に従うと仮定しすると、

ln L( ˆβ) = ln(2πˆσ²)^−N/2₋ ^ˆǫ

′_ˆˆǫ

2ˆσ² ^{= ln(2πˆ}^σ

2₎−N/2

−^{(y − Xβ)}

′_{(y − X ˆ}_β)

2ˆσ² ^(6.11) がえられ、推定量の条件から、

∂ ln L( ˆβ)

∂ ˆβ ⁼

X^′_{(y − X ˆ}β) ˆ

σ² ^{= 0} ^(6.12)

∂ ln L( ˆβ)

∂ ˆσ² ^{= −} N 2ˆσ² ⁺

(y − X ˆ^β)^′(y − X ˆ^β)

2ˆσ⁴ ^{= 0} ^(6.13)

が得られて、推定量

βˆ_{M L}^∗ = (X^′X)⁻¹X^′y (6.14) ˆ

σ_{M L}² = ^{(y − Xβ)}

′_{(y − X ˆ}_β)

N ⁼

ˆǫ^′ˆǫ

N ^(6.15)

が計算できます。 ˆ_β_{M L}^∗ は最小二乗推定量と同じもの、_σ_ˆ²_{M L}は最小二乗推定量と分母の部分が異なっています。異なる部分はちょうど自由度の修正部分であり、最尤推定量は自由度の修正が行われていないことがわかります。したがって、小標本で求められる不偏性が無い推定量でもあります。

6.2.2 ^{推定量の分布の推定} 推定量の共分散行列は

Σ = [I(θ)]⁻¹ (6.16)

を知りたいのですが、直接はわかりません。そこで、

Σ = [I(ˆˆ θ)]⁻¹ (6.17)

を考えて見ましょう。しかし、 [I(ˆθ)]⁻¹=

−^∂

2_{ln L}

∂ ˆβ∂ ˆβ^′

−1

(6.18)

であり、2 回微分を計算しなければいけなくなります。そこで、 E

−^∂

2_{ln L}

∂β∂β^′

= E

−^∂

2_{ln f (y} i|xi^{, θ)}

∂β∂β^′

(6.19)

= E

−^∂

2_{ln f (y} i_|xi, θ)

∂β∂β^′

(6.20)

(4)

であったことを思い出すと、 E

−^∂

2_{ln f (y} i|xi^{, θ)}

∂β∂β^′

= −E ∂ ln f (y_i_|x_i, θ)

∂β

∂ ln f (y_i_|x_i, θ)

∂β^′

(6.21)

とすれば、

∂ ln f (yi|xi,θ)

∂β の部分が出てくるため、 [I(ˆθ)]⁻¹_{= −}

∂ ln f (yi_|xi, θ)

∂ ˆβ

∂ ˆβ^′

−1

(6.22)

となって、1 回微分を利用するだけですみます。これを BHHH 推定量と呼びます。

6.2.3 ^望ましさ

正則条件を満たせば、最尤推定量は

1. 標本が十分に大きくなってゆけば、最尤推定量は真の母数に至る (plimˆθ = θ^∗ : 一致性)

2. 標本が十分に大きくなってゆけば、最尤推定量は正規分布を持つ (ˆ_{θ ∼ N(θ}^∗, I⁻¹(θ^∗)), where I(θ^∗_{) = −E{∂}²ln L/∂θ^′∂θ^′_{} : 漸近正規性)}

3. 最尤推定量 ˆθ は漸近的に効率的でクラーメル=ラオの下限に至る (漸近効率性) 4. 母数を用いてえられる任意の関数 c(θ) の最尤推定量は母数の個別の推定量 ˆθ

をその関数に代入した_c(ˆθ) を用いればよい (不変性:Invariance) という性質を持ちます。

このとき注意すべきなのは、不偏性に関する記述がないことと漸近性を多用していることです。これは誤差項の確率分布が特定の分布に決めた上で、その計算仮定で出てくる確率分布が何であっても、大標本の下での推定量の性質は同じとなるということを意図しているのです。したがって、最尤推定量は大標本で威力を発揮することを意味しています。

なお、有限標本で重要となる不偏性が、誤差項の分散の推定量が_{(6.15) 式で示} されるようにないことがわかります。ただし、一致性と漸近的効率性を持つ推定量なので、大標本では問題なく、不変性を持つため複雑な推定にも威力を発揮します。

6.3 ^仮説検定

6.3.1 ^{尤度比検定量}

母数の制約c(β) を正しいと考えた場合、その制約によって大きく尤度が変化する場合には何かしらの影響があると考えるのが正しいでしょう。それを利用した

(5)

検定が尤度比検定量(Likelihood Ratio Statistics) です。仮説は H₀ : c(β) = 0

H1 : c(β) = 0

になります。制約がある場合の尤度を_{ln L}₀、無い場合を_{ln L}₁として、制約の数を J とすれば、

LR = −2[ln L0 − ln L1^]

→ χd ²^[J] ^(6.23)

ということが知られています。

線形モデルの場合線形モデルの場合は簡単に表せて、 LR = N ln^ǫ

′R^ǫ^R

ǫ^′ǫ

(6.24)

となります。

6.3.2 ^{ワルド検定量}

尤度比検定のように2 つの推定量を比較するのではなく、母数の制約 c(β) を正しいと考えた場合、十分標本が多ければ、制約を課したパラメータの推定値と仮説検定で与えられた制約付の真の値との乖離は推定量の漸近性からほとんどないといえるはずです。それを利用した検定がワルド検定量(Wald Statistics) です。仮説は

H0 : c(β) = q H1 : c(β) = q

になります。制約の数を_{J とすれば、}

W = [c( ˆ_{β) − q]}^′{Asy.V ar[c( ˆβ)]}⁻¹^{[c( ˆ}β) − q] → χ^d ²^[J] ^(6.25) where C( ˆ_{β) ≡} ^{∂c( ˆ}^β)

∂ ˆβ^′

ということが知られています。なお、Asy.V ar[c( ˆβ)] = [I(ˆθ)]⁻¹^をBHHH 推定で用いればいいでしょう。

線形モデルの場合なお、線形モデルでは

Asy.V ar[c( ˆβ)] = Asy.V ar[R ˆβ] = RAsy.V ar[ ˆβ]R^′ (6.26)

(6)

なので、

W = [R ˆ_{β − q]}^′{RAsy.V ar[ ˆ^β]R^′}⁻¹^{[R ˆ}β − q] ^(6.27)

= [R ˆ_{β − q]}^′_{Rs²(X^′X)⁻¹R^′_}⁻¹[R ˆ_{β − q]} (6.28) になります。このとき

s²_LM = ^{N − K} N ^s

2

LS ^(6.29)

であることに注意すれば、 F = ^{[R ˆ}^{β − q]}

′_{Rs2

LS^(X^′^X)⁻¹^R^′}⁻¹^{[R ˆ}β − q]

J ^(6.30)

であるので、 W = ^NJ

N − K^F ^(6.31)

であることがわかります。すなわち、F 検定とワルド検定は漸近的には一致した検定になります。

6.3.3 ラグランジュ乗数検定量

母数の制約c(β) を正しいと考えた場合、制約付推定量の尤度関数も最大値に近いはずです。したがって、その制約を少しでも変更した場合の変化_{(ラグランジュ} 乗数) が限りなく 0 になっている必要があります。それを利用した検定がラグランジュ乗数検定量(Lagrange Multiplier Statistics) です。仮説は

H0 : c(β) = q H1 : c(β) = q

になります。もともと、最大値問題は maxθ ^{L(θ) − λ}

′_{[c( ˆ}

β) − q] ^(6.32)

ですから、λ は制約である c(β) の限界的な変化に対する L(θ) の変化ということになります。c(β) が真の定式化であれば、限界的な変化に対する対数尤度の変化 λ が_{0 になり、c( ˆ}β) が 0 の周囲で分布することになるはずです。それを検定として利用するため、制約の数をJ として、ワルド検定を用いると、

LM = ˆλ^′(V ar[ˆλ])⁻¹λ^ˆ _{→ χ}^d ²[J] (6.33) ということが知られています。

(7)

線形モデルの場合線形モデルの場合は、最適であるときの必要条件である_{λ = 0} として、対数尤度と制約の偏微分との関係として、

E^{∂ ln L}^R

∂ ˆβR

= E^X

′_ǫ

σ²

= 0 (6.34)

V ar^{∂ ln L}^R

∂ ˆβR

= E

− ^{∂ ln L}^R

∂ ˆβR∂ ˆβ_R^′

(6.35)

= σ_R⁻²(X^′X) (6.36)

が得られます。これは平均と分散を求めているので、ワルド検定として、 LM = ^X

′_ǫ R

s²_R

′

[s⁻²_R (X^′X)]⁻¹^X

′_ǫ R

s²_R

(6.37)

= ǫ^′_RX(X^′X)⁻¹^X

′_ǫ R

s²_R

=^ǫ

′R^X(X^′^X)⁻¹^X^′^ǫ^R

ǫ^′_Rǫ_R/N

(6.38)

となります。こうすれば、わざわざλ を計算せずともラグランジュ検定が行われることになります。

6.3.4 ^{線形モデルでの関係}

線形モデルでは帰無仮説が棄却できない、すなわちF 値が十分小さければ、 W = ^NJ

N − K^F ^(6.39)

LR = N ln

1 + ^NJ N − K^F

≃ ^NJ

N − K^F ^(6.40)

LM = ^NJ

(N − K) + JF/(N − K)^{F ≃} NJ

N − K^F ^(6.41) がいえます。ただし、

W ≥ LR ≥ LM ^(6.42)

が成立していることに注意してください。大標本でかつ帰無仮説が棄却できない場合にはどの検定を使ってもほぼ同じ結果になることがわかります。ただし、_LM 検定が仮説検定としては厳しい検定になっているともいえるでしょう。

なお、

NJF

(N − K) + JF/(N − K) ^{− F =}

F (NJ − 1)

(N − K) + JF/(N − K) ^{> 0} ^(6.43) ゆえ、

W ≥ LR ≥ LM ≥ F ^(6.44)

(8)

ということがわかります。F 検定よりも大きな値をとる傾向があるということは、帰無仮説が棄却されやすくなる、すなわち、第1 の誤謬を犯してしまう可能性が高いとも考えられます。その意味では慎重さを重視してF 検定を行うのも妥当でしょう。

6.3.5 ^{確率分布の検定}

誤差項の正規性の検定は重要な検定として、 mr= ¹

N

i=1

ˆǫ² (6.45)

をモーメントの一致推定量として、 b1 = ^m

23

σ⁶ ^(6.46)

b2 = ^m⁴

σ⁴ ^(6.47)

と置くと、 N^b¹

6 ⁺

(b2_{− 3)}²

24

d

−−→ χ²⁽²⁾ ^(6.48)

となるので、これを仮説検定することができます。

6.4 ^{推定量の応用}

6.4.1 ^{不均一分散}

不均一分散についても最尤法は有益です。まず、 L = −^N₂[ln(2π) + 2 ln σi_{] −}

1 2

N

i=1

1

σ_i²^(yⁱ^{− x}

′ i^β)²

(6.49)

について、

σ_i² = σ²g(z_i^′α) (6.50)

を考えます。これを代入して、

L = −^N₂[ln(2π) + 2 ln σ + ln g(z_i^′_{α)] −} ¹ 2

N

i=1

1

σ²g(z_i^′α)^(yⁱ^{− x}

′i^β)²

(6.51)

(9)

とした上で、一階の条件から

∂ ln L

∂α ⁼ 1 2

N

i=1

ǫ²_i

σ²g(z^′_iα)^{− 1}

1 g(z_i^′α)

∂g(z_i^′α)

∂α ^{= 0} ^(6.52)

∂ ln L

∂β ⁼

N

i=1

xi

ǫ_i

σ²g(z^′_iα) ^{= 0} ^(6.53)

∂ ln L

∂σ² ⁼ 1 2σ²

N

i=1

ǫ²_i

σ²g(z_i^′α) ^{− 1}

= 0 (6.54)

が得られるため、これを条件として求めることになります。

6.4.2 ^系列相関

系列相関には誤差項の尤度関数は

L = f (ǫ) = f (ǫ₁)f (ǫ₂_|ǫ₁)f (ǫ₃_|ǫ₂) · · · f(ǫT|ǫT −1⁾ ^(6.55)

のように示されてることになります。 ln L = ln f (ǫ1) +

T

i=2

ln f (ǫi_|ǫi−1) (6.56)

この関数に条件を与えて、相関を定式化することになります。 AR(1) 過程の推定系列相関でもよく出てくる AR(1)

ǫt = ρǫt−1+ ut (6.57)

を考えてみましょう。このとき、AR(1) の誤差項が

E[ut] = 0 (6.58)

V ar[u_t] = σ²_u (6.59)

Cov[ut, us] = 0, t = s ^(6.60) とすると、

ǫt = ut+ ρut−1+ ρ²ut−2_{+ · · ·} (6.61) であり、

ǫt = ρǫt−1+ ut (6.62)

= ρ²ǫt−2+ ut+ ρut−1 (6.63)

= ρ^sǫ_t−s+

s−1

i=0

ρⁱu_t−i (6.64)

(10)

であることを用いると、

E[ǫt] = 0 (6.65)

V ar[ǫt] = σ_u² + ρ²σ_u²+ ρ⁴σ_u²_{+ · · ·} (6.66)

= σ_u²(1 + ρ²+ ρ⁴+ · · · ) = σ²u

1

1 − ρ² ^(6.67) Cov[ǫt, ǫt−s] = Cov

ρ^sǫt−s+

s−1

i=0

ρⁱut−i, ǫt−s

(6.68)

= E

ρ^sǫ²_t−s+ ǫt−s

_s−1

i=0

ρⁱut−i

(6.69)

= σ_u² ^ρ

s

1 − ρ²^{, t > s} ^(6.70) がわかります。ところで、AR(1) であることを考えると、

ǫt_{− ρǫ}t−1 = ρǫt−1+ ut_{− ρǫ}t−1 (6.71) u_t = y_t_{− ρy}_t−1_{− (x}_t_{− ρx}_t−1)β (6.72) が得られます。なお、_ǫ₁は過去の確率変数に依存しないと考えれば、_u₁に関する確率変数として、

ǫ₁ = ^u¹

1 − ρ² ^(6.73)

を考えられます。このように考えると、

L = f (ǫ) = f (ǫ1)f (ǫ2_|ǫ1)f (ǫ3_|ǫ2) · · · f(ǫ^T|ǫ^{T −1}⁾ ^(6.74)

⇒ f(ǫ¹, u) = f (ǫ1)f (u2) · · · f(u^T^{) = f}^∗^(u¹^{)f (u}²) · · · f(u^T⁾ ^(6.75) という尤度を考えればよいと考えられます。そう考えると尤度関数は

L = −^T₂[ln(2π) + 2 ln σu] − ln(1 − ρ²⁾

−_2σ¹₂

u

(1 − ρ²^{) [y}¹− x^′1^β] 2+

T

i=2

[yt_{− ρy}t−1_{− (x}t_{− ρx}t−1)β]²

(6.76)

= −^T₂[ln(2π) + 2 ln σu] − ln(1 − ρ²⁾

− ¹ 2σ_u²

1 − ρ²^y¹−1 − ρ²^x^′1^β

2

+

T

i=2

[yt_{− ρy}t−1_{− (x}t_{− ρx}t−1)β]²

(6.77) であり、これを最大化すればよいことになります。なお、ρ が既知であれば、一般化最小二乗法と同じになりますが、未知であれば、ρ の限界条件を 0 とせずに、β, σ の限界条件を与えて、尤度が最大となるρ を少しずつずらして計算することになります¹。

1それを簡便化したものはBeach and MacKinnon(1978) を参照。

(11)

6.5 ^{推定量の利用先}

6.5.1 ^{二値選択データ} ある対象が起きる確率を

P rob(Y = 1) = F (x, β)

P rob(Y = 0) = 1 − F (x, β) ^(6.78) のように考えるときの推定量を考えてみます。このとき、モデルを

y = xβ (6.79)

のように考えることもできますが、説明変数の値が過大だと_{1 を超えたりマイナ} スになることが考えられます。そこで、

y =

xβ

−∞

f (z)dz = F (xβ) (6.80)

として、分布関数で表現してみましょう。このとき、分布関数をそれぞれ、

√1

2π^exp

−(xβ)² 2

(標準正規分布) でとる −→ プロビットモデル exp {xβ}

1 + exp {xβ}(ロジスティック関数) でとる _{−→ ロジットモデル}

と呼びます。なお、両者の利用についてはロジットモデルが比較的よく使われますが、特にどちらかがよいというものはありません。

実際に推定する際には、_I_sを成功した際1 をとりそれ以外を 0 をとるインデックス関数として、尤度関数を

L =

N

i=1

F (xiβ)^I^s_{[1 − F (x}iβ)]^1−I^s (6.81)

とおいて、対数を取った ln L =

N

i=1

Isln F (xiβ) + (1 − I^s) ln[1 − F (xⁱ^β)] ^(6.82)

についての母数に関する一階条件の

∂ ln L

∂β ⁼

N

i=1

Is

f (xiβ)

F (xiβ) ^{− (1 − I}^s⁾

f (xiβ) 1 − F (xⁱ^β)

xi = 0 (6.83)

を満たすβ が推定量となります。この後は標準正規分布やロジスティック関数等の分布関数の形状に依存します。仮説検定は通常の最尤法ですから、通常どおりの検定が行えます。

(12)

なお、ロジットモデルは

∂E[y|x]

∂x ⁼

∂

∂x(0[1 − F (xβ)] + 1[F (xβ)]) = f(xβ)β ^(6.84)

∂

∂xβ

exp {xβ} 1 + exp {xβ}

= ^{exp {xβ}} 1 + exp {xβ}

1 − ^{exp {xβ}} 1 + exp {xβ}

(6.85)

なので、

∂E[y|x]

∂x ⁼

exp {xβ} 1 + exp {xβ}

1 − ^{exp {xβ}} 1 + exp {xβ}

β (6.86)

となって、期待値に与える限界効果を即座に計算できるのが便利です。

C ^{関連内容の補足}

C.1 仮定から導かれる性質の証明

まず、A(θ), B(θ) がそれぞれ確率変数の取る最小値、最大値とすると、確率の公理から

B(θ) A(θ)

f (yi_|θ)dyi = 1 (C.1)

が満たされなければいけない。このとき、θ の限界的変化について、ライプニッツ定理(Leibniz’s Theorem) より、

∂

∂θ

B(θ) A(θ)

f (yi_|θ)dyi

=

B(θ) A(θ)

∂f (y_i_|θ)

∂θ ^dyⁱ+ f (B(θ)|θ)^∂B(θ)

∂θ − f(A(θ)|θ)^∂A(θ)

∂θ ^(C.2) が成立する。なお、公理が常に満たされるはずなので、この値は常に_{0 となる。な} お、A(θ), B(θ) が変化しないと仮定すると、微分積分の順序交換が成り立ち、

∂

∂θ

B(θ) A(θ)

f (yi_|θ)dyi =

B(θ) A(θ)

∂f (yi_|θ)

∂θ ^dyⁱ ^{= 0} ^(C.3)

が満たされる。仮定をした上で話を進めれば、

∂

∂θ

f (yi_|θ)dyi =

_{∂f (y}

i_|θ)

∂θ ^dyⁱ ⁼

_{∂ ln f (y}

i_|θ)

∂θ ^{f (y}ⁱ^|θ)dyⁱ ^(C.4)

= E ∂ ln f (y_i_|θ)

∂θ

= 0 (C.5)

が得られて、対数尤度に関する一回微分の期待値が0 となることが確認できる。なお、期待値をとるときの確率は変化していないことに注意してください。このこ

(13)

とは与える母数を変化させれば対数尤度は変化するものの、期待値で評価すれば、変化しないことを意味します。いったん母数を与えると、その母数での対数尤度で最適化されていると考えられます。実際、極大か極小かについてはその二回微分を取ってみましょう。

それには、ライプニッツの定理の条件が満たされるとして、ライプニッツの定理と仮定を再度適用すれば、微分積分の交換法則は引き続き成り立ち、

∂

∂θ

∂f (yi_|θ)

∂θ ^dyⁱ ⁼

∂f (yi_|θ)

∂θ∂θ^′ ^dyⁱ ⁼

∂

∂θ

∂ ln f (yi_|θ)

∂θ ^{f (y}ⁱ^|θ)

dy(C.6)i

=

∂ ln f (yi_|θ)

∂θ∂θ^′ ^{f (y}ⁱ^{|θ) +}

∂ ln f (yi_|θ)

∂θ

∂f (yi_|θ)

∂θ

dy(C.7)i

= 0 (C.8)

が得られる。この関係式は次のように書き換えることができる。

_{∂ ln f (y}

i|θ)

∂θ∂θ^′ ^{f (y}ⁱ^|θ)dyⁱ ^{= −}

_{∂ ln f (y}

i|θ)

∂θ

∂f (y_i_|θ)

∂θ ^dyⁱ ^(C.9)

∂ ln f (yi_|θ)

∂θ∂θ^′ ^{f (y}ⁱ^|θ)dyⁱ ^{= E}

∂ ln f (y_i_|θ)

∂θ∂θ^′

であり、

∂ ln f (yi_|θ)

∂θ

∂f (yi_|θ)

∂θ ^dyⁱ ⁼

∂ ln f (y_i_|θ)

∂θ ^{− 0}

2

f (yi_{|θ) dy}i

= V ar ∂ ln f (y_i_|θ)

∂θ

(C.10) であるから、

E ∂ ln f (yi_|θ)

∂θ∂θ^′

= −V ar ∂ ln f (yi_|θ)

∂θ

(C.11) が確認されます。

C.2 ^{漸近正規性の確認}

推定されるパラメータベクトルの漸近正規性を確認するために、 h(θ) = ^{∂ ln L(θ)}

∂θ ⁼

i

∂θ ^(C.12)

H(θ) = ^∂

2_{ln L(θ)}

∂θ∂θ^′ ⁼

∂h(θ)

∂θ^′ ^(C.13)

と置いて、テーラー展開により、

h(ˆθ) = h(θ^∗) + H(¯θ)[ˆ_{θ − θ}^∗] (C.14) が得られます。推定量であるため、h(θ) = 0 であることを踏まえて、変形して、

[ˆ_{θ − θ}^∗] = −[H(¯θ)]⁻¹^[h(θ^∗^)] ^(C.15)

(14)

を得ます。このとき、N → ∞ とすると、一致性より plimˆθ = θ^∗^{になります。当} 然、 ¯_{θ = w ˆ}θ + (1 − w)θ^∗, w ∈ (0, 1) なので、plim¯θ = θ^∗にもなって分布が潰れてしまいます。そこで、

√N [ˆ_{θ − θ}^∗_{] = −}^√N[H(¯θ)]⁻¹[h(θ^∗)] (C.16)

としてみましょう。これは中心極限定理を利用することを意図したものです。

√N 倍することで平均値の確率分布が潰れないようにする目的があります。では、平均値がどこにあるのかというと、(C.12) 式と (C.13) 式を見れば、標本数の和で構成されていることがわかります。したがって、

−^√^N[H(¯^θ)]⁻¹^[h(θ^∗)] = −^H(¯_N^θ)

−1_√ N^h(θ

∗₎

N

(C.17) と書いて、_E[

∂ ln f (yi|xi,θ^∗)

∂θ^∗ ] = 0 であることを利用して、

√N^h(θ

∗₎

N

→d ^N

0, V ar ∂ ln f (yi_|xi, θ^∗)

∂θ^∗

(C.18) になります。ところで、無作為標本なので、

N V ar ∂ ln f (y_i_|x_i, θ^∗)

∂θ^∗

=

i

E^∂

2_{ln f (y} i_|xi, θ)

∂θ^∗∂θ^∗^′

(C.19)

= E[H(θ^∗)] (C.20) となります。したがって、両辺を_{N で割って、}

√N^h(θ

∗₎

N

→d ^N

0, E^H(θ

∗₎

N

(C.21) となります。一方、N → ∞ のとき、¯θ = wˆθ + (1 − w)θ^∗, w ∈ (0, 1) なので、

H(¯θ) N

−1

→d ^H(θ

∗₎

N

−1

(C.22) となります。このとき、(C.12) 式と (C.13) 式で和の計算になっていることに注意しつつ、

plim ^H(θ

∗₎

N ^{= E}

H(θ^∗) N

(C.23) が得られます。再確認ですが、和の計算が含まれており、それを_{N で割っている} ことから、行列定数に収束します。したがって、

√N[ˆ_{θ − θ}^∗] _{→ N}^d

0,

E

−^H(θ

∗₎

N

−1

E

−^H(θ

∗₎

N

E

−^H(θ

∗₎

N

−1

(C.24) すなわち、

√N [ˆ_{θ − θ}^∗] _{→ N}^d

0,

E

−^H(θ

∗₎

N

−1

(C.25)

であることが示されました。

大学院 計量経済分析 Masumi Kawade Site 06saiyu

6 最尤法とその周辺

6.1 推定上の仮定とその意味

6.2 推定量の導出

6.3 仮説検定

6.4 推定量の応用

6.5 推定量の利用先

C 関連内容の補足

C.1 仮定から導かれる性質の証明

C.2 漸近正規性の確認

大学院計量経済分析 Masumi Kawade Site 06saiyu

6 ^{最尤法とその周辺}

6.2 ^{推定量の導出}

6.3 ^仮説検定

6.4 ^{推定量の応用}

6.5 ^{推定量の利用先}

C ^{関連内容の補足}

C.2 ^{漸近正規性の確認}