第 10 章推定量の求め方

(1)

第 10 _{章推定量の求め方}

10.1 2

つの推定方法

主な推定方法として，下記の2種類が有名である。

• 最小二乗法

• 最尤法（さいゆうほう）

(2)

最小二乗法について，今まで説明してきた。

10.1.1

最小二乗法（再）

・n個のデータ(実現値)： x1，x2，· · ·，xn

・背後に対応する確率変数を仮定：X1，X2，· · ·，Xn

・E(X_i)=µ，V(X_i)= σ²を仮定

母数(µ, σ²)を推定する。

観測データ x₁，x₂，· · ·，x_nをもとにして，µの最小二乗推定値を求める。

(3)

ˆ

µをµのある推定値とする。

minµˆ

Xn i=1

(x_i−µ)ˆ ²

の解が最小二乗推定値となる。

すなわち，S( ˆµ)=P_n

i=1(x_i−µ)ˆ ²とするとき，

dS( ˆµ) dµˆ =0

をµˆ について解く。

dS( ˆµ) dµˆ =−2

Xn i=1

(xi−µ)ˆ =−2Xⁿ

i=1

xi− Xn

i=1

ˆ µ

=−2Xⁿ

i=1

xi−nµˆ

=0

(4)

なので，

ˆ µ= 1

n Xn

i=1

x_i

が得られる。

ˆ

µ≡ xとなる。

µの最小二乗推定量µˆ はデータx_i を対応する確率変数X_i で置き換えて，

ˆ µ= 1

n Xn

i=1

X_i

となるので，µˆ ≡ Xを得る（µˆ について，推定値と推定量は同じ記号を使っている）。

(5)

以上を回帰分析に応用すると，

min

ˆ α,βˆ

Xn i=1

(Y_i −αˆ −βXˆ _i)²

を解くことになる。

すなわち，S( ˆα,β)ˆ = P_n

i=1(Y_i−αˆ −βXˆ _i)²とするとき，

∂S( ˆα,β)ˆ

∂αˆ = 0

∂S( ˆα,β)ˆ

∂βˆ = 0

の連立方程式をαˆ，βˆ について解いて，

βˆ = P_n

i=1(Xi−X)(Yi−Y) P_n

(X −X)² , αˆ =Y−βXˆ

(6)

が得られる。

10.1.2

最尤法（さいゆうほう）

n個の確率変数X₁，X₂，· · ·，X_nは互いに独立で，同じ確率分布 f(x)≡ f(x;θ)とする。

分布関数を仮定する必要がある。

ただし，θは母数で，例えば，θ= (µ, σ²)である。

X₁, X₂,· · ·,X_nの結合分布は，互いに独立なので，

f(x₁,x₂,· · ·,x_n;θ)≡ Yn

i=1

f(x_i;θ)

(7)

と表される（2つの確率変数が独立の場合，12月15日の講義ノート472ページ参照）。

観測データ x₁，x₂，· · ·，x_nを与えたもとで，Q_n

i=1 f(x_i;θ)はθの関数として表される。

すなわち，

l(θ)= Yn

i=1

f(x_i;θ)

として，θの関数であることを明示的に表している。

l(θ)を尤度関数と呼ぶ。

最尤法とは，尤度関数を最大にするようなθを求める方法である。

(8)

すなわち，

maxθ l(θ)

となるθを求める。

得られた解を最尤推定値と呼び，θˆで表すことにする。

最尤推定値θˆは観測されたデータx₁，x₂，· · ·，x_nの関数となっているので，θˆ =θ(xˆ ₁,x₂,· · ·,x_n) となる。

データx₁，x₂，· · ·，x_nを確率変数X₁，X₂，· · ·，X_nで置き換えて，θˆ =θ(Xˆ ₁,X₂,· · ·,X_n)を最尤推定量と呼ぶ。

(9)

推定量と推定値は同じ記号θˆを使っている。

また，

maxθ l(θ)

と

maxθ logl(θ)

のθの解はともに同じものであることに注意せよ。

logl(θ)を対数尤度関数と呼ぶ。

(10)

logを常用対数（底が10），lnを自然対数（底がe）として，区別する場合もあるが，ここでは，対数は自然対数（以下では，単に対数とする）のこととする。

すなわち，以下では，logの底をeとする。loge^x = xloge= xに注意。

eは自然対数の底と呼ばれ，e= lim

n→∞

1+ 1 n

_n

= 2.718281828· · ·である。

最尤推定量の性質： θがスカラー（1×1）の場合，nが大きいとき，

θˆ∼ N(θ, σ²_θ) ただし，σ²_θ = 1 P_n

i=1Ehdlog f(X_i;θ) dθ

₂i =− 1 P_n

i=1Ehd²log f(Xi;θ) dθ²

i

となる。

証明は中心極限定理（12月10日の講義ノートの463∼464ページ）を用いる。

(11)

θがベクトル（k×1）の場合，nが大きいとき，

θˆ∼ N(θ,Σ_θ)

となる。ただし，

Σ_θ =Xⁿ

i=1

Eh∂log f(X_i;θ)

∂θ

∂log f(X_i;θ)

∂θ

₀i₋₁

=−Xⁿ

i=1

Eh∂²logf(X_i;θ)

∂θ∂θ⁰

i₋₁

とする（証明略）。

(12)

まとめ：

1. nが大きいとき，θˆはθの不偏推定量

2. nが大きいとき，σ²_θ = 1 P_n

i=1Ehdlog f(X_i;θ) dθ

₂i はゼロに収束する（二乗の期待値を n

個足し合わせているので）。

3. よって，nが大きいとき，θˆはθの一致推定量

4. nが大きくなると，σ²_θ はすべての一致推定量の中で最も小さな分散となる（すなわち，

有効推定量）。

このように，nが大きいとき，θˆはθの不偏推定量，一致推定量，有効推定量となる。

最尤推定量は最も良い推定量と言える。

(13)

例1：正規母集団N(µ, σ²)からの標本値x₁, x₂,· · ·, x_nを用いて，

(1) σ²が既知のとき，µの最尤推定値と最尤推定量 (2) σ²が未知のとき，µとσ²の最尤推定値と最尤推定量をそれぞれ求める。

［解］ N(µ, σ²)の密度関数は，

f(x;µ, σ²)= 1

√2πσ² exp

− 1

2σ²(x−µ)²

となる。

exp(x)=e^xとする。

(14)

したがって，互いに独立なX₁,X₂,· · ·, X_nの結合分布は，

f(x₁,x₂,· · ·,x_n;µ, σ²)≡ Yn

i=1

f(x_i;µ, σ²)

= Yn

i=1

√ 1

2πσ²exp

− 1

2σ²(x_i−µ)²

= (2πσ²)⁻ⁿ² exp

− 1 2σ²

Xn i=1

(x_i−µ)²

となる。

(1) σ²が既知のとき，尤度関数l(µ)は，

l(µ)= (2πσ²)⁻ⁿ² exp

− 1 2σ²

Xn i=1

(x_i−µ)²

(15)

となる。

l(µ)を最大にするµとlogl(µ)を最大にするµは同じになる。

したがって，両辺に自然対数を取って，対数尤度関数は，

logl(µ)= −n

2log(2πσ²)− 1 2σ²

Xn i=1

(x_i−µ)²

となり，

dlogl(µ) dµ = 1

σ² Xn

i=1

(x_i−µ)= 0

(16)

となるµを求める。µの解をµˆ とすると，µの最尤推定値は，

ˆ µ= 1

n Xn

i=1

x_i ≡ x

を得る。

さらに，観測値 x₁, x₂,· · ·, x_n をその確率変数X₁, X₂, · · ·, X_n で置き換えて，µの最尤推定量は，

ˆ µ= 1

n Xn

i=1

X_i ≡X

となる。

(17)

nが大きいとき，µˆ の分散を求めるために，両辺に自然対数を取る。

log f(X_i;µ)=−1

2log(2πσ²)− 1

2σ²(X_i−µ)² dlogf(X_i;µ)

dµ = 1

σ²(Xi−µ) dlog f(Xi;µ)

dµ

₂

= 1

σ⁴(X_i−µ)²

Ehdlog f(X_i;µ) dµ

₂i

= 1 σ⁴E

(X_i−µ)²

= 1

σ⁴V(X_i)= 1 σ²

と計算される。

(18)

最尤推定量の性質から，nが大きいとき，

ˆ

µ∼ N(µ, σ²_µ)

ただし，

σ²_µ = 1

P_n

i=1Ehdlogf(X_i;µ) dµ

₂i = σ² n

この場合は，nの大きさに関わらず，µˆ ∼N(µ, σ²_µ)が成り立つ。

(19)

または，

d²log f(X_i;µ) dµ² = − 1

σ²

となるので，

σ²_µ = − 1 P_n

i=1Ed²logf(X_i;µ) dµ²

= σ² n

とすることもできる。

Ehdlogf(X_i;µ) dµ

₂i

でも，Ed²logf(X_i;µ) dµ²

でも，計算しやすい方を選べばよい。

(20)

(2) σ²が未知のとき，µとσ²の尤度関数は，

l(µ, σ²)=(2πσ²)⁻ⁿ² exp

− 1 2σ²

Xn i=1

(x_i−µ)²

となる。

対数尤度関数は，

logl(µ, σ²)=−n

2log(2π)− n

2logσ²− 1 2σ²

Xn i=1

(x_i−µ)²

と表される。

(21)

µとσ²について，最大化するためには，

∂logl(µ, σ²)

∂µ = 1

σ² Xn

i=1

(x_i −µ)= 0

∂logl(µ, σ²)

∂σ² =−n 2

1 σ² + 1

2σ⁴ Xn

i=1

(x_i−µ)² =0

の連立方程式を解く。

(*) dlogx dx = 1

x に注意。

µ，σ² の解をµˆ，σˆ²とすると，最尤推定値は，

ˆ µ= 1

n Xn

i=1

x_i ≡ x

(22)

ˆ σ²= 1

n Xn

i=1

(x_i−µ)ˆ ² ≡ 1 n

Xn i=1

(x_i−x)²

となる。

観測値x1, x2,· · ·, xnをその確率変数X1, X2,· · ·,Xn で置き換えて，µ,σ²の最尤推定量は，

ˆ µ= 1

n Xn

i=1

X_i ≡ X ˆ

σ²= 1 n

Xn i=1

(X_i−µ)ˆ ≡ 1 n

Xn i=1

(X_i−X)

となる。

σ² の最尤推定量σˆ²は，σ²の不偏推定量S² = 1 n−1

Xn i=1

(X_i−X)²とは異なることに注意。

(23)

θ=





µ σ²



とする。nが大きいとき，

θˆ∼ N(θ,Σ_θ)

ただし，

Σ_θ = −Xⁿ

i=1

Eh∂²log f(X_i;θ)

∂θ∂θ⁰

i₋₁

とする。二階微分の期待値を求める。

log f(X_i;θ)= −1

2log(2π)− 1

2log(σ²)− 1

2σ²(X_i−µ)²

∂logf(X_i;θ)

∂θ =





∂log f(X_i;θ)

∂log∂µf(X_i;θ)



=





1

σ²(Xi−µ)

− 1

+ 1

(X −µ)²





(24)

∂²logf(Xi;θ)

∂θ∂θ⁰ =





∂²log f(X_i;θ)

∂µ²

∂²log f(X_i;θ)

∂µ∂σ²

∂²log f(X_i;θ)

∂σ²∂µ

∂²log f(X_i;θ)

∂(σ²)²



=



 − 1

σ² − 1

σ⁴(X_i−µ)

− 1

σ⁴(X_i−µ) 1 2σ⁴ − 1

σ⁶(X_i−µ)²





Eh∂²logf(Xi;θ)

∂θ∂θ⁰

i=



 − 1

σ² − 1

σ⁴E(X_i−µ)

− 1

σ⁴E(X_i−µ) 1 2σ⁴ − 1

σ⁶E[(X_i−µ)²]



=



− 1 σ² 0

0 − 1

2σ⁴





よって，

Σ_θ =−Xⁿ

i=1

Eh∂²logf(X_i;θ)

∂θ∂θ⁰

i₋₁

=





σ²

n 0

0 2σ⁴ n





まとめると，µ，σ² の最尤推定量µˆ = 1 n

Xn i=1

X_i，σˆ² = 1 n

Xn i=1

(X_i− X)² の分布は，nが大きい

(25)

とき，



 µˆ ˆ σ²



∼ N  µ

σ²



,





σ²

n 0

0 2σ⁴ n





!

となる。

例2： X₁，X₂，· · ·，X_nは互いに独立で，それぞれパラメータpを持ったベルヌイ分布に従うものとする。

すなわち，Xi の確率関数 f(xi;p)は，

f(x;p)= p^x(1−p)^1−x x= 0,1

となる。

(26)

このとき尤度関数は，

l(p)= Yn

i=1

f(x_i;p)= Yn

i=1

p^xⁱ(1− p)^1−xⁱ = p^Pⁱ^xⁱ(1−p)^Pⁱ^(1−xⁱ⁾ = p^Pⁱ^xⁱ(1− p)ⁿ⁻^Pⁱ^xⁱ

となり，対数尤度関数は，

logl(p)= Xn

i=1

logf(x_i;p)=( Xn

i=1

x_i) log(p)+(n− Xn

i=1

x_i) log(1− p)

となる。

logl(p)を最大にするpを求める。

dlogl(p) dp = 1

p Xn

i=1

x_i− 1 1− p(n−

Xn i=1

x_i)

= (1− p)P_n

i=1x_i− p(n−P_n

i=1x_i)

p(1− p) =

P_n

i=1x_i− pn p(1− p) =0

(27)

したがって，pについて解くと，pの最尤推定値 pˆ は，

ˆ p= 1

n Xn

i=1

x_i

となる。

さらに，x_i をX_iで置き換えて，pの最尤推定量pˆ は，

ˆ p= 1

n Xn

i=1

X_i

となる。

(28)

nが大きいとき，pˆの分布を求める。

ˆ

p ∼ N(p, σ²_p) ただし，σ²_p = 1 P_n

i=1Ehdlog f(X_i;p) dp

₂i

となる。

log f(Xi;p)= Xilog(p)+(1−Xi) log(1− p)

dlogf(X_i;p) dp = X_i

p − 1−X_i

1− p = X_i− p p(1− p)

Ehdlog f(X_i;p) dp

₂i

= E[(X_i−p)²]

p²(1− p)² = 1 p(1− p)

(29)

分子は，

E[(Xi− p)²]= X1 xi=0

(xi− p)²f(xi;p)= X1

xi=0

(xi− p)²p^xⁱ(1−p)^1−xⁱ

= p²(1−p)+(1−p)²p= p(1− p)

となる。

σ²_p = 1

P_n

i=1Ehdlog f(X_i;p) dp

₂i = 1 P_n

i=1 1

p(1−p)

= p(1− p) n

したがって，

ˆ

p∼ N(p, p(1− p) n ) を得る。

第 10 章推定量の求め方