Xn ・E(Xi)=µ，V(Xi)= σ2を仮定母数(µ, σ2)を推定する

(1)

第10^{章推定量の求め方}

10.1 ^{最小二乗法}

・n個のデータ(実現値)： x1,x2,· · ·,xn

・背後に対応する確率変数を仮定：X₁,X₂,· · ·, X_n

・E(X_i)=µ，V(X_i)= σ²を仮定母数(µ, σ²)を推定する。

観測データ x₁, x₂,· · ·, x_nをもとにして，µの最小二乗推定値を求める。

minµ

∑n i=1

(x_i−µ)² µの解をµˆ とすると，

µˆ = 1 n

∑n i=1

x_i

となり，µˆ ≡ xを得る。

すなわち，

d∑_n

i=1(x_i−µ)²

dµ =0

をµについて解く。

µの最小二乗推定量はデータ x_iを対応する確率変数X_i で置き換えて，

µˆ = 1 n

∑n i=1

X_i

(2)

となり，µˆ ≡ Xを得る( ˆµについて，推定値と推定量は同じ記号を使っている)。以上を回帰分析に応用すると，

minα,β

∑n i=1

(Y_i−α−βX_i)² を解くことになる。

すなわち，

∂∑n

i=1(Y_i−α−βX_i)²

∂α =0

∂∑n

i=1(Y_i−α−βX_i)²

∂β =0

の連立方程式をα,βについて解く。

10.2 ^最尤法

n個の確率変数X₁, X₂, · · ·, X_n は互いに独立で，同じ確率分布 f(x) ≡ f(x;θ) とする。ただし，θは母数で，例えば，θ=(µ, σ²)である。

X₁, X₂,· · ·,X_nの結合分布は，互いに独立なので，

f(x₁,x₂,· · ·,x_n;θ)≡

∏n i=1

f(x_i;θ) と表される。

観測データx₁, x₂,· · ·, x_nを与えたもとで，∏_n

i=1 f(x_i;θ)はθの関数として表される。すなわち，

l(θ)=

∏n i=1

f(x_i;θ)

(3)

l(θ)を尤度関数と呼ぶ。

maxθ l(θ)

となるθを最尤推定値θˆ =θˆ(x₁,x₂,· · ·,x_n)と呼ぶ。

データx₁,x₂,· · ·,x_nを確率変数X₁,X₂,· · ·,X_nで置き換えて，θˆ= θˆ(X₁,X₂,· · ·,X_n) を最尤推定量と呼ぶ。

maxθ l(θ) と

maxθ logl(θ)

のθの解はともに同じものであることに注意。logl(θ)を対数尤度関数と呼ぶ。

最尤推定量の性質： nが大きいとき，

θˆ ∼ N(θ, σ²_θ) ただし，

σ²_θ = 1

∑n

i=1E[(d logf(X_i;θ) dθ

)2]

= − 1

∑_n

i=1E[d²log f(X_i;θ) dθ²

]

θがベクトル(k×1)の場合，nが大きいとき，

θˆ ∼ N(θ,Σθ) ただし，

Σ_θ =(∑ⁿ

i=1

E[(∂logf(X_i;θ)

∂θ

)(∂log f(X_i;θ)

∂θ

)₀])₋1

=−(∑ⁿ

i=1

E[∂²logf(X_i;θ)

∂θ∂θ⁰

])₋1

(4)

例1：正規母集団N(µ, σ²)からの標本値x₁,x₂,· · ·, x_nを用いて，

(1) σ²が既知のとき，µの最尤推定値と最尤推定量 (2) σ²が未知のとき，µとσ²の最尤推定値と最尤推定量をそれぞれ求める。

［解］N(µ, σ²)の密度関数は，

f(x;µ, σ²)= 1

√2πσ² exp(

− 1

2σ²(x−µ)²)

となる。したがって，互いに独立なX₁,X₂,· · ·,X_n の結合分布は，

f(x1,x2,· · ·,xn;µ, σ²)≡

∏n i=1

f(xi;µ, σ²)

=

∏n i=1

√ 1

2πσ² exp(

− 1

2σ²(xi−µ)²)

=(2πσ²)⁻ⁿ² exp(

− 1 2σ²

∑n i=1

(xi−µ)²) となる。

(1)σ²が既知のとき，尤度関数l(µ)は，

l(µ)= (2πσ²)⁻ⁿ² exp(

− 1 2σ²

∑n i=1

(x_i−µ)²) となる。

l(µ)を最大にするµとlogl(µ)を最大にするµは同じになる。

したがって，対数尤度関数は，

logl(µ)= −n

2log(2πσ²)− 1 2σ²

∑n i=1

(xi−µ)² となり，

d logl(µ)

dµ = 1

σ²

∑n

(x_i−µ)=0

(5)

となるµを求める。µの解をµˆ とすると，µの最尤推定値は，

µˆ = 1 n

∑n i=1

xi ≡ x

を得る。

さらに，観測値 x1, x2,· · ·, xnをその確率変数X1,X2,· · ·,Xnで置き換えて，µ の最尤推定量は，

µˆ = 1 n

∑n i=1

X_i ≡ X

となる。

µˆ の分散を求めるために，

logf(Xi;µ)=−1

2log(2πσ²)− 1

2σ²(Xi−µ)² d logf(X_i;µ)

dµ = 1

σ²(X_i−µ) (d logf(Xi;µ)

dµ

)2

= 1

σ⁴(Xi−µ)² E[(d log f(X_i;µ)

dµ

)2]

= 1

σ⁴E[(X_i−µ)²]= 1 σ² と計算される。

最尤推定量の性質から，nが大きいとき，

µˆ ∼ N(µ, σ²_µ) ただし，

σ²_µ = 1

∑_n

i=1E[(d logf(X_i;µ) dµ

)2] = σ² n

(6)

この場合は，nの大きさに関わらず，µˆ ∼ N(µ, σ²_µ)が成り立つ。

(2)σ²が未知のとき，µとσ²の尤度関数は，

l(µ, σ²)=(2πσ²)⁻ⁿ² exp(

− 1 2σ²

∑n i=1

(x_i−µ)²) となる。

対数尤度関数は，

logl(µ, σ²)= −n

2log(2π)− n 2logσ²

− 1 2σ²

∑n i=1

(x_i−µ)² と表される。

µとσ²について，最大化するためには，

∂logl(µ, σ²)

∂µ = 1

σ²

∑n i=1

(x_i−µ)= 0

∂logl(µ, σ²)

∂σ² =−n 2

1 σ² + 1

2σ⁴

∑n i=1

(x_i−µ)² =0 の連立方程式を解く。

µ,σ²の解をµˆ, ˆσ²とすると，最尤推定値は，

µˆ = 1 n

∑n i=1

x_i ≡ x

σˆ² = 1 n

∑n i=1

(x_i−µˆ)≡ 1 n

∑n i=1

(x_i−x) となる。

(7)

観測値x₁,x₂,· · ·, x_nをその確率変数X₁,X₂,· · ·,X_nで置き換えて，µ,σ²の最尤推定量は，

µˆ = 1 n

∑n i=1

Xi ≡ X

σˆ² = 1 n

∑n i=1

(Xi−µˆ)≡ 1 n

∑n i=1

(Xi−X) となる。

σ²の最尤推定量σˆ²は，σ²の不偏推定量S² = 1 n−1

∑n i=1

(X_i−X)²とは異なることに注意。

θ= (µ, σ²)⁰ とする。nが大きいとき，

θˆ ∼ N(θ,Σθ) ただし，

Σ_θ = −(∑ⁿ

i=1

E[∂²log f(X_i;θ)

∂θ∂θ⁰

])₋1

logf(X_i;θ)=−1

2log(2π)− 1

2log(σ²)− 1

2σ²(X_i −µ)²

∂logf(X_i;θ)

∂θ =





∂log f(X_i;θ)

∂log∂µf(X_i;θ)

∂σ²





=





1

σ²(Xi−µ)

− 1

2σ² + 1

2σ⁴(Xi−µ)²





(8)

∂²log f(X_i;θ)

∂θ∂θ⁰

=





∂²logf(X_i;θ)

∂µ²

∂²logf(X_i;θ)

∂µ∂σ²

∂²logf(X_i;θ)

∂σ²∂µ

∂²logf(X_i;θ)

∂(σ²)²





=



 − 1

σ² − 1

σ⁴(X_i−µ)

− 1

σ⁴(X_i−µ) 1 2σ⁴ − 1

σ⁶(X_i−µ)²





E[∂²log f(X_i;θ)

∂θ∂θ⁰ ]

=



 − 1

σ² − 1

σ⁴E(X_i−µ)

− 1

σ⁴E(X_i−µ) 1 2σ⁴ − 1

σ⁶E[(X_i−µ)²]





=



− 1

σ² 0

0 − 1

2σ⁴





よって，

Σθ =−(∑ⁿ

i=1

E[∂²logf(Xi;θ)

∂θ∂θ⁰

])₋1

=





σ²

n 0

0 2σ⁴ n





まとめると，µ，σ²の最尤推定量µˆ =(1/n)∑n

i=1Xi，σˆ² =(1/n)∑n

i=1(Xi−X)² の分布は，nが大きいとき，

( µˆ σˆ²

)

∼ N ( ( µ

σ² )

,





σ²

n 0

0 2σ⁴ n





)

(9)

例2： X1, Xn,· · ·,Xnは互いに独立で，それぞれパラメータpを持ったベルヌイ分布に従うものとする。すなわち，X_iの確率関数は，

f(x;p)= p^x(1− p)^1−x x=0,1 となる。

このとき尤度関数は，

l(p)=

∏n i=1

f(x_i;p)=

∏n i=1

p^xⁱ(1− p)¹⁻^xⁱ となり，対数尤度関数は，

logl(p)=

∑n i=1

logf(xi;p)

=log(p)

∑n i=1

xi+log(1− p)

∑n i=1

(1−xi)

=log(p)

∑n i=1

xi+log(1− p)(n−

∑n i=1

xi) となる。

logl(p)を最大にするpを求める。

d logl(p) dp = 1

p

∑n i=1

x_i− 1 1− p(n−

∑n i=1

x_i)=0

したがって，pについて解くと，pの最尤推定値pˆ は，

ˆ p= 1

n

∑n i=1

x_i となる。

さらに，x_i をX_iで置き換えて，pの最尤推定量pˆ は，

ˆ p= 1

n

∑n i=1

X_i

(10)

となる。

ˆ

pの分布を求める。

logf(Xi;p)=Xilog(p)+(1−Xi) log(1−p) d logf(X_i;p)

dp = X_i

p − 1−X_i

1− p = X_i− p p(1− p)

E[(d log f(X_i;p) dp

)2]

= E[(X_i− p)²] p²(1− p)²

E[(Xi− p)²]=

∑1 xi=0

(xi− p)²f(xi;p)

=

∑1 xi=0

(x_i− p)²p^xⁱ(1−p)¹⁻^xⁱ

= p²(1− p)+(1− p)²p= p(1−p) 1

∑_n

i=1E[(d logf(X_i;p) dp

)2] = p(1− p) n

したがって，

ˆ

p∼ N(p, p(1− p) n ) を得る。

例3： X₁,X_n,· · ·,X_nは互いに独立で，それぞれパラメータλを持ったポアソン分布に従うものとする。すなわち，Xiの確率関数は，

f(x;λ)= λ^xe^−λ

x! x=0,1,2,· · · となる。

(11)

l(λ)=

∏n i=1

f(x_i;λ)=

∏n i=1

λ^xⁱe^−λ x_i! となり，対数尤度関数は，

logl(λ)=

∑n i=1

logf(x_i;λ)

=log(λ)

∑n i=1

x_i−nλ−

∑n i=1

log(x_i!) となる。

logl(λ)を最大にするpを求める。

d logl(λ) dλ = 1

λ

∑n i=1

x_i−n=0

したがって，λについて解くと，λの最尤推定値λˆ は，

λˆ = 1 n

∑n i=1

x_i

となる。

さらに，x_i をX_iで置き換えて，λの最尤推定量λˆ は，

λˆ = 1 n

∑n i=1

X_i

となる。

λˆ の分布を求める。

logf(X_i;λ)= X_ilog(λ)−λ−log(X_i!) d logf(X_i;λ)

dλ = X_i λ −1

(12)

d²log f(X_i;λ)

dλ² =−X_i λ² E(d²logf(X_i;λ)

dλ²

) = E(X_i) λ²

E(X_i)=

∑∞ x=0

x f(x;λ)

=∑^∞

x=0

xλ^xe^−λ x!

=∑^∞

x=1

xλ^xe^−λ x!

=∑^∞

x=1

λλ^x⁻¹e^−λ (x−1)!

=∑^∞

x=0

λλ^xe^−λ x!

=λ

− 1

∑n

i=1E(d²logf(X_i;λ) dλ²

) = λ n

したがって，

λˆ ∼ N(λ, λ n) を得る。

例4： X₁,X_n,· · ·,X_nは互いに独立で，それぞれパラメータλを持った指数分布に従うものとする。すなわち，X_i の密度関数は，

f(x;λ)= λe^−λ^x x> 0

(13)

l(λ)=

∏n i=1

f(xi;λ)=

∏n i=1

λe^−λ^xⁱ となり，対数尤度関数は，

logl(λ)=

∑n i=1

logf(x_i;λ)

=nlogλ−λ

∑n i=1

x_i となる。

logl(λ)を最大にするpを求める。

d logl(λ) dλ = n

λ−

∑n i=1

x_i =0

したがって，λについて解くと，λの最尤推定値λˆ は，

λˆ = n

∑_n

i=1x_i となる。

さらに，x_i をX_iで置き換えて，λの最尤推定量λˆ は，

λˆ = n

∑n i=1X_i となる。

λˆ の分布を求める。

logf(X_i;λ)=logλ−λX_i d logf(X_i;λ)

dλ = 1

λ−X_i d²log f(Xi;λ)

dλ² =− 1 λ²

(14)

− 1

∑n

i=1E(d²logf(X_i;λ) dλ²

) = λ² n

したがって，

λˆ ∼ N(λ, λ² n) を得る。

10.2.1 ^変数変換

確率変数 X の密度関数を f(x)，分布関数を F(x) ≡ P(X < x)とする。Y = aX+bとするとき，Y の密度関数g(y)を求める。

Y の分布関数をG(y)として，次のように変形できる。

G(y)= P(Y <y)= P(aX +b<y)

= 

P(

X< y−b a

), a> 0のとき

P(

X> y−b a

), a< 0のとき

= 

P(

X< y−b a

), a>0のとき 1−P(

X < y−b a

), a<0のとき

= 

F(y−b a

), a>0のとき 1−F(y−b

a

), a<0のとき

分布関数と密度関数との関係は，

dF(x)

dx = f(x) dG(x)

dx = g(x) であるので，Y の密度関数は，

g(y)= dG(y)

(15)

= 



1

af(y−b a

), a>0のとき

−1

af(y−b a

), a<0のとき

= 1

af(y−b a

)

と表される。

一般に，確率変数Xの密度関数を f(x)とする。単調変換X =h(Y)とするとき，Y の密度関数g(y)は，

g(y)=|h⁰(y)|f(h(y)) となる。

10.2.2 ^{回帰分析への応用}

回帰モデル

Y_i =α+βX_i+u_i i=1,2,· · ·,n

u₁,u₂,· · ·,u_n は互いに独立で，すべてのiについてu_i ∼ N(0, σ²)を仮定する。

ui の密度関数は，

f(u_i)= 1

√2πσ² exp(

− 1 2σ²u²_i) となる。

Y_i の密度関数g(Y_i)は，

g(Y_i)=|h⁰(Y_i)|f(h(Y_i)) によって求められる。

この場合，h(Yi)= Yi−α−βXiなので，h⁰(Yi)=1となる。

(16)

したがって，Yiの密度関数は，

g(Yi)= |h⁰(Yi)|f(h(Y_i))

= f(h(Y_i))

= 1

√2πσ²exp(

− 1

2σ²(Y_i−α−βX_i)²) となる。

u1,u2,· · ·,unは互いに独立であれば，Y1,Y2,· · ·,Ynも互いに独立になるので，

Y₁,Y₂,· · ·,Y_nの結合密度関数は，

g(Y₁,Y₂,· · ·,Y_n)=

∏n i=1

g(Y_i)

= (2πσ²)⁻ⁿ² exp(

− 1 2σ²

∑n i=1

(Y_i−α−βX_i)²) となる。これはα,β,σ²の関数となっている。

よって，尤度関数は，

l(α, β, σ²)=(2πσ²)⁻ⁿ² exp(

− 1 2σ²

∑n i=1

(Y_i−α−βX_i)²) となる。

対数尤度関数は，

logl(α, β, σ²)=−n

2log(2π)− n

2log(σ²)

− 1 2σ²

∑n i=1

(Y_i−α−βX_i)² となる。

logl(α, β, σ²)を最大にするために，

∂logl(α, β, σ²)

∂α = 1

σ²

∑n

(Y_i−α−βX_i)= 0

Xn ・E(Xi)=µ，V(Xi)= σ2を仮定 母数(µ, σ2)を推定する

Xn ・E(Xi)=µ，V(Xi)= σ2を仮定母数(µ, σ2)を推定する