第 10 章 推定量の求め方
10.1 2
つの推定方法主な推定方法として,下記の2種類が有名である。
• 最小二乗法
• 最尤法(さいゆうほう)
最小二乗法について,今まで説明してきた。
10.1.1
最小二乗法(再)・n個のデータ(実現値): x1,x2,· · ·,xn
・背後に対応する確率変数を仮定:X1,X2,· · ·,Xn
・E(Xi)=µ,V(Xi)= σ2を仮定
母数(µ, σ2)を推定する。
観測データ x1,x2,· · ·,xnをもとにして,µの最小二乗推定値を求める。
ˆ
µをµのある推定値とする。
minµˆ
Xn i=1
(xi−µ)ˆ 2
の解が最小二乗推定値となる。
すなわち,S( ˆµ)=Pn
i=1(xi−µ)ˆ 2とするとき,
dS( ˆµ) dµˆ =0
をµˆ について解く。
dS( ˆµ) dµˆ =−2
Xn i=1
(xi−µ)ˆ =−2Xn
i=1
xi− Xn
i=1
ˆ µ
=−2Xn
i=1
xi−nµˆ
=0
なので,
ˆ µ= 1
n Xn
i=1
xi
が得られる。
ˆ
µ≡ xとなる。
µの最小二乗推定量µˆ はデータxi を対応する確率変数Xi で置き換えて,
ˆ µ= 1
n Xn
i=1
Xi
となるので,µˆ ≡ Xを得る(µˆ について,推定値と推定量は同じ記号を使っている)。
以上を回帰分析に応用すると,
min
ˆ α,βˆ
Xn i=1
(Yi −αˆ −βXˆ i)2
を解くことになる。
すなわち,S( ˆα,β)ˆ = Pn
i=1(Yi−αˆ −βXˆ i)2とするとき,
∂S( ˆα,β)ˆ
∂αˆ = 0
∂S( ˆα,β)ˆ
∂βˆ = 0
の連立方程式をαˆ,βˆ について解いて,
βˆ = Pn
i=1(Xi−X)(Yi−Y) Pn
(X −X)2 , αˆ =Y−βXˆ
が得られる。
10.1.2
最尤法(さいゆうほう)n個の確率変数X1,X2,· · ·,Xnは互いに独立で,同じ確率分布 f(x)≡ f(x;θ)とする。
分布関数を仮定する必要がある。
ただし,θは母数で,例えば,θ= (µ, σ2)である。
X1, X2,· · ·,Xnの結合分布は,互いに独立なので,
f(x1,x2,· · ·,xn;θ)≡ Yn
i=1
f(xi;θ)
と表される(2つの確率変数が独立の場合,12月15日の講義ノート472ページ参照)。
観測データ x1,x2,· · ·,xnを与えたもとで,Qn
i=1 f(xi;θ)はθの関数として表される。
すなわち,
l(θ)= Yn
i=1
f(xi;θ)
として,θの関数であることを明示的に表している。
l(θ)を尤度関数と呼ぶ。
最尤法とは,尤度関数を最大にするようなθを求める方法である。
すなわち,
maxθ l(θ)
となるθを求める。
得られた解を最尤推定値と呼び,θˆで表すことにする。
最尤推定値θˆは観測されたデータx1,x2,· · ·,xnの関数となっているので,θˆ =θ(xˆ 1,x2,· · ·,xn) となる。
データx1,x2,· · ·,xnを確率変数X1,X2,· · ·,Xnで置き換えて,θˆ =θ(Xˆ 1,X2,· · ·,Xn)を 最尤推定量と呼ぶ。
推定量と推定値は同じ記号θˆを使っている。
また,
maxθ l(θ)
と
maxθ logl(θ)
のθの解はともに同じものであることに注意せよ。
logl(θ)を対数尤度関数と呼ぶ。
logを常用対数(底が10),lnを自然対数(底がe)として,区別する場合もあるが,こ こでは,対数は自然対数(以下では,単に対数とする)のこととする。
すなわち,以下では,logの底をeとする。logex = xloge= xに注意。
eは自然対数の底と呼ばれ,e= lim
n→∞
1+ 1 n
n
= 2.718281828· · ·である。
最尤推定量の性質: θがスカラー(1×1)の場合,nが大きいとき,
θˆ∼ N(θ, σ2θ) ただし,σ2θ = 1 Pn
i=1Ehdlog f(Xi;θ) dθ
2i =− 1 Pn
i=1Ehd2log f(Xi;θ) dθ2
i
となる。
証明は中心極限定理(12月10日の講義ノートの463∼464ページ)を用いる。
θがベクトル(k×1)の場合,nが大きいとき,
θˆ∼ N(θ,Σθ)
となる。ただし,
Σθ =Xn
i=1
Eh∂log f(Xi;θ)
∂θ
∂log f(Xi;θ)
∂θ
0i−1
=−Xn
i=1
Eh∂2logf(Xi;θ)
∂θ∂θ0
i−1
とする(証明略)。
まとめ:
1. nが大きいとき,θˆはθの不偏推定量
2. nが大きいとき,σ2θ = 1 Pn
i=1Ehdlog f(Xi;θ) dθ
2i はゼロに収束する(二乗の期待値を n
個足し合わせているので)。
3. よって,nが大きいとき,θˆはθの一致推定量
4. nが大きくなると,σ2θ はすべての一致推定量の中で最も小さな分散となる(すなわち,
有効推定量)。
このように,nが大きいとき,θˆはθの不偏推定量,一致推定量,有効推定量となる。
最尤推定量は最も良い推定量と言える。
例1: 正規母集団N(µ, σ2)からの標本値x1, x2,· · ·, xnを用いて,
(1) σ2が既知のとき,µの最尤推定値と最尤推定量 (2) σ2が未知のとき,µとσ2の最尤推定値と最尤推定量 をそれぞれ求める。
[解] N(µ, σ2)の密度関数は,
f(x;µ, σ2)= 1
√2πσ2 exp
− 1
2σ2(x−µ)2
となる。
exp(x)=exとする。
したがって,互いに独立なX1,X2,· · ·, Xnの結合分布は,
f(x1,x2,· · ·,xn;µ, σ2)≡ Yn
i=1
f(xi;µ, σ2)
= Yn
i=1
√ 1
2πσ2exp
− 1
2σ2(xi−µ)2
= (2πσ2)−n2 exp
− 1 2σ2
Xn i=1
(xi−µ)2
となる。
(1) σ2が既知のとき,尤度関数l(µ)は,
l(µ)= (2πσ2)−n2 exp
− 1 2σ2
Xn i=1
(xi−µ)2
となる。
l(µ)を最大にするµとlogl(µ)を最大にするµは同じになる。
したがって,両辺に自然対数を取って,対数尤度関数は,
logl(µ)= −n
2log(2πσ2)− 1 2σ2
Xn i=1
(xi−µ)2
となり,
dlogl(µ) dµ = 1
σ2 Xn
i=1
(xi−µ)= 0
となるµを求める。µの解をµˆ とすると,µの最尤推定値は,
ˆ µ= 1
n Xn
i=1
xi ≡ x
を得る。
さらに,観測値 x1, x2,· · ·, xn をその確率変数X1, X2, · · ·, Xn で置き換えて,µの最尤推定 量は,
ˆ µ= 1
n Xn
i=1
Xi ≡X
となる。
nが大きいとき,µˆ の分散を求めるために,両辺に自然対数を取る。
log f(Xi;µ)=−1
2log(2πσ2)− 1
2σ2(Xi−µ)2 dlogf(Xi;µ)
dµ = 1
σ2(Xi−µ) dlog f(Xi;µ)
dµ
2
= 1
σ4(Xi−µ)2
Ehdlog f(Xi;µ) dµ
2i
= 1 σ4E
(Xi−µ)2
= 1
σ4V(Xi)= 1 σ2
と計算される。
最尤推定量の性質から,nが大きいとき,
ˆ
µ∼ N(µ, σ2µ)
ただし,
σ2µ = 1
Pn
i=1Ehdlogf(Xi;µ) dµ
2i = σ2 n
この場合は,nの大きさに関わらず,µˆ ∼N(µ, σ2µ)が成り立つ。
または,
d2log f(Xi;µ) dµ2 = − 1
σ2
となるので,
σ2µ = − 1 Pn
i=1Ed2logf(Xi;µ) dµ2
= σ2 n
とすることもできる。
Ehdlogf(Xi;µ) dµ
2i
でも,Ed2logf(Xi;µ) dµ2
でも,計算しやすい方を選べばよい。
(2) σ2が未知のとき,µとσ2の尤度関数は,
l(µ, σ2)=(2πσ2)−n2 exp
− 1 2σ2
Xn i=1
(xi−µ)2
となる。
対数尤度関数は,
logl(µ, σ2)=−n
2log(2π)− n
2logσ2− 1 2σ2
Xn i=1
(xi−µ)2
と表される。
µとσ2について,最大化するためには,
∂logl(µ, σ2)
∂µ = 1
σ2 Xn
i=1
(xi −µ)= 0
∂logl(µ, σ2)
∂σ2 =−n 2
1 σ2 + 1
2σ4 Xn
i=1
(xi−µ)2 =0
の連立方程式を解く。
(*) dlogx dx = 1
x に注意。
µ,σ2 の解をµˆ,σˆ2とすると,最尤推定値は,
ˆ µ= 1
n Xn
i=1
xi ≡ x
ˆ σ2= 1
n Xn
i=1
(xi−µ)ˆ 2 ≡ 1 n
Xn i=1
(xi−x)2
となる。
観測値x1, x2,· · ·, xnをその確率変数X1, X2,· · ·,Xn で置き換えて,µ,σ2の最尤推定量は,
ˆ µ= 1
n Xn
i=1
Xi ≡ X ˆ
σ2= 1 n
Xn i=1
(Xi−µ)ˆ ≡ 1 n
Xn i=1
(Xi−X)
となる。
σ2 の最尤推定量σˆ2は,σ2の不偏推定量S2 = 1 n−1
Xn i=1
(Xi−X)2とは異なることに注意。
θ=
µ σ2
とする。nが大きいとき,
θˆ∼ N(θ,Σθ)
ただし,
Σθ = −Xn
i=1
Eh∂2log f(Xi;θ)
∂θ∂θ0
i−1
とする。二階微分の期待値を求める。
log f(Xi;θ)= −1
2log(2π)− 1
2log(σ2)− 1
2σ2(Xi−µ)2
∂logf(Xi;θ)
∂θ =
∂log f(Xi;θ)
∂log∂µf(Xi;θ)
=
1
σ2(Xi−µ)
− 1
+ 1
(X −µ)2
∂2logf(Xi;θ)
∂θ∂θ0 =
∂2log f(Xi;θ)
∂µ2
∂2log f(Xi;θ)
∂µ∂σ2
∂2log f(Xi;θ)
∂σ2∂µ
∂2log f(Xi;θ)
∂(σ2)2
=
− 1
σ2 − 1
σ4(Xi−µ)
− 1
σ4(Xi−µ) 1 2σ4 − 1
σ6(Xi−µ)2
Eh∂2logf(Xi;θ)
∂θ∂θ0
i=
− 1
σ2 − 1
σ4E(Xi−µ)
− 1
σ4E(Xi−µ) 1 2σ4 − 1
σ6E[(Xi−µ)2]
=
− 1 σ2 0
0 − 1
2σ4
よって,
Σθ =−Xn
i=1
Eh∂2logf(Xi;θ)
∂θ∂θ0
i−1
=
σ2
n 0
0 2σ4 n
まとめると,µ,σ2 の最尤推定量µˆ = 1 n
Xn i=1
Xi,σˆ2 = 1 n
Xn i=1
(Xi− X)2 の分布は,nが大きい
とき,
µˆ ˆ σ2
∼ N µ
σ2
,
σ2
n 0
0 2σ4 n
!
となる。
例2: X1,X2,· · ·,Xnは互いに独立で,それぞれパラメータpを持ったベルヌイ分布に従 うものとする。
すなわち,Xi の確率関数 f(xi;p)は,
f(x;p)= px(1−p)1−x x= 0,1
となる。
このとき尤度関数は,
l(p)= Yn
i=1
f(xi;p)= Yn
i=1
pxi(1− p)1−xi = pPixi(1−p)Pi(1−xi) = pPixi(1− p)n−Pixi
となり,対数尤度関数は,
logl(p)= Xn
i=1
logf(xi;p)=( Xn
i=1
xi) log(p)+(n− Xn
i=1
xi) log(1− p)
となる。
logl(p)を最大にするpを求める。
dlogl(p) dp = 1
p Xn
i=1
xi− 1 1− p(n−
Xn i=1
xi)
= (1− p)Pn
i=1xi− p(n−Pn
i=1xi)
p(1− p) =
Pn
i=1xi− pn p(1− p) =0
したがって,pについて解くと,pの最尤推定値 pˆ は,
ˆ p= 1
n Xn
i=1
xi
となる。
さらに,xi をXiで置き換えて,pの最尤推定量pˆ は,
ˆ p= 1
n Xn
i=1
Xi
となる。
nが大きいとき,pˆの分布を求める。
ˆ
p ∼ N(p, σ2p) ただし,σ2p = 1 Pn
i=1Ehdlog f(Xi;p) dp
2i
となる。
log f(Xi;p)= Xilog(p)+(1−Xi) log(1− p)
dlogf(Xi;p) dp = Xi
p − 1−Xi
1− p = Xi− p p(1− p)
Ehdlog f(Xi;p) dp
2i
= E[(Xi−p)2]
p2(1− p)2 = 1 p(1− p)
分子は,
E[(Xi− p)2]= X1 xi=0
(xi− p)2f(xi;p)= X1
xi=0
(xi− p)2pxi(1−p)1−xi
= p2(1−p)+(1−p)2p= p(1− p)
となる。
σ2p = 1
Pn
i=1Ehdlog f(Xi;p) dp
2i = 1 Pn
i=1 1
p(1−p)
= p(1− p) n
したがって,
ˆ
p∼ N(p, p(1− p) n ) を得る。