計量経済学#26
最尤法
鹿野繁樹
大阪府立大学
Outline
1 最尤法:最も尤もらしい推定法
2 未知母数の最尤推定
テキスト:鹿野繁樹 [2015]、第14.1章・第14.2章。
前回の復習
1 因果関係を実証できるか?
Section 1
例:ベルヌーイ母集団
今回の目的:新たな推定法、最尤法(さいゆうほう)を学ぶ。
被説明変数Yiが非連続的な離散値をとる離散反応モデル
(discrete response models)の推定で用いられる。
離散変数の例:ダミー変数。
二つの状態(例えば男or女)を0 or 1の二値で記号化した
変数。
ダミー変数Yiが被説明変数(説明を受ける側)となる場合、
を二値反応変数と呼ぶ。
二値反応変数Yi ={0,1}の母集団は一般に、ベルヌーイ分布
f(y) = Pr(Yi =y) = (1−p)1−ypy, y= 0,1, 0< p <1. (1)
pは生起確率(成功確率)、未知の母数。
Yi = 0,1それぞれの確率を求めると
f(0) = Pr(Yi = 0) = (1−p)1−0p0 = 1−p, (2)
f(1) = Pr(Yi = 1) = (1−p)1−1p1 =p. (3)
∴pはYi = 1の確率に相当。
pは、例えば「ある地域に住む自動車保有者の割合」。⇒「あ
る地域から無作為に住人を選んだ時、その人が自動車を持っ
Yiの期待値を求めると
E(Yi) = 0·(1−p) + 1·p=p. (4)
∴pはYi = 1が出る確率であると同時に、Yiの期待値・母平均。
公式
1
ベルヌーイ分布の成功確率pに関し,
Pr(Yi = 1) = E(Yi) =p. (5)
証明:前段で証明済み.
Remark 1
ベルヌーイ分布:ダミー変数Yi ={0,1}の母集団モデル.
生起確率p= Pr(Yi = 1)が未知の母数.「母集団における
Yi = 1の割合」に相当.
一方ダミーYiの平均値は、「標本に占めるYi = 1の割合」:
¯
Y = 1
n
Yi =
n1
n = ˆp, n=n0+n1. (6)
n0は「Yi = 0」の標本数、n1は「Yi = 1」の標本数。
小標本:Y¯ はpの不偏推定量E( ¯Y) =p。
大数の法則より
plim ¯Y = E(Yi) ⇔ plim ˆp=p (7)
が成立。∴Y¯ はpの一致推定量。nが十分大きければ、標本上
成功確率の「最も尤もらしい」推定値
簡単な数値例で、生起確率pの最尤推定を考える。
Example 1
ある町で無作為にn = 5名の住民を選び、自動車の有無を調査し
た結果、
Y1 = 1, Y2 = 1, Y3 = 0, Y4 = 0, Y5 = 1. (8)
なおYiは、個人iが車を持っていれば1、そうでなければ0の二値
ダミー。
「母集団における自動車保有の割合(確率)p」を推定:標本平均
¯
Y = 1
5(1 + 1 + 0 + 0 + 1) = 3
5 = 0.6 (9)
が妥当。
視点を変え、別のアプローチでpの推定。
未知のpを所与として、(8)式の調査結果を観測する確率
L(p) = Pr(Y1 = 1, Y2 = 1, Y3 = 0, Y4 = 0, Y5 = 1) (10)
を考える。(5次元の結合確率。)これを尤度(ゆうど)と
Yiが独立ならば、尤度(結合確率)は個々の観測確率の積。
L(p) = Pr(Y1 = 1) Pr(Y2 = 1) Pr(Y3 = 0) Pr(Y4 = 0) Pr(Y5 = 1).
(11)
さらにYiがベルヌーイ分布(1)式に従うので、
L(p) = (1−p)0p1 =Pr(Y1=1)
·(1−p)0p1 =Pr(Y2=1)
·(1−p)1p0 =Pr(Y3=0)
·(1−p)1p0 =Pr(Y4=0)
·(1−p)0p1 =Pr(Y5=1)
=p·p·(1−p)·(1−p)·p
= (1−p)2p3. (12)
「(8)式の結果が観測された」という事実を踏まえると、いかなる
pの値が「最も尤もらしい」(もっとももっともらしい)?
現実に起こった、(8)式のパターンを高確率で再現するpの値
が「最も尤もらしい」のでは?
最大化の準備:(12)式両辺を対数変換し、対数尤度を定義。
logL(p) = log
(1−p)2p3
= 2 log(1−p) + 3 log(p) (13)
対数変換は単調増加変換⇒(12)式の最大化と(13)式の最大化
は同じ解。
図1: 尤度(12)式と対数尤度(13)式のグラフ。... 同じpの値
0.0 0.2 0.4 0.6 0.8 1.0 0.000 0.010 0.020 0.030 p L(p)
0.0 0.2 0.4 0.6 0.8 1.0
対数関数の微分公式と合成関数のチェーンルールで(13)式の導関 数を求め、ゼロと置けば最大化の一階条件:
d logL(p)
dp = 0 ⇒ −2
1 1−pˆ+ 3
1 ˆ
p = 0 ⇔ 3(1−pˆ)−2ˆp= 0.
(14)
ただしpˆは最大化の解。⇒実際に上式を解けば
ˆ
p= 3
5 = 0.6. (15)
∴(8)式の観測結果を高確率で再現する成功確率はpˆ= 0.6。
コレを最尤推定値と呼ぶ。
Section 2
最尤推定量
一般的な母集団モデルに関し最尤法を定義:母集団分布f(y;θ)が
持つパラメータθを、独立標本Y1, Y2, . . . , Ynに基づき推定。
任意の標本実現値の組み合わせy1, y2, . . . , ynが観測される結
合確率
L(θ) = Pr(Y1 =y1) Pr(Y2 =y2)· · ·Pr(Yn=yn)
=f(y1;θ)f(y2;θ)· · ·f(yn;θ) (16)
を尤度関数と呼ぶ。
その対数値
logL(θ) = log [f(y1;θ)f(y2;θ)·f(yn;θ)]
対数尤度関数をθに関し最大化⇒ 最尤推定量(maximum
likelihood estimator,ML)θˆ:
logL(θ) θで最大化
−−−−−→ θˆ
ML
. (18)
復習:OLS(復習)は、回帰直線をデータ(散布図)にフィッ
トさせ、係数を推定。
最尤法ML:母集団モデルf(y;θ)をデータにフィットさせ、θ
を推定。
「未知母数の値は、現に得られたデータのパターンを高確率
で再現させるような値に違いない」という発想法を、最尤原
Remark 2
OLSとMLの対比.
1 OLS推定:残差2乗和の最小化⇔回帰直線をデータに
フィット.
2 ML推定:対数尤度の最大化⇔母集団モデルをデータに
ML
推定量の統計的性質
観測を行う事前の段階ではYiは未定なので、
logL(θ) = logf(Yi;θ) (19)
および上式の最大化で得られるθˆは,Y1, Y2, . . . , Ynに依存する確
率変数。
最尤推定量θˆは、θの推定量として望ましい性質を持つか?
公式
2
ML推定量は,n → ∞のとき一致性,漸近正規性,漸近有効性を
満たす.すなわち漸近的に
plim ˆθ =θ, θˆ∼a Nθ,Avar(ˆθ) (20)
であり,その漸近分散Avar(ˆθ)は,競合するあらゆる漸近正規推
定量の中で最小である.
証明:一雄 and 悦良[1992]参照.
ML推定の最大の欠点:頑健性の欠如。
OLS:誤差項に強い分布の仮定を置かず、回帰式に関する定
式化だけで回帰分析。
ML推定:母集団分布を隅々まで完全に定式化する必要。⇒
もし誤って真の母集団分布と異なる分布を指定し、それに基
今回の復習問題
次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。
講義名、日付、学籍番号、氏名を明記すること。
1 ベルヌーイモデルの対数尤度関数(13)式は、具体的な観測値
を置かない場合は次式で与えられる。
logL(p) =n0log(1−p) +n0log(p). (21)
ただしn1はYi = 1に該当するサンプル数、n0は該当するサ
ンプル数である。(よってn0+n1 =n)。pの最尤推定量pˆを、
References
J. D. Angrist and W. N. Evans. Children and their parents’ labor supply: Evidence from exogenous variation in family size. American
Economic Review, 88(3):450–77, 1998.
野. 一雄and 宮. 悦良. 数理統計学の基礎. 共立出版, 1992.