担当:鹿野(大阪府立大学)
2013 年度後期
はじめに
前回の復習
因果関係の観点から、実証分析で注意すべき点。
自然実験とその意義。
今回学ぶこと
最尤法:最も尤もらしい推定法。
最尤推定量とその統計的性質。
テキスト該当箇所:特になし。
1 最尤法:最も尤もらしい推定法
1.1
二値反応データとベルヌーイ分布
二値反応データ:「男or女」、「○ ○ に該当しないor該当する」のように、結果が二つし かないデータを、 と呼ぶ。
⊲ 二値反応データは、 (講義ノート#14)として記録される。
Yi =
⎧
⎪⎪
⎨
⎪⎪
⎩
0 if○ ○ に該当しない
1 if○ ○ に該当する . (1)
∴二値反応=ダミーと思ってよい。
ベルヌーイ分布:二値反応変数Yiの確率は、
f (y) = Pr(Yi= y) = (1− p)1−ypy, y = 0, 1. (2)
に従う。ここで pは と呼ばれる未知パラメータ。
⊲ Yi= 0, 1それぞれの確率は
f (0) = Pr(Yi= 0) = (1− p)1−0p0 = , (3) f (1) = Pr(Yi= 1) = (1− p)1−1p1 = . (4)
1
⊲ ∴ pはYi= 1の確率(コイン・トスならp = 0.5)。⇒次のように書いてもよい。
f (y) = Pr(Yi = y) =
⎧
⎪⎪
⎨
⎪⎪
⎩
1 − p for y = 0
p for y = 1. (5)
⊲ 重要な性質:ベルヌーイ標本の期待値は pに等しい。
E(Yi) = 0 · (1 − p) + 1 · p = . (6)
1.2
ベルヌーイ母集団の統計的推測
例:ある町で無作為に5名の住民を選び、自動車の有無を調査⇒次の結果を得た。 Y1= 1, Y2 = 1, Y3= 0, Y4= 0, Y5 = 1. (7)
ここでYiはベルヌーイ分布に従う二値反応ダミー Yi=
⎧
⎪⎪
⎨
⎪⎪
⎩
0 if車なし
1 if車あり. (8)
⊲ サンプル数n = 5、うち車なしの数n0 = 2、車ありの数n1= 3。
⊲ Yiは無作為に抽出による と仮定する。
Remark:二値反応ダミーから母集団の成功確率 p = Pr(Yi = 1)を推定するには?
⊲ 一番シンプルな方法⇒標本中の、Yi = 1の を求める。
ˆp = n1 n0+ n1 =
n1
n . (9)
⊲ 単にYiの を求めても、同じ。
Y =¯ 1 n
Yi= 1
n(0 + · · · + 0
=n0×0
+ 1 +· · · + 1
=n1×1
) = n1
n = ˆp. (10)
⊲ (7)式のデータなら
ˆp = ¯Y = 3
5 = 0.6. (11)
1.3
「最も尤もらしい」推定値
尤度:ここで、pを所与として、分析者が(7)式の調査結果を観測する同時確率
L(p) = Pr(Y1 = 1, Y2= 1, Y3= 0, Y4 = 0, Y5= 1) (12)
を考える。これを (ゆうど)と呼ぶ。
⊲ 独立な標本なので、同時確率は個々の確率の積。
L(p) = Pr(Y1= 1) Pr(Y2 = 1) Pr(Y3= 0) Pr(Y4= 0) Pr(Y5 = 1). (13)
⊲ また、個々の観測はベルヌーイ分布(2)式に従うので L(p) = (1 − p)0p1
=Pr(Y1=1)
· (1 − p)0p1
=Pr(Y2=1)
· (1 − p)1p0
=Pr(Y3=1)
· (1 − p)1p0
=Pr(Y4=1)
· (1 − p)0p1
=Pr(Y5=1)
= p· p · (1 − p) · (1 − p) · p
= . (14)
Remark:「(7)式の結果が観測された」という事実を踏まえれば、どんなpの値が「最も
尤もらしい」(もっとももっともらしい)か?
⊲ 現実を受け入れれば、(7)式の結果を高確率で再現するpの値が、もっともらしいの では?
⊲ 数学的に言えば:尤度=同時確率L(p) = (1 − p)2p3を最大にするpが、尤もらしい のでは?
対数尤度の最大化:(14)式両辺を対数変換すれば
log L(p) = log(1 − p)2p3= 2 log(1− p) + 3 log(p). (15)
(対数変換の公式⇒講義ノート#13。)これを と呼ぶ。
⊲ 注意:対数変換は単調増加変換。⇒(14)式の最大化と、(15)式の最大化は同じ解を 得る。図1参照。
⊲ 対数変換の微分公式(講義ノート#13)、合成関数の微分公式(講義ノート#06)を合 わせて使うと、最大化の一階条件は
d log L(p)
dp = 0 ⇒ −2
1 1 − ˆp + 3
1
ˆp = 0 ⇔ 3(1 − ˆp) − 2 ˆp = 0. (16)
⊲ ˆpについて解けば
ˆp = 3
5 = 0.6. (17)
∴(7)式にある観測を高確率で再現する成功確率は、p = 0.6。⇒この値は、先に求め
た (割合)X = 0.6¯ と等しい!
最尤法:対数尤度(観測の同時確率の対数)を最大化することで未知パラメータを推定す る方法を、 と呼ぶ。
⊲ 平均値や割合を計算してベルヌーイ分布の成功確率pを求めることは、最尤法と同値。
⊲ 最尤法は「未知パラメータの値は、分析者の観測したデータのパターンを高確率で 発生させるような値に違いない」という発想法、 に基づく推定法。
0.0 0.2 0.4 0.6 0.8 1.0
0.0000.0100.0200.030
p
L(p)
0.0 0.2 0.4 0.6 0.8 1.0
−14−12−10−8−6−4
p
log L(p)
図1: L(p)またはlog L(p)の最大化
2 最尤推定量( ML )とその漸近的性質
2.1
最尤法
ベルヌーイ母集団を離れ、最尤法を一般的に定義。
尤度関数:母集団分布 f (; θ)に従う独立な標本の同時確率分布 L(θ) = Pr(Y1 = y1) Pr(Y2= y2) · · · Pr(Yn= yn)
= f (y1; θ) f (y2; θ) · f (yn; θ) (18)
を、 と呼ぶ。θは未知のパラメータ。
⊲ 注意:尤度は、分析者が置いたθが現実のデータパターンにどれだけフィットするか を測る指標。∴θの関数。
対数尤度関数:尤度関数の対数変換
log L(θ) = log f (y1; θ) f (y2; θ) · f (yn; θ)
= log f (y1; θ) + log f (y2; θ) + · · · + log f (yn; θ)
=
log f (yi; θ) (19)
を、 と呼ぶ。
⊲ 対数尤度関数は「和」で定義されるので、「積」の尤度関数より数学的に扱いやすい。
最尤推定量:対数尤度関数をθに関し最大化すれば、 (maximum likelihood estimator、 )ˆθを得る。
log L(θ) −−−−−−−−→θ で最大化 ˆθ
ML 推定量
(20)
⊲ OLSは、線形モデルをデータ(散布図)にフィットさせる(講義ノート#06)。
⊲ 一方MLは、確率分布をデータにフィットさせる。
例:独立なベルヌーイ標本Yiに基づく尤度・対数尤度はそれぞれ
L(p) =(1 − p)1−yipyi, (21)
log L(p) = (1 − yi) log(1 − p) + yilog(p)
= log(1− p)
(1 − yi)
=n0
+ log(p)
yi
=n1
= n0log(1 − p) + n1log(p). (22)
⊲ (16)式を参考にすれば、最大化の一階条件は
n1(1 − ˆp) − n0ˆp = 0 ⇒ ˆp = n1 n0+ n1 =
n1
n . (23)
Remark:データを観測した の段階ならば、(19)式の対数尤度は定数。すべての
個体に関しYi= yiが具体的に与えられている。
⊲ 一方、データを観測する の段階で、Yiは未確定。よって
log L(θ) =log(Yi; θ) (24)
はY1,Y2, . . . ,Ynに依存する 。∴上式の最大化で得られるML推定量ˆθも、 Y1,Y2, . . . ,Ynに依存する確率変数。
⊲ ˆθの統計的な性質は、(24)式の対数尤度(確率変数)に基づき考える。
2.2 ML 推定量の統計的性質
ML推定量の漸近的性質:ML推定量はn → ∞のとき(1) 、(2) 、
(3) を持つ。
plim ˆθ = θ, ˆθ∼ Na θ,Avar(ˆθ) . (25)
ここで漸近分散Avar(ˆθ)は、あらゆる漸近正規推定量の中で最小。
⊲ ∴ML推定はサンプル数が十分多いならば、最高の性能を持つ。
⊲ ただし母集団モデル・標本抽出に関しいくつかの条件( )が必要。
⊲ 証明は入門レベルをはるかに超えるので、上級の数理統計学のテキストを参照。
Remark:最尤法は、モーメント法(講義ノート#19)と共に、適用範囲の広い推定法。
⊲ 正則条件を満たすならば、いかなるモデルのパラメータでも漸近的に望ましい推定 量が得られる。
⊲ 特にプロビットなど、 の推定で使われる。⇒詳しくは、次回。
⊲ 最尤法の欠点:母集団分布の分布型を特定しないと、実行できない。⇒誤った分布 に基づいでML推定を行うと、パラメータを一致推定できない可能性がある。
2.3
条件付き最尤法
条件付き分布による最尤法:計量経済学では、説明変数Xiが与えられたもとでの、被説 明変数Yiの条件付き分布
f (yi|xi; θ) (26)
に関するパラメータ推定が目的となることが多い。⇒上式に基づく対数尤度
log L(θ) =log f (yi|xi; θ) (27)
を、 と呼ぶ。
⊲ 上式をθで最大化⇒条件付き最尤推定量ˆθを得る。
⊲ ∴Yiの尤度がXiに依存する場合も、ML推定ができる。
例:回帰モデルの誤差項が正規分布に従うならば
Yi = α + βXi+ ui, ui ∼ N(0, σ2) ⇒ Yi ∼ N(α + βXi, σ2). (28)
⊲ このとき密度関数は
f (yi|xi; α, β, σ2) = √1 2πσ2exp
−(yi− α − βxi)
2
2σ2
. (29)
対数をとると
log f (yi|xi; α, β, σ2) = −1
2log(2π) − log(σ) − (yi− α − βxi)
2
2σ2 . (30)
⊲ 全観測の和を取れば
log L(α, β, σ2) = −n
2log(2π) − n log(σ) − 2σ12(yi− α − βxi)2
=Q(α,β)
. (31)
⊲ 上式Q(α, β)はOLSの残差2乗和と同値である点、また回帰係数はQ(α, β)にしか現 れない点に注意。従って
maxα,β log L(α, β, σ2) = max
α,β −
1
2σ2Q(α, β) = min
α,β Q(α, β). (32)
∴正規性の下で回帰係数をML推定すると、 を得る。
まとめと復習問題
今回のまとめ
最尤法の基本的な考え方。
最尤推定量と、その統計的性質。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。 1. 最尤法と条件付き最尤法の違いは何か、簡潔に述べよ。