最尤法計量経済学鹿野研究室

(1)

担当：鹿野（大阪府立大学）

2013 年度後期

はじめに

前回の復習

因果関係の観点から、実証分析で注意すべき点。

自然実験とその意義。

今回学ぶこと

最尤法：最も尤もらしい推定法。

最尤推定量とその統計的性質。

テキスト該当箇所：特になし。

1 最尤法：最も尤もらしい推定法

1.1

二値反応データとベルヌーイ分布

二値反応データ：「男_or女」、「○ ○ に該当しない_or該当する」のように、結果が二つしかないデータを、と呼ぶ。

⊲ ^{二値反応データは、} ^{（講義ノート}#14^{）として記録される。}

Yi =

⎧

⎪⎪

⎨

⎪⎪

⎩

0 if^○ ^○ ^{に該当しない}

1 if^○ ^○ ^{に該当する} ^. ⁽¹⁾

∴二値反応＝ダミーと思ってよい。

ベルヌーイ分布：二値反応変数_Y_iの確率は、

f (y) = Pr(Yi= y) = (1− p)^1−y^p^y^, y = 0, 1. ⁽²⁾

に従う。ここで _pはと呼ばれる未知パラメータ。

⊲ Y_i_{= 0, 1}^{それぞれの確率は}

f (0) = Pr(Yi= 0) = (1− p)¹⁻⁰^p⁰ = ^, ⁽³⁾ f (1) = Pr(Yi= 1) = (1_{− p)}¹⁻¹p¹ = ^. (4)

1

(2)

⊲ ∴ p^はYi= 1の確率（コイン・トスなら_{p = 0.5}）。_⇒次のように書いてもよい。

f (y) = Pr(Yi = y) =

⎧

⎪⎪

⎨

⎪⎪

⎩

1 − p for y = 0

p _{for y = 1}^. ⁽⁵⁾

⊲ 重要な性質：ベルヌーイ標本の期待値は _pに等しい。

E(Yi) = 0 · (1 − p) + 1 · p = ^. ⁽⁶⁾

1.2

ベルヌーイ母集団の統計的推測

例：ある町で無作為に₅名の住民を選び、自動車の有無を調査_⇒次の結果を得た。 Y1= 1, Y2 = 1, Y3= 0, Y4= 0, Y5 = 1. (7)

ここで_Y_iはベルヌーイ分布に従う二値反応ダミー Yi=

⎧

⎪⎪

⎨

⎪⎪

⎩

0 if^車なし

1 if^車あり^. ⁽⁸⁾

⊲ ^{サンプル数}_{n = 5}^{、うち車なしの数}n₀ _{= 2}^{、車ありの数}n₁_{= 3}^。

⊲ Yi^{は無作為に抽出による} ^{と仮定する。}

_Remark：二値反応ダミーから母集団の成功確率 _{p = Pr(Y}_i _{= 1)}を推定するには？

⊲ ^{一番シンプルな方法}_⇒^{標本中の、}Yi = 1^の ^{を求める。}

ˆp = ⁿ¹ n0+ n1 ⁼

n₁

n ^. ⁽⁹⁾

⊲ ^単にY_i^の ^{を求めても、同じ。}

Y =¯ ¹ n

Yi= ¹

n(0 + · · · + 0

=n0×0

+ 1 +· · · + 1

=n1×1

) = ⁿ¹

n ^{= ˆ}^p. ⁽¹⁰⁾

⊲ (7)^{式のデータなら}

ˆp = ¯Y = ³

5 ^{= 0.6.} ⁽¹¹⁾

1.3

「最も尤もらしい」推定値

尤度：ここで、_pを所与として、分析者が₍₇₎式の調査結果を観測する同時確率

L(p) = Pr(Y1 = 1, Y2= 1, Y3= 0, Y4 = 0, Y5= 1) ⁽¹²⁾

を考える。これを（ゆうど）と呼ぶ。

⊲ 独立な標本なので、同時確率は個々の確率の積。

L(p) = Pr(Y1= 1) Pr(Y2 = 1) Pr(Y3= 0) Pr(Y4= 0) Pr(Y5 = 1). ⁽¹³⁾

(3)

⊲ また、個々の観測はベルヌーイ分布₍₂₎式に従うので L(p) = (1 − p)⁰^p¹

=Pr(Y1=1)

· (1 − p)⁰^p¹

=Pr(Y2=1)

· (1 − p)¹^p⁰

=Pr(Y3=1)

· (1 − p)¹^p⁰

=Pr(Y4=1)

· (1 − p)⁰^p¹

=Pr(Y5=1)

= p· p · (1 − p) · (1 − p) · p

= ^. ⁽¹⁴⁾

_Remark：「₍₇₎式の結果が観測された」という事実を踏まえれば、どんな_pの値が「最も

尤もらしい」（もっとももっともらしい）か？

⊲ ^{現実を受け入れれば、}(7)式の結果を高確率で再現する_pの値が、もっともらしいのでは？

⊲ 数学的に言えば：尤度＝同時確率L(p) = (1 − p)²^p³^{を最大にする}^p^{が、尤もらしい} のでは？

対数尤度の最大化：₍₁₄₎式両辺を対数変換すれば

log L(p) = log(1 − p)²^p³= 2 log(1− p) + 3 log(p). ⁽¹⁵⁾

（対数変換の公式_⇒講義ノート_#13。）これをと呼ぶ。

⊲ 注意：対数変換は単調増加変換。_⇒(14)式の最大化と、₍₁₅₎式の最大化は同じ解を得る。図₁参照。

⊲ 対数変換の微分公式（講義ノート_#13）、合成関数の微分公式（講義ノート_#06）を合わせて使うと、最大化の一階条件は

d log L(p)

dp ^{= 0} ^⇒ ⁻²

1 1 − ˆp ^{+ 3}

1

ˆp ^{= 0} ^⇔ 3(1 − ˆp) − 2 ˆp = 0. ⁽¹⁶⁾

⊲ ˆp^{について解けば}

ˆp = ³

5 ^{= 0.6.} ⁽¹⁷⁾

∴₍₇₎式にある観測を高確率で再現する成功確率は、_{p = 0.6}。_⇒この値は、先に求め

た（割合）_{X = 0.6}¯ と等しい！

最尤法：対数尤度（観測の同時確率の対数）を最大化することで未知パラメータを推定する方法を、と呼ぶ。

⊲ 平均値や割合を計算してベルヌーイ分布の成功確率_pを求めることは、最尤法と同値。

⊲ 最尤法は「未知パラメータの値は、分析者の観測したデータのパターンを高確率で発生させるような値に違いない」という発想法、に基づく推定法。

(4)

0.0 0.2 0.4 0.6 0.8 1.0

0.0000.0100.0200.030

p

L(p)

0.0 0.2 0.4 0.6 0.8 1.0

−14−12−10−8−6−4

p

log L(p)

図_{1: L(p)}または_{log L(p)}の最大化

2 ^{最尤推定量（} ML ^{）とその漸近的性質}

2.1

^最尤法

ベルヌーイ母集団を離れ、最尤法を一般的に定義。

尤度関数：母集団分布 _{f (; θ)}に従う独立な標本の同時確率分布 L(θ) = Pr(Y1 = y1^{) Pr(Y}2= y2) · · · Pr(Yn= yn⁾

= f (y1^{; θ) f (y}2; θ) · f (yn^{; θ)} ⁽¹⁸⁾

を、と呼ぶ。_θは未知のパラメータ。

⊲ 注意：尤度は、分析者が置いた_θが現実のデータパターンにどれだけフィットするかを測る指標。∴_θの関数。

対数尤度関数：尤度関数の対数変換

log L(θ) = log^{f (y}1^{; θ) f (y}2; θ) · f (yn^{; θ)}

= log f (y1; θ) + log f (y2; θ) + · · · + log f (yⁿ^{; θ)}

=

log f (yi; θ) (19)

を、と呼ぶ。

⊲ 対数尤度関数は「和」で定義されるので、「積」の尤度関数より数学的に扱いやすい。

最尤推定量：対数尤度関数を_θに関し最大化すれば、（maximum likelihood estimator^、 ^）ˆθ^を得る。

log L(θ) _{−−−−−−−−→}^{θ で最大化} ˆθ

ML 推定量

(20)

⊲ OLSは、線形モデルをデータ（散布図）にフィットさせる（講義ノート_#06）。

⊲ ^一方MLは、確率分布をデータにフィットさせる。

(5)

例：独立なベルヌーイ標本_Y_iに基づく尤度・対数尤度はそれぞれ

L(p) =(1 − p)^1−yⁱ^p^yⁱ^, ⁽²¹⁾

log L(p) =_{(1 − y}i) log(1 − p) + yi^log(p)

= log(1_{− p)}

(1 − yⁱ⁾

=n0

+ log(p)

yi

=n1

= n0log(1 − p) + n¹^log(p). ⁽²²⁾

⊲ (16)式を参考にすれば、最大化の一階条件は

n₁(1 − ˆp) − n0ˆp = 0 _⇒ ˆp = ⁿ¹ n0+ n1 ⁼

n₁

n ^. ⁽²³⁾

_Remark：データを観測したの段階ならば、₍₁₉₎式の対数尤度は定数。すべての

個体に関し_Y_i_{= y}_iが具体的に与えられている。

⊲ 一方、データを観測するの段階で、_Y_iは未確定。よって

log L(θ) =^log(Yi^{; θ)} ⁽²⁴⁾

は_Y₁_,_Y₂_{, . . . ,}_Y_nに依存する。∴上式の最大化で得られる_ML推定量_ˆθも、 Y1^,Y2^{, . . . ,}Yn^{に依存する確率変数。}

⊲ ˆθ^{の統計的な性質は、}(24)式の対数尤度（確率変数）に基づき考える。

2.2 ML 推定量の統計的性質

_ML推定量の漸近的性質：_ML推定量は_{n → ∞}のとき₍₁₎ 、₍₂₎ 、

(3) ^を持つ。

plim ˆθ = θ, ^ˆθ∼ N^a ^θ,^Avar(ˆθ)^. ⁽²⁵⁾

ここで漸近分散_Avar(ˆθ)は、あらゆる漸近正規推定量の中で最小。

⊲ ∴ML推定はサンプル数が十分多いならば、最高の性能を持つ。

⊲ ただし母集団モデル・標本抽出に関しいくつかの条件（）が必要。

⊲ 証明は入門レベルをはるかに超えるので、上級の数理統計学のテキストを参照。

_Remark：最尤法は、モーメント法（講義ノート_#19）と共に、適用範囲の広い推定法。

⊲ 正則条件を満たすならば、いかなるモデルのパラメータでも漸近的に望ましい推定量が得られる。

⊲ ^{特にプロビットなど、} ^{の推定で使われる。}_⇒^{詳しくは、次回。}

⊲ 最尤法の欠点：母集団分布の分布型を特定しないと、実行できない。_⇒誤った分布に基づいで_ML推定を行うと、パラメータを一致推定できない可能性がある。

(6)

2.3

^{条件付き最尤法}

条件付き分布による最尤法：計量経済学では、説明変数_X_iが与えられたもとでの、被説明変数_Y_iの条件付き分布

f (yi_|xi; θ) (26)

に関するパラメータ推定が目的となることが多い。_⇒上式に基づく対数尤度

log L(θ) =^{log f (y}i|xi^{; θ)} ⁽²⁷⁾

を、と呼ぶ。

⊲ ^上式をθ^で最大化_⇒^{条件付き最尤推定量}ˆθ^を得る。

⊲ ∴Yi^の尤度がXi^{に依存する場合も、}ML^{推定ができる。}

例：回帰モデルの誤差項が正規分布に従うならば

Yi = α + βXi+ ui^, ui _{∼ N(0, σ}²) _⇒ Yi _{∼ N(α + βX}i^{, σ}²). (28)

⊲ ^{このとき密度関数は}

f (yi_|xi; α, β, σ²_{) =} _√¹ 2πσ²^exp

−^(yⁱ^{− α − βx}ⁱ⁾

2

2σ²

. (29)

対数をとると

log f (yi_|xi; α, β, σ²_{) = −}¹

2log(2π) − log(σ) − ^(yⁱ^{− α − βx}ⁱ⁾

2

2σ² ^. ⁽³⁰⁾

⊲ ^{全観測の和を取れば}

log L(α, β, σ²_{) = −}ⁿ

2log(2π) − n log(σ) − _2σ¹₂^(yⁱ− α − βxⁱ⁾²

=Q(α,β)

. (31)

⊲ ^上式Q(α, β)^はOLS^の残差2乗和と同値である点、また回帰係数は_{Q(α, β)}にしか現れない点に注意。従って

maxα,β log L(α, β, σ²_{) = max}

α,β ⁻

1

2σ²Q(α, β) = min

α,β ^{Q(α, β).} ⁽³²⁾

∴正規性の下で回帰係数を_ML推定すると、を得る。

まとめと復習問題

今回のまとめ

最尤法の基本的な考え方。

最尤推定量と、その統計的性質。

復習問題

出席確認用紙に解答し（用紙裏面を用いても良い）、退出時に提出せよ。 1. 最尤法と条件付き最尤法の違いは何か、簡潔に述べよ。

最尤法 計量経済学 鹿野研究室