担当:鹿野(大阪府立大学)
2013 年度後期
はじめに
前回の復習
最尤法(ML)。
最尤推定量の定義、統計的性質。
今回学ぶこと
プロビットモデルの最尤推定。
離散選択問題とプロビット。
テキスト該当箇所:特になし。浅野・中村(2011)の10章参照。標準正規分布の密度関 数・累積分布関数については東大出版会(1991)参照。
1 プロビットモデルの最尤推定
1.1
条件付きの成功確率
例:Jリーグ(J1)2011-12年シーズン選手データ。公式サイトより。
id 移籍ダミー 出場時間/3060 ゴール/34 J2降格ダミー
1 0 0.00 0.00 0
2 0 0.97 0.03 0
3 0 0.23 0.06 0
4 1 0.01 0.00 0
...
528 1 0.03 0.03 1
⊲ ベルヌーイ成功確率(講義ノート#27)の推定:移籍ダミーの平均で、選手の移籍確 率を推定⇒ ˆp = 0.44。
⊲ 出場時間やゴール数、チームの降格が移籍確率に与える影響を推定するには?
1
条件付き成功確率:二値反応変数Yi(ダミー、0 or 1)に関し、Yi = 1の確率が別の変数 Xiに依存する、 を考える。
pi = Pr(Yi= 1|Xi) = g(α + βXi). (1)
ここでα、βは未知の係数。
⊲ ∴ Xiの値に応じて、成功確率piが変化、個体差。(通常のベルヌーイ成功確率はp で一定。)
⊲ g(·)は
0 < g(·) < 1 (2)
を満たす関数。piか確率であるために必要な条件。
条件付きベルヌーイ分布:成功確率が(1)式のとき、条件付きのベルヌーイ分布を得る。 f (yi|xi) = (1 − pi)1−yipyii
=1 − g(α + βXi)1−yig(α + βXi)yi. (3)
⊲ 講義ノート#26と同じ要領で、条件付き期待値をとると
E(Yi|Xi) = 0 · (1 − pi) + 1 · pi = pi = Pr(Yi= 1|Xi)
= . (4)
⊲ ∴コレは の一種。関数g(·)により、α + βXiが非線形変換。
1.2
プロビットモデル
プロビット:成功確率を作る関数g(·)として、標準正規分布の累積分布関数
pi = Φ(α + βXi) (5)
がよく使われる。これを (probit)と呼ぶ。Φは「ファイ」と読む。
⊲ なぜこの関数?⇒図1より、
0 < Φ(·) < 1. (6)
∴条件(2)式を満たす。
⊲ このとき(3)式のベルヌーイ分布は
f (yi|xi) =1 − Φ(α + βXi)1−yiΦ(α + βXi)yi. (7)
プロビットの最尤推定:(7)式の対数をとると
log f (yi|xi) = (1 − yi) log1 − Φ(α + βXi)+ yilog Φ(α + βXi). (8) 上式の和により、条件付き対数尤度関数(講義ノート#26)を得る。
log L(α, β) =log f (yi|xi). (9)
⊲ log L(α, β)をα、βで ⇒ αˆ、ˆβ。
⊲ 注意:OLS・IV推定と違い、プロビットは非線形回帰モデル。⇒推定値を解析的に 解くことができない。数値最適化が必要。
⊲ gretlの「モデル」→「limited dependent variable」→「プロビット」→「二値」。
例:移籍確率を出場時間、ゴール数、降格ダミーにプロビット回帰。⇒係数の推定結果。 ゴール数以外統計的に有意。
プロビット(ML) 線形回帰(OLS) 係数 t値 係数 t値
定数項 0.22 2.49 0.58 17.30
出場時間 -1.39 -6.87 -0.50 -7.80
ゴール 0.83 1.12 0.26 1.07 降格ダミー 0.51 3.37 0.19 3.24 対数尤度値 -328.94
修正済みR2 0.11 サンプル数n 528 528
⊲ 出場時間が長いほど、次シーズン移籍する確率は落ちる。
⊲ チームのJ2への降格で、選手が流出。
⊲ 確率の性質(0以上1以下)を無視し、移籍ダミーを説明変数に線形回帰しても同様 の結果(線形確率モデル、講義ノート#14)。...プロビットと線形回帰で、あまりに も推定値が違い過ぎないか?
⊲ 実は、プロビットの係数推定値と線形回帰の係数推定値は、直接 。
⇒限界効果に換算。
1.3
限界効果:プロビット回帰の留意点
限界効果:回帰モデルの、説明変数に関する導関数 MA = dE(Yi|Xi)
dXi
(10)
を一般に、 (marginal effect、 )と呼ぶ。
⊲ 通常、分析者が興味のあるパラメータは、この限界効果。
⊲ 例:線形回帰モデルE(Yi|Xi) = α + βXiの限界効果は MA = dE(Yi|Xi)
dXi
= β. (11)
∴この場合、係数のOLS推定値 ˆβ =限界効果の推定値。
プロビットの限界効果は
MA = dΦ(α + βXi) dXi
= β. (12)
ここでφ(·) > 0は標準正規分布の密度関数。小文字の「ファイ」。
⊲ ∴線形回帰モデルと異なり、βの推定値が限界効果と一致しない。非線形モデルゆえ の性質。
⊲ 証明:Wi = α + βXiと置けば、合成関数の微分公式より MA = dΦ(Wi)
dXi =
dΦ(Wi) dWi
dWi
dXi =
dΦ(Wi)
dWi β. (13)
ここで、累積分布と密度関数の性質から dΦ(Wi)
dWi
累積分布の導関数
= φ(Wi)
密度関数
. (14)
よって
MA = φ(Wi)β = φ(α + βXi)β. (15)
Remark:プロビット回帰を行ったら、必ず限界効果の推定値
MA = φ( ˆ α + ˆβ ¯X) ˆβ (16)
をレポート。X¯ は説明変数の平均値。
⊲ 係数のML推定値 ˆβ自体は、「変数Xiが一単位増えたとき、Yi = 1の確率がどれた け変化するか」と解釈できない。∴ な議論をするためには、限界効果への 換算が必要。
⊲ 関数の性質上φ(·) > 0 ⇒単に限界効果の符号を知りたい( な議論)なら ば、ˆβだけで良い。
⊲ 統計ソフトのプロビットコマンドには、限界効果を求めるオプションがある。
例:先ほどの分析例で、プロビットの係数を限界効果に直すと...
プロビット(ML) 線形回帰(OLS) 係数 t値 限界効果 係数 t値
定数項 0.22 2.49 0.58 17.30
出場時間 -1.39 -6.87 -0.55 -0.50 -7.80
ゴール 0.83 1.12 0.32 0.26 1.07 降格ダミー 0.51 3.37 0.20 0.19 3.24
⊲ 線形回帰の係数推定値と、プロビットの限界効果は 。
⊲ 「限界効果を推定したいなら、OLSのほうが早い(プロビットは要らん)」という専 門家も。
2 離散選択問題とプロビット
2.1
合理的個人の離散選択とその多様性
離散選択問題:個人(企業)が、有限の選択肢から最適なものを一つ選ぶ行動を、離散選 択と呼ぶ。
⊲ :「働く・働かない」、「結婚する・しない」、「操業する・しな い」など、二つの選択肢から選択。
⊲ :「ブランドA・B・C・Dから一つ選ぶ」、「就業・失業・非労働力から 一つ選ぶ」など、選択肢が二つ以上。
⊲ 合理性の仮定:個人は、 をもたらす選択肢を選ぶ。
選択の多様性:個人にとってベストな選択・戦略は、年齢や性別など、個人属性に依存。
⇒選択の 。
⊲ 例:男性と比べ、女性は赤いスマートフォンケースを選ぶ傾向。
⊲ 百人が百人とも同じ選択をするのは、むしろまれなケース。 2.2
プロビットの導出
Remark:二値ダミーYiの背後にある個人の選択行動。
⊲ 例:なぜチームに留まらず移籍したか?⇒移籍(Yi = 1)の効用が、移籍しない
(Yi= 0)効用を上回ったから。
⊲ 例:なぜ酒を飲むか?⇒酒を飲んだ(Yi = 1)効用が、酒を飲まない(Yi = 0)効用 を上回ったから。
⊲ ∴人は、自分にとって それを行う。⇒データとして観測された二値ダ ミーYi= 0, 1は、合理的個人が二項選択問題を解いた「足跡」!
潜在変数:個人iがYi = 1を選ぶことで得られる効用水準を、連続的な で 表す。
Yi∗= α + βXi+ ui. (17)
⊲ ∴効用が個人属性Xiに依存⇒個人間の選択の違いを生む。
⊲ uiは同一なXiの値を持つ個人間の、効用の差異(好み)。標準正規分布に従うと仮定。
ui ∼N(0, 1). (18)
⊲ 一方、Yi= 0を選んだ時の効用を に基準化。
選択確率:個人の合理性を仮定すれば、効用Y∗
i(観測不可能)と選択Yi(観測可能)の
対応関係は
Yi∗= α + βXi+ ui ≤0 ⇔ Yi= , (19) Yi∗= α + βXi+ ui >0 ⇔ Yi= . (20)
⊲ ∴ Xiが与えられたもとで、個人iがYi = 1をとる確率は
Pr(Yi = 1|Xi) = Pr(Yi∗>0|Xi) = Pr(α + βXi+ ui>0|Xi). (21)
プロビット:uiが正規分布ならば、選択確率は
Pr(Yi = 1|Xi) = , (22)
つまりプロビットの成功確率となる。
⊲ ∴プロビットモデルは、一定の条件のもと、二項選択問題から導出できる!
⊲ 証明:Wi = α + βXiと置く。正規分布の対称性を使えば Pr(Yi = 1|Xi) = Pr(Wi+ ui >0|Xi) = Pr(ui > −Wi|Xi)
= Pr(ui <Wi|Xi)
=
Wi
ui=−∞
φ(ui)dui = Φ(Wi). (23)
Remark:プロビットは、個人属性が離散選択に与える影響を分析する際に、最も適切な
計量モデル。
⊲ 二値反応変数の回帰分析で、簡便な線形回帰よりプロビットのほうが(経済学者に) 好まれる理由。経済理論による基礎づけ。
⊲ 個人の離散的な効用最大化(選択肢の比較)から出発して、多項選択を実証分析す るためのモデル( )に拡張可能。大学院レベルのトピック。
まとめと復習問題
今回のまとめ
最尤法の基本的な考え方。
最尤推定量と、その統計的性質。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. 二値反応ダミーYiをXiに回帰する方法として、線形回帰(線形確率)モデルとプロビッ トモデルがある。
線形回帰: E(Yi|Xi) = α + βXi, (24)
プロビット: E(Yi|Xi) = Φ(α + βXi). (25) それぞれの利点と欠点を整理せよ。