平成24年度 ミクロ計量経済学 講義ノート3 二項選択モデル
被説明変数が2項変数である場合を考える。この場合、回帰関数は、被説明変数の予測値 ではなく、被説明変数が1をとる確率を表していると解釈できる。この節では、線形確率モ デル(線形回帰モデルのことである)、プロビットモデル、ロジットモデルを紹介し、また 最尤法による推定を紹介する。
3.1 二項選択モデル
経済学の実証分析では、被説明変数が2項変数である場合が多い。(yi, xi), i = 1, . . . , nと いうデータがあった時にyiが2項変数、つまりyi = 1あるいはyi = 0という二つの値しか とらない場合である。なお、1か0だけでなく、他の二つの値も考えられるかもしれないが、 1と0のみをとるとしても全く一般性を失わない。
経済学の実証分析では、xiのyiに与える影響をモデル化したいのであるが、ここでは、特 に、Pr(yi = 1|xi)のモデルを考え、その推定を考察する。つまり、2項選択モデルとは、被 説明変数が2項変数であるときの、Pr(yi = 1|xi)のモデルのことである。
3.2 線形確率モデル
線形回帰モデルも2項選択モデルとして考えることができる。つまり、
Pr(yi = 1|xi) = x′iβ (1)
とすると、Pr(yi = 1|xi) = E(yi|xi)であるので、これは、
yi= x′iβ + ui (2)
かつE(ui|xi) = 0という、線形回帰モデルと同値になる。これを線形確率モデルという。
• x1iの係数をβ1とすると、それはx1を一単位変化させた時の、y = 1である確率の変 化を表現していると考えることができる。
• 線形回帰モデルで使われた統計的手法は、線形確率モデルでも、特に問題なく使用する ことが可能である。また、線形回帰モデルにおける理論的結果もそのまま適用できる。
• ただ、R2はそれほど意味をもたない。たとえば、被説明変数は2つの値しかとらない ので、すべての観察点が回帰曲線上にあることはありえず、R2 = 1であることはまず ありえない。
線形確率モデルの問題点 モデルから予測される確率は、0以下になったり、1以上になっ たりする。そのため、線形確率モデルを使用するとモデルからの結果の解釈が困難になる場 合がある。また、2項選択モデルを使用して予測確率を計算し、それを他の統計手法を適用 するときの材料に使うこともよくあり、その場合、予測確率が0と1の間に入らないと、そ の統計手法が使えない場合もある。
3.3 プロビット回帰とロジット回帰
2項選択モデルとしては、非線形モデルがよく用いられる。特に、パラメトリックな単一 指標モデルが、よく使われており、プロビットモデルとロジットモデルはその代表例である。 なお線形確率モデルもその一種だが、線形確率モデルが通常OLSで推定されるのに対し、 プロビットモデルなどは最尤法によって推定される。
パラメトリックな単一指標モデルは、
Pr(yi|xi) = G(x′iβ) (3)
と仮定するものである。G(·)は既知の関数である。線形確率モデルならG(z) = zとなる。 確率が0と1の間に入ることを保証するため、G(·)として、分布関数を使う。
プロビットモデル Φ(·)を標準正規分布関数とすると、
Pr(yi= 1|xi) = Φ(xiβ) (4)
として、Pr(y = 1|x)をモデル化するのが、プロビットモデルである。
ロジットモデル 標準ロジスティック分布関数を使用した、条件付確率モデルをロジットモ デルという。そのモデルでは、yi = 1の条件付き確率は
Pr(yi = 1|xi) = Λ(x′iβ) ≡ 1
1 + e−x′iβ (5)
となる。
• ロジットモデルとプロビットモデルは非常に似通った結果をだす。
• 歴史的には、ロジットモデルは推定時の計算がプロビットモデルに比べて早いために よく使われてきた。ただ、現代の計算機では気にするほどの違いではない。
• モデルをもっと複雑にしていくと二つのモデルの利点には違いが出てくる。具体的に は、2項選択ではなく、多項選択モデルを考えるとき、プロビットを拡張すると、色々 な選択肢間の相関を簡単に表現できるが、推定量の計算が難しくなり、ロジットモデ ルを拡張した場合は、選択肢間の相関に制約を加えないとうまくモデル化できないが、 計算は比較的容易になる。
線形確率モデルとプロビットやロジットモデルとの比較 どのモデルを使うべきかについて は、特に決まった答えがあるわけではない。どのモデルがもっともデータと整合的かを調べ る統計手法は存在するが、それほど頻繁には使われていない。
ただ、Angrist and Pischke (2008)の意見は一考の価値がある。線形確率モデルを使って 推定をした場合、たとえ真の条件付期待値が線形でなかったとしても、なんらかの意味のあ るパラメーターを推定することができる。たとえば、回帰変数が2項変数の場合、OLS推 定量は平均処置効果(E(y|X = 1) − E(y|X = 0))に収束する。また、Stoker (1986)の結果 によると、xが正規分布の場合には、線形確率モデルで、平均的なxの変化の効果を推定で きる。しかし、プロビットやロジットの場合、もしモデルが間違っている場合には推定結果 の解釈が難しくなる。したがって、線形確率モデルを使用するべきということである。
ただし、さきに見たとおり、線形確率モデルでは、確率としては不適切な値を確率の予測 値をしてしまう可能性がある。
3.4 単一指標モデルの最尤推定
プロビットモデルやロジットモデルは、通常、最尤推定法を使用して、そのパラメーター を推定する。
Pr(yi|xi) = G(x′iβ)yi(1 − G(x′iβ))1−yi (6) であるので、(条件付き)対数尤度関数は、
Ln(β) = 1 n
n
∑
i=1
{yilog G(x′iβ) + (1 − yi) log(1 − G(x′iβ))} (7) である。
• なお、xi の分布が、βに依存しないのなら、これを尤度として考えても問題はなく、 通常そのように仮定する(xiは弱外生であるという)。そして、Ln(β)を最大化する ことによって、βの最尤推定量を得る。
• ただし、プロビットモデルの最尤推定量は明示的な式で書くことができない。したがっ て、尤度関数の最大化は数値計算で行う。多くの統計ソフトで自動的に行うことがで きる。
漸近的性質は、講義ノート1の結果を使用することで、証明できる。βˆnを最尤推定量と し、β0を真のパラメーターの値とする。また母数空間をBとする。
定理 1. (yi, xi), i = 1, . . . , nはi.i.d.であるとする。Bは凸集合であり、β0はBの内点であ
るとする。G(·)は分布関数であり、厳密に増加関数とする。log G(·)とlog(1 − G(·))は凹関 数であるとする。またE(xix′i)は存在し非特異で有界であるとする。このとき、βˆn →p β0
である。
証明. 講義ノート1の定理3 (Newey and McFadden 1994, Theorem 2.7)を用いて証明す る。まず、仮定により、β0は母数空間の内点である。次に、Ln(β)はlog Gなどが凹関数で あることから、凹関数である。よって、βˆn= arg min(−Ln(β))であり、−Ln(β)は凸関数と なる。Bは仮定により、凸集合。さらに、大数の法則により、βの各点において、
−Ln(β) →p −L(β) ≡ −E(yilog G(x′iβ) + (1 − yi) log(1 − G(x′iβ))
) (8)
である。ここで、E(xix′i)が非特異なので、もしβ ̸= β0なら、正の確率でx′iβ ̸= x′iβ0であ
る。したがって、正の確率でG(x′iβ) ̸= G(x′iβ0)であり、1 − G(x′iβ) ̸= 1 − G(x′iβ0)である。
これより、情報不等式を使うと、β0が唯一の−L(β)の最小詞であることがわかる。よって、 定理3から、一致性が示せる。
定理2. (yi, xi), i = 1, . . . , nはi.i.d.であるとする。Bは凸集合であり、β0はBの内点であると
する。G(·)は分布関数であり、2回微分可能な厳密に増加関数とする。log G(·)とlog(1−G(·)) は凹関数であるとする。またE(xix′i)は存在し非特異で有界であるとする。g(·)をG(·)の微分 関数、またg′(·)をg(·)の微分とする。ある定数Cがあって、|g(z)/(G(z)(1 − G(z)))| ≤ C|z| かつ、| − (g(z)/(G(z)(1 − G(z)))2+ g′(z)/(G(z)(1 − G(z)))| ≤ Cが成り立つ。このとき、
√n( ˆβn− β0) →dN (
0, E
( (g(x′iβ))2xix′i G(x′iβ)(1 − G(x′iβ))
))
(9) である。
証明. 講義ノート1の系5を用いて証明する。まず、先ほどの定理により、βˆnは一致性をも つ。次に定理の条件が満たされることを確認する。
f (yi, xi, β) = yilog G(x′iβ) + (1 − yi) log(1 − G(x′iβ)) (10)
とする。β0は仮定によりBの内点である。また、G(·)が2回微分可能なので、f (yi, xi, β) も2回微分可能である。次に、
∂
∂βf (yi, xi, β) =
yig(x′iβ) G(x′iβ) xi−
(1 − yi)g(x′iβ)
1 − G(x′iβ)
xi= (yi− G(x′iβ))g(x′iβ)
G(x′iβ)(1 − G(x′iβ))xi (11) かつ、
∂2
∂ββ′f (yi, xi, β) = (
−
( y − G(x′iβ)
G(x′iβ)(1 − G(x′iβ))g(x
′iβ)
)2
+(yi− G(x′iβ))g′(x′iβ) G(x′iβ)(1 − G(x′iβ))
)
xix′i (12)
となる。よって、Gに関する条件とE(xix′i)が有界であることから、押え込みの条件も満た される。最後に、
E ( ∂2
∂ββ′f (yi, xi, β) )
= −E
( g(x′iβ)2
G(x′iβ)(1 − G(x′iβ))xix
′i
)
(13) となり、これが非特異であることも、Gの条件とE(xix′i)が非特異であることから従う。よっ て、漸近正規性は成り立ち、さらに情報等式から、定理の漸近分布がわかる。
プロビットやロジットでは、定理のG(·)の条件が満たされることが分かっている。した がって、ブロビットやロジットでは、E(xix′i)の条件が満たされていれば、一致性と漸近正 規性をもつ。
漸近分散の推定法 漸近分散の推定量には、いくつかの方法がある。最も自然な方法は、 Vˆn= 1
n
n
∑
i=1
g(x′iβˆn)2
G(x′iβˆn)(1 − G(x′iβˆn))xix
′i (14)
として推定を行うものである。あるいは、
Hˆn= 1 n
n
∑
i=1
( yi− G(x′iβˆn)
G(x′iβˆn)(1 − G(x′iβˆn))g(x
′iβˆn)
)2
− (yi− G(x′iβˆn))g′(x′iβˆn) G(x′iβˆn)(1 − G(x′iβˆn))
xix′i (15) として、2次微分の式を、そのまま使用する方法も良く使われる。
また、2次微分の計算が難しい場合には、情報等式を使い、
Sˆn= 1 n
n
∑
i=1
((yi− G(x′iβˆn))g(x′iβˆn) G(x′iβˆn)(1 − G(x′iβˆn))
)2
xix′i (16)
として、1次微分の外積を使用することも行われる。これは、BHHH (Berndt, Hall, Hall and Hausman (1974))推定量と呼ばれる。2次微分の式を導出するのが難しい場合にはこの 推定量は有用であるが、それが比較的簡単に明示的に出るような場合には、避けたほうが よい。
さらには、頑健な推定量として、
Hˆn−1SˆnHˆn−1 (17)
というものもある。これは、例えば、モデルが間違っていることが疑われる場合に使われる。 モデルが間違っている場合でも推定量は、それなりに意味のある母数に収束することがは あり(その収束先を疑似真値といい、推定量は疑似最尤推定量と呼ばれる。例えば、White
(1982)を見よ。)、その場合に備えた漸近分散推定量である。
3.5 x を変化させたときの影響
プロビットモデルなどはは非線形モデルである。したがって、ある回帰変数xを変化させ たときの影響は、xの係数の値だけではとらえることができない。そのために、限界効果を 計算することも多い。限界効果は次のように定義できる。
∂G(x′iβ)
∂xik
= g(x′iβ)βk. (18)
しかし、限界効果は、xiの値に依存する。論文などで限界効果を掲載するときは、xiの 平均あるいは中央値での限界効果を計算して掲載することが多い。xiの平均での限界効果 はPEA(partial effect at the average)と呼ばれ、次のように定義できる。
g(¯x′β)βk. (19)
また、限界効果の平均を計算することも良く行われる。これは、APE(average partial effect) と呼ばれ、
1 n
n
∑
i=1
g(x′iβ)βk (20)
と計算する。これらの標準誤差は、デルタ法あるいはブートストラップ法によって計算する。 なお、xiが2項変数を含む時、それに対応する限界効果を微分によって計算するよりも、 差分をとったものの方が適切であろう。xiの第一要素が2項変数として、x′iβ = xi1β1+x′i2β2
とかけるとすると、APEは 1 n
n
∑
i=1
{G(β1+ x′i2β2) − G(x′i2β2)} (21) として計算できる。
3.6 データの生成過程を 2 項選択モデルで表現できる経済学的モデル
確率的効用モデル 2項選択モデルに、経済学的なモデルによる理論的背景を立てることも できる。大学に行くかどうかの意思決定問題を考えよう。もし、iの人が大学に行くとする と、yi = 1とし、行かないならyi = 0とする。次のような経済学的モデルを考える。
• もし、iの人が大学に行くなら、次の効用を得るとする。
u1i= x′iβ1+ ϵ1i. (22) ここで、xiは大学に行くとこによる効用に影響を与える観測できる変数とし、ϵ1iは効
用に影響を与える他の要因からなるとする。
• 大学に行かないことから得られる効用も次のように定義する。
u0i= x′iβ0+ ϵ0i. (23)
• ϵ1iとϵi0は、同時に正規分布に従っているとする。
• 人々は効用最大化によって行動しているとする。 すると、yi= 1を観測する確率は、
Pr(yi= 1|xi) = Pr(u1i > u0i|xi) = Pr(ϵ0i− ϵ1i < x′i(β1− β0)) = Φ(x′iβ∗) (24) である。ここで、β∗= (β1− β0)/var(ϵ0i− ϵ1i)である。
つまり、確率的効用モデルによって人々の行動を記述できるとすると、データ生成過程は プロビットモデルで記述できる。またϵiの分布を適当に決めることにより、ロジットモデル を得ることもできる。
この結果は、2項選択モデルの係数を解釈する際に役に立つ。例えば、
• 係数の大きさそのものは、あまり意味がない。(効用はその大きさそのものには意味が ないので。)
• 係数は、ある変数が二つの選択肢それぞれから来る効用に与える影響の「差」として 解釈できる。
確率的効用モデルによる2項選択モデルの基礎付けは、近年広く使われている構造推定に おけるモデル構築の基礎をなすものであり、非常に重要である。
潜在変数モデル 潜在変数モデルにおいても、データ生成過程を2項選択モデルで記述でき る。ui ∼ N(0, 1)として
yi∗ = x′iβ + ui (25)
と定義する。yi∗それ自体は観察できないが、y∗i > 0であるかどうかは観測できるとする。 yi= 1{yi∗> 0}と定義すると、データ生成過程はプロビットモデルで記述できる。
• 潜在変数モデルは、効用の差それ自体をモデル化したものと考えることもできる。
• 潜在変数モデルが適切である例としては、所得は観測できないが、貧困状態にあるか どうかはわかる場合などである。
参考文献
[1] J. D. Angrist and J.-S. Pischke. Mostly Harmless Econometrics. Princeton University Press, 2008.
[2] E. Berndt, B. Hall, R. Hall, and J. Hausman. Estimation and inference in nonlinear structural models. Annals of Economic and Social Measurement, 3/4:563–665, 1974.
[3] W. K. Newey and D. McFadden. Large sample estimation and hypothesis testing. In R. F. Engle and D. L. McFadden, editors, Handbook of Econometrics, volume 4, chapter 36, pages 2111–2245. Elsevier, 1994.
[4] T. M. Stoker. Consistent estimation of scaled coefficients. Econometrica, 54:1461–1481, 1986. [5] H. White. Maximum likelihood estimation of misspecified models. Econometrica, 50(1):1–26,
1982.