二項選択モデル教育 OKUI, Ryo

(1)

平成²⁴年度ミクロ計量経済学講義ノート³ 二項選択モデル

被説明変数が2項変数である場合を考える。この場合、回帰関数は、被説明変数の予測値ではなく、被説明変数が1をとる確率を表していると解釈できる。この節では、線形確率モデル（線形回帰モデルのことである）、プロビットモデル、ロジットモデルを紹介し、また最尤法による推定を紹介する。

3.1 _{二項選択モデル}

経済学の実証分析では、被説明変数が2項変数である場合が多い。(yi, xi), i = 1, . . . , nというデータがあった時にyiが2項変数、つまりyi = 1あるいはyi = 0という二つの値しかとらない場合である。なお、1か0だけでなく、他の二つの値も考えられるかもしれないが、 1と0のみをとるとしても全く一般性を失わない。

経済学の実証分析では、x_iのy_iに与える影響をモデル化したいのであるが、ここでは、特に、Pr(y_i _{= 1|x}_i)のモデルを考え、その推定を考察する。つまり、2項選択モデルとは、被説明変数が2項変数であるときの、Pr(yi _{= 1|x}i)のモデルのことである。

3.2 _{線形確率モデル}

線形回帰モデルも2項選択モデルとして考えることができる。つまり、

Pr(yi _{= 1|x}i) = x^′_iβ (1)

とすると、Pr(yi _{= 1|x}i) = E(yi_|xi)であるので、これは、

y_i= x^′_iβ + u_i (2)

かつE(ui_|xi) = 0という、線形回帰モデルと同値になる。これを線形確率モデルという。

• x¹ⁱ^の係数を^β¹^{とすると、それは}^x¹を一単位変化させた時の、y = 1である確率の変化を表現していると考えることができる。

• 線形回帰モデルで使われた統計的手法は、線形確率モデルでも、特に問題なく使用することが可能である。また、線形回帰モデルにおける理論的結果もそのまま適用できる。

• ^ただ、^R²はそれほど意味をもたない。たとえば、被説明変数は2つの値しかとらないので、すべての観察点が回帰曲線上にあることはありえず、R² = 1であることはまずありえない。

線形確率モデルの問題点モデルから予測される確率は、⁰以下になったり、1以上になったりする。そのため、線形確率モデルを使用するとモデルからの結果の解釈が困難になる場合がある。また、2項選択モデルを使用して予測確率を計算し、それを他の統計手法を適用するときの材料に使うこともよくあり、その場合、予測確率が0と1の間に入らないと、その統計手法が使えない場合もある。

(2)

3.3 プロビット回帰とロジット回帰

2項選択モデルとしては、非線形モデルがよく用いられる。特に、パラメトリックな単一指標モデルが、よく使われており、プロビットモデルとロジットモデルはその代表例である。なお線形確率モデルもその一種だが、線形確率モデルが通常OLSで推定されるのに対し、プロビットモデルなどは最尤法によって推定される。

パラメトリックな単一指標モデルは、

Pr(yi_|xi) = G(x^′_iβ) (3)

と仮定するものである。_G(·)は既知の関数である。線形確率モデルならG(z) = zとなる。確率が0と1の間に入ることを保証するため、_G(·)として、分布関数を使う。

プロビットモデル Φ(·)を標準正規分布関数とすると、

Pr(yi_{= 1|x}i) = Φ(xiβ) (4)

として、Pr(y = 1|x)をモデル化するのが、プロビットモデルである。

ロジットモデル標準ロジスティック分布関数を使用した、条件付確率モデルをロジットモデルという。そのモデルでは、y_i = 1の条件付き確率は

Pr(yi _{= 1|x}i) = Λ(x^′_i_{β) ≡} ¹

1 + e^−x^′ⁱ^β ⁽⁵⁾

となる。

• ロジットモデルとプロビットモデルは非常に似通った結果をだす。

• 歴史的には、ロジットモデルは推定時の計算がプロビットモデルに比べて早いためによく使われてきた。ただ、現代の計算機では気にするほどの違いではない。

• モデルをもっと複雑にしていくと二つのモデルの利点には違いが出てくる。具体的には、2項選択ではなく、多項選択モデルを考えるとき、プロビットを拡張すると、色々な選択肢間の相関を簡単に表現できるが、推定量の計算が難しくなり、ロジットモデルを拡張した場合は、選択肢間の相関に制約を加えないとうまくモデル化できないが、計算は比較的容易になる。

線形確率モデルとプロビットやロジットモデルとの比較どのモデルを使うべきかについては、特に決まった答えがあるわけではない。どのモデルがもっともデータと整合的かを調べる統計手法は存在するが、それほど頻繁には使われていない。

ただ、Angrist and Pischke (2008)の意見は一考の価値がある。線形確率モデルを使って推定をした場合、たとえ真の条件付期待値が線形でなかったとしても、なんらかの意味のあるパラメーターを推定することができる。たとえば、回帰変数が2項変数の場合、OLS推定量は平均処置効果(E(y|X = 1) − E(y|X = 0))^{に収束する。また、}Stoker (1986)の結果によると、xが正規分布の場合には、線形確率モデルで、平均的なxの変化の効果を推定できる。しかし、プロビットやロジットの場合、もしモデルが間違っている場合には推定結果の解釈が難しくなる。したがって、線形確率モデルを使用するべきということである。

ただし、さきに見たとおり、線形確率モデルでは、確率としては不適切な値を確率の予測値をしてしまう可能性がある。

(3)

3.4 単一指標モデルの最尤推定

プロビットモデルやロジットモデルは、通常、最尤推定法を使用して、そのパラメーターを推定する。

Pr(yi_|xi) = G(x^′_iβ)^yⁱ_{(1 − G(x}^′_iβ))^1−yⁱ (6) であるので、(条件付き)対数尤度関数は、

Ln(β) = ¹ n

n

∑

i=1

{yⁱ^{log G(x}^′iβ) + (1 − yⁱ) log(1 − G(x^′iβ))} ⁽⁷⁾ である。

• ^なお、^xⁱ ^{の分布が、}^βに依存しないのなら、これを尤度として考えても問題はなく、通常そのように仮定する（xiは弱外生であるという）。そして、Ln(β)を最大化することによって、βの最尤推定量を得る。

• ただし、プロビットモデルの最尤推定量は明示的な式で書くことができない。したがって、尤度関数の最大化は数値計算で行う。多くの統計ソフトで自動的に行うことができる。

漸近的性質は、講義ノート1の結果を使用することで、証明できる。β^ˆ_nを最尤推定量とし、β0を真のパラメーターの値とする。また母数空間を_Bとする。

定理 ^1. ^(yi, xi), i = 1, . . . , nは^i.i.d.であるとする。_Bは凸集合であり、β0_は_B_{の内点であ}

るとする。_G(·)は分布関数であり、厳密に増加関数とする。_{log G(·)}とlog(1 − G(·))^は凹関数であるとする。またE(xix^′_i)は存在し非特異で有界であるとする。このとき、β^ˆn _→p β0

である。

証明^. 講義ノート1の定理3 (Newey and McFadden 1994, Theorem 2.7)を用いて証明する。まず、仮定により、β0は母数空間の内点である。次に、Ln(β)はlog Gなどが凹関数であることから、凹関数である。よって、β^ˆn= arg min(−Lⁿ^(β))^であり、−Lⁿ^(β)^{は凸関数と} なる。_Bは仮定により、凸集合。さらに、大数の法則により、βの各点において、

−Ln(β) →p −L(β) ≡ −E^(yi^{log G(x}^′iβ) + (1 − yi) log(1 − G(x^′i^β))

) (8)

である。ここで、E(xix^′_i)が非特異なので、もし_{β ̸= β}⁰なら、正の確率でx^′_i_{β ̸= x}^′_iβ0_であ

る。したがって、正の確率でG(x^′_i_{β) ̸= G(x}^′_iβ0)であり、_{1 − G(x}^′_iβ) ̸= 1 − G(x^′i^β⁰⁾^である。

これより、情報不等式を使うと、β0_が唯一の_−L(β)の最小詞であることがわかる。よって、定理3から、一致性が示せる。

定理^2. ^(yi, xi), i = 1, . . . , nはi.i.d.であるとする。_Bは凸集合であり、β0_は_B_{の内点であると}

する。_G(·)は分布関数であり、2回微分可能な厳密に増加関数とする。_{log G(·)}とlog(1−G(·)) は凹関数であるとする。またE(x_ix^′_i)は存在し非特異で有界であるとする。_g(·)を_G(·)の微分関数、またg^′_(·)を_g(·)の微分とする。ある定数Cがあって、|g(z)/(G(z)(1 − G(z)))| ≤ C|z| かつ、| − (g(z)/(G(z)(1 − G(z)))²^{+ g}^′(z)/(G(z)(1 − G(z)))| ≤ Cが成り立つ。このとき、

√n( ˆβ_n_{− β}0_{) →}_dN (

0, E

( (g(x^′_iβ))²x_ix^′_i G(x^′_i_{β)(1 − G(x}^′_iβ))

))

(9) である。

(4)

証明^. 講義ノート1の系5を用いて証明する。まず、先ほどの定理により、β^ˆnは一致性をもつ。次に定理の条件が満たされることを確認する。

f (yi, xi, β) = yilog G(x^′_iβ) + (1 − yⁱ) log(1 − G(x^′i^β)) ⁽¹⁰⁾

とする。β0_{は仮定により}_B_{の内点である。また、}_G(·)_が2回微分可能なので、f (y_i, x_i, β) も2回微分可能である。次に、

∂

∂β^{f (y}ⁱ^{, x}ⁱ^{, β) =}

y_ig(x^′_iβ) G(x^′_iβ) ^xⁱ⁻

(1 − yi^)g(x^′_i^β)

1 − G(x^′i^β)

x_i= ^(yⁱ^{− G(x}^′ⁱ^β))g(x^′ⁱ^β)

G(x^′_i_{β)(1 − G(x}^′_iβ))^xⁱ ⁽¹¹⁾ かつ、

∂²

∂ββ^′^{f (y}ⁱ^{, x}ⁱ^{, β) =} (

−

( y − G(x^′i^β)

G(x^′_i_{β)(1 − G(x}^′_iβ))^g(x

′i^β)

)²

+^(yⁱ^{− G(x}^′ⁱ^β))g^′^(x^′ⁱ^β) G(x^′_i_{β)(1 − G(x}^′_iβ))

)

xix^′_i (12)

となる。よって、Gに関する条件とE(xix^′_i)が有界であることから、押え込みの条件も満たされる。最後に、

E ( ∂²

∂ββ^′^{f (y}ⁱ^{, x}ⁱ^{, β)} )

= −E

( g(x^′_iβ)²

G(x^′_i_{β)(1 − G(x}^′_iβ))^xⁱ^x

′i

)

(13) となり、これが非特異であることも、Gの条件とE(xix^′_i)が非特異であることから従う。よって、漸近正規性は成り立ち、さらに情報等式から、定理の漸近分布がわかる。

プロビットやロジットでは、定理の_G(·)の条件が満たされることが分かっている。したがって、ブロビットやロジットでは、E(xix^′_i)の条件が満たされていれば、一致性と漸近正規性をもつ。

漸近分散の推定法漸近分散の推定量には、いくつかの方法がある。最も自然な方法は、 Vˆn= ¹

n

∑

i=1

g(x^′_iβ^ˆ_n)²

G(x^′_iβ^ˆ_n_{)(1 − G(x}^′_iβ^ˆ_n))^xⁱ^x

′i ⁽¹⁴⁾

として推定を行うものである。あるいは、

Hˆn= ¹ n

n

∑

i=1





( yi_{− G(x}^′_iβ^ˆn)

G(x^′_iβ^ˆn_{)(1 − G(x}^′_iβ^ˆn))^g(x

′i^β^ˆⁿ⁾

)²

− ^(yⁱ^{− G(x}^′ⁱ^β^ˆⁿ^))g^′^(x^′ⁱ^β^ˆⁿ⁾ G(x^′_iβ^ˆn_{)(1 − G(x}^′_iβ^ˆn))



xix^′_i (15) として、２次微分の式を、そのまま使用する方法も良く使われる。

また、２次微分の計算が難しい場合には、情報等式を使い、

Sˆn= ¹ n

n

∑

i=1

((yi_{− G(x}^′_iβ^ˆn))g(x^′_iβ^ˆn) G(x^′_iβ^ˆn_{)(1 − G(x}^′_iβ^ˆn))

)²

xix^′_i (16)

として、１次微分の外積を使用することも行われる。これは、BHHH (Berndt, Hall, Hall and Hausman (1974))推定量と呼ばれる。2次微分の式を導出するのが難しい場合にはこの推定量は有用であるが、それが比較的簡単に明示的に出るような場合には、避けたほうがよい。

(5)

さらには、頑健な推定量として、

Hˆ_n⁻¹S^ˆnH^ˆ_n⁻¹ (17)

というものもある。これは、例えば、モデルが間違っていることが疑われる場合に使われる。モデルが間違っている場合でも推定量は、それなりに意味のある母数に収束することがはあり(その収束先を疑似真値といい、推定量は疑似最尤推定量と呼ばれる。例えば、White

(1982)を見よ。)、その場合に備えた漸近分散推定量である。

3.5 x を変化させたときの影響

プロビットモデルなどはは非線形モデルである。したがって、ある回帰変数xを変化させたときの影響は、xの係数の値だけではとらえることができない。そのために、限界効果を計算することも多い。限界効果は次のように定義できる。

∂G(x^′_iβ)

∂xik

= g(x^′_iβ)β_k. (18)

しかし、限界効果は、xiの値に依存する。論文などで限界効果を掲載するときは、xiの平均あるいは中央値での限界効果を計算して掲載することが多い。x_iの平均での限界効果はPEA(partial effect at the average)と呼ばれ、次のように定義できる。

g(¯x^′β)β_k. (19)

また、限界効果の平均を計算することも良く行われる。これは、APE(average partial effect) と呼ばれ、

1 n

n

∑

i=1

g(x^′_iβ)βk (20)

と計算する。これらの標準誤差は、デルタ法あるいはブートストラップ法によって計算する。なお、xiが2項変数を含む時、それに対応する限界効果を微分によって計算するよりも、差分をとったものの方が適切であろう。x_iの第一要素が2項変数として、x^′_iβ = x_i1β1+x^′_i2β2

とかけるとすると、APEは 1 n

n

∑

i=1

{G(β1+ x^′_i2β2_{) − G(x}^′_i2β2)^} (21) として計算できる。

3.6 データの生成過程を 2 項選択モデルで表現できる経済学的モデル

確率的効用モデル ²項選択モデルに、経済学的なモデルによる理論的背景を立てることもできる。大学に行くかどうかの意思決定問題を考えよう。もし、iの人が大学に行くとすると、y_i = 1とし、行かないならy_i = 0とする。次のような経済学的モデルを考える。

• ^もし、ⁱの人が大学に行くなら、次の効用を得るとする。

u1_i= x^′_iβ1+ ϵ1_i. (22) ここで、xiは大学に行くとこによる効用に影響を与える観測できる変数とし、ϵ1_i_は効

用に影響を与える他の要因からなるとする。

(6)

• 大学に行かないことから得られる効用も次のように定義する。

u⁰i= x^′_iβ⁰+ ϵ⁰i. (23)

• ϵ¹ⁱ^と^ϵⁱ⁰は、同時に正規分布に従っているとする。

• 人々は効用最大化によって行動しているとする。すると、yi= 1を観測する確率は、

Pr(yi_{= 1|x}i) = Pr(u1_i > u0_i_|x_i) = Pr(ϵ0_i_{− ϵ}1_i < x^′_i(β1_{− β}0)) = Φ(x^′_iβ^∗⁾ (24) である。ここで、β^∗= (β¹_{− β}⁰)/var(ϵ⁰i_{− ϵ}¹i)である。

つまり、確率的効用モデルによって人々の行動を記述できるとすると、データ生成過程はプロビットモデルで記述できる。またϵiの分布を適当に決めることにより、ロジットモデルを得ることもできる。

この結果は、2項選択モデルの係数を解釈する際に役に立つ。例えば、

• 係数の大きさそのものは、あまり意味がない。（効用はその大きさそのものには意味がないので。）

• 係数は、ある変数が二つの選択肢それぞれから来る効用に与える影響の「差」として解釈できる。

確率的効用モデルによる2項選択モデルの基礎付けは、近年広く使われている構造推定におけるモデル構築の基礎をなすものであり、非常に重要である。

潜在変数モデル潜在変数モデルにおいても、データ生成過程を²項選択モデルで記述できる。ui _{∼ N(0, 1)}として

y_i^∗ = x^′_iβ + ui (25)

と定義する。y_i^∗それ自体は観察できないが、y^∗_i > 0であるかどうかは観測できるとする。 yi_{= 1{y}_i^∗_{> 0}}と定義すると、データ生成過程はプロビットモデルで記述できる。

• 潜在変数モデルは、効用の差それ自体をモデル化したものと考えることもできる。

• 潜在変数モデルが適切である例としては、所得は観測できないが、貧困状態にあるかどうかはわかる場合などである。

参考文献

[1] J. D. Angrist and J.-S. Pischke. Mostly Harmless Econometrics. Princeton University Press, 2008.

[2] E. Berndt, B. Hall, R. Hall, and J. Hausman. Estimation and inference in nonlinear structural models. Annals of Economic and Social Measurement, 3/4:563–665, 1974.

[3] W. K. Newey and D. McFadden. Large sample estimation and hypothesis testing. In R. F. Engle and D. L. McFadden, editors, Handbook of Econometrics, volume 4, chapter 36, pages 2111–2245. Elsevier, 1994.

[4] T. M. Stoker. Consistent estimation of scaled coefficients. Econometrica, 54:1461–1481, 1986. [5] H. White. Maximum likelihood estimation of misspecified models. Econometrica, 50(1):1–26,

1982.

二項選択モデル 教育 OKUI, Ryo

3.1 二項選択モデル

3.2 線形確率モデル