政策評価法教育 OKUI, Ryo

(1)

平成²⁵年度ミクロ計量経済学講義ノート^5: 政策評価法

このノートでは、政策評価(program evaluation)法の紹介を行う。政策評価法とは、ある処置(経済学では社会保障政策など、疫学では薬の投与など)の効果を測定するための統計手法のことである。その基礎となる理論の、他の計量経済学の理論モデルとの違いは、個人の異質性を考慮したモデルを明示的に考えていることである。この講義では、まず政策評価法の基礎となる反実仮想モデルを紹介し、政策効果の指標である平均処置効果を定義する。そして、平均処置効果の識別と推定法を、無作為化比較実験、無視可能性の満たされる場合、操作変数がある場合に、分けて紹介する。なお政策評価法はそのルーツが疫学統計にあるため、経済学上の応用からみると、あまり適切でない名称の概念や統計量も多い。このノートの議論は、教科書Wooldridge (2010)の21章によっている。

5.1 _モデル

はじめに、政策評価法の基礎となる反実仮想モデルを紹介する。これは、Rubinの因果モデルとも呼ばれる。

モデルで使用される変数を次のように定義していく。wを処置があるかどうかを示すダミー変数とする。つまり、

w=

{1 処置有り

0 処置なし ⁽¹⁾

と定義する。そして、y1を処置があるときの結果を示す値、y0を処置がないときの値とする。例えば、処置として、職業訓練とし、興味のある結果を賃金とすると、y1_{が職業訓練を}

受けた後の賃金、y0が職業訓練を受けなかったときの賃金となる。

現実には、処置は受けるか受けないかのどちらかであり、y1_とy0_{の両方とも観測する}

ことはできない。かわりに、

y= wy¹+ (1 − w)y⁰ (2)

を観測するとする。観測できるyから、y1_とy0に関する情報をいかに引き出すかが、政策評価法の論点になる。

政策評価法では、y1_とy0の分布の政策効果に関連する性質が識別可能であるか、さらにはそれらをいかにして推定するかという問題を考える。このノートでは、(y_i, w_i), i = 1, . . . , n という無作為標本を仮定する。識別問題とは、(y, w)の同時分布がわかっている状況で、 (y1, y0, w)の同時分布の性質を知ることができるかと言い換えることができる。

処置の効果を表す指標として特に良く使用されるのは、平均処置効果(average treatment effect, ATE)と、処置を受けた人の平均処置効果(average treatment effect on the treated, ATT)である。ATEは、

τ_ate = E(y¹− y⁰) (3)

と定義され、ATTは

τatt = E(y1− y0|w = 1) (4)

と定義される。これらの効果は、y1_とy0が直接は観測できないことから、追加的な仮定なしには、識別することはできず、推定もできない。以下では、識別を可能とする仮定を紹介し、その仮定の下で使用できる推定量を紹介する。

(2)

• τateとτ_attの関係は以下のようになる。

y0 = µ0+ v0 (5)

y1 = µ1+ v1 (6)

E(yg) = µg (h = 0, 1)とすると、

τate = µ1− µ0 (7)

τatt = µ1− µ0+ E(v1− v0|w = 1) (8) とかける。

5.2 _{無作為化比較実験}

無作為化比較実験(randomized controlled trial, RCT)とは、wを他の要素から完全に独立に決める実験のことである。このとき、(y1, y0)とwが独立になる。以下の議論は、厳密な意味でのRCTでなくとも、(y¹, y0₎_がwと独立であれば成り立つ。RCTは経済学上の応用では難しいことも多いが、近年では、特に開発経済学でのRCTの成功から刺激を受け、経済学の広い範囲で実際に行われている。

処置が無作為にきまるので、データから観測できるものは

E(y|w = 1) = E(y1|w = 1) = E(y1) (9) E(y|w = 0) = E(y0|w = 0) = E(y0) (10) となる。両式とも、最初の等号はyの定義から、二つめの等号は、RCTの仮定から成り立つ。

従って、

τate = E(y|w = 1) − E(y|w = 0) = τatt (11) としてATEもATTも識別できる。またATEとATTは同じになる。

推定は

1

#w = 1

∑

w=1

y_i− ¹

#{w = 0}

∑

w=0

y_i (12)

を推定量として使用することで可能である。

• 注: τattは、y0 _がwと独立なら、y1_とwが独立でなくとも、識別可能である。なぜなら、

E(y|w = 1) − E(y|w = 0) = E(y0|w = 1) − E(y0|w = 0) + τatt (13) なので、E(y⁰|w = 1) − E(y⁰|w = 0) = 0なら識別できる。

5.3 _{無視可能性}

(y0, y1)とwが独立でない場合でも、ATEやATTを識別できる条件として、無視可能性の仮定を紹介する。これは、RCTではないものの、観測できる変数に条件づけたときには、 RCTと考えることができるという条件である。処置が無作為であるというのは強い仮定であり、実験データ以外ではまず満たすことができない。一方で、無視可能性の仮定は、より現実的な仮定となっている。また、実際のRCTでも、被験者をグループ分けして、グループごとに処置確率を変えるなどして、厳密な意味でのRCTの仮定を満たさず、無視可能性の仮定を満たすようなRCTも存在する。

(3)

無視可能性(ignorability)の仮定とは、

w⊥(y0, y1)|X (14)

である。Xは観測可能な変数である。Xは制御変数と呼ばれる。また、この仮定は、「観測できる変数による選択」(selection on the obervables)とも呼ばれる。無視可能性の一つの解釈は、Xごとにグループをわけ、グループ内ではRCTを行っているというものである。

識別の議論をするために、Xごとに、変量の定義を行う。つまり、

µ0(X) = E(y0|X) (15)

µ1(X) = E(y1|X) (16)

とし、XごとのATEとATTを

τ_ate(X) = E(y1− y0|X) = µ1(X) − µ0(X) (17) τatt(X) = E(y1− y0|X, w = 1) (18) と定義する。

τate(X)とτatt(X)の識別は前と同じ議論で成り立つ。例えば、

E(y|X, w = 1) − E(y|X, w = 0) = E(y1|X) − E(y0|X) (19) であるので、τ_ate(X)は識別できる。さらにXで条件づけると(y0, y1)はwと独立であるので、τate(X) = τatt(X)となる。

τ_ate(X)あるいはτ_att(X)が識別可能であれば、その平均を取ることで、ATEあるいは、 ATTが識別可能となる。つまり、

τ_ate= E(τ_ate(X)) (20)

として、ATEを識別する。ATTは

τatt= E(τate(X)|w = 1) (21)

と識別できる。

しかし、τateやτattの識別のために、

0 < Pr(w = 1|X) < 1 (22)

という追加的な仮定が必要となる。この仮定をoverlapという。この仮定がないと、あるX についてはτate(X)が識別できない。なぜなら、τate(X)を計算するためには、Xの値と持つ個人の中で、処置を受けるものと、受けないものが存在する必要があるからである。なお、p(X) = Pr(w = 1|X)を傾向スコア(propensity score)という。

5.3.1 _{逆確率重み付け法}

無視可能性の元では、上で示した方法以外に、逆確率重み付け法という、別の識別のやり方がある。以下でこの識別法を紹介する。

まず、逆確率重み付けで、y1_やy0の条件付き期待値を識別することができることを確認する。

E ( wy

p(X)^|X )

= E^{( wy}¹ p(X)^|X

)

= ¹

p(X)^E(w|X)E(y¹^{|X) =} p(X)

p(X)^µ¹^{(X) = µ}¹^(X) ⁽²³⁾

(4)

である。同様に

E^{( (1 − w)y} 1 − p(X)^|X

)

= µ0(X) (24)

が成り立つ。したがって、

τ_ate(X) = E

( (w − p(X))y p(X)(1 − p(X))^|X

)

(25) となり、この平均をとることで、

τ_ate = E

( (w − p(X))y p(X)(1 − p(X))

)

(26) となり、ATEが識別できる。

τ_attの場合は、

τatt= E

( (w − p(X))y Pr(w = 1)(1 − p(X))

)

(27) と識別できる。なお、Pr(w = 1)は条件付きでない確率であることに注意する。なぜなら、

E( (w − p(X))y (1 − p(X)) ^|X

)

(28)

=E( (w − p(X))(y⁰+ w(y1− y0))) (1 − p(X)) ^|X

)

(29)

=E (w(y1− y0)|X) (30)

であり、ここで、

E(w(y1− y0)) (31)

= Pr(w = 0)E(w(y¹− y⁰)|w = 0) + Pr(w = 1)E(w(y¹− y⁰)|w = 1) (32)

= Pr(w = 1)τ_att (33)

となるからである。

5.4 無視可能性のもとでの推定

無視可能性の仮定の下での、平均処置効果の推定法は、二つあり、二つの識別の方法に対応している。それぞれ、回帰補正法(regression adjustment)と逆確率重み付け法(inverse probability weighting)と呼ばれる。

5.4.1 _{回帰補正法}

まず、^Xを条件づけた、^y¹や^y⁰の期待値を推定する。^m¹(X) = E(y|X, w = 1)かつ^m⁰(X) = E(y|X, w = 0)とし、これらの推定量をmˆ1(X), ˆm0(X)とする。m1(X)とm0(X)の推定は nonparametricにしてもよいし、parametric にしてもよい。

回帰補正推定量は

ˆ

τ_ate,reg = ¹ N

N

∑

i=1

( ˆm1(Xi) − ˆm0(Xi)) (34)

ˆ

τatt,reg = _∑_N¹

i=1^wⁱ N

∑

i=1

wi( ˆm1(Xi) − ˆm0(Xi)) (35) である。

ˆ

τ の標準誤差は

(5)

1. 漸近分散を導出して、それをもとに計算する。Delta法を使用することになる。 2. bootstrapを使用する。

おそらく、bootstrapによる方法がよく使用されている。

例^: 線形モデル例として、条件付き期待値が、線形モデルの場合を考える。

m1(X) = α1+ β1^′X (36)

m0(X) = α0+ β0^′X (37)

と仮定する。^m¹(X)は、^w= 1の観測値のみを使用して、^yを^Xに回帰して推定し、^m⁰(X) の推定には、w= 0の観測値のみを使用すると良い。

このとき回帰補正法は、 ˆ

τate,reg(X) = (ˆα1− ˆα0) + X^′( ˆβ1− ˆβ0) (38) であり、

ˆ

τ_ate,reg = ( ˆα1− ˆα0) + ¯X^′( ˆβ1− ˆβ0) (39) となる。

この推定量は、^yを1, w, X, w(X − ¯X)に回帰したときの^wの係数推定量である。なぜなら、

yi= a + bwi+ cXi+ dwi(Xi− ¯X) + ei= a + (b − d ¯X)wi+ cXi+ dwiXi+ ei (40) なので、

ˆb − ˆd ¯X = ˆα1− ˆα0 (41) かつ

ˆb = ˆα¹− ˆα0+ ¯X^′( ˆβ1− ˆβ0) (42) となるからである。

またτattの推定量は、X^¯w=1をw= 1である観測値のみを使用して計算したXの平均として、

ˆ

τatt,reg = ˆα1− ˆα0+ ¯X_w=1^′ ( ˆβ1− ˆβ0) (43) となる。

5.4.2 _{逆確率重み付け法}

次に、逆確率重み付けによるATEの推定法を紹介する。この方法は傾向スコア法とも呼ばれる。まず、p(X)ˆ を推定する。これは２項選択モデルの推定になる。p(X)ˆ の推定法は

• logit, probit (Rosenbaum and Rubin (1983))

• nonparametric (Hirano, Imbens and Ridder (2003))

(6)

などで行う。

逆確率重み付け推定量は、ATEは、

ˆ

τate,ipw= ¹ N

N

∑

i=1

( wiyi

ˆ p(X_i) ⁻

(1 − wi)yi

1 − ˆp(X_i) )

= ¹ N

N

∑

i=1

(wi− ˆp(Xi))yi

ˆ

p(X_i)(1 − ˆp(X_i)) ⁽⁴⁴⁾ であり、ATTは

ˆ

τ_att,ipw = ¹ N

N

∑

i=1

(wi− ˆp(Xi))yi

ˆ

p(1 − ˆp(Xi)) ⁽⁴⁵⁾

である。標準誤差は、回帰補正法と同じように、

1. 漸近分布による方法 2. bootstrap

の二つの方法で計算できる。やはり、bootstrapによる方法がよく使われる。

5.4.3 _{二重頑健法}

二重頑健(doubly robust)法とは、

• 条件付き期待値

• 傾向スコア

の二つのモデルのうち、どちらか一方が正しければ一致性を持つ推定法である。回帰補正法では、条件付き期待値の推定が必要であり、傾向スコア法では傾向スコアの推定が可能である。ノンパラメトリック推定をすれば、モデルの特定化の誤りはないが、Xの次元が大きい場合などでは、推定誤差が大きくなり、推定量も不安定になりがちである。そのため、通常は、簡便なモデルを仮定する。例えば、条件付き期待値の場合は線形モデル、傾向スコアの

場合はprobit、などがよく使用される。しかし、モデル化をするとモデルが間違っていた場

合にATEやATTの推定も誤りになる。その誤りの影響を減らすために、二重頑健法は開発された。

二重頑健法によるATEの推定は次の通りである。まず、傾向スコアのモデルとして、 p(X, γ)を仮定し、^γを推定し、p(X, ˆγ)を得る。次に条件付き期待のモデルの推定をする。ここでは、簡単化のために、線形モデルを仮定する。つまり、

αmin1,β1

N

∑

i=1

wi(yi− α1− X_i^′β1)²

p(X_i,γ)ˆ ⁽⁴⁶⁾

と

αmin0,β0

N

∑

i=1

(1 − wi)(yi− α⁰− X_i^′β0₎²

1 − p(Xi,γˆ) ⁽⁴⁷⁾

を解いて、α1, β1, α0, β0_{を推定する。そして、}

ˆ τ = ¹

N

∑

i=1

((ˆα1+ X_i^′β^ˆ1) − (ˆα0+ X_i^′β^ˆ0)⁾ (48)

として、ATEを推定する。

二重頑健になる理由は以下の通りである。

(7)

1. もし、E(y|X, w = 1) = α + X_i^′βなら、p(X, ˆγ)による重み付けに関わりなく、α_a, β_a, a= 1, 0は一致推定量。

2. もし、傾向スコアのモデルが正しいなら、E(y¹) = E(α^∗1+ β1^∗X_i)となる。なぜなら、

αmin1,β1

N

∑

i=1

w_i(y_i− α1− X_i^′β1)²

p(Xi^,ˆγ) ⁽⁴⁹⁾

を最小化するのは、E((y1− α1− X_i^′β1)²)を最小化する^α¹^{, β}¹と同じである。つまり、一次の条件から、E(y1) = E(α^∗1+ β1^∗Xi)となる。

5.5 _{操作変数法}

操作変数とは、処置の選択には影響を与えるが、結果には直接の影響は与えない変数のことである。つまり、結果に対して処置の選択を通してのみ影響を与えるような変数のことである。はじめに、操作変数として比較的現実的な仮定の下で識別できる局所的平均処置効果についての議論をする。その次に、操作変数を用いた平均処置効果の推定とそのために必要な追加的条件について議論する。

5.5.1 _{局所的平均処置効果}

操作変数の通常の仮定のもとでは、局所的平均処置効果(local average treatment effect, LATE)と呼ばれる効果が識別可能となる (Imbens and Angrist, 1994)。ATEそのものは追加的条件なしには識別できない。LATEは、操作変数の変化によって処置が変わるような人にとっての平均効果である。LATEが政策上重要な数値かどうかは、状況に依存する。

まず、操作変数の満たすべき条件を述べる。zを操作変数とし、ここでは、zが２項変数の場合を考える。w1_とw0_{をそれぞれ}zが1の場合0の場合のwの値とする。y1_とy0_は前

と同じように、wの値ごとの結果の値とする。なお、この表記で、zは結果に直接の影響を与えていないという仮定を暗黙のうちにしている。操作変数の満たすべき仮定は、

1. z⊥(y⁰, y1, w0, w1₎_、₍_外生性₎

2. Pr(w1 ̸= w0) ̸= 0、(関連性) 3. w¹ ≥ w⁰ (単調性)

の三つである。なお、単調性は、通常の操作変数の定義には入ってこないものであるが、この仮定がないと、LATEの識別はできない。

LATEとは、

τ_{LAT E} = E(y¹− y⁰|w¹− w⁰= 1) (50)

である。なお、^w¹− w0 = 1は^w¹= 1かつ^w⁰ = 0、あるいは、^w¹^{> w}⁰と同じである。これは、操作変数の値によって処置を受けるかどうかが変化するような人にとっての平均的な処置の効果である。

LATEの識別は以下のように行う。まず、

w = (1 − z)w0+ xw1 = w0+ z(w1− w0) (51)

y = y0+ w(y1− y0) (52)

であるので、

y= y0+ w(y1− y0) = y0+ w0(y1− y0) + z(w1− w0)(y1− y0) (53)

(8)

となる。したがって、

E(y|z = 1) = E(y0) + E(w0(y1− y0)) + E((w1− w0)(y1− y0)) (54) E(y|z = 0) = E(y0) + E(w0(y1− y0)) (55) となるので、

E(y|z = 1) − E(y|z = 0) (56)

= E((w1− w0)(y1− y0)) (57)

= E(y1− y0|w1 > w0) Pr(w1> w0) + (−1)E(y1− y0|w1 < w0) Pr(w1 < w0) (58) となる。単調性w1 ≥ w0_{の仮定により、}

E(y|z = 1) − E(y|z = 0) = E(y1− y0|w1 > w0) Pr(w1> w0) (59) である。関連性の仮定により、Pr(w¹> w0₎_{で割ることができて、}

τ_{LAT E}= E(y|z = 1) − E(y|z = 0) Pr(w¹− w⁰ = 1) ⁼

E(y|z = 1) − E(y|z = 0)

E(w|z = 1) − E(w|z = 0) ⁽⁶⁰⁾ として、LATEの識別ができる。

推定は、

y= δ⁰+ τ w + e (61)

という線形モデルを、wの操作変数にzを用いた操作変数推定を行うことでできる。

• LATEこそが経済学の応用上重要なパラメーターである一例として需要と供給の推定

を紹介する。簡単化のために、2つしか取りうる価格はなく、^w = 1の場合は価格が高くw= 0の場合は価格が低いとする。yは市場で取引される数量であるとする。この場合、τ_ate = E(y1− y0)にはあまり意味はない。なぜなら、価格と数量は市場では同時決定されるため、価格が高い場合の数量と低い場合の数量の比較そのものには意味がないからである。

一方、LATEには経済学上重要な意味を持つことがあり、特にLATEが需要関数の傾きや供給関数の傾きを表す場合がある。例えば、zとして生産費用に影響を与える変数とする。このとき、τlate= E(y1− y0|w1− w0 = 1)とは、生産費用の変化によって価格の変化が起こる場合の数量の平均的な変化である。生産費用の変化による価格の変化では、供給曲線は動くが需要曲線は変化しない。そのため、LATEは需要曲線の傾きを表現すると考えることができる。同様にzとして需要構造にのみ影響を与える変数をとると、LATEは供給曲線の傾きを表すと考えることができる。

この例から、LATEは使用する操作変数によって、その意味するところも大きくかわることがわかる。また2SLSが使用する操作変数によって、異なる推定値を返す理由も明確になる。例えば、需要と供給の例では、使用する操作変数によって、推定値の符号すら代わるわけであるが、その理由もLATEの議論をふまえれば、自然に解釈できるであろう。

5.5.2 操作変数を用いた平均処置効果の推定

次に、操作変数を用いた、平均処置効果の推定を紹介する。まず、y1= µ1+v1_かつy0 = µ0+v0

と表記し、µは平均を表すとする。操作変数モデルでは、

y = µ0+ (µ1− µ0)w + v0+ w(v1− v0) (62) とかける。

操作変数を用いて、ATEを識別するために必要な仮定は、

(9)

1. v¹ = v⁰

2. 外生性: L(v0|x, z) = L(v0|x) 3. 関連性: L(w|x, z) ̸= L(w|x)

である。Lは線形射影を返す関数である。xという変数が利用できる場合も想定している。 v1 _{= v}0という仮定が、重要である。この仮定のもとで、(62)において誤差項からwを消すことができるので、wと相関はあるが誤差項とは相関のない変数の存在が可能になるのである。さて、実際の推定は、

y = δ⁰+ τ w + x^′β0_{+ u}0 ₍₆₃₎

先の方法では、v1 _{= v}0という仮定をしたが、この仮定は非常に厳しい。しかし、この仮定を無視可能性と似た少し弱い仮定で置き換えることも可能である。

E(v0|x, z) = E(v0|x), E(v1|x, z) = E(v1|x) (64) と仮定する。g1_{(x) = E(v}1_|x)_かつg0_{(x) = E(v}0_|x)_{と表記する。また、}e1 _{= v}1_{− g}1_(x)_か

つe0= v0− g0(x)と表記する。すると、

y= µ0+ τ w + g0(x) + w(g1(x) − g0(x)) + e0+ w(e1− e0) (65) と書くことができる。したがって、

• e¹ = e⁰

と仮定すると、ATEの識別が可能になる。

推定は、通常の2SLSで可能である。g1(x) − g0(x) = (x − E(x))^′δを仮定する。このとき、

y_i = γ + τ wi+ x^′_iβ+ (wi(xi− ¯x))^′δ+ e (66) として、wにzを操作変数として用いて推定したτ がATEの推定量になる。

References

[1] K. Hirano, G. W. Imbens, and G. Ridder. Efficient estimation of average treatment effects using the estimated propensity score. Econometrica, 71(4):1161–1189, 2003.

[2] G. W. Imbens and J. D. Angrist. Identification and estimation of local average treatment effects. Econometrica, 62(2):467–475, 1994.

[3] P. Rosenbaum and D. Rubin. The central role of the propensity score in observational studies for causal effects. Biometrika, 70:41–55, 1983.

[4] J. M. Wooldridge. Econometric analysis of cross section and panel data. The MIT press, second edition, 2010.

政策評価法 教育 OKUI, Ryo

References

政策評価法教育 OKUI, Ryo