平成25年度 ミクロ計量経済学 講義ノート5: 政策評価法
このノートでは、政策評価(program evaluation)法の紹介を行う。政策評価法とは、あ る処置(経済学では社会保障政策など、疫学では薬の投与など)の効果を測定するための統 計手法のことである。その基礎となる理論の、他の計量経済学の理論モデルとの違いは、個 人の異質性を考慮したモデルを明示的に考えていることである。この講義では、まず政策評 価法の基礎となる反実仮想モデルを紹介し、政策効果の指標である平均処置効果を定義す る。そして、平均処置効果の識別と推定法を、無作為化比較実験、無視可能性の満たされる 場合、操作変数がある場合に、分けて紹介する。なお政策評価法はそのルーツが疫学統計に あるため、経済学上の応用からみると、あまり適切でない名称の概念や統計量も多い。この ノートの議論は、教科書Wooldridge (2010)の21章によっている。
5.1 モデル
はじめに、政策評価法の基礎となる反実仮想モデルを紹介する。これは、Rubinの因果モデ ルとも呼ばれる。
モデルで使用される変数を次のように定義していく。wを処置があるかどうかを示すダ ミー変数とする。つまり、
w=
{1 処置有り
0 処置なし (1)
と定義する。そして、y1を処置があるときの結果を示す値、y0を処置がないときの値とす る。例えば、処置として、職業訓練とし、興味のある結果を賃金とすると、y1が職業訓練を
受けた後の賃金、y0が職業訓練を受けなかったときの賃金となる。
現実には、処置は受けるか受けないかのどちらかであり、y1とy0の両方とも観測する
ことはできない。かわりに、
y= wy1+ (1 − w)y0 (2)
を観測するとする。観測できるyから、y1とy0に関する情報をいかに引き出すかが、政策 評価法の論点になる。
政策評価法では、y1とy0の分布の政策効果に関連する性質が識別可能であるか、さらには それらをいかにして推定するかという問題を考える。このノートでは、(yi, wi), i = 1, . . . , n という無作為標本を仮定する。識別問題とは、(y, w)の同時分布がわかっている状況で、 (y1, y0, w)の同時分布の性質を知ることができるかと言い換えることができる。
処置の効果を表す指標として特に良く使用されるのは、平均処置効果(average treatment effect, ATE)と、処置を受けた人の平均処置効果(average treatment effect on the treated, ATT)である。ATEは、
τate = E(y1− y0) (3)
と定義され、ATTは
τatt = E(y1− y0|w = 1) (4)
と定義される。これらの効果は、y1とy0が直接は観測できないことから、追加的な仮定な しには、識別することはできず、推定もできない。以下では、識別を可能とする仮定を紹介 し、その仮定の下で使用できる推定量を紹介する。
• τateとτattの関係は以下のようになる。
y0 = µ0+ v0 (5)
y1 = µ1+ v1 (6)
E(yg) = µg (h = 0, 1)とすると、
τate = µ1− µ0 (7)
τatt = µ1− µ0+ E(v1− v0|w = 1) (8) とかける。
5.2 無作為化比較実験
無作為化比較実験(randomized controlled trial, RCT)とは、wを他の要素から完全に独立 に決める実験のことである。このとき、(y1, y0)とwが独立になる。以下の議論は、厳密な 意味でのRCTでなくとも、(y1, y0)がwと独立であれば成り立つ。RCTは経済学上の応用 では難しいことも多いが、近年では、特に開発経済学でのRCTの成功から刺激を受け、経 済学の広い範囲で実際に行われている。
処置が無作為にきまるので、データから観測できるものは
E(y|w = 1) = E(y1|w = 1) = E(y1) (9) E(y|w = 0) = E(y0|w = 0) = E(y0) (10) となる。両式とも、最初の等号はyの定義から、二つめの等号は、RCTの仮定から成り立つ。
従って、
τate = E(y|w = 1) − E(y|w = 0) = τatt (11) としてATEもATTも識別できる。またATEとATTは同じになる。
推定は
1
#w = 1
∑
w=1
yi− 1
#{w = 0}
∑
w=0
yi (12)
を推定量として使用することで可能である。
• 注: τattは、y0 がwと独立なら、y1とwが独立でなくとも、識別可能である。なぜ なら、
E(y|w = 1) − E(y|w = 0) = E(y0|w = 1) − E(y0|w = 0) + τatt (13) なので、E(y0|w = 1) − E(y0|w = 0) = 0なら識別できる。
5.3 無視可能性
(y0, y1)とwが独立でない場合でも、ATEやATTを識別できる条件として、無視可能性の 仮定を紹介する。これは、RCTではないものの、観測できる変数に条件づけたときには、 RCTと考えることができるという条件である。処置が無作為であるというのは強い仮定で あり、実験データ以外ではまず満たすことができない。一方で、無視可能性の仮定は、より 現実的な仮定となっている。また、実際のRCTでも、被験者をグループ分けして、グルー プごとに処置確率を変えるなどして、厳密な意味でのRCTの仮定を満たさず、無視可能性 の仮定を満たすようなRCTも存在する。
無視可能性(ignorability)の仮定とは、
w⊥(y0, y1)|X (14)
である。Xは観測可能な変数である。Xは制御変数と呼ばれる。また、この仮定は、「観測 できる変数による選択」(selection on the obervables)とも呼ばれる。無視可能性の一つの 解釈は、Xごとにグループをわけ、グループ内ではRCTを行っているというものである。
識別の議論をするために、Xごとに、変量の定義を行う。つまり、
µ0(X) = E(y0|X) (15)
µ1(X) = E(y1|X) (16)
とし、XごとのATEとATTを
τate(X) = E(y1− y0|X) = µ1(X) − µ0(X) (17) τatt(X) = E(y1− y0|X, w = 1) (18) と定義する。
τate(X)とτatt(X)の識別は前と同じ議論で成り立つ。例えば、
E(y|X, w = 1) − E(y|X, w = 0) = E(y1|X) − E(y0|X) (19) であるので、τate(X)は識別できる。さらにXで条件づけると(y0, y1)はwと独立であるの で、τate(X) = τatt(X)となる。
τate(X)あるいはτatt(X)が識別可能であれば、その平均を取ることで、ATEあるいは、 ATTが識別可能となる。つまり、
τate= E(τate(X)) (20)
として、ATEを識別する。ATTは
τatt= E(τate(X)|w = 1) (21)
と識別できる。
しかし、τateやτattの識別のために、
0 < Pr(w = 1|X) < 1 (22)
という追加的な仮定が必要となる。この仮定をoverlapという。この仮定がないと、あるX についてはτate(X)が識別できない。なぜなら、τate(X)を計算するためには、Xの値と持 つ個人の中で、処置を受けるものと、受けないものが存在する必要があるからである。な お、p(X) = Pr(w = 1|X)を傾向スコア(propensity score)という。
5.3.1 逆確率重み付け法
無視可能性の元では、上で示した方法以外に、逆確率重み付け法という、別の識別のやり方 がある。以下でこの識別法を紹介する。
まず、逆確率重み付けで、y1やy0の条件付き期待値を識別することができることを確 認する。
E ( wy
p(X)|X )
= E( wy1 p(X)|X
)
= 1
p(X)E(w|X)E(y1|X) = p(X)
p(X)µ1(X) = µ1(X) (23)
である。同様に
E( (1 − w)y 1 − p(X)|X
)
= µ0(X) (24)
が成り立つ。したがって、
τate(X) = E
( (w − p(X))y p(X)(1 − p(X))|X
)
(25) となり、この平均をとることで、
τate = E
( (w − p(X))y p(X)(1 − p(X))
)
(26) となり、ATEが識別できる。
τattの場合は、
τatt= E
( (w − p(X))y Pr(w = 1)(1 − p(X))
)
(27) と識別できる。なお、Pr(w = 1)は条件付きでない確率であることに注意する。なぜなら、
E( (w − p(X))y (1 − p(X)) |X
)
(28)
=E( (w − p(X))(y0+ w(y1− y0))) (1 − p(X)) |X
)
(29)
=E (w(y1− y0)|X) (30)
であり、ここで、
E(w(y1− y0)) (31)
= Pr(w = 0)E(w(y1− y0)|w = 0) + Pr(w = 1)E(w(y1− y0)|w = 1) (32)
= Pr(w = 1)τatt (33)
となるからである。
5.4 無視可能性のもとでの推定
無視可能性の仮定の下での、平均処置効果の推定法は、二つあり、二つの識別の方法に対 応している。それぞれ、回帰補正法(regression adjustment)と逆確率重み付け法(inverse probability weighting)と呼ばれる。
5.4.1 回帰補正法
まず、Xを条件づけた、y1やy0の期待値を推定する。m1(X) = E(y|X, w = 1)かつm0(X) = E(y|X, w = 0)とし、これらの推定量をmˆ1(X), ˆm0(X)とする。m1(X)とm0(X)の推定は nonparametricにしてもよいし、parametric にしてもよい。
回帰補正推定量は
ˆ
τate,reg = 1 N
N
∑
i=1
( ˆm1(Xi) − ˆm0(Xi)) (34)
ˆ
τatt,reg = ∑N1
i=1wi N
∑
i=1
wi( ˆm1(Xi) − ˆm0(Xi)) (35) である。
ˆ
τ の標準誤差は
1. 漸近分散を導出して、それをもとに計算する。Delta法を使用することになる。 2. bootstrapを使用する。
おそらく、bootstrapによる方法がよく使用されている。
例: 線形モデル 例として、条件付き期待値が、線形モデルの場合を考える。
m1(X) = α1+ β1′X (36)
m0(X) = α0+ β0′X (37)
と仮定する。m1(X)は、w= 1の観測値のみを使用して、yをXに回帰して推定し、m0(X) の推定には、w= 0の観測値のみを使用すると良い。
このとき回帰補正法は、 ˆ
τate,reg(X) = (ˆα1− ˆα0) + X′( ˆβ1− ˆβ0) (38) であり、
ˆ
τate,reg = ( ˆα1− ˆα0) + ¯X′( ˆβ1− ˆβ0) (39) となる。
この推定量は、yを1, w, X, w(X − ¯X)に回帰したときのwの係数推定量である。なぜ なら、
yi= a + bwi+ cXi+ dwi(Xi− ¯X) + ei= a + (b − d ¯X)wi+ cXi+ dwiXi+ ei (40) なので、
ˆb − ˆd ¯X = ˆα1− ˆα0 (41) かつ
ˆb = ˆα1− ˆα0+ ¯X′( ˆβ1− ˆβ0) (42) となるからである。
またτattの推定量は、X¯w=1をw= 1である観測値のみを使用して計算したXの平均と して、
ˆ
τatt,reg = ˆα1− ˆα0+ ¯Xw=1′ ( ˆβ1− ˆβ0) (43) となる。
5.4.2 逆確率重み付け法
次に、逆確率重み付けによるATEの推定法を紹介する。この方法は傾向スコア法とも呼ば れる。まず、p(X)ˆ を推定する。これは2項選択モデルの推定になる。p(X)ˆ の推定法は
• logit, probit (Rosenbaum and Rubin (1983))
• nonparametric (Hirano, Imbens and Ridder (2003))
などで行う。
逆確率重み付け推定量は、ATEは、
ˆ
τate,ipw= 1 N
N
∑
i=1
( wiyi
ˆ p(Xi) −
(1 − wi)yi
1 − ˆp(Xi) )
= 1 N
N
∑
i=1
(wi− ˆp(Xi))yi
ˆ
p(Xi)(1 − ˆp(Xi)) (44) であり、ATTは
ˆ
τatt,ipw = 1 N
N
∑
i=1
(wi− ˆp(Xi))yi
ˆ
p(1 − ˆp(Xi)) (45)
である。標準誤差は、回帰補正法と同じように、
1. 漸近分布による方法 2. bootstrap
の二つの方法で計算できる。やはり、bootstrapによる方法がよく使われる。
5.4.3 二重頑健法
二重頑健(doubly robust)法とは、
• 条件付き期待値
• 傾向スコア
の二つのモデルのうち、どちらか一方が正しければ一致性を持つ推定法である。回帰補正法 では、条件付き期待値の推定が必要であり、傾向スコア法では傾向スコアの推定が可能であ る。ノンパラメトリック推定をすれば、モデルの特定化の誤りはないが、Xの次元が大きい 場合などでは、推定誤差が大きくなり、推定量も不安定になりがちである。そのため、通常 は、簡便なモデルを仮定する。例えば、条件付き期待値の場合は線形モデル、傾向スコアの
場合はprobit、などがよく使用される。しかし、モデル化をするとモデルが間違っていた場
合にATEやATTの推定も誤りになる。その誤りの影響を減らすために、二重頑健法は開 発された。
二重頑健法によるATEの推定は次の通りである。まず、傾向スコアのモデルとして、 p(X, γ)を仮定し、γを推定し、p(X, ˆγ)を得る。次に条件付き期待のモデルの推定をする。 ここでは、簡単化のために、線形モデルを仮定する。つまり、
αmin1,β1
N
∑
i=1
wi(yi− α1− Xi′β1)2
p(Xi,γ)ˆ (46)
と
αmin0,β0
N
∑
i=1
(1 − wi)(yi− α0− Xi′β0)2
1 − p(Xi,γˆ) (47)
を解いて、α1, β1, α0, β0を推定する。そして、
ˆ τ = 1
N
N
∑
i=1
((ˆα1+ Xi′βˆ1) − (ˆα0+ Xi′βˆ0)) (48)
として、ATEを推定する。
二重頑健になる理由は以下の通りである。
1. もし、E(y|X, w = 1) = α + Xi′βなら、p(X, ˆγ)による重み付けに関わりなく、αa, βa, a= 1, 0は一致推定量。
2. もし、傾向スコアのモデルが正しいなら、E(y1) = E(α∗1+ β1∗Xi)となる。なぜなら、
αmin1,β1
N
∑
i=1
wi(yi− α1− Xi′β1)2
p(Xi,ˆγ) (49)
を最小化するのは、E((y1− α1− Xi′β1)2)を最小化するα1, β1と同じである。つまり、 一次の条件から、E(y1) = E(α∗1+ β1∗Xi)となる。
5.5 操作変数法
操作変数とは、処置の選択には影響を与えるが、結果には直接の影響は与えない変数のこと である。つまり、結果に対して処置の選択を通してのみ影響を与えるような変数のことであ る。はじめに、操作変数として比較的現実的な仮定の下で識別できる局所的平均処置効果に ついての議論をする。その次に、操作変数を用いた平均処置効果の推定とそのために必要な 追加的条件について議論する。
5.5.1 局所的平均処置効果
操作変数の通常の仮定のもとでは、局所的平均処置効果(local average treatment effect, LATE)と呼ばれる効果が識別可能となる (Imbens and Angrist, 1994)。ATEそのものは追 加的条件なしには識別できない。LATEは、操作変数の変化によって処置が変わるような人 にとっての平均効果である。LATEが政策上重要な数値かどうかは、状況に依存する。
まず、操作変数の満たすべき条件を述べる。zを操作変数とし、ここでは、zが2項変数 の場合を考える。w1とw0をそれぞれzが1の場合0の場合のwの値とする。y1とy0は前
と同じように、wの値ごとの結果の値とする。なお、この表記で、zは結果に直接の影響を 与えていないという仮定を暗黙のうちにしている。操作変数の満たすべき仮定は、
1. z⊥(y0, y1, w0, w1)、(外生性)
2. Pr(w1 ̸= w0) ̸= 0、(関連性) 3. w1 ≥ w0 (単調性)
の三つである。なお、単調性は、通常の操作変数の定義には入ってこないものであるが、こ の仮定がないと、LATEの識別はできない。
LATEとは、
τLAT E = E(y1− y0|w1− w0= 1) (50)
である。なお、w1− w0 = 1はw1= 1かつw0 = 0、あるいは、w1> w0と同じである。こ れは、操作変数の値によって処置を受けるかどうかが変化するような人にとっての平均的な 処置の効果である。
LATEの識別は以下のように行う。まず、
w = (1 − z)w0+ xw1 = w0+ z(w1− w0) (51)
y = y0+ w(y1− y0) (52)
であるので、
y= y0+ w(y1− y0) = y0+ w0(y1− y0) + z(w1− w0)(y1− y0) (53)
となる。したがって、
E(y|z = 1) = E(y0) + E(w0(y1− y0)) + E((w1− w0)(y1− y0)) (54) E(y|z = 0) = E(y0) + E(w0(y1− y0)) (55) となるので、
E(y|z = 1) − E(y|z = 0) (56)
= E((w1− w0)(y1− y0)) (57)
= E(y1− y0|w1 > w0) Pr(w1> w0) + (−1)E(y1− y0|w1 < w0) Pr(w1 < w0) (58) となる。単調性w1 ≥ w0の仮定により、
E(y|z = 1) − E(y|z = 0) = E(y1− y0|w1 > w0) Pr(w1> w0) (59) である。関連性の仮定により、Pr(w1> w0)で割ることができて、
τLAT E= E(y|z = 1) − E(y|z = 0) Pr(w1− w0 = 1) =
E(y|z = 1) − E(y|z = 0)
E(w|z = 1) − E(w|z = 0) (60) として、LATEの識別ができる。
推定は、
y= δ0+ τ w + e (61)
という線形モデルを、wの操作変数にzを用いた操作変数推定を行うことでできる。
• LATEこそが経済学の応用上重要なパラメーターである一例として需要と供給の推定
を紹介する。簡単化のために、2つしか取りうる価格はなく、w = 1の場合は価格が 高くw= 0の場合は価格が低いとする。yは市場で取引される数量であるとする。こ の場合、τate = E(y1− y0)にはあまり意味はない。なぜなら、価格と数量は市場では 同時決定されるため、価格が高い場合の数量と低い場合の数量の比較そのものには意 味がないからである。
一方、LATEには経済学上重要な意味を持つことがあり、特にLATEが需要関数の傾 きや供給関数の傾きを表す場合がある。例えば、zとして生産費用に影響を与える変 数とする。このとき、τlate= E(y1− y0|w1− w0 = 1)とは、生産費用の変化によって 価格の変化が起こる場合の数量の平均的な変化である。生産費用の変化による価格の 変化では、供給曲線は動くが需要曲線は変化しない。そのため、LATEは需要曲線の 傾きを表現すると考えることができる。同様にzとして需要構造にのみ影響を与える 変数をとると、LATEは供給曲線の傾きを表すと考えることができる。
この例から、LATEは使用する操作変数によって、その意味するところも大きくかわ ることがわかる。また2SLSが使用する操作変数によって、異なる推定値を返す理由 も明確になる。例えば、需要と供給の例では、使用する操作変数によって、推定値の 符号すら代わるわけであるが、その理由もLATEの議論をふまえれば、自然に解釈で きるであろう。
5.5.2 操作変数を用いた平均処置効果の推定
次に、操作変数を用いた、平均処置効果の推定を紹介する。まず、y1= µ1+v1かつy0 = µ0+v0
と表記し、µは平均を表すとする。操作変数モデルでは、
y = µ0+ (µ1− µ0)w + v0+ w(v1− v0) (62) とかける。
操作変数を用いて、ATEを識別するために必要な仮定は、
1. v1 = v0
2. 外生性: L(v0|x, z) = L(v0|x) 3. 関連性: L(w|x, z) ̸= L(w|x)
である。Lは線形射影を返す関数である。xという変数が利用できる場合も想定している。 v1 = v0という仮定が、重要である。この仮定のもとで、(62)において誤差項からwを消す ことができるので、wと相関はあるが誤差項とは相関のない変数の存在が可能になるので ある。さて、実際の推定は、
y = δ0+ τ w + x′β0+ u0 (63)
をwにzを操作変数として当て、2SLSで推定する。ここで、x′β0= L(v0|x)であり、u0 = v0− L(v0|x)である。また、zそのものではなく、Pr(w = 1|x, z)を推定して、Gˆiを操作変 数として使う方が推定の精度が高まることが多い。なお、Pr(w = 1|x, z)のモデルが間違っ ていても、操作変数としては正しいので、Pr(w = 1|x, z)のモデルは、簡便なprobitなどを 用いるとよい。
先の方法では、v1 = v0という仮定をしたが、この仮定は非常に厳しい。しかし、この 仮定を無視可能性と似た少し弱い仮定で置き換えることも可能である。
E(v0|x, z) = E(v0|x), E(v1|x, z) = E(v1|x) (64) と仮定する。g1(x) = E(v1|x)かつg0(x) = E(v0|x)と表記する。また、e1 = v1− g1(x)か
つe0= v0− g0(x)と表記する。すると、
y= µ0+ τ w + g0(x) + w(g1(x) − g0(x)) + e0+ w(e1− e0) (65) と書くことができる。したがって、
• e1 = e0
と仮定すると、ATEの識別が可能になる。
推定は、通常の2SLSで可能である。g1(x) − g0(x) = (x − E(x))′δを仮定する。この とき、
yi = γ + τ wi+ x′iβ+ (wi(xi− ¯x))′δ+ e (66) として、wにzを操作変数として用いて推定したτ がATEの推定量になる。
References
[1] K. Hirano, G. W. Imbens, and G. Ridder. Efficient estimation of average treatment effects using the estimated propensity score. Econometrica, 71(4):1161–1189, 2003.
[2] G. W. Imbens and J. D. Angrist. Identification and estimation of local average treatment effects. Econometrica, 62(2):467–475, 1994.
[3] P. Rosenbaum and D. Rubin. The central role of the propensity score in observational studies for causal effects. Biometrika, 70:41–55, 1983.
[4] J. M. Wooldridge. Econometric analysis of cross section and panel data. The MIT press, second edition, 2010.