操作変数法

(1)

操作変数法

(2)

誤差項と説明変数の相関

• 説明変数の誤差

• 説明変数から省かれた変数の影響誤差項

• 説明変数が内生変数であるとき

– 連立方程式モデル

---• 誤差項と説明変数の間に相関がある場合には，

係数の推定値はバイアスを持つ

(3)

説明変数の誤差

i i i

x

u

y









*



 

v

u

v

i

j

v

x

j i i i i i

,

all

for

0 )

,

cov(

,

0 E

*







真のモデル

説明変数x

_i

*は観察できない：そのかわりx

_i

が観察できる









i i i i i i i i i

w

x

v

u

x

u

v

x

y































誤差項w

_i

の期待値は0，分散は一定。しかし，w

_i

とx

_i

には相

関がある（次ページ参照）

(4)

説明変数の誤差(2)

• 説明変数の誤差誤差項と説明変数の相関

OLS推定量はバイアスがある

• 最少二乗推定量

• 特に単回帰の場合

w

X

y

X

b



(

'

)

1

'







(

'

)

1

'

















































2 2 * 2 * 2 2 * 2 * *

)

var(

)

,

cov(

)

var(

)

,

cov(

plim

v x x v x v

v

x

v

u

v

x

w

x

b

(5)

説明変数の誤差(3)

• 例）恒常所得仮説

 

0 ,

cov



,



cov



,



0 E











i T i T i P i T i T i P i i i P i i

u

Y

u

kY

C

Y：観察される所得， Y

P

_{: 恒常所得， Y}

T

：変動所得

消費は観察不可能な恒常所得に比例する（kはほぼ1に近い）

消費関数を推計すると，消費性向はケインズ型消費関数の消費性向

（0.6～0.7)と推定される

真のモデル

しかし Y

P

は観察不可能。観察可能な変数は Y

(6)

連立方程式モデル

• 例）Keynes型マクロモデル

G

I

C

Y

u

Y

C















I

G



u

Y













1

上のモデルからYの均衡値を求めると Yが上のようにきまるとき，ケインズ型消費関数の説明変数は内生変数 Yとuの相関は0ではないcov(Y,u)=2_{/(1-) ≠0} 回帰分析の前提が満たされないOLSの推定はバイアスを持つ

(7)

連立方程式 (2)

社会資本の生産性

Y:県民所得，L：労働力，K

P

_{:民間資本，K}

G

_{:社会資本}

社会資本の生産性に関する多くの研究では，低い（場合によっ

てはマイナスの）



₃

の値が報告されている

K

G

は政治的に決定されているかもしれない（過疎地や低所得

地域に手厚い再分配）

_{ K}

G

は内生変数

i i G i P i i i

L

K

Z

u

Y









ln





ln





ln







ln

₁ ₂ ₃ i i i G i

Y

POP

v

K





ln



ln







ln



₀



₁



₂

(8)

omitted variables

説明変数から省かれた変数の存在

例）賃金方程式

• 真のモデル

ln wage = a + b* educ + c* ability + u

educ: 教育年数，ability :能力（ただし観察不可能）

• このとき

ln wage = a + b* educ + v

を推定すれば，誤差項vにはabilityの影響が含まれる

• 一般に高い能力高学歴が成立

• abilityとeducには相関 vとeducには相関

• 賃金方程式の係数bはバイアスを持つ（教育の影響を過

大に評価）

(9)

操作変数法

Instrumental Variable Method

0 )

,

cov(







u

x

u

x

y





0 )

,

cov(

0 )

,

cov(





x

z

u

z

操作変数zを考える。zは次の性質を満たす変数である

















)

,

cov(

)

,

cov(

)

,

cov(

)

,

cov(

)

,

cov(

)

,

cov(

ˆ

x

z

u

z

x

z

u

x

z

x

z

y

z

説明変数と誤差項に相関がある状況を考える

IV法の推定

操作変数zは次の性質を満たす誤差項と相関がない説明変数xと相関がある

(10)

操作変数法(2)

• 賃金方程式の場合

ln wage = a + b* educ + u

誤差項uは能力を表す変数が反映

• 操作変数として望ましい性質

(a) u（能力等）と無相関

(b) educ と相関

• どの変数が望ましいかはわからない。cov(u,z)≠0をテストする

ことはできない。

• 操作変数の候補

– 誕生日

(b)が満たされない

– 父親・母親の学歴 (a)が満たされない

– 兄弟の数

(a) も (b)も満たされる?

– 兄弟の数educと相関あり（マイナスの相関），能力と無相関

(11)

操作変数法(3)

u

X

y







0

1 plim















_















_

u

Z

n

O

X

Z

n

重回帰の場合

 



X



X

y



X



X

u

b

u

Z

X

Z

y

Z

X

Z

b

_IV





















    1 1 OLS 1 1



操作変数の満たすべき条件操作変数法とOLSによる推定量の比較誤差項と説明変数に相関がある場合，操作変数法による推定量はバイアスを持たない（標本数が大きいとき；もちろん，誤差項と相関を持たない操作変数が選べればの話）。一方，OLSの推定量はバイアスを持つ。

(12)

2段階最小二乗法

Two Stage Least Square Method

𝑦

₁

= 𝛼 + 𝛽

₁

𝑦

₂

+ 𝛽

₂

𝑥 + 𝑢

上のモデルでy

₂

が内生変数である場合，y

₂

をそのまま使うので

はなく，y

₂

を外生変数（操作変数）に回帰させ，その予測値を説

明変数として用い，回帰分析を行う

𝑦

₁

= 𝛼 + 𝛽

₁

ොy

₂

+ 𝛽

₂

𝑥 + 𝑢

ොy

₂

：予測値

• 社会資本の生産性の計測の例

– 社会資本ストックは政治的に決定される内生変数

– 社会資本ストックを決める政治的ルールを計測し（交付税，補助金，

人口，面積，所得等），その予測値を説明変数として用いる

• 操作変数法の一種

– 多くの統計ソフトでは，操作変数を指定すれば， ොy₂を自動的に計算して TSLSの結果を報告してくれる

(13)

操作変数法による推定 (mroz.raw)

Quick /Estimate Equation で Estimation settingsの MethodでTSLS を選択すると， Instrument list を記入するダイアローグが表れる。ここに操作変数を記入操作変数のリストには自動的に定数項が含まれる（入れない場合には， Inclde a constantのチェックをはずす）

(14)

OLSの結果

Dependent Variable: LWAGE Method: Least Squares

Date: 05/08/17 Time: 22:43 Sample (adjusted): 1 428

Included observations: 428 after adjustments

Variable Coefficient Std. Error t-Statistic Prob. C -0.185197 0.185226 -0.999844 0.3180 EDUC 0.108649 0.014400 7.545126 0.0000 R-squared 0.117883 Mean dependent var 1.190173 Adjusted R-squared 0.115812 S.D. dependent var 0.723198 S.E. of regression 0.680032 Akaike info criterion 2.071309 Sum squared resid 197.0010 Schwarz criterion 2.090276 Log likelihood -441.2600 Hannan-Quinn criter. 2.078800 F-statistic 56.92892 Durbin-Watson stat 1.984707 Prob(F-statistic) 0.000000 既婚女性の教育の収益率の分析誤差項と教育年数EDUCには相関があるかもしれない（能力の高い人ほど高学歴）この場合，EDUCの係数は能力の効果も含んで計測される

(15)

Dependent Variable: EDUC Method: Least Squares

Date: 05/08/17 Time: 22:45 Sample: 1 753

Included observations: 753

Variable Coefficient Std. Error t-Statistic Prob. C 9.799013 0.198537 49.35603 0.0000 FATHEDUC 0.282428 0.020888 13.52079 0.0000 R-squared 0.195769 Mean dependent var 12.28685 Adjusted R-squared 0.194698 S.D. dependent var 2.280246 S.E. of regression 2.046261 Akaike info criterion 4.272558 Sum squared resid 3144.574 Schwarz criterion 4.284839 Log likelihood -1606.618 Hannan-Quinn criter. 4.277289 F-statistic 182.8116 Durbin-Watson stat 1.943639 Prob(F-statistic) 0.000000

操作変数として，父親の教育年数 FATHEDUCを選択

(16)

Dependent Variable: LWAGE

Method: Two-Stage Least Squares Date: 05/08/17 Time: 22:46

Sample (adjusted): 1 428

Included observations: 428 after adjustments Instrument specification: FATHEDUC

Constant added to instrument list

Variable Coefficient Std. Error t-Statistic Prob.

C 0.441104 0.446102 0.988796 0.3233 EDUC 0.059173 0.035142 1.683850 0.0929

R-squared 0.093438 Mean dependent var 1.190173 Adjusted R-squared 0.091310 S.D. dependent var 0.723198 S.E. of regression 0.689390 Sum squared resid 202.4601 F-statistic 2.835350 Durbin-Watson stat 1.968194 Prob(F-statistic) 0.092943 Second-Stage SSR 221.9799 J-statistic 6.04E-42 Instrument rank 2

操作変数法の結果

教育の収益率はOLSより低めに推

計された

(17)

Rでの操作変数法

• ivreg( )を用いる（パッケージAERが必要）

library(“AER”)でロード

ivreg(y~x1+x2+x3 | z1 + x2 +x3)

x1に内生性，操作変数としてz1,x2,x3を選んだ場合

• tsls( )を用いる（パッケージsemが必要）

パッケージsemをインストール

library(“sem”)でパッケージsemをロード

tsls(y~x1+x2+x3, ~z1+ x2 +x3)

tsls( モデル式 , 操作変数のリスト）

操作変数のリストは ~ z1 + x2 + x3 のように書く

(18)

Rでのmissing value の扱い

データセットの中に欠損値が含まれている場合データのimport の画面で， n.a.stringsの欄に欠損値の数値（文字列）を指定する左図は欠損値が”.”の場合欠損値としてよく使われるのは -999 のようなありえない数値

(19)

Rでの欠損値

後から欠損値を指定する場合

データフレームmroz中の変数x

• 欠損値が-999の場合

– mroz$x[mroz$x == -999] <- NA

• mroz$xはベクトル:その要素が-999に等しいものにNA（欠損値：

Not Available)を代入するというコマンド

– いきなり置き換えるのが危険な場合は別の変数にxを代入してから行

う

• mroz$y <- mroz$x としてからmroz$yについて上記の代入

• 欠損値が . のような文字列の場合

– 変数xは文字列のベクトルとして読み込まれる

– mroz$x[mroz$x ==“.”] <- NA として（文字列は” “ で囲む）

– mroz$x <- as.numeric(mroz$x) で数値データに変換

(20)

注意

• 操作変数の選択基準

– 説明変数と相関

• これはデータからチェックできる）

– 誤差項と無相関

• データからチェックできない

• そう考えるのがもっともらしい

• 操作変数の数 推定する方程式の説明変数と（少

なくとも）同じ数を指定

• wage2.raw のデータで，educ を被説明変数，sibs

を説明変数にした回帰分析を行って，sibsとeducに

相関があることを確かめよ。

(21)

Card：教育の収益率の測定

• 賃金方程式の推計

– 説明変数：教育年数，経験年数，人種，地域

– 教育年数は賃金方程式の誤差項と相関がある?

• Omitted variable の問題（能力: 能力が高い高学歴）

• 教育年数は親の所得，家庭環境によって決まる内生変数?