Cov(Xi,ui)=0（7.4.1節） (2b) Xi はui は相関あり

(1)

7.4 説明変数：確率変数のケース

本節では，簡単化のために，単回帰Y_i =α+βX_i+u_i を考える。

(1) Xi は非確率変数 −→ 今までの最小二乗推定量

(2) Xi は確率変数

(2a) X_i とu_i は相関なし −→ Cov(X_i,u_i)=0（7.4.1節）

(2b) X_i はu_i は相関あり −→ Cov(X_i,u_i),0（7.4.2節）

(2)

7.4.1 説明変数と誤差項に相関がない場合

最小二乗法による推定量：

βˆ =

P(X_i−X)(Y_i−Y)

P(X_i−X)² =β+X ω_iu_i

ただし，ω_i = X_i−X

P(X_j−X)² とする。

X= (X₁, X₂, · · ·, X_n)とする。

(3)

—————————–

(*復習) 2つの確率変数（X，Y）の独立について：

X とY の同時密度関数 fxy(x,y) X の周辺密度関数 fx(x)

Y の周辺密度関数 fy(y)

Y を与えたもとでXの条件付き密度関数 f_x|y(x|y)

• f_xy(x,y)= f_x|y(x|y)f_y(y)は必ず成り立つ。

• fxy(x,y)= fx(x)fy(y) ⇐⇒ X とY は独立

• fx|y(x|y)= fx(x) ⇐⇒ X とY は独立

—————————–

(4)

—————————–

(*復習) 2つの確率変数（X，Y）の独立について（その2）：

X とY が独立のとき，

• Cov(X,Y)=0

• E(X|Y)=E(X)，V(X|Y)=V(X) となる。

—————————–

条件付き期待値を取ると，

E( ˆβ|X)=E(β+X

i

ω_iu_i|X)= β+X

i

ω_iE(u_i|X)= β

となり，βˆ はβの不偏推定量となる。

(5)

ω_iはX₁，X₂，· · ·，X_nの関数となっている。

X= (X₁, X₂, · · ·, X_n)とu_iに相関がない場合，すなわち，j=1,2,· · ·,nについてCov(X_j,u_i)= 0の場合，E(u_i|X)= E(u_i)=0となる。

条件付き分散については，

V( ˆβ|X)= V(β+X

i

ω_iu_i|X)=V(X

i

ω_iu_i|X)= X

i

ω²_iV(u_i|X)= σ²X

i

ω²_i = σ² P

i(Xi−X)²

となる。

すなわち，説明変数が確率変数であっても，誤差項と相関がなければ，何も変更せずに，

最小二乗法を適用することができる。

(6)

7.4.2 説明変数と誤差項に相関がある場合

Xとu_iに相関がある場合，E(u_i|X), E(u_i)=0となるので，

E( ˆβ|X)=E(β+X

i

ω_iu_i|X)= β+X

i

ω_iE(u_i|X), β

となる。

したがって，βˆはβの不偏推定量とはならない。

βˆ はβの一致推定量かどうか？

βˆ =β+X

i

ω_iu_i =β+ P

i(Xi−X)ui

P

j(X_j−X)²

(7)

=β+

1 n

P

i(X_i−X)u_i

1 n

P

j(X_j−X)² −→ β+ M_xu

M_xx ,β ただし，n −→ ∞ のとき，¹_nP

i(Xi − X)ui −→ Mxu , 0，¹_nP

i(Xi − X)² −→ Mxx とする。

n −→ ∞のときは，分子・分母は別々に計算することができる（証明略）。

Mxuは，n −→ ∞のとき，Xi とui の共分散に相当する。Mxxは，n −→ ∞のとき，Xi の分散に相当する。

以上から，βˆはβの不偏推定量でも一致推定量でもない。

ˆ

αも同様に不偏推定量でも一致推定量でもない。

(8)

なぜなら，αˆ は，

ˆ

α=Y−βXˆ =α+X

i

λiui

と書き換えられる（5.3.2節参照）。

ただし，λi = 1

n −Xωiとする。

λiは Xの関数である。

● 例：Xに観測誤差（measurement error）が含まれる場合：真のモデルを

Y_i^∗ =α+βX^∗_i

とする。(Y_i^∗，X_i^∗)は非確率変数とする。

(9)

しかし，(Y_i^∗，X^∗_i)は観測されず，代わりに，(Y_i，X_i)が観測されるものとする。

(Y_i^∗，X^∗_i)と(Y_i，X_i)との関係は以下の通りとする。

Y_i =Y_i^∗+u_i, X_i = X_i^∗+v_i

u_i，v_i は観測誤差と呼ばれるもので，

E(u_i)= 0, V(u_i)=σ²_u E(v_i)= 0, V(v_i)=σ²_v

を仮定する。

さらに，u_i，v_iは互いに独立と仮定する。

(10)

すなわち，i, jとなるすべてのi，jについてCov(u_i,u_j)= Cov(v_i,v_j)=0，かつ，すべてのi，jについてCov(u_i,v_j)=0とする。

Y_i^∗=α+βX_i^∗にY_i = Y_i^∗+u_i，X_i =X_i^∗+v_iを代入する。

Y_i =α+βX_i+(u_i−βv_i)

観測されるのは(Y_i，X_i)なので，(u_i −βv_i)を誤差項として，最小二乗法でβˆを求める。

まずは，X_iとu_i−βv_i の共分散を求める（共分散がゼロかどうかを確認する）。

(11)

—————————–

(*復習)共分散について：

2つの確率変数(X，Y)を考える。

E(X)=µx，E(Y)= µy とする。

共分散の定義は，Cov(X,Y)=E

(X−µx)(Y −µy)

書き換えると，

Cov(X,Y)=E(XY −Xµ_y−µ_xY +µ_xµ_y)=E(XY)−E(X)µ_y−µ_xE(Y)+µ_xµ_y = E(XY)−µ_xµ_y となる。

—————————–

(12)

この場合，

Cov(X_i, u_i−βv_i)= Cov(X^∗_i +v_i, u_i−βv_i)

= E

(X_i^∗+vi)(ui−βvi)

−E(X_i^∗+vi)E(ui−βvi)

= E(X_i^∗u_i+v_iu_i−X_i^∗βv_i−βv²_i)

= E(X_i^∗ui)+E(viui)−E(X_i^∗βvi)−E(βv²_i)

= X_i^∗E(u_i)+E(v_iu_i)−X_i^∗βE(v_i)−βE(v²_i)

= −βσ²_v ,0

となる。

したがって，観測できる(Y_i，X_i)を用いて，βの最小二乗推定量βˆ は不偏推定量にはならない。

(13)

特に，

βˆ =

P(X_i−X)(Y_i−Y)

P(X_i−X)² =β+X

ω_i(u_i−βv_i)

=β+

P(X_i−X)(u_i−βv_i) P(Xi−X)²

=β+

1 n

P(X_i−X)(u_i−βv_i)

1 n

P(Xi−X)²

と書き換えられ，右辺第2項の分母はX_iの分散に対応し，分子はX_i と(u_i−βv_i)との共分散

−βσ²_v に対応する。

したがって，n −→ ∞のとき，

βˆ −→ β+ −βσ²_v M_xx

(14)

となる。右辺第2項の分母は必ず正，分子はβが正（負）の場合は負（正）となる。

すなわち，

• β >0のとき，βˆ −→ β− βσ²_v M_xx < β

• β <0のとき，βˆ −→ β− βσ²_v M_xx > β となる。

(15)

●X とu_iに相関がある場合の対処法： Y_i = α+βX_i+u_iについて，Cov(X_i,u_i), 0のときを考える。

βˆ = P

i(X_i−X)(Y_i−Y)

P

i(X_i−X)² =β+

P

i(X_i−X)u_i P

j(X_j−X)²

=β+

1 n

P

i(X_i−X)u_i

1 n

P

j(X_j−X)² −→ β+ M_xu

M_xx ,β

右辺第2項の分母は X_i の分散に相当し，分子はX_i とu_iの共分散に相当する（n −→ ∞のときは，分子・分母を別々に計算することができる）。

Cov(X_i,u_i),0が問題となって，E( ˆβ),βとなる。

よって，第2項の分子がゼロになるような修正を加えればよい。

(16)

Cov(Z_i,u_i)= 0となるZ_iが存在するとする。

このとき，下記のような推定量

eβ= P

i(Z_i−Z)(Y_i−Y) P

i(Z_i−Z)(X_i−X)

を考えてみよう。ただし，Z = 1 n

X

i

Z_iとする。

(*) Z_i をX_iで置き換えると，eβは最小二乗推定量βˆ = P

i(X_i−X)(Y_i−Y)

P

i(X_i−X)² に等しくなる。

eβを変形していく。

(17)

eβ= P

i(Zi−Z)(Yi−Y)

P

= P

i(Z_i−Z)Y_i−YP

i(Z_i−Z) P

i(Zi−Z)(Xi−X)

= P

i(Z_i−Z)Y_i P

=X

i

ω^∗_iY_i, ただし，ω^∗_i = Z_i−Z P

j(Z_j−Z)(X_j−X)

= P

i(Z_i−Z)(α+βX_i+u_i)

P

i(Zi−Z)(Xi−X)

= αP

i(Z_i−Z)+βP

i(Z_i−Z)X_i+P

i(Z_i−Z)u_i P

=β+ P

i(Z_i−Z)u_i P

=β+X

i

ω^∗_iui

=β+

1 n

P

i(Z_i−Z)u_i

1 n

P

i(Z_i−Z)(X_i−X) −→ β+ 0

M_zx =β

(18)

2行目の右辺の分子の第2項目はP

i(Z_i−Z)=P

iZ_i−nZ = 0に注意。

3行目では，eβ = P

i(Z_i−Z)Y_i P

i(Z_i−Z)(X_i−X) =X

i

ω^∗_iY_iと書き換えることができ，eβもY_i の線形推定量と言える。

ただし，ω^∗_i = Z_i−Z P

j(Zj−Z)(Xj−X) である（分母の添字をiから jに変更）。

4行目の右辺分子の第1項目はゼロ，第2項目はP

i(Z_i−Z)X_i = P

i(Z_i−Z)X_i−P

i(Z_i−Z)X =

P

i(Z_i−Z)(X_i−X)となるので分母と同じになる。このようにして，5行目が得られる。

6行目右辺第2項の分子は Z_i とu_i の共分散に対応し，分母はZ_iと X_iの共分散に対応し，

nを大きくするとそれぞれゼロ，M_zxに収束するものとする。

すなわち，eβはβの一致推定量となる。

(19)

nが大きければ，E(ω^∗_iu_i)−→0となる（分子・分母を別々に計算することができる）。

しかし，一般的には，E(ω^∗_iu_i) ,0なので（ω^∗_i の分母はX_i に依存していて，X_i とu_iは共分散がゼロでないと仮定），E(eβ), βとなり，eβは不偏推定量にはならない。

Z_i を操作変数（instrumental variable）と呼ぶ。操作変数を用いた推定方法を操作変数法という。

Z_i の選択について，(i)Z_i とu_i は相関がない，(ii)Z_iとX_i は強い相関がある，という2つの条件が必要になる。

(ii)については，Z_iはもともと X_i の代わりに使うものなので，X_i と相関の強いZ_i が望ましい。

(20)

●Z_iの選択について（その1）： iが時間を表す場合（時系列データの場合），Z_i = X_i−1を用いることが可能である。

Cov(X_i,u_i),0としても，X を一期ずらしてCov(X_i−1,u_i)=0となるのは不自然ではない。

●Z_iの選択について（その2）： X_iの予測値Xˆ_i をX_iの代わりに用いる。

e_i を誤差項として，

X_i = γ₀+γ₁W_1i+γ₂W_2i + · · · +γ_mW_mi+e_i

を最小二乗法で推定して，γˆ0，γˆ1，· · ·，γˆmを求める。

ただし，W1i，W2i，· · ·，Wmi はui と相関のない変数でなければならない。

(21)

W_1i，W_2i，· · ·，W_miには，X_i−1，X_i−2，· · ·のようにX_i のラグ変数を用いてもよい。理由は，

前述の通りで，X_iとu_iに相関かあったとしても，X_iのラグ変数X_i−1，X_i−2，· · ·とu_iとに相関があるとは考えにくいからである。

X_iの予測値Xˆ_i を求める。

Xˆ_i = γˆ₀+γˆ₁W_1i+γˆ₂W_2i + · · · +γˆ_mW_mi

をZ_iとして用いる。

Zi はui と相関のない変数でなければならない。

ˆ

γj はγjの一致推定量なので，n −→ ∞のとき，

Xˆ_i = γˆ₀+γˆ₁W_1i+γˆ₂W_2i + · · · +γˆ_mW_mi −→ γ₀+γ₁W_1i+γ₂W_2i+ · · · +γ_mW_mi

(22)

となる。

操作変数法による推定量eβがβの一致推定量になる理由は，

eβ=β+

1 n

P

i(Z_i−Z)u_i

1 n

P

i(Z_i−Z)(X_i−X) −→ β+ 0

M_zx =β

から，操作変数Z_i と誤差項u_i との相関がゼロという条件（2項目の分子）が重要なポイントとなっている。

Z_i にXˆ_iを用いると，n −→ ∞のとき，Xˆ_i −→ γ₀+γ₁W_1i+γ₂W_2i+ · · · +γ_mW_miとなることから，W_1i，W_2i，· · ·，W_mi がu_i と相関がなければ，¹_nP

i( ˆX_i− X)u_i −→ 0となる（Xˆ = X

に注意）。

この方法は，二段階最小二乗法（two-stage least squares method）と呼ばれる。1段階目

(23)

でXˆ_i を求める。2段階目でeβを得る。