回帰診断：特定化の誤り回帰診断：特定化の誤り

(1)

回帰診断：特定化の誤り

(2)

特定化の誤り

•

必要な変数を除いてしまった場合

•

真のモデル：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑋

₁

+ 𝛽

₂

𝑋

₂

+ 𝑢

•

推計モデル：

𝑌 = 𝛼

₀

+ 𝛼

₁

𝑋

₁

+ 𝑣

•

不必要な変数を加えてしまった場合

•

真のモデル：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑋

₁

+ 𝑢

•

推計モデル：

𝑌 = 𝛼

₀

+ 𝛼

₁

𝑋

₁

+ 𝛼

₂

𝑋

₂

+ 𝑣

(3)

特定化の誤り

• 必要な変数を除いてしまった場合

• 真のモデル：𝑌 = 𝛽₀ + 𝛽₁𝑋₁ + 𝛽₂𝑋₂ + 𝑢

• 推計モデル：𝑌 = 𝛼₀ + 𝛼₁𝑋₁ + 𝑣

• 攪乱項の分散の推計量は正しくない、係数の標準誤差も不正確

• 𝑋₁と𝑋₂とが相関

• 𝛼₀、𝛼₁はバイアスを持ち、一致推定量にもならない

• 𝑋₁と𝑋₂とが無相関

• 𝛼₀はバイアスを持つが、𝛼₁はバイアスを持たない

(4)

特定化の誤り：例

(5)

特定化の誤り

•

不必要な変数を加えてしまった場合

•

真のモデル：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑋

₁

+ 𝑢

•

推計モデル：

𝑌 = 𝛼

₀

+ 𝛼

₁

𝑋

₁

+ 𝛼

₂

𝑋

₂

+ 𝑣

•

推計モデルのパラメーターは不偏性、一致性を持つ、攪乱項の分散も正しい

• 𝐸 𝛼

₀

= 𝛽

₀、

𝐸 𝛼

₁

= 𝛽

₁、

𝐸 𝛼

₂

= 𝛽

₂

= 0

•

但し、パラメーターの分散は効率的ではない。

•

不必要な変数を加えても問題なさそうだが、検定に歪みが生ずるばかりか、マルチコの原因となることもある。

(6)

入れ子型モデル非入れ子型モデル

•

モデル

A

：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑋

₁

+ 𝛽

₂

𝑋

₂

+ 𝛽

₃

𝑋

₃

+ 𝛽

₄

𝑋

₄

+ 𝑢

•

モデル

B

：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑋

₁

+ 𝛽

₂

𝑋

₂

+ 𝑢

•

モデル

C

：

𝑌 = 𝛼

₀

+ 𝛼

₁

𝑋

₁

+ 𝛼

₂

𝑋

₂

+ 𝑢

•

モデル

D

：

𝑌 = 𝛽

₀

+ 𝛽

₁

Z

₁

+ 𝛽

₂

𝑍

₂

+ 𝑢

•

モデル

D

：

𝑌 = 𝛽

₀

+ 𝛽

₁

Z

₁

+ 𝛽

₂

𝑍

₂

+ 𝑢

•

モデル

E

：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑙𝑜𝑔Z

₁

+ 𝛽

₂

𝑙𝑜𝑔𝑍

₂

+ 𝑢

(7)

•

モデル

A

：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑋

₁

+ 𝛽

₂

𝑋

₂

+ 𝛽

₃

𝑋

₃

+ 𝛽

₄

𝑋

₄

+ 𝑢

•

モデル

B

：

𝑌 = 𝛽

₀

+ 𝛽

₁

𝑋

₁

+ 𝛽

₂

𝑋

₂

+ 𝑢

•

モデル

A

を推計して、

𝐻

₀

: 𝛽

₃

= 𝛽

₄

= 0

を検定

(8)

•

モデル

C

：

𝑌 = 𝛼

₀

+ 𝛼

₁

𝑋

₁

+ 𝛼

₂

𝑋

₂

+ 𝑢 Y

^C

•

モデル

D

：

𝑌 = 𝛽

₀

+ 𝛽

₁

Z

₁

+ 𝛽

₂

𝑍

₂

+ 𝑢 Y

^D

•

モデル

𝑌 = 𝛼

₀

+ 𝛼

₁

𝑋

₁

+ 𝛼

₂

𝑋

₂

+ 𝛼

₃

𝑍

₁

+ 𝛼

₄

𝑍

₂

+ 𝑢

• 𝐻

₀

: 𝛼

₁

= 𝛼

₂

= 0

を検定

• 𝐻

₀

: 𝛼

₃

= 𝛼

₄

= 0

を検定

•

マッキノンの

J

テスト

• C: 𝑌 = 𝛼

₀

+ 𝛼

₁

𝑋

₁

+ 𝛼

₂

𝑋

₂

+ 𝛼

₃

Y

^C

+ 𝑢

を推計し

𝐻

₀

: 𝛼

₃

= 0

を検定

•

どちらが正しいか判断できないことがある

(9)

• モデルD：𝑌 = 𝛽₀ + 𝛽₁Z₁ + 𝛽₂𝑍₂ + 𝑢

• モデルE：𝑌 = 𝛽₀ + 𝛽₁𝑙𝑜𝑔Z₁ + 𝛽₂𝑙𝑜𝑔𝑍₂ + 𝑢

• モデルの当て嵌まりの良さで判断することも・・・

• 決定係数で判断R²

• 自由度調整済み決定係数で判断R²

※ 決定係数は左辺の変数が同じでないと比較可能ではない！

• AICで判断 AIC = 𝑒^{2𝑘 𝑛 ×}^𝑅𝑆𝑆_𝑛 or 𝑙𝑛𝐴𝐼𝐶 = ^2𝑘_𝑛 ^+𝑙𝑛 ^𝑅𝑆𝑆_𝑛

• SICで判断 SIC = 𝑛^{𝑘 𝑛 ×}^𝑅𝑆𝑆_𝑛 or 𝑙𝑛S𝐼𝐶 = _𝑛^𝑘^{ln(𝑛)+𝑙𝑛} ^𝑅𝑆𝑆_𝑛

• 𝑘は説明変数の数(定数項を含める)、𝑛はデータのサンプル数。

(10)

特定化の誤り：

•

賃金関数の例

(11)

gretl

を使ってみる

•

データの読込

(12)

•

回帰分析

(13)

•

計測結果

(14)

•

変数を加えてみる

•

経験の二乗

(15)

•

再推計

(16)

•

さらに変数を加える

•

交差項

•

追加

→

新規変数の定義

(17)

•

計測結果

(18)

特定化の誤り：検定

•

線型制約の検定

• 𝑅𝑆𝑆 = 𝑇𝑆𝑆(1 − 𝑅

²

)

に注意すると

• 𝐹 =

(𝑅𝑆𝑆𝑈𝑅−𝑅𝑆𝑆𝑅) 𝑞

𝑅𝑆𝑆𝑈𝑅 (𝑛−𝑘)

=

^(𝑅^𝑈𝑅² ^−𝑅^𝑅²^{) 𝑞}

(1−𝑅_𝑈𝑅² ) (𝑛−𝑘)

•

今の例では、

𝐹 =

^(𝑅^𝑈𝑅² ^−𝑅^𝑅²^{) 𝑞}

(1−𝑅_𝑈𝑅² ) (𝑛−𝑘)

=

(0.340315−0.323339)/2

(1−0.340315)/(1298−8)=16.598

(19)

変数が落ちていることを確認する方法

• Ramsey

の

RESET

•

最初の回帰分析で、被説明変数の理論値を求める

•

最初の回帰分析に、理論値の二乗、三乗を加えで

OLS

推計

•

理論値の係数がすべてゼロなら、除外変数なし

(20)

(21)

(22)

(23)

(24)

賃金関数の推計では、

log(

賃金

)

が用いられる理由

(25)

log(

賃金

)

(26)

log(

賃金

)

(27)

log(

賃金

)