『新しい計量経済学』鹿野研究室 slide14

(1)

計量経済学_#14

回帰モデルを工夫する ₍₂₎

鹿野繁樹

大阪府立大学

2017 年 11 月更新

鹿野繁樹 _{(大阪府立大学)} 計量経済学_#14 2017 年 11 月更新 1 / 30

(2)

Outline

1 ダミー変数

2 ダミー変数の高度な使い方

テキスト：鹿野繁樹 [2015]、第 7.3 章・第 7.4 章。

前回の復習

1 二次関数モデルと交差項モデル

2 対数線形モデル：弾力性の推定

(3)

Section 1 ダミー変数

(4)

ダミー変数の基礎知識

データは，必ずしも量的ではない。

個人i の性別（男・女）や、企業 i の産業分類（製造業・非製造業）⇒ 所属、状態、分類を表す変数。量的ではなく^質的な情報。

文字列で記録された質的情報は、そのままでは分析に使えない！

(5)

∴ 質的変数を、次のようにコード化。 Di =

0 (i が○ ○ に該当しない)

1 (i が○ ○ に該当する) ^, ⁱ= 1, 2, . . . , n (1) これをダミー変数（二値ダミー）と呼ぶ。

観測i が二つのグループのどちらに属するかを区別する機械的な「ラベル」。

総サンプル数を_{n、また D}_i _{= 0 と D}_i = 1 それぞれに該当する観測の数を_n₀、_n₁と置けば、_n_{= n}₀_{+ n}₁。

(6)

Example 1

表1のマンションデータ：最後の変数は「ワンルームなら 1、そうでなければ0」と置いた「ワンルームダミー」。

表2：標本をワンルームか否かでグループ分け ⇒ 各変数の平均を比較。

n= 194 軒中、n1 = 37 軒がワンルーム。

ワンルームは、そうでないマンションと比べ取引価格が約 2761 万円ほど安い。

グループ間の比較のためにダミーを用いる場合、_D_i _{= 0 が割} り振られたグループをリファレンスグループと呼ぶ。

（reference= 照会・比較対象という意味。）

上の例：「ワンルーム以外のマンション」がリファレンス。

(7)

id ^価格 ^{最寄駅所要時間} ^築年数 ^面積 ^{ワンルーム}

1 620 5 26 15 1

2 3700 3 11 50 0

3 3700 12 12 55 0

...

194 3400 8 24 60 0

表1 : 中古マンションのクロスセクションデータ（n= 194）

(8)

全標本ワンルーム

Yes No ^差価格（万円） _3762.60 _1528.10 _4289.20 _-2761.10 ワンルームダミー_D_i _0.19 _1.00 _0.00 _1.00 最寄駅時間（分） _8.98 _6.14 _9.66 _-3.52 築年数（年） _14.99 _13.19 _15.41 _-2.22 面積（_m²） _53.53 _20.14 _61.40 _-41.27

n 194 37 157

表2 : 間取り（ワンルームか否か）に基づくグループ平均値の比較

(9)

ダミー説明変数

被説明変数_Y_iをダミー変数_D_iに回帰すると

Yi = α + βDi+ ui, Di = 0, 1. (2) ... 回帰係数 α、β の意味は？

(2) 式の期待値をとると、E(ui) = 0 なので

E(Yi) = α + βDi. (3) いま_D_i = 0 の母平均を µ0 = E(Yi|Di = 0)、Di = 1 の母平均を_µ₁ _{= E(Y}_i_|D_i = 1) と定義。⇒ 上式より

Di = 0 ⇒ µ₀ = α + β · 0

D_i= 0 グループの母平均

= α, (4) Di = 1 ⇒ µ1 = α + β · 1

Di= 1 グループの母平均

= α + β. (5)

∴ 両者ともα、β で構成される！

(10)

(2) 式の係数 α、β の意味。

定数項_{α は、D}_i = 0 グループの母平均。ダミー説明変数_D_iの係数_{β は、}

µ₁− µ0 = β (6) より、二つのグループの母平均の差。

(11)

公式 _{1 (} ダミー説明変数の係数の解釈 ₎

Di = 0 グループの Yi^{の母平均を}µ₀ = E(Yi|Di = 0)、Di = 1 グループの母平均_µ₁ _{= E(Y}_i_|D_i = 1) と置く。これらと回帰モデル (2) 式の回帰係数の対応関係は、次の通り。

α= µ0, β = µ1− µ0. (7) 証明：前段で証明済み。

(12)

(2) 式の回帰係数は、OLS で不偏推定。 βˆ= ^(Dⁱ^{− ¯}^D)(Yⁱ^{− ¯}^Y⁾

(Di− ¯D)² ^, ^α^ˆ^{= ¯}^Y ^{− ˆ}^{β ¯}^D. ⁽⁸⁾ β は、Dˆ i = 1 グループの標本平均 ¯Y1^とDi = 0 グループの標本平均_Y^¯₀の差と等しい。

ˆ

α= ¯Y₀, β^ˆ= ¯Y₁− ¯Y₀. (9)

（教科書p128-129、p135 参照。）

「被説明変数_Y_iのグループ平均に有意差があるか否か」の検定は、(2) 式の係数 β の有意性検定と同値。

H0 : µ0 = µ1 グループ平均に差がない

⇔ H0 : β = 0. (10)

松原望 et al. [1991] など統計学では、二標本問題と呼ばれる。

(13)

Example 2

マンション価格_price_iをワンルームダミー_D_iに単回帰： price_i = 4289.17

(26.46) ^{− 2761.06}(−13.21)^Dⁱ^, ⁿ ^{= 194,} ^R

2 _{= 0.26.} ₍₁₁₎

Di^{の係数推定値}= 表 2の価格の平均差（小数点以下の端数の丸め込みを除く）。

ワンルームは、それ以外のマンションと比べ約_{2761 万円安い。} この差は、統計的に有意。

(14)

ダミー説明変数とコントロール変数の併用

表2および (11) 式の結果：ワンルームマンション（Di = 1）とそれ以外（_D_i = 0）に、約 2761 万円の平均価格差。

... 純粋に間取りに対する市場評価の差か？

表2：間取り以外にも、Di = 1 と Di = 0 グループには著しい差。特に_D_i = 1 グループのマンションは狭い。

∴ 上の推定結果は、「ワンルームである」ことに加え「部屋が狭い」ことの効果・ペナルティを拾っている可能性！

(15)

Di以外のスペックを一定とし、_D_iの違いだけでマンション価格にどれだけの差が生じるかを推定するには？_{⇒ 重回帰分析（講義} ノート_{#11・#12）。}

重回帰で、_D_i以外のスペックをコントロール。

回帰分析の枠組みでグループ平均の有意差を検討する利点：その他変数（属性）のコントロールが可能。

(16)

Example 3

(11) 式の説明変数に、所要時間 mini^、築年数age_i^、面積areai^を加

え重回帰した結果。 price_i = 1896.26

(10.03) ^{− 544.81}(−3.38) ^Dⁱ^{− 36.7941}(−3.68) ^minⁱ

− 61.31

(−13.35)^ageⁱ^{+ 60.14}(27.19)^areaⁱ^, ⁿ ^{= 194,}

R¯² = 0.89. (12)

(11) 式と比較 ⇒ ダミー Diの係数推定値が大幅に縮小。

面積などを一定にコントロールすれば、「ワンルームであること」の効果は_{−545 万円程度。}

他の条件を一定としてもなお、ワンルームというだけで₅₄₅ 万円安い。

(17)

Remark 1

ダミー変数_D_iを使った単回帰と重回帰の、係数の意味。 Yi^をDi^{だけに単回帰}⇒ Di^{の係数は、}^「Di = 1 グループと Di = 0 グループの，Yi^{の平均値の差」}^。

Yi^をDiとその他コントロール変数に重回帰_{⇒ D}_iの係数は、

「仮にその他の属性が一定だったとしたときの、_D_i _{= 1 グ} ループと_D_i = 0 グループの Yi^{の平均値の差」}^。

(18)

Section 2 ダミー変数の高度な使い方

(19)

状態が二つ以上ある場合のダミー

観測個体が、二つ以上のカテゴリーに分類されることも。

例：アンケート調査で個人の最終学歴を中卒・高卒・短大含む大卒以上と記録_{⇒3 つの学歴群。}

例：企業の産業分類。細かく分けると_{10 以上！}

(20)

学歴の例：標本が中卒・高卒・大卒の3 グループに分かれる。二つのダミー、高卒ダミー_D_1iと大卒ダミー_D_2iを定義。

D_1i=

0 if i が高卒以外,

1 if i が高卒, ^D²ⁱ⁼

0 if i が大卒以外, 1 if i が大卒.

(13) ...「中卒ダミー」がない。

観測_{i が中卒ならば D}_1i_{= 0，D}_2i = 0。∴ 個別に中卒ダミーを作る必要がない。

∴2 つのダミーを作れば，その組み合わせにより 3 つの状態を識別可能。

(21)

一般的に、全標本がs 個の互いに排反な状態・属性に分類されるとき、_s− 1 個のダミー変数で各観測 i の所属を識別できる。

Remark 2

s 個のグループに対し，s− 1 個のダミーを定義．

「男・女」なら_s− 1 = 2 − 1 = 1 個、「中卒・高卒・大卒」なら_s− 1 = 3 − 1 = 2 個のダミーを用意すれば十分。

(22)

Yi^をi の年収とし、Yi^{を学歴のダミー群}D_1i^、D_2i^{に重回帰。} Yi = α + β1^D1i+ β2^D2i+ ui. (14)

(14) 式の期待値をとれば

E(Yi) = α + β1^D1i+ β2^D2i (15) 中卒・高卒・大卒の_Y_iの期待値を_µ₀₀、_µ₁₀、_µ₀₁と置くと、中卒_{: (D}_1i_{, D}_2i) = (0, 0) ⇒ µ00= α + β1· 0 + β2· 0 = α,

(16) 高卒_{: (D}_1i_{, D}_2i) = (1, 0) ⇒ µ10= α + β1· 1 + β2· 0 = α + β1, (17) 大卒_{: (D}_1i_{, D}_2i) = (0, 1) ⇒ µ01= α + β1· 0 + β2· 1 = α + β2. (18)

(23)

上式より

µ₁₀− µ₀₀= β₁, µ₀₁− µ₀₀= β₂. (19)

∴(14) 式のダミー変数 D1i^、D2iの係数は、高卒・大卒と中卒（レファレンス）の期待値の差に相当。

大卒と高卒の差は_µ₀₁_{− µ}₁₀_{= β}₂_{− β}₁。

(14) 式の OLS 推定は、これらグループ間の平均的な所得差を推定するのと同値！

(24)

Example 4

Fletcher [2009]：^『National Longitudinal Study of Adolescent Health』のデータを使い、外見と年収の関係を分析。

調査で、質問者が回答者の外見を5 段階評価 ⇒4 つの外見ダミーを作成。

表_3：「外見が普通」をリファレンスとし、時間当たり年収対数値を職能テストスコアと外見ダミー、コントロール変数に回帰。

カッコ内の数字は該当者の割合。

(25)

モデル₁ モデル ₂ 係数 _{t 値} 係数 _{t 値} 職能テスト _0.044 _4.000 _0.054 _3.857 非常に魅力的でない（_2%） _0.124 _1.253 _0.140 _1.308 魅力的でない（_6%） -0.041 -1.640 -0.028 -0.800 魅力的（_35%） _0.084 _4.667 _0.072 _3.130 非常に魅力的（_11%） _0.065 _2.407 _0.025 _0.714

その他コントロール変数 _YES _YES

質問者ダミー _NO _YES

修正済み決定係数 _0.094 _0.386

サンプル数 ₁₅₆₅ ₁₅₄₀

表 3 : 外見と収入の関係（女性サンプル，リファレンス=普通）

(26)

被説明変数としてのダミー：線形確率モデル

再び二値ダミー_D_i = 0, 1 を考える。⇒ 分析の目的によっては，被説明変数がダミー変数となることも。

例：_D_iは既婚ダミー（未婚なら0・既婚なら 1）⇒ 個人 i の社会経済属性_X_1i_{, X}_2i, . . . , Xki^がDi^{に与える影響の推定。}

例：_D_iは企業の倒産ダミー_{⇒ D}_iを財務状況_X_1i_{, X}_2i, . . . , Xki

に回帰。

(27)

ダミー変数を被説明変数とする回帰モデル

Di = α + β₁X_1i+ β₂X_2i+ · · · + βkXki+ ui, Di = 0, 1 (20) を、線形確率モデルと呼ぶ。

ここで

∂Pr(Di = 1)

∂Xij

≈ ^∂Dⁱ

∂Xij

= βj. (21)

∴_β_jの_{OLS 推定値 ˆ}_β_jは，（他の変数を固定したとき）_X_ijの変化により_D_i = 1 の確率の変化を推定。

真の被説明変数_Pr(D_i = 1) の代わりに、確率試行の結果 Di = 0, 1（データとして観測可能）を被説明変数に利用。 OLS で推定可能。

(28)

線形確率モデルの問題点：．(20) の OLS 推定された予測式を Dˆi = ˆα+ ˆβ₁X_1i+ ˆβ₂X_2i+ · · · + ˆβkXki (22)

と置く。

上式は、説明変数の値次第で、必ずしも_{0 ≤ ˆ}_D_i _{≤ 1 に収まら} ない。∴ 確率_{0 ≤ Pr(D}_i = 1) ≤ 1 の推定モデルとして、(20) 式は不適合！

線形確率モデルに代わる分析法：プロビット・モデル。_{⇒ 後} 期の講義で。

注意：確率の変化

∂Pr(Di=1)

∂Xij

を推定することが目的ならば、線形確率モデルの回帰係数_β_jは良い近似となる。

(29)

今回の復習問題

次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。講義名、日付、学籍番号、氏名を明記すること。

1 _{テキスト第}7 章復習問題 7.4。

2 _{大阪府内の}5 つの小学校 A・B・C・D・E で、生徒の学力調査を行った。今回の講義ノートを参考に、4 つのダミーを用意すれば5 つの小学校が識別されることを、説明せよ。（テキスト第7 章復習問題 7.5 の類題。）

(30)

References

J. M. Fletcher. Beauty vs. brains: Early labor market outcomes of high school graduates. Economics Letters, 105(3):321–325, 2009. 鹿野繁樹. 新しい計量経済学. 日本評論社, 2015.

松原望, 縄田和満, and 中井検裕. 統計学入門. 東京大学出版会, 1991.

『新しい計量経済学』 鹿野研究室 slide14

回帰モデルを工夫する (2)

Outline

前回の復習

Section 1

ダミー変数

ダミー変数の基礎知識

Example 1

ダミー説明変数

公式 1 ( ダミー説明変数の係数の解釈 )

Example 2

ダミー説明変数とコントロール変数の併用

Example 3

Remark 1

Section 2

ダミー変数の高度な使い方

状態が二つ以上ある場合のダミー

Remark 2

Example 4

被説明変数としてのダミー：線形確率モデル

今回の復習問題

References

『新しい計量経済学』鹿野研究室 slide14

回帰モデルを工夫する ₍₂₎

公式 _{1 (} ダミー説明変数の係数の解釈 ₎