計量経済学#14
回帰モデルを工夫する (2)
鹿野繁樹
大阪府立大学
2017 年 11 月更新
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 1 / 30
Outline
1 ダミー変数
2 ダミー変数の高度な使い方
テキスト:鹿野繁樹 [2015]、第 7.3 章・第 7.4 章。
前回の復習
1 二次関数モデルと交差項モデル
2 対数線形モデル:弾力性の推定
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 2 / 30
Section 1
ダミー変数
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 3 / 30
ダミー変数の基礎知識
データは,必ずしも量的ではない。
個人i の性別(男・女)や、企業 i の産業分類(製造業・非製 造業)⇒ 所属、状態、分類を表す変数。量的ではなく質的な 情報。
文字列で記録された質的情報は、そのままでは分析に使え ない!
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 4 / 30
∴ 質的変数を、次のようにコード化。 Di =
0 (i が○ ○ に該当しない)
1 (i が○ ○ に該当する) , i= 1, 2, . . . , n (1) これをダミー変数(二値ダミー)と呼ぶ。
観測i が二つのグループのどちらに属するかを区別する機械 的な「ラベル」。
総サンプル数をn、また Di = 0 と Di = 1 それぞれに該当する 観測の数をn0、n1と置けば、n= n0+ n1。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 5 / 30
Example 1
表1のマンションデータ:最後の変数は「ワンルームなら 1、そう でなければ0」と置いた「ワンルームダミー」。
表2:標本をワンルームか否かでグループ分け ⇒ 各変数の平 均を比較。
n= 194 軒中、n1 = 37 軒がワンルーム。
ワンルームは、そうでないマンションと比べ取引価格が約 2761 万円ほど安い。
グループ間の比較のためにダミーを用いる場合、Di = 0 が割 り振られたグループをリファレンスグループと呼ぶ。
(reference= 照会・比較対象という意味。)
上の例:「ワンルーム以外のマンション」がリファレンス。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 6 / 30
id 価格 最寄駅所要時間 築年数 面積 ワンルーム
1 620 5 26 15 1
2 3700 3 11 50 0
3 3700 12 12 55 0
...
194 3400 8 24 60 0
表1 : 中古マンションのクロスセクションデータ(n= 194)
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 7 / 30
全標本 ワンルーム
Yes No 差 価格(万円) 3762.60 1528.10 4289.20 -2761.10 ワンルームダミーDi 0.19 1.00 0.00 1.00 最寄駅時間(分) 8.98 6.14 9.66 -3.52 築年数(年) 14.99 13.19 15.41 -2.22 面積(m2) 53.53 20.14 61.40 -41.27
n 194 37 157
表2 : 間取り(ワンルームか否か)に基づくグループ平均値の比較
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 8 / 30
ダミー説明変数
被説明変数Yiをダミー変数Diに回帰すると
Yi = α + βDi+ ui, Di = 0, 1. (2) ... 回帰係数 α、β の意味は?
(2) 式の期待値をとると、E(ui) = 0 なので
E(Yi) = α + βDi. (3) いまDi = 0 の母平均を µ0 = E(Yi|Di = 0)、Di = 1 の母平均 をµ1 = E(Yi|Di = 1) と定義。⇒ 上式より
Di = 0 ⇒ µ0 = α + β · 0
Di= 0 グループの母平均
= α, (4) Di = 1 ⇒ µ1 = α + β · 1
Di= 1 グループの母平均
= α + β. (5)
∴ 両者ともα、β で構成される!
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 9 / 30
(2) 式の係数 α、β の意味。
定数項α は、Di = 0 グループの母平均。 ダミー説明変数Diの係数β は、
µ1− µ0 = β (6) より、二つのグループの母平均の差。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 10 / 30
公式 1 ( ダミー説明変数の係数の解釈 )
Di = 0 グループの Yiの母平均をµ0 = E(Yi|Di = 0)、Di = 1 グ ループの母平均µ1 = E(Yi|Di = 1) と置く。これらと回帰モデル (2) 式の回帰係数の対応関係は、次の通り。
α= µ0, β = µ1− µ0. (7) 証明:前段で証明済み。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 11 / 30
(2) 式の回帰係数は、OLS で不偏推定。 βˆ= (Di− ¯D)(Yi− ¯Y)
(Di− ¯D)2 , αˆ= ¯Y − ˆβ ¯D. (8) β は、Dˆ i = 1 グループの標本平均 ¯Y1とDi = 0 グループの標 本平均Y¯0の差と等しい。
ˆ
α= ¯Y0, βˆ= ¯Y1− ¯Y0. (9)
(教科書p128-129、p135 参照。)
「被説明変数Yiのグループ平均に有意差があるか否か」の検 定は、(2) 式の係数 β の有意性検定と同値。
H0 : µ0 = µ1 グループ平均に差がない
⇔ H0 : β = 0. (10)
松原 望 et al. [1991] など統計学では、二標本問題と呼ばれる。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 12 / 30
Example 2
マンション価格priceiをワンルームダミーDiに単回帰: pricei = 4289.17
(26.46) − 2761.06(−13.21)Di, n = 194, R
2 = 0.26. (11)
Diの係数推定値= 表 2の価格の平均差(小数点以下の端数の 丸め込みを除く)。
ワンルームは、それ以外のマンションと比べ約2761 万円安い。 この差は、統計的に有意。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 13 / 30
ダミー説明変数とコントロール変数の併用
表2および (11) 式の結果:ワンルームマンション(Di = 1)とそ れ以外(Di = 0)に、約 2761 万円の平均価格差。
... 純粋に間取りに対する市場評価の差か?
表2:間取り以外にも、Di = 1 と Di = 0 グループには著しい 差。特にDi = 1 グループのマンションは狭い。
∴ 上の推定結果は、「ワンルームである」ことに加え「部屋が 狭い」ことの効果・ペナルティを拾っている可能性!
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 14 / 30
Di以外のスペックを一定とし、Diの違いだけでマンション価格に どれだけの差が生じるかを推定するには?⇒ 重回帰分析(講義 ノート#11・#12)。
重回帰で、Di以外のスペックをコントロール。
回帰分析の枠組みでグループ平均の有意差を検討する利点: その他変数(属性)のコントロールが可能。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 15 / 30
Example 3
(11) 式の説明変数に、所要時間 mini、築年数agei、面積areaiを加
え重回帰した結果。 pricei = 1896.26
(10.03) − 544.81(−3.38) Di− 36.7941(−3.68) mini
− 61.31
(−13.35)agei+ 60.14(27.19)areai, n = 194,
R¯2 = 0.89. (12)
(11) 式と比較 ⇒ ダミー Diの係数推定値が大幅に縮小。
面積などを一定にコントロールすれば、「ワンルームであるこ と」の効果は−545 万円程度。
他の条件を一定としてもなお、ワンルームというだけで545 万円安い。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 16 / 30
Remark 1
ダミー変数Diを使った単回帰と重回帰の、係数の意味。 YiをDiだけに単回帰⇒ Diの係数は、「Di = 1 グループと Di = 0 グループの,Yiの平均値の差」。
YiをDiとその他コントロール変数に重回帰⇒ Diの係数は、
「仮にその他の属性が一定だったとしたときの、Di = 1 グ ループとDi = 0 グループの Yiの平均値の差」。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 17 / 30
Section 2
ダミー変数の高度な使い方
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 18 / 30
状態が二つ以上ある場合のダミー
観測個体が、二つ以上のカテゴリーに分類されることも。
例:アンケート調査で個人の最終学歴を中卒・高卒・短大含 む大卒以上と記録⇒3 つの学歴群。
例:企業の産業分類。細かく分けると10 以上!
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 19 / 30
学歴の例:標本が中卒・高卒・大卒の3 グループに分かれる。 二つのダミー、高卒ダミーD1iと大卒ダミーD2iを定義。
D1i=
0 if i が高卒以外,
1 if i が高卒, D2i=
0 if i が大卒以外, 1 if i が大卒.
(13) ...「中卒ダミー」がない。
観測i が中卒ならば D1i= 0,D2i = 0。∴ 個別に中卒ダミーを 作る必要がない。
∴2 つのダミーを作れば,その組み合わせにより 3 つの状態を 識別可能。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 20 / 30
一般的に、全標本がs 個の互いに排反な状態・属性に分類される とき、s− 1 個のダミー変数で各観測 i の所属を識別できる。
Remark 2
s 個のグループに対し,s− 1 個のダミーを定義.
「男・女」ならs− 1 = 2 − 1 = 1 個、「中卒・高卒・大卒」な らs− 1 = 3 − 1 = 2 個のダミーを用意すれば十分。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 21 / 30
Yiをi の年収とし、Yiを学歴のダミー群D1i、D2iに重回帰。 Yi = α + β1D1i+ β2D2i+ ui. (14)
(14) 式の期待値をとれば
E(Yi) = α + β1D1i+ β2D2i (15) 中卒・高卒・大卒のYiの期待値をµ00、µ10、µ01と置くと、 中卒: (D1i, D2i) = (0, 0) ⇒ µ00= α + β1· 0 + β2· 0 = α,
(16) 高卒: (D1i, D2i) = (1, 0) ⇒ µ10= α + β1· 1 + β2· 0 = α + β1, (17) 大卒: (D1i, D2i) = (0, 1) ⇒ µ01= α + β1· 0 + β2· 1 = α + β2. (18)
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 22 / 30
上式より
µ10− µ00= β1, µ01− µ00= β2. (19)
∴(14) 式のダミー変数 D1i、D2iの係数は、高卒・大卒と中卒(レ ファレンス)の期待値の差に相当。
大卒と高卒の差はµ01− µ10= β2− β1。
(14) 式の OLS 推定は、これらグループ間の平均的な所得差を 推定するのと同値!
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 23 / 30
Example 4
Fletcher [2009]:『National Longitudinal Study of Adolescent Health』 のデータを使い、外見と年収の関係を分析。
調査で、質問者が回答者の外見を5 段階評価 ⇒4 つの外見ダ ミーを作成。
表3:「外見が普通」をリファレンスとし、時間当たり年収対 数値を職能テストスコアと外見ダミー、コントロール変数に 回帰。
カッコ内の数字は該当者の割合。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 24 / 30
モデル1 モデル 2 係数 t 値 係数 t 値 職能テスト 0.044 4.000 0.054 3.857 非常に魅力的でない(2%) 0.124 1.253 0.140 1.308 魅力的でない(6%) -0.041 -1.640 -0.028 -0.800 魅力的(35%) 0.084 4.667 0.072 3.130 非常に魅力的(11%) 0.065 2.407 0.025 0.714
その他コントロール変数 YES YES
質問者ダミー NO YES
修正済み決定係数 0.094 0.386
サンプル数 1565 1540
表 3 : 外見と収入の関係(女性サンプル,リファレンス=普通)
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 25 / 30
被説明変数としてのダミー:線形確率モデル
再び二値ダミーDi = 0, 1 を考える。⇒ 分析の目的によっては,被 説明変数がダミー変数となることも。
例:Diは既婚ダミー(未婚なら0・既婚なら 1)⇒ 個人 i の社 会経済属性X1i, X2i, . . . , XkiがDiに与える影響の推定。
例:Diは企業の倒産ダミー⇒ Diを財務状況X1i, X2i, . . . , Xki
に回帰。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 26 / 30
ダミー変数を被説明変数とする回帰モデル
Di = α + β1X1i+ β2X2i+ · · · + βkXki+ ui, Di = 0, 1 (20) を、線形確率モデルと呼ぶ。
ここで
∂Pr(Di = 1)
∂Xij
≈ ∂Di
∂Xij
= βj. (21)
∴βjのOLS 推定値 ˆβjは,(他の変数を固定したとき)Xijの変 化によりDi = 1 の確率の変化を推定。
真の被説明変数Pr(Di = 1) の代わりに、確率試行の結果 Di = 0, 1(データとして観測可能)を被説明変数に利用。 OLS で推定可能。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 27 / 30
線形確率モデルの問題点:.(20) の OLS 推定された予測式を Dˆi = ˆα+ ˆβ1X1i+ ˆβ2X2i+ · · · + ˆβkXki (22)
と置く。
上式は、説明変数の値次第で、必ずしも0 ≤ ˆDi ≤ 1 に収まら ない。∴ 確率0 ≤ Pr(Di = 1) ≤ 1 の推定モデルとして、(20) 式は不適合!
線形確率モデルに代わる分析法:プロビット・モデル。⇒ 後 期の講義で。
注意:確率の変化
∂Pr(Di=1)
∂Xij
を推定することが目的ならば、線 形確率モデルの回帰係数βjは良い近似となる。
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 28 / 30
今回の復習問題
次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。 講義名、日付、学籍番号、氏名を明記すること。
1 テキスト第7 章復習問題 7.4。
2 大阪府内の5 つの小学校 A・B・C・D・E で、生徒の学力調査 を行った。今回の講義ノートを参考に、4 つのダミーを用意す れば5 つの小学校が識別されることを、説明せよ。(テキスト 第7 章復習問題 7.5 の類題。)
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 29 / 30
References
J. M. Fletcher. Beauty vs. brains: Early labor market outcomes of high school graduates. Economics Letters, 105(3):321–325, 2009. 鹿野繁樹. 新しい計量経済学. 日本評論社, 2015.
松原望, 縄田 和満, and 中井 検裕. 統計学入門. 東京大学出版会, 1991.
鹿野繁樹 (大阪府立大学) 計量経済学#14 2017 年 11 月更新 30 / 30