担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
前回の復習
線形回帰モデルYi = α + βXi+ ui。
OLS推定量a, bでα, βを推定→仮説検定。
今回学ぶこと
重回帰モデル。
回帰分析でのダミー変数。
テキスト該当箇所:13章。
1 重回帰モデル
1.1
線形回帰モデルの拡張:重回帰モデル
重回帰モデル:説明変数を複数持つ回帰モデル
Yi = α + β1X1i+ β2X2i+ · · · + βKXKi+ ui (1)
を、 と呼ぶ。
⊲ ひとつの被説明変数Yiの動きを、 の説明変数X1i, X2i, . . . , XKiで説明。
⊲ 未知の母数はα, β1, β2, . . . , βK(と誤差項uiの分散σ2u)。
⊲ 説明変数がK = 1個のモデル(講義ノート#22、#23)は、 。
重回帰のOLS推定量:K + 1次元のデータ(X1i, X2i, . . . , XKi, Yi)による回帰直線
Yˆi = a + b1X1i+ b2X2i+ · · · + bKXKi (2)
に基づく残差ei = Yi− ˆYiの2乗和を、a, b1, b2, . . . , bKについて最小化⇒重回帰の 。
a,b1min,b2,...,bK
Q(a, b1, b2, . . . , bK) =e2i K + 1 個の一階条件
−−−−−−−−−−−−−−−→ a∗, b∗1, b∗2, . . . , b∗K
OLS 推定量
. (3)
1
⊲ 重回帰のOLS推定量は表記が複雑(なので省略)→推定値は統計ソフトで計算。
⊲ 不偏性:単回帰と同様、重回帰のOLS推定量は、母回帰係数の 。 E(a) = α, E(bj) = βj, j = 1, 2, . . . , K. (4)
証明は、浅野・中村『計量経済学』4章参照。
誤差項分散の推定と標準誤差:誤差項uiの分散σ2
uは、次式で できる。
s2u = 1 n − (K + 1)
(Yi− ˆYi)2, E(s2u) = σ2u. (5)
⊲ すでにOLSでK + 1個の母数を推定(a, b1, b2, . . . , bK)。⇒自由度が 個落 ちる。
、s2uから、OLSの (バラつき)
s.e.(a), s.e.(bj), j = 1, 2, . . . , K (6)
を計算。詳しくは浅野・中村『計量経済学』4章参照。
⊲ 統計ソフトを使えば、推定値a, b1, b2, . . . , bKとセットで標準誤差が出力される。
t検定:単回帰同様、母回帰係数βjの仮説検定はt統計量 tj = bj
−βj
s.e.(bj) ∼T(n − (K + 1)) (7)
でOK。
⊲ ただし自由度の設定m = に要注意。
⊲ 単回帰同様、有意性検定(H0: β = 0の検定)がルーティンワーク。このときt値は
tj∗= bj−0
s.e.(bj) = . (8)
... コレも推定値bj、標準誤差s.e.(bj)とセットで出力される。
Remark:説明変数をたくさん使うほど、モデルの当てはまりは良くなる。∴決定係数R2
(講義ノート#23)は 。
⊲ 説明変数を増やしすぎる弊害=モデルの「シンプルさ」が失われる。⇒なるべく少 ない説明変数で、かつ説明力の高いモデルを立てるには?
⊲ 重回帰モデルの当てはまりは、R2ではなく 決定係数
R¯2= 1 − n − 1 n − K(1 − R
2) (9)
で評価。
⊲ R2を固定すると、R¯2はKの 。∴あまり当てはまりの改善に貢献しない 説明変数を付け加えると、R¯2は、むしろ低下。
1.2
なぜ重回帰モデルを使うのか?
重回帰vs.単回帰:分析者はデータ(X1i, X2i, Yi)を入手しているが、X1iとYiの関係だけに 興味があるとする。(X2iは興味なし。)
⊲ ... 単回帰モデルYi = α + βX1i+ uiでβを推定(−−−→OLS b)すれば十分では?
⊲ 単回帰のβと、重回帰モデルYi = α + β1X1i+ β2X2i+ uiの係数β1(
−−−→OLS b1)は、測っ
ているものが違う?
Remark:古典的仮定(講義ノート#24)よりE(ui) = 0なので、重回帰モデル(1)式の期 待値をとれば
E(Yi) = α + β1X1i+ β2X2i+ · · · + βKXKi. (10)
⊲ 適当な説明変数Xjiで偏導関数を求めると
∂E(Yi)
∂Xji = βj. (11)
∴重回帰の回帰係数βjは、「 としたうえで、XjiがE(Yi)に与え る影響」。→コレをデータから推定したのが、OLS推定量bj。
⊲ 一方単回帰Yi= α + βXi+ uiのOLS推定量bは、このような解釈ができない。
⊲ 単回帰と区別するため、重回帰の回帰係数を と呼ぶことも。
例:2010年1∼3月に大阪府豊中市と岸和田市で取引された、中古マンションのデータ。国 土交通省「土地総合情報システム」より(サンプル数n = 88)。
⊲ 被説明変数Yi:マンション価格pricei(万円)。
⊲ 説明変数Xji:面積areai(m2)、築年数agei(年)、最寄駅所要時間disti(分)。
⊲ 推定結果(カッコ内は有意性検定のt値) pricei= −368.01
(−0.85) + 41.01(6.96) areai−25.90(−4.56)agei−12.79(−1.06)disti, n = 88,
R¯2 = 0.46. (12)
...同じサイズ・同じ最寄駅からの距離のマンションで、築年数が 違うと、価
格が約 落ちる(bage= −25.90)。
2 回帰分析でのダミー変数
2.1
ダミー変数
ダミー変数:個体iが、ある属性・状態に該当しなければ0、該当すれば1となる変数 Di =
⎧⎪⎪⎨
⎪⎪⎩01 ifif iiが○が○ ○○ に該当しないに該当する
, i = 1, 2, . . . , n, (13)
を、 と呼ぶ。(講義ノート#01。)
⊲ iがどちらのグループに入るかを区別する「ラベル」。
⊲ 質的な情報(男or女など)−−−−−−−置き換え→数量(0 or 1)。分析が可能に。
例:学生n = 24人の身長と性別のデータ。
⊲ 女性ダミー:学生iが女性→Di = 、男性→Di= 。
⊲ 具体的には、Excel上で以下の置き換え。
番号 身長 性別
1 180 男
2 170 男
... ... ...
22 165 女
23 160 女
24 175 男
⇒
番号 身長 女性ダミー
1 180 0
2 170 0
... ... ...
22 165 1
23 160 1
24 175 0
2.2
ダミー変数を説明変数に
ダミー説明変数:説明変数Yiを、ダミー変数Diに回帰
Yi = α + βDi+ ui. (14)
⊲ 二次元データ(Di, Yi)からβをOLS推定→b。普通にβのt検定も可能。
⊲ ... そもそも、βは何を測っているのか?
係数βの意味:Yiの期待値はDiに依存するので、
E(Yi|Di) = α + βDi (15)
と表記。
⊲ Di= 0グループの平均は?→E(Yi|Di = 0) = 。
⊲ Di= 1グループの平均は?→E(Yi|Di = 1) = 。
⊲ ∴両グループの平均の差は
E(Yi|Di = 1) − E(Yi|Di = 0) = (α + β) − α = . (16)
YiをDiに回帰した(14)式の係数βは、 を測っている!⇒コ レをデータから推定したのが、OLS推定量b。
Remark:二つの母平均の差の統計的推測(二標本問題、講義ノート#18、#21)は、ダ
ミー変数による回帰分析で行った方が、何かと便利。
⊲ 利点1:OLS推定の方が、統計ソフトで実行しやすい。データの準備もラク。
⊲ 利点2:他の説明変数を交えて重回帰⇒「 として」Diの差でど れだけYiの平均に差があるか、分析できる。(二標本問題では、不可能。)
例:上の中古マンションの回帰分析で、説明変数に「豊中ダミー(toyonakai)」を追加。 推定結果は
pricei = −478.64
(−1.27) + 38.42(7.47) areai−35.14(−6.72)agei−26.50(−2.46)disti+ 791.40(5.32) toyonakai,
n = 88, R¯2= 0.59. (17)
同じサイズ・築年数・最寄駅距離だと、豊中のマンションは岸和田より約791万円高い。
⊲ 一方、priceiをtoyonakaiだけに回帰すると pricei= 1755.60
(10.10) + 445.99(2.17) toyonakai n = 88, R
2 = 0.05. (18)
...豊中の平均価格= 2201.587、岸和田の平均価格= 1755.600。∴単回帰のtoyonakai の係数は、平均の差2201.587 − 1755.600 = に等しい。
⊲ 単純比較だと両地域の平均価格差は約446万円⇒諸々を一定とすると、平均価格差 は約791万円。
まとめと復習問題
今回のまとめ
重回帰モデルYi= α + β1X1i+ β2X2i+ · · · + βKXKi+ ui
OLS 推定
−−−−−−−→a, b1, b2, . . . , bK。
ダミー説明変数:ダミーの回帰係数の意味。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. 「同じ所得水準の家庭で、子どもの塾通いが学力テストのスコアに与える影響」を推定し たい。
(a) どのようなデータ(変数)を用意し、どのような回帰モデルを推定すれば、分析者 の知りたい影響が推定できるか?
(b) 回帰分析によらずに、同様の効果を推定するにはどうすれば良いか?