回帰分析経済統計鹿野研究室

(1)

担当：鹿野（大阪府立大学）

2014 年度前期

はじめに

前回の復習

線形回帰モデル_Y_i _{= α + βX}_i_{+ u}_i。

_OLS推定量_{a, b}で_{α, β}を推定_→仮説検定。

今回学ぶこと

重回帰モデル。

回帰分析でのダミー変数。

テキスト該当箇所：₁₃章。

1 ^{重回帰モデル}

1.1

線形回帰モデルの拡張：重回帰モデル

重回帰モデル：説明変数を複数持つ回帰モデル

Y_i _{= α + β}₁X_1i_{+ β}₂X_2i+ · · · + βK^XKi+ ui ⁽¹⁾

を、と呼ぶ。

⊲ ^{ひとつの被説明変数}Yi^{の動きを、} ^{の説明変数}X1i, X2i, . . . , XKi^で説明。

⊲ ^{未知の母数は}α, β₁, β₂, . . . , β_K^{（と誤差項}u_i^の分散σ²_u^）^。

⊲ ^{説明変数が}_{K = 1}個のモデル（講義ノート_#22、_#23）は、。

重回帰の_OLS推定量：_{K + 1}次元のデータ_(X_1i_{, X}_2i, . . . , X_Ki, Y_i)^{による回帰直線}

Yˆ_i _{= a + b}₁X_1i_{+ b}₂X_2i+ · · · + bK^XKi ⁽²⁾

に基づく残差_e_i _{= Y}_i_{− ˆ}_Y_iの₂乗和を、_{a, b}₁_{, b}₂, . . . , b_K^{について最小化}⇒^重回帰の ^。

a,b1min,b2,...,bK

Q(a, b₁, b₂, . . . , b_K_{) =}e²_i K + 1 個の一階条件

−−−−−−−−−−−−−−−→ a^∗, b^∗₁, b^∗₂, . . . , b^∗_K

OLS 推定量

. (3)

1

(2)

⊲ ^重回帰のOLS推定量は表記が複雑（なので省略）_→推定値は統計ソフトで計算。

⊲ 不偏性：単回帰と同様、重回帰の_OLS推定量は、母回帰係数の。 E(a) = α, ^E(bj) = βj, j = 1, 2, . . . , K. ⁽⁴⁾

証明は、浅野・中村『計量経済学』₄章参照。

誤差項分散の推定と標準誤差：誤差項_u_iの分散_σ²

u^{は、次式で} ^できる。

s²_u ₌ ¹ n − (K + 1)

(Y_i− ˆY_i)², E(s²_u_{) = σ}²_u. (5)

⊲ ^すでにOLS^で_{K + 1}^{個の母数を推定（}a, b₁, b₂, . . . , b_K^）^。⇒^自由度が ^個落ちる。

、_s²_uから、_OLSの（バラつき）

s.e.(a), s.e.(bj), j = 1, 2, . . . , K ⁽⁶⁾

を計算。詳しくは浅野・中村『計量経済学』₄章参照。

⊲ 統計ソフトを使えば、推定値_{a, b}₁_{, b}₂, . . . , bKとセットで標準誤差が出力される。

_t検定：単回帰同様、母回帰係数_β_jの仮説検定は_t統計量 tj = ^b^j

−β_j

s.e.(b_j) ^∼T(n − (K + 1)) ⁽⁷⁾

で_OK。

⊲ ^{ただし自由度の設定}_{m =} ^{に要注意。}

⊲ 単回帰同様、有意性検定（_H₀_{: β = 0}の検定）がルーティンワーク。このとき_t値は

t_j∗₌ ^b^j⁻⁰

s.e.(bj) ⁼ ^. ⁽⁸⁾

... ^{コレも推定値}bj^{、標準誤差}s.e.(bj)とセットで出力される。

_Remark：説明変数をたくさん使うほど、モデルの当てはまりは良くなる。∴決定係数_R²

（講義ノート_#23）は。

⊲ 説明変数を増やしすぎる弊害＝モデルの「シンプルさ」が失われる。_⇒なるべく少ない説明変数で、かつ説明力の高いモデルを立てるには？

⊲ 重回帰モデルの当てはまりは、_R²ではなく決定係数

R¯²_{= 1 −} ^{n − 1} n − K^{(1 − R}

2₎ ₍₉₎

で評価。

⊲ R²^{を固定すると、}R^¯²^はK^の ^。^∴あまり当てはまりの改善に貢献しない説明変数を付け加えると、_R¯²は、むしろ低下。

(3)

1.2

なぜ重回帰モデルを使うのか？

重回帰_vs.単回帰：分析者はデータ_(X_1i_{, X}_2i_{, Y}_i₎を入手しているが、_X_1iと_Y_iの関係だけに興味があるとする。（_X_2iは興味なし。）

⊲ ... ^{単回帰モデル}Y_i _{= α + βX}_1i_{+ u}_i^でβ^を推定（−−−→^OLS b^{）すれば十分では？}

⊲ ^単回帰のβ^{と、重回帰モデル}Yi = α + β1X1i+ β2X2i+ ui^の係数β1^（

−−−→OLS b1^{）は、測っ}

ているものが違う？

_Remark：古典的仮定（講義ノート_#24）より_E(u_i_{) = 0}なので、重回帰モデル₍₁₎式の期待値をとれば

E(Y_i_{) = α + β}₁X_1i_{+ β}₂X_2i+ · · · + βK^XKi^. ⁽¹⁰⁾

⊲ ^{適当な説明変数}Xji^{で偏導関数を求めると}

∂E(Y_i)

∂X_ji ^{= β}^j^. ⁽¹¹⁾

∴重回帰の回帰係数_β_jは、「としたうえで、_X_jiが_E(Y_i₎に与える影響」。_→コレをデータから推定したのが、_OLS推定量_b_j。

⊲ ^{一方単回帰}Yi= α + βXi+ ui^のOLS^推定量bは、このような解釈ができない。

⊲ 単回帰と区別するため、重回帰の回帰係数をと呼ぶことも。

例：₂₀₁₀年_1∼3月に大阪府豊中市と岸和田市で取引された、中古マンションのデータ。国土交通省「土地総合情報システム」より（サンプル数_{n = 88}）。

⊲ ^{被説明変数}Yi^{：マンション価格}pricei^（万円）^。

⊲ ^説明変数Xji^：面積areai^（m²^）^、築年数agei^（年）^{、最寄駅所要時間}disti^（分）^。

⊲ 推定結果（カッコ内は有意性検定の_t値） price_i_{= −368.01}

(−0.85) ^{+ 41.01}(6.96) ^areaⁱ⁻^25.90(−4.56)^ageⁱ⁻^12.79(−1.06)^distⁱ^, ^{n = 88,}

R¯² _{= 0.46.} (12)

...同じサイズ・同じ最寄駅からの距離のマンションで、築年数が違うと、価

格が約落ちる（_b_age_{= −25.90}）。

2 回帰分析でのダミー変数

2.1

^{ダミー変数}

ダミー変数：個体_iが、ある属性・状態に該当しなければ₀、該当すれば₁となる変数 Di =

⎧⎪⎪⎨

⎪⎪⎩⁰₁ ^if_if ⁱ_i^が○が○ ^○○ ^{に該当しない}に該当する

, i = 1, 2, . . . , n, ⁽¹³⁾

を、と呼ぶ。（講義ノート_#01。）

⊲ iがどちらのグループに入るかを区別する「ラベル」。

(4)

⊲ ^{質的な情報（男}or^女など）−−−−−−−^置き換え→^数量（0 or 1^）^{。分析が可能に。}

例：学生_{n = 24}人の身長と性別のデータ。

⊲ ^{女性ダミー：学生}i^が女性→Di = ^、男性^→^Di= ^。

⊲ ^{具体的には、}Excel^{上で以下の置き換え。}

番号身長性別

1 180 ^男

2 170 ^男

... ^... ^...

22 165 ^女

23 160 ^女

24 175 ^男

⇒

番号身長女性ダミー

1 180 0

2 170 0

... ^... ^...

22 165 1

23 160 1

24 175 0

2.2

ダミー変数を説明変数に

ダミー説明変数：説明変数_Y_iを、ダミー変数_D_iに回帰

Y_i _{= α + βD}_i_{+ u}_i. (14)

⊲ ^{二次元データ}(Di, Yi)^からβ^をOLS^推定→b^。普通にβ^のt^{検定も可能。}

⊲ ... ^{そもそも、}βは何を測っているのか？

係数_βの意味：_Y_iの期待値は_D_iに依存するので、

E(Yi|Di) = α + βDi (15)

と表記。

⊲ D_i_{= 0}^{グループの平均は？}→E(Y_i|D_i _{= 0) =} ^。

⊲ Di= 1^{グループの平均は？}^→E(Yi|Di = 1) = ^。

⊲ ∴両グループの平均の差は

E(Yi|Di = 1) − E(Yi|Di = 0) = (α + β) − α = ^. (16)

Y_i^をD_i^{に回帰した}(14)^式の係数β^は、 ^{を測っている！}⇒^コレをデータから推定したのが、_OLS推定量_b。

_Remark：二つの母平均の差の統計的推測（二標本問題、講義ノート_#18、_#21）は、ダ

ミー変数による回帰分析で行った方が、何かと便利。

⊲ ^利点1^：OLS推定の方が、統計ソフトで実行しやすい。データの準備もラク。

⊲ ^利点2：他の説明変数を交えて重回帰_⇒「として」_D_iの差でどれだけ_Y_iの平均に差があるか、分析できる。（二標本問題では、不可能。）

(5)

例：上の中古マンションの回帰分析で、説明変数に「豊中ダミー（_toyonaka_i）」を追加。推定結果は

price_i _{= −478.64}

(−1.27) ^{+ 38.42}(7.47) ^areaⁱ⁻^35.14(−6.72)^ageⁱ⁻^26.50(−2.46)^distⁱ^{+ 791.40}(5.32) ^toyonakaⁱ^,

n = 88, ^R^¯²= 0.59. (17)

同じサイズ・築年数・最寄駅距離だと、豊中のマンションは岸和田より約₇₉₁万円高い。

⊲ ^一方、price_i^をtoyonaka_i^{だけに回帰すると} price_i_{= 1755.60}

(10.10) ^{+ 445.99}(2.17) ^toyonakaⁱ ^{n = 88,} ^R

2 = 0.05. ⁽¹⁸⁾

...^{豊中の平均価格}_{= 2201.587}^{、岸和田の平均価格}_{= 1755.600}^。^∴^単回帰のtoyonaka_i の係数は、平均の差2201.587 − 1755.600 = ^{に等しい。}

⊲ 単純比較だと両地域の平均価格差は約₄₄₆万円_⇒諸々を一定とすると、平均価格差は約₇₉₁万円。

まとめと復習問題

今回のまとめ

重回帰モデル_Y_i_{= α + β}₁_X_1i_{+ β}₂_X_2i+ · · · + βKXKi+ ui

OLS 推定

−−−−−−−→a, b1, b2, . . . , bK^。

ダミー説明変数：ダミーの回帰係数の意味。

復習問題

出席確認用紙に解答し（用紙裏面を用いても良い）、退出時に提出せよ。

1. 「同じ所得水準の家庭で、子どもの塾通いが学力テストのスコアに与える影響」を推定したい。

(a) どのようなデータ（変数）を用意し、どのような回帰モデルを推定すれば、分析者の知りたい影響が推定できるか？

(b) 回帰分析によらずに、同様の効果を推定するにはどうすれば良いか？

回帰分析 経済統計 鹿野研究室