計量経済学#12
重回帰分析 (2)
鹿野繁樹
大阪府立大学
2017 年 11 月更新
Outline
1 偏回帰係数
2 コントロール変数の重要性
テキスト:鹿野繁樹 [2015]、第 6.3 章・第 6.4 章。
前回の復習
1 重回帰モデル
2 重回帰分析の注意点
Section 1
偏回帰係数
重回帰モデルの偏回帰係数
古典的仮定を満たすk = 2 の重回帰モデルを考える。
Yi = α + β1X1i+ β2X2i+ ui, E(ui) = 0. (1) X1iがYiに与える効果を推定したい。⇒ 重回帰ではなく、Yi
をX1iに単回帰すれば十分?
一方、単回帰と重回帰では、同一説明変数の係数推定値が大 幅に異なる(講義ノート#11)。
単回帰と重回帰の回帰係数は、それぞれ何を測っている?
⇒ 鍵は、数学の「微分」と「偏微分」の違いにあり。
二変数の一次式y= a + b1x1+ b2x2の偏微分:x1の偏導関数は、 x2を適当な定数値c に固定し、
y = a + b1x1+ b2x2
x2= c に固定
−−−−−−−→
x1だけの関数
y= a + b1x1+ b2c 定数 x1で微分
−−−−−→ ∂y
∂x1 = b1. (2)
∴ 係数b1は、仮にx2が一定のときに、x1がy に与える影響を 測る。「他の条件を一定として(ceteris paribus)」。
x2の偏導関数も同様に、x1 = c に固定して微分。
∂y
∂x2 = b2. (3)
重回帰モデル(1) に戻り、説明変数 X1iとX2iが、次の依存関係に
あると仮定する。
仮定 1
解説のための臨時の仮定。今回限り有効。
X2i= η0+ η1X1i+ vi, E(vi) = 0. (4) η0とη1(エータ)は回帰係数。η1 = 0 の場合を除き、X2iの
変動はX1iで予測され得る。 viは、確率的な誤差項。
全ての観測個体のX2iが同一水準X2i = c ならば?⇒ (1) 式は Yi = α + β1X1i+ β2c+ ui. (5) 期待値をとりX1iで微分すれば、偏導関数
E(Yi) = α + β1X1i+ β2c
X1iで微分
−−−−−−→
X2i=c
∂E(Yi)
∂X1i
= β1. (6)
∴β1は、「仮にX2iを一定水準に固定したときに、X1iがYiの 期待値に与える影響」を測る!
重回帰モデルの回帰係数を、特に偏回帰係数と呼ぶ。 重回帰のOLS ˆβ1で、偏回帰係数β1の不偏推定が可能。
E( ˆβ1) = β1. (7)
以上の結果を一般型でまとめれば...
公式 1 ( 偏回帰係数の意味 )
一般的な重回帰モデル
Yi = α + β1X1i+ β2X2i+ · · · + βkXki+ ui (8) の偏回帰係数βj(j = 1, 2, . . . , k)は、「仮に Xji以外の変数が観測
間で同一水準のとき、XjiがYiの期待値に与える影響」を測る。 E(Yi) = α + β1X1i+ β2X2i+ · · · βkXki Xjiで微分
−−−−−−−→
Xji以外一定
∂E(Yi)
∂Xji
= βj. (9)
重回帰OLS ˆβjは、各βjの不偏推定量である。E( ˆβj) = β。 証明:前段で証明済み。
単回帰と重回帰の違い:除外変数バイアス
一方、「X2iが一定ではない」状態で、E(Yi) を X1iで微分すると?
⇒ X2iは(4) 式に従って変動。
(4) 式を (1) 式の X2iに代入・整理すれば
Yi = α + β1X1i+ β2(η0+ η1X1i+ vi) + ui
= (α + β2η0)
=α′
+ (β1+ β2η1)
=β′
X1i+ β2vi+ ui
=u′i
= α′ + β′X1i+ u′i. (10) コレは、YiをX1iだけに回帰した単回帰モデル!
単回帰のX1iの係数は dE(Yi)
dX1i
= β′ = β1+ β2η1. (11) X2iに由来する係数β2とη1が混在してしまう点に注目。
単回帰のOLS を ˆβ
′
と置けば、 ˆβ
′
はβ
′
を不偏推定。 しかし
E( ˆβ′) = β′ = β1+ β2η1 = β1 (12)
なので、単回帰で得られたOLS ˆβ
′
は偏回帰係数β1の不偏推 定量ではない。
単回帰と重回帰の違いを整理:(1) 式に登場する三変数 X1i、X2i、
Yiは、次の依存関係。
X1i −β→1 η1 ↓ Yi
X2i −β→2
(13)
重回帰:X2iが一定値に固定される⇒ OLS により
「X1i
β1
−→ Yi」がうまく識別される。
単回帰:X2iが自由に変動⇒ OLS は、「X1i
β1
−→ Yi」だけでな
く、「X1i
η1
−→ X2i −β→ Y2 i」まで拾ってしまう!
∴ 単回帰と重回帰のOLS では、異なる分析結果。
Remark 1
重回帰モデル(1) に関する、単回帰 OLS と重回帰 OLS の違い。 YiをX1iだけに単回帰: E( ˆβ′) = β1
Xi1→Yi
+ η1 Xi1→X2i
× β2 Xi2→Yi
, (14) YiをX1iとX2iに重回帰: E( ˆβ1) = β1
Xi1→Yi
. (15)
偏回帰係数β1の推定が目的ならば、単回帰OLS ˆβ
′
は不適切。
βˆ′の期待値とβ1の差
Bias( ˆβ′) = E( ˆβ′) − β1 = η1β2 ⇔ E( ˆβ′) = β1+ Bias( ˆβ′) (16) を、除外変数バイアス(omitted variables bias)と呼ぶ。
X2iをモデルから除外したことに起因するバイアス。
βˆ′でβ1を推定すると、推定結果としてターゲットのβ1 から Bias( ˆβ′) だけ外れた値が実現しやすくなる。
除外変数バイアスを避ける方法:素直に重回帰OLS を使えば 良い。
Section 2
コントロール変数の重要性
コントロール変数とは?
分析者は多くの場合、ある一つの説明変数XjiがYiに与える影響 を知りたい。
Xji以外の説明変数は、「その他変数の影響を一定」というコ ンディション作りのために使う。これらの変数を、コント ロール変数と呼ぶ。
どのような変数をコントロールしたかにより、実証分析の評 価・信頼性は大きく変わる。
∴ コントロール変数は「脇役」だが重要。
コントロール変数の重要性を確認するため、次の分析例を考える。
Example 1
講義ノート#01 のデータを用い、「駅へのアクセスの良さがマン ション価値に与える影響」を実証したい。
マンション価格pricei(万円)を最寄駅までの所要時間mini
(分)にOLS 回帰。(カッコ内は有意性の t 値。) pricei = 3092.68
(10.47) + 74.56(2.65) mini (17)
t 値を見ると、定数項・係数ともに統計的に有意。
駅までの時間が1 分長くなると市場価値が 72 万円増える傾向 が検出!
上の分析結果は、「世紀の大発見」?⇒ 答えはNO!
表1:マンション価格に関する 3 パターンの OLS 推定の結果。 モデル1 は (17) 式の再掲、モデル 2 は重回帰で「築年数」を、 モデル3 は「築年数」と「面積」をコントロールした推定値。
「面積」をコントロールすると、「最寄駅所要時間」の係数が 負で有意に。
モデル3:築年数・面積が同一のマンションは、最寄駅までの 所要時間1 分増につき 33 万円ほど価格が下がる。
モデル 1 モデル 2 モデル 3
係数 t値 係数 t値 係数 t値
定数項 3092.68 10.47 4325.66 13.08 1496.51 9.88 最寄駅時間(分) 74.56 2.65 66.25 2.58 -32.68 -3.20
築年数(年) -77.30 -6.40 -58.45 -12.61
面積(m2) 64.18 33.58
修正済みR¯2 0.03 0.20 0.88
サンプル数 n 194 194 194
説明変数の数 k 1 2 3
表1 : マンション価格の回帰分析
なぜ「面積」をコントロールしないと(17) 式のような結果(駅か ら遠いほど価格が高い)となるのか?
理由は単純:駅から遠い場所ほど広い物件が多いから。 面積はマンション価格に対し、非常に強い正の影響。
∴ 単にマンション価格を最寄駅からの距離(or 時間)に回帰 すると、部屋の広さによる価格上昇効果をOLS が拾う ⇒ 正 の係数が検出!
コントロール変数アプローチは、非実験データによる回帰分析の 問題点を一部解決。
補習参加が成績に与える効果の実証分析(講義ノート#01 の 数値例)を再考。
「補習に参加する子とそうでない子は、補習を抜きにしても、 もともと学力に違いがあるのでは?」
プログラム参加前の児童の学力に作用しうる要因(前年度の 成績や家庭の教育費支出など)を重回帰でコントロール⇒ こ れらを一定としたもとでの補習の効果をOLS 推定できる。
∴ 直接興味のない変数も、コントロール変数として調査・記 録する必要性。
実証分析の各分野ではコントロール変数の「定石」がある。 例:物件価格の分析では、物件面積のコントロールが必須。 迷ったら、既存の研究論文などを参考に。
Remark 2
実証分析では、適切なコントロール変数の使用を心がける。 単回帰OLS の結果は、さまざまな雑音(バイアス)が入る可 能性。
何をコントロールすべきか?⇒ 既存研究を参考にすればよい。
実験データの回帰分析
もし(4) 式で η1 = 0 ならば?
つまり説明変数X1iとX2iが互いに独立なケース。模式図で 表現すれば
X1i β1
−→
×独立 Yi
X2i β2
−→
(18)
このとき(12) 式ないし (16) 式は
E( ˆβ′) = β1+ 0 · β2 = β1. (19)
∴ バイアス項は消え、単回帰OLS ˆβ′が偏回帰係数β1の不偏 推定量に。
どんなデータ環境でη1 = 0 となる?
分析者がX1iの値を観測個体(被験者)にランダムに割り当 てる。∴ 無作為化実験(講義ノート#01)。
講義ノート#01 の新薬の投与量と血圧の分析を再考。
分析者が(コンピュータの乱数などで)新薬投与量X1iをラン ダムに与えれば、被験者i が持つあらゆる個人属性と独立に。 その他属性をコントロールしてもしなくとも、単回帰のOLS にバイアスが出ない。
実験データでは、重回帰(コントロール変数)はそれほど重要で ない。
「単回帰OLS で係数が統計的に有意」=「因果関係の実証」。 無作為化実験のポイント:説明変数とその他の個人属性に相 関・共変動が存在しないこと。
ダメな実験:次のようなルールで投与量を決めると、単回帰 OLS にバイアスが発生。
「年齢が高いほど多く投与」
「被験者の希望に従って投与」
コントロール変数の意義と限界
非実験データに基づく回帰分析(経済学など)では、コントロー ル変数による重回帰分析が必須。
マンション価格の例で経験したような、見当違いの結論を 回避。
次のような実験は、出来れば素晴らしいが、通常不可能。
「マンションの場所をランダムに決め、建てたのち価格を観測」
「ランダムに駅を作り、周りのマンションの価格を観測」
コントロール変数の限界:観測できない属性は、コントロールし ようがない!
例:喫煙が個人の健康状態に与える影響の実証分析(医療経 済学など)。
喫煙者と非喫煙者を比較:喫煙状況だけでなく、年収や学歴 など、健康に作用する可能性のある属性に有意差。⇒ これら 属性を重回帰でコントロールすべき。
しかし「リスク回避度」や「健康への選好」など、喫煙習慣 と健康状態双方に影響しうる重要な属性は、観測・コント ロール不可能!
∴「タバコを吸うと健康が損なわれる」のか、「健康に無関心 だからタバコを吸い、健康状態も悪い」のか、重回帰分析で は区別ができない。
統計理論上「喫煙状態を個人にランダムに与える」実験は理想的 だが、倫理上実行不可能。
コントロール(重回帰)も無理、実験も無理、どうすればよ い?⇒ 計量経済学は、そこで真価を発揮。
古典的回帰モデルの枠組みでは、この問題を議論できない。
⇒ 詳しくはこのコースの後半で。
今回の復習問題
次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。 講義名、日付、学籍番号、氏名を明記すること。
1 Yi = 個人 i の時間当たり賃金、X1i= 大卒以上ダミー(学歴)、 X2i =15 歳時点での家計所得、と置く。仮に X2iが同一だとし
て、X1iの違いだけでどれほどYiに差がでるか、実証したい。
1 回帰分析でこの実証分析を行なうには、どうすればよいか?
2 上記以外の方法として、どのようなものが考えられるか?
(テキスト第6 章復習問題 6.2 の類題。)
References
鹿野繁樹. 新しい計量経済学. 日本評論社, 2015.