重回帰分析計量経済学鹿野研究室 note12

(1)

担当：鹿野（大阪府立大学）

2013 年度後期

はじめに

前回の復習

重回帰モデルと_OLS推定。

重回帰版_OLS推定量の性質（単回帰とほぼ同じ）。

今回学ぶこと

重回帰分析を行う意義。

非実験データにおける重回帰分析の役割。

テキスト該当箇所：_4.2、_4.5章。講義ノート_#01の前半も参照。

1 なぜ重回帰分析か？

1.1 単回帰と重回帰：OLS 推定結果の違い

重回帰OLSの特徴：分析に使う説明変数の組み合わせにより、同一説明変数に関するOLS の推定結果が（大幅に）変わる。

⊲ 簡単化のため、説明変数が_{K = 2}個の重回帰モデルを考える。

Yi= α + β1X_1i_{+ β}2X_2i_{+ u}i. (1)

⊲ ^このときX_i^の係数β1^のOLS^{は（講義ノート}#11^、β2^は省略）^、

βˆ1= ^S²²^S^1Y^{− S}¹²^S^2Y S11S22− S12S12

. (2)

⊲ ^一方、Yi^を ^{に回帰した単回帰}OLS^をβ^ˆ^′^{と置けば、} βˆ^′₌ ^(X¹ⁱ^{− ¯}^X¹^)(Yⁱ^{− ¯}^Y)

(X_1i_{− ¯}X₁)² ⁼ S_1Y S11

ˆ_β₁_. ₍₃₎

もし説明変数同士の偏差積和が_S₁₂₌_(X_1i_{− ¯}_X₁_)(X_2i_{− ¯}_X₂_{) = 0}ならば、 βˆ1₌

S22S_1Y_{− 0} S₁₁S₂₂_{− 0} ⁼

S_1Y S₁₁ ^{= ˆ}^β

′_. ₍₄₎

1

(2)

⊲ ^一方、X_1i^とX_2iの標本共分散の定義より

偏差積和_S₁₂_{= 0} _⇔ 共分散_s₁₂₌ 1

n − 2^S¹² ^{= 0.} ⁽⁵⁾

⊲ ∴ ^（s12= 0^{）ならば、単回帰の}^OLS^{と重回帰の}^OLS^は一致。

⇒重回帰をする意味がなくなる。

_Remark：一般に重回帰_βˆ₁と単回帰_βˆ′の推定結果は、異なる。

. (6)

⊲ ∴ OLS^{の推定結果は、}「相方」の変数に依存する。

⊲ X1i^と^X2iが無相関なら、両者は等しい。

S12= s12 = 0 ⇒ ^. ⁽⁷⁾

...この状況は、実証分析ではまずありえない。偶然・例外的なケース。

⊲ ^単回帰OLS^と重回帰OLSは、それぞれ何を推定している？_⇒計量経済学のメインテーマ、「因果性の統計的推測」と密接に関係

例：₂₀₁₀年に東京・世田谷で取引された₁₉₄件の中古マンションの「価格（万円）」を、₃ つの説明変数、₍₁₎「最寄駅からの所要時間」、₍₂₎「築年数」、₍₃₎「フロア面積」に重回帰。

モデル₁ モデル₂ モデル₃ 係数 _t値係数 _t値係数 _t値

定数項 _3092.68 _10.47 _4325.66 _13.08 _1496.51 _9.88

最寄駅時間（分） _74.56 _2.65 _66.25 _2.58 _-32.68 _-3.20 築年数（年） _-77.30 _-6.40 _-58.45 _-12.61

面積（_m²） _64.18 _33.58

修正済み決定係数_R¯² _0.03 _0.20 _0.88

サンプル数_n ₁₉₄ ₁₉₄ ₁₉₄

変数の数_K ₁ ₂ ₃

⊲ その他の説明変数に何を使ったに応じて、「最寄駅時間」の係数が変化。_⇒「面積」を説明変数に加えると、符号が逆転。

⊲ 「面積」を含めないモデル₁、モデル₂の分析結果に基づくと、「駅から遠ざかるほど、マンション価格が（！？）」_... 非常にオカシナ予測に。

1.2 偏回帰係数

偏微分のおさらい：重回帰モデル₍₁₎式の回帰係数_β₁は、何を測っているのか？_⇒(1)式の期待値をとれば、古典的仮定の_CR1、_CR2より

E(Yi) = α + β1X_1i_{+ β}2X_2i. (8)

⊲ Xi2^{を全員共通の適当な} ^すれば

E(Yi) = α + β1X_1i_{+ β}2X₂^∗. (9)

(3)

⊲ ^{上式は形式上、}1^変数X_1i^の関数。X_1i^{で微分すると}

∂E(Yi)^∗

∂X_1i ^{= β}¹^. ⁽¹⁰⁾

... ^コレは ^{の操作手順。}

_Remark：重回帰モデルの係数は、、当該

変数の_Y_iへの影響を図る。

βˆj= ^∂E(Yⁱ⁾

∗

∂X1i

,

X_{i j}以外の変数を定数に固定

j = 1, 2, . . . , K. ⁽¹¹⁾

⊲ いわゆる偏微分の解釈と同じ。∴重回帰の回帰係数を、と呼ぶ。

⊲ OLS^推定β^ˆj^により、βjの最小分散の不偏推定量が得られる（重回帰版ガウス・マル

コフの定理、講義ノート_#11）。_{E( ˆ}_β_j_{) = β}_j。

⊲ 説明変数の組み合わせにより、さまざまな偏回帰係数があり得る。（マンション価格の分析例参照。）

1.3 除外変数バイアス

それでは、「他の変数が」とはどういう状況？_⇒ここで、この場限りの仮定 X_2i_{= γ}₀_{+ γ}₁X_1i_{+ v}_i, E(vi) = 0 ⁽¹²⁾ を置く。∴_X_2iと_X_1iの依存関係をモデル化した線形回帰。_X_2iが、_X_1iと_v_iに依存してバラつく。

⊲ γ0^、γ1^{はある種の回帰係数。}vi^{は確率的な誤差項。}

⊲ ^注意：vi^{が確率変数}→^上式より^X2i^{は確率変数。}⇒^{古典的仮定}^CR1^{に反する！}

_X_2iを固定せず、₍₁₂₎式に従って変動するとするならば、₍₁₎式に代入することにより Y_i_{= α + β}1X_1i_{+ β}2(γ0_{+ γ}1X_1i_{+ v}_i_{) + u}_i

= α + β²^γ⁰

=α^′

+ (β¹+ β²^γ¹⁾

=β^′

X_1i_{+ β}2vi_{+ u}i

=u^′_i

= ^. ⁽¹³⁾

⊲ ^コレは、Y_i^をしたモデルに他ならない。_{⇒ β}^′の_OLS、_βˆ^′は₍₃₎ 式参照。

⊲ ˆβ^′^はβ^′の不偏推定量なので、期待値を取れば（_β^′の定義に注意）、

E( ˆβ^′_{) = β}^′ _{= β}1+ β2γ1 . (14)

∴単回帰の_βˆ^′は、「偏回帰係数_β₁ではない別の何か」を見事に不偏推定している。

除外変数バイアス：分析者の目的が偏回帰係数_β₁の推定であるときに、適切な説明変数 X_2i^を除いてOLS推定したことで生じるバイアス

Bias = E( ˆβ^′) − β¹ = ⁽¹⁵⁾

を、と呼ぶ。バイアス（_bias）＝偏向、偏り。

(4)

⊲ ˆβ^′^{は、偏回帰係数}β1^（ ^{）に加え間接効果}β2γ1^（ ^）ま

で拾ってしまう！

⊲ ∴ ˆβ^′は、系統的に偏回帰係数_β₁を過大評価・過小評価。ターゲット_β₁からズレた推

定値をはじき出しやすい。_⇒素直に重回帰_OLSをすべき。

_Remark：「除外変数バイアスの回避」こそが、わざわざ重回帰分析をすることの目的。

⊲ ^{バイアスの方向性は、}β2^（ ^）とγ1^（ ^{）の符号で決まる。ま}

とめると

β2< 0 β2 > 0 γ1< 0 Bias> 0 Bias< 0 γ1> 0 Bias< 0 Bias> 0

2 非実験データにおける重回帰分析の役割

2.1 実験データによる回帰分析

_Remark：重回帰モデル₍₁₎式の推定に当たり、次の状況下では、_Y_iを_X_1iだけに単回帰してもバイアスは発生しない。

⊲ ^ケース1^： ^{。そもそも}X_2i^がY_iに影響しない。このとき

E( ˆβ^′_{) = β}1_{+ 0 · γ}1₌ . (16)

⊲ ^ケース2^： ^。X_2i^が、X_1iとは独立に決まっている。このとき

E( ˆβ^′_{) = β}1_{+ β}2_{· 0 =} . (17)

⊲ ^{どんなとき、ケース}2^のγ1= 0^となる？⇒^{分析者が、}^X1i^と^X2i^{が独立になるように}

X_1i^{を与えればよい。}

無作為化実験：分析者が、_γ₁ _{= 0}となるように_X_1iの値をランダムに観測個体（被験者）に割り振る実験を、と呼ぶ。

⊲ コンピュータの乱数などでランダムに _X_1iの値（例えば薬品の投与量）を決める。

⇒ X1i^と^X2i（例えば年齢）が独立。_γ₁_{= 0}。この_X_1iは、個体_iが持つあらゆる属性と独立。

⊲ ∴無作為化実験が可能なら、単回帰でいつでも「_X_1i _{→ Y}_i」の純粋なが推定できる。_→あとは有意性の検定をするだけ。

⊲ ^{講義ノート}#01で「実験データなら、分析が比較的簡単」と述べた理由が、コレ。

2.2 非実験データ：コントロール変数の重要性

非実験データ：経済学などの実験が難しい分野（社会科学）では、を使わざるを得ない。

⊲ 例：社会調査（アンケート）や店舗の売上データ、財務データ、市場取引データなど。

(5)

⊲ ^{観測対象の自由な} ^{の結果や、市場の} ^{を記録した数字。分} 析者の介入がない、ありのままの記録。

⊲ 非実験データでは、分析者が_X_1iの値をランダムに決められない。∴一般に説明変数

（個人属性）同士が相関。_{⇒ γ}₁₀。

⊲ ∴^重回帰OLS^で、「他の条件を一定とした」偏回帰係数を推定すべき。

コントロール変数：重回帰モデル

Yi = α + β1X_1i_{+ β}2X_2i+ · · · + βKXKi+ ui ⁽¹⁸⁾

で、分析者は_X_1iの偏回帰係数_β₁（_X_1i _{→ Y}_i）に興味があるとする。∴ _X_1iはこの回帰分析の「」。

⊲ β1^は「X_2i, . . . , XKi^{を一定としたとき、}X_1i^{の変化が平均的な}Yi^{に与える影響」}^。

⊲ ^ここでX_2i, . . . , XKi^を、 ^と呼ぶ。

⊲ ^{コントロール変数}X_2i, . . . , XKi^{は分析の上で「} ^」だが、β1^{に「他の条件を一}

定_∼」という意味を持たせる上で非常に重要。

_Remark：非実験データの分析で、「_X_1iだけにしか興味が無いから、他の変数は使わず単

回帰分析する」という考えは、。

⊲ むしろ、重回帰分析で他の変数の影響をコントロールするべき。

⊲ 係数の統計的有意性も大切だが、「どのような変数をコントロールしたか」も重要。分析の評価を左右する。

例：マンション価格の分析例で、「面積」をコントロールしないと、「最寄駅からの時間」の係数が正で有意に。

⊲ 分析の素人は、次のような（一見もっともらしい）結論を下しかねない。「世田谷などの高級住宅街のマンションの購買層は、より閑静な場所を居住地に求める。従って駅から遠いほど価格にプレミアがつく。」

⊲ 正解：駅から近いほどマンションの面積がなる傾向がある。一方、狭いほどマンション価格は落ちる。∴「最寄駅からの時間」の係数は、「マンションの広さ」が「価格」に与える影響を拾っているだけ。_⇒実際、「マンションの広さ（面積）」をコントロールすると、「最寄駅からの時間」の係数が負で有意になる。

2.3 重回帰分析の限界

重回帰分析（コントロール変数アプローチ）の限界：データとして変数しか、重回帰でコントロールできない。

⊲ ^{一方、データとして} 変数も全てコントロールしないと、実験データと同じ意味での「因果関係」は立証（推定_→有意性検定）できない。

例：妊婦の喫煙_X_1iが、生まれる子どもの体重_Y_i（低体重児）に与える影響の推定。

⊲ 実証上の問題：タバコという側面を「抜き」にしても、喫煙者と非喫煙者はあらゆる面で異なる。

(6)

∗ 妊婦の学歴や年齢、所得水準などは _⇒重回帰でコントロール可能。

∗ 「子どもの健康への選好」、「リスク全般に対する態度」、「子を想う母性・愛情」などは _⇒コントロール不可能。

⊲ ^{本当にタバコのせい？}「母親がタバコを吸と低体重児が生まれるんじゃなくて、単に子どもの健康に無頓着だからタバコも吸うし、そんな親から生まれる子どもだから低体重児なんじゃないの？」_...重回帰分析では反論できない。

⊲ ^{実験で喫煙量}X_1iを妊婦にランダムに与えてみる？_⇒もってのほか。

非実験データによる変数間の（causal inference）をめぐる議論は、計量経済学の近年の潮流を理解する上で重要。

⊲ 未解決の問題の多い、先端的なトピックの一つ。しかし同時に、経済学実証の古典的問題（需要曲線・供給曲線の推定）とも密接に関係。

⊲ 回帰分析の考え方自体を、再構築する必要。_⇒古典的回帰モデルからの脱却。この講義の終盤で、再考する。

まとめと復習問題

今回のまとめ

重回帰モデルの回帰係数の意味（偏回帰係数）と、除外変数バイアス。

非実験データにおける重回帰分析：コントロール変数の重要性。

復習問題

出席確認用紙に解答し（用紙裏面を用いても良い）、退出時に提出せよ。

1. ^{重回帰モデル}Y_i _{= α + β}₁X_1i_{+ β}₂X_2i_{+ u}_i, E(ui) = 0^{の回帰係数}^β1^{は、どんな意味がある}

か？（何を測っているか？）簡潔に述べよ。

2. ^{上のモデルからから}X_2i^を除いてOLS^{推定すると、}β1の推定に関してどんな問題が生じるか？簡潔に述べよ。

重回帰分析 計量経済学 鹿野研究室 note12