計量経済学#07
OLS 回帰 (2)
鹿野繁樹
大阪府立大学
2017 年 11 月更新
Outline
1 OLS 回帰と OLS 残差
2 決定係数
テキスト:鹿野繁樹 [2015]、第 4.3 章・第 4.4 章。
前回の復習
1 回帰直線と最小2 乗法(OLS) 2 OLS 係数の代数的構造
Section 1
OLS 回帰と OLS 残差
OLS による予測の特徴
OLS 係数 a∗, b∗に基づく特別な回帰直線
Yˆi = a∗+ b∗Xi, a∗ = ¯Y − b∗X,¯ b∗ = SXY SXX
(1)
をOLS 回帰と呼ぶ。
任意の回帰直線Yˆi = a + bXiと区別。
OLS 回帰 ˆYiによるYiの予測と、その残差(予測誤差)は、い かなる代数的特徴を持つか?
便利な表現:a∗ = ¯Y − b∗X を¯ (1) 式に代入すれば Yˆi = ¯Y − b∗X¯ + b∗Xi = ¯Y − b∗X¯ + b∗Xi
= ¯Y −(Xi− ¯X)b∗. (2)
公式 1 (OLS 回帰の別表現 )
OLS 回帰の式を b∗だけの式で表すと
Yˆi = ¯Y −(Xi− ¯X)b∗ ⇔ Yˆi− ¯Y = −(Xi − ¯X)b∗. (3)
証明:前段で証明済み。
OLS 回帰によるシミュレーション:(1) 式 or 上式より、仮想的 な値Xi = X∗を置いたときのOLS 予測値 ˆY∗を得る。
公式(2) の Xiに平均値X を与えると¯
Xi = ¯X ⇒ Yˆi = ¯Y −( ¯X − ¯X)b∗ = ¯Y . (4)
∴Yiの予測値も平均値Y 。¯
「平均的なXiを持つ個体は,Yiも平均的」。
図1:散布図上に OLS 回帰 (1) 式を描くと、必ず座標 ( ¯X, ¯Y) を通る!
公式 2 ( 平均値を通る OLS 回帰 )
OLS 回帰は,平均値の座標 ( ¯X, ¯Y) を通る。
Xi = ¯X ⇒ Yˆi = ¯Y . (5) 証明:前段で証明済み.
Xi
Yi
X
Y
図1 : 平均の座標( ¯X, ¯Y)を通るOLS回帰
公式(2) の両辺の和を求めれば
Yˆi = Y −¯ (Xi− ¯X)b∗ =Y¯
=n· ¯Y
−b∗(Xi− ¯X)
=0
= n ¯Y
⇒ 上式両辺をn で割れば
Yˆi = n ¯Y ⇔ 1 n
Yˆi = ¯Y .
OLS 予測値 ˆYiの平均は常に、本物Yiの平均と等しい!
公式 3 (OLS 予測の平均 )
OLS による予測値 ˆYiの平均は、Yiの平均と等しい。 Y¯ˆ = 1
n
Yˆi = ¯Y . (6)
証明:前段で証明済み.
∴OLS 予測値 ˆYiと実際の観測値Yiは共に、 ¯Y を軸にバラ つく。
OLS 残差
OLS 回帰 (1) による特別な残差をOLS 残差と呼び、 ˆ
ui = Yi− ˆYi = Yi−a∗−b∗Xi (7) と表記して一般の残差ei = Yi−a − bXiと区別。
この表記に従えば、OLS 係数 a∗,b∗で評価した(最小化され た)残差2 乗和は
Q∗ = Q(a∗, b∗) = uˆ2i =(Yi−a∗−b∗Xi)2. (8) 図2の最小値に相当。
b* b**
Q*Q**
Q(b)=Q(a~,b)
図 2 : 残差2乗和Q(b)とOLS係数b∗(a= ˜aに固定)、再掲
最小化の一階条件も、uˆiで表記。
公式 4 ( 最小化の一階条件(再掲) )
uˆi = 0, uˆiXi = 0. (9)
ただしuˆi = Yi−a∗−b∗XiはOLS 残差。
証明:残差2 乗和最小化の一階条件(講義ノート#07)の eiを、uˆi と書き換えただけ。
(9) 式より、
¯ˆu = 1 n
uˆi = 0. (10)
∴OLS 残差 ˆuiの平均は、常にゼロになる。
公式 5
ˆ
uiとXiの偏差積和をSXˆu =(Xi− ¯X)(ˆui− ¯u) と置けばˆ
SXˆu = 0. (11) 証明: ¯uˆ= 0 なので,(9) 式から
SXuˆ =(Xi− ¯X)(ˆui− ¯uˆ)
=(Xi− ¯X)ˆui =uˆiXi
=0
− ¯Xuˆi
=0
= 0. (12)
∴uˆiとXiの共分散はsXuˆ = n−11 SXuˆ = 0 で、両者は無相関。
⇒uˆiには、Xiで予測できる変動がもはや残っていない。 OLS は、Xiの情報を使い尽くしている!
公式 6
ˆ
uiとYˆiの偏差積和はゼロ。
SYˆuˆ = 0. (13) 証明:公式(2) および (9) 式から
SYˆuˆ =( ˆYi− ¯Y)(ˆui− ¯u)ˆ
= ( ˆYi− ¯Y)
=−(Xi− ¯X)b∗
ˆ
ui = −b∗(Xi− ¯X)ˆui
=SX ˆu=0
= 0. (14)
Section 2
決定係数
偏差 2 乗和の分解公式
OLS の、散布図 (Xi, Yi) への当てはまりの度合いを事後評価する には?⇒ OLS 回帰 (1) を移項すれば、
Yi = ˆYi+ ˆui. (15)
∴Yiは、OLS 回帰で予測される ˆYiと、OLS 残差 ˆui(予測誤差) の和。
Yˆiは、Yiの動きを何割程度説明できているか? Yˆiの総変動を測るため、回帰2 乗和
SY ˆˆY =( ˆYi− ¯Y)2
を定義。( ˆYiの偏差2 乗和。)
(15) 式両辺から ¯Y を引き2 乗:
Yi − ¯Y = ˆYi− ¯Y + ˆui (16)
⇒ (Yi− ¯Y)2 =( ˆYi− ¯Y) + ˆui2
= ( ˆYi− ¯Y)2+ 2( ˆYi− ¯Y)ˆui+ ˆu2i. (17) 上式両辺の和をとり、公式(13) を使えば
(Yi− ¯Y)2
=SY Y
= ( ˆYi− ¯Y)2+ 2( ˆYi− ¯Y)ˆui+ ˆu2i
=( ˆYi− ¯Y)2
=SYˆYˆ
+2( ˆYi− ¯Y)ˆui
=SY ˆˆu=0
+uˆ2i
=Q∗
公式 7 ( 偏差 2 乗和の分解公式 )
Yiの偏差2 乗和(総変動)SY Y は,回帰変動と、最小化された残 差2 乗和の和に分解される。
SY Y = SY ˆˆY + Q∗. (18) 証明:前段で証明済み.
SY Y >0、SY ˆˆY >0、Q∗ >0 なので、(18) 式より
SY Y > ˆSY Y. (19)
∴ 予測値 ˆYiの変動は,本物Yiの変動を下回る。 Yi =生身の人間
Yˆi =その動きを似せたロボット。(OLS=なるべく精巧なロ ボットを作る手段。)
決定係数 R
2:モデルの当てはまり
分解公式(18) から、OLS 予測のデータへの当てはまりを測る決定 係数を以下に定義。
R2 = SY ˆˆY
SY Y. (20)
R2は、Yiの総変動のうち、OLS 回帰 ˆYi = a∗+ bXi∗で説明で きた割合。
OLS の残差 2 乗和 Q∗を使って R2 = 1 − Q
∗
SY Y (21)
と計算してもよい。
決定係数R2は、上限と下限を持つ。
公式 8 ( 決定係数の下限・上限 )
0 < R2 <1. (22) 証明:公式(18) から明らか。
∴R2が1 に近いほど
Yiの変動がOLS回帰Yˆiでよく説明されている。 Yˆiがデータによくフィットしている。
Remark 1
決定係数R2で、OLS 回帰のデータへの適合度を評価。 R2 = SˆY Y
SY Y =
OLS で予測された変動
Yiの総変動 , 0 ≤ R
2 ≤1. (23)
R2が1 に近い ⇒ 当てはまりが良い。 R2が0 に近い ⇒ 当てはまりが悪い。
OLS を行ったら、OLS の係数 a∗,b∗と共に決定係数R2も必 ずレポート!
... 統計ソフトで OLS を実行すれば自動出力される。
Example 1
講義ノート#01 の中古マンションのデータを使い、価格 price を築 年数agei にOLS 回帰すると
pricei = 4944.55 − 78.88 agei, n = 196, R2 = 0.18. (24)
OLS 係数:築年数が 1 年増えると、マンションの市場価値が 約79 万円下がる傾向。
決定係数:築年数ageiの違いにより、価格priceiのバラつき が18%程度説明される。
今回の復習問題
次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。 講義名、日付、学籍番号、氏名を明記すること。
1 テキスト第4 章復習問題 4.5。
2 OLS 回帰の結果、Yiの偏差積和SY Y = 100、OLS 残差 2 乗和 Q∗ =uˆ2i = 30 を得た。決定係数 R2を求めよ。(テキスト第 4 章復習問題 4.5 の類題。)
References
鹿野繁樹. 新しい計量経済学. 日本評論社, 2015.