『新しい計量経済学』鹿野研究室 slide07

(1)

計量経済学_#07

OLS ^回帰 (2)

鹿野繁樹

大阪府立大学

2017 年 11 月更新

(2)

Outline

1 OLS 回帰と OLS 残差

2 決定係数

テキスト：鹿野繁樹 [2015]、第 4.3 章・第 4.4 章。

前回の復習

1 _{回帰直線と最小}_{2 乗法（OLS）} 2 OLS 係数の代数的構造

(3)

Section 1 OLS ^回帰と OLS ^残差

(4)

OLS ^{による予測の特徴}

OLS 係数 a^∗, b^∗に基づく特別な回帰直線

Yˆ_i = a^∗+ b^∗X_i, a^∗ = ¯Y − b^∗X,^¯ b^∗ = ^S^XY SXX

(1)

を_{OLS 回帰}と呼ぶ。

任意の回帰直線_Y^ˆ_i _{= a + bX}_iと区別。

OLS 回帰 ˆY_i^によるY_iの予測と、その残差（予測誤差）は、いかなる代数的特徴を持つか？

便利な表現：_a^∗ _{= ¯}_{Y − b}^∗_{X を}^¯ (1) 式に代入すれば Yˆ_i _{= ¯}Y − b^∗X^¯ _{+ b}^∗X_i _{= ¯}Y − b^∗X^¯ _{+ b}^∗X_i

= ¯Y −(Xi^{− ¯}X)b^∗. (2)

(5)

公式 _{1 (OLS} 回帰の別表現 ₎

OLS 回帰の式を b^∗^{だけの式で表すと}

Yˆ_i = ¯Y −(Xi^{− ¯}X)b^∗ ^⇔ Y^ˆ_i− ¯Y = −(Xi ^{− ¯}X)b^∗. (3)

証明：前段で証明済み。

OLS 回帰によるシミュレーション：(1) 式 or 上式より、仮想的な値_X_i _{= X}^∗を置いたときの_{OLS 予測値 ˆ}_Y^∗を得る。

(6)

公式_{(2) の X}_iに平均値_{X を与えると}^¯

X_i = ¯X ⇒ Y^ˆ_i = ¯Y −( ¯X − ¯X)b^∗ = ¯Y . (4)

∴_Y_iの予測値も平均値_{Y 。}^¯

「平均的な_X_iを持つ個体は，_Y_iも平均的」。

図1：散布図上に OLS 回帰 (1) 式を描くと、必ず座標 ( ¯X, ¯Y) を通る！

公式 _{2 (} 平均値を通る _OLS 回帰 ₎

OLS 回帰は，平均値の座標 ( ¯X, ¯Y) を通る。

X_i = ¯X ⇒ Y^ˆ_i = ¯Y . (5) 証明：前段で証明済み．

(7)

Xi

Yi

X

Y

図1 : 平均の座標_{( ¯}_{X, ¯}_Y₎を通るOLS回帰

(8)

公式(2) の両辺の和を求めれば

_Yˆ_i ₌_{Y −}¯ _(X_i_{− ¯}_X_)b^∗ ₌_Y¯

=n· ¯^Y

−b^∗_(X_i− ¯X₎

=0

= n ¯^Y

⇒ 上式両辺をn で割れば

_Yˆ_i _{= n ¯}_Y _⇔ ¹ n

_Yˆ_i _{= ¯}_{Y .}

OLS 予測値 ˆ^Yi^{の平均は常に、本物}^Yi^{の平均と等しい！}

(9)

公式 _{3 (OLS} 予測の平均 ₎

OLS による予測値 ˆY_i^{の平均は、}Y_i^{の平均と等しい。} Y¯ˆ = ¹

n

_Yˆ_i _{= ¯}_{Y .} ₍₆₎

証明：前段で証明済み．

∴_{OLS 予測値 ˆ}_Y_iと実際の観測値_Y_iは共に、 ¯_{Y を軸にバラ} つく。

(10)

OLS ^残差

OLS 回帰 (1) による特別な残差をOLS 残差^と呼び、 ˆ

ui = Yi^{− ˆ}Yi = Yi⁻a^∗−b^∗Xi (7) と表記して一般の残差_e_i _{= Y}_i−a − bX_i^と区別。

この表記に従えば、_{OLS 係数 a}^∗，_b^∗で評価した（最小化された）残差_{2 乗和は}

Q^∗ = Q(a^∗, b^∗) = uˆ²_i =(Yi⁻^a^∗⁻^b^∗^Xi)². (8) 図_{2の最小値に相当。}

(11)

b* b**

Q*Q**

Q(b)=Q(a~,b)

図 2 : 残差2乗和_Q(b)とOLS係数_b^∗（_a_{= ˜}_aに固定）、再掲

(12)

最小化の一階条件も、_u_ˆ_iで表記。

公式 _{4 (} 最小化の一階条件（再掲） ₎

uˆ_i = 0, uˆ_iX_i = 0. (9)

ただし_u_ˆ_i _{= Y}_i₋_a^∗₋_b^∗_X_iは_{OLS 残差。}

証明：残差2 乗和最小化の一階条件（講義ノート#07）の ei^を、uˆ_i と書き換えただけ。

(9) 式より、

¯ˆu = ¹ n

^uˆi = 0. (10)

∴_{OLS 残差 ˆ}_u_iの平均は、常にゼロになる。

(13)

公式 ₅

ˆ

u_i^とX_i^{の偏差積和を}S_X_ˆ_u =(Xi^{− ¯}X)(ˆu_i− ¯_{u) と置けば}_ˆ

S_X_ˆ_u = 0. (11) 証明： ¯_u_ˆ= 0 なので，(9) 式から

S_X_u_ˆ ₌_(X_i− ¯X_)(ˆu_i− ¯u_ˆ₎

=(Xi^{− ¯}X)ˆu_i =uˆ_iX_i

=0

− ¯Xuˆ_i

=0

= 0. (12)

∴u_ˆ_i^とX_i^{の共分散は}s_X_u_ˆ = _n−1¹ S_X_u_ˆ = 0 で、両者は無相関。

⇒u_ˆ_i^には、X_iで予測できる変動がもはや残っていない。 OLS は、Xiの情報を使い尽くしている！

(14)

公式 ₆

ˆ

u_i^とY^ˆ_i^{の偏差積和はゼロ。}

S_Y_ˆ_u_ˆ _{= 0.} ₍₁₃₎ 証明：公式(2) および (9) 式から

S_Yˆ_u_ˆ =( ˆYi^{− ¯}Y)(ˆui^{− ¯}u)ˆ

= ( ˆY_i− ¯Y)

=−(Xⁱ− ¯X)b^∗

ˆ

u_i = −b^∗(Xi^{− ¯}X)ˆu_i

=S_{X ˆ}u=0

= 0. (14)

(15)

Section 2 決定係数

(16)

偏差 ₂ 乗和の分解公式

OLS の、散布図 (Xi^{, Y}i) への当てはまりの度合いを事後評価するには？⇒ OLS 回帰 (1) を移項すれば、

Y_i = ˆY_i+ ˆu_i. (15)

∴_Y_iは、OLS 回帰で予測される ˆY_i^と、OLS 残差 ˆu_i^{（予測誤差）} の和。

Yˆ_i^は、Y_iの動きを何割程度説明できているか？ Yˆ_iの総変動を測るため、回帰_{2 乗和}

S_{Y ˆ}_ˆ_Y =( ˆY_i− ¯Y)²

を定義。（ ˆ_Y_iの偏差_{2 乗和。）}

(17)

(15) 式両辺から ¯Y を引き2 乗：

Y_i − ¯Y = ˆY_i− ¯Y + ˆu_i (16)

⇒ _(Y_i− ¯Y)² =( ˆY_i− ¯Y) + ˆu_i²

= ( ˆY_i− ¯Y)²+ 2( ˆY_i− ¯Y)ˆu_i+ ˆu²_i. (17) 上式両辺の和をとり、公式_{(13) を使えば}

(Yi^{− ¯}^Y)²

=S^{Y Y}

=( ˆY_i− ¯Y)²+ 2( ˆY_i− ¯Y)ˆu_i+ ˆu²_i

=( ˆYi^{− ¯}Y)²

=SY_ˆYˆ

+2( ˆYi^{− ¯}Y)ˆui

=S_{Y ˆ}_ˆu=0

+uˆ²_i

=Q^∗

(18)

公式 _{7 (} 偏差 ₂ 乗和の分解公式 ₎

Y_i^の偏差2 乗和（総変動）SY Y は，回帰変動と、最小化された残差2 乗和の和に分解される。

S_{Y Y} _{= S}_{Y ˆ}_ˆ_Y _{+ Q}^∗. ₍₁₈₎ 証明：前段で証明済み．

S_{Y Y} >_0、S_{Y ˆ}_ˆ_Y >_0、Q^∗ >0 なので、(18) 式より

S_{Y Y} > ˆS_{Y Y}. (19)

∴ 予測値 ˆ_Y_iの変動は，本物_Y_iの変動を下回る。 Y_i =^{生身の人間}

Yˆi =その動きを似せたロボット。（OLS₌なるべく精巧なロボットを作る手段。）

(19)

決定係数 _R

²

：モデルの当てはまり

分解公式(18) から、OLS 予測のデータへの当てはまりを測る^決定係数を以下に定義。

R² = ^S^{Y ˆ}^ˆ^Y

S_{Y Y}^. ⁽²⁰⁾

R²^は、Y_i^{の総変動のうち、}_{OLS 回帰 ˆ}Y_i _{= a}^∗_{+ bX}_i^∗^で説明できた割合。

OLS の残差 2 乗和 Q^∗^を使って R² _{= 1 −} ^Q

∗

S_{Y Y} ⁽²¹⁾

と計算してもよい。

(20)

決定係数_R²は、上限と下限を持つ。

公式 _{8 (} 決定係数の下限・上限 ₎

0 < R² <1. (22) 証明：公式(18) から明らか。

∴_R²が_{1 に近いほど}

Y_i^の変動が^OLS^回帰Y^ˆ_iでよく説明されている。 Yˆ_i^{がデータによくフィ}^{ットしている。}

(21)

Remark 1

決定係数_R²で、OLS 回帰のデータへの適合度を評価。 R² = ^S^ˆ^{Y Y}

S_{Y Y} ⁼

OLS で予測された変動

Y_i^の総変動 ^, ^{0 ≤ R}

2 _≤_1. ₍₂₃₎

R²^が1 に近い ⇒ 当てはまりが良い。 R²^が0 に近い ⇒ 当てはまりが悪い。

OLS を行ったら、OLS の係数 a^∗^，b^∗^{と共に決定係数}R²^も必ずレポート！

... 統計ソフトで OLS を実行すれば自動出力される。

(22)

Example 1

講義ノート#01 の中古マンションのデータを使い、価格 price を築年数_age_i に_{OLS 回帰すると}

price_i = 4944.55 − 78.88 age_i^, ⁿ = 196, ^R² = 0.18. (24)

OLS 係数：築年数が 1 年増えると、マンションの市場価値が約79 万円下がる傾向。

決定係数：築年数_age_iの違いにより、価格_price_iのバラつきが18%程度説明される。

(23)

今回の復習問題

次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。講義名、日付、学籍番号、氏名を明記すること。

1 _{テキスト第}4 章復習問題 4.5。

2 OLS 回帰の結果、Yi^{の偏差積和}^SY Y = 100、OLS 残差 2 乗和 Q^∗ ₌u_ˆ²_i = 30 を得た。決定係数 R²^{を求めよ。}^{（テキスト第} 4 章復習問題 4.5 の類題。）

(24)

References

鹿野繁樹. 新しい計量経済学. 日本評論社, 2015.

『新しい計量経済学』 鹿野研究室 slide07

OLS 回帰 (2)

Outline

前回の復習

Section 1

OLS 回帰と OLS 残差

OLS による予測の特徴

公式 1 (OLS 回帰の別表現 )

公式 2 ( 平均値を通る OLS 回帰 )

公式 3 (OLS 予測の平均 )

OLS 残差

公式 4 ( 最小化の一階条件（再掲） )

公式 5

公式 6

Section 2

決定係数

偏差 2 乗和の分解公式

公式 7 ( 偏差 2 乗和の分解公式 )

決定係数 R