『新しい計量経済学』鹿野研究室 slide06

(1)

計量経済学_#06

OLS ^回帰 (1)

鹿野繁樹

大阪府立大学

2017 年 10 月更新

(2)

Outline

1 回帰直線と最小_{2 乗法（OLS）}

2 OLS 係数の代数的構造

テキスト：鹿野繁樹 [2015]、第 4.1 章・第 4.2 章。

前回の復習

1 _{母数の推定} 2 _{母数の仮説検定}

(3)

Section 1 回帰直線と最小 ₂ 乗法（ _OLS ）

(4)

回帰直線による散布図の要約

図1A：政令指定都市（2010 年、n = 19）の失業率 Xi^{と、生活保}

護受給率Y_i。

正の相関：失業率が高い都市ほど、受給率が高い。（共分散 s_XY = 0.89、相関係数 rXY = 0.61。）

この散布図の傾向を回帰直線

Yˆ_i = a + bXi (1)

で「一筆書き」したい! ... コレを、「被説明変数 Yi^を説明変

数X_iに回帰する」と言う。

注意：左辺のY^ˆ_iは「ハット」を付け、本物のY_iと区別。

．

(5)

5 6 7 8 9

12345

A

Xi Yi

rxy=0.61 (sxy=0.89)

5 6 7 8 9

12345

B

Xi Yi

Y^{^}i= −1.07+ 0.46Xi

5 6 7 8 9

12345

C

Xi Yi

Y^{^}i= 2.41− 0.08Xi

1 :

(6)

(1) 式の切片 a、傾き b を^{回帰係数と呼ぶ。}⇒ データ(Xi^{, Y}i) に基づき、適切な_aと_bを決めるには？

図_1B

Yˆ_i = −1.07 + 0.46Xi^. (a = −1.07, b = 0.46.) (2)

図_1C

Yˆ_i = 2.42 − 0.08Xi^. (a = 2.42, b= −0.08.) (3)

データの特徴をよくとらえているのは、直線_(2)。

(7)

散布図に最もフィットする直線を求める方法_⇒ 最小_{2 乗法}

（ordinary least squares、OLS^）^。

図1B・直線 (2)：統計ソフト grel の OLS コマンドで (a, b) を計算。講義ノート_{#01 の式と同一。}

図1C・直線 (3)：最も失業率の低い観測と最も高い観測を結んで作った直線。悪い例。

(8)

残差・残差 ₂ 乗和と _OLS 原理

本物の_Y_iと、(1) 式による予測値 ˆY_i^の差 e_i = Yi− ˆY_i = Yi−(a + bXi)

予測値

, i= 1, 2, . . . , n (4)

を、残差と呼ぶ。回帰式の予測誤差。 a, bの与え方次第で、e_iは変化。

n^個の残差e₁, e₂, . . . , e_n^が発生。⇒ 予測誤差の総和と a, b の関係を、残差_{2 乗和}

Q(a, b) =e²_i =(Yi− a − bXi)² (5) で示す。（_e_i _<0 の場合を考慮し、2 乗して正の値に。）残差2 乗和を最小にする (a, b) を求めるアルゴリズムこそ、 OLS。

(9)

X_i Yi

A

1 2

3

4

5

X_i Yi

B

X1

aY^ 1Y1

e1

e₄

Y^{^}_i = a₊bX_i

∆b

図2 : 散布図上の回帰直線_Yˆ_i_{= a + bX}_iと残差_e_i _{= Y}_i_{− ˆ}_Y_i

(10)

残差・残差2 乗和をグラフで理解。

図2A：サンプル数 n = 5 の二次元データ（番号付き）。適当な回帰直線Y^ˆ_i _{= a + bX}_iを描いてみる（図_{2B）。⇒ 残差} e_i = Yi− ˆY_i^は、点(Xi^{, Y}i) と回帰直線の「垂直距離」。

例：一つ目の観測点_(X₁_{, Y}₁₎。_X₁のときの予測値 Yˆ₁ = a + bX₁^、観測値Y₁^{で、残差は}e₁ = Y₁− ˆY₁ >0^。

その他の点も同様。

∴ 残差2 乗和 Q(a, b) を最小にする a と b をとれば、散布図にフィットする直線が得られる！

(11)

Remark 1

最小2 乗法（OLS）の二つの視点。

1 予測の視点：回帰直線の予測誤差（残差_{2 乗和）を最小化。}

2 グラフィカルな視点：回帰直線の、散布図への当てはめ。残差2 乗和 Q(a, b) = e²_i ^{は、所与の係数}a, bのもとでの

「回帰式による予測誤差の総和」、また

「回帰式と散布図の不整合の度合い」。

(12)

OLS ^{係数の決定}

残差2 乗和 Q(a, b) の最小化を、最小化問題として整理すれば mina,b ^{Q(a, b) =}

e²_i =(Yi− a − bXi)² −−−→^最小化 a^∗, b^∗. (6)

目的関数はQ(a, b)、調節可能な変数は a, b。得られた最小化の解_a^∗_{, b}^∗を，_{OLS 係数}と呼ぶ。

(13)

b* b**

Q*Q**

Q(b)=Q(a~,b)

図3 : 残差2乗和_Q(b)とOLS係数_b^∗（_a_{= ˜}_aに固定）

(14)

Q(a, b) の最小化とは、Q(a, b) をグラフに描いたときの「谷底」に相当するa, b の値を探す問題。

図_{3：a = ˜}_aに固定し、_Q_{(b) = Q(˜}_{a, b}) と b の関係を示したイメージ。

Q(b) の最小値 Q^∗^{に対応する}b^∗^{において、}Q(b) の傾きはゼロ。 Q(a, b) の傾きは、Q(a, b) の導関数^∂Q(a,b)_∂a ^、^∂Q(a,b)_∂b ^。

∴ 残差2 乗和 Q(a, b) を最小にする a^∗^と^b^∗^は

∂Q(a, b)

∂a ^{= 0}

a側から見た傾きが平ら

, ^{∂Q(a, b)}

∂b ^{= 0}

b側から見た傾きが平ら

(7)

を同時に満たす。

(15)

実際に導関数を求めゼロと置くと、次の最小化の一階条件を得る

（証明はテキスト_p72）。

ei =(Yi− a^∗− b^∗X_i) = 0,

ei^Xi =(Yi− a^∗− b^∗X_i)Xi = 0. ⁽⁸⁾

OLS 係数 a^∗^{, b}^∗^{は、連立方程式}(8) の解。二つの条件式_{× 二つの未知数。}

(16)

最小化条件_{(8) を変形すれば}正規方程式を得る。

公式 _{1 (} 正規方程式 ₎

OLS 係数 a^∗, b^∗は，次の条件式を満たす。

na^∗+ b^∗ Xi = Yi

a^∗ Xi+ b^∗ X_i² = Xi^Yi

. ₍₉₎

証明：テキスト_{p59 参照。}

まず(9) 式の n、 Xi^、 Yi^、 X_i²^、 Xi^Yi ^{にデータを埋}

め、解くことにより、_{OLS 係数 a}^∗と_b^∗が求まる。

(17)

Example 1

図1のデータ：n = 19、 Xi = 129.98、 Yi = 39.25、

X_i² = 923.94、 X_iY_i = 284.45。

正規方程式を立て、_a^∗、_b^∗について解けば

19a^∗+ 129.98b^∗ = 39.25

129.98a^∗+ 923.94b^∗ = 284.45 ^⇒

a^∗ = −1.07 b^∗ = 0.46.

(10)

（小数点第_{2 位まで表示。）}

OLS による回帰直線は (2) 式の通り。

実際の回帰分析では、統計ソフトで_{OLS を計算。} 統計ソフトgretl がお勧め。テキスト付録 A 参照。

(18)

Section 2 OLS ^{係数の代数的構造}

(19)

準備：偏差 ₂ 乗和と偏差積和

最終目標：正規方程式_{(9) を a}^∗_{, b}^∗について解ききり、_a^∗_{, b}^∗とデータとの関係を明示。_{⇒ まずは X}_iとY_iの基本統計を確認。

標本平均

X¯ = ¹ n

X_i, Y^¯ = ¹ n

Y_i. (11)

標本分散 s²_X ₌ ¹

n−1

(Xi− ¯X₎², s²_Y ₌ ¹ n−1

(Yi− ¯Y₎². ₍₁₂₎

標本共分散

s_XY = ¹ n−1

(Xi− ¯X)(Yi− ¯Y). (13)

(20)

計算効率化のため、偏差_{2 乗和}と偏差積和を定義。偏差_{2 乗和 :} _S_XX ₌

(Xi− ¯X)², S_{Y Y} =(Yi− ¯Y)², (14) 偏差積和_: _S_XY ₌

(Xi− ¯X)(Yi− ¯Y). (15)

∴ 分散・共分散との関係はS_XX _{= (n − 1)s}²_X、 S_XY = (n − 1)sXY^。

(21)

公式 _{2 (} 偏差 ₂ 乗和・偏差積和の別表現 ₎

S_XX =X_i² − n ¯X², S_{Y Y} =Y_i²− n ¯Y², (16) S_XY ₌X_iY_i− n ¯X ¯Y . ₍₁₇₎ 証明：標本平均の定義から_X¯ ₌ ¹

n^Xⁱ ^⇔^Xⁱ ^{= n ¯}^X^。^S^XX^の

定義式左辺を展開・整理すると

S_XX ₌_(X_i²−2 ¯^XXi+ ¯^X²) = ^X_i²−2 ¯^X^Xi

=n ¯X

+^X^¯²

=n ¯X²

=^X_i²−2n ¯^X²+ n ¯^X²

=^X_i²− n ¯X². ₍₁₈₎ S も同様。S

(22)

(Xi− ¯X) について、「2 乗せずに」和をとると次の性質が判明。

公式 _{3 (} 偏差和はゼロ ₎

(Xi− ¯X) = 0. (19)

証明：標本平均の定義_X^¯ ₌ ¹

n^Xⁱ^より^Xⁱ ^{= n ¯}^X^。従って

(Xi− ¯X) =X_i−X^¯ =X_i− n ¯X = 0. (20)

(Xi− ¯X_{) は見た目が S}_XX ₌_(X_i− ¯X₎² = 0 と似ているので注意！

(23)

正規方程式を解く

b^∗^{を解く：正規方程式}(9) 下段を、通常の連立方程式の要領で b^∗ を解くと

b^∗ = ⁿ^Xⁱ^Yⁱ⁻^Xⁱ^Yⁱ n X_i²− Xi Xi

. (21)

X_i = n ¯X^、 Y_i = n ¯Y ^{および公式}(16) に気付けば

b^∗ ₌ ⁿ^Xⁱ^Yⁱ^{− n ¯}^{Xn ¯}^Y n X_i²− n ¯Xn ¯X ⁼

=S_XY

X_iY_i− n ¯X ¯Y

X_i²− n ¯X²

=S_XX

= ^S^XY

S_XX^. ⁽²²⁾

(24)

さらに上式左辺の分子・分母を(n − 1) で割れば b^∗ ₌

1 n−1^S^XY

1 n−1^S^XX

=

1

n−1^(Xⁱ ^{− ¯}^X)(Yⁱ^{− ¯}^Y⁾ 1

n−1^(Xⁱ^{− ¯}^X⁾²

= ^s^XY

s²_X ^. ⁽²³⁾

∴b^∗は標本分散・共分散の比に等しい。

(25)

a^∗を解く：_{(9) 式上段から} a^∗+ b^∗ ¹

n

X_i

= ¯X

= ¹ n

Y_i

= ¯Y

⇔ a^∗ = ¯Y − b^∗X.^¯ (24)

先に求めたb^∗を上式に代入し、a^∗が定まる。

(26)

公式 _{4 (OLS} 係数 ₎

a^∗ = ¯Y − b^∗X,^¯ b^∗ = ^S^XY S_XX ⁼

s_XY

s²_X ^. ⁽²⁵⁾ 証明：前段で証明済み．

最小化問題(6) の解である OLS 係数 a^∗, b^∗^{は、実は基本統計量} だけで計算できる！

b^∗の分母（標本分散）は定義上_s²_X _>_{0。∴ b}^∗の符号は分母・標本共分散_s_XY の符号で決まる。

(27)

Remark 2

公式(25)：OLS 係数 a^∗, b^∗とその他の統計量の関係。

a^∗, b^∗^{は基本的な統計量}X^¯^{、 ¯}Y^、s²_X^、s_XY ^{から得られる。} b^∗の符号_{= 共分散 s}_XY の符号。（∴b^∗の符号はs_XY を見れば分かる。）

(28)

Example 2

データから_X¯ _{= 10、 ¯}_Y _{= 20、s}²_X _{= 2、s}_XY = −1 を得た。⇒ OLS の公式(25) に当てはめると

b^∗ _{= −}¹

2 ^{= −0.5,} ^a

∗ _{= 20 −}

−¹ 2

×10 = 25. (26)

結果を回帰直線にまとめれば、 ˆ_Y_i = 25 − 0.5Xi^。

(29)

今回の復習問題

次の設問に答えよ。各自用意した紙に解答し、退出時に提出せよ。講義名、日付、学籍番号、氏名を明記すること。

1 _{テキスト第}4 章復習問題 4.1。

2 _{データから}_s_XY _{= −4、s}²

X ^{= 8、 ¯}^Y ^{= 30、 ¯}^X ^{= 50 を得た。回}

帰直線_Y_i _{= a + bX}_iの_{OLS 係数 a}^∗、_b^∗を求めよ。（テキスト第4 章復習問題 4.2 の類題。）

(30)

References

鹿野繁樹. 新しい計量経済学. 日本評論社, 2015.

『新しい計量経済学』 鹿野研究室 slide06

OLS 回帰 (1)

Outline

前回の復習

Section 1

回帰直線と最小 2 乗法（ OLS ）

回帰直線による散布図の要約

残差・残差 2 乗和と OLS 原理

Remark 1

OLS 係数の決定

公式 1 ( 正規方程式 )

Example 1

Section 2

OLS 係数の代数的構造

準備：偏差 2 乗和と偏差積和

公式 2 ( 偏差 2 乗和・偏差積和の別表現 )

公式 3 ( 偏差和はゼロ )

正規方程式を解く

公式 4 (OLS 係数 )

Remark 2

Example 2

今回の復習問題

References

『新しい計量経済学』鹿野研究室 slide06

OLS ^回帰 (1)

回帰直線と最小 ₂ 乗法（ _OLS ）

残差・残差 ₂ 乗和と _OLS 原理

OLS ^{係数の決定}

公式 _{1 (} 正規方程式 ₎

OLS ^{係数の代数的構造}

準備：偏差 ₂ 乗和と偏差積和

公式 _{2 (} 偏差 ₂ 乗和・偏差積和の別表現 ₎

公式 _{3 (} 偏差和はゼロ ₎

公式 _{4 (OLS} 係数 ₎