担当:鹿野(大阪府立大学)
2014 年度前期
はじめに
前回の復習
二標本問題:母平均の差のt検定。
処置効果と因果関係。
今回学ぶこと
回帰分析の基礎:回帰直線。
最小2乗法(OLS)による推定。
テキスト該当箇所:3.4、13章。
1 回帰分析の基礎:回帰直線
1.1 二次元データの統計量
例:家計の食費支出Yiと、可処分所得Xiのデータ。
i 食費Yi 所得Xi
1 4.3 9.0
2 3.9 16.4
3 5.0 20.4
4 0.7 3.3
5 3.5 17.1
⊲ 各観測iに、二つの変数(Xi, Yi)。∴ データ。
⊲ 注意:二標本問題(講義ノート#18、21)では観測をグループ分けしてXi、Yjと表 記したが、ここでは変数のペア(Xi, Yi)がn個観測されている、という意味。
Remark:二次元データの記述統計は、講義ノート#03で紹介済み。
⊲ 二次元データを分析する目的:二変数の相関(正、負、無相関)を測る。共分散、相 関係数、散布図。
⊲ 二変数の関係を、より解釈しやすい形で測る方法。⇒回帰直線。
1
二次元データの統計量:まとめ
⊲
X =¯ 1 n
n
i=1
Xi, Y =¯ 1 n
n
i=1
Yi. (1)
⊲ (注意:自由度調整→n − 1)
s2X = 1 n − 1
n
i=1
(Xi− ¯X)2, s2Y = 1 n − 1
n
i=1
(Yi− ¯Y)2. (2)
⊲ と、 (注意:自由度調整→n − 1)
sXY = 1 n − 1
n
i=1
(Xi− ¯X)(Yi− ¯Y) ⇒ rXY = sXY sXsY
. (3)
1.2 回帰直線による予測
説明変数と被説明変数:変数Xiの値を見て、変数Yiの値を予測する問題を考える。
⊲ 例:所得Xiから、その人の食費支出Yiを予測。
⊲ ここでXiを 、Yiを と呼ぶ。
⊲ 一方、Xiに基づくYiの予測値を と置く。一般にYi ˆYi。
回帰直線と残差:XiとYiの間に一次式の法則性を仮定し、
Yˆi = a + bXi (4)
でYiを予測するとき、この式を と呼び、「YiをXiに回帰する」と言う。
⊲ a, bを と呼ぶ。所与のa, bのもとで、Xiに数字を代入→予測値Yˆi。
⊲ 現実のYiと予測値Yˆiのズレ
ei = Yi− ˆYi= Yi−(a + bXi), i = 1, 2, . . . , n (5)
を、 と呼ぶ。∴残差=予測誤差のこと。a, b次第でe1, e2, . . . , enは変化。
Remark:どんな方針でa, bを決める?
⊲ 残差e1, e2, . . . , enを 小さくするよう、a, bを決めたい。
⊲ 残差をなるべく小さくし、予測誤差の少ない回帰直線をデータから求める方法⇒最 小2乗法。
0 5 10 15 20 25
0123456
Xi
Yi
1 2
3
4
5
0 5 10 15 20 25
0123456
Xi
Yi e1
e4
e5 a+bXi
図1:所得Xiと食費Yiの散布図と回帰直線Yˆi= a + bXi
2 最小 2 乗法( OLS )による推定
2.1 最小 2 乗法(OLS)
残差2乗和:データ全体で見た予測誤差の指標として、 を考える。 Q(a, b) =e2i =
(Yi− ˆYi)2 =(Yi−a − bXi)2. (6)
⊲ 残差ei= Yi− ˆYiは、正にも負にもなる。∴e2
i で個々の誤差を評価。
⊲ 数学の最小化問題を使い、Q(a, b)を最小にするa, bを求めれば良い。
Remark:散布図と回帰直線・残差(図1)
⊲ a, bを決める→散布図上に直線Yˆi = a + bXiが一本描ける。このとき各点(Xi, Yi)と 直線の として、各観測の残差(予測誤差)ei = Yi− ˆYiが決まる。
⊲ Q(a, b) = e2i を最小にするa, b →散布図の傾向に最もフィットした直線。∴残差2 乗和の小さい回帰直線=散布図の傾向を要約した式。
最小2乗法とOLS推定量:最小化問題
mina,b Q(a, b) =
e2i (7)
を解き、解a
∗, b∗
を見つける手順を、 (OLS、ordinary least squares)と呼 ぶ。そこで得た解を と呼ぶ。
⊲ 最小化の一階条件は
∂Q(a, b)
∂a =
∂e2i
∂a = 0,
∂Q(a, b)
∂b =
∂e2i
∂b = 0. (8)
⊲ (8)式を解けば、解としてOLS推定量
b∗= , a∗= . (9)
を得る。解き方は山本拓『計量経済学』2章など参照。
⊲ 以下、煩雑さを避けるため、OLS推定量を単にa, bと表す。
2.2 OLS 推定量と二次元の記述統計量の関係
OLS推定量bの別表現:(9)式のb右辺の分子・分母に 1
n−1をかけると
b = (X(Xi− ¯X)(Yi− ¯Y)
i− ¯X)2 =
1
n−1(Xi− ¯X)(Yi− ¯Y) 1
n−1(Xi− ¯X)2
= . (10)
∴共分散sXYを分散s2
Xで割れば、OLS bを得る。
⊲ 相関係数rXY =
sXY
sXsY と上式を比較すると、両者の関係は
b = . (11)
⊲ 二変数(Xi, Yi)の相関を測る統計量sXY、rXY、bは互いに密接な関係。特に
sXYの符号= rXYの符号= bの符号. (12)
∴相関の正負を知りたいだけなら、共分散sXY を計算するだけで十分。
Remark:共分散sXY をあえて相関係数rXY や回帰係数bに直すメリット
⊲ rXY のメリット:上限・下限の存在(講義ノート#03)
−1 ≤ rXY ≤1 (13)
より、「相関の強弱」が評価できる。ただし測定単位のない無名数なので、解釈が難 しい。
⊲ bのメリット:回帰直線(4)式に基づけば、bを「Xiが1単位増えたとき、Yˆiがどれ だけ変化するか」、つまり
b = (14)
の推定値と解釈できる。ただし「相関の強弱」は不明。
2.3 決定係数
Remark:回帰直線の目的は、Xiの一次式によるYiの予測。→回帰直線で、どれだけホ
ンモノのYiの動きを説明できているか?
⊲ モデルの説明力、データへの当てはまり具合を評価するには?⇒決定係数。
⊲ 重要な分解公式:Yiの標本分散s2Yは、次式のように分解できる。
s2Y
Yiのバラつき
=
Yˆiで説明できる変動
+
説明できない残り
. (15)
ただし
回帰の分散: s2
Yˆ =
1 n − 1
( ˆYi− ¯Y)2, 残差の分散: s2e = 1 n − 1
e2i. (16)
決定係数:Yiの分散s2
Yに占める、回帰の分散s 2
Yˆ の割合
R2 = s2ˆ
Y
s2Y = , 0 ≤ R
2≤1 (17)
を、 と呼ぶ。
⊲ R2が に近い⇔ ˆYiはうまくYiの動きを予測できている。
⊲ R2が に近い⇔ ˆYiはYiの動きを捕捉できていない。
例:2001∼2010年の日本の実質消費(Yi)を、実質GDP(Xi)に回帰
Yˆi= 101.84 + 0.37 Xi, n = 10, R2= 0.80. (18)
全てExcelの分析ツールで計算。(a = 101.84、b = 0.37。)
⊲ 宿題#01で使ったデータ。
⊲ マクロ経済学で最初に習う「消費関数」を、データから推定したのがコレ。b = 0.37 は限界消費性向の推定値。
まとめと復習問題
今回のまとめ
回帰直線Y = a + bXˆ i。
データからa, bをOLS推定。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. (a) OLS基準(残差2乗和の最小化)ではなく、「最初の二つの観測i = 1, 2の残差e1, e2 をゼロにする」(注:残差2乗ではない)という基準で回帰係数a, bを決めると、
a∗= X2Y1
−X1Y2 X2−X1
, b∗= Y2−Y1 X2−X1
(19)
となることを示せ。
(b) この基準で導出したa∗, b∗を採用すると、どんな問題が生じるか? 2. 次の統計値から、YiをXiに回帰したOLS回帰係数a, bを求めよ。
X = 1,¯ Y = 2,¯ s2X = 10, s2Y = 20, sXY = 5. (20) ヒント:不要な数値が一つ混じってます。