担当:鹿野(大阪府立大学)
2013 年度後期
はじめに
前回の復習
二次元データ(Yi,Xi)と、基本統計量の代数的性質。
回帰直線Yˆi = a + bXiのOLS推定。「YiをXiに回帰する。」
今回学ぶこと
OLS予測とOLS残差。
決定係数R2。
テキスト該当箇所 :2.3章。
1 OLS による予測と OLS 残差
1.1 OLS 予測値
OLS予測値:被説明変数Yiを、説明変数Xiに回帰→回帰直線Yˆi = a + bXi。
⊲ 残差2乗和Q(a, b) = e2i の最小化(残差ei= Yi− ˆYi)→OLS推定量 b∗= SXY
SXX, a
∗= ¯Y − b∗X.¯ (1)
⊲ a = a∗,b = b∗のもとでのYiの予測値は
Yˆi= a∗+ b∗Xi, i = 1, 2, . . . , n. (2)
これを と呼ぶ。
OLS予測の使い方
1. (2)式のXiに適当な値X′を代入⇒(OLS原理の意味で)良い予測値Yˆ′= a∗+ b∗X′ を得る。
2. (2)式のYˆiに目標値Yˆ′′を代入し、Xiを解く⇒目標値達成に必要なXiの値X”が分 かる。
1
平均値X¯ でのOLS予測:(2)式でXi = ¯Xと置くと、a
∗= ¯Y − b∗X¯ より
Yˆi= ¯Y − b∗X + b¯ ∗X =¯ . (3)
∴ Xi= ¯Xのとき、Yiの予測値Yˆi =平均値Y¯。
⊲ OLSの予測原理に基づけば、「平均的なXiを持つ個体は、(予測式を使うまでもな く)Yiも平均的」と見る。
⊲ 散布図上に回帰直線を描くと、 必ず平均値の座標( ¯X, ¯Y)を通る。
OLS予測値の平均:Yˆiの平均は、a
∗= ¯Y − b∗X¯ と講義ノート#06の(Xi− ¯X) = 0より
¯ˆYi = 1 n
Yˆi = 1 n
(a∗+ b∗Xi) = 1 n
( ¯Y − b∗X + b¯ ∗Xi)
= 1 n
Y¯
=n ¯Y
−b∗(Xi− ¯X)
=0
= . (4)
∴現実に観測されるYiも、OLS予測値Yˆiも、平均値は同じY¯。
⊲ 注意:OLS以外の一般的な予測値Yi = a + bXiでは、必ずしも成立しない。
1.2 OLS 残差
OLS残差:OLS推定量a∗,b∗のもとでの残差(予測誤差)
ˆui= Yi− ˆYi = Yi−a∗−b∗Xi, i = 1, 2, . . . , n (5) を、OLS残差と呼ぶ。
⊲ ∴残差2乗和Q(a, b) = e2
i の最小化の一階条件 (講義ノート#06) は、定義上、下 式のように書ける。
, . (6)
⊲ 同様に、a∗,b∗(=最小化の解) で評価したQ(a, b)(=目的関数) の値も、定義上
Q(a∗,b∗) =ˆu2i. (7)
Yˆiとˆuiの関係:OLS予測値YˆiとOLS残差 ˆuiについて、(6)式を用いると
ˆuiYˆi =ˆui(a∗+ b∗Xi) =(...中略)= 0. (8)
(証明→今回の復習問題。)
⊲ 注意:「 ˆuiYi = 0」ではない。
Remark:OLS予測値YˆiとOLS残差 ˆuiを用いてYiを表現すると
ˆui = Yi− ˆYi ⇔ Yi= ˆYi+ ˆui. (9)
⊲ ∴データとして観測されたYiの個体差・変動は、恒等的に
Yiの変動= OLSによる予測Yˆi+予測誤差ˆui. (10) と分解できる。
⊲ Yˆiで、Yiの変動を何パーセント捕捉できたか ?⇒予測力を測る指標が必要。
2 決定係数
2.1 偏差 2 乗和の分解
Yiの偏差2乗和:(9)式のYi = ˆYi+ ˆui両辺からY¯ を引き、2乗すると
Yi− ¯Y = ˆYi− ¯Y + ˆui −両辺を−−−−−−−−2 乗→ (Yi− ¯Y)2 =( ˆYi− ¯Y) + ˆui 2. (11)
⊲ 両辺をi = 1, 2, . . . , nで足し合わせれば
(Yi− ¯Y)2
=SYY
= ( ˆYi− ¯Y) + ˆui
2
. (12)
∴上式左辺はYiの偏差2乗和SYY。右辺は?
回帰2乗和:(12)式右辺を展開すると
( ˆYi− ¯Y)2+ 2( ˆYi− ¯Y)ˆui+ ˆu2i =( ˆYi− ¯Y)2+ 2( ˆYi− ¯Y)ˆui
(∗)
+
ˆu2i. (13)
⊲ (6)式から、上式(∗)の箇所は
(∗) =( ˆYiˆui− ¯Y ˆui) =Yˆiˆui− ¯Yˆui= 0 − ¯Y · 0 = 0. (14)
⊲ ∴(12)式は
SYY =
( ˆYi− ¯Y)2+ˆu2i. (15)
上式右辺第1項は、予測値Yˆiの、平均まわりの変動。これを と呼び、 SˆYY =
( ˆYi− ¯Y)2. (16)
と置く。一方第2項は、OLSで評価した残差2乗和Q(a
∗,b∗) = ˆu2i。
Remark:Yiの偏差2乗和について、次式の分解が成立 SYY
Yiの偏差2 乗和
= SˆYY
回帰2 乗和
+ Q(a∗,b∗)
残差2 乗和
. (17)
⊲ 一般にQ(a∗,b∗) = ˆu2i ≥0。∴OLS予測値のバラつきSˆYY =( ˆYi− ¯Y)2は、実測値
YiのバラつきSYY =(Yi− ¯Y)2を超えない。
SYY ≥ ˆSYY. (18)
0 10 20 30 40
05101520
A: R−square = 0.22
Xi Yi
0 10 20 30 40
05101520
B: R−square = 0.86
Xi Yi
図1:散布図・回帰直線の様子と、 決定係数R2の大きさ
2.2 決定係数 R
2:回帰分析の事後評価
決定係数:偏差2乗和・回帰2乗和・残差2乗和による次の指標 R2= 回帰2乗和
SˆYY
偏差2乗和SYY
= 1 −
残差2乗和Q(a
∗,b∗) 偏差2乗和SYY
. (19)
を、 と呼ぶ。(17)式より
≤R2≤ . (20)
∴R2は、実測値Yiの変動のうち、OLS予測Yˆi= a∗+ b∗Xiで説明された割合。
⊲ R2が1に近い⇔回帰直線が、データ(散布図)の傾向に良くフィット。Yiの動き・ バラつきがYˆiで良くとらえられている。
⊲ R2が0に近い⇔回帰直線の、データへの当てはまりが悪い。
実際の分析では、 回帰分析の事後評価として決定係数R2の値に注目する。
⊲ 分析を行ったら、OLS推定値a∗,b∗だけでなく、必ずR2もレポート。
⊲ Excelや統計ソフトを使えば、推定値a
∗,b∗やR2は全て計算してくれる。(通常、手 計算はしない。)
Remark:散布図の傾向(右上がり・右下がり)がハッキリしているデータは、OLS予測
値Yˆiの実測値Yiへの当てはまりが良く、 決定係数R2が大きくなる。
⊲ 仮に散布図の点が全て回帰直線上に乗ると、 全てのiについてYˆi = Yi(∴ ˆui = 0)。 このときR2= 1。(実際は、このようなケースはまず無い。)
⊲ 例:図1は擬似データ (右下がり、n = 200)の散布図と回帰直線。 図1Aのデータ はR2= 0.22。図1BのデータはR2= 0.86。当然、図1Bの方が予測の信頼度は高い。
まとめと復習問題
今回のまとめ
OLS予測とOLS残差の性質。
決定係数:回帰直線がデータにどれだけフィットしたか、 評価。
復習問題
出席確認用紙に解答し (用紙裏面を用いても良い)、 退出時に提出せよ。
1. (6)式の条件に注意し、(8)式を証明せよ。
2. OLS推定の結果、Yiの偏差2乗和SYY = 20、回帰2乗和SˆYY = 15を得た。(推定値a∗,b∗ は省略。)決定係数R2を求めよ。