13章 回帰分析の基礎
2つ以上の変数についての関 係を見る. 1つの変数を結果,その他の 変数を原因として,因果関係 を説明しようとするもの. 厳密な意味での因果関係で はない。 1例(因果・相関関係等)
勤務年数が長ければ,年間給与は上がる. 景気が良くなれば,株価は上がる 父親の身長が高ければ,子供の身長も高い. 価格が低下すれば需要が増える. 自身の兄弟数が多いと,育てる子供の数も 多い. サッカー人気が上がると,野球人気が落ちる.例(因果・相関関係等)
円が高くなると,輸出不振になる. フォアボールが多いと失点が増える. 親の年収が高いと,子供の成績もよい. 投手の防御率が低いと,勝利数も多い. ルックスと性格の関係 天候と売り上げ 与四球数が多いチームの勝率は低い 不景気だとクマのキャラクターの売り上げが 上がる. 3例(因果・相関関係等)
B級グルメと地域経済 血液型と性格 美人と生涯所得の関係 トヨタ株価と日経平均 勉強時間とテスト結果 映画の興行収入と作品としての評価 シュート数と得点例(因果・相関関係等)
東京ディズニーランドとUSJの入場者数 の関係. 海外旅行者と国内旅行者の数の関係 打率と出塁率の関係 食事の取り方と体重の関係 顔と性格の関係 ボール支配率と勝率の関係 5例(因果・相関関係等)
気温とアイスの売り上げ ファーストサーブの成功率と勝率 親の寿命と子の寿命 親の結婚年齢と子の結婚年齢 出席率と成績 勉強時間と成績の関係 煙草の値段と喫煙率例(因果・相関関係等)
CDの売り上げと着うたフルのダウンロー ド数 月収とギャンブル収支 喫煙者と職業 非正規労働者の増減と企業数の増減 天候と外出の関係 7ここで勉強すること
散布図と相関係数
最小2乗法と回帰直線
決定係数
株価収益率データの標本は?母集
団は?
標本 2006年1月の状況日本経済
母集団 2006年2月の状況 2006年2月の状況 表13-1 日経平均とトヨタ自動車の株価の変化率(2006年,月末値) 単位:% 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 日経平均 3.3 -2.7 5.3 -0.9 -8.5 0.2 -0.3 4.4 -0.1 1.7 -0.8 5.8 トヨタ -0.7 2.8 2.9 3.6 -11.0 1.0 1.2 5.1 0.8 7.9 1.3 13.4 表2-1,表5-6より 作成1.散布図と相関係数
表13-1 日経平均とトヨタ自動車の株価の変化率(2006年,月末値) 単位:% 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 日経平均 3.3 -2.7 5.3 -0.9 -8.5 0.2 -0.3 4.4 -0.1 1.7 -0.8 5.8 トヨタ -0.7 2.8 2.9 3.6 -11.0 1.0 1.2 5.1 0.8 7.9 1.3 13.4 表2-1,表5-6より作成 i x i y 0 15 変化率(%) 図13-1 日経平均とトヨタ自動車の株価変化率のグラフ (2006年) a. 日経平均・トヨタ自動車の月次変化率の推移 日経平均 トヨタ自動車 0 15 トヨタ自動車の 株価変化率(%) b.散布図散布図と相関(直観的解釈)
11
a. 正の相関 b.負の相関
共分散とは何か
Ⅰ Ⅱ Ⅲ Ⅳ x y 1 x 1 y ) , (x1 y1 の平均である. ) )( (xi x yi y共分散とは何か(第Ⅰ象限)
13 x y x y ) , (xi yi の平均である. ) )( (xi x yi y i x i y 0 ) ( ) (xi x yi y 共分散とは何か(第Ⅱ象限)
x y x y ) , (xi yi の平均である. ) )( (xi x yi y x i y 0 ) ( ) (xi x yi y 共分散とは何か(第Ⅲ象限)
15 x y x y ) , (xi yi の平均である. ) )( (xi x yi y i x i y 0 ) ( ) (xi x yi y 共分散とは何か(第Ⅳ象限)
x y x y ) , (xi yi の平均である. ) )( (xi x yi y x i y 0 ) ( ) (xi x yi y 共分散とは何か(第Ⅰ~Ⅳ象限)
17 x y x y の平均である. ) )( (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 共分散の符号
x y x y
n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 xy S共分散の符号
19 x y x y
n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 xy S共分散の符号
x y x y
n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 ) ( ) (xi x yi y 0 xy SXとYの共分散
相関係数
21 Yの標準偏差 Xの標準偏差
2 2)
(
1
)
(
1
)
)(
(
1
y
y
n
x
x
n
y
y
x
x
n
S
S
S
r
i i i i y x xy xy相関係数
y i x i y x i i y x xy xyS
y
y
S
x
x
n
S
S
y
y
x
x
n
S
S
S
r
)
(
)
(
1
)
)(
(
1
23
相関係数の性質
最大1,最小−1の値をとる. 相関係数の絶対値が1に近い程,相関は強 いことが分かる. 相関係数の絶対値が1になるのは,データ 点が一直線上に位置するときのみである. 相関係数は,直線的な関係の強さをはかる もので,曲線的な関係を調べるのには向い ていない.2
最小2乗法と回帰直線
これまで,2つの変数間の関係の深さにつ いて考えてきた(相関係数) 次に,変数に役割を与え,一方の変数を 用いて他方の変数を説明することを考え る. この関係は,必ずしも,因果関係でなく てもよい. 25直線 y=α+βx とは?
1
x
y
点(
0, α) を通る
傾き
β の直線
直線 y=b+c(x-a) とは?
a
c
271
)
(
x
a
c
b
y
点(a, b) を通る
傾き c の直線
b
直線 y=α+βx を回帰直線と考える
とき
28
(x
i, y
i)
x
i
y
ix
y
i ix
y
*
}
i i i i i iy
x
y
*
観測値には誤差が加わって いる直線 y=α+βx を回帰直線と考える
ときの観測値の得られ方
3 x 3 29)
,
(
x
1y
1 2y
y
x
1 1x
1y
2x
)
,
(
x
2y
2 2 回帰直線 y=α+βx は未知である
x
b
a
y
x
y
データから推定するしかない。 直線であるという保証もない。直線 y=α+βx の推定法
上の式を最小にするように,αとβを決める. 最小2乗法により決めるとも言う. 31 2 1 1 2)
(
1
1
)
5
.
1
(
n i i i n i in
y
x
n
2 1 1 2)
(
)
6
.
1
(
n i i i n i iy
x
SSE
上の Sum of Squared Errors を最少化するとも
回帰直線 y=α+βx の推定法(図解)
x
b
a
y
1 1 a b x y 1 y 1 x b a 2 2 a b x y 赤線の長さの2 乗和を最小に する a, b を求 めよう。 2 y 2 x b a 2 ) (
n y a b x最小2乗推定値の公式
結果を先に示す 33 xx xy n i i n i i is
s
x
x
y
y
x
x
b
1 2 1)
(
)
)(
(
)
7
.
1
(
x
b
y
a
)
8
.
1
(
s
xy
1
n
(x
i
x )(y
i
y ), s
xx
1
n
(x
i
x )
2 i1 n
i1 n
ここで,回帰直線とは
y
xx xy i i i s s x x x x y y b
2 ) ( ) ( ) ()
(
x
x
b
y
y
x
b
y
a
bx
a
y
の直線
傾き
を通る
b
y
x
,
)
(
1 ba
最小2乗推定値の求め方(1)難
35
2 )} ( ) ( ) {(yi y b xi x y a b x
n i i i a b x y 1 2 ) (
( yi y y a b xi bx bx)2 } ) ( ) ( 2 ) )( ( 2 ) )( ( 2 ) ( ) ( ) ( { 2 2 2 2 x x x b a y b y y x b a y y y x x b x b a y x x b y y i i i i i i
最小2乗推定値の求め方(2)
難
}
)
(
)
(
2
)
)(
(
2
)
)(
(
2
)
(
)
(
)
(
{
2 2 2 2x
x
x
b
a
y
y
y
x
b
a
y
b
y
y
x
x
b
x
b
a
y
x
x
b
y
y
i i i i i i
)
(
)
(
2
)
(
)
(
2
)
(
)
(
2
)
(
)
(
)
(
2 2 2 2y
y
x
b
a
y
x
x
x
b
a
y
b
x
x
y
y
b
x
b
a
y
n
x
x
b
y
y
i i i i i最小2乗推定値の求め方(3)
難
になる. のとき0 x b y a 37 2 2 2 2 1 2 ) ( ) ( ) ( 2 ) ( ) ( ) ( x b a y n x x y y b x x b y y x b a y i i i i n i i i
1.この部分を最小にするように b を決める
2 2 2 2 2)
(
)
(
)
(
)
(
)
(
2
)
(
y
y
x
b
a
y
n
b
x
x
x
x
y
y
b
x
x
i i i i i最小2乗推定値の求め方(4)
難
2 2 2 2 ) ) ( ) ( ) ( ( ) ) ( ) ( ) ( (
x x x x y y x x x x y y b i i i i i i)
(
)
(
y
y
x
x
b
i iのとき最小とな
b
x
x
x
x
y
y
b
i i i 2 2)
(
)
(
)
(
2
回帰直線とは
39x
y
xx xy i i i s s x x x x y y b
2 ) ( ) ( ) ()
(
x
x
b
y
y
x
b
y
a
bx
a
y
の直線
傾き
を通る
b
y
x
,
)
(
1)
(
ˆ
i i i i iy
y
y
a
b
x
e
残差とは?
実際の観測値と推定値との差を残差と呼ぶ. ) ( ) ( )} ( { ) ( x x b y y x x b y y x b a y e i i i i i i i 40 (xi, yi)x
i yi i e i i a b x yˆ x y ) (x x b y x b a y 残差プロット
y 軸に残差をとったものを残差プロットと呼ぶ 41 (xi, yi)
x
i yi i e y a b x i i a b x yˆ 残差の和と残差の平方和
残差の総和は0である. 42 ) ( 1 1 i n i i n i i y a b x e
2 1 2 2 1 ) ( 1 ) ( 1 i n i i i n i i ee y a b x n e e e n s
e
0
当然のことだが、残差の平均も0である. 残差の分散は,下のように表される.
n i i n i i y b x x y 1 1 ) ( ) ( 0 x b y a 残差分散
) ( ˆ a b y y b x x yi i i
yy xx xy yys
s
s
s
21
2 1)
(
1
x
x
b
y
y
n
i n i i
xx xy s s b 43
n i i i eey
y
n
s
1 2)
ˆ
(
1
2 2 2 ) ( 1 ) )( ( 1 2 ) ( 1 x x n b x x y y n b y y n i i i i
xx xx xy xy xx xy yys
s
s
s
s
s
s
22
残差平方和と相関係数の関係
相関係数
:
xyr
相関係数が1に近いほど,残差平方和は小さくな る.つまり,推定精度が高い.を決定係数と呼ぶ.
2 2 xyr
R
)
1
(
xy
2
yy
ee
s
r
s
例題13.2 勤続年数と給与額
45 ) (x x b y x b a y xx xy s s b 119896..9753 7.473 9 . 217 56 . 13 473 . 7 20 . 319 x b y a ) 56 . 13 ( 473 . 7 20 . 319 473 . 7 9 . 217 x x y相関係数