１３章　回帰分析

(1)

１３章回帰分析の基礎

２つ以上の変数についての関係を見る．１つの変数を結果，その他の変数を原因として，因果関係を説明しようとするもの．厳密な意味での因果関係ではない。 1

(2)

例（因果・相関関係等）

 勤務年数が長ければ，年間給与は上がる．  景気が良くなれば，株価は上がる  父親の身長が高ければ，子供の身長も高い．  価格が低下すれば需要が増える．  自身の兄弟数が多いと，育てる子供の数も多い．  サッカー人気が上がると，野球人気が落ちる．

(3)

例（因果・相関関係等）

 円が高くなると，輸出不振になる．  フォアボールが多いと失点が増える．  親の年収が高いと，子供の成績もよい．  投手の防御率が低いと，勝利数も多い．  ルックスと性格の関係  天候と売り上げ  与四球数が多いチームの勝率は低い  不景気だとクマのキャラクターの売り上げが上がる． 3

(4)

例（因果・相関関係等）

 B級グルメと地域経済  血液型と性格  美人と生涯所得の関係  トヨタ株価と日経平均  勉強時間とテスト結果  映画の興行収入と作品としての評価  シュート数と得点

(5)

例（因果・相関関係等）

 東京ディズニーランドとUSJの入場者数の関係．  海外旅行者と国内旅行者の数の関係  打率と出塁率の関係  食事の取り方と体重の関係  顔と性格の関係  ボール支配率と勝率の関係 5

(6)

例（因果・相関関係等）

 気温とアイスの売り上げ  ファーストサーブの成功率と勝率  親の寿命と子の寿命  親の結婚年齢と子の結婚年齢  出席率と成績  勉強時間と成績の関係  煙草の値段と喫煙率

(7)

例（因果・相関関係等）

 CDの売り上げと着うたフルのダウンロード数  月収とギャンブル収支  喫煙者と職業  非正規労働者の増減と企業数の増減  天候と外出の関係 7

(8)

ここで勉強すること



散布図と相関係数



最小２乗法と回帰直線



決定係数

(9)

株価収益率データの標本は？母集

団は？

_標本 2006年1月の状況

日本経済

母集団 2006年2月の状況 2006年2月の状況表13-1 日経平均とトヨタ自動車の株価の変化率（2006年，月末値）単位：％１月２月３月４月５月６月７月８月９月 10月 11月 12月日経平均 3.3 -2.7 5.3 -0.9 -8.5 0.2 -0.3 4.4 -0.1 1.7 -0.8 5.8 トヨタ -0.7 2.8 2.9 3.6 -11.0 1.0 1.2 5.1 0.8 7.9 1.3 13.4 表2-1，表5-6より作成

(10)

１．散布図と相関係数

表13-1 日経平均とトヨタ自動車の株価の変化率（2006年，月末値）単位：％１月２月３月４月５月６月７月８月９月 10月 11月 12月日経平均 3.3 -2.7 5.3 -0.9 -8.5 0.2 -0.3 4.4 -0.1 1.7 -0.8 5.8 トヨタ -0.7 2.8 2.9 3.6 -11.0 1.0 1.2 5.1 0.8 7.9 1.3 13.4 表2-1，表5-6より作成 i x i y 0 15 変化率(%) 図13-1 日経平均とトヨタ自動車の株価変化率のグラフ（2006年） a. 日経平均・トヨタ自動車の月次変化率の推移日経平均トヨタ自動車 0 15 トヨタ自動車の株価変化率(%) b．散布図

(11)

散布図と相関(直観的解釈)

11

a. 正の相関 b.負の相関

(12)

共分散とは何か

Ⅰ Ⅱ Ⅲ Ⅳ x y 1 x 1 y ) , (x₁ y₁ の平均である． ) )( (x_i  x y_i  y

(13)

共分散とは何か（第Ⅰ象限）

13 x y x y ) , (x_i y_i の平均である． ) )( (x_i  x y_i  y i x i y 0 ) ( ) (x_i  x y_i  y 

(14)

共分散とは何か（第Ⅱ象限）

x y x y ) , (x_i y_i の平均である． ) )( (x_i  x y_i  y x i y 0 ) ( ) (x_i  x y_i  y 

(15)

共分散とは何か（第Ⅲ象限）

15 x y x y ) , (x_i y_i の平均である． ) )( (x_i  x y_i  y i x i y 0 ) ( ) (x_i  x y_i  y 

(16)

共分散とは何か（第Ⅳ象限）

x y x y ) , (x_i y_i の平均である． ) )( (x_i  x y_i  y x i y 0 ) ( ) (x_i  x y_i  y 

(17)

共分散とは何か（第Ⅰ~Ⅳ象限）

17 x y x y の平均である． ) )( (x_i  x y_i  y 0 ) ( ) (x_i  x y_i  y  0 ) ( ) (x_i  x y_i  y  0 ) ( ) (x_i  x y_i  y  0 ) ( ) (x_i  x y_i  y 

(18)

共分散の符号

x y x y



    n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (x_i x y_i  y  0 ) ( ) (x_i x y_i  y  0 ) ( ) (x_i x y_i  y  0 ) ( ) (x_i x y_i  y  0  xy S

(19)

共分散の符号

19 x y x y



    n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (x_i x y_i  y  0 ) ( ) (x_i x y_i  y  0 ) ( ) (x_i  x y_i  y  0 ) ( ) (x_i x y_i  y  0  xy S

(20)

共分散の符号

x y x y



    n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (x_i x y_i  y  0 ) ( ) (x_i x y_i  y  0 ) ( ) (x_i  x y_i  y  0 ) ( ) (x_i x y_i  y  0  xy S

(21)

XとYの共分散

相関係数

21 Yの標準偏差 Xの標準偏差







2 2

)

(

1 )

(

1 )

)(

(

1 y

y

n

x

n

y

x

n

S

r

i i i i y x xy xy

(22)

相関係数

y i x i y x i i y x xy xy

S

y

S

x

n

S

y

x

n

S

r

)

(

)

(

1 )

)(

(

1 











(23)

23

相関係数の性質

 最大１，最小−１の値をとる．  相関係数の絶対値が１に近い程，相関は強いことが分かる．  相関係数の絶対値が１になるのは，データ点が一直線上に位置するときのみである．  相関係数は，直線的な関係の強さをはかるもので，曲線的な関係を調べるのには向いていない．

(24)

(25)

2 最小2乗法と回帰直線

 これまで，2つの変数間の関係の深さについて考えてきた（相関係数）  次に，変数に役割を与え，一方の変数を用いて他方の変数を説明することを考える．  この関係は，必ずしも，因果関係でなくてもよい． 25

(26)

直線 y＝α＋βx とは？





1 x

y









点（

0, α) を通る

傾き

_{β の直線}

(27)

直線 y＝b＋c(x-a) とは？

a

c

27

1 )

(

x

a

c

b

y







点（a, b) を通る

傾き c の直線

b

(28)

直線 y＝α＋βx を回帰直線と考える

とき

28



(x

_i

, y

_i

)

x

_i



y

_i

x

y









i i

x

y

*









}





_i i i i i i

y

x

y



*

















観測値には誤差が加わっている

(29)

直線 y＝α＋βx を回帰直線と考える

ときの観測値の得られ方

3 x 3  29

)

,

(

x

₁

y

₁ 2

y









x

1  1

x

1

y

2

x

)

,

(

x

₂

y

₂ 2 

(30)

回帰直線 y＝α＋βx は未知である

x

b

a

y





x

y









データから推定するしかない。直線であるという保証もない。

(31)

直線 y＝α＋βｘの推定法

 上の式を最小にするように，αとβを決める．  最小２乗法により決めるとも言う． 31 2 1 1 2

)

(

1

1 )

5 .

1 (



 





n i i i n i i

_n

y

x

n







2 1 1 2

)

(

)

6 .

1 (



 







n i i i n i i

y

x

SSE







 上の Sum of Squared Errors を最少化するとも

(32)

回帰直線 y＝α＋βx の推定法（図解）

x

b

a

y





1 1 a b x y   1 y 1 x b a  2 2 a b x y   赤線の長さの２乗和を最小にする a, b を求めよう。 2 y 2 x b a  2 ) (



n y  a b x

(33)

最小２乗推定値の公式

結果を先に示す 33 xx xy n i i n i i i

s

x

y

x

b









  1 2 1

)

(

)

)(

(

)

7 .

1 (

x

b

y

a





)

8 .

1 (



s

_xy



1 n

(x

i



x )(y

i



y ), s

xx



1 n

(x

i



x )

2 i1 n



i1 n



ここで，

(34)

回帰直線とは

y

xx xy i i i s s x x x x y y b     



2 ) ( ) ( ) (

)

(

x

b

y







x

b

y

a





bx

a

y





の直線

傾き

を通る

b

y

x

,

)

(

1 b

a

(35)

最小２乗推定値の求め方（１）難

35



       2 )} ( ) ( ) {(y_i y b x_i x y a b x



   n i i i a b x y 1 2 ) ( 



₍ _y_i  _y  _y  _a  _b _x_i  _b_x  _b_x₎2 } ) ( ) ( 2 ) )( ( 2 ) )( ( 2 ) ( ) ( ) ( { 2 2 2 2 x x x b a y b y y x b a y y y x x b x b a y x x b y y i i i i i i                  



(36)

最小２乗推定値の求め方（2）

難

}

)

(

)

(

2 )

)(

(

2 )

)(

(

2 )

(

)

(

)

(

{

2 2 2 2

x

b

a

y

x

b

a

y

b

y

x

b

x

b

a

y

x

b

y

i i i i i i

































)

(

)

(

2 )

(

)

(

2 )

(

)

(

2 )

(

)

(

)

(

2 2 2 2

y

x

b

a

y

x

b

a

y

b

x

y

b

x

b

a

y

n

x

b

y

i i i i i

(37)

最小２乗推定値の求め方（3）

難

になる．のとき0 x b y a   37 2 2 2 2 1 2 ) ( ) ( ) ( 2 ) ( ) ( ) ( x b a y n x x y y b x x b y y x b a y i i i i n i i i            



 １．この部分を最小にするように b を決める































2 2 2 2 2

)

(

)

(

)

(

)

(

)

(

2 )

(

y

x

b

a

y

n

b

x

y

b

x

i i i i i

(38)

最小２乗推定値の求め方（4）

難

2 2 2 2 ) ) ( ) ( ) ( ( ) ) ( ) ( ) ( (



         x x x x y y x x x x y y b i i i i i i

)

(

)

(







y

x

b

i i

のとき最小とな

b

x

y

b

i i i 2 2

)

(

)

(

)

(

2 





(39)

回帰直線とは

39

x

y

xx xy i i i s s x x x x y y b     



2 ) ( ) ( ) (

)

(

x

b

y







x

b

y

a





bx

a

y





の直線

傾き

を通る

b

y

x

,

)

(

1

(40)

)

(

ˆ

_i _i _i i i

y

a

b

x

e











残差とは？

 実際の観測値と推定値との差を残差と呼ぶ． ) ( ) ( )} ( { ) ( x x b y y x x b y y x b a y e i i i i i i i            40  (x_i, y_i)

x

_i  y_i i e i i a b x yˆ   x y ) (x x b y x b a y     

(41)

残差プロット

 _{y 軸に残差をとったものを残差プロットと呼ぶ} 41  (x_i, y_i)



x

_i  y_i i e y  a b x i i a b x yˆ  

(42)

残差の和と残差の平方和

 残差の総和は０である． 42 ) ( 1 1 i n i i n i i y a b x e 



 



  2 1 2 2 1 ) ( 1 ) ( 1 i n i i i n i i ee y a b x n e e e n s 



 







   

e



0

 当然のことだが、残差の平均も０である．  残差の分散は，下のように表される．



      n i i n i i y b x x y 1 1 ) ( ) (  0 x b y a  

(43)

残差分散

) ( ˆ a b y y b x x y_i   _i   _i 

















yy xx xy yy

s

2

1 



2 1

)

(

1 x

x

b

y

n

i n i i







 xx xy s s b  43









n i i i ee

y

n

s

1 2

)

ˆ

(

1

2 2 2 ) ( 1 ) )( ( 1 2 ) ( 1 x x n b x x y y n b y y n i   i  i   i  



xx xx xy xy xx xy yy

s

2

2 _

















(44)

残差平方和と相関係数の関係

相関係数

:

xy

r

 相関係数が１に近いほど，残差平方和は小さくなる．つまり，推定精度が高い．

を決定係数と呼ぶ．

2 2 xy

r

R



)

1 (

_xy

2 yy

ee

s

r

s





(45)

例題13.2 勤続年数と給与額

45 ) (x x b y x b a y      xx xy s s b   ₁₁₉896_..₉₇53  7.473 9 . 217 56 . 13 473 . 7 20 . 319     x b y a   ) 56 . 13 ( 473 . 7 20 . 319 473 . 7 9 . 217      x x y

(46)

相関係数

例題13.2（続き）

y = 7.473x + 217.9 R² = 0.991 0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 10.0 20.0 30.0 40.0 所定内給与額（千円） yy xx xy xy s s s r  58 . 6754 97 . 119 53 . 896   9959 . 0  回帰の決定係数 2 2 2 ) 9959 . 0 (   r_xy R

(47)

例題13.2（続き）

47 -15.00 -10.00 -5.00 0.00 5.00 10.00 15.00 0.0 10.0 20.0 30.0 40.0 ) 1 ( R2 s s_ee  _yy  84 . 54 ) 991 . 0 1 ( 58 . 6754     残差プロット

(48)

3 決定係数

 決定係数は相関係数を2乗したものであるが，その他にもさまざまな解釈ができる．

相関係数

:

xy

r

回帰の決定係数という

:

)

(

2 2 xy

r

R



(49)

決定係数の意味（小さな相関）

図を書いてみる y

x

)

1 (

_xy2 yy ee

s

r

s





49







    ₂ 2 ) ( 1 1 i i i ee y a b x n e n s i e x b a y  

x

y

1 e 2 e



   n i i yy y y n S 1 2 ) ( 1 相関係数が小さければ，残差分散は小さくならない

(50)

決定係数の意味（大きな相関）

図を書いてみる y

)

1 (

_xy2 yy ee

s

r

s











    ₂ 2 ) ( 1 1 i i i ee y a b x n e n s _y _ _a __b _x

y



   n i i yy y y n S 1 2 ) ( 1 相関係数が大きければ，残差分散は小さくなる

(51)

ｙの変動の分解と決定係数

) ˆ ( ) ˆ (y y y y y y_i   _i  _i  _i  51  (x_i, y_i)  x_i  y_i

x

b

a

y





 ˆ y _i  x  y

y

_i



平均からの偏差残差：回帰直線では説明しきれない部分回帰直線で説明できる部分 y yˆ_i  i i i y y e   ˆ

(52)

ｙの全変動（平均からの変動）

52  (x_i, y_i) x_i  y_i

x

b

a

y





x  y

y

_i



平均からの偏差 2 1

)

(







n i i

y

(53)

回帰で説明されない変動（残差）

53  (x_i, y_i)  x_i  y_i

x

b

a

y





 x  y i i

y



ˆ

残差



 





n i i n i i i

y

e

y

1 2 2 1

)

ˆ

(

 ˆ y _i i i i

y

e





ˆ

(54)

回帰で説明される変動

54  (x_i, y_i)

x

b

a

y





x  y

y

ˆ

_i



説明できた部分 2 1

)

ˆ

(







n i i

y

 ˆ y _i

(55)

決定係数とは（２）難

) ( ˆ y b x x y_i   _i         ₂ ) ( ) )( ( x x y y x x s s b i i i xx xy 55



(y

_i



y

i1 n



)

2





{(y

_i



y

ˆ

_i

)



( ˆ

y

_i



y )}

2





(y

_i



y

ˆ

_i

)

2





( ˆ

y

_i



y )

2



2 (y



_i



y

ˆ

_i

)( ˆ

y

_i



y )

0 )

(

)

)(

(

)}

(

)}{

(

{

)

ˆ

)(

ˆ

(

2 2

















x

b

x

y

b

x

b

x

b

y

i i i i i i i i i

０

なぜなら、

(56)

決定係数とは（3）

難

2 1 2 2 1 2

)

(

)

ˆ

(

)

(

)

ˆ

(

1 



 









_n i i i n i i i i

y

56













 2 2 2 1

)

ˆ

(

)

ˆ

(

)

(

y

_i

y

_i

y

_i

y

n i i 決定係数：R2 全変動のうち、回帰による変動の占める割合 ( ˆ y _i  y )2



(y_i  y i1 n



)2  {b(xi  x )} 2



(y_i  y i1 n



)2  b 2 1 n (xi  x ) 2



1 n _i_₁ (yi  y n



)2  sxy 2 s_xx s_yy 回帰からの変動全変動回帰による変動

(57)

決定係数とは（４）難

57 2 1 2 2 1 2 2 1 2 2

)

(

1 )

(

)

ˆ

(

1 )

(

)

ˆ

(



  













_n i i i n i i i i n i i i

y

e

y

R



R

2



( ˆ

y

i



y )

2



(y

_i



y

i1 n



)

2



s

xy 2

s

_xx

s

_yy

相関係数の２乗

この表現が後に重要になる

(58)

決定係数のもう一つの意味

回帰モデルの説明力

を示すもの．



 2 ) ˆ (y_i y_i



(yˆ_i  y)2







 2 ) (y_i y



 2 ) (y_i y



 2 ) (y_i y





(yi  yˆi)2



 2 ) ˆ (y_i y



計算すれば，この等式が成り立つことが分かる．両辺を



 2 で割ると， ) (y_i y



 2 ) (y_i y



 2 ) (y_i y

(59)

決定係数の意味（さらに）

59

1

2

R







 2 ) (y_i y



 2 ) ˆ (y_i y_i



 2 ) (y_i y



 2 ) (y_i y





(yi  yˆi)2



 2 ) ˆ (y_i y





 2 ) (y_i y



 2 ) (y_i y

1 

2

R

1 

_

_ 2 ) (y_i y



2 i e



(60)

決定係数のまとめ

)

1 (

_xy2 yy ee

s

r

s





2 2 xy

r

R





 2 ) (y_i y



 2 ) ˆ (y_i y 2

R



2

R



1 



 2 ) (y_i y



2 i e 決定係数は，全変動のうち回帰で説明できる割合である．決定係数は，相関係数の２乗である．決定係数は，全変動のから

(61)

4 重回帰モデル

 家計の消費水準を，可処分所得と消費者物価により説明する．  一人当り賃金上昇率を，消費者物価上昇率と失業率により説明する．  株価水準の変動を内外金利水準や鉱工業生産指数，為替レート等の変動や，金融的変数の変動で説明したりする．  説明変数が複数あるということは、思わぬ問題を引き起こす。詳しくは、計量経済学で。 ₆₁

(62)

重回帰モデル（数式，推定法）

 データが得られるメカニズムは以下の式で表される．





(3.1) y

_i









₁

x

_1i





₂

x

_2i









_K

x

_Ki





_i 2 2 2 1 1 1

)

(

)

2 .

3 (

_i _i _K _Ki n i i

x

y























 推定値は最小２乗法，つまり以下の式を最小にするものとして得られる．

(63)

推定値・残差

パラメータの推定値を次のように表そう． 63





a, b

₁

, b

₂

, b

₃

,, b

_K すると各観測の推定値は，





(3.4) ˆ

y

_i



a



b

₁

x

_1i



b

₂

x

_2i







b

_K

x

_Ki



(3.5) e

_i



y

_i



y

ˆ

_i

,

e

_i



0

i1 n



残差は，

(64)

回帰モデルの選択

 ある会社の株価を予想したい．  株価は会社の成長性，安定性，収益性などの要素で決まると言われる．  成長性の指標として，昨年の売上高成長率を採用するのか，それとも，５年間の平均を採用するのか．  あるいは，経常利益を考えるのか？  それとも，両方を採用するか？

(65)

回帰モデルの候補は数えきれな

い

 説明変数として何を採用するのか？  説明変数をいくつ採用するのか？  競合する回帰モデルの優劣を示す数値が必要になる．  その一つが，修正決定係数である． 65

(66)

修正決定係数とは？

 決定係数はモデルの選択に使えない。  説明変数の数を増やせば，決定係数は必ず増加ずる．  説明変数が多いと有利。  その理由は、下のような２つのモデルを考えてみる。



   2 2 2 ) ( 1 1 1 y y n e n R i i















₁ ₁

(

1 )



i i

x

y









修正前の決定係数

(67)

説明変数が多いと・・・・

) ' 2 ( ) ( min _, _, ₁ ₁ ₂ ₂ 2 2 2 1 b i i i  b a i y a b x b x e 



  



67

)

'

1 (

)

(

min

_, ₁ ₁ 2 2 1 i i



b a i

y

a

b

x

e







このとき、(1’)と(2’)とではどちらが小さいか、考えてみよう。 (2’) が小さくなる。 なぜなら、(2’) では b₂=0 と固定したとき、(1’) と同じになるので、この制約を外せば_{(1’)よりも小さくなる} ことが期待できる。

(68)

修正決定係数の定義：単回帰のとき



    2 2 1 ) ( min ) (y y _a y_i a n i i ) 1 ( ) ( ) 2 ( 1 ) 1 ( ) ( ) 2 ( ) ˆ ( 1 2 2 2 2 2 2           



n y y n e n y y n y y R _n i n i i      2 2 2 ) ( 1 1 1 y y n e n R i i

)

1 (

1 1 i



i

x

y









2 1 1 , 2

)

(

min

1 i i b a i

y

a

b

x

e







(69)

説明変数が一つ増えると，









 2 2 1

)

(

min

)

(

y

_a

y

_i

a

n i i      2 2 2 ) ( 1 1 1 y y n e n R i i ) 1 ( ) ( ) 3 ( 1 ) 1 ( ) ( ) 3 ( ) ˆ ( 1 2 1 2 2 2 1 2 2           



  n y y n e n y y n y y R _n i i i n i i i i 69 ) 2 ( 2 2 1 1 i i  i x x y 











2 2 2 1 1 , , 2 ) ( min 2 1 b i i i b a i y a b x b x e 



  



(70)

一般の場合

説明変数がK個のときには，下の修正決定係数を用いる． ) 1 ( 1 ) 1 ( ) ˆ ( 1 2 2 2 2 2           



y y n K e n K R _n i n i i









 2 2 1

)

(

min

)

(

y

_a

y

_i

a

n i i 2 2 2 1 1 , , , , 2 ) ( min 2 1 b b i i i K Ki b a i y a b x b x b x e K      



_ 

(71)

決定係数：回帰による変動の割合

71 決定係数は，説明変数が１つの場合と同様に，以下のように表される．  R2  ( ˆ y i  y ) 2



(y_i  y i1 n



)2 1 (yi  y ˆ i) 2



(y_i  y i1 n



)2 1 e 2



(y_i  y i1 n



)2 1 e 2



n (y_i  y i1 n



)2 n  1 see s_yy

１３章 回帰分析