• 検索結果がありません。

13章 回帰分析

N/A
N/A
Protected

Academic year: 2021

シェア "13章 回帰分析"

Copied!
71
0
0

読み込み中.... (全文を見る)

全文

(1)

13章 回帰分析の基礎

2つ以上の変数についての関 係を見る. 1つの変数を結果,その他の 変数を原因として,因果関係 を説明しようとするもの. 厳密な意味での因果関係で はない。 1

(2)

例(因果・相関関係等)

 勤務年数が長ければ,年間給与は上がる.  景気が良くなれば,株価は上がる  父親の身長が高ければ,子供の身長も高い.  価格が低下すれば需要が増える.  自身の兄弟数が多いと,育てる子供の数も 多い.  サッカー人気が上がると,野球人気が落ちる.

(3)

例(因果・相関関係等)

 円が高くなると,輸出不振になる.  フォアボールが多いと失点が増える.  親の年収が高いと,子供の成績もよい.  投手の防御率が低いと,勝利数も多い.  ルックスと性格の関係  天候と売り上げ  与四球数が多いチームの勝率は低い  不景気だとクマのキャラクターの売り上げが 上がる. 3

(4)

例(因果・相関関係等)

 B級グルメと地域経済  血液型と性格  美人と生涯所得の関係  トヨタ株価と日経平均  勉強時間とテスト結果  映画の興行収入と作品としての評価  シュート数と得点

(5)

例(因果・相関関係等)

 東京ディズニーランドとUSJの入場者数 の関係.  海外旅行者と国内旅行者の数の関係  打率と出塁率の関係  食事の取り方と体重の関係  顔と性格の関係  ボール支配率と勝率の関係 5

(6)

例(因果・相関関係等)

 気温とアイスの売り上げ  ファーストサーブの成功率と勝率  親の寿命と子の寿命  親の結婚年齢と子の結婚年齢  出席率と成績  勉強時間と成績の関係  煙草の値段と喫煙率

(7)

例(因果・相関関係等)

 CDの売り上げと着うたフルのダウンロー ド数  月収とギャンブル収支  喫煙者と職業  非正規労働者の増減と企業数の増減  天候と外出の関係 7

(8)

ここで勉強すること

散布図と相関係数

最小2乗法と回帰直線

決定係数

(9)

株価収益率データの標本は?母集

団は?

標本 2006年1月の状況

日本経済

母集団 2006年2月の状況 2006年2月の状況 表13-1 日経平均とトヨタ自動車の株価の変化率(2006年,月末値) 単位:% 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 日経平均 3.3 -2.7 5.3 -0.9 -8.5 0.2 -0.3 4.4 -0.1 1.7 -0.8 5.8 トヨタ -0.7 2.8 2.9 3.6 -11.0 1.0 1.2 5.1 0.8 7.9 1.3 13.4 表2-1,表5-6より 作成

(10)

1.散布図と相関係数

表13-1 日経平均とトヨタ自動車の株価の変化率(2006年,月末値) 単位:% 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 日経平均 3.3 -2.7 5.3 -0.9 -8.5 0.2 -0.3 4.4 -0.1 1.7 -0.8 5.8 トヨタ -0.7 2.8 2.9 3.6 -11.0 1.0 1.2 5.1 0.8 7.9 1.3 13.4 表2-1,表5-6より作成 i x i y 0 15 変化率(%) 図13-1 日経平均とトヨタ自動車の株価変化率のグラフ (2006年) a. 日経平均・トヨタ自動車の月次変化率の推移 日経平均 トヨタ自動車 0 15 トヨタ自動車の 株価変化率(%) b.散布図

(11)

散布図と相関(直観的解釈)

11

a. 正の相関 b.負の相関

(12)

共分散とは何か

Ⅰ Ⅱ Ⅲ Ⅳ x y 1 x 1 y ) , (x1 y1 の平均である. ) )( (xix yiy

(13)

共分散とは何か(第Ⅰ象限)

13 x y x y ) , (xi yi の平均である. ) )( (xix yiy i x i y 0 ) ( ) (xix yiy

(14)

共分散とは何か(第Ⅱ象限)

x y x y ) , (xi yi の平均である. ) )( (xix yiy x i y 0 ) ( ) (xix yiy

(15)

共分散とは何か(第Ⅲ象限)

15 x y x y ) , (xi yi の平均である. ) )( (xix yiy i x i y 0 ) ( ) (xix yiy

(16)

共分散とは何か(第Ⅳ象限)

x y x y ) , (xi yi の平均である. ) )( (xix yiy x i y 0 ) ( ) (xix yiy

(17)

共分散とは何か(第Ⅰ~Ⅳ象限)

17 x y x y の平均である. ) )( (xix yiy 0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy

(18)

共分散の符号

x y x y

    n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0  xy S

(19)

共分散の符号

19 x y x y

    n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0  xy S

(20)

共分散の符号

x y x y

    n i i i xy x x y y n S 1( )( ) 1 0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0 ) ( ) (xix yiy  0  xy S

(21)

XとYの共分散

相関係数

21 Yの標準偏差 Xの標準偏差

2 2

)

(

1

)

(

1

)

)(

(

1

y

y

n

x

x

n

y

y

x

x

n

S

S

S

r

i i i i y x xy xy

(22)

相関係数

y i x i y x i i y x xy xy

S

y

y

S

x

x

n

S

S

y

y

x

x

n

S

S

S

r

)

(

)

(

1

)

)(

(

1

(23)

23

相関係数の性質

 最大1,最小−1の値をとる.  相関係数の絶対値が1に近い程,相関は強 いことが分かる.  相関係数の絶対値が1になるのは,データ 点が一直線上に位置するときのみである.  相関係数は,直線的な関係の強さをはかる もので,曲線的な関係を調べるのには向い ていない.

(24)
(25)

2

最小2乗法と回帰直線

 これまで,2つの変数間の関係の深さにつ いて考えてきた(相関係数)  次に,変数に役割を与え,一方の変数を 用いて他方の変数を説明することを考え る.  この関係は,必ずしも,因果関係でなく てもよい. 25

(26)

直線 y=α+βx とは?

1

x

y

点(

0, α) を通る

傾き

β の直線

(27)

直線 y=b+c(x-a) とは?

a

c

27

1

)

(

x

a

c

b

y

点(a, b) を通る

傾き c の直線

b

(28)

直線 y=α+βx を回帰直線と考える

とき

28



(x

i

, y

i

)

x

i



y

i

x

y

i i

x

y

*

}



i i i i i i

y

x

y

*

観測値には誤差が加わって いる

(29)

直線 y=α+βx を回帰直線と考える

ときの観測値の得られ方

3 x 3  29

)

,

(

x

1

y

1 2

y

y

x

1  1

x

1

y

2

x

)

,

(

x

2

y

2 2 

(30)

回帰直線 y=α+βx は未知である

x

b

a

y

x

y

データから推定するしかない。 直線であるという保証もない。

(31)

直線 y=α+βx の推定法

 上の式を最小にするように,αとβを決める.  最小2乗法により決めるとも言う. 31 2 1 1 2

)

(

1

1

)

5

.

1

(

 

n i i i n i i

n

y

x

n

2 1 1 2

)

(

)

6

.

1

(

 

n i i i n i i

y

x

SSE

 上の Sum of Squared Errors を最少化するとも

(32)

回帰直線 y=α+βx の推定法(図解)

x

b

a

y

1 1 a b x y   1 y 1 x b a  2 2 a b x y   赤線の長さの2 乗和を最小に する a, b を求 めよう。 2 y 2 x b a  2 ) (

n yab x

(33)

最小2乗推定値の公式

結果を先に示す 33 xx xy n i i n i i i

s

s

x

x

y

y

x

x

b

  1 2 1

)

(

)

)(

(

)

7

.

1

(

x

b

y

a

)

8

.

1

(



s

xy

1

n

(x

i

x )(y

i

y ), s

xx

1

n

(x

i

x )

2 i1 n

i1 n

ここで,

(34)

回帰直線とは

y

xx xy i i i s s x x x x y y b     

2 ) ( ) ( ) (

)

(

x

x

b

y

y

x

b

y

a

bx

a

y

の直線

傾き

を通る

b

y

x

,

)

(

1 b

a

(35)

最小2乗推定値の求め方(1)難

35

       2 )} ( ) ( ) {(yi y b xi x y a b x

   n i i i a b x y 1 2 ) ( 

( yiyyab xibxbx)2 } ) ( ) ( 2 ) )( ( 2 ) )( ( 2 ) ( ) ( ) ( { 2 2 2 2 x x x b a y b y y x b a y y y x x b x b a y x x b y y i i i i i i                  

(36)

最小2乗推定値の求め方(2)

}

)

(

)

(

2

)

)(

(

2

)

)(

(

2

)

(

)

(

)

(

{

2 2 2 2

x

x

x

b

a

y

y

y

x

b

a

y

b

y

y

x

x

b

x

b

a

y

x

x

b

y

y

i i i i i i

)

(

)

(

2

)

(

)

(

2

)

(

)

(

2

)

(

)

(

)

(

2 2 2 2

y

y

x

b

a

y

x

x

x

b

a

y

b

x

x

y

y

b

x

b

a

y

n

x

x

b

y

y

i i i i i

(37)

最小2乗推定値の求め方(3)

になる. のとき0 x b y a   37 2 2 2 2 1 2 ) ( ) ( ) ( 2 ) ( ) ( ) ( x b a y n x x y y b x x b y y x b a y i i i i n i i i            

 1.この部分を最小にするように b を決める





2 2 2 2 2

)

(

)

(

)

(

)

(

)

(

2

)

(

y

y

x

b

a

y

n

b

x

x

x

x

y

y

b

x

x

i i i i i

(38)

最小2乗推定値の求め方(4)

2 2 2 2 ) ) ( ) ( ) ( ( ) ) ( ) ( ) ( (

         x x x x y y x x x x y y b i i i i i i

)

(

)

(

y

y

x

x

b

i i

のとき最小とな

b

x

x

x

x

y

y

b

i i i 2 2

)

(

)

(

)

(

2

(39)

回帰直線とは

39

x

y

xx xy i i i s s x x x x y y b     

2 ) ( ) ( ) (

)

(

x

x

b

y

y

x

b

y

a

bx

a

y

の直線

傾き

を通る

b

y

x

,

)

(

1

(40)

)

(

ˆ

i i i i i

y

y

y

a

b

x

e

残差とは?

 実際の観測値と推定値との差を残差と呼ぶ. ) ( ) ( )} ( { ) ( x x b y y x x b y y x b a y e i i i i i i i            40  (xi, yi)

x

i  yi i e i i a b x yˆ   x y ) (x x b y x b a y     

(41)

残差プロット

y 軸に残差をとったものを残差プロットと呼ぶ 41  (xi, yi)



x

i  yi i e yab x i i a b x yˆ  

(42)

残差の和と残差の平方和

 残差の総和は0である. 42 ) ( 1 1 i n i i n i i y a b x e

 

  2 1 2 2 1 ) ( 1 ) ( 1 i n i i i n i i ee y a b x n e e e n s

 

   

e

0

 当然のことだが、残差の平均も0である.  残差の分散は,下のように表される.

      n i i n i i y b x x y 1 1 ) ( ) (  0 x b y a  

(43)

残差分散

) ( ˆ a b y y b x x yi   i   i

yy xx xy yy

s

s

s

s

2

1

2 1

)

(

1

x

x

b

y

y

n

i n i i

xx xy s s b  43

n i i i ee

y

y

n

s

1 2

)

ˆ

(

1

2 2 2 ) ( 1 ) )( ( 1 2 ) ( 1 x x n b x x y y n b y y n i   ii   i  

xx xx xy xy xx xy yy

s

s

s

s

s

s

s

2

2





(44)

残差平方和と相関係数の関係

相関係数

:

xy

r

 相関係数が1に近いほど,残差平方和は小さくな る.つまり,推定精度が高い.

を決定係数と呼ぶ.

2 2 xy

r

R

)

1

(

xy

2

yy

ee

s

r

s

(45)

例題13.2 勤続年数と給与額

45 ) (x x b y x b a y      xx xy s s b   119896..9753  7.473 9 . 217 56 . 13 473 . 7 20 . 319     x b y a   ) 56 . 13 ( 473 . 7 20 . 319 473 . 7 9 . 217      x x y

(46)

相関係数

例題13.2(続き)

y = 7.473x + 217.9 R² = 0.991 0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 10.0 20.0 30.0 40.0 所定内給与額(千円) yy xx xy xy s s s r  58 . 6754 97 . 119 53 . 896   9959 . 0  回帰の決定係数 2 2 2 ) 9959 . 0 (   rxy R

(47)

例題13.2(続き)

47 -15.00 -10.00 -5.00 0.00 5.00 10.00 15.00 0.0 10.0 20.0 30.0 40.0 ) 1 ( R2 s seeyy  84 . 54 ) 991 . 0 1 ( 58 . 6754     残差プロット

(48)

3

決定係数

 決定係数は相関係数を2乗したものである が,その他にもさまざまな解釈ができる .

相関係数

:

xy

r

回帰の決定係数という

:

)

(

2 2 xy

r

R

(49)

決定係数の意味(小さな相関)

図を書いてみる y

x

)

1

(

xy2 yy ee

s

r

s

49

    2 2 ) ( 1 1 i i i ee y a b x n e n s i e x b a y  

x

y

1 e 2 e

   n i i yy y y n S 1 2 ) ( 1 相関係数が小さければ,残 差分散は小さくならない

(50)

決定係数の意味(大きな相関)

図を書いてみる y

)

1

(

xy2 yy ee

s

r

s

    2 2 ) ( 1 1 i i i ee y a b x n e n s y a b x

y

   n i i yy y y n S 1 2 ) ( 1 相関係数が大きければ, 残差分散は小さくなる

(51)

y の変動の分解と決定係数

) ˆ ( ) ˆ (y y y y y yi   iii  51  (xi, yi)  xi  yi

x

b

a

y

 ˆ y i  x  y

y

y

i

平均からの偏差 残差: 回帰直線では 説明しきれない部分 回帰直線で説 明できる部分 y yˆii i i y y e   ˆ

(52)

y の全変動(平均からの変動)

52  (xi, yi) xi  yi

x

b

a

y

x  y

y

y

i

平均からの偏差 2 1

)

(

n i i

y

y

(53)

回帰で説明されない変動(残差)

53  (xi, yi)  xi  yi

x

b

a

y

 x  y i i

y

y

ˆ

残差

 

n i i n i i i

y

e

y

1 2 2 1

)

ˆ

(

 ˆ y i i i i

y

y

e

ˆ

(54)

回帰で説明される変動

54  (xi, yi)

x

b

a

y

x  y

y

y

ˆ

i

説明できた部分 2 1

)

ˆ

(

n i i

y

y

 ˆ y i

(55)

決定係数とは(2)難

) ( ˆ y b x x yi   i         2 ) ( ) )( ( x x y y x x s s b i i i xx xy 55



(y

i

y

i1 n

)

2

{(y

i

y

ˆ

i

)

( ˆ

y

i

y )}

2

(y

i

y

ˆ

i

)

2

( ˆ

y

i

y )

2

2 (y

i

y

ˆ

i

)( ˆ

y

i

y )

0

)

(

)

)(

(

)}

(

)}{

(

{

)

ˆ

)(

ˆ

(

2 2

x

x

b

x

x

y

y

b

x

x

b

x

x

b

y

y

y

y

y

y

i i i i i i i i i

なぜなら、

(56)

決定係数とは(3)

2 1 2 2 1 2

)

(

)

ˆ

(

)

(

)

ˆ

(

1

 

n i i i n i i i i

y

y

y

y

y

y

y

y

56

 2 2 2 1

)

ˆ

(

)

ˆ

(

)

(

y

y

y

i

y

i

y

i

y

n i i 決定係数:R2 全変動のうち、 回帰による変 動の占める割 合 ( ˆ y iy )2

(yiy i1 n

)2  {b(xix )} 2

(yiy i1 n

)2  b 2 1 n (xix ) 2

1 n i1 (yiy n

)2  sxy 2 sxx syy 回帰から の変動 全変動 回帰によ る変動

(57)

決定係数とは(4)難

57 2 1 2 2 1 2 2 1 2 2

)

(

1

)

(

)

ˆ

(

1

)

(

)

ˆ

(

  

n i i i n i i i i n i i i

y

y

e

y

y

y

y

y

y

y

y

R



R

2

( ˆ

y

i

y )

2

(y

i

y

i1 n

)

2

s

xy 2

s

xx

s

yy

相関係数の2乗

この表現が後に重要 になる

(58)

決定係数のもう一つの意味

回帰モデルの説明力

を示すもの.

 2 ) ˆ (yi yi

(yˆiy)2

 2 ) (yi y

 2 ) (yi y

 2 ) (yi y

(yiyˆi)2

 2 ) ˆ (yi y

計算すれば,この等式が成 り立つことが分かる. 両辺を

 2 で割ると, ) (yi y

 2 ) (yi y

 2 ) (yi y

(59)

決定係数の意味(さらに)

59

1

2

R

 2 ) (yi y

 2 ) ˆ (yi yi

 2 ) (yi y

 2 ) (yi y

(yiyˆi)2

 2 ) ˆ (yi y

 2 ) (yi y

 2 ) (yi y

1

2

R

1

2 ) (yi y

2 i e

(60)

決定係数のまとめ

)

1

(

xy2 yy ee

s

r

s

2 2 xy

r

R

 2 ) (yi y

 2 ) ˆ (yi y 2

R

2

R

1

 2 ) (yi y

2 i e 決定係数は,全変動のうち回 帰で説明できる割合である. 決定係数は,相関係数の2 乗である. 決定係数は,全変動のから

(61)

4 重回帰モデル

 家計の消費水準を,可処分所得と消費者物 価により説明する.  一人当り賃金上昇率を,消費者物価上昇率 と失業率により説明する.  株価水準の変動を内外金利水準や鉱工業 生産指数,為替レート等の変動や,金融的 変数の変動で説明したりする.  説明変数が複数あるということは、思わぬ問 題を引き起こす。詳しくは、計量経済学で。 61

(62)

重回帰モデル(数式,推定法)

 データが得られるメカニズムは以下の式 で表される.





(3.1) y

i

1

x

1i

2

x

2i

K

x

Ki

i 2 2 2 1 1 1

)

(

)

2

.

3

(

i i K Ki n i i

x

x

x

y

 推定値は最小2乗法,つまり以下の式を 最小にするものとして得られる.

(63)

推定値・残差

パラメータの推定値を次のように表そう. 63





a, b

1

, b

2

, b

3

,, b

K すると各観測の推定値は,





(3.4) ˆ

y

i

a

b

1

x

1i

b

2

x

2i

b

K

x

Ki



(3.5) e

i

y

i

y

ˆ

i

,

e

i

0

i1 n

残差は,

(64)

回帰モデルの選択

 ある会社の株価を予想したい.  株価は会社の成長性,安定性,収益性などの要 素で決まると言われる.  成長性の指標として,昨年の売上高成長率を採 用するのか,それとも,5年間の平均を採用する のか.  あるいは,経常利益を考えるのか?  それとも,両方を採用するか?

(65)

回帰モデルの候補は数えきれな

 説明変数として何を採用するのか?  説明変数をいくつ採用するのか?  競合する回帰モデルの優劣を示す数値が必 要になる.  その一つが,修正決定係数である. 65

(66)

修正決定係数とは?

 決定係数はモデルの選択に使 えない。  説明変数の数を増やせば,決 定係数は必ず増加ずる.  説明変数が多いと有利。  その理由は、下のような2つの モデルを考えてみる。

   2 2 2 ) ( 1 1 1 y y n e n R i i

1 1

(

1

)

i i

x

y

修正 前の 決定 係数

(67)

説明変数が多いと・・・・

) ' 2 ( ) ( min , , 1 1 2 2 2 2 2 1 b i i ib a i y a b x b x e

  

67

)

'

1

(

)

(

min

, 1 1 2 2 1 i i

b a i

y

a

b

x

e

このとき、(1’)と(2’)とではどちらが小さいか、考えて みよう。 (2’) が小さくなる。 なぜなら、(2’) では b2=0 と固定したとき、(1’) と同 じになるので、この制約を外せば(1’)よりも小さくなる ことが期待できる。

(68)

修正決定係数の定義:単回帰のとき

    2 2 1 ) ( min ) (y y a yi a n i i ) 1 ( ) ( ) 2 ( 1 ) 1 ( ) ( ) 2 ( ) ˆ ( 1 2 2 2 2 2 2           

n y y n e n y y n y y R n i n i i      2 2 2 ) ( 1 1 1 y y n e n R i i

)

1

(

1 1 i

i

x

y

2 1 1 , 2

)

(

min

1 i i b a i

y

a

b

x

e

(69)

説明変数が一つ増えると,

 2 2 1

)

(

min

)

(

y

y

a

y

i

a

n i i      2 2 2 ) ( 1 1 1 y y n e n R i i ) 1 ( ) ( ) 3 ( 1 ) 1 ( ) ( ) 3 ( ) ˆ ( 1 2 1 2 2 2 1 2 2           

  n y y n e n y y n y y R n i i i n i i i i 69 ) 2 ( 2 2 1 1 i i  i x x y

2 2 2 1 1 , , 2 ) ( min 2 1 b i i i b a i y a b x b x e

  

(70)

一般の場合

説明変数がK個のときには,下の修正決定係 数を用いる. ) 1 ( 1 ) 1 ( ) ˆ ( 1 2 2 2 2 2           

y y n K e n K R n i n i i

 2 2 1

)

(

min

)

(

y

y

a

y

i

a

n i i 2 2 2 1 1 , , , , 2 ) ( min 2 1 b b i i i K Ki b a i y a b x b x b x e K      

(71)

決定係数:回帰による変動の割合

71 決定係数は,説明変数が1つの場合と同様 に,以下のように表される.  R2  ( ˆ y iy ) 2

(yiy i1 n

)2 1 (yiy ˆ i) 2

(yiy i1 n

)2 1 e 2

(yiy i1 n

)2 1 e 2

n (yiy i1 n

)2 n  1 see syy

参照

関連したドキュメント

第 3 章ではアメーバ経営に関する先行研究の網羅的なレビューを行っている。レビュー の結果、先行研究を 8

砂質土に分類して表したものである 。粘性土、砂質土 とも両者の間にはよい相関があることが読みとれる。一 次式による回帰分析を行い,相関係数 R2

様々な国の子供の死亡原因とそれに対する介入・サービスの効果を分析すると、ミレニ アム開発目標 4

重回帰分析,相関分析の結果を参考に,初期モデル

劣モジュラ解析 (Submodular Analysis) 劣モジュラ関数は,凸関数か? 凹関数か?... LP ニュートン法 ( の変種

(2)-1 無医地区、準無医地区、医師少数区域、少数スポットの関係について

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (

変容過程と変化の要因を分析すべく、二つの事例を取り上げた。クリントン政 権時代 (1993年~2001年) と、W・ブッシュ政権