講義内容

(1)

単回帰分析

１つの変数ｘから，１つの変数ｙを推定する． x：説明変数例）勤続年数と年収の関係を分析する．

y

=

ax

+

b

直線で関係式を表現する． y：目的変数 y = 22.587x + 270.88 R2_{= 0.9794} 800 900 1000

y

ax

+

b

勤続年数, x

年収, y

2

325

500 600 700 800 年収, y

2

325

4

350

6

400

8

425

100 200 300 400 年

8

425

10

475

12

575

17

700

0 100 0 10 20 30 勤続年数, x

20

750

23

775

26

825

1

単回帰分析

－最小２乗法による－

推定の誤差の２乗和を考え，これを最小にするようにa,bを決定する． 900 1000

a

( , )

x y

_i _i

S a b

y

_i

ax

_i

b

i n

( , )

=

−

(

+

)

→

min.

=

∑

2 1 500 600 700 800 収, y 観測値推定値

y

_i

−

(

ax

_i

+

b

)

a

( ,

x ax

_i _i

+

b

)

200 300 400 500 年 a, b:回帰パラメータ条件：観測値推定値

b

0 100 0 10 20 30 勤続年数, x 条件： S(a,b)をa, bでそれぞれ微分したものが０でなければならない．

S a b

( , )

S a b

( , )

S(a,b)はa, bに関する２次関数であり，すり

b

２次関数であり，すりばち状となる． 2

a

b

(2)

回帰関係の計算手順

推定の誤差の２乗和を考え，これを最小にするようにa,bを決定する．（４），（５）を整理すると，

a

∑

x

2

+

b

∑

x

∑

x y

( )

6 S a b

y

_i

ax

_i

b

i n

( , )

=

−

(

+

)

( )

=

∑

2 1

1 "

a

x

i

b

x

x y

i i i i i i

6 ∑

+

∑

=

∑

"( )

)

7 (

"

∑

+

=

i i i i

nb

y

x

a

S(a,b)をa, bでそれぞれ微分したものが０でなければならない．これは，a,bに関する線形方程式になっている．これを正規方程式(normal equations)という．

∂

₌

₋

₊

₋

₌

∑

S a b

y

ax

b

x

( , )

(

) (

)

( )

2

0 "

2

i i マトリクスで書けば，

∂

a

=

∑

i

y

ax

+

b

x

=

i

(

i

) (

i

)

( )

2

0

2 ∂

∂

=

∑

−

+

− =

S a b

b

y

i

ax

i

b

( , )

(

) (

)

( )

2

1

0 "

3 ₍

₈

₎

2

"

⎥

⎤

⎢

⎡

=

⎥

⎤

⎢

⎡

⎥

⎤

⎢

⎡

∑

i i i i i i i

x

_a

x

y

x

（２），（３）は以下のように書き直せる． a bは以下の式により計算できる

∂

b

∑

i

y

i

(

i

) (

)

( )

(

8 )

⎥

⎦

⎢

⎣

⎥

⎦

⎢

⎣

⎥

⎦

⎢

⎣

∑

i i i i

n

b

y

x

a,bは以下の式により計算できる．

y

_i

ax

_i

b x

i i

−

+

=

∑

(

)

0 "

( )

4 b

∑

(

)

0 ( )

5 )

9 (

1 2

"

⎥

⎤

⎢

⎡

⎥

⎤

⎢

⎡

=

⎥

⎦

⎤

⎢

⎣

⎡

∑

− i i i i i i i

y

x

n

x

b

a

3

y

_i

ax

_i

b

i

−

+

=

∑

(

)

0 "

( )

5 _⎥

⎥

⎦

⎢

⎣

⎥

⎦

⎢

⎣

⎥

⎦

⎢

⎣

∑

i i i i

n

y

x

b

重回帰分析

２変数ｘ，ｚから，１つの変数ｙを推定する． y

( , ,

x z y

_i _i _i

)

サンプル x z

y

_xz

=

ax

+

bz

+ "( )

c

1

１変数の場合と同様，推定の誤差の２乗を評価してこれを最小とするように回帰 _{整理すると} 評価して，これを最小とするように，回帰係数 a, b, cを決定する．整理すると

?

)

,

(

a

b

c

=

S

関数S(a,b,c)を極小とするa,b,cを求めるために，各変数による偏微分をとり，０とおいて解く．マトリクスで書けば 4 これを解いて回帰係数を得る．

(3)

重回帰分析

-高次項を用いた回帰-課題：１変数の高次式から，１つの変数ｙを推定する．

y

=

ax

2

+

bx

+

c

y

x

回帰係数を算出する計算式を導きなさい． 5

－決定係数と相関係数－

得られた標本について，回帰式（モデル式）によるあてはまりの程度を数値化する．

r

S

r y y y x y y x y 2 2 2 2 2 2 2 2

1

13 =

=

−

⋅

= −

⋅

"(

)

S

_y

y

_i

y

n 2

1

2

10 =

∑

(

−

)

"

(

)

目的変数yの分散は以下の式で表される． y y y モデル式による予測が確からしいほど，S_r2_は S_y2_{に近づく．すなわち，r}2_{は１に近づく．} ｒ２_{は決定係数(coefficient of determination)と} 一方，モデル式によって推定されたｙの値の実測値からのばらつきを以下の

S

n

y

y i i 1

0

=

∑

(

)

(

)

_{ｒは決定係数(coefficient of determination)と} 呼ばれ，以下の範囲をとる．

0 ≤

r

2

≤

1

値の，実測値からのばらつきを，以下の式によって評価する．

S

_{y x}

y

_i

ax

_i

b

n ⋅

=

∑

−

+

2

1

2

11 [

(

)]

"

( )

r

= ±

r

2 を相関係数と呼ぶの符号は回帰係数また

− ≤ ≤

1 r

1

（もし，モデル式による予測が完璧ならば，このばらつきは０になる．）

n

y

y x i i i=

∑

1

[

(

)]

( )

y

を相関係数と呼ぶ．ｒの符号は回帰係数 aの符号に合わせる．

S

_r2

≡

S

_y2

−

S

_{y x}2_⋅

"(

12 )

推定で残る誤差の分布ｙの分布

S

_y2

S

_{y x}2_⋅ いま， 6

x

誤差の分布 y という測度を考え，（１０）式の分散との比をとる．

(4)

回帰式の相関係数と２変数の相関係数との関係（補足資料）

回帰の誤差は，以下のように書き直せる．したがって 2 2

1 ₍

₎

S

=

∑

⎡

_⎣

y

ax

+

b

⎤

_⎦

S

S S

r

y x y xy x y ⋅

_{= −}

2 2 2 2 2 2

1

2

(

)

1 (

)

(

)

y x i i i i i

S

y

ax

b

n

y

ax

b

n

⋅

=

⎡

⎣

−

+

⎤

⎦

⎡

⎤

=

_⎣

−

+ −

+

_⎦

∑

最適化されたa,b に対して以下の関係が成り立つ

y

=

ax

+

b

すなわち， 2

1 (

)

(

)

i i i i

n

y

ax

b

ax

b

n

⎣

⎦

⎡

⎤

=

∑

_⎣

−

+

+ −

+

_⎦

S

_xy

=

1 ∑

(

x

_i

−

x y

)(

_i

−

y

)

r

S

S S

xy x y 2 2 2 2

=

2 2 2 2

1 (

)

(

)

2

i i i

y

a x

x

n

S

aS

a S

⎡

⎤

=

_⎣

−

_⎦

=

−

+

∑

S

1 (

) (

)

a

S

xy x

=

₂ これは，以前に定義した２変数間の相関係数，

n

y

xy i i i

∑

(

)(

)

2 2 2 2 2 4

2

y xy x xy xy y x x x

S

=

−

+

r

n

x

S

y

S

S S

i x i i y xy x y

=

1 ∑

(

−

) (

−

)

=

と同等である 2 2 2 2 2

1

2 2 x x xy xy y y x x y

S

S S

⎛

⎞

⎜

⎟

=

−

=

−

⎜

⎟

⎝

⎠

7 と同等である． y

⎝

⎠

重回帰分析

-重決定係数，重相関係数-２変数の場合も，単回帰と同様に，推定値の，実測値からの分散を考えることができる．以下のように，２つの分散の比を考える．

y

_xz

=

ax

+

bz

+ "( )

c

1 R

S

r y y y xz y y xz y 2 2 2 2 2 2 2 2

1 =

=

−

⋅

= −

⋅ 予測式，を用いてｙを推定したときの誤差の分散は

S

n

y

ax

bz

c

y xz i i i i ⋅

=

∑

−

+

2

1

2

[

(

)]

を用いてｙを推定したときの，誤差の分散は R2_{は，ｙの分散のうちｘとｚで説明される} 部分の割合を示している．

R

2 ：重決定係数 i いま，以下に示す２つの分散の差を考える．

R

2 ：重決定係数：重相関係数

R

=

R

2

0 ≤ ≤

R

1 S

_r2

=

S

_y2

−

S

_{y xz}2⋅ ただし，

y

２変数以上の説明変数に対して，目的変数との方向の一致，不一致を言えないため．