• 検索結果がありません。

Microsoft PowerPoint - 資料04 重回帰分析.ppt

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - 資料04 重回帰分析.ppt"

Copied!
33
0
0

読み込み中.... (全文を見る)

全文

(1)

1

京都大学

加納 学

Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University

manabu@cheme.kyoto-u.ac.jp

http://www-pse.cheme.kyoto-u.ac.jp/~kano/

04. 重回帰分析

(2)

2

Outline

z 重回帰式の導出 z 幾何学的解釈 z 重回帰式の評価 z 具体例 z 多重共線性 z リッジ回帰

(3)

3

身近な例

身長 体重 身長 = 定数 × 体重 + 定数 + 誤差 y b1 x e を最小にする係数 b を求める. 2 2 1 0 1 1

(

)

n n i i i i i

e

y

b x

b

= =

=

体重から身長を推定できる? b0

(4)

4 z 重回帰分析 結果である目的変数 y と原因である説明変数 の関係を重回帰式で表現する手法 z 現実には,目的変数は説明変数以外の要因にも影響さ れるため,それらの n 番目の標本(測定値)が単回帰モ デルによって表現されると考える. 誤差項

ε

n は互いに独立に N(0, σ2) に従うと仮定する.

因果関係を探る

(標本)偏回帰係数 母偏回帰係数

(5)

5

目的変数の予測

z 目的変数の予測値 „ 各変数の平均を 0 とすれば „ 誤差項

ε

n の期待値は 0 z 残差 目的変数の測定値と予測値の差

(6)

6

回帰分析における誤差の考え方

z 目的変数 y に影響を与える説明変数 x 以外の要因をま とめて誤差とみなすため,y のみに誤差がある,つまり,

(7)

7

最小二乗法

z 最小二乗法 残差平方和(目的変数の測定値と推定値の差の二乗 和)が最小となるように,偏回帰係数を決定する. 予測値 残差平方和

(8)

8

正規方程式の導出

z 残差平方和 z 必要条件 正規方程式 Q b 極値であること!

(9)

9

偏回帰係数の推定

z 正規方程式 z 偏回帰係数の推定値 行列 XT X が正則である(逆行列を持つ)場合 共分散行列

(10)

10

標準化

m m nm nm

x

x

x

σ

=

*

=

=

N n nm m

x

N

x

1 *

1

=

=

N n m nm m

x

x

N

1 2 * 2

)

(

1

1

σ

平均 分散 各変数を平均0,分散1の変数に変換する. 変数 m サンプル n

(11)

11

重回帰分析: 重回帰式

* * 1

ˆ

P p p p p y p

x

x

y

y

b

σ

=

σ

=

* * 1 1

ˆ

P P p y p y p p p p p p

b

b

y

σ

x

y

σ

x

σ

σ

= =

=

+

1

ˆ

P p p p

y

b x

=

=

p

b

y p p

b

σ

σ

標準偏回帰係数 偏回帰係数 標準化後の変数による表現 標準化前の変数による表現

(12)

12

Outline

z 重回帰式の導出 z 幾何学的解釈 z 重回帰式の評価 z 具体例 z 多重共線性 z リッジ回帰

(13)

13

重回帰分析の幾何学的解釈

2

x

N次元線形空間 M=2次元部分空間 1

x

y

y

y

ˆ

1 1 2 2

ˆy

=

b x

+

b x

測定値 予測値 誤差 誤差が最小となるためには,誤差と予測値が直交すればよい.

ˆ

,

ˆ

,

(

)

0

T T T

y y

y

Xb Y

Xb

b

X Y

X Xb

=

=

=

正規方程式

(14)

14

重相関係数の最大化

誤差が最小となるためには, 測定値と予測値がなす角θが最小になればよい. 2 ˆ ˆ ˆ

ˆ

cos

ˆ

T yy yy y y

s

y y

r

s s

y y

θ

=

=

=

誤差が最小となるためには,誤差と予測値が直交すればよい. 重相関係数 誤差が最小となるためには, 測定値と予測値の相関係数が最大になればよい.

(15)

15

重回帰式の評価

z 重相関係数 目的変数 とその推定値 の相関係数 z 寄与率(決定係数) 目的変数 の分散に対する推定値 の分散の比

(16)

16

(17)

17

Outline

z 重回帰式の導出 z 幾何学的解釈 z 重回帰式の評価 z 具体例 z 多重共線性 z リッジ回帰

(18)

18

分散分析

残差の 変動 回帰に よる変動 - - 全変動 分散比 不偏分散 自由度 平方和 変動要因 y

SS

r

SS

e

SS

1

N

P

1

N

− −

P

r r

SS

V

P

=

1

e e

SS

V

N

P

=

− −

e r

V

V

F

=

分散比F は自由度 P, N-P-1 の F 分布に従う. 自由度 P, N-P-1 の F 分布,危険率α

( ,

1; )

F

>

F P N

− −

P

α

であれば,重回帰式は無意味ではない.

(19)

19

分散分析の心

分散比F は自由度 P, N-P-1 の F 分布に従う. 自由度 P, N-P-1 の F 分布,危険率α

( ,

1; )

F

>

F P N

− −

P

α

であれば,重回帰式は無意味ではない. でたらめに重回帰式を作ったとしよう. そのとき,分散比F はあるF 分布に従う. もし,F が普通でないほど大きかったら, つまり,回帰による変動が残差の変動を 凌駕していれば, その重回帰式は無意味ではない! α=0.05 普通はこの 範囲に入る 普通で ない!

(20)

20

重要な式

=

=

N i i y

y

y

SS

1 2 *

)

(

=

=

N i i r

y

y

SS

1 2 *

)

ˆ

(

=

=

N i i i e

y

y

SS

1 2 *

)

ˆ

(

e r y

SS

SS

SS

=

+

* * 1

(

)

P p p p p

y

y

b x

x

=

− =

)

1

/(

)

1

(

/

2 2

=

=

p

N

R

p

R

V

V

F

e r

(21)

21

F

分布表(α

=0.05)

2.510 2.577 2.661 2.773 2.928 3.160 3.555 4.414 18 2.548 2.614 2.699 2.810 2.965 3.197 3.592 4.451 17 2.591 2.657 2.741 2.852 3.007 3.239 3.634 4.494 16 2.641 2.707 2.790 2.901 3.056 3.287 3.682 4.543 15 3.072 3.135 3.217 3.326 3.478 3.708 4.103 4.965 10 3.230 3.293 3.374 3.482 3.633 3.863 4.256 5.117 9 3.438 3.500 3.581 3.687 3.838 4.066 4.459 5.318 8 3.726 3.787 3.866 3.972 4.120 4.347 4.737 5.591 7 4.147 4.207 4.284 4.387 4.534 4.757 5.143 5.987 6 4.818 4.876 4.950 5.050 5.192 5.409 5.786 6.608 5 6.041 6.094 6.163 6.256 6.388 6.591 6.944 7.709 4 8 7 6 5 4 3 2 1 自由度1 自由度2

(22)

22

Outline

z 重回帰式の導出 z 幾何学的解釈 z 重回帰式の評価 z 具体例 z 多重共線性 z リッジ回帰

(23)

23

例: 対象データ

49.5 84.9 160.4 10 60.5 88.0 168.0 9 65.0 94.0 174.0 8 66.5 92.0 163.0 7 50.0 87.0 151.4 6 50.0 82.0 155.3 5 57.0 85.0 172.0 4 57.0 86.0 168.4 3 55.5 87.0 167.5 2 61.0 84.0 167.0 1 体重(x2) 胸囲(x1) 身長(y)

(24)

24

例: 重回帰分析

- - 0.687 重相関係数(R) 0.828 -0.216 - 標準偏回帰係数 - - 0.472 決定係数(R2) 0.969 -0.427 - 偏回帰係数 6.13 3.63 7.18 標準偏差 57.2 87.0 164.7 平均 体重(x2) 胸囲(x1) 身長(y)

(25)

25

例: 分散分析

35.0 7 245.1 残差の 変動 3.13 109.5 2 219.0 回帰に よる変動 - - 9 464.1 全変動 分散比 不偏分散 自由度 平方和 変動要因

13

.

3

737

.

4

)

05

.

0

;

7

,

2

(

=

>

F

( ,

1; )

F P N

− −

P

α

自由度 P, N-P-1 の F 分布,危険率α 重回帰式に意味なし!

(26)

26

Outline

z 重回帰式の導出 z 幾何学的解釈 z 重回帰式の評価 z 具体例 z 多重共線性 z リッジ回帰

(27)

27

重回帰分析の問題点

1

(

T

)

T

b

=

X X

X Y

偏回帰係数

X

X

T が逆行列を持たない場合,最小二乗法は使えない. 入力変数が線形従属である場合 サンプル数が入力変数の数より少ない場合もダメ. 以下では,サンプル数は十分にあるとする.

(28)

28

多重共線性

入力変数が厳密に線形従属でなくても,入力変数間に強い 相関関係が存在する場合には,係数推定値の分散が大きく なり,推定結果の信頼性が低下してしまう. y 241 321 82 156 x1 15.9 37.0 61.1 86.0 1.36 x2 34.6 16.1 83.0 65.9 -0.80 x3 64.8 72.1 28.6 33.9 5.01 x1 16.1 36.9 60.6 85.9 -4.28 x2 34.7 16.3 82.8 65.9 -18.9 x3 65.1 72.0 28.9 34.2 -26.0 係数

(29)

29

何が問題なのか?

推定値の分散が大きくなると,何が問題なのか? 推定ができれば良いのではないか? 2 2 1 1

x

a

x

a

y

=

+

y

=

x

1

=

x

2 2 1

0

.

5

5

.

0

ˆ

x

x

y

=

+

2 1

99

100

ˆ

x

x

y

=

2

ˆ

x

y

=

<重回帰分析で酷い目に遭う例>

99

.

0

,

01

.

1

,

00

.

1

1

=

2

=

=

x

x

y

測定データ 1.00 0.99 2.99 Model 1 Model 2 Model 3 係数が大きいほど,測定ノイズの影響を受けやすい.

(30)

30

最小二乗法の拡張

Y

X

X

X

a

=

(

T

)

−1 T

Y

X

I

X

X

a

=

(

T

+

λ

)

−1 T

Ordinary Least Squares (OLS)

Ridge Regression (RR)

Principal Component Regression (PCR) Partial Least Squares (PLS)

2

min

Y

Xa

2 2

min

Y

Xa

+

λ

a

Y

X

a

=

+

Minimum Norm Solution

+

X

:一般化逆行列

(31)

31

Outline

z 重回帰式の導出 z 幾何学的解釈 z 重回帰式の評価 z 具体例 z 多重共線性 z リッジ回帰

(32)

32

リッジ回帰

必要条件(評価が最小となるための) 2 2

min

Y

Xa

+

λ

a

2

min

Y

Xa

重回帰 リッジ回帰

0

)

(

2

+

=

=

a

Y

X

Xa

X

a

J

T T

λ

Y

X

I

X

X

a

=

(

T

+

λ

)

−1 T 評価関数の違い 回帰係数に対する懲罰

(33)

33

例題: リッジ回帰

ー ー ー ー ー ー 偏回帰係数 -26.0 -18.9 -4.28 5.01 -0.80 1.36 重回帰 34.2 65.9 85.9 33.9 65.9 86.0 156 4 2.34 -2.38 0.87 2.36 -2.34 0.86 リッジ回帰 28.9 82.8 60.6 28.6 83.0 61.1 82 3 72.0 16.3 36.9 72.1 16.1 37.0 321 2 65.1 34.7 16.1 64.8 34.6 15.9 241 1 x3 x2 x1 x3 x2 x1 y Data Set: B Data Set: A

参照

関連したドキュメント

Department of Chemistry and Chemical Engineering, Faculty of Engineering, Kanazawa University; Kanazawa-shi 920 Japan Calcium, strontium, and barium alkoxides reacted with primary

*2 Kanazawa University, Institute of Science and Engineering, Faculty of Geosciences and civil Engineering, Associate Professor. *3 Kanazawa University, Graduate School of

No ○SSOP(生体受入) ・動物用医薬品等の使用記録による確認 (と畜検査申請書記載) ・残留物質違反への対応(検査結果が判

* Department of Mathematical Science, School of Fundamental Science and Engineering, Waseda University, 3‐4‐1 Okubo, Shinjuku, Tokyo 169‐8555, Japan... \mathrm{e}

It turns out that the symbol which is defined in a probabilistic way coincides with the analytic (in the sense of pseudo-differential operators) symbol for the class of Feller

・大都市に近接する立地特性から、高い県外就業者の割合。(県内2 県内2 県内2/ 県内2 / / /3、県外 3、県外 3、県外 3、県外1/3 1/3

口腔の持つ,種々の働き ( 機能)が障害された場 合,これらの働きがより健全に機能するよう手当

Continuous Improvement, Contract Review, Quality System Mgmt, Customer Service, Product Design, Process Design, Engineering, Finance,.