スライド4（回帰分析＋演習手順）

(1)

1

データ分析基礎

回帰分析＋演習の手順

京都大学国際高等教育院附属データ科学イノベーション教育研究センター

せき

關

戸

どひろ

啓

人

と [email protected]

(2)

2

(3)

3 回帰分析と回帰曲線

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 多変量解析 ★ 複数の確率変数の関係を調べる ★「身長」と「体重」の関係 ★「気温」と「ビールの売上」の関係 ★「朝食を食べる割合」と「テストの点数」の関係 ★ 回帰分析 ★ 回帰曲線（回帰曲面）を推定することで複数の確率変数の関係を調べる ★ 回帰曲線 ★

₂

つの確率変数

_X

と

_Y

を考える ★

_X

₌

_x

という条件下での

_Y

の平均

_E

_[

_Y

|

_X

₌

_x

_]

を

_x

の関数と思ったとき，それを回帰曲線という

(4)

4 回帰分析と回帰曲線

データ分析基礎講義資料 回帰分析＋演習の手順 ★

_X

₌

_x

_Y

の平均

_E

_[

_Y

|

_X

₌

_x

_]

を

_x

の関数と思ったとき，それを回帰曲線という ★ 例）

_X

は身長，

_Y

は体重を表すとする

y = E[Y

|X = x]

x

(5)

5 回帰分析と回帰曲線

_X

₌

_x

_Y

の平均

_E

_[

_Y

|

_X

₌

_x

_]

を

_x

_X

は身長，

_Y

y = E[Y

|X = x]

x

160 cm 50 kg

(6)

6 回帰分析と回帰曲線

_X

₌

_x

_Y

の平均

_E

_[

_Y

|

_X

₌

_x

_]

を

_x

_X

は身長，

_Y

y = E[Y

|X = x]

x

160 cm 50 kg

(7)

7 回帰分析と回帰曲線

_X

₌

_x

_Y

の平均

_E

_[

_Y

|

_X

₌

_x

_]

を

_x

の関数と思ったとき，それを回帰曲線という ★ 簡単のため直線

_y

₌

_ax

₊

_b

₍

_{a, b}

∈

R

₎

であると仮定することが多い

y = E[Y

|X = x]

x

160 cm 50 kg

(8)

8 回帰分析と回帰曲線

_X

₌

_x

_Y

の平均

_E

_[

_Y

|

_X

₌

_x

_]

を

_x

の関数と思ったとき，それを回帰曲線という ★ 簡単のため直線

_y

₌

_ax

₊

_b

₍

_{a, b}

∈

R

₎

y = E[Y

|X = x]

x

→

データから

_{a, b}

を推定する

(9)

9 単回帰分析と重回帰分析

_E

_[

_Y

|

_X

₌

_x

_]

を推定するときは，

_X

は説明変数，

_Y

は被説明変数（目的変数）と呼ばれる ★ つまり，

_Y

がどのような値を取るかは

_X

によって決まる，と考えている ★

_Y:

ビールの売上，

_X:

気温 ★

_Y:

テストの点数，

_X:

朝食を食べる割合 ★ 説明変数は複数あっても良い ★ 説明変数が

_X

₁

_{, X}

₂

_{, . . . , X}

_nで，

_E

_[

_Y

|

_X

₁

₌

_x

₁

_{, X}

₂

₌

_x

₂

_{, . . . , X}

_n

₌

_x

_n

_]

を考えても良い ★ 説明変数が

₁

個の場合を単回帰分析，複数の場合を重回帰分析という

(10)

10 重回帰分析の例

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 説明変数が

₂

個の場合：

_y

₌

_E

_[

_Y

|

_X

₁

₌

_x

₁

_{, X}

₂

₌

_x

₂

_]

★ 例）

_X

₁は身長，

_X

₂は体脂肪率，

_Y

y

x

₁

x

₂ 160 cm 20 % 50 kg

(11)

11 重回帰分析の例

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 説明変数が

₂

個の場合：

_y

₌

_E

_[

_Y

|

_X

₁

₌

_x

₁

_{, X}

₂

₌

_x

₂

_]

★ 回帰曲面は平面

_y

₌

_a

₁

_x

₁

₊

_a

₂

_x

₂

₊

_b

₍

_a

₁

_{, a}

₂

_{, b}

∈

R

₎

y

x

₁

x

₂ 160 cm 20 % 50 kg データから

_a

₁

_{, a}

₂

_{, b}

を推定する

(12)

12 重回帰分析の例

_:

二次関数

データ分析基礎講義資料 回帰分析＋演習の手順 ★「身長

_(X)

」と「体重

_(Y)

」の関係は直線なのか？ ★

_BMI

などを考慮すると二次関数

_y

₌

_ax

2

₊

_bx

₊

_c

と仮定したほうが良いのでは？

y = E[Y

|X = x]

x

(13)

13 重回帰分析の例

_:

二次関数

データ分析基礎講義資料 回帰分析＋演習の手順 ★「身長

_(X)

」と「体重

_(Y)

」の関係は直線なのか？ ★

_BMI

などを考慮すると二次関数

_y

₌

_ax

2

₊

_bx

₊

_c

と仮定したほうが良いのでは？ → 重回帰分析 ★

_y

₌

_a

₁

_x

₁

₊

_a

₂

_x

₂

₊

_b

において

₍

_a

₁

_{, a}

₂

_{, b, x}

₁

_{, x}

₂

₎

→ (

_{a, b, c, x}

2

_{, x}

₎

と読み替えれば良い y = E[Y|X = x] x y x₁ x₂

(14)

14 問題

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 確率変数

_X

は血圧を表すとし，

_Y

は年収を表すとする ★「血圧」と「年収」の関係を回帰分析で調べた場合どうなるか？ ★ 回帰直線は右肩上がりになる ★

_y

₌

_ax

₊

_b

とすると

_a

_>

₀

★ 年収を上げるには血圧を上げれば良い！ ★ と考えるのは危険

(15)

15 解説

データ分析基礎講義資料 回帰分析＋演習の手順 ★「年収」と「血圧」には確かに正の相関があるが因果関係などは何も言っていない ★ 年収が多い人は，ストレスが掛かる仕事をしており，血圧が高いかもしれない ★ 実はこの場合はこれもほぼ正しくない ★「年収」も「血圧」も「年齢」と正の相関がある ★ 確率変数

_X

₁は血圧を，

_X

₂は年齢を，

_Y

は年収を表すとする ★ 重回帰分析をすると

_y

₌

_a

₁

_x

₁

₊

_a

₂

_x

₂

₊

_b

において

_a

₂

_>

₀

だが

_a

₁

_>

₀

とは限らない ★ 仮定が良くなかった

(16)

16 朝食を食べる割合の例について検証

データ分析基礎講義資料 回帰分析＋演習の手順 ★「朝食を食べる割合

_(X)

」と「テストの点数

_(Y)

」の関係を回帰分析で調べた場合はどうなるか？ ★ 回帰直線は右肩上がりになる ★

_y

₌

_ax

₊

_b

とすると

_a

_>

₀

★ テストの点数を上げるには朝食を食べれば良い！ ★ 栄養がある状態のほうが頭が働いて勉強できる ★ 朝食を食べる割合が多い家庭はしつけができてるだけなのでは…，無理やり朝食を食べてもテストの点数は変わらないよ ★ 例え，朝食を食べることとテストの点数に直接的な因果関係がなくても，無理やり朝食を食べたら生活環境とかの影響でテストの点数上がるかも ★ よくわからない ★ 多角的に分析し，良さそうなら実際に試してみる

(17)

17 最小二乗法の概要

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 未知な関数を得られたデータから推定したい ★ 未知関数

_f

₍

_x

₎

の形はわかっていて，未知パラメータを含む形で書かれる ★ データ

₍

_x

_j

_{, y}

_j

₎

は

_f

₍

_x

_j

₎

での値が

_y

_jであることを「示唆」する ★ データは厳密に「正しい」訳ではない．つまり厳密に

_f

₍

_x

_j

_{) =}

_y

_jとは限らない（測定誤差などが含まれている） ★

₂

変数以上の場合は

_x

はベクトルだと思えば良い

(18)

18 最小二乗法の例

₍

その

₁₎

データ分析基礎講義資料 回帰分析＋演習の手順

(19)

19 最小二乗法の例

₍

その

₁₎

(20)

20 最小二乗法の例

₍

その

₂₎

(21)

21 最小二乗法の例

₍

その

₂₎

(22)

22 最小二乗法の例

₍

その

₃₎

f

(

x

) =

θ

2

x

2

₊

_θ

1

x

+

θ

0

x

+

θ

₃

(23)

23 最小二乗法の例

₍

その

₃₎

f

(

x

) =

2.1x

2

₋

_13.1x

₊

_3.1

x

+

_12.0

(24)

24 最小二乗法の例

データ分析基礎講義資料 回帰分析＋演習の手順 ★ その

_1:

直線で近似する場合 ★

_f

₍

_x

_{) =}

θ

₀

₊

θ

₁

_x

★（単純な）単回帰分析 ★ その

_2:

未知関数がパラメータについて線形（線形最小二乗法） ★

_f

₍

_x

_{) =}

θ

₀

_f

₀

₍

_x

_{) +}

θ

₁

_f

₁

₍

_x

_{) +}

· · · +

θ

_m₋₁

_f

_m₋₁

₍

_x

₎

★（単純な）重回帰分析，以下では主にこれを説明する ★ その

_3:

未知関数がパラメータについて非線形（非線形最小二乗法） ★

_f

₍

_x

_{) =}

_f

₍

_x;

θ

₀

_,

θ

₁

_{, . . . ,}

θ

_m₋₁

₎

★ 複雑な式の形を指定した場合，解く場合は最適化の理論を用いる

(25)

25 回帰モデルの例

_{(1) —}

単回帰モデル

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 体重を意味する確率変数を

_W

★ 身長を意味する確率変数を

_H

★ モデル：

_W

₌

θ

₁

_H

₊

θ

₀

₊

ε

★ データは，例えば体重

_(kg)

切片身長

_(cm)

A

氏

_56.8

₁

_163.3

B

氏

52.1

1

160.2 C

氏

52.6

1

158.0 D

氏

23.4

1

129.0 E

氏

32.1

1

139.7 F

氏

40.6

1

141.4

(26)

26 回帰モデルの例

_{(2-1) —}

重回帰モデル

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 体重を意味する確率変数を

_W

★ 身長を意味する確率変数を

_H

★ モデル：

_W

₌

θ

₂

_H

2

₊

θ

₁

_H

₊

θ

₀

₊

ε

_(kg)

切片身長

_(cm)

身長2

_(cm

2

₎

A

氏

56.8

1

163.3 26666.89

B

氏

52.1

1

160.2 25664.04

C

氏

52.6

1

158.0 24964.00

D

氏

23.4

1

129.0 16641.00

E

氏

_32.1

₁

_139.7

_19516.09

F

氏

40.6

1

141.4 19993.96

(27)

27 回帰モデルの例

_{(2-2) —}

重回帰モデル

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 体重を

_W

，身長

_H

，体脂肪率を

_F

，性別を

_S

★ 性別は女性を

₁

，男性を

₀

で表す ★ モデル：

_W

₌

θ

₃

_S

₊

θ

₂

_F

₊

θ

₁

_H

₊

θ

₀

₊

ε

_(kg)

切片身長

_(cm)

体脂肪率

_(%)

性別

A

氏

_56.8

₁

_163.3

_14.3

₀

B

氏

52.1

1

160.2

15.3

0 C

氏

52.6

1

158.0

21.2

1 D

氏

23.4

1

129.0

13.3

1 E

氏

32.1

1

139.7

16.8

0 F

氏

40.6

1

141.4

19.6

1

(28)

28 線形最小二乗法の定義，および，性質

₁

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 観測と応答の関係

Y

=

m−1

∑

k=0

θ

k

f

k

(

x

) +

ε

=

f

(

x,

θ

) +

ε

は線形回帰モデルと呼ばれる ★

_f

_k

₍

_x

₎

は既知の関数 ★

θ

_kは未知のパラメータ，

θ

_{= (}

θ

₀

_,

θ

₁

_{, . . . ,}

θ

_m₋₁

₎

T ★

ε

は確率変数で平均

₀

（

_E

_[

ε

_{] =}

₀

） ★ 実際に

_n

個のデータ

₍

_x

₁

_{, y}

₁

₎

_{, . . . ,}

₍

_x

_n

_{, y}

_n

₎

を用いて

y

_j

=

f

(

x

_j

,

θ

) +

ε

_j

, j

=

1, 2, . . . , n

とする ★

_y

_j

_,

ε

_jは確率変数 ★

ε

_jは

_j

回目の観測における誤差

(29)

29 線形最小二乗法の定義，および，性質

₂

_y

_j

₌

_f

₍

_x

_j

_,

θ

_{) +}

ε

_j

_{, j}

₌

_{1, 2, . . . , n}

★ 今回は，誤差

ε

_jに対して以下の仮定を置く ★ 平均は

₀

．つまり，

_E

_[

ε

_j

_{] =}

₀

★ 誤差の分散は等しく，正．つまり，

_V

_[

ε

_j

_{] =}

σ

2

_>

₀

★ 誤差は互いに無相関．つまり，

_E

_[

ε

_i

ε

_j

_{] =}

_{0, i}

̸=

_j

★ 残差二乗和

S

(

β

) =

n

∑

k=1

(

_y

_k

−

_f

(

_x

_k

_,

β

))

2 を最小化する未知パラメータベクトル

β

を最小二乗推定量

ˆθ

と言う

(30)

30 絵で見る最小二乗法

(31)

31 線形最小二乗法の定義，および，性質

₃

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 最小二乗推定量

ˆθ

は，最良線形不偏推定量である ★

_E

_[

ˆθ

_{] =}

θ

（不偏） ★

ˆθ

は，

_y

_jについて線形の式で書ける（線形） ★ その中で，分散がある意味で最小（最良） ★ 任意の不偏性と線形性を満たす

β

に対して，

_Cov

_[

β

_]

−

_Cov

_[

ˆθ

_]

が非負定値 ★ 誤差

ε

が正規分布に従うとき，最小二乗推定量

ˆθ

は，最尤推定量である ★ つまり，

_x

₁

_{, . . . , x}

_nを固定して，測定結果として

_y

₁

_{, . . . , y}

_nが得られる確率を

θ

の関数として考えたとき，その確率の値が最大となるのが

θ

₌

ˆθ

のとき

(32)

32 最小二乗法推定量

₍

その

₁₎

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 方針 ★ 残差二乗和

S

(

β

) =

n

∑

k=1

(

_y

_k

−

_f

(

_x

_k

_,

β

))

2 を最小化したいのだから，

β

₀

_,

β

₁

_{, . . . ,}

β

_m₋₁で偏微分して

₀

になる

β

を見つければ良い

(33)

33 最小二乗法推定量

₍

その

₁₎

_f

₍

_x,

β

_{) =}

β

₁

_x

₊

β

₀の場合 ★

_S

₍

β

_{) =}

n

∑

k=1

(

_y

_k

−

β

₁

_x

_k

−

β

₀

)

2であるから ★

∂

∂β

1

S

(

β

) =

₂

n

∑

k=1

(

_x

2_k

β

₁

+

_x

_k

β

₀

−

_x

_k

_y

_k

) =

₀

★

∂

∂β

0

S

(

β

) =

₂

n

∑

k=1

(

_x

_k

β

₁

+

β

₀

−

_y

_k

) =

₀

★ つまり，次の連立一次方程式を解けば良い ★

(

∑ x

2 k

∑ x

k

∑ x

k

n

) (

β

1

β

0

)

=

(

∑ x

k

y

k

∑ y

k

)

★

β

₁

₌

n∑ xjyj−∑ xj ∑ yj n∑ x2_j−(∑ x_j)2 ，

β

0

=

∑ x2 j ∑ yj−∑ xjyj ∑ xj n∑ x2_j −(∑ x_j)2

(34)

34 最小二乗法推定量

₍

その

₂₎

_f

₍

_x,

β

_{) =}

β

₀

_f

₀

₍

_x

_{) +}

β

₁

_f

₁

₍

_x

_{) +}

· · · +

β

_m₋₁

_f

_m₋₁

₍

_x

₎

の場合 ★

_S

₍

β

_{) =}

n

∑

k=1



y

_k

₋

m

_∑

−1 j=0

β

j

f

j

(

x

k

)





2 であるから ★

∂

∂β

i

S

(

β

) =

₂

n

∑

k=1

f

_i

(

_x

_k

)









m

_∑

−1 j=0

f

_j

(

_x

_k

)

β

_j





₋

_y

_k





=

₀

★ m−1

∑

j=0 n

∑

k=1

f

_i

(

_x

_k

)

_f

_j

(

_x

_k

)

β

_j

=

n

∑

k=1

f

_i

(

_x

_k

)

_y

_k

(35)

35 正規方程式

データ分析基礎講義資料 回帰分析＋演習の手順 ★ つまり，連立一次方程式

_B

β

₌

_b

を解けば良い ★

_B

∈

_M

_m

₍

R

₎

_,

_B

_ij

₌

n

∑

k=1

f

_i

(

_x

_k

)

_f

_j

(

_x

_k

)

★

_b

∈

R

m

_,

_b

_i

₌

n

∑

k=1

f

_i

(

_x

_k

)

_y

_k ★ 行列

_B

がフルランクであれば，最小二乗推定量が一意に定まる ★

_B

β

₌

_b

は正規方程式と呼ばれる ★ 数値計算する際は，この方程式を直接解くよりも高精度な方法が存在する

(36)

36 正規方程式

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 行列

_A

∈

_M

_n,m

₍

R

₎

を以下で定義（ヤコビアン，データ行列） ★

_A

_ij

₌

_f

_j

₍

_x

_i

_{) =}

∂ ∂β_j

f

(

x

i

)

★

_B

₌

_A

T

_A

★

_b

₌

_A

T

_y

₍

ただし

_y

_{= (}

_y

₁

· · ·

_y

_n

₎

T

₎

★ 正規方程式は以下のように書き直される ★

_A

T

_A

β

₌

_A

T

_y

★ 行列

_A

が列フルランクの場合 ★ 最小二乗推定量は

ˆθ

_{= (}

_A

T

_A

₎

−1

_A

T

_y

(37)

37 補足：そもそも最初から行列とベクトルで

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 最小化したい残差二乗和は

S

(

β

) =

n

∑

k=1

(

_y

_k

−

_f

(

_x

_k

_,

β

))

2

= (

_A

β

−

_{y, A}

β

−

_y

) =

∥

_A

β

−

_y

∥

2₂ ★

β

で微分すると以下：これが

₀

になるとおくと，正規方程式を得る

2A

T

A

β

−

2A

T

y

★ 補足

₁

：

(

_A

β

−

_{y, A}

β

−

_y

) = (

_A

β, Aβ

)

−

₂

(

_A

β, y

) + (

_{y, y}

)

=

β

T

A

T

A

β

−

2 (

A

T

y

)

T

β

+

y

T

y

★ 補足

₂

（ベクトルで微分する）：

d f

d

β

=

(

d f dβ₀

· · ·

d f dβ_m₋₁

)

_T ★ d dx

(

a

T

x

) =

a

，dxd

(

x

T

Ax

) = (

A

+

A

T

)

x

(38)

38 QR

分解を用いて解く

_A

は列フルランクで

_QR

分解できたとする ★

_A

₌

_QR

★

_Q

∈

_M

_n,m

₍

R

₎

は列ベクトルが長さ

₁

で互いに直交 ★

_R

∈

_M

_m

₍

R

₎

は正則な上三角行列 ★ このとき，正規方程式は ★

_A

T

_A

β

₌

_A

T

_y

★

₍

_QR

₎

T

_QR

β

_{= (}

_QR

₎

T

_y

★

_R

T

_Q

T

_QR

β

₌

_R

T

_Q

T

_y

★

_R

T

_R

β

₌

_R

T

_Q

T

_y

_(Q

T

_Q

₌

_I)

★

_R

β

₌

_Q

T

_y

_(R

Tは正則

₎

★

_R

は上三角行列であるから，これは簡単に解ける

(39)

39 行列

_A

が列フルランクでない場合

_A

が列フルランクでない場合は，最小二乗推定量は一意に定まらない（これはそもそもナンセンスな場合が多い） ★ 最小二乗推定量の中で，

∥

β

∥

₂を最小とするものを求めることが多い ★

∥

β

∥

₂

₌

∥

β

∥ =

√

β

2 0

+

β

21

+

· · ·

β

2m−1

=

√

β

T

β

★ 結論を言うと，

_A

の

_{Moore–Penrose}

の一般逆行列を

_A

+と書くと

_A

+

_y

₌

_R

+

_Q

T

_y

が答え ★ ある程度ロバストに計算できる方法は特異値分解 ★ 高速に計算するなら完全ピボット選択付き

_QR

分解をして直交変換

(40)

40 一般逆行列

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 正則でなくても，長方行列でも良い行列

_A

∈

_M

_mn

₍

R

₎

に対して，

_AXA

₌

_A

を満たす行列

X

∈

M

_nm

(

R

)

を一般逆行列といい

_A

− で表す ★

_A

− は必ず存在し，一般的には

_A

− は一意ではなく複数存在する ★ 連立一次方程式

_Ax

₌

_b

の解の一つは，存在するならば

_x

₌

_A

−

_b

と書ける ★ 連立一次方程式

_Ax

₌

_b

の解は，存在するならば，任意のベクトル

_y

を用いて

_x

₌

_A

−

_b

₊

(

_I

−

_A

−

_A

)

_y

と書ける ★ 連立一次方程式

_Ax

₌

_b

は

₍

_I

−

_AA

−

₎

_b

₌

₀

ならば解が存在する

(41)

41 Moore–Penrose

の一般逆行列

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 正則でなくても，長方行列でも良い行列

_A

∈

_M

_mn

₍

R

₎

に対して，

_AXA

₌

_{A, XAX}

₌

X,

(

_AX

)

T

=

_AX,

(

_XA

)

T

=

_XA

を満たす行列

_X

∈

_M

_nm

(

R

)

を

_{Moore–Penrose}

の一般逆行列といい

_A

+ で表す ★

_A

+ は必ず存在し，一意である ★ 連立一次方程式

_Ax

₌

_b

の解が存在するならば，その中で

∥

_x

∥

₂ が最小となるものは

_x

₌

_A

+

_b

となる ★ 連立一次方程式

_Ax

₌

_b

の解が存在しなければ，

∥

_Ax

−

_b

∥

₂ が最小とするのは

_x

₌

_A

+

_b

となる

(42)

42

(43)

43 概要と目的

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 気温とビールの売上の関係を調べる ★ 気象庁の長期予報などと組合せて将来のビールの売上を予想するのが目的 ★ 製造や仕入れなどに有効活用できる可能性

(44)

44 使用するデータ

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 東京の日平均気温の月平均値 ★

_{http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php}

?prec_no=44&block_no=47662

★ 京都の日平均気温の月平均値 ★

http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php

?prec_no=61&block_no=47759

★ アサヒグループホールディングスの月次販売情報 ★

_{https://www.asahigroup-holdings.com/ir/financial_data/monthly_data.html}

★ 上のデータを整形して作った

_csv

ファイルその

₁

（このファイルを使用して演習を行います） ★

http://ds.k.kyoto-u.ac.jp/e-learning_files/

data_analysis_basic/jma_001.csv

★

_PandA

のリソースにも置いてあります

(45)

45 ファイルを開いてみましょう

(46)

46 単回帰分析をしてみよう

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 単回帰分析を行うことで，ビールの売上と東京の気温との関係を調べてみましょう ★ ビールの売上を

_B

，東京の気温を

_T

として，

_B

₌

_aT

₊

_b

₊

ε

という回帰モデル ★

_Excel

を用いて回帰分析を行う方法はいくつかあるが，ここではアドインの「分析ツール」を用いる ★

_GUI

で操作できる，結果に色々表示される

(47)

47 アドインの追加

データ分析基礎講義資料 回帰分析＋演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れて

_OK

を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます

(48)

48 アドインの追加

データ分析基礎講義資料 回帰分析＋演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れて

_OK

(49)

49 アドインの追加

データ分析基礎講義資料 回帰分析＋演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れて

_OK

(50)

50 アドインの追加

データ分析基礎講義資料 回帰分析＋演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れて

_OK

(51)

51 アドインの追加

_OK

(52)

52 アドインの追加

データ分析基礎講義資料 回帰分析＋演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れて

_OK

(53)

53 アドインの追加

_OK

を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます

(54)

54 アドインの追加

_OK

を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます

(55)

55 単回帰分析の実行

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 回帰分析の実行は以下の手順で行います ★

_1.

データ分析をクリックし，回帰分析を選び，

_OK

を押す ★

_2.

入力

_Y

範囲，入力

_X

範囲などを適切に記入し，

_OK

を押すことで，回帰分析を行う ★

_2-1.

入力

_Y

範囲には「

_$B$1:$B$77

」と入力（

_$

はなくても構いません） ★

_2-2.

入力

_X

範囲には「

_$C$1:$C$77

」と入力（

_$

_2-3.

「ラベル」にチェックを入れる ★

_{2-4. OK}

を押す

(56)

56 単回帰分析の実行

★ 回帰分析の実行は以下の手順で行います

(57)

57 単回帰分析の実行

_1.

_OK

を押す 1 2

(58)

58 単回帰分析の実行

(59)

59 単回帰分析の実行

(60)

60 単回帰分析の実行

(61)

61 単回帰分析の実行

(62)

62 単回帰分析の実行

(63)

63 単回帰分析の実行結果

(64)

64 実行結果を読み取る

★

_B

₌

_aT

₊

_b

₊

ε

の係数

_{a, b}

が以下のように推定されたことがわかる

(65)

65 実行結果を読み取る

★ この結果から，東京の気温が

₁

度あがるとビールの売上が

₁₃

万箱ぐらい増えるだろうと推定さ

(66)

66 実行結果を読み取る

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 東京の気温に対して，

_P

値が

_0.0001

と表示されています ★ これは仮説検定に置いて，帰無仮説を「東京の気温に対する係数

_a

₌

₀

」としたときの

_P

値です

(67)

67 実行結果を読み取る

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 東京の気温に対して，下限

_95%

が

_6.697612

，上限

_95%

が

_19.28555

と表示されています ★ これは，係数

_a

に対して，

_95%

の確率で

_6.69

≤

_a

≤

_19.28

であるという意味 ★

_X

の

_95%

信頼区間が

_[

_{L, U}

_]

であるとは，

_P

₍

_L

≤

_X

≤

_U

₎

≥

_0.95

(68)

68 実行結果を読み取る

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 重決定

_R2

の値が

_0.186059

と表示されています ★ これは，ビールの売上の変化のうち，

_18%

ぐらいが東京の気温の変動で説明できるという意味

(69)

69 実行結果を読み取る

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 重決定

_R2

はビールの売上の変動のうち，回帰式で説明できた割合（説明できなかったのが残差二乗和） ★ 変動は

_∑

₍

平均からのずれ

₎

2

(70)

70 考察

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 東京の気温が

₁

度上がるとビールの売上が

₁₃

万箱ぐらい増えるんじゃないか ★ しかし，東京の気温だけでは，ビールの打ち上げの変化のうち

_18%

ぐらいしか説明できていない ★ もうちょっと色々な要因からビールの売上を予想した方が良いのでは ★ 東京の気温の他に，京都の気温も追加で使って予想 ★ 重回帰分析（説明変数の数を

₁

つから

₂

つに増やす）

(71)

71 ファイル

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 京都の気温のデータも入れた以下のファイルを使用 ★

_{http://ds.k.kyoto-u.ac.jp/e-learning_files/}

data_analysis_basic/jma_002.csv

★

_PandA

のリソースにも置いてあります

(72)

72 ファイルを開いてみましょう

(73)

73 重回帰分析をしてみよう

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 今度は，重回帰分析を行うことで，ビールの売上と東京の気温と京都の気温の関係を調べてみましょう ★ ビールの売上を

_B

，東京の気温を

_T

，京都の気温を

_K

として，

_B

₌

_aT

₊

_bK

₊

_c

₊

ε

という回帰モデル ★ 実行の仕方は，単回帰分析とほぼ同様で，

_X

の範囲として複数の行を指定すれば良い

(74)

74 重回帰分析の実行

_1.

_OK

を押す ★

_2.

入力

_Y

範囲，入力

_X

範囲などを適切に記入し，

_OK

を押すことで，回帰分析を行う ★

_2-1.

入力

_Y

範囲には「

_$B$1:$B$77

」と入力（

_$

_2-2.

入力

_X

範囲には「

_$C$1:

_$D$

₇₇

」と入力（

_$

_2-3.

「ラベル」にチェックを入れる ★

_{2-4. OK}

を押す

(75)

75 重回帰分析の実行結果

(76)

76 実行結果を読み取る

★

_B

₌

_aT

₊

_bK

₊

_c

₊

ε

の係数

_{a, b, c}

が以下のように推定されたことがわかる

(77)

77 実行結果を読み取る

データ分析基礎講義資料 回帰分析＋演習の手順 ★ この結果から以下のことが示唆される ★ 東京の気温が

₁

₁₅

万箱ぐらい増える ★ 京都の気温が

₁

₂

万箱ぐらい減る ★ 直感的には，京都の気温が上がるほどビールの売上が減るのは変な気がする ★ 重相関

_R2

の値も

_0.186119

とほとんど改善していない ★ ビールの売上の変化は，東京の気温と京都の気温を使っても

_18.6%

ぐらいしか説明できていない ★ 東京の気温のみを使用した場合は

_0.186059

でした ★ 課題

₁

★ 直感的に反する結果となったのは何故か，また改善していないのは何故か？考えてみてください

(78)

78

(79)

79 多重共線性

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 重回帰モデル

_B

₌

_aT

₊

_bK

₊

_c

₊

ε

★

_{B :}

ビールの売上 ★

_{T :}

東京の気温 ★

_{K :}

京都の気温 ★ このように，説明変数間で相関がある場合，多重共線性という問題が起こり，最小二乗推定量が不安定になる ★ より正確には，データ行列の条件数が大きいと不安定になる

★

_cond

₍

_A

_{) =}

σ

_max

₍

_A

₎

_/

σ

_min

₍

_A

₎

(80)

80 多重共線性

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 連立一次方程式を次のように解釈する

(

x

₁

x

₂

y

₁

y

₂

) (

a

b

)

=

(

x

₃

y

₃

)

⇐⇒

a

(

x

₁

y

₁

)

+

_b

(

x

₂

y

₂

)

=

(

x

₃

y

₃

)

★

₂

つのベクトルをどのように足せば，ベクトル

₍

_x

₃

_y

₃

₎

T を作れるか？ ★ このとき，条件数が大きいというのは，

₂

つのベクトルがほぼ線形従属であることを意味する 𝑥𝑥1 𝑦𝑦1 𝑥𝑥2 𝑦𝑦2 𝑥𝑥3 𝑦𝑦3 𝑥𝑥1 𝑦𝑦1 𝑥𝑥2 𝑦𝑦2 𝑥𝑥3 𝑦𝑦3 条件数：小さい条件数：大きい

(81)

81 多重共線性

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 回帰分析に於いても，強い相関のあるデータ（似たようなデータ，ほぼ同じ方向を向いたデータ）を用いると結果が不安定になる ★ 重回帰モデルを次のように書き換える

B

=

_aT

+

_bK

+

_c

+

ε

=

_a

′

(

_T

+

_K

) +

_b

′

(

_T

−

_K

) +

_c

+

ε

★ ただし，

_a

′

₊

_b

′

₌

_{2a, a}

′

−

_b

′

₌

_2b

★

_{T, K}

はほぼ同じ傾向を示すから，

_T

−

_K

は

₀

に近い値ばかり取る ★ その状況で，

_T

−

_K

の情報を使って「データの近くを通ろうと」すると

_T

−

_K

の係数

_b

′の推定結果は絶対値が大きく不安定になる ★ それが伝搬して，結果的に

_{a, b}

の推定結果も不安定になる

(82)

82 多重共線性

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 多重共線性の回避方法 ★ 不安定になっているように見えたら説明変数を減らす ★ 説明変数を無相関にする（連立一次方程式に於いてベクトルが直交するようにする） ★ 説明変数を以下に取り替えて，

_a

′

_{, b}

′

_{, c}

を推定することにする ★

_T

₊

_K

：全国的な気温 ★

_T

−

_K

：関東と開催での気温の差 ★ こうすると，

₂

つの説明変数

_T

₊

_K

と

_T

−

_K

はあまり相関は強くない ★ 互いに影響を及ぼし，全体的に推定結果が不安定になることはない ★

_T

−

_K

は全体的に値が小さく，ビールの売上をうまく説明できないであろうため，この係数に対してはうまく行かない ★

_T

−

_K

は説明変数として不要

(83)

83 多重共線性

データ分析基礎講義資料 回帰分析＋演習の手順 ★ 説明変数の無相関化 ★ 説明変数を無相関にする方法として主成分分析を行う方法がある ★ 主成分分析した結果を用いて回帰分析を行うことを主成分回帰と呼ぶ

スライド4（回帰分析＋演習手順）

1

データ分析基礎

回帰分析＋演習の手順

京都大学 国際高等教育院 附属データ科学イノベーション教育研究センター

關

戸

啓

人

2

3

回帰分析と回帰曲線

2

X

Y

X

=

x

Y

E

[

Y

|

X

=

x

]

x

4

回帰分析と回帰曲線

X

=

x

Y

E

[

Y

|

X

=

x

]

x

X

Y

y = E[Y

|X = x]

x

5

回帰分析と回帰曲線

X

=

x

Y

E

[

Y

|

X

=

x

]

x

X

Y

y = E[Y

|X = x]

x

6

回帰分析と回帰曲線

X

=

x

Y

E

[

Y

|

X

=

京都大学国際高等教育院附属データ科学イノベーション教育研究センター

₂

_X

_Y

_X

₌

_x

_Y

_E

_[

_Y

_X

₌

_x

_]

_x

_X

₌

_x

_Y

_E

_[

_Y

_X

₌

_x

_]

_x

_X

_Y

_X

₌

_x

_Y

_E

_[

_Y

_X

₌

_x

_]

_x

_X

_Y

_X

₌

_x

_Y

_E

_[

_Y

_X

₌

_x

_]

_x

_X

_Y

_X

₌

_x

_Y

_E

_[

_Y

_X

₌

_x

_]

_x

_y

₌

_ax

₊

_b

₍

_{a, b}

₎

_X

₌