1
データ分析基礎
回帰分析+演習の手順
京都大学 国際高等教育院 附属データ科学イノベーション教育研究センター
せき
關
戸
ど ひろ
啓
人
と sekido.hiroto.7a@kyoto-u.ac.jp
2
3
回帰分析と回帰曲線
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 多変量解析 ★ 複数の確率変数の関係を調べる ★「身長」と「体重」の関係 ★「気温」と「ビールの売上」の関係 ★「朝食を食べる割合」と「テストの点数」の関係 ★ 回帰分析 ★ 回帰曲線(回帰曲面)を推定することで複数の確率変数の関係を調べる ★ 回帰曲線 ★2
つの確率変数X
とY
を考える ★X
=
x
という条件下でのY
の平均E
[
Y
|
X
=
x
]
をx
の関数と思ったとき,それを回帰曲線と いう4
回帰分析と回帰曲線
データ分析基礎 講義資料 回帰分析+演習の手順 ★X
=
x
という条件下でのY
の平均E
[
Y
|
X
=
x
]
をx
の関数と思ったとき,それを回帰曲線と いう ★ 例)X
は身長,Y
は体重を表すとするy = E[Y
|X = x]
x
5
回帰分析と回帰曲線
データ分析基礎 講義資料 回帰分析+演習の手順 ★X
=
x
という条件下でのY
の平均E
[
Y
|
X
=
x
]
をx
の関数と思ったとき,それを回帰曲線と いう ★ 例)X
は身長,Y
は体重を表すとするy = E[Y
|X = x]
x
160 cm 50 kg6
回帰分析と回帰曲線
データ分析基礎 講義資料 回帰分析+演習の手順 ★X
=
x
という条件下でのY
の平均E
[
Y
|
X
=
x
]
をx
の関数と思ったとき,それを回帰曲線と いう ★ 例)X
は身長,Y
は体重を表すとするy = E[Y
|X = x]
x
160 cm 50 kg7
回帰分析と回帰曲線
データ分析基礎 講義資料 回帰分析+演習の手順 ★X
=
x
という条件下でのY
の平均E
[
Y
|
X
=
x
]
をx
の関数と思ったとき,それを回帰曲線と いう ★ 簡単のため直線y
=
ax
+
b
(
a, b
∈
R
)
であると仮定することが多いy = E[Y
|X = x]
x
160 cm 50 kg8
回帰分析と回帰曲線
データ分析基礎 講義資料 回帰分析+演習の手順 ★X
=
x
という条件下でのY
の平均E
[
Y
|
X
=
x
]
をx
の関数と思ったとき,それを回帰曲線と いう ★ 簡単のため直線y
=
ax
+
b
(
a, b
∈
R
)
であると仮定することが多いy = E[Y
|X = x]
x
→
データからa, b
を推定する9
単回帰分析と重回帰分析
データ分析基礎 講義資料 回帰分析+演習の手順 ★E
[
Y
|
X
=
x
]
を推定するときは,X
は説明変数,Y
は被説明変数(目的変数)と呼ばれる ★ つまり,Y
がどのような値を取るかはX
によって決まる,と考えている ★Y:
ビールの売上,X:
気温 ★Y:
テストの点数,X:
朝食を食べる割合 ★ 説明変数は複数あっても良い ★ 説明変数がX
1, X
2, . . . , X
nで,E
[
Y
|
X
1=
x
1, X
2=
x
2, . . . , X
n=
x
n]
を考えても良い ★ 説明変数が1
個の場合を単回帰分析,複数の場合を重回帰分析という10
重回帰分析の例
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 説明変数が2
個の場合:y
=
E
[
Y
|
X
1=
x
1, X
2=
x
2]
★ 例)X
1は身長,X
2は体脂肪率,Y
は体重を表すとするy
x
1x
2 160 cm 20 % 50 kg11
重回帰分析の例
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 説明変数が2
個の場合:y
=
E
[
Y
|
X
1=
x
1, X
2=
x
2]
★ 回帰曲面は平面y
=
a
1x
1+
a
2x
2+
b
(
a
1, a
2, b
∈
R
)
であると仮定することが多いy
x
1x
2 160 cm 20 % 50 kg データからa
1, a
2, b
を推定する12
重回帰分析の例
:
二次関数
データ分析基礎 講義資料 回帰分析+演習の手順 ★「身長(X)
」と「体重(Y)
」の関係は直線なのか? ★BMI
などを考慮すると二次関数y
=
ax
2+
bx
+
c
と仮定したほうが良いのでは?y = E[Y
|X = x]
x
13
重回帰分析の例
:
二次関数
データ分析基礎 講義資料 回帰分析+演習の手順 ★「身長(X)
」と「体重(Y)
」の関係は直線なのか? ★BMI
などを考慮すると二次関数y
=
ax
2+
bx
+
c
と仮定したほうが良いのでは? → 重回帰分析 ★y
=
a
1x
1+
a
2x
2+
b
において(
a
1, a
2, b, x
1, x
2)
→ (
a, b, c, x
2, x
)
と読み替えれば良い y = E[Y|X = x] x y x1 x214
問題
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 確率変数X
は血圧を表すとし,Y
は年収を表すとする ★「血圧」と「年収」の関係を回帰分析で調べた場合どうなるか? ★ 回帰直線は右肩上がりになる ★y
=
ax
+
b
とするとa
>
0
★ 年収を上げるには血圧を上げれば良い! ★ と考えるのは危険15
解説
データ分析基礎 講義資料 回帰分析+演習の手順 ★「年収」と「血圧」には確かに正の相関があるが因果関係などは何も言っていない ★ 年収が多い人は,ストレスが掛かる仕事をしており,血圧が高いかもしれない ★ 実はこの場合はこれもほぼ正しくない ★「年収」も「血圧」も「年齢」と正の相関がある ★ 確率変数X
1は血圧を,X
2は年齢を,Y
は年収を表すとする ★ 重回帰分析をするとy
=
a
1x
1+
a
2x
2+
b
においてa
2>
0
だがa
1>
0
とは限らない ★ 仮定が良くなかった16
朝食を食べる割合の例について検証
データ分析基礎 講義資料 回帰分析+演習の手順 ★「朝食を食べる割合(X)
」と「テストの点数(Y)
」の関係を回帰分析で調べた場合はどうなるか? ★ 回帰直線は右肩上がりになる ★y
=
ax
+
b
とするとa
>
0
★ テストの点数を上げるには朝食を食べれば良い! ★ 栄養がある状態のほうが頭が働いて勉強できる ★ 朝食を食べる割合が多い家庭はしつけができてるだけなのでは…,無理やり朝食を食べても テストの点数は変わらないよ ★ 例え,朝食を食べることとテストの点数に直接的な因果関係がなくても,無理やり朝食を食 べたら生活環境とかの影響でテストの点数上がるかも ★ よくわからない ★ 多角的に分析し,良さそうなら実際に試してみる17
最小二乗法の概要
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 未知な関数を得られたデータから推定したい ★ 未知関数f
(
x
)
の形はわかっていて,未知パラメータを含む形で書かれる ★ データ(
x
j, y
j)
はf
(
x
j)
での値がy
jであることを「示唆」する ★ データは厳密に「正しい」訳ではない.つまり厳密にf
(
x
j) =
y
jとは限らない(測定誤差など が含まれている) ★2
変数以上の場合はx
はベクトルだと思えば良い18
最小二乗法の例
(
その
1)
データ分析基礎 講義資料 回帰分析+演習の手順
19
最小二乗法の例
(
その
1)
データ分析基礎 講義資料 回帰分析+演習の手順
20
最小二乗法の例
(
その
2)
データ分析基礎 講義資料 回帰分析+演習の手順
21
最小二乗法の例
(
その
2)
データ分析基礎 講義資料 回帰分析+演習の手順
22
最小二乗法の例
(
その
3)
データ分析基礎 講義資料 回帰分析+演習の手順f
(
x
) =
θ
2x
2+
θ
1x
+
θ
0x
+
θ
323
最小二乗法の例
(
その
3)
データ分析基礎 講義資料 回帰分析+演習の手順f
(
x
) =
2.1x
2−
13.1x
+
3.1
x
+
12.0
24
最小二乗法の例
データ分析基礎 講義資料 回帰分析+演習の手順 ★ その1:
直線で近似する場合 ★f
(
x
) =
θ
0+
θ
1x
★(単純な)単回帰分析 ★ その2:
未知関数がパラメータについて線形(線形最小二乗法) ★f
(
x
) =
θ
0f
0(
x
) +
θ
1f
1(
x
) +
· · · +
θ
m−1f
m−1(
x
)
★(単純な)重回帰分析,以下では主にこれを説明する ★ その3:
未知関数がパラメータについて非線形(非線形最小二乗法) ★f
(
x
) =
f
(
x;
θ
0,
θ
1, . . . ,
θ
m−1)
★ 複雑な式の形を指定した場合,解く場合は最適化の理論を用いる25
回帰モデルの例
(1) —
単回帰モデル
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 体重を意味する確率変数をW
★ 身長を意味する確率変数をH
★ モデル:W
=
θ
1H
+
θ
0+
ε
★ データは,例えば 体重(kg)
切片 身長(cm)
A
氏56.8
1
163.3
B
氏52.1
1
160.2
C
氏52.6
1
158.0
D
氏23.4
1
129.0
E
氏32.1
1
139.7
F
氏40.6
1
141.4
26
回帰モデルの例
(2-1) —
重回帰モデル
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 体重を意味する確率変数をW
★ 身長を意味する確率変数をH
★ モデル:W
=
θ
2H
2+
θ
1H
+
θ
0+
ε
★ データは,例えば 体重(kg)
切片 身長(cm)
身長2(cm
2)
A
氏56.8
1
163.3
26666.89
B
氏52.1
1
160.2
25664.04
C
氏52.6
1
158.0
24964.00
D
氏23.4
1
129.0
16641.00
E
氏32.1
1
139.7
19516.09
F
氏40.6
1
141.4
19993.96
27
回帰モデルの例
(2-2) —
重回帰モデル
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 体重をW
,身長H
,体脂肪率をF
,性別をS
★ 性別は女性を1
,男性を0
で表す ★ モデル:W
=
θ
3S
+
θ
2F
+
θ
1H
+
θ
0+
ε
★ データは,例えば 体重(kg)
切片 身長(cm)
体脂肪率(%)
性別A
氏56.8
1
163.3
14.3
0
B
氏52.1
1
160.2
15.3
0
C
氏52.6
1
158.0
21.2
1
D
氏23.4
1
129.0
13.3
1
E
氏32.1
1
139.7
16.8
0
F
氏40.6
1
141.4
19.6
1
28
線形最小二乗法の定義,および,性質
1
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 観測と応答の関係Y
=
m−1∑
k=0θ
kf
k(
x
) +
ε
=
f
(
x,
θ
) +
ε
は線形回帰モデルと呼ばれる ★f
k(
x
)
は既知の関数 ★θ
kは未知のパラメータ,θ
= (
θ
0,
θ
1, . . . ,
θ
m−1)
T ★ε
は確率変数で平均0
(E
[
ε
] =
0
) ★ 実際にn
個のデータ(
x
1, y
1)
, . . . ,
(
x
n, y
n)
を用いてy
j=
f
(
x
j,
θ
) +
ε
j, j
=
1, 2, . . . , n
とする ★y
j,
ε
jは確率変数 ★ε
jはj
回目の観測における誤差29
線形最小二乗法の定義,および,性質
2
データ分析基礎 講義資料 回帰分析+演習の手順 ★y
j=
f
(
x
j,
θ
) +
ε
j, j
=
1, 2, . . . , n
★ 今回は,誤差ε
jに対して以下の仮定を置く ★ 平均は0
.つまり,E
[
ε
j] =
0
★ 誤差の分散は等しく,正.つまり,V
[
ε
j] =
σ
2>
0
★ 誤差は互いに無相関.つまり,E
[
ε
iε
j] =
0, i
̸=
j
★ 残差二乗和S
(
β
) =
n∑
k=1(
y
k−
f
(
x
k,
β
))
2 を最小化する未知パラメータベクトルβ
を最小二乗推定量ˆθ
と言う30
絵で見る最小二乗法
データ分析基礎 講義資料 回帰分析+演習の手順
31
線形最小二乗法の定義,および,性質
3
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 最小二乗推定量ˆθ
は,最良線形不偏推定量である ★E
[
ˆθ
] =
θ
(不偏) ★ˆθ
は,y
jについて線形の式で書ける(線形) ★ その中で,分散がある意味で最小(最良) ★ 任意の不偏性と線形性を満たすβ
に対して,Cov
[
β
]
−
Cov
[
ˆθ
]
が非負定値 ★ 誤差ε
が正規分布に従うとき,最小二乗推定量ˆθ
は,最尤推定量である ★ つまり,x
1, . . . , x
nを固定して,測定結果としてy
1, . . . , y
nが得られる確率をθ
の関数として 考えたとき,その確率の値が最大となるのがθ
=
ˆθ
のとき32
最小二乗法推定量
(
その
1)
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 方針 ★ 残差二乗和S
(
β
) =
n∑
k=1(
y
k−
f
(
x
k,
β
))
2 を最小化したいのだから,β
0,
β
1, . . . ,
β
m−1で偏微分して0
になるβ
を見つければ良い33
最小二乗法推定量
(
その
1)
データ分析基礎 講義資料 回帰分析+演習の手順 ★f
(
x,
β
) =
β
1x
+
β
0の場合 ★S
(
β
) =
n∑
k=1(
y
k−
β
1x
k−
β
0)
2であるから ★∂
∂β
1S
(
β
) =
2
n∑
k=1(
x
2kβ
1+
x
kβ
0−
x
ky
k) =
0
★∂
∂β
0S
(
β
) =
2
n∑
k=1(
x
kβ
1+
β
0−
y
k) =
0
★ つまり,次の連立一次方程式を解けば良い ★(
∑ x
2 k∑ x
k∑ x
kn
) (
β
1β
0)
=
(
∑ x
ky
k∑ y
k)
★β
1=
n∑ xjyj−∑ xj ∑ yj n∑ x2j−(∑ xj)2 ,β
0=
∑ x2 j ∑ yj−∑ xjyj ∑ xj n∑ x2j −(∑ xj)234
最小二乗法推定量
(
その
2)
データ分析基礎 講義資料 回帰分析+演習の手順 ★f
(
x,
β
) =
β
0f
0(
x
) +
β
1f
1(
x
) +
· · · +
β
m−1f
m−1(
x
)
の場合 ★S
(
β
) =
n∑
k=1
y
k−
m∑
−1 j=0β
jf
j(
x
k)
2 であるから ★∂
∂β
iS
(
β
) =
2
n∑
k=1f
i(
x
k)
m∑
−1 j=0f
j(
x
k)
β
j
−
y
k
=
0
★ m−1∑
j=0 n∑
k=1f
i(
x
k)
f
j(
x
k)
β
j=
n∑
k=1f
i(
x
k)
y
k35
正規方程式
データ分析基礎 講義資料 回帰分析+演習の手順 ★ つまり,連立一次方程式B
β
=
b
を解けば良い ★B
∈
M
m(
R
)
,
B
ij=
n∑
k=1f
i(
x
k)
f
j(
x
k)
★b
∈
R
m,
b
i=
n∑
k=1f
i(
x
k)
y
k ★ 行列B
がフルランクであれば,最小二乗推定量が一意に定まる ★B
β
=
b
は正規方程式と呼ばれる ★ 数値計算する際は,この方程式を直接解くよりも高精度な方法が存在する36
正規方程式
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 行列A
∈
M
n,m(
R
)
を以下で定義(ヤコビアン,データ行列) ★A
ij=
f
j(
x
i) =
∂ ∂βjf
(
x
i)
★B
=
A
TA
★b
=
A
Ty
(
ただしy
= (
y
1· · ·
y
n)
T)
★ 正規方程式は以下のように書き直される ★A
TA
β
=
A
Ty
★ 行列A
が列フルランクの場合 ★ 最小二乗推定量はˆθ
= (
A
TA
)
−1A
Ty
37
補足:そもそも最初から行列とベクトルで
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 最小化したい残差二乗和はS
(
β
) =
n∑
k=1(
y
k−
f
(
x
k,
β
))
2= (
A
β
−
y, A
β
−
y
) =
∥
A
β
−
y
∥
22 ★β
で微分すると以下:これが0
になるとおくと,正規方程式を得る2A
TA
β
−
2A
Ty
★ 補足1
:(
A
β
−
y, A
β
−
y
) = (
A
β, Aβ
)
−
2
(
A
β, y
) + (
y, y
)
=
β
TA
TA
β
−
2
(
A
Ty
)
Tβ
+
y
Ty
★ 補足2
(ベクトルで微分する):d f
d
β
=
(
d f dβ0· · ·
d f dβm−1)
T ★ d dx(
a
Tx
) =
a
,dxd(
x
TAx
) = (
A
+
A
T)
x
38
QR
分解を用いて解く
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 行列A
は列フルランクでQR
分解できたとする ★A
=
QR
★Q
∈
M
n,m(
R
)
は列ベクトルが長さ1
で互いに直交 ★R
∈
M
m(
R
)
は正則な上三角行列 ★ このとき,正規方程式は ★A
TA
β
=
A
Ty
★(
QR
)
TQR
β
= (
QR
)
Ty
★R
TQ
TQR
β
=
R
TQ
Ty
★R
TR
β
=
R
TQ
Ty
(Q
TQ
=
I)
★R
β
=
Q
Ty
(R
Tは正則)
★R
は上三角行列であるから,これは簡単に解ける39
行列
A
が列フルランクでない場合
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 行列A
が列フルランクでない場合は,最小二乗推定量は一意に定まらない (これはそもそもナンセンスな場合が多い) ★ 最小二乗推定量の中で,∥
β
∥
2を最小とするものを求めることが多い ★∥
β
∥
2=
∥
β
∥ =
√
β
2 0+
β
21+
· · ·
β
2m−1=
√
β
Tβ
★ 結論を言うと,A
のMoore–Penrose
の一般逆行列をA
+と書くとA
+y
=
R
+Q
Ty
が答え ★ ある程度ロバストに計算できる方法は特異値分解 ★ 高速に計算するなら完全ピボット選択付きQR
分解をして直交変換40
一般逆行列
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 正則でなくても,長方行列でも良い行列A
∈
M
mn(
R
)
に対して,AXA
=
A
を満たす行列X
∈
M
nm(
R
)
を一般逆行列といいA
− で表す ★A
− は必ず存在し,一般的にはA
− は一意ではなく複数存在する ★ 連立一次方程式Ax
=
b
の解の一つは,存在するならばx
=
A
−b
と書ける ★ 連立一次方程式Ax
=
b
の解は,存在するならば,任意のベクトルy
を用いてx
=
A
−b
+
(
I
−
A
−A
)
y
と書ける ★ 連立一次方程式Ax
=
b
は(
I
−
AA
−)
b
=
0
ならば解が存在する41
Moore–Penrose
の一般逆行列
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 正則でなくても,長方行列でも良い行列A
∈
M
mn(
R
)
に対して,AXA
=
A, XAX
=
X,
(
AX
)
T=
AX,
(
XA
)
T=
XA
を満たす行列X
∈
M
nm(
R
)
をMoore–Penrose
の一般逆 行列といいA
+ で表す ★A
+ は必ず存在し,一意である ★ 連立一次方程式Ax
=
b
の解が存在するならば,その中で∥
x
∥
2 が最小となるものはx
=
A
+b
となる ★ 連立一次方程式Ax
=
b
の解が存在しなければ,∥
Ax
−
b
∥
2 が最小とするのはx
=
A
+b
と なる42
43
概要と目的
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 気温とビールの売上の関係を調べる ★ 気象庁の長期予報などと組合せて将来のビールの売上を予想するのが目的 ★ 製造や仕入れなどに有効活用できる可能性44
使用するデータ
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 東京の日平均気温の月平均値 ★http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php
?prec_no=44&block_no=47662
★ 京都の日平均気温の月平均値 ★http://www.data.jma.go.jp/obd/stats/etrn/view/monthly_s3.php
?prec_no=61&block_no=47759
★ アサヒグループホールディングスの月次販売情報 ★https://www.asahigroup-holdings.com/ir/financial_data/monthly_data.html
★ 上のデータを整形して作ったcsv
ファイルその1
(このファイルを使用して演習を行います) ★http://ds.k.kyoto-u.ac.jp/e-learning_files/
data_analysis_basic/jma_001.csv
★PandA
のリソースにも置いてあります45
ファイルを開いてみましょう
データ分析基礎 講義資料 回帰分析+演習の手順
46
単回帰分析をしてみよう
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 単回帰分析を行うことで,ビールの売上と東京の気温との関係を調べてみましょう ★ ビールの売上をB
,東京の気温をT
として,B
=
aT
+
b
+
ε
という回帰モデル ★Excel
を用いて回帰分析を行う方法はいくつかあるが,ここではアドインの「分析ツール」を 用いる ★GUI
で操作できる,結果に色々表示される47
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます48
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます49
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます50
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます51
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます52
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます53
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます54
アドインの追加
データ分析基礎 講義資料 回帰分析+演習の手順 ★ アドインの追加は例えば以下の手順で行います ★ ファイル → オプション → アドイン → 設定 → 分析ツールにチェックを入れてOK
を押す ★ 成功するとリボンのデータのタブにデータ分析が表示されます55
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 回帰分析の実行は以下の手順で行います ★1.
データ分析をクリックし,回帰分析を選び,OK
を押す ★2.
入力Y
範囲,入力X
範囲などを適切に記入し,OK
を押すことで,回帰分析を行う ★2-1.
入力Y
範囲には「$B$1:$B$77
」と入力($
はなくても構いません) ★2-2.
入力X
範囲には「$C$1:$C$77
」と入力($
はなくても構いません) ★2-3.
「ラベル」にチェックを入れる ★2-4. OK
を押す56
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順
★ 回帰分析の実行は以下の手順で行います
57
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 回帰分析の実行は以下の手順で行います ★1.
データ分析をクリックし,回帰分析を選び,OK
を押す 1 258
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順
★ 回帰分析の実行は以下の手順で行います
59
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順
★ 回帰分析の実行は以下の手順で行います
60
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順
★ 回帰分析の実行は以下の手順で行います
61
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順
★ 回帰分析の実行は以下の手順で行います
62
単回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順
★ 回帰分析の実行は以下の手順で行います
63
単回帰分析の実行結果
データ分析基礎 講義資料 回帰分析+演習の手順
64
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順
★
B
=
aT
+
b
+
ε
の係数a, b
が以下のように推定されたことがわかる65
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順
★ この結果から,東京の気温が
1
度あがるとビールの売上が13
万箱ぐらい増えるだろうと推定さ66
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 東京の気温に対して,P
値が0.0001
と表示されています ★ これは仮説検定に置いて,帰無仮説を「東京の気温に対する係数a
=
0
」としたときのP
値 です67
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 東京の気温に対して,下限95%
が6.697612
,上限95%
が19.28555
と表示されています ★ これは,係数a
に対して,95%
の確率で6.69
≤
a
≤
19.28
であるという意味 ★X
の95%
信頼区間が[
L, U
]
であるとは,P
(
L
≤
X
≤
U
)
≥
0.95
68
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 重決定R2
の値が0.186059
と表示されています ★ これは,ビールの売上の変化のうち,18%
ぐらいが東京の気温の変動で説明できるという 意味69
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 重決定R2
はビールの売上の変動のうち,回帰式で説明できた割合(説明できなかったのが残 差二乗和) ★ 変動は∑
(
平均からのずれ)
270
考察
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 東京の気温が1
度上がるとビールの売上が13
万箱ぐらい増えるんじゃないか ★ しかし,東京の気温だけでは,ビールの打ち上げの変化のうち18%
ぐらいしか説明できてい ない ★ もうちょっと色々な要因からビールの売上を予想した方が良いのでは ★ 東京の気温の他に,京都の気温も追加で使って予想 ★ 重回帰分析(説明変数の数を1
つから2
つに増やす)71
ファイル
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 京都の気温のデータも入れた以下のファイルを使用 ★http://ds.k.kyoto-u.ac.jp/e-learning_files/
data_analysis_basic/jma_002.csv
★PandA
のリソースにも置いてあります72
ファイルを開いてみましょう
データ分析基礎 講義資料 回帰分析+演習の手順
73
重回帰分析をしてみよう
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 今度は,重回帰分析を行うことで,ビールの売上と東京の気温と京都の気温の関係を調べてみ ましょう ★ ビールの売上をB
,東京の気温をT
,京都の気温をK
として,B
=
aT
+
bK
+
c
+
ε
という回 帰モデル ★ 実行の仕方は,単回帰分析とほぼ同様で,X
の範囲として複数の行を指定すれば良い74
重回帰分析の実行
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 回帰分析の実行は以下の手順で行います ★1.
データ分析をクリックし,回帰分析を選び,OK
を押す ★2.
入力Y
範囲,入力X
範囲などを適切に記入し,OK
を押すことで,回帰分析を行う ★2-1.
入力Y
範囲には「$B$1:$B$77
」と入力($
はなくても構いません) ★2-2.
入力X
範囲には「$C$1:
$D$
77
」と入力($
はなくても構いません) ★2-3.
「ラベル」にチェックを入れる ★2-4. OK
を押す75
重回帰分析の実行結果
データ分析基礎 講義資料 回帰分析+演習の手順
76
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順
★
B
=
aT
+
bK
+
c
+
ε
の係数a, b, c
が以下のように推定されたことがわかる77
実行結果を読み取る
データ分析基礎 講義資料 回帰分析+演習の手順 ★ この結果から以下のことが示唆される ★ 東京の気温が1
度あがるとビールの売上が15
万箱ぐらい増える ★ 京都の気温が1
度あがるとビールの売上が2
万箱ぐらい減る ★ 直感的には,京都の気温が上がるほどビールの売上が減るのは変な気がする ★ 重相関R2
の値も0.186119
とほとんど改善していない ★ ビールの売上の変化は,東京の気温と京都の気温を使っても18.6%
ぐらいしか説明できてい ない ★ 東京の気温のみを使用した場合は0.186059
でした ★ 課題1
★ 直感的に反する結果となったのは何故か,また改善していないのは何故か? 考えてみてく ださい78
79
多重共線性
データ分析基礎 講義資料 回帰分析+演習の手順 ★ 重回帰モデルB
=
aT
+
bK
+
c
+
ε
★B :
ビールの売上 ★T :
東京の気温 ★K :
京都の気温 ★ このように,説明変数間で相関がある場合,多重共線性という問題が起こり,最小二乗推定量 が不安定になる ★ より正確には,データ行列の条件数が大きいと不安定になる★