Data Science Institute
2群の関係を把握する方法
(相関分析・単回帰分析)
2018年10月2, 4日
データサイエンス研究所
伊藤嘉朗
散布図
相関係数
偏相関係数
順位相関係数
◇単回帰分析
◇対数目盛
◇相関関係
本日の内容
Data Science Institute
相関分析(散布図)
セールスマンの訪問回数と売上高
訪問回数 売上高
38
523
25
384
73
758
82
813
43
492
66
678
38
495
29
418
71
723
Data Science Institute
相関関係
正の相関
負の相関
無相関
相関関係には正の相関、負の相関、無相関。
点の集中度が関係の強さを測定する手がかり。
Data Science Institute
散布図の作成法(SAS EG)
月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 12 10 17 59 75 64 33 24 49 43 36 26 売上高 83 74 60 109 125 115 78 70 114 87 97 991. データを入力(「ファイル」→「新規作成」→「データ」)
EGData Science Institute
2. 「グラフ」→「散布図」を選択する。
Data Science Institute
3. 「データ」をクリックし、広告費を「X軸」に、売上高を
「Y軸」に設定する。
EG
Data Science Institute
4. 「グラフ領域」をクリックし、「カスタムチャートサイズ」を
指定する。
Data Science Institute EG
Data Science Institute
相関関係の強さ
ピアソンの積率相関係数
( r
)
r=0.97
r=0.32
0 50 100 150 200 250 300 350 50 150 250 350 100 120 140 160 180 200 220 240 80 90 100 110 120 130Data Science Institute ① ③ ② ④
積率相関係数(
r
)のしくみ
1 2 3 4
5
5
4
3
2
1
X
Y
平均
平均
Data Science Institute
X-平均
Y-平均
(X-平均)(Y-平均)
①
+
+
+
②
-
+
-③
-
-
+
④
+
-
-計
合計
①、③の領域に点が多ければ正の相関
②、④の領域に多く点があると負の相関
全ての領域にあれば相殺され無相関
Data Science Institute
積率相関係数(
r
)の計算式
Xの標準偏差×Yの標準偏差
r
=
共分散
相関が強い
「
合計
÷データ数」(共分散)が大きい
-1 <
r
< +1
共分散をXの標準偏差、Yの標準偏差で割る
Data Science Institute
積率相関係数(
r
)の計算例
0 1 2 3 4 5 6 0 1 2 3 4 5 6 Y XX
Y
1
1
2
2
3
4
4
3
5
5
平均
3
3
Data Science Institute
標準偏差の計算方法
2)変動
2乗
1 - 3
=
-
2 4
2 - 3
=
-
1 1
3 - 3
=
0 0
4 - 3
=
1 1
5 - 3
=
2 4
1) 平均 : ( 1+2+ 3+4+5 )÷ 5 = 3
計
0
10
3)分散 : 10 ÷
5 = 2
4)標準偏差 :
√ 2 = 1.414・・・
例)1,2,3,4,5
Data Science Institute
Xの標準偏差×Yの標準偏差
r
=
共分散
=
1.8
=0.900
X
①(X-平均)
Y
②(Y-平均)
①×②
1
-2
1
-2
4.0
2
-1
2
-1
1.0
3
0
4
1
0.0
4
1
3
0
0.0
5
2
5
2
4.0
平均
3
3
合計
9.0
標準偏差
1.414
1.414
合計÷5
1.8
Data Science Institute
積率相関係数の求め方(SAS EG)
1.データを入力する。
EG
Data Science Institute
2.「分析」-「多変量解析」-「相関分析」を選択する。
Data Science Institute
3.「データ」をクリックし、「分析変数」を設定する。
EG
Data Science Institute
4.「オプション」をクリックし、「ピアソン(Pearson)」を
選択する。
Data Science Institute
相関係数(r)=0.900
EG
Data Science Institute
相関係数と有意確率
r=0.262
有意確率=0.4112
データ数:12組
Data Science Institute
r=0.262
有意確率=0.0434
データ数:60組
有意水準5%において有意
Data Science Institute
積率相関係数(
r
)の検定
有意確率(p)
=0.0374 < 0.05
r
=0ではないと判断したときの危険率
有意水準5%において、相関関係は有意である
Data Science Institute
A支店の広告費と売上高
r=0.775
月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 42 26 35 68 103 90 88 58 79 80 48 60 売上高 47 40 51 67 85 100 70 52 65 81 72 85強い正の相関!
0 20 40 60 80 100 120 0 20 40 60 80 100 120Data Science Institute
B支店の広告費と売上高
r=0.863
強い正の相関!
月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 12 10 17 59 75 64 33 24 49 43 36 26 売上高 83 74 60 109 125 115 78 70 114 87 97 99 20 40 60 80 100 120 140Data Science Institute
(A支店+B支店)の広告費と売上高
r=0.272
???
0 20 40 60 80 100 120 140 0 20 40 60 80 100 120Data Science Institute
20 40 60 80 100 120 140 A支店 B支店
(A支店+B支店)の広告費と売上高
Data Science Institute
A支店の広告費と売上高
r=0.016
無相関!
月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 43 51 62 76 41 51 62 82 40 51 60 71 売上高 94 102 109 100 46 51 47 62 115 112 122 115 0 20 40 60 80 100 120 140 30 40 50 60 70 80 90Data Science Institute
B支店の広告費と売上高
r=0.040
無相関!
月 4 5 6 7 8 9 10 11 12 1 2 3 広告費 92 102 111 122 88 102 112 132 89 99 110 121 売上高 152 160 167 175 147 146 142 157 210 207 217 210 50 100 150 200 250Data Science Institute
(A支店+B支店)の広告費と売上高
r=0.823
???
0 50 100 150 200 250 20 40 60 80 100 120 140Data Science Institute
(A支店+B支店)の広告費と売上高
0 50 100 150 200 250 A支店 B支店Data Science Institute
都道府県
売上高
広告費
北海道
245
26
青森
123
14
・・・
・・・
・・・
・・・
・・・
東京
5,672
492
・・・
・・・
・・・
・・・
・・・
・・・
沖縄
59
6
地域別の売上高と広告費
都道府県別広告費と売上高実績
Data Science Institute
売上高
宣伝広告費
宣伝広告費
人口
売上高
交絡要因(人口)
に注意が必要!
相関関係と因果関係
Data Science Institute
支店
広告費
売上高
北海道
92
44
東北
93
102
関東
332
288
北陸
78
54
中部
181
118
近畿
108
138
中国
113
138
四国
72
86
九州
243
152
沖縄
13
22
◇支店別広告費と売上高
Data Science Institute
相関係数(r)=0.902
Data Science Institute
支店
広告費
売上高
人口
北海道
92
44
5,506
東北
93
102
9,335
関東
332
288
42,604
北陸
78
54
5,443
中部
181
118
18,127
近畿
108
138
12,912
中国
113
138
15,554
四国
72
86
3,976
九州
243
152
13,204
沖縄
13
22
1,393
◇支店別広告費、売上高、人口
Data Science Institute
広告費と売上高
人口と広告費
人口と売上高
EGr = 0.902
r = 0.895
r = 0.951
Data Science Institute
売上高
宣伝広告費
宣伝広告費
人口
売上高
広告宣伝費は売上高に貢献?
人口の影響を除いたときの広告費と売上高
の積率相関係数
偏相関係数
Data Science Institute
1.データを入力し、「分析」-「多変量解析」-「相関分析」を
選択する。
偏相関係数の求め方(SAS EG )
Data Science Institute
2.「データ」をクリックし、分析変数、及び
部分変数(人口)を
設定する。
EG
Data Science Institute
偏相関係数=0.373
Data Science Institute
◇都道府県別コンビニ件数、人口、甲子園の勝率
EG
Data Science Institute
・コンビニ数と甲子園勝率?
・コンビニ数と人口
人口の多い都道府県はコンビニ件数が多い。
・人口と甲子園勝率
人口が多いと高校の数や高校生の数も多く、結果として
野球のレベルも上がる。
EGData Science Institute EG
2.「データ」をクリックし、分析変数、及び
部分変数(人口)を
設定する。
1.データを入力し、「分析」-「多変量解析」-「相関分析」を
選択する。
Data Science Institute
偏相関係数 = -0.088
Data Science Institute
◇10名の児童の算数と国語のテストの順位。
スピアマンの順位相関係数(
r
s
)
算数 国語
1
3
2
2
3
4
4
1
5
8
6
5
7
6
8
7
9
10
10
9
Data Science Institute
1.データを入力し、「分析」-「多変量解析」-「相関分析」を選択。
2.「データ」をクリックし、「分析変数」の設定。
3.「オプション」をクリックし、スピアマン(Spearman)を選択。
Data Science Institute
順位相関係数
-1 <
r
s
< 1
1 に近いほど関係性が強く、0 に近いほど
関係性が弱い
EG
Data Science Institute
◇2016年のプロ野球パ・リーグ
解説者5名のシーズン開幕前の予想順位。
解説者の予想の正確さを比較。
チーム
実際 赤星 張本 稲葉 福本 野村
日本ハム
1
2
2
3
3
2
ソフトバンク
2
1
1
2
1
1
ロッテ
3
5
5
5
4
5
西武
4
4
3
4
5
3
楽天
5
6
6
6
6
4
オリックス
6
3
4
1
2
6
Data Science Institute EG
Data Science Institute
◇男性10名
中性脂肪値とGOTの値
GOTに
極端な値
順位相関係数
№
中性脂肪
GOT
1
77
21
2
103
28
3
125
35
4
119
19
5
89
27
6
157
35
7
146
32
8
173
42
9
130
28
10
164
345
Data Science Institute
順位相関係数
r
s
= 0.848
積率相関係数
r
= 0.438
EG
Data Science Institute
例)売上高と売上高に影響を与える要因との関係
売上高⇐広告宣伝費、人口、セールスマン数、・・・
説明変数が1つ:単回帰
説明変数が2つ以上:重回帰
従属変数⇐説明変数(独立変数)
回帰分析
回帰式(y=a+bx)を求める。
目的:回帰式を求め、予測する。
Data Science Institute
走行距離と車両価格
価格:万円 距離:千km車両価格
走行距離
従属変数
説明変数
単回帰分析
№ 1 2 3 4 5 6 7 8 9 車両価格 119 89.9 78 169.6 98 26.8 43.8 33.8 105 走行距離 47 46 51 27 85 101 89 138 46 3 4 5 6 7 8 9 10 11 車両価格 105 113 79 75 59 89 55 49 31 走行距離 70 48 76 61 62 70 105 92 119Data Science Institute
相関分析
r
= -0.827
0 20 40 60 80 100 120 140 160 180 0 20 40 60 80 100 120 140 160 車両価格 走行距離Data Science Institute 0 20 40 60 80 100 120 140 160 180 0 20 40 60 80 100 120 140 160 車両価格 走行距離
回帰分析
回帰式(y=a+bx)を求める。
Data Science Institute
X
Y
各データと回帰直線との垂直距離の2乗和を最小
回帰直線の求め方(最小二乗法)
Data Science Institute
1.データを入力する。
回帰分析(SAS EG )
EGData Science Institute
2.「分析」-「回帰分析」-「線形回帰分析」を選択する。
Data Science Institute
3.「データ」をクリックし、車両価格を「従属変数」、走行距離を
「説明変数」に設定する。
EG
Data Science Institute
・車両価格=155.98-1.042×走行距離
走行距離1千km増えると車両価格は
約1万円低下する。
Data Science Institute
回帰式の信頼性
1)偏回帰係数のt検定
有意確率の確認
走行距離の偏回帰係数の有意確率
<0.0001
< 0.05
2)決定係数の大きさ
0.5(50%)が目安
(必須)
自由度調整済み決定係数=0.6635
⇒ 回帰式により約66.35%説明できる
Data Science Institute
年
市場規模
消費支出
2012
8
6
2013
9
6
2014
13
7
2015
11
5
2016
14
8
2017
17
10
2018
?
11
年度別市場規模と消費支出
Data Science Institute
年度別推移
EG
Data Science Institute
r=0.8686
強い正の相関関係
相関係数
Data Science Institute
散布図
EGData Science Institute
市場規模=
0.625+1.625
×消費支出
市場規模 ⇐ 消費支出
自由度調整済み決定係数=0.6931
Data Science Institute
売上高推移(設立~20年)
売上高は順調に伸びている!?
EG
Data Science Institute
・年度間の差に着目
年度 売上高 1996 1 1997 2 1998 3 1999 4 2000 5 2001 6 2002 7 2003 8 2004 9 2005 10 2006 11 2007 12 2008 13 2009 14 2010 15 2011 16 2012 17 2013 18 2014 19・年度間の比に着目
+1
比率は年々減少!
前年比 -2.00 1.50 1.33 1.25 1.20 1.17 1.14 1.13 1.11 1.10 1.09 1.08 1.08 1.07 1.07 1.06 1.06 1.06Data Science Institute
折れ線グラフ
EG
Data Science Institute
0 50 100 150 200 250 300 4月 5月 6月 7月 8月 9月 10月 11月 12月
目の動きは棒をイメージして上下に動かすべき
折れ線グラフと棒グラフの違いは何か?
Data Science Institute
4月
5月
差
前月比
東北
216
266
50
1.231
関東
752
802
50
1.066
沖縄
63
113
50
1.794
8月
9月
差
前月比
東北
200
260
60
1.3
関東
910
1183
273
1.3
沖縄
50
65
15
1.3
1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
東北 188 192 201
216 266
238 225
200 260
213 198 218
関東 730 648 813
752 802
868 856
910 1183
1020 923 955
沖縄
41
40
55
63
113
42
53
50
65
48
45
47
支店(東北、関東、沖縄)別売上高
Data Science Institute
1.データを入力する。
EG
折れ線グラフの作成
Data Science Institute
2.「重ね合わせの縦列折れ線グラフ」を選択する。
3.「データ」をクリックし、月を「X軸」に、東北、関東、沖縄を
「Y軸」に設定する。
EG
Data Science Institute
普通目盛の折れ線グラフでは比較困難
Data Science Institute
対数目盛の設定法(SAS EG)
「Y軸・目盛」をクリックし、Y軸の目盛を「対数」、
「Y軸の底」を「底10」に設定する。
EG
Data Science Institute
折れ線グラフ(対数目盛)
Data Science Institute
訪問回数
売上高
1月
38
523
2月
25
384
3月
73
758
4月
82
813
5月
43
492
6月
66
678
7月
38
495
8月
29
418
9月
71
723
(単位:回、百万円)
◇セールスマンの訪問回数と売上高
Data Science Institute
1. データを入力する。
Data Science Institute
2.「重ね合わせの縦列折れ線グラフ」を選択する。
3.「データ」をクリックし、月を「X軸」に、訪問回数、売上高を
「Y軸」に設定する。
EG
Data Science Institute
折れ線グラフ(普通目盛)
Data Science Institute
折れ線グラフ(対数目盛)
EG
Data Science Institute
新製品
主力製品
1月
38
523
2月
25
384
3月
73
758
4月
82
813
5月
43
492
6月
66
678
7月
38
495
8月
29
418
(百万円)
◇新製品と主力製品の売上高
Data Science Institute
折れ線グラフ(普通目盛)
EG
Data Science Institute
折れ線グラフ(対数目盛)
Data Science Institute
都道府県別人口とコンビニ数(普通目盛)
EGData Science Institute
X軸、Y軸共に対数目盛
Data Science Institute
人間の五感は対数に変換されている
◇ウェーバー・フェヒナーの法則
弁別閾(気づくことができる最小の刺激差)は
刺激の値に比例
手に重りを100gのせ、少しずつ重りを加え、
重さの違いを感じたのが110gのとき、
手に重りを200gのせ、1gずつ重りを加え、
重さの違いを感じるのは220gのときである。
デシベル、PH、マグニチュード、等星・・・
Data Science Institute