2 変量データと相関係数と回帰分析
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習
I L04(2014-10-17 Fri)
今日の目標
共分散
,
相関係数が手で計算できる 散布図が手で描ける略解:箱ひげ図・分散の応用
L03-S5 Quiz
解答:
標準得点と偏差値 平均値= 90,
標準偏差= 2.
標準得点
= − 3/2 = − 1.5.
偏差値
= 50 + (−1.5) × 10 = 35.
2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図ここまで来たよ
1
略解:
箱ひげ図・分散の応用2 2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図2
変量データの相関回帰
3
箱ひげ図とヒストグラムヒストグラムと箱ひげ図の対応
2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図2 変量データ
これまでやってたのはぜんぶ1
変量データ.
2
変量データはこんな例. (x, y)
などと書く. x, y
は各チームのデータ. x
フリーキック回数y
被シュート回数 データの個数n = 18.
(
チーム名) x y
失点z
コンサドーレ札幌
389 464 .. .
ベガルタ仙台491 246
.. . .. . .. . .. .
計
· · · · · · · · ·
平均値· · · · · · · · ·
J League Division 1. 2012-10-06. http://www.j-league.or.jp/data/
他にも…
(x, y) =(
身長,
体重), (
人口,
面積), (
打率,
本塁打数), (
カロリー,
糖分含有量2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図散布図 y(
縦軸)
被シュート回数400 420 440 460 480 500 520
250300350400450
FK
shoot.received
x(
横軸)
フリーキック回数フリーキック回数が多い
↔
被シュート回数が少ない
?
2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図クロス集計表と周辺分布 x=
フリーキック回数y =
被シュート回数クロス集計表
上の表では…になってる
18
チーム全部のデータから作りました.
↓ y \x
の階級→ 400
未満450
未満500
未満550
未満 計200
以上250
未満1 2 1 4
300
未満4 1 5
350
未満2 2 1 1 6
400
未満2 2
450
未満0
500
未満1 1
計
3 5 7 3 18
周辺分布
2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図L04-Q1
Quiz(クロス集計表)
1
散布図を描こう.
2
クロス集計表を作ろう. x
の階級は0
以上2
未満,
…, y
の階級は0
以上5
未満,
… で.
x y
1 5
3 15
4 14
5 11
7 20
2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図散布図と周辺分布
上
(
左)
から, x:
フリーキック回数, z:
失点, y:
被シュート回数FK
30 40 50 60 70
400440480520
3040506070
lost
400 440 480 520 250 300 350 400 450
250300350400450
shoot.received
対角線上にあるのは
,
周辺分布のヒストグラム 周辺分布のヒストグラムは,
散布図から自分の言葉で
して作れる
.
2
変量データと相関係数と回帰分析2
変量データの相関ここまで来たよ
1
略解:
箱ひげ図・分散の応用2 2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図2
変量データの相関回帰
3
箱ひげ図とヒストグラムヒストグラムと箱ひげ図の対応
2
変量データと相関係数と回帰分析2
変量データの相関正の相関・負の相関・無相関
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
強い正の相関 弱い正の相関 無相関 弱い負の相関 強い負の相関
r = 0.99 r = 0.55 r = 0 r = − 0.55 r = − 0.99
相関‘
正の相関’: x
が大きい⇔ y
が大きい‘
負の相関’: x
が大きい⇔ y
が小さいr:
相関係数
2
変量データと相関係数と回帰分析2
変量データの相関共分散
相関の強さを数で表したい
x
の平均値x = 1 n
∑ n i=1
x i
x
の分散s 2 x = 1 n
∑ n i=1
(x i − x) 2
共分散 (covariance)
x, y
の共分散C xy = 1 n
∑ n i=1
(x i − x) × (y i − y)
2
変量データと相関係数と回帰分析2
変量データの相関共分散の意味
X Y
(+,+)
(−,−) (−,+)
(+,−) X
の平均値Y
の平均値
(+, − ) = (x i − x
の符号, y i − y
の符号).
共分散が正に
/
負に大きい⇔
正の/
負の相関が強い(?)
なぜなら自分の言葉で
しか〜し
.
2
変量データと相関係数と回帰分析2
変量データの相関L04-Q2 Quiz(共分散)
1 x, y
の共分散を求めよう2 x, y
の相関係数を求めよう.
ただし, y
の標準偏差=
√ 122
5 = 4.94
は 使っちゃっていい.
x y
1 5
3 15
4 14
5 11
7 20
2
変量データと相関係数と回帰分析2
変量データの相関相関係数
共分散は
次元のある量なので単位を変えると
値が変わる
→
比較に 不便広い範囲にばらついていたほうが
大きくなる
相関係数は
,
これらの影響を受けずに,
相関の強さをそのまま表す. 相関係数 (correlation coefficient)
x, y
の相関係数r = C xy
s x × s y
2
変量データと相関係数と回帰分析2
変量データの相関相関係数の性質
相関係数は
無次元の量
− 1 ≤ r ≤ +1 r = 0 ⇔ ’
無相関’
r = ±1 ⇔
散布図の点が傾き正/
負の一直線上⇔ y
はx
の1
次関数.
散布図の点が傾き正/
負の一直線上⇒ r = ± 1
であることの証明y i = ax i + b
とすると. C xy = 1
n
∑ n i=1
(x i − x) · ((ax i + b) − (ax + b)) = as 2 x
ところで, s y = | a | s x
なので,
as 2 x
±
2
変量データと相関係数と回帰分析2
変量データの相関Quiz( 相関係数 )
次のうち
,
相関係数r
がもっとも大きいものはどれ?
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
0 2 4 6 8 10
0246810
X
Y
2
変量データと相関係数と回帰分析2
変量データの相関相関係数 =0 にだまされるな
相関係数
r = 0 ⇔ x
とy
の間に‘
関係’
がない?
相関係数r = 0 ⇔ x
が増えたら
y が増えるとも減るとも
言えない
相関係数
r = 0
だからx, y
は無関係な量,
というわけではない2
変量データと相関係数と回帰分析2
変量データの相関L04-Q3
Quiz(相関係数)
次のうち
, x i , y
の相関係数r
について本当はどれ?
1 x i
を一斉に−2
倍すると, r
は−2
倍になる.
2 x i
を一斉に− 2
倍すると, r
は2
倍になる.
3 x i
を一斉に− 2
倍すると, r
は− 1
倍になる.
4 x i
を一斉に−2
倍すると, r
は+1
倍になる(
かわらない).
5 x i
を一斉に− 2
倍すると, r
は− 1/2
倍になる.
6 x i
を一斉に− 2
倍すると, r
は1/2
倍になる.
2
変量データと相関係数と回帰分析2
変量データの相関にせの因果関係にだまされるな
被シュートと失点は正の相関
原因
:
被シュートが多い,
結果:
失点が多い?
原因:
失点が多い,
結果:
被シュートが多い?
フリーキックと被シュートは負の相関原因
:
フリーキックが多い,
結果:
被シュートが少ない?
原因:
被シュートが少ない,
結果:
フリーキックが多い?
原因
:???,
結果:
被シュートが少ない,
かつ,
フリーキックが多い?
相関が強くても
因果関係があるとはかぎらない
因果関係があっても
原因と結果を区別できない
2
変量データと相関係数と回帰分析 回帰ここまで来たよ
1
略解:
箱ひげ図・分散の応用2 2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図2
変量データの相関回帰
3
箱ひげ図とヒストグラムヒストグラムと箱ひげ図の対応
2
変量データと相関係数と回帰分析 回帰回帰分析
回帰
(regression),
単回帰分析=1
変数回帰分析2
変量データ(x, y)
が相関係数
r = ±1
に近い⇔
散布図上のデータ点(x, y)
がほぼ直線に載っ ているその直線
(
回帰直線
)
の式y = ax + b
を知りたい!
つまり回帰係数
a, b
を決めたい.
250300350400450
shoot.received 250300350400450
shoot.received
何でそんなことしたいの
?
法則を見つけたい2
変量データと相関係数と回帰分析 回帰回帰直線の決め方
1
定規をあてて‘
真ん中’
を通るように2
最小2
乗法で.
最小
2
乗法直線からのずれの
2
乗d 2
の合計f (a, b) =
∑ n i=1
d 2 i =
∑ n i=1
(y i − (ax i + b)) 2
の最小条件
∂f ∂a = ∂f ∂b = 0
でa, b
を決める.
微積分・演習I
X Y
物理実験
2
変量データと相関係数と回帰分析 回帰最小 2 乗法の公式
回帰直線
x, y
の平均値をx, y,
標準偏差をs x , s y ,
相関係数をr
とする.
回帰直線は,
傾き
a = r × s s y
x
で,
点
(x, y)
を通る→
切片b y = r × s y
s x × (x − x) + y
250300350400450
shoot.received
2
変量データと相関係数と回帰分析 回帰回帰直線の傾きのおぼえ方 (x, y)
が(m,kg)
だとする.
傾きは
r
みたいなもの. r
は無次元の数(
単位がない
)
だが 傾きa
の単位はkg/m
.
調整するためにはr
にs s y
x (
単位kg/m
)
をかけて傾きa
にする.
なんでs x , s y
とかつくの?
なかったらx, y
いれかえても同じ傾きになっ ちゃうじゃん.
2
変量データと相関係数と回帰分析 回帰L04-Q4
来週の非参照Quiz
はこんな感じQuiz( 共分散と相関係数 )
下のデータを考える.
x y
2 4
2 6
4 11
5 9
7 15
1
共分散を求めよう.
2
相関係数を求めよう.
3
回帰直線の式を求めよう.
ただし
,
平均値x = 4, y = 9,
標準偏差s x = 1.90, s y = 3.85 (
四捨五入し2
変量データと相関係数と回帰分析 回帰箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応
ここまで来たよ
1
略解:
箱ひげ図・分散の応用2 2
変量データと相関係数と回帰分析2
変量データとクロス集計表・散布図2
変量データの相関回帰
3
箱ひげ図とヒストグラムヒストグラムと箱ひげ図の対応
箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応
幹葉図 = ヒストグラムの簡易版
169, 158, 162, 163, 163, 155, 158, 172, 172, 172, 170, 164
1 1 5 0| 8 5 8
2 1 6 0 | 9 2 3 3 4
3 1 7 0| 2 2 2 0
↓
清書1 1 5 0 | 5 8 8
2 1 6 0| 2 3 3 4 9
3 1 7 0 | 0 2 2 2
箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応
Quiz( ヒストグラムと箱ひげ図 )
このヒストグラムに対応する箱ひげ図はどれ
?
frequency
0 2 4 6 8 10
051015
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
左に歪んだ分布 左に裾が長い分布
箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応
Quiz( ヒストグラムと箱ひげ図 )
このヒストグラムに対応する箱ひげ図はどれ
?
frequency
0 2 4 6 8 10
051015
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
右に歪んだ分布
=
右に裾が長い分布
箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応
Quiz( ヒストグラムと箱ひげ図の対応 )
この箱ひげ図に対応するヒストグラムはどれ
?
0 2 4 6 8 10
Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234 Frequency
0 2 4 6 8 10
01234
箱ひげ図のほうが情報が少ない
箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応
連絡
次回
2014-10-24
金2
は1-542
実習室. Excel
で標準偏差求めたり,
ヒ ストグラム描いたり,
回帰分析したりする方法やります.
イヤフォン 持参.
2014-10-01
水昼 からチューターやってます. 1
号館6
階1-614.
2014-10-28
火4, 29
水14:00-17:00
数理情報学科特別講義.
2014-11-06
木 数学検定団体受検申込締切.
http://www.math.ryukoku.ac.jp/suken/
で受付中. 2014-12-06
土34
数学検定団体受検.
来週の非参照 Quiz
データから共分散と相関係数を求めよう データから回帰直線を求めよう