統計学
茅野光範
(かやの みつのり
)!1!
H28
年度後期 週1コマ2単位
第3回 相関係数と回帰直線
教科書 1.4節
講義の予定 第 1 回〜第 8 回
•
10/3 [茅野] ガイダンス
•
10/17 [茅野] データのとりまとめと 基本統計値の計算
• 10/24 [茅野] 相関関係と回帰直線
• 10/31 [姜] 確率の基本概念
• 11/7 [姜] 確率の計算
• 11/14 [姜] 確率変数と確率分布
• 11/21 [姜] 二項分布
• 11/28 [姜] 正規分布
2
推測統計学の 基礎
教科書第2、3章
記述統計学
教科書第1章
前回の内容
•
データの種類
量的データ(数字)と質的データ(名前など)
•
データの整理
度数分布表、ヒストグラム、箱ひげ図
•
データの特性値
平均値、メディアン(中央値)、モード(最頻値)
分散、標準偏差
3!
0 2 4 6 8 10 12
度数
階 級
データをとったら
最初に何をするべきか?
まず、データを見る
見やすくするために整理する
4!
データ
50人の統計学の点数:
4, 8, 9, 10, 17, 21, 21, 25, 26, 28, 29, 31, 33, 33, 36, 36, 36, 37, 39, 42, 43, 44, 51, 51, 53, 54,58, 59, 61, 61, 62, 62, 62, 65, 67, 67, 68, 69, 75, 75, 76, 77, 78, 81, 83, 85, 86, 93, 94, 99
点数
人数
教科書P.3のデータ
図
前回の復習
次にすること
データ全体の特徴を表す数値を求める
そうすると他のデータと比較することも簡単!
“
中心
”はどこか?
平均値
= 51.6中央値
= 53.5最頻値
= 65“
ばらつき具合
”は
?範囲
= 4から
99分散
= 660.16標準偏差
= 25.695!
0 2 4 6 8 10 12
度数
階 級 点数
人数
前回の復習
分散と標準偏差
分散 データから平均を引いて (偏差)、
2乗して (偏差2乗)、平均を取る , 標準偏差は分散の平方根(√)のこと
•
分散や標準偏差が大きいほど,
データのばらつきは大きい
(xi − x )2s2 = 1
n "# (x1 − x)2 +(x2 − x)2 ++(xn − x)2 $% = 1
n (xi − x)2
i=1 n
∑
,s = s2 = 1
n (xi − x)2
i=1 n
∑
s
2s
xi − x
6!
重要!
前回の復習
記号の復習
Σ :シグマ 足し算をまとめる記号
i=1
から始めて、
i=nまで、
xiを足す。
n n
i
i x x x
x = + + +
∑
=2 !
1 1
7!
前回の復習
分散の計算方法 × 2(どちらも同じ)
1.
普通に求める(定義通りに)
2.
以下の式を使う
s2 = 1
n (xi − x)2
i=1 n
∑
s2 = 1
n xi2 − x 2
i=1 n
∑
分散
=データの2乗の平均-平均の2乗
s2 = 1
n (xi − x)2
i=1 n
∑ = 1n (xi2 −2xxi + x2)
i=1 n
∑
= 1
n xi2 − 1
n 2xxi + 1
n x2
i=1 n
∑
i=1 n
∑
i=1 n
∑
= 1
n xi2 −(2x)1
n xi + x2 =
i=1 n
∑
i=1 n
∑ 1n xi2 − x2
i=1 n
∑
[
参考
]2
の導出
8!
前回の復習
今日学ぶこと 教科書 1.4 節
数学と英語の点数の関係の強さは?
[相関
]具体的な関係は?
[回帰
]9!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
(3, 8)
(9, 5)
数学の点数 (x)
英語の点数 (y)
教科書P.12のデータ
r=0.38
y=0.4x + 3.4
数学の点数と英語の点数の散布図
今日の目標
1.
散布図を描く
2.
相関関係を学ぶ
3.共分散を求める
4.
相関係数を求める
5.回帰直線を求める
10!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
r=0.38
y=0.4x + 3.4
相関の強さを表す特性値
相関係数 共分散
の平均 の平均
の積の平均 と
の共分散 と
偏差との積の平均 偏差と
y x
y x
y x
y n x
y x
y x y
x y
n x
y y
x x
y y
x x
y y
x n x
s
y x
y x
y y
x n x
s
n i
i i
n n
n n
xy
n i
i i
xy
×
−
⇒
•
−
=
•
− +
+ +
=
−
− +
+
−
− +
−
−
=
⇒
−
−
=
∑
∑
=
=
1
2 2 1
1
2 2
1 1
1
1
) 1 (
)}
)(
( )
)(
( ) )(
1{(
) (
) )(
1 (
!
!
11!
y x
xy
s s r = s
−1≤ r ≤1
重要!
今日の予習
最小二乗法による回帰直線
) (
ˆ ˆ , ˆ
ˆ ˆ
2
2
x s x
y s y
x a y
b
s a s
b x
a y
x xy
x xy
−
=
−
⎪ ⎩
⎪ ⎨
⎧
−
=
← = +
=
を通る 点
で,
傾きが ) ,
(
ˆ y x
a
12!
重要!
今日の予習
相関係数と回帰直線(回帰分析)
13!
r = 0.66
y = 3.1x - 66.2
450 460 470 480 490 500 510 520 530
170 175 180 185 190
x:
胸囲
(cm)y:
体重
(kg)オス牛の胸囲と体重の関係
相関係数
2変数の
関係の強さを表す
回帰分析
回帰式がわかれば、
y
を測らなくていい!
今日の予習
1. 散布図を描く
数学と英語のデータ(2変数のデータ)
2つの変数(変量)について個体ごとにペアで測定した 値を2変数(2変量、2次元)のデータという
【例
1.4.1】 学生
10人の数学と英語の成績
学生
No 1 2 3 4 5 6 7 8 9 10数学
(x) 5 3 6 10 4 7 7 3 9 6英語
(y) 7 8 4 8 3 6 10 2 5 5ポイント: 同じ学生のデータがある!
15!
数学と英語のデータ (散布図)
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
学生
No 1 2 3 4 5 6 7 8 9 10数 学
5 3 6 10 4 7 7 3 9 6英 語
7 8 4 8 3 6 10 2 5 5図にする
No1 No2
重要!
参考: 散布図と相関表
0 2 4 6 8 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
数学 0〜
2 2〜
4 4〜
6 6〜
8 8〜 10
計
0〜2 0 0 0 0 0 0
2〜4 0 1 0 0 1 2
4〜6 0 1 0 1 0 2
6〜8 0 0 2 1 1 4
8〜10 0 0 1 0 1 2
計 0 2 3 2 3 10
英語
散布図上のそれぞれのマスに いくつデータが入っているか?
17!
散布図の各軸に適当に階級をとり、
度数を求めれば、2変数の度数分布表、
つまり、相関表が求められる
2. 相関関係
正の相関
負の相関
正の相関と負の相関の例:
マンション価格
右上がりに増える 右下がりに減る
19!
0 1000 2000 3000 4000 5000 6000 7000 8000
0 50 100 150
価格(万円)
面積(平米)
マンションの面積と価格
(JR目黒駅周辺)
0 10 20 30 40 築年数
マンションの築年数と価格
(JR目黒駅周辺)
正の相関の例: 出席回数と評点
強めの正の相関がある
出席回数
評点(仮)
20!
出席回数が多いほど
評点が高い傾向がある
負の相関の例:ハーフマラソンのタイム
21!
タイム予測式 hCp://run.dot-whim.com/predicKon
強めの負の相関がある 最近になるほど
タイムが良い傾向がある
相関の強さと散布図
弱い
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
強い
22!
正
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
負
相関が強いほど直線的になる
相関(関係)とその種類
2つの変数の間に相関(関係)がある:1つの変数が 増加すれば他も一緒に増加する(または減少する)
そうでない場合は、相関がない(無相関)という
相関 関係
正の相関:2変数が 右上がりに増える
負の相関:2変数が 右下がりに増減する
強い正の相関:
明確な傾向
弱い正の相関:
曖昧な傾向
強い負の相関:
明確な傾向
弱い負の相関:
曖昧な傾向
23!
3. 共分散
4. 相関係数
相関の強さを表す特性値
相関係数 (共分散と標準偏差から求める)
復習:1変数の場合の平均値や分散、標準偏差 分布の広がりを表す特性値 :散布度(分散など)
2変数データの表記
2つの変数(変量)
x, yについての,
n人のデータ
(x1, y1), (x2, y2), , (xn, yn ) or
(xi, yi ) (i =1, 2, , n)
1人目のデータ
25!
相関係数の定義
y x
xy
s s r = s :
相関係数
) (
) 1 (
, ) 1 (
) (
) )(
1 (
1
2 1
2 1
の標準偏差 と
は と
の共分散 と
y x
s s
y n y
s x
n x s
y x
y y
x n x
s
y x
n i
i y
n i
i x
n i
i i
xy
∑
∑
∑
=
=
=
−
=
−
=
−
−
=
−1≤ r ≤1
26!
重要!
相関の強さを表す特性値
相関係数 共分散
の平均 の平均
の積の平均 と
の共分散 と
偏差との積の平均 偏差と
y x
y x
y x
y n x
y x
y x y
x y
n x
y y
x x
y y
x x
y y
x n x
s
y x
y x
y y
x n x
s
n i
i i
n n
n n
xy
n i
i i
xy
×
−
⇒
•
−
=
•
− +
+ +
=
−
− +
+
−
− +
−
−
=
⇒
−
−
=
∑
∑
=
=
1
2 2 1
1
2 2
1 1
1
1
) 1 (
)}
)(
( )
)(
( ) )(
1{(
) (
) )(
1 (
!
!
27!
y x
xy
s s r = s
−1≤ r ≤1
重要!
相関係数を求める手順( x と y の)
1. x
と
yの平均値、分散、標準偏差を求める
2. x
と
yの共分散を求める
3. x
と
yの相関係数を求める!
y x
y n x
y y
x n x
s n
i
i i n
i
i i
xy =
∑
− − =∑
− •=
=1 1
) 1 )(
1 (
y x
xy
s s r = s
) (
) 1 (
, ) 1 (
1
2 1
2
の標準偏差 と
は
と
s x y sy n y
s x
n x s
y x
n i
i y
n i
i
x
∑ ∑
=
=
−
=
−
=
28!
重要!
共分散の符号と散布図のパターン
正の相関の場合:
共分散が正
-6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
交差積が正
交差積が正
交差積が負 交差積が負
-6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
負の相関の場合:
共分散が負
交差積が負交差積が負 交差積が正
交差積が正
X X
y y
∑
=−
−
=
n i
i i
xy x x y y
s n
1
) )(
1 (
交差積
x
y
x y
参考
散布図と相関係数の対応
30!
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
正
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
負
r
≒
0.3 r≒
0.6
r
≒
0.9r
≒
-0.3 r≒
-0.6r
≒
-0.9相関係数 r の解釈
r=0
: 相関がない(無相関) (
-0.3<r<0.3など)
r>0
: 正の相関があるかもしれない
r
が大きいほど相関が強い (
r≧
0.3,≧
0.4など)
r=1
: 全てのデータが右上がりの直線上にある
r<0
: 負の相関があるかもしれない
r
の絶対値が大きいほど相関が強い
r=-1:
全てのデータが右下がりの直線上にある
31!
正
負
0(
r≦
-0.3,
≦
-0.4など)
例題(相関係数の計算)
【例
1.4.3】
例
1.4.1の数学
(x)と英語
(y)の相関係数を求めよ.
【解】
379 . 2726 0
. 5
2 8
. 27
2 56
. 5 5
2 56
. 5 5
2
2 8 . 5 6 ) 5 6 7
5 10(
1 10
1
56 . 5 8
. 5 ) 5 8
7 10 (
1 10
1
5 6
) 6 3
5 10 (
1 10
1
8 . 5 10 / ) 5 8
7 ( ,
6 10 / ) 6 3
5 (
10 1
2 2
2 2
10 2 1 2 2
2 2
2 2
10 2 1 2 2
=
=
× =
× =
=
=
=
•
−
• + +
•
=
•
−
=
=
− +
+ +
=
−
=
=
− +
+ +
=
−
=
= +
+ +
=
= +
+ +
=
∑
∑
∑
=
=
=
y x
xy i
i i xy
i
i y
i i x
s s r s
y x y
x s
y y
s
x x
s
y x
!
!
!
!
!
32!
数学と英語のデータ(2変数のデータ)
2つの指標(変量、変数)について個体ごとにペアで 測定した値を2変量(2変数、2次元)のデータという
【例
1.4.1】 学生
10人の数学と英語の成績
学生
No 1 2 3 4 5 6 7 8 9 10数学
(x) 5 3 6 10 4 7 7 3 9 6英語
(y) 7 8 4 8 3 6 10 2 5 533!
) , , 2 , 1 (
) , (
) ,
(, ),
, ( ), ,
( 1 1 2 2
n i
y x or
y x y
x y
x
i i
n n
!
!
=
1人目のデータ
数学と英語の点数の相関関係の強さ
[ 相関係数 ]
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
r=0.38数学の点数と英語の点数の散布図
34!
弱い正の相関がある。
つまり、数学の点数が高い人は
英語の点数も高い傾向がある。
正の相関の例: 出席回数と評点
r=0.71
強めの正の相関がある
出席回数
評点(仮)
35!
負の相関の例:ハーフマラソンのタイム
36!
r=
‐
0.88強めの負の相関がある
タイム予想式 hCp://run.dot-whim.com/predicKon
5. 回帰直線と共分散
今日学ぶこと 教科書 1.4 節
数学と英語の点数の関係の強さは?
[相関
]具体的な関係は?
[回帰
]38!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
(3, 8)
(9, 5)
数学の点数 (x)
英語の点数 (y)
教科書P.12のデータ
r=0.38
y=0.4x + 3.4
数学の点数と英語の点数の散布図
共分散は回帰直線にも使える
39!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
教科書P.12のデータ
y=0.4x + 3.4
一番いい回帰直線はどれか?
40!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
回帰直線の求め方(最小二乗法)
データの
”中心
”を通るようにする、つまり、
の長さ(誤差
d)の合計が最小になるように
aと
bを決める
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
y=ax + b
未知量 切片
と 傾き 回帰直線
: ) (
) (
: y b a
b ax
y = +
41!
最小二乗法による回帰直線
) (
ˆ ˆ , ˆ
ˆ ˆ
2
2
x s x
y s y
x a y
b
s a s
b x
a y
x xy
x xy
−
=
−
⎪ ⎩
⎪ ⎨
⎧
−
=
← = +
=
を通る 点
で,
傾きが ) ,
(
ˆ y x
a
42!
重要!
誤差 d
iの2乗和 の最小化
b ax
y = +
y
x
) ,
(xi yi
O
b ax
y ˆ
i=
i+
) ( ax b y
d
i=
i−
i+
誤差
回帰直線
y の推定値 ˆ )
, (xi yi
43!
∑
∑
= =+
−
=
n i
i i
n i
i
y ax b
d
1
2 1
2
{ ( )}
参考
の最小化の方法
□
の形に変形する ここには も も入らないとする
di2
i=1 n
∑
= (a− a)ˆ 2 +(b− b)ˆ 2 +a b di2
i=1 n
∑
di2
i=1 n
∑ = {yi −(axi +b)}2
i=1 n
∑
= {b−(yi −axi)}2
i=1 n
∑
= {b2 −2b(yi − axi)+(yi −axi)2}
i=1 n
∑
= nb2 −2b (yi − axi)
i=1 n
∑ + (yi −axi)2
i=1 n
∑
= nb2 −2nb y( − ax)+ (yi −axi)2
i=1 n
∑
まず、
bについて変形する
=n b{ 2 −2b y( −ax)}
=n b"#${ −(y−ax)}2 −(y−ax)2%&'
=n b{ −(y−ax)}2 −n y( −ax)2
di2
i=1 n
∑ = n b
{
−(
y−ax) }
2−n y
(
−ax)
2 + (yi −axi)2i=1 n
∑
したがって、
についても、同様に変形する
a
参考
最小2乗法の結果
の分散 の分散,
との共分散 と
の平均 の平均
y s
x s
y x
s
y y x
x x
a y
b
x n x
y x n y
a x y
y x
n x s
s s ns s
a a
ns b
b n d
y x
xy
n
i i
n
i i i
n i
i i
xy
y x
xy y
x n
i
i
: :
, :
: ,
: ˆ ,
ˆ
, ˆ ) )(
1 (
) ) 1 (
( ˆ)
( ˆ)
(
2 2
2 1
2 1
1
2 2
2 2
2 2
2 1
2
−
=
−
= −
−
−
=
− +
− +
−
=
∑
∑ ∑
∑
=
=
=
=
a = aˆ, b = bˆ のとき、 が最小 di2
i=1 n
∑
= sxy sx2
45!
参考
の最小化の別解
•
を
a, bそれぞれで偏微分して、
=0を解く
偏微分
• y=ax+b
を
aで偏微分すると、
xになる
bで偏微分すると、
1になる
di2
i=1 n
∑
di2
i=1 n
∑
a
b
46!
参考
復習:
2次関数の頂点では
接線の傾き
=微分が
0になる
参考解答
47!
最小二乗法による回帰直線
) (
ˆ ˆ , ˆ
ˆ ˆ
2
2
x s x
y s y
x a y
b
s a s
b x
a y
x xy
x xy
−
=
−
⎪ ⎩
⎪ ⎨
⎧
−
=
← = +
=
を通る 点
で,
傾きが ) ,
(
ˆ y x
a
48!
重要!
例題(回帰直線を求める)
【例
1.4.2】 例
1.4.1のデータについて,
英語
(y)の数学
(x)に対する回帰直線を求めよ.
【解】
x = 6, y = 5.8
sx2 = 1
10 xi2
i=1 10
∑
− x2 = 5sy2 = 1
10 yi2
i=1 10
∑
− y2 = 5.56sxy = 1
10 xiyi
i=1 10
∑
− x •y = 2aˆ = sxy
sx2 = 2
5 = 0.4
bˆ = y − aˆ ⋅ x = 5.8− 0.4× 6 = 3.4
⇒ y = 0.4x + 3.4, or y − 5.8 = 2
5 (x − 6)
49!
回帰直線 数学と英語の点数
50!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
教科書P.12のデータ
y=0.4x + 3.4
回帰直線(ハーフマラソンのタイム)
y=-3.73 x + 7626
回帰直線の注意点 未来の 予測は難しい
y=-3.73 x + 7626
(今あるデータの範囲外の当てはめ)
2030
年には
60分を切る
!?参考: 60分25秒(男子アジア記録, 2007)
レポート 提出: 11/7 講義開始時
右の表のデータについて 以下を行ってください。
(1)
散布図を描く
(横軸
xに体重、縦軸
yに胸囲)
(2)
体重と胸囲の平均値、分散、
標準偏差をそれぞれ求める
(3)
相関係数を求める(共分散が必要)
(4)
回帰直線を求める(共分散が必要)
牛 体重 x (kg)
胸囲 y (cm) 1 490 180
2 490 170
3 520 190
4 460 170
5 470 170
6 500 180
オス牛の体重と胸囲
*データは人工的に生成した
データの参考資料:
「Biosta*s*cs for Animal Science」 C a B Int, 2009, Sec. 9.1.1
相関係数の弱点: 外れ値に弱い
全てのデータで計算した 相関係数
r = 0.05
外れ値を除いて計算した 相関係数
r = 0.67 !
↑
こちらの方がデータ全体の 傾向を適切に表している
160.00 165.00 170.00 175.00 180.00 185.00 190.00
440.00 460.00 480.00 500.00 520.00 540.00 560.00
体重 (kg)
胸囲 (cm)
54!
別のデータ(16頭分)の結果です