2014 年度前期
はじめに
前回の復習
度数分布表、ヒストグラムによる記述統計。
位置の尺度(平均・メディアン・モード)、散らばりの尺度(分散・標準偏差)による記 述統計。
今回学ぶこと
二次元データ(二変数)の散布図。
共分散と相関係数。
テキスト該当箇所:3章。
1 二次元データと散布図
1.1
二次元データから分かること
例:生徒6名の、数学と英語のデータ(サンプル数n = 6)。
番号i 数学Xi 英語Yi
1 85 65
2 90 80
3 45 75
4 70 55
5 60 55
6 40 30
平均 X =65.00¯ Y =60.00¯ 標準偏差 sX =18.71 sY =16.33
⊲ 各個体につき英語と数学、二つの変数。∴コレは データ(講義ノート#01)。
二次元データの数学的表現:変数をそれぞれX1,X2, . . . ,Xn、Y1,Y2, . . . ,Ynと表記。
⊲ Xiの平均と標準偏差をX¯、sXと置く。
⊲ Yiの平均と標準偏差をY¯、sYと置く。 1
20 40 60 80 100
20406080100
Xi
Yi
図1:数学(Xi)と英語(Yi)の散布図
⊲ i番目の変数のペアを、ベクトル風に(Xi,Yi)と表記。
⊲ 例:数学と英語の成績データ
(85, 65), (90, 80), (45, 75), (70, 55), (60, 55), (40, 30). (1)
Remark:多次元データ(二次元以上のデータ)を分析⇒変数の間の が分
かる。
⊲ 例:数学と英語の成績の間には、どんな関係(法則)がある?
⊲ 関係性を、 で表す。⇒散布図。
⊲ 関係性を、 (数値)で測る。⇒共分散と相関係数。
1.2
散布図
散布図:横軸に変数Xi、縦軸に変数Yiの値をとり、二次元データ(Xi,Yi)を図示したもの
を と呼ぶ。
⊲ 各個体の変数ペア(Xi,Yi)をX − Y平面上の座標と考え、図に打ち込んで行けば良い。
⊲ 右上がり⇒「XiとYiに 相関がある」と言う。
⊲ 右下がり⇒「XiとYiに 相関がある」と言う。
⊲ 判別がつかない⇒「XiとYiに相関が見られない(無相関)」と言う。
例:数学と英語の成績データ(図1)。横軸=数学Xi、縦軸=英語Yi。
⊲ 右上がりの関係⇒Xiが大きいほどYiも大きい傾向。∴数学で良い成績の生徒ほど、 英語でも良い成績。
⊲ 個別に生徒の成績を眺めていたら、得られなかった発見!
Remark:(Xi,Yi)に直線の関係Yi = a + bXiがハッキリ現れれば「 相関」、ぼん やり現れれば「 相関」。
⊲ 図2A:弱い正の相関。
⊲ 図2B:強い負の相関。
⊲ 図2C:相関が見られない。
0 2 4 6
0246
Xi
Yi
0 2 4 6
0246
Xi
Yi
0 2 4 6
0246
Xi
Yi
図2:さまざまな散布図
2 共分散と相関係数
2.1
共分散
共分散:個体i毎に「Xiの平均値X¯からのズレ」(Xi− ¯X)と「Yiの平均値からのズレ」(Yi− ¯Y) を掛け合わせて(Xi− ¯X)(Yi− ¯Y)を求め、その平均をとった値
sXY = 1 n
(X1− ¯X)(Y1− ¯Y) + (X2− ¯X)(Y2− ¯Y) + · · · + (Xn− ¯X)(Yn− ¯Y)
= 1 n
n
i=1
(Xi− ¯X)(Yi− ¯Y) (2)
を、 と呼ぶ。分散s2(講義ノート#02)と異なり、共分散sXY は正にも負にも
(ゼロにも)なり得る。データ次第。
⊲ sXY >0 ⇔「XiとYiは 相関」。
⊲ sXY <0 ⇔「XiとYiは 相関」。
⊲ sXY = 0 ⇔「XiとYiは無相関」。
Remark:なぜ共分散sXYで「変数間の関係」が測れるの?⇒データから計算した際に、
(Xi− ¯X)、(Yi− ¯Y)、(Xi− ¯X)(Yi− ¯Y)がとり得る符号を整理すると、下表の通り。
(Xi− ¯X) (Yi− ¯Y) (Xi− ¯X)(Yi− ¯Y)
ケースI ⊕ ⊕ ⇒
ケースII ⊖ ⊕ ⇒
ケースIII ⊖ ⊖ ⇒
ケースIV ⊕ ⊖ ⇒
⊲ ケースI・III:平均値( ¯X, ¯Y)を軸に、XiとYiが !⇒(Xi− ¯X)(Yi− ¯Y) > 0。
⊲ ケースII・IV:平均値( ¯X, ¯Y)を軸に、XiとYiが !⇒(Xi− ¯X)(Yi− ¯Y) < 0。
⊲ 個体を個別に見ると、同調する個体、反発する個体あり。平均的に、どちらの勢力 が強い?⇒共分散sXY で評価。
0 X Xi
0YYi
(Xi− X)(Yi− Y)> 0
(Xi− X)(Yi− Y)< 0
(Xi− X)(Yi− Y)> 0 (Xi− X)(Yi− Y)< 0
I I I
I I I I V
図3:共分散sXYと散布図の対応関係
Remark:共分散sXYと散布図の対応関係は?⇒平均値( ¯X, ¯Y)で散布図を4つの領域に分 割(図3)。領域I∼IVはそれぞれ、上表のケースI∼IVに対応。
⊲ 正の相関:領域I・IIIにデータが集まる⇒散布図に の傾向。一方共分 散を求めるとsXY >0。
⊲ 負の相関:領域II・IVにデータが集まる⇒散布図に の傾向。一方共 分散を求めるとsXY <0。
2.2
相関係数
相関係数:共分散sXY を、Xiの標準偏差sXとYiの標準偏差sYの積で割った値 rXY = sXY
sXsY
, −1 ≤ rXY ≤1. (3)
を、 と呼ぶ。共分散sXYと異なり、相関係数rXYは下限(−1)と上限(+1) あり。
⊲ 標準偏差の符号はsX >0、sY >0(講義ノート#02)。∴rXYの符号は、 で決まる。
Remark:共分散sXY(上限・下限不明)を相関係数rXY(上限・下限あり)に直しては
じめて、相関の を評価できる。
⊲ rXY が+1に近い⇔ の相関。
⊲ rXY が−1に近い⇔ の相関。
⊲ 共分散sXY の大きさは、変数XiとYiの測定単位に依存。∴相関の「強弱」を議論で きない。⇒ sXY から判明するのは、相関の だけ。
⊲ どんなYiなら、Xiと完璧に同調する?⇒「Yi = Xi」のとき。このときsY = sX。ま た共分散(2)式にYi= Xiを代入すれば
sXY = 1 n
n
i=1
(Xi− ¯X)(Xi− ¯X) = . (4)
∴rXY = s
2 X
sXsX = 1
。
⊲ どんなYiなら、Xiと完璧に反発する?⇒「Yi = −Xi」のとき。このときsY = sX(注:
符号が逆転しても標準偏差は同じ)。また(2)式にYi= −Xiを代入すれば
sXY = 1 n
n
i=1
−(Xi− ¯X)(Xi− ¯X) = −1 n
n
i=1
(Xi− ¯X)(Xi− ¯X) = . (5)
∴rXY = −s
2 X
sXsX = −1。
⊲ よってrXY がとり得る範囲は−1 ≤ rXY ≤1。
例:数学(Xi)と英語(Yi)の二次元データ。(再掲)
i Xi Yi (Xi− ¯X) (Yi− ¯Y) (Xi− ¯X)(Yi− ¯Y)
1 85 65 20 5 100
2 90 80 25 20 500
3 45 75 −20 15 −300
4 70 55 5 −5 −25
5 60 55 −5 −5 25
6 40 30 −25 −30 750
平均 65.00 60.00
標準偏差 18.71 16.33
⊲ 共分散は
sXY = 1
6(100 + 500 + · · · + 750) = . (6)
⊲ 標準偏差sX = 18.71、sY = 16.33と上式の計算結果から、相関係数は rXY = 175
18.71 · 16.33 ≈ . (7)
まとめと復習問題
今回のまとめ
二次元データ(Xi,Yi)の散布図。
共分散と相関係数。
復習問題
出席確認用紙に解答し(用紙裏面を用いても良い)、退出時に提出せよ。
1. 次の2次元データ(Xi,Yi)の共分散sXY と相関係数rXY を求める。まず表の空欄を埋め、 それを材料に計算してゆく。(表は解答に書き込まなくとも良い。)なお、Xiは平均X =¯
1
n Xi = 3、分散s2X = 1
n(Xi− ¯X)2= 1、標準偏差sX =
s2X = 1である。
i Xi Yi (Xi− ¯X) (Yi− ¯Y) (Xi− ¯X)2 (Yi− ¯Y)2 (Xi− ¯X)(Xi− ¯X)
1 2 8 −1 5 1 25 −5
2 4 2 1 1
3 4 2 1 1
4 2 0 −1 1
(a) Yiは平均Y =¯ 1n Yi =__、分散sY2 = 1n(Yi− ¯Y)2=__、標準偏差sY=
s2Y =_
_。
(b) 共分散はsXY = 1n(Xi− ¯X)(Yi− ¯Y) =__。 (c) 以上から、相関係数はrXY = ssXY
XsY =
__。