平均や分散は1変量のデータに関する値です。
これらは 1 変量のデータの分布の形状をとらえる上で 有用です。
しかし、より複雑な分析では複数の変数に関するデータ に対して、その相互関係の分析を行う必要が出てきま す。
以下ではまず変数が2つある(2変量の)データについて データの特性のとらえ方を考えます。
34 34
2 変量のデータの分析
散布図
n 個の観測値の組
{ (x1, y1), (x2, y2), …, (xn, yn) }
が与えられたとき、これらをプロットしたものを散布図と いいます。
2 変量のデータの分析
(例)散布図
下の表はある年のJ リーグ18試合の試合結果です※
チーム 1 2 3 4 5 6 7 8 9 勝ち数 22 20 20 18 17 18 13 13 13 得点 67 84 80 60 68 62 51 47 49 失点 28 55 48 41 51 53 49 45 43 チーム 10 11 12 13 14 15 16 17 18 勝ち数 13 13 13 13 12 12 5 6 4 得点 50 57 43 56 46 42 32 44 38 失点 56 58 55 65 65 64 56 70 74
36 36
2 変量のデータの分析
(例)散布図
{(x, y)} = {(得点, 勝ち数)} の散布図
0 5 10 15 20 25
25 35 45 55 65 75 85
得点と勝ち数の散布図
勝数
得点
2 変量のデータの分析
(例)散布図
{(x, y)} = {(失点, 勝ち数)} の散布図
10 15 20 25
失点と勝ち数の散布図
勝数
38 38
2 変量のデータの分析
(例)散布図
{(x, y)} = {(得点, 失点)} の散布図
25 35 45 55 65 75 85
25 35 45 55 65 75 85
失点と得点の散布図
得点
失点
2 変量のデータの分析
共分散
対になった n 個のデータ
{(x1, y1), (x2, y2), …, (xn, yn)}
が与えられた時、全標本共分散は
と定義されます。ここで と はそれぞれ xi と yi の 標本平均です(標本共分散の場合は n が n –1 になり
ni
i i
xy
x x y y
n
1( )( )
1
x y
40 40
2 変量のデータの分析
共分散の意味
共分散の符号は2 変数間の直線的な関係の符号を 表しています(正か負か)。
共分散の問題点
共分散は2 変数間の直線的な関係の符号を表すのみで あって、直線関係の強さを表すものでは (データの観測 単位が同じである時を除いて)ありません。
2 変量のデータの分析
例: 共分散の問題点
以下は男子10人の身長と体重のデータです。
(身長の測定単位は上のデータはcm、下のデータは m)
この時、上のデータと下のデータの(全標本) 共分散は それぞれ 62.32、0.6232 となります。
では身長と体重の 線形 関係は身長を で測ったとき
身長(cm) 175 183 167 178 158 170 165 174 180 162 体重(kg) 75 90 76 65 60 80 61 67 87 58 身長(m) 1.75 1.83 1.67 1.78 1.58 1.70 1.65 1.74 1.80 1.62 体重(kg) 75 90 76 65 60 80 61 67 87 58
42 42
2 変量のデータの分析
それぞれの散布図
この散布図から明らかなように 2 つのデータの(線形)関 係の強さは同じです。共分散は観測値の測定単位に よって同じデータでもその値が変わるという問題があり ます。
0 20 40 60 80 100
150 160 170 180 190
体重
(kg)
身長(cm)
身長(cm)と体重(kg)の散布図
0 20 40 60 80 100
1.5 1.6 1.7 1.8 1.9
体重 (kg)
身長(m)
身長(m)と体重(kg)の散布図
2 変量のデータの分析
相関係数
共分散のこのような欠点を補ったものが相関係数です。
相関係数は rxy と書かれます。
(相関係数の定義)
rxyはデータを標準化したものの共分散と等しくなります (各自で確認して下さい)。
n
i i
n
i i
n
i i i
xy
y y
x x
y y
x x
r
1
2 1
2 1
) (
) (
) )(
(
44 44
2 変量のデータの分析
相関係数の意味
2 つの変数 x と y の相関係数が…
(1) 正の値をとる時、正の相関があるといいます。これ は片方が大きい時、もう片方も大きくなる傾向がある事 を意味しています。
(2)負の値をとる時、負の相関があるといいます。これ は片方が大きいとき、もう片方は小さくなる傾向がある 事を意味しています。
(3) 0 の時、無相関といいます。これは2つの変数間には
どのような線形関係もない事を意味しています。
2 変量のデータの分析
(例) 相関係数
先ほどの身長と体重の相関係数は、cm、mのどちらの 場合でも0.74となります。
ちなみに J リーグの例では
勝数と得点の相関は 0.87, 勝数と失点の相関は – 0.71 得点と失点の相関は – 0.44 となります。
46 46
2 変量のデータの分析
相関係数の性質(1)
相関係数はあくまで 2 つの変数の間の線形関係の 強さを見る尺度です。 x と y の間の関係が強くても、そ れが線形関係で無いのであれば、相関係数には反映さ れません。
(変数間に強い非線形関係があるが相関が0 の例)
0 5 10 15 20 25 30
-6 -4 -2 0 2 4 6
2 変量のデータの分析
相関係数の性質(2)
相関係数の値は – 1 以上 1 以下の値をとります。相 関係数が – 1 の時には、完全な負の相関 があるとい い、 1 の時には、完全な正の相関 があるといいます。
(完全の負の相関) (完全な正の相関)
0 5 10
-6 0 6
0 5 10
-6 0 6
48 48
2 変量のデータの分析
相関係数の性質(3)
相関係数はあくまで相関関係を示すものであり、
因果関係を示すものではありません。
因果関係とはどちらかがどちらかの原因となっているよ うな関係の事です。
例えば身長と体重の場合は身長が高ければ体重が重 いという因果関係があると考えられます。
2 変量のデータの分析
性質(2)の証明 相関係数の定義は
であるが、ここで , と置くと、
シュワルツの不等式より、
n
i i
n
i i
n
i i i
xy
y y
x x
y y
x r x
1
2 1
2 1
) (
) (
) )(
(
x x
a
i
i b
i y
i y
1
|
|
2 2
1 1
2 1
2
1
n n ni i i
n
i i
n
i i
n
i i i
b b a
a b
a