第 8 章 胃癌取扱い規約に関して 76
12.4 二変数の記述
12.4.2 相関係数と共分散
散布図で描かれた関係の強さを数値化する方法としては,1)共分散を求める方法,と 2)相関係数を求める方法がある.相関係数にはピアソンの積率相関係数,ケンドールの 順位相関係数,スピアマンの順位相関係数があるが,単に相関係数という場合には一般に ピアソンの積率相関係数のことを指す.
相関係数は,2種類の変数間の因果関係とは無関係に,一方の値が大きい時に他方の値 も大きい,または一方の値が小さい時に他方の値も小さいかどうかを要約して表す値であ る.このため,一方が原因で他方が結果という因果関係ではなく,お互いに影響を及ぼし 合っているという相互関連性,つまり相関性の指標として利用される.
例えば,被写体の体重と腹囲全周径を計測した結果が表12.6のようになったとする.本 表のデータの分布状態を目に見えるようにしたものが図12.6左の散布図であり,体重と 腹囲全周径の間には直線的な関係がありそうなことが分かる.この関係を要約するにはま ず,体重(xi)と腹囲全周径(yi)の値を,データの重心すなわち平均からの偏差XiとYi
に変換し,新しいX−Y 座標軸上に配置してみる(図12.6右)と良い.なお,偏差は次式 のように表すことができる.
Xi=xi−x¯=dx (12.5)
Yi=yi−y¯=dy (12.6)
新しい座標軸上における第1象限(X >0, Y >0)と第3象限(X <0, Y <0)にデー タが分布しており,第2象限(X <0, Y >0)と第4象限(X >0, Y <0)には分布して
表12.6 健康診断受診者の体重と腹囲(全周径) Case 体重xi(kg) 腹囲全周径yi(cm)
1 35 64
2 90 120
3 40 70
4 85 97
5 48 77
6 82 105
7 62 76
8 80 100
9 60 71
10 68 80
平均 65 86
図12.6 健康診断受診者の体重と腹囲の散布図
いないことが分かる.このようにX とY の符号が同じ場合を「正の相関関係」という.
逆にXとY の符号が異なる場合を「負の相関関係」という.この関係は,いわばX−Y 座標軸における個別データの位置を評価する方法であるが,これにデータの大きさを考慮 し定量的に表すために,XとY の積を合計した値(積和Sxy)がある.
積和Sxyが正になる時は第1象限ないしは第3象限に位置するデータが多いというこ と,積和Sxyが負になる時は,第2象限ないしは第4象限に位置するデータが多いとい うことを示しており,2変量の関係が正の相関関係にあるのか負の相関関係にあるのかを 区別することができる.
積和Sxyの計算式を以下に示す.
第12章 データと記述統計 118
Sxy=
∑n i=1
XiYi
=∑
(xi−x) (y¯ i−y)¯
=∑
xiyi−∑
xiy¯−∑
yix¯+∑
¯ x¯y
=∑
xiyi− 1 n
∑xi
∑yi− 1 n
∑yi
∑xi+1 n
∑xi
∑yi
=∑
xiyi−
∑xi∑ yi
n (12.7)
本データから求めた積和Sxyは2903(
58803−650+86010
)
であることから,体重と腹囲 全周径は正の相関関係にあることがわかる.ただし,積和Sxyは,サンプルサイズが大き ければ大きな値となり,サンプルサイズが小さければ小さい値となる.そこで,データの 個数とは無関係の値に変換するために,積和Sxyをサンプルサイズ-で割った値を共分散 Vxyといい,これも2変数の関係の強さを表す指標として用いることができる.
Vxy= Sxy n−1
= 1
n−1
∑n i=1
(xi−x) (y¯ i−y)¯ (12.8)
本データから求めた共分散Vxyは,322.6(
2903 10−1
)
である.しかし,共分散Vxyもデー タの単位の影響を受ける.すなわち,値が大きいデータの共分散は大きく,小さいデータ の共分散は小さくなる.データの大きさや単位と積和Sxyや共分散Vxyの関係を表す例 として腫瘍長径と腫瘍短径についてのデータセットを表12.7に示す.
表12.7の結果から,データの個数とは無関係である共分散Vxyは変数の単位が同一の 場合には比較できるが,単位が異なる場合には適用しづらいことが分かる.より普遍的な 指標として相関係数γがある.変数xと変数yの偏差をそれぞれの標準偏差で割ること で,単位とも無関係の値とした変数X′ と変数Y′ の共分散VX′Y′ が相関係数γである.
すなわち,相関係数γは,「変数xと変数yの共分散」と「変数の標準偏差」から求めら れ,-1から1までの値をとる.相関係数が0に近いとき,変数xと変数yは無相関であ るという.
なお,データから平均値を引いて偏差とし,これを標準偏差で割ることを標準化(規準 化)といい,
Xi′ = xi−x¯ SDx
= xi−x¯ vu
utn1
∑n i=1
(xi−x)¯ 2
(12.9)
表12.7 データの大きさ(単位)で異なる共分散
単位 cm mm mm mm
変数 長径 短径 長径 短径 長径 短径 長径 短径
症例A 1 1 症例A 10 10 症例F 15 10 症例K 15 10 症例B 2 2 症例B 20 20 症例G 25 20 症例L 25 28 症例C 3 3 症例C 30 30 症例H 35 30 症例M 35 12 症例D 4 4 症例D 40 40 症例I 45 40 症例N 45 23 症例E 5 5 症例E 50 50 症例J 55 50 症例O 55 46
平均 3 3 30 30 35 30 35 23.8
標準偏差 1.58 1.58 15.8 15.8 15.8 15.8 15.8 14.5
共分散 2.5 250.0 250.0 167.5
相関係数 1.0 1.0 1.0 0.73
Yi′ = yi−y¯ SDy
= yi−y¯ vu
utn1
∑n i=1
(yi−y)¯ 2
(12.10)
であらわされる.このとき,標準化した変数Xi′と変数Yi′ の平均値はともに0,標準 偏差は1となる.
ここで,ピアソンの積率相関係数γは, γ=VX′Y′
= SX′Y′ n−1
= 1
n−1
∑n i=1
Xi′Yi′
= 1
n−1
∑n i=1
xi−x¯ SDx
yi−y¯ SDy
=
1 n−1
∑n
i=1(xi−x) (y¯ i−y)¯ vu
ut1n
∑n i=1
(xi−x)¯ 2 vu utn1
∑n i=1
(yi−y)¯2
(12.11)
となる.手計算する場合は,
γ= 1 n−1
Sxy
√Sxx
n−1
√Syy
n−1
= Sxy
√SxxSyy
(12.12)
第12章 データと記述統計 120 が簡便である.