2
2.相関と回帰.相関と回帰
2.1 相関係数と回帰直線
相関分析は横断的研究から得られたデータ向き (1) 相関分析
2つの項目のどちらにも誤差変動がある時、つまり横断的研究から得られた2つの項目につい て、相関係数によって2つの項目の間の相関性を要約する手法。
・相関性…相互関連性のことで、2つのデータがお互いに影響を与え合っている状態 2つのデータの間の因果関係の有無や方向がわからない時、つまりどちらが原因でど ちらが結果かわからない時に、2つの項目の間の現象論的な関連性を表すこともある。
・因果関係…一方のデータが原因になり、もう一方のデータに結果として影響を与えている状態
・相関係数…2つのデータの直線的な大小関係が一致している程度を表す指標 相関性の指標として用いることが可能。単相関係数ともいう。
・寄与率…2つの項目が共有している情報量の割合を表す指標 単相関分析の場合は相関係数を平方した値になる。
<問題>
マウスの体長と尾長の間に相関性があるか?
体長
寄与率の概念 寄与率 尾長
r2
5 11 8.33
6 14 9.96
7 6 7.24
8 4 4.26
9 12 10.84
10 7 4.82
11 5 5.68
平均値 9 7.50
項目1 相関係数 r=0.816 データは重心を中心にして
上下左右に変動 相関方向にはより変動しやすい 項目2
m m2
<計算結果>
=== 相関係数と回帰直線 === [DANS V7.0]
データ名:表2.1 説明変数x:体長 (cm) 目的変数y:尾長 (cm)
・変数の基礎統計量
--- x:例数=11 平均値=9 標準偏差=3.31662 標準誤差=1 y:例数=11 平均値=7.50091 標準偏差=2.03157 標準誤差=0.612541 ---
・相関係数(correlation coefficient):r=0.816421 寄与率(coefficeint of determination):r^2=0.666542
相関係数の95%信頼区間=tanh(1.14599±0.692952)(0.424391-0.950693)
・回帰直線の分散分析(=回帰係数の検定=相関係数の検定) 分散分析表(ANOVA table)
要因 平方和 自由度 平均平方和 F値 有意確率p値 --- 回帰 27.51 1 27.51 17.9899 0.00216963**
残差 13.7627 9 1.52919
--- 全体 41.2727 10
・相関性の目安…寄与率を目安にする
関連あり:r2≧0.5(50%)→|r| 0.7≧ 影響あり:r2≧0.25(25%)→|r| 0.5≧
・xとyを入れ替えて計算しても相関係数の値は変わらない。
<統計学的結論>
<生物学的結論>
マウスの体長と尾長の間の相関係数は0ではない その値は0.82であり、幅を取れば0.42~0.95の間である
マウスの体長と尾長には相関性がある それはマウスの成長によるものと考えられる
・回帰係数…回帰直線の傾き
説明変数が1増加した時、目的変数が平均的にいくつ変化するかを表す値。
・寄与率…目的変数の全変動のうち、説明変数によって説明できる変動の割合
<問題>
<標本集団のデータ>
表2.1の体長を生後日数と読み替え、あるマウスについて、指定した生後日数の時に尾長を観 察したデータとする。
マウスの生後日数と尾長の関係を関数で表すとどのようになるか?
0.5 1
回帰誤差の分布
回帰直線を中心にしてデータは 上下に変動
y=3+0.5x
x y
尾長
0 10 20
10
<計算結果>
=== 相関係数と回帰直線 === [DANS V7.0]
データ名:表2.1 説明変数x:体長 (cm) 目的変数y:尾長 (cm)
・変数の基礎統計量
--- x:例数=11 平均値=9 標準偏差=3.31662 標準誤差=1 y:例数=11 平均値=7.50091 標準偏差=2.03157 標準誤差=0.612541 ---
・回帰直線(regression line):y=3.00009+0.500091x 寄与率(coefficeint of determination):r^2=0.666542 定数の標準誤差=1.12475 回帰係数の標準誤差=0.117906 回帰残差=1.52919 回帰残差の標準偏差=1.2366
回帰係数の95%信頼区間=0.500091±0.266721(0.23337-0.766812)
・主軸回帰(Major axis regression):y=2.51133+0.554398x
・回帰直線の分散分析(=回帰係数の検定=相関係数の検定) 分散分析表(ANOVA table)
要因 平方和 自由度 平均平方和 F値 有意確率p値 --- 回帰 27.51 1 27.51 17.9899 0.00216963**
残差 13.7627 9 1.52919
--- 全体 41.2727 10
・寄与率…回帰の平方和を全体の平方和で割った値=27.51/41.2727=0.666542
・xとyを入れ替えて計算すると回帰直線は別の直線になる。
<統計学的結論>
<生物学的結論>
マウスの生後日数と尾長の因果関係を直線で近似した時、その回帰係数は0ではない その値は0.50であり、幅を取れば0.23~0.77の間である
マウスの生後日数と尾長の間には直線的な因果関係がある そのため生後日数1日あたり尾長が約0.5cm長くなる
2 8 6.95 8.14 6.77 5.18
3 13 7.58 8.74 12.74 9.08
4 9 8.81 8.77 7.11 9.53
5 11 8.33 9.26 7.81 9.30
6 14 9.96 8.10 8.84 8.97
7 6 7.24 6.13 6.08 5.40
8 4 4.26 3.10 5.39 5.62
9 12 10.84 9.13 8.15 9.20
10 7 4.82 7.26 6.42 5.29
11 5 5.68 4.74 5.73 5.51
平均値 9 7.50 7.50 7.50 7.50
・xと4種類のyについて相関係数と回帰直線を計算すると、全てほぼ同じ値になる。
相関係数:r=0.816 寄与率:r2=0667(66.7%) 回帰直線:y=3+0.5x
・y2:放物線で回帰すると、
回帰曲線:y2=-6+2.78x-0.13x2 寄与率:R2=1(100%)
・y3:3番目のデータ12.74を除外すると、
相関係数:r=1 寄与率:r2=1 回帰直線:y3=4+0.35x
・y4:2,7,8,10,11番のデータは雌のデータ、残りは雄のデータとして別々に計算すると、
雄:相関係数:r=-1 寄与率:r2=1 回帰直線:y4=6.06-0.11x
0 5 1 0 1 5 2 0 0
5 1 0 1 5
0 5 1 0 1 5 2 0
0 5 1 0 1 5
0 5 1 0 1 5 2 0
0 5 1 0 1 5
0 5 1 0 1 5 2 0
0 5 1 0 1 5
図 2.3 4 種類の散布図
y=3+0.5x
x y1
y=3+0.5x
y=3+0.5x y=3+0.5x
x
x x
y2
y3 y4
1 160 130 87 81
2 150 121 92 75
3 142 119 96 79
4 141 119 89 78
5 140 120 90 80
6 139 116 91 77
7 139 140 88 90
8 136 109 82 72
9 129 104 85 86
10 124 122 100 82
平均値 140 120 90 80
8 0 1 2 0 1 6 0
4 0 8 0 1 2 0
図 2.4 投与前後の血圧の散布図
収縮期血圧
拡張期血圧
投与後
投与前 全時期
図 2.5 血圧の投与前分布
収縮期血圧
拡張期血圧
母集団
標本集団
120 90
・収縮期血圧と拡張期血圧の相関係数
投与前:r=-0.216 ←相関係数が負になっている!
投与後:r=0.461 全時期:r=0.575
投与前の収縮期血圧と拡張期血圧の相関が負になっているのは、「収縮期血圧が120mmHg 以上または拡張期血圧が90mmHg以上の症例」だけを選択したため、図2.5のような偏った標 本集団になっていることが原因。
このような場合は投与前後のデータを一緒にして相関係数を計算すると、投与後の症例が血 圧正常例に近づき、自然状態の相関関係に近づくことがある。
どちらかの項目をコントロールしたデータは 自然状態の相関関係がくずれている可能性があるので
正確な相関係数を計算することはできない