第 8 章 2項分布 63
15.3 相関係数の誤用
122 第15章 相関 例2 次の表は,年間収入階級別の一月当たり食料費支出を表している.2
年間収入階級 1か月の収入 1か月の食料費支出
200万未満 131,667 40,037
200万以上250万未満 188,333 52,928
250〜300 229,167 54,458
300〜350 269,167 56,293
350〜400 310,833 59,142
400〜450 352,500 60,248
450〜500 394,167 63,474
500〜550 436,667 66,154
550〜600 477,500 65,505
600〜650 517,500 71,194
650〜700 560,000 71,951
700〜750 600,833 72,460
750〜800 644,167 76,383
800〜900 703,333 76,719
900〜1000 787,500 83,961
1000〜1250 917,500 87,942
1250〜1500 1133,333 88,454
1500万以上 1653,333 102,116
「1か月の収入」X と「1か月の食料費支出」Y の散布図は次のようになり,X, Y の間 には強い相関が見て取れる.
22010年度『家計調査』による統計表「年間収入階級別(全国・都市階級)二人以上の世帯」”a206-1.xls”
による.なお,上の表の「1か月の収入」には,元の統計表の「年間収入(万円)」の値を12で割った値 である.
15.3. 相関係数の誤用 123 しかし,観察されたこの強い相関は元のX, Y の相関ではなく,それらの階級別平均値 の間の相関にすぎない.平均という人工的操作により作り出された架空の相関 である.
例3
(1) ある中学校の期末試験で,3年生(生徒数 150 名)の社会の得点 X と理科の得点 Y の関係を調べたところ,相関係数が 0.6 というかなり高い値を示したと言う.しかし この証拠だけから,社会と理科の学力の間に何か直接的な関係があると推測してはいけ ない.念のために,期末試験直前の勉強時間Z も調べたところ,X, Z の相関係数およ び Y, Z の相関係数は,ともに 0.8 程度の非常に高い値であることがわかった.すなわ ち,勉強時間 Z が長いほど,二つの科目の得点 X, Y が高くなる傾向があった.した がって,社会と理科の学力の間に直接の関係があるわけではない,と考えるべきである.
はじめに観測された相関は 見かけ上の相関 であり,真の原因は別にあった.
(2) 血圧 X と所得Y の間には正の相関があると思われる.しかし,この2つの量のそ れぞれは,たとえば年齢(または摂取エネルギー量)Z との間に真の相関がある,と考 えられる.すなわち,年齢 Z が高いとき,血圧 X と所得 Y は高くなる傾向があり,
X, Y の間に見かけ上の相関が発生する.
(3) 日本の砂糖輸入量X と溺死者数 Y の年度別データを調べると,この間には負の相 関があると思われる(実際のデータは調べていない).しかし,この2つの量のそれぞ れは,年度Z との間に真の相関がある,と考えられる.すなわち,年度 Z が進む(大 きくなる)とき,日本の砂糖輸入量X は増える傾向があり,かつ溺死者数Y は減る傾 向があるために,X, Y の間に見かけ上の相関が発生する.
例4
(1) ある大学で入学試験の成績 X と入学後の成績 Y の相関係数 r を計算したところ,
r= 0.2と小さい値であった(ほとんど無相関であった).小さい相関が生じた理由は,合
格者だけを対象に調査したからである.もし不合格者も含めて調査したならば(現実には 不可能であるが),大きい相関が得られたはずである.このように,もし母集団全体に対 して調査すれば大きい相関が得られるような場合でも,部分集団に対する相関は小さい ことがありうる.
(2) ある市の中学生と高校生に対して(中学生の学年を X = 1,2,3,高校生の学年を X = 4,5,6 と考えることにする),知っている英単語の個数 Y を調査した.X, Y の相 関係数r を計算したところ,r= 0.6とかなり大きい値になった.しかし,もし高校生 だけを調査したら,相関係数の値はもっと小さな値になるであろう.
124 第15章 相関