第 8 章 2項分布 63
15.2 相関係数の数学的背景
118 第15章 相関
• もしX が増加するときY は減少する傾向があるならば(「負の相関」がある場合),
– 差 xi−µX が正のとき,差yi−µY は負になる傾向があり,
– 逆に,差 xi−µX が負のとき,差 yi−µY は正になる傾向がある.
したがって,積 (xi−µX)(yi−µY) は負の値になる傾向がある.
したがって,上の積の和(標本共分散と呼ばれる)
sXY = 1 n
∑n i=1
(xi−µX)(yi −µY) (15.2)
「正の相関」がある場合は正になりやすく,「負の相関」がある場合は負になりやすい.す なわち,量 sXY は X, Y の相関の傾向と強さを表す,良い目安となる.
ところが,この量 sXY には,まだ欠陥がある.たとえば,マウスの体長X と尾長 Y の関係を調べたい場合,長さをmm で測定した場合の sXY の値は,長さを cm で測定 した場合の sXY の値の 102 = 100 倍になる.同様に,長さをインチで測定した場合の sXY の値は,長さを cm で測定した場合のsXY の値の約1/2.542 倍になる.しかし,相 関の傾向と強さを表す量が,測定の単位に依存するのは不合理であろう.
この不合理を解消するためには,X と Y のそれぞれの散らばりを表す量である標本 標準偏差
sX = vu ut1
n
∑n i=1
(xi−µX)2, sY = vu ut1
n
∑n i=1
(yi−µY)2 (15.3) を利用するとよい.たとえばマウスの例の場合,長さを mm で測定したときの sX, sY の値はどちらも,長さをcm で測定したときの値の10倍になる.そこで,量
r= sXY sX ·sY
(15.4) を考えると,この量は 測定の単位に依存しない ことがわかる.この量(15.4) を相関係 数(正確には標本相関係数)と呼ぶ.
15.2.2 データの標準化
相関係数 r の定義式 (15.4) は次のように書き直すことができる.
r = 1 n
∑n i=1
xi−µX
sX ·yi−µY sY .
15.2. 相関係数の数学的背景 119
この式に現れる「比」 xi−µX
sX およびyi−µY
sY たちは,単位の無い量 であることに 注意しよう.このような量は無次元であると言う.たとえば X, Y がマウスの体長と尾 長である場合,これらは「長さ」の次元を持っているが,相関係数 r は無次元である.
また,たとえばX, Y が地点の標高と年平均気温である場合,これらはそれぞれ「長さ」
と「温度」の次元を持っているが,相関係数 r はやはり無次元である.これは相関係 数が持っている非常に重要な性質で,この性質があるために,異なった種類(次元)の データ間の相関係数の大小の比較を行うことができる.
元の量 xi から,無次元の量 xi−µX
sX を作り出す操作のことを,データの標準化と 言う.
15.2.3 相関係数の数学的性質
1. 始めに,相関係数 r が性質 |r|51を満たす事を証明する.そのためには,
1 n
∑n i=1
(xi−µX)(yi −µY) 5
vu ut1
n
∑n i=1
(xi−µX)2× vu ut1
n
∑n i=1
(yi−µY)2 を示せばよい.すなわち,両辺を2 乗して,さらに n2 倍した不等式
( n
∑
i=1
(xi−µX)(yi−µY) )2
5 ( n
∑
i=1
(xi−µX)2 ) ( n
∑
i=1
(yi−µY)2 )
を示せばよい.しかし,この式はxi−µX =ai, yi−µy =bi と置いてみれば,
(a1b1+a2b2+· · ·+anbn))2 5(
a21+a22+· · ·+a2n ) (
b21+b22 +· · ·+b2n) と書き直せるから,有名なコーシー・シュワルツの不等式にすぎない.
2. 次に,|r| = 1 であるとき,n 個の点 (xi, yi) は一直線の上に乗る事を証明する.
|r|= 1 であるのは,コーシー・シュワルツの不等式で等号が成り立つ場合である.良く 知られているように,コーシー・シュワルツの不等式で等号が成り立つのは,ある定数 k が存在して,
b1 =ka1, b2 =ka2,· · ·, bn =kan
となる場合である.すなわち,すべてのi= 1,2,· · ·, n に対して,
yi−µY =k(xi−µX)
が成り立っている.これは,n 個の点 (xi, yi) すべてが,直線 y−µY =k(x−µX)
120 第15章 相関
上に乗る事を意味している.
問題4(難) n 個の点(xi, yi)から,直線y =ax+b までの距離をli で表すことにす る.距離の平方の和
l21+l22+· · ·+ln2 が最小になるような a, bを求めよ.