• 検索結果がありません。

相関係数の数学的背景

ドキュメント内 i (ページ 123-127)

第 8 章 2項分布 63

15.2 相関係数の数学的背景

118 第15章 相関

もしX が増加するときY は減少する傾向があるならば(「負の相関」がある場合),

xi−µX が正のとき,差yi−µY は負になる傾向があり,

逆に,差 xi−µX が負のとき,差 yi−µY は正になる傾向がある.

したがって,積 (xi−µX)(yi−µY) は負の値になる傾向がある.

したがって,上の積の和(標本共分散と呼ばれる)

sXY = 1 n

n i=1

(xi−µX)(yi −µY) (15.2)

「正の相関」がある場合は正になりやすく,「負の相関」がある場合は負になりやすい.す なわち,量 sXYX, Y の相関の傾向と強さを表す,良い目安となる.

ところが,この量 sXY には,まだ欠陥がある.たとえば,マウスの体長X と尾長 Y の関係を調べたい場合,長さをmm で測定した場合の sXY の値は,長さを cm で測定 した場合の sXY の値の 102 = 100 倍になる.同様に,長さをインチで測定した場合の sXY の値は,長さを cm で測定した場合のsXY の値の約1/2.542 倍になる.しかし,相 関の傾向と強さを表す量が,測定の単位に依存するのは不合理であろう.

この不合理を解消するためには,X と Y のそれぞれの散らばりを表す量である標本 標準偏差

sX = vu ut1

n

n i=1

(xi−µX)2, sY = vu ut1

n

n i=1

(yi−µY)2 (15.3) を利用するとよい.たとえばマウスの例の場合,長さを mm で測定したときの sX, sY の値はどちらも,長さをcm で測定したときの値の10倍になる.そこで,量

r= sXY sX ·sY

(15.4) を考えると,この量は 測定の単位に依存しない ことがわかる.この量(15.4) を相関係 数(正確には標本相関係数)と呼ぶ.

15.2.2 データの標準化

相関係数 r の定義式 (15.4) は次のように書き直すことができる.

r = 1 n

n i=1

xi−µX

sX ·yi−µY sY .

15.2. 相関係数の数学的背景 119

この式に現れる「比」 xi−µX

sX およびyi−µY

sY たちは,単位の無い量 であることに 注意しよう.このような量は無次元であると言う.たとえば X, Y がマウスの体長と尾 長である場合,これらは「長さ」の次元を持っているが,相関係数 r は無次元である.

また,たとえばX, Y が地点の標高と年平均気温である場合,これらはそれぞれ「長さ」

と「温度」の次元を持っているが,相関係数 r はやはり無次元である.これは相関係 数が持っている非常に重要な性質で,この性質があるために,異なった種類(次元)の データ間の相関係数の大小の比較を行うことができる.

元の量 xi から,無次元の量 xi−µX

sX を作り出す操作のことを,データの標準化と 言う.

15.2.3 相関係数の数学的性質

1. 始めに,相関係数 r が性質 |r|51を満たす事を証明する.そのためには,

1 n

n i=1

(xi−µX)(yi −µY) 5

vu ut1

n

n i=1

(xi−µX)2× vu ut1

n

n i=1

(yi−µY)2 を示せばよい.すなわち,両辺を2 乗して,さらに n2 倍した不等式

( n

i=1

(xi−µX)(yi−µY) )2

5 ( n

i=1

(xi−µX)2 ) ( n

i=1

(yi−µY)2 )

を示せばよい.しかし,この式はxi−µX =ai, yi−µy =bi と置いてみれば,

(a1b1+a2b2+· · ·+anbn))2 5(

a21+a22+· · ·+a2n ) (

b21+b22 +· · ·+b2n) と書き直せるから,有名なコーシー・シュワルツの不等式にすぎない.

2. 次に,|r| = 1 であるとき,n 個の点 (xi, yi) は一直線の上に乗る事を証明する.

|r|= 1 であるのは,コーシー・シュワルツの不等式で等号が成り立つ場合である.良く 知られているように,コーシー・シュワルツの不等式で等号が成り立つのは,ある定数 k が存在して,

b1 =ka1, b2 =ka2,· · ·, bn =kan

となる場合である.すなわち,すべてのi= 1,2,· · ·, n に対して,

yi−µY =k(xi−µX)

が成り立っている.これは,n 個の点 (xi, yi) すべてが,直線 y−µY =k(x−µX)

120 第15章 相関

上に乗る事を意味している.

問題4(難) n 個の点(xi, yi)から,直線y =ax+b までの距離をli で表すことにす る.距離の平方の和

l21+l22+· · ·+ln2 が最小になるような a, bを求めよ.

ドキュメント内 i (ページ 123-127)