4
線形回帰分析
4.1
既存データから未知の値を推測すること
英語と数学の試験結果を比較したり、年収と食費の統計的な関連を見る事がありま す。2つのデータを同時に扱うので、2次元のデータと考えても良いでしょう。
2次元のデータ(aj, bj), j= 1,2, . . . , nが与えられ、第1成分データをA、第2成分 データをBとします。この与えられたデータを基にして、『仮にAの値がaであった ならばBの値はどれくらいだろうか?』と云う問題を考えてみます。
横軸にA、縦軸にBを取ってデータ値を点として可視化した図が下左図の様になって いるとしましょう。こう云った場合に下右図の様に仮想の直線を図中に引いて『まあ、
大体こんなもんだろ』と話を単純化してみる事があります。
要するに2つのデータに間には1次関数の関係があると仮定しようと云うわけです。
で、問題はこの直線の引き方ですが、当然の要求として引いた直線の表す仮想値と実 際のデータ(現実値)の差が出来るだけ小さくなる様にしたいわけです。
具体的には与えられたデータ{(aj, bj)}jに対して、直線y=sx+tを考えて、B= sA+tと表せると仮定した場合の仮想値cj=saj+tと現実値bjの差の自乗和:
Xn
j=1
(saj+t−bj)2
が最小となる様な直線を求めます(これを最小自乗法と言います)。
差の自乗和を具体的に計算すれば Xn
j=1
(ajs+t−bj)2= Xn
j=1
(a2js2+t2+b2j+ 2ajst−2bjt−2ajbjs) なので、確率論的な意味を付け易くするためにnで割って平方完成すれば
1 n
Xn j=1
(ajs+t−bj)2
=t2+ 2E[A]st−2E[B]t+E[A2]s2+−2E[AB]s+E[B2]
= (t+E[A]s−E[B])2+V ar[A]
µ
s−E[AB]−E[A]E[B]
V ar[A]
∂2
+(定数)
と書けますから(ただし各種平均値は存在し、V ar[A]6= 0である必要があります)、
s= E[AB]]−E[A]E[B]
V ar[A] , t=E[B]−E[A]E[AB]−E[A]E[B]
V ar[A]
のときに最小値になる事は明らかなのですが、求めたs, tの値の中に全く同じもの:
E[AB]−E[A]E[B]が含まれていますね。これは何でしょうか。
4.2
成分の和と共分散
2次元データ(A, B)に対して、2つの成分を加えて得られる1次元データを考えます。
元データ(A, B) : (a1, b1),(a2, b2), . . . ,(an, bn)
↓加工
派生データA+B : a1+b1, a2+b2, . . . , an+bn
すると和A+Bの平均値と分散は、
E[A+B] = 1 n
Xn
j=1
(aj+bj) = 1 n
Xn
j=1
aj+1 n
Xn
j=1
bj=E[A] +E[B]
V ar[A+B] =E£
(A+B−E[A+B])2§
= 1 n
Xn
j=1
(aj+bj−E[A]−E[B])2
= 1 n
Xn
j=1
{(aj−E[A]) + (bj−E[B])}2
= 1 n
Xn
j=1
(aj−E[A])2+ 21 n
Xn
j=1
(aj−E[A])(bj−E[B]) + 1 n
Xn
j=1
(bj−E[B])2
=V ar[A] + 2E[(A−E[A])(B−E[B])] +V ar[B]
と計算され、和の平均は平均の和ですが、和の分散は単純に分散の和とはならずにクロ スタームが入って来る事になります。このクロスタームを共分散と呼んでいます:
Revised at 01:19, April 3, 2014 統計学 第4回 http://my.reset.jp/˜gok/math/statistics/ 2
定義 4.2.1 2次元の有限データ(aj, bj),1≤j ≤nに対して、第1成分データを A、第2成分データをBとするとき、
Cov[A, B] =E[(A−E[A])(B−E[B])]
= 1 n
Xn
j=1
(aj−E[A])(bj−E[B]) をA, Bの共分散(covariance)と言います。
対称性:
Cov[A, B] =Cov[B, A]
は自明ですね。また、
Cov[A, B] = 1 n
Xn
j=1
(ajbj−E[A]bj−E[B]aj+E[A]E[B])
= 1 n
Xajbj−E[A]1 n
Xbj− µ1
n Xaj
∂
E[B] +E[A]E[B]
= 1 n
Xajbj−E[A]E[B]
=E[AB]−E[A]E[B]
であることに注意し、これを有効利用して計算しますが、これこそまさにさっきの計算 で最小値を与えるs, tを求めた時に現れていたものです。
可算無限データに関しても全く同様に定義されます:
定義 4.2.2 2次元の可算無限データ(aj, bj), j ∈ に対して、第1成分データを A、第2成分データをBとし、どちらも平均値が存在するとき、
E[(A−E[A])(B−E[B])] =X
(a,b)
(a−E[A])(b−E[B])P[(A, B) = (a, b)]
が有限値として存在するとき、これを A, B の共分散(covariance)と言い記号 Cov[A, B]で表します。
4.3
回帰直線
この共分散と言う概念を使えば、求める理想と現実の差が最小となる直線の方程式は y= Cov[A, B]
V ar[A] x+E[B]−E[A]Cov[A, B]
V ar[A]
y−E[B] = Cov[A, B]
V ar[A] (x−E[A])
と書ける事が分かります。この直線を、BのAへの回帰直線(regression line)と言い ます。丁度『(平均値、平均値)』の点(E[A], E[B])を通っていますね。
例題4.3.1 次の表は、ある農園からランダムに選ばれた6本のパイナップルの木につ
いて、幹の周囲Xと高さY を測定したものです(単位メートル)。
X:{xj} 0.75 0.55 0.72 0.61 0.66 0.58 Y :{yj} 8.7 6.8 7.9 7.0 7.1 6.1
(1)X, Y の平均値、分散、共分散、Y のXへの回帰直線を求めて下さい。
(2)幹の周囲が0.64の木の高さを推測して下さい。
E[X] = 3.87
6 , E[Y] = 43.6 6
V ar[X] =E[X2]− {E[X]}2= 2.5275
6 −14.9769
36 = 0.1881 36 V ar[Y] = 320.96
6 −
µ43.6 6
∂2
=24.8 36 Cov[X, Y] =E[XY]−E[X]E[Y] = 28.447
6 −168.732 36 = 1.95
36 従ってY のXへの回帰直線は
y−43.6
6 = 1.95 0.1881
µ
x−3.87 6
∂
となり、これにx= 0.64を代入すれば木の高さの推測値が得られます:
y= 1.95·0.64·6−3.87·1.95 + 43.6·0.1881
6·0.1881 = 8.14266
1.1286 ∼7.21.
4.4 Anscombe’s quartet
次の4つの2次元データがあります:
A1 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0 B1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 A2 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0 B2 9.14 8.14 8.74 8.77 9.26 8.10 6.13 3.10 9.13 7.26 4.74 A3 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0 B3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 A4 8.0 8.0 8.0 8.0 8.0 8.0 8.0 19.0 8.0 8.0 8.0 B4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.50 5.56 7.91 6.89 平均値、分散、積の平均値を計算しておきます:
E[A1] =E[A2] =E[A3] =E[A4] = 9 E[B1]∼E[B2]∼E[B3]∼E[B4]∼7.5 V ar[A1] =V ar[A2] =V ar[A3] =V ar[A4] = 10 V ar[B1]∼V ar[B2]∼V ar[B3]∼V ar[B4]∼3.75
E[A1B1]∼10.0·8.04 + 8.0·6.95 +· · ·+ 5.0·5.68
11 = 797.6
11 ∼72.5 E[A2B2]∼10.0·9.14 + 8.0·8.14 +· · ·+ 5.0·4.74
11 = 797.59
11 ∼72.5 E[A3B3]∼10.0·7.46 + 8.0·6.77 +· · ·+ 5.0·5.73
11 = 797.47
11 ∼72.5 E[A4B4]∼8.0·6.58 + 8.0·5.76 +· · ·+ 8.0·6.89
11 = 797.58
11 ∼72.5
Aj、Bjそれぞれのグループ内で平均値、分散が等しく、更に積の平均値も全て等しい ので、共分散は全て等しくなります:
Cov[Aj, Bj]∼72.5−9·7.5∼5.0 従って4つのケースとも同一の回帰直線が得られます:
y∼0.5x+ 3.0.
データそのものを散布図で見る限りはこれら4つの2次元データは相当に異なるタイ プの分布をしていますが(下図)、平均値、分散、共分散などは全く同じであり、回帰
直線も同一です。データそのものを表現すると云う目的に於いては、これらの基本的な 統計量が如何に不十分なものであるか認識する良い機会でしょう。それらはデータのご く一面を示しているに過ぎないのです。
4.5
相関係数
共分散はそれぞれのデータ値の大きさなどを反映しますので2つのデータの『相互関 係そのもの』を見るのには適していません。そこで共分散を正規化して2つのデータの 関係にフォーカスしたものが次の相関係数です。
定義4.5.1 2次元の有限データ(A, B)に対して、V ar[A]6= 0, V ar[B]6= 0である とき共分散を標準偏差の積で割ったもの:
Cor[A, B] = Cov[A, B]
pV ar[A]p V ar[B]
をこれらのデータの相関係数(correlation coefficient)と言います。
Revised at 01:19, April 3, 2014 統計学 第4回 http://my.reset.jp/˜gok/math/statistics/ 4 相関係数の定義を詳しく見ると、
(A, Bの相関係数)=
1 n
Pn
j=1(aj−E[A])(bj−E[B]) q1
n
Pn
j=1(aj−E[A])2q
1 n
Pn
j=1(bj−E[B])2
=
Pn
j=1(aj−E[A])(bj−E[B]) qPn
j=1(aj−E[A])2qPn
j=1(bj−E[B])2 であって、これは2つのn次元ヴェクター
= (a1−E[A], . . . , an−E[A]), = (b1−E[B], . . . , bn−E[B]) の内積をそれらのヴェクターの大きさの積で割ったものになっています。
従って内積が、それら2本のヴェクターの成す角をθとした時に · =| || |cosθと 表される事から考えれば、相関係数とは、正にその2つのデータの 成す角 のcosine であることが分かります。
しかし内積だけを見ていたのではヴェクターの大きさが影響していて角度は分かりに くくなっていますので、ヴェクターの大きさで割って正規化してやる事によって2つの ヴェクターがどんな幾何学的関係にあるかが分かり易くなるわけです。
従って、相関係数は−1から1までの値をとり、それぞれのデータの平均値との差を とったものがヴェクターとして見て平行で同じ向きならば相関係数は1、平行で逆向き ならば相関係数は−1となる事が分かります。
2つのデータが平行であると云う事は、要するに一方のデータが他方のデータの定 数倍になっていると云うことですが、定数を付加しても分散は変わらない事を考慮すれ ば、2つのデータA, Bが線形関係B=pA+wを満たす時に、p >0なら相関係数は 1、p <0なら相関係数は−1となるのだと云うことが分かります。
しかしあくまでも相関係数は2つのデータの間の線形関係を見ているだけですので、
非線形な関係がある場合には『2つのデータの間に強い関連性があるにも拘らず相関 係数は比較的小さくなる』事もあると言えるでしょう。また、相関係数が同じであって も、先に見たAnscombe’s quartetの様に全く異なる様相をもつ可能性もあるわけです。
この点には十分注意して相関係数と云うものを理解する必要があります。
4.6
問題演習
基本演習4.1 ばねの変位を測定して次のデータが得られました:
荷重X 0 10 20 30 40 伸びY 18.2 22.3 27.0 31.3 34.2
(1)X, Y の平均値、分散、共分散、相関係数を求めて下さい。
(2)Y のXへの回帰直線を求め、X = 50に対するY の値を推測して下さい。
基本演習4.2 先の例題4.3.1においてXのY への回帰直線を求めて下さい。
発展演習 4.3 2次元のデータ(X, Y) ={(xj, yj)|j = 1,2, . . . , n}においてY = pX+wの関係(p, wは定数)があるとき相関係数Cor[X, Y]を求めて下さい。各 種平均値・分散等は存在し、特に分散は0でないものとします。
発展演習4.4 2次元のデータ(A, B)が与えられ、各成分データは平均値と分散を もち、分散はいずれも正であるとします。
このときA, Bそれぞれを標準化したものをA∗, B∗と置く時、A∗±B∗の分散 を計算する事により|Cor[A, B]| ≤1 である事を証明して下さい。
発展演習4.5 赤いサイコロと青いサイコロが1つずつあります。これらを同時に 振って出た目をそれぞれR(Red)、B(Blue)で表します。
このときRとBの共分散を求めて下さい。
課題 4.1 下のデータはあるクラスのうち30名分の解析学Bの中間試験と定期試 験の結果です:
定期\中間 35-39 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99
55-59 0 1 2 0 0 1 0 0 0 0
60-64 0 0 1 0 0 0 0 0 0 0
65-69 0 0 0 0 0 0 1 0 0 0
70-74 0 0 0 0 0 0 1 0 0 1
75-79 1 0 2 0 0 1 1 2 0 0
80-84 0 0 0 2 0 1 0 1 0 0
85-89 0 0 0 0 1 0 1 1 0 0
90-94 0 0 0 1 0 1 0 0 3 1
95-99 0 0 0 0 0 0 1 1 0 0
得点は5点幅で階級化されており、処理する際には各階級に属する得点は全てそ の階級の中間値(階級値と言います)であるとします。例えば中間試験の得点で階 級85-89には5名が入っていますが、実際の得点に関わらずこれらは全て87 点であるとして処理します。
中間試験、定期試験それぞれの平均値と分散を求め、更に共分散、相関係数も求 めて下さい。
課題4.2 ある日のプロ野球公式戦において12球団の安打数と得点は以下の表の通 りでした。得点データをA、安打数データをBとして以下の問いに答えて下さい。
得点A 3 2 7 1 1 2 1 6 3 0 7 3 安打B 5 8 6 5 8 8 7 11 7 4 7 8
(1)A, Bそれぞれの平均値E[A], E[B]とAの分散V ar[A]を求めて下さい。
(2)回帰直線を求め、得点が5点である時の安打数を概算して下さい。