4 線形回帰分析

(1)

4

^{線形回帰分析}

4.1

既存データから未知の値を推測すること

英語と数学の試験結果を比較したり、年収と食費の統計的な関連を見る事があります。２つのデータを同時に扱うので、２次元のデータと考えても良いでしょう。

２次元のデータ(aj, bj), j= 1,2, . . . , nが与えられ、第１成分データをA、第２成分データをBとします。この与えられたデータを基にして、『仮にAの値がaであったならばBの値はどれくらいだろうか？』と云う問題を考えてみます。

横軸にA、縦軸にBを取ってデータ値を点として可視化した図が下左図の様になっているとしましょう。こう云った場合に下右図の様に仮想の直線を図中に引いて『まあ、

大体こんなもんだろ』と話を単純化してみる事があります。

要するに２つのデータに間には１次関数の関係があると仮定しようと云うわけです。

で、問題はこの直線の引き方ですが、当然の要求として引いた直線の表す仮想値と実際のデータ（現実値）の差が出来るだけ小さくなる様にしたいわけです。

具体的には与えられたデータ{(aj, bj)}jに対して、直線y=sx+tを考えて、B= sA+tと表せると仮定した場合の仮想値cj=saj+tと現実値bjの差の自乗和：

Xn

j=1

(saj+t−bj)²

が最小となる様な直線を求めます（これを最小自乗法と言います）。

差の自乗和を具体的に計算すれば Xn

j=1

(ajs+t−bj)²= Xn

j=1

(a²_js²+t²+b²_j+ 2ajst−2bjt−2ajbjs) なので、確率論的な意味を付け易くするためにnで割って平方完成すれば

1 n

Xn j=1

(ajs+t−bj)²

=t²+ 2E[A]st−2E[B]t+E[A²]s²+−2E[AB]s+E[B²]

= (t+E[A]s−E[B])²+V ar[A]

µ

s−E[AB]−E[A]E[B]

V ar[A]

∂2

+（定数）

と書けますから（ただし各種平均値は存在し、V ar[A]6= 0である必要があります）、

s= E[AB]]−E[A]E[B]

V ar[A] , t=E[B]−E[A]E[AB]−E[A]E[B]

V ar[A]

のときに最小値になる事は明らかなのですが、求めたs, tの値の中に全く同じもの：

E[AB]−E[A]E[B]が含まれていますね。これは何でしょうか。

4.2

成分の和と共分散

２次元データ(A, B)に対して、２つの成分を加えて得られる１次元データを考えます。

元データ(A, B) : (a1, b1),(a2, b2), . . . ,(an, bn)

↓加工

派生データA+B : a1+b1, a2+b2, . . . , an+bn

すると和A+Bの平均値と分散は、

E[A+B] = 1 n

Xn

j=1

(aj+bj) = 1 n

Xn

j=1

aj+1 n

Xn

j=1

bj=E[A] +E[B]

V ar[A+B] =E£

(A+B−E[A+B])²§

= 1 n

Xn

j=1

(aj+bj−E[A]−E[B])²

= 1 n

Xn

j=1

{(aj−E[A]) + (bj−E[B])}²

= 1 n

Xn

j=1

(aj−E[A])²+ 21 n

Xn

j=1

(aj−E[A])(bj−E[B]) + 1 n

Xn

j=1

(bj−E[B])²

=V ar[A] + 2E[(A−E[A])(B−E[B])] +V ar[B]

と計算され、和の平均は平均の和ですが、和の分散は単純に分散の和とはならずにクロスタームが入って来る事になります。このクロスタームを共分散と呼んでいます：

(2)

Revised at 01:19, April 3, 2014 統計学第4回 http://my.reset.jp/˜gok/math/statistics/ 2

定義 4.2.1 ２次元の有限データ(aj, bj),1≤j ≤nに対して、第１成分データを A、第２成分データをBとするとき、

Cov[A, B] =E[(A−E[A])(B−E[B])]

= 1 n

Xn

j=1

(aj−E[A])(bj−E[B]) をA, Bの共分散（covariance）と言います。

対称性：

Cov[A, B] =Cov[B, A]

は自明ですね。また、

Cov[A, B] = 1 n

Xn

j=1

(ajbj−E[A]bj−E[B]aj+E[A]E[B])

= 1 n

Xajbj−E[A]1 n

Xbj− µ1

n Xaj

∂

E[B] +E[A]E[B]

= 1 n

Xajbj−E[A]E[B]

=E[AB]−E[A]E[B]

であることに注意し、これを有効利用して計算しますが、これこそまさにさっきの計算で最小値を与えるs, tを求めた時に現れていたものです。

可算無限データに関しても全く同様に定義されます：

定義 4.2.2 ２次元の可算無限データ(aj, bj), j ∈ に対して、第１成分データを A、第２成分データをBとし、どちらも平均値が存在するとき、

E[(A−E[A])(B−E[B])] =X

(a,b)

(a−E[A])(b−E[B])P[(A, B) = (a, b)]

が有限値として存在するとき、これを A, B の共分散（covariance）と言い記号 Cov[A, B]で表します。

4.3

回帰直線

この共分散と言う概念を使えば、求める理想と現実の差が最小となる直線の方程式は y= Cov[A, B]

V ar[A] x+E[B]−E[A]Cov[A, B]

V ar[A]

y−E[B] = Cov[A, B]

V ar[A] (x−E[A])

と書ける事が分かります。この直線を、BのAへの回帰直線（regression line）と言います。丁度『（平均値、平均値）』の点(E[A], E[B])を通っていますね。

例題4.3.1 次の表は、ある農園からランダムに選ばれた６本のパイナップルの木につ

いて、幹の周囲Xと高さY を測定したものです（単位メートル）。

X:{xj} 0.75 0.55 0.72 0.61 0.66 0.58 Y :{yj} 8.7 6.8 7.9 7.0 7.1 6.1

（１）X, Y の平均値、分散、共分散、Y のXへの回帰直線を求めて下さい。

（２）幹の周囲が0.64の木の高さを推測して下さい。

E[X] = 3.87

6 , E[Y] = 43.6 6

V ar[X] =E[X²]− {E[X]}²= 2.5275

6 −14.9769

36 = 0.1881 36 V ar[Y] = 320.96

6 −

µ43.6 6

∂2

=24.8 36 Cov[X, Y] =E[XY]−E[X]E[Y] = 28.447

6 −168.732 36 = 1.95

36 従ってY のXへの回帰直線は

y−43.6

6 = 1.95 0.1881

µ

x−3.87 6

∂

となり、これにx= 0.64を代入すれば木の高さの推測値が得られます：

y= 1.95·0.64·6−3.87·1.95 + 43.6·0.1881

6·0.1881 = 8.14266

1.1286 ∼7.21.

(3)

4.4 Anscombe’s quartet

次の４つの２次元データがあります：

A1 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0 B1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 A2 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0 B2 9.14 8.14 8.74 8.77 9.26 8.10 6.13 3.10 9.13 7.26 4.74 A3 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0 B3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 A4 8.0 8.0 8.0 8.0 8.0 8.0 8.0 19.0 8.0 8.0 8.0 B4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.50 5.56 7.91 6.89 平均値、分散、積の平均値を計算しておきます：

E[A1] =E[A2] =E[A3] =E[A4] = 9 E[B1]∼E[B2]∼E[B3]∼E[B4]∼7.5 V ar[A1] =V ar[A2] =V ar[A3] =V ar[A4] = 10 V ar[B1]∼V ar[B2]∼V ar[B3]∼V ar[B4]∼3.75

E[A1B1]∼10.0·8.04 + 8.0·6.95 +· · ·+ 5.0·5.68

11 = 797.6

11 ∼72.5 E[A2B2]∼10.0·9.14 + 8.0·8.14 +· · ·+ 5.0·4.74

11 = 797.59

11 ∼72.5 E[A3B3]∼10.0·7.46 + 8.0·6.77 +· · ·+ 5.0·5.73

11 = 797.47

11 ∼72.5 E[A4B4]∼8.0·6.58 + 8.0·5.76 +· · ·+ 8.0·6.89

11 = 797.58

11 ∼72.5

Aj、Bjそれぞれのグループ内で平均値、分散が等しく、更に積の平均値も全て等しいので、共分散は全て等しくなります：

Cov[Aj, Bj]∼72.5−9·7.5∼5.0 従って４つのケースとも同一の回帰直線が得られます：

y∼0.5x+ 3.0.

データそのものを散布図で見る限りはこれら４つの２次元データは相当に異なるタイプの分布をしていますが（下図）、平均値、分散、共分散などは全く同じであり、回帰

直線も同一です。データそのものを表現すると云う目的に於いては、これらの基本的な統計量が如何に不十分なものであるか認識する良い機会でしょう。それらはデータのごく一面を示しているに過ぎないのです。

4.5

相関係数

共分散はそれぞれのデータ値の大きさなどを反映しますので２つのデータの『相互関係そのもの』を見るのには適していません。そこで共分散を正規化して２つのデータの関係にフォーカスしたものが次の相関係数です。

定義4.5.1 ２次元の有限データ(A, B)に対して、V ar[A]6= 0, V ar[B]6= 0であるとき共分散を標準偏差の積で割ったもの：

Cor[A, B] = Cov[A, B]

pV ar[A]p V ar[B]

をこれらのデータの相関係数（correlation coeﬃcient）と言います。

(4)

Revised at 01:19, April 3, 2014 統計学第4回 http://my.reset.jp/˜gok/math/statistics/ 4 相関係数の定義を詳しく見ると、

（A, Bの相関係数）=

1 n

Pn

j=1(aj−E[A])(bj−E[B]) q1

n

Pn

j=1(aj−E[A])²q

1 n

Pn

j=1(bj−E[B])²

=

Pn

j=1(aj−E[A])(bj−E[B]) qPn

j=1(aj−E[A])²qPn

j=1(bj−E[B])² であって、これは２つのn次元ヴェクター

= (a1−E[A], . . . , an−E[A]), = (b1−E[B], . . . , bn−E[B]) の内積をそれらのヴェクターの大きさの積で割ったものになっています。

従って内積が、それら２本のヴェクターの成す角をθとした時に · =| || |cosθと表される事から考えれば、相関係数とは、正にその２つのデータの成す角のcosine であることが分かります。

しかし内積だけを見ていたのではヴェクターの大きさが影響していて角度は分かりにくくなっていますので、ヴェクターの大きさで割って正規化してやる事によって２つのヴェクターがどんな幾何学的関係にあるかが分かり易くなるわけです。

従って、相関係数は−1から1までの値をとり、それぞれのデータの平均値との差をとったものがヴェクターとして見て平行で同じ向きならば相関係数は1、平行で逆向きならば相関係数は−1となる事が分かります。

２つのデータが平行であると云う事は、要するに一方のデータが他方のデータの定数倍になっていると云うことですが、定数を付加しても分散は変わらない事を考慮すれば、２つのデータA, Bが線形関係B=pA+wを満たす時に、p >0なら相関係数は 1、p <0なら相関係数は−1となるのだと云うことが分かります。

しかしあくまでも相関係数は２つのデータの間の線形関係を見ているだけですので、

非線形な関係がある場合には『２つのデータの間に強い関連性があるにも拘らず相関係数は比較的小さくなる』事もあると言えるでしょう。また、相関係数が同じであっても、先に見たAnscombe’s quartetの様に全く異なる様相をもつ可能性もあるわけです。

この点には十分注意して相関係数と云うものを理解する必要があります。

4.6

問題演習

基本演習4.1 ばねの変位を測定して次のデータが得られました：

荷重X 0 10 20 30 40 伸びY 18.2 22.3 27.0 31.3 34.2

（１）X, Y の平均値、分散、共分散、相関係数を求めて下さい。

（２）Y のXへの回帰直線を求め、X = 50に対するY の値を推測して下さい。

基本演習4.2 先の例題4.3.1においてXのY への回帰直線を求めて下さい。

発展演習 4.3 ２次元のデータ(X, Y) ={(xj, yj)|j = 1,2, . . . , n}においてY = pX+wの関係（p, wは定数）があるとき相関係数Cor[X, Y]を求めて下さい。各種平均値・分散等は存在し、特に分散は０でないものとします。

発展演習4.4 ２次元のデータ(A, B)が与えられ、各成分データは平均値と分散をもち、分散はいずれも正であるとします。

このときA, Bそれぞれを標準化したものをA^∗, B^∗と置く時、A^∗±B^∗の分散を計算する事により|Cor[A, B]| ≤1 である事を証明して下さい。

発展演習4.5 赤いサイコロと青いサイコロが１つずつあります。これらを同時に振って出た目をそれぞれR(Red)、B(Blue)で表します。

このときRとBの共分散を求めて下さい。

(5)

課題 4.1 下のデータはあるクラスのうち３０名分の解析学Ｂの中間試験と定期試験の結果です：

定期\中間 35-39 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99

55-59 0 1 2 0 0 1 0 0 0 0

60-64 0 0 1 0 0 0 0 0 0 0

65-69 0 0 0 0 0 0 1 0 0 0

70-74 0 0 0 0 0 0 1 0 0 1

75-79 1 0 2 0 0 1 1 2 0 0

80-84 0 0 0 2 0 1 0 1 0 0

85-89 0 0 0 0 1 0 1 1 0 0

90-94 0 0 0 1 0 1 0 0 3 1

95-99 0 0 0 0 0 0 1 1 0 0

得点は５点幅で階級化されており、処理する際には各階級に属する得点は全てその階級の中間値（階級値と言います）であるとします。例えば中間試験の得点で階級８５-８９には５名が入っていますが、実際の得点に関わらずこれらは全て８７点であるとして処理します。

中間試験、定期試験それぞれの平均値と分散を求め、更に共分散、相関係数も求めて下さい。

課題4.2 ある日のプロ野球公式戦において１２球団の安打数と得点は以下の表の通りでした。得点データをA、安打数データをBとして以下の問いに答えて下さい。

得点A 3 2 7 1 1 2 1 6 3 0 7 3 安打B 5 8 6 5 8 8 7 11 7 4 7 8

（１）A, Bそれぞれの平均値E[A], E[B]とAの分散V ar[A]を求めて下さい。

（２）回帰直線を求め、得点が５点である時の安打数を概算して下さい。