• 検索結果がありません。

回帰分析の数学的背景

ドキュメント内 i (ページ 150-155)

第 8 章 2項分布 63

17.2 回帰分析の数学的背景

17.2.1 平均値の特徴付け

たとえば,二地点の距離を測定して n 個の測定値xi (i = 1,2,· · ·, n) を得たとする.

距離の真の値を µで表すことにする.n 個の測定値を用いて,未知の値 µを推定した い.そのために,普通は,n 個の測定値の平均(正確には,算術平均)

x= 1 n

n i=1

xi

を推定値とする.こうすると,測定誤差は xi−x (i= 1,2,· · ·, n) となる.このとき,n 個の測定誤差の和は,正負が打ち消しあって,ゼロとなることに注意しよう.すなわち

n i=1

(xi−x) = 0

新しい発想で,算術平均でない別の推定値 b を探してみよう.n 個の測定誤差 xi−b の和を最小にするようなb の値を推定値とする発想は,直感的に有望に思われる.しか し,この単純な考え方では,正負が打ち消しあって,駄目であろう.そこで,測定誤差 の2乗の和

Q=

n i=1

(xi−b)2 さ最小にするような b を探すことにする.

これは,2次関数の最小を探す,簡単な問題である(変数はν である).式を下のよ うに変形する.

Q =

n i=1

x2i 2b

n i=1

xi+b2 =

n i=1

x2i 2nxb+b2

=

n i=1

x2i −x2+ (b−x)2 これより,Q は b=x のとき最小で,最小値は

Qmin =

n i=1

x2i −x2 =

n i=1

(xi

n i=1

(xi−µ)2)2 となる.したがって

測定誤差の2乗の和を最小にする推定値は,じつは平均であり,

また,Qmin/n は分散(= 標準偏差の2乗に等しい

17.2. 回帰分析の数学的背景 145

17.2.2 最小2乗法

最小2乗法は,残差の2乗の和 Q=

n i=1

[yi(axi+b)]2

を最小にするa, bを求める.この問題は数学的には,2次関数を最小にする初等的な問 題にすぎない(ただし,変数はa, bの 2 個ある).

はじめにQ を変数 b 『だけ』の2次関数と考える(すなわち変数a は定数であると 考える).

Q =

n i=1

[(yi−axi)−b]2 =

n i=1

[(yi−axi)22b(yi−axi) +b2]

=

n i=1

(yi−axi)22b

n i=1

(yi−axi) +nb2 ここで平均値

x= 1 n

n i=1

xi, y= 1 n

n i=1

yi を導入する.すると,変数b の2次関数を標準形に変形して,

Q

n = 1

n

n i=1

(yi−axi)22b(y−ax) +b2

= [b(y−ax)]2+ 1 n

n i=1

(yi−axi)2(y−ax)2

がえられる.したがって,Q n

b =y−ax (17.1)

のとき最小となり,最小値は

(★)= 1 n

n i=1

(yi−axi)2(y−ax)2 となる.

つぎに式(★)を以下のように変形する:

(★) = 1 n

n i=1

(yi22axiyi+a2x2i)(y22axy+a2x2)

= a2 (

1 n

n i=1

x2i −x2 )

2a (

1 n

n i=1

xiyi−xy )

+ (

1 n

n i=1

yi2−y2 )

146 第17章 回帰分析

ここで,つぎの『分散』および『共分散』と呼ばれる量を導入する:

s2x = 1 n

n i=1

x2i −x2 = 1 n

n i=1

(xi−x)2, sxy = 1

n

n i=1

xiyi−xy = 1 n

n i=1

(xi−x)(yi−y), s2y = 1

n

n i=1

yi2−y2 = 1 n

n i=1

(yi−y)2 すると式(★)は

(★)=a2s2x2asxy +s2y のように簡潔に書き表すことができる.

これは変数 a の2次関数だから,これを標準形に変形して,

(★)=s2x (

a− sxy s2x

)2

+s2xs2y−s2xy s2x をえる.これより,

a= sxy

s2x (17.2)

のとき最小となり,最小値は

Qmin

n = s2xs2y−s2xy

s2x (17.3)

である.

以上まとめると,

1. まず平均 x, y を計算し,また分散s2x, y22 および共分散sxy を計算する.

2. 回帰直線の傾き a は式 (17.2)により,y 切片 b は式 (17.1)により求める.

17.3 『回帰』の由来

この節では,親の身長と子の身長を例にとって,回帰分析を行ってみよう.これはゴ ルトン『自然遺伝』(1889 年)で扱われた,歴史上の有名な例である.

親の身長を X,子の身長を Y とする.ただし,身長の単位はインチ(1インチ =

約 2.54cm)であり,また女性の身長にはすべて 1.08 をかけてある.さらに,親の身長

が63.5 の列は元のデータでは親の身長が 64.5 未満として集計されたものであり,親の 身長が 73.5 の列は元のデータでは親の身長が 72.5 以上として集計されたものである

(子についても同様).また空欄は度数がゼロであることを示している.

17.3. 『回帰』の由来 147

X

63.5 64.5 65.5 66.5 67.5 68.5 69.5 70.5 71.5 72.5 73.5

61.2 1 1 1 1 1

62.2 1 3 3

63.2 2 4 9 3 5 7 1 1

64.2 4 4 5 5 14 11 16

65.2 1 1 7 2 15 16 4 1 1

66.2 2 5 11 17 36 25 17 1 3

Y 67.2 2 5 11 17 38 31 27 3 4

68.2 1 0 7 14 28 34 20 12 3 1

69.2 1 2 7 13 38 48 33 18 5 2

70.2 5 4 19 21 25 14 10 1

71.2 2 11 18 20 7 4 2

72.2 1 4 4 11 4 9 7 1

73.2 3 4 3 2 2 3

74.2 5 3 2 4

ところが回帰分析を行うためには,データは下のような形式になっていなければなら ない.

X Y 説明

63.5 61.2 (63.5,61.2)の組が 1個だけ ... ...

... ... 68.5 69.2

... ... (68.5,69.2)の組が 48 個並ぶ 68.5 69.2

... ... ... ... 73.5 73.2

... ... (73.5,73.2)の組が 3個並ぶ 73.5 73.2

148 第17章 回帰分析 回帰分析を行った結果,相関係数は0.46であり,また回帰直線はY = 0.645X+ 24.0 であることがわかった.ここで,回帰直線の傾き0.645 が意味するところが重要である.

親の集団の平均身長と子の集団の平均身長がともに 170 cm であるとしよう(データか ら計算される平均身長は170 cm と少し異なるが,このことは以下の説明に対して,何 ら問題を引き起こさない).回帰直線の傾きが 0.645 であることから,もしある親の身 長が集団平均より 10 cm 高いとすると,その親から生まれた子の身長は,平均として 集団平均より6.45 cmだけ高くなる,ことがわかる.逆に,もしある親の身長が集団平

均より 10 cm 低いとすると,その親から生まれた子の身長は,平均として集団平均よ

り6.45 cmだけ低くなる,ことがわかる.このように,子の身長は集団平均に回帰する.

ゴルトンは,彼が発明した方法(回帰分析)を利用して,この遺伝学上の発見をするこ とができた.

ところで,データがクロス集計表で与えられている場合,散布図は約に立たない.こ の場合には,等高線グラフを描くとよい.

問題 平成 21年の家計調査による,年間収入階級別 1 世帯当たり 1 ヶ月間の収入 X と,用途分類別(10項目に大分類)の消費支出額 Y のデータに対して,回帰分析を行 う(ファイルは.”kakei-kadai.xls”,年間収入の単位は万円,消費支出額の単位は円).

(1) 10項目のそれぞれに対する回帰直線 Y =aX+b を求めよ(グラフは描かない).

(2) 収入が増加したときに,支出額の増加が多い順に10 項目を並べよ.

ドキュメント内 i (ページ 150-155)