単回帰分析
1つの変数xから,1つの変数yを推定する.
x:説明変数
例) 勤続年数と年収の関係を分析する.
y
=
ax
+
b
直線で関係式を表現する.
y:目的変数
y = 22.587x + 270.88
R2
= 0.9794
800
900
1000
y
ax
+
b
勤続年数, x
年収, y
2
325
500
600
700
800
年
収,
y
2
325
4
350
6
400
8
425
100
200
300
400
年
8
425
10
475
12
575
17
700
0
100
0 10 20 30
勤続年数, x
20
750
23
775
26
825
1
単回帰分析
-最小2乗法による-
推定の誤差の2乗和を考え,これを最小に
するようにa,bを決定する. 900
1000
a
( , )
x y
i i
S a b
y
i ax
i b
i
n
( , )
=
−
(
+
)
→
min.
=
∑
2
1
500
600
700
800
収, y
観測値 推定値
y
i −
(
ax
i +
b
)
a
( ,
x ax
i i +
b
)
200
300
400
500
年
a, b:回帰パラメータ
条件:
観測値 推定値
b
0
100
0 10 20 30
勤続年数, x
条件:
S(a,b)をa, bでそれぞれ微分したものが
0でなければならない.
S a b
( , )
S a b
( , )
S(a,b)はa, bに関する
2次関数であり,すり
b
2次関数であり,すり
ばち状となる.
2
a
a
b
回帰関係の計算手順
推定の誤差の2乗和を考え,これを最小に
するようにa,bを決定する.
(4),(5)を整理すると,
a
∑
x
2
+
b
∑
x
∑
x y
( )
6
S a b
y
i ax
i b
i
n
( , )
=
−
(
+
)
( )
=
∑
2
1
1
"
a
x
i b
x
x y
i
i
i
i i
i
6
∑
+
∑
=
∑
"( )
)
7
(
"
∑
∑
+
=
i
i
i
i nb
y
x
a
S(a,b)をa, bでそれぞれ微分したものが
0でなければならない.
これは,a,bに関する線形方程式になっている.
これを正規方程式(normal equations)という.
∂
=
−
+
−
=
∑
S a b
y
ax
b
x
( , )
(
) (
)
( )
2
0
"
2
i
i
マトリクスで書けば,
∂
a
=
∑
i y
ax
+
b
x
=
i (
i ) (
i)
( )
2
0
2
∂
∂
=
∑
−
+
− =
S a b
b
y
i ax
i b
( , )
(
) (
)
( )
2
1
0
"
3
(
8
)
2
"
⎥
⎥
⎤
⎢
⎢
⎡
=
⎥
⎤
⎢
⎡
⎥
⎥
⎤
⎢
⎢
⎡
∑
∑
∑
∑
∑
i
i
i
i
i
i
i x
a
x
y
x
(2),(3)は以下のように書き直せる.
a bは以下の式により計算できる
∂
b
∑
i y
i (
i ) (
)
( )
(
8
)
⎥
⎥
⎦
⎢
⎢
⎣
⎥
⎦
⎢
⎣
⎥
⎥
⎦
⎢
⎢
⎣
∑
∑
i
i
i
i n
b
y
x
a,bは以下の式により計算できる.
y
i ax
i b x
i
i
−
+
=
∑
(
)
0
"
( )
4
b
∑
(
)
0
( )
5
)
9
(
1
2
"
⎥
⎥
⎤
⎢
⎢
⎡
⎥
⎥
⎤
⎢
⎢
⎡
=
⎥
⎦
⎤
⎢
⎣
⎡
∑
∑
∑
∑
∑
−
i
i
i
i
i
i
i
y
y
x
n
x
x
x
b
a
3
y
i ax
i b
i
−
+
=
∑
(
)
0
"
( )
5
⎥
⎥
⎦
⎢
⎢
⎣
⎥
⎥
⎦
⎢
⎢
⎣
⎥
⎦
⎢
⎣
∑
∑
i
i
i
i n
y
x
b
重回帰分析
2変数x,zから,1つの変数yを推定する.
y
( , ,
x z y
i i i)
サンプル
x
z
y
xz =
ax
+
bz
+ "( )
c
1
1変数の場合と同様,推定の誤差の2乗を
評価して これを最小とするように 回帰
整理すると
評価して,これを最小とするように,回帰
係数 a, b, cを決定する. 整理すると
?
)
,
,
(
a
b
c
=
S
関数S(a,b,c)を極小とするa,b,cを求めるために,
各変数による偏微分をとり,0とおいて解く.
マトリクスで書けば
4
これを解いて回帰係数を得る.
重回帰分析
-高次項を用いた回帰-課題:1変数の高次式から,1つの変数yを推定する.
y
y
=
ax
2
+
bx
+
c
y
x
回帰係数を算出する計算式を導きなさい.
5
-決定係数と相関係数-
得られた標本について,回帰式(モデル式)
によるあてはまりの程度を数値化する.
r
S
S
S
S
S
S
S
r
y
y y x
y
y x
y
2
2
2
2 2
2
2
2
1
13
=
=
−
⋅
= −
⋅
"(
)
S
y y
i y
n
2
1
2
10
=
∑
(
−
)
"
(
)
目的変数yの分散は以下の式で表される.
y y y
モデル式による予測が確からしいほど,S
r2
は
S
y2
に近づく.すなわち,r2
は1に近づく.
r2
は決定係数(coefficient of determination)と
一方,モデル式によって推定されたyの
値の 実測値からのばらつきを 以下の
S
n
y
y
y i
i 1
0
=
∑
(
)
(
)
r は決定係数(coefficient of determination)と
呼ばれ,以下の範囲をとる.
0
≤
r
2
≤
1
値の,実測値からのばらつきを,以下の
式によって評価する.
S
y x y
i ax
i b
n
⋅
=
∑
−
+
2
1
2
11
[
(
)]
"
( )
r
= ±
r
2
を相関係数と呼ぶ の符号は回帰係数
また
− ≤ ≤
1
r
1
(もし,モデル式による予測が完璧ならば,
このばらつきは0になる.)
n
y
y x i i
i=
∑
1
[
(
)]
( )
y
を相関係数と呼ぶ.rの符号は回帰係数
aの符号に合わせる.
S
r2
≡
S
y2
−
S
y x2
⋅ "(
12
)
推定で残る
誤差の分布
yの分布
S
y2
S
y x2
⋅
いま,
6
x
誤差の分布
y
という測度を考え,(10)式の分散との
比をとる.
回帰式の相関係数と2変数の相関係数との関係(補足資料)
回帰の誤差は,以下のように書き直せる.
したがって
2
2
1
(
)
S
=
∑
⎡
⎣
y
ax
+
b
⎤
⎦
S
S
S
S S
r
y x
y
xy
x y
⋅
= −
= −
2
2
2
2 2
2
1
1
2
(
)
1
(
)
(
)
y x i i
i
i i
S
y
ax
b
n
y
y
y
ax
b
n
⋅
=
⎡
⎣
−
+
⎤
⎦
⎡
⎤
=
⎣
−
+ −
+
⎦
∑
∑
最適化されたa,b
に対して以下の
関係が成り立つ
y
=
ax
+
b
すなわち,
2
1
(
)
(
)
i
i i
i
n
y
y
ax
b
ax
b
n
⎣
⎦
⎡
⎤
=
∑
⎣
−
+
+ −
+
⎦
S
xy =
1
∑
(
x
i −
x y
)(
i −
y
)
r
S
S S
xy
x y
2
2
2 2
=
2
2 2 2
1
(
)
(
)
2
i i
i
y
y
a x
x
n
S
aS
a S
⎡
⎤
=
⎣
−
−
−
⎦
=
−
+
∑
S
1
(
) (
)
a
S
S
xy
x
=
2 これは,以前に定義した2変数間
の相関係数,
n
y
y
xy i i
i
∑
(
)(
)
2 2
2 2
2 4
2
y xy x
xy xy
y x
x x
S
S
S
S
S
S
=
−
+
r
n
x
x
S
y
y
S
S
S S
i
x
i
i
y
xy
x y
=
1
∑
(
−
) (
−
)
=
と同等である
2 2
2 2
2
1
2 2
x x
xy xy
y y
x x y
S
S
S
S
S
S S
⎛
⎞
⎜
⎟
=
−
=
−
⎜
⎟
⎝
⎠
7
と同等である.
y
⎝
⎠
重回帰分析
-重決定係数,重相関係数-2変数の場合も,単回帰と同様に,推定値の,
実測値からの分散を考えることができる. 以下のように,2つの分散の比を考える.
y
xz =
ax
+
bz
+ "( )
c
1
R
S
S
S
S
S
S
S
r
y
y y xz
y
y xz
y
2
2
2
2 2
2
2
2
1
=
=
−
⋅
= −
⋅
予測式,
を用いてyを推定したときの 誤差の分散は
S
n
y
ax
bz
c
y xz i i i
i
⋅
=
∑
−
+
+
2
1
2
[
(
)]
を用いてyを推定したときの,誤差の分散は
R2
は,yの分散のうちxとzで説明される
部分の割合を示している.
R
2 :重決定係数
i
いま,以下に示す2つの分散の差を考える.
R
2 :重決定係数
:重相関係数
R
=
R
2
0
≤ ≤
R
1
S
r2
=
S
y2
−
S
y xz2⋅
ただし,
y
2変数以上の説明変数に
対して,目的変数との
方向の一致,不一致を
言えないため.
S
n
y
y
y i
i
n
2 2
1
1
10
=
−
=
∑
(
)
"
(
)
z
8
である.
x
z