重回帰分析

第 4 章多変量解析序説

4.3 重回帰分析

ある変量x1, . . . , xp, yのデータ

(x₁₁, . . . , x_p1, y₁), . . . ,(x_1n, . . . , x_pn, y_n)

に対し、このデータが表すyのx₁, . . . , x_pへの従属関係を１次式y=b₀+b₁x₁+

· · ·+bpxpで近似的に表したいとする。このときx1, . . . , xpを説明変量、yを目的変量という。１次式f(x₁, . . . , x_p) =b₀+b₁x₁· · ·+b_px_pは以下の方法（最小２乗法）で決定することができる。

1. 目的変数と説明変数を選択する。

2. 数式のパラメータb0, . . . , bpを決めるために以下の基準を設ける。

S =

∑n i=1

(y_i−f(x_1i, . . . , x_pi))² を最小にする。Sを偏差２乗和という。

3. 上の基準でパラメータb₀, . . . , b_pを求めるには、

∂S

∂bi

= 0 (i= 0, . . . , p) の連立方程式を解く。

ここで注意すべきは、一般に最小２乗法において上の連立方程式の解が存在するとしても、偏微分が0という条件は極値の必要条件に過ぎなく、(b0, . . . , b_p)が上の連立方程式の解であるというだけではこの解におけるSの最小性は保証されないことである。しかし以下に示すようにここでのy=b₀+b₁x₁+· · ·+b_px_p のあてはめに関しては上の方法からSを最小にする解を構成することが可能である。

4.3.1 正規方程式

前節の最小２乗法を実際に遂行してみる。偏差２乗和Sをb0, . . . , bpの関数と考えれば、求める(b₀, . . . , b_p)においてはSは極小値をとるから、求めるb_kの条件は

∂S

∂b_k =

∑n i=1

2(y_i−b₀−b₁x_1i− · · · −b_px_pi)(−x_ki) = 0, k= 0, . . . , p となる。ただし、x0i= 1とする。これを整理すると、

( _n

∑

i=1

xki

) b0+

( _n

∑

i=1

xkix1i

)

b1+· · ·+ ( _n

∑

i=1

xkixpi

) bp=

∑n i=1

xkiyi, k= 0, . . . , p このb0, . . . , bpの連立１次方程式を、正規方程式という。求めるbkはこの方程式を解くことによって得られる。p= 1, p= 2の場合の正規方程式を書き下ろしてみると、

p= 1









nb₀ + (∑_n

i=1

x_i )

b₁ =

∑n i=1

y_i (∑_n

i=1

) b0 +

(∑_n

i=1

xi2

) b1 =

∑n i=1

yixi

ns²_x=∑

x²_i −n¯x², nsxy=∑

xiyi−n¯x¯y であることに注意すれば、

b0 =

∑x²_i∑ yi−∑

∑xiyi

n∑

x²_i −(∑ x_i)²

= n¯y∑

x²_i −n¯x∑

xiyi+n²x¯²y¯−n²x¯²y¯ n²s²_x

= rn²ys¯ ²_x−n²xs¯ xy

n²s²_x

= y¯−x¯s_xy s²_x

b1 =

∑x²_i∑ yi−∑

∑xiyi

n∑

x²_i −(∑ x_i)²

∑(xi−x)(y¯ i−y)¯

∑(xi−x)¯ ²

= rs_y sx

p= 2











nb0 +

(∑_n

i=1

x1i

) b1 +

(∑_n

i=1

x2i

) b2 =

∑n i=1

(∑_n

i=1

x1i

) b0 +

(∑_n

i=1

x²_1i )

b1 + (∑_n

i=1

x1ix2i

) b2 =

∑n i=1

x1iyi

(∑_n

i=1

x_2i )

b₀ + (∑_n

i=1

x_2ix_1i )

b₁ +

(∑_n

i=1

x_2i² )

b₂ =

∑n i=1

x_2iy_i こうして求めた一次式y=f(x1, . . . , xp) =b0+b1x1+· · ·+bpxpを重回帰式という。また、bkを回帰係数という。

4.3.2 幾何学的考察による正規方程式の解の存在

正規方程式の解は一意でないかもしれないが常に存在する。以下にこれを示す。データ行列Xを

X =







1 x₁₁ · · · x_p1 1 x12 · · · xp2

... ... ... 1 x1n · · · xpn





, y=





 y₁ y2

... yn





, b=





 b₀ b1

... bp







とおくと、一般次の正規方程式の係数行列は、

X^′X =







n ∑

x1i

∑x2i · · · ∑ xpi

∑x_1i ∑

x_1i² ∑

x_1ix_2i · · · ∑ x_1ix_pi

∑x2i

∑x2ix1i

∑x2i2 ...

... ... . ..

∑x_pi ∑

x_pix_1i · · · ∑ x_pi²







で、正規方程式はX^′Xb=X^′yと書ける。ここに^′は行列の転置を表す。

Xの列が張る線形空間をV ={Xb : b ∈R^p+1}とおく。X に列に関する行列の基本操作を施すことで、V の基底を得ることができ、さらにこれをグラムシュミットの直交化法で正規直交基底にすることができる。よってu₀, . . . , u_rを V の正規直交基底とする(V の正規直交基底は実対称行列X^′Xの固有ベクトルからも構成できるが省略する-「多変量解析の徹底研究」現代数学社を参照)。

目的変量ベクトルyのV への射影とは、y−uがすべてのv∈V と直交するようなu∈V のこととする。このようなuはu=

∑r i=0

(y, ui)uiとして構成できる。一般に

|v+w|² = (v+w, v+w)

= |v|²+ 2(v, w) +|w|² であるから、v∈V に対しv−uとy−uが直交することより、

|y−v|²=|v−u|²+|y−u|²

ここでv=Xb, u=Xˆbと書けば、|y−v|²=S(b), |y−u|²=S(ˆb)である。このことより、ˆbがSの最小値を与えることがわかる。

また、xj, j= 0, . . . , pをXの列ベクトルとすると、

(y−Xˆb, v) = 0, ∀v∈V

⇐⇒ (y−Xˆb, x_j), ∀j

⇐⇒ X^′(y−Xˆb) = 0

であるから、XˆbがyのV への射影であることはˆbが正規方程式を満たすことと同値である。

よって、正規方程式には解が存在しSの最小値を与えることがわかった。

X^′Xの一般化逆行列(X^′X)⁻とはX^′X(X^′X)⁻X^′X =X^′X なるもののことである。これは実対称行列X^′Xの固有値から構成できる。正規方程式の解は (X^′X)⁻X^′yと表すことができる(「多変量解析の徹底研究」現代数学社参照)。

また正規方程式の解が、Sの最小値を与えることは次のように代数的に示すことができる。

解をˆb=

(ˆb0,· · ·,ˆbp

)

として、b= (b0,· · · , bp)を任意の組とすると、

S(b) = (y−Xb)^′(y−Xb)

= {

y−Xˆb+X(ˆb−b) }_′{

y−Xˆb+X(ˆb−b) }

(4.1)

= (y−Xˆb)^′(y−Xˆb) + (Xb−Xˆb)^′(Xb−Xˆb) (4.2)

≥ S(ˆb)

ここで（１）式から（２）式の導出においては、(Xˆb−Xb)^′(y−Xˆb)、(y− Xˆb)^′(Xˆb−Xb)の交差積項はともに等しく、X^′(y−Xˆb) =0なる関係を使えば０となることを使う。

4.3.3 重回帰式に関する推測

最小２乗解の推定値としての性質

最小２乗解に関する統計的推測をするために問題を以下のようにとらえる(仮定を設ける)。

1. 目的変量yと説明変量x1, . . . , xpの間には

y=β0+β1x1+· · ·+βpxp

の関係を想定したいが、実際にはxkたちの値によってyの値は確定しない。

2. そこで目的変量yと説明変量x1, . . . , xpの間には、説明変量の値の組(x1i, . . . , xpi) を与える実体²ごとに

yi=β0+β1x1i+· · ·+βpxpi+εi

の関係があるとする。ε_iはi番目の実体についての1の関係からの’ずれ’(誤差)である。

2重回帰分析の実際などあとに出てくる例を見れば、ここでいう実体が何に当たるかは明白であろう。

3. ε_iは各々独立に正規分布N(0, σ²)に従うものとする(σは既知とはかぎらない)。

この仮定のもとでは、各yiはεiを通して確率的に決まるので、それらから計算される重回帰式

y=b0+b1x1+· · ·+bpxp

における回帰係数b_kは確率変数となる。

bkをβkの最小２乗推定値という。

E(bk) =βk

が成立する。すなわち最小２乗推定値b_kはβ_kの不偏推定値である。

同じ一次式でも変量の一次式でなくパラメータb0, . . . , bpの一次式を考える：

l₀b₀+· · ·+l_pb_p

ここでl0, . . . , lpは1, x, . . . , x^pでも1, x1, . . . , xpでもよい。こういったモデル(現象を表す数式)を線形モデルという。

正規方程式が解を持ち解がSの最小値を与えることはl₀, . . . , l_pが1, x, . . . , x^p の場合も重回帰とほぼ同様に証明できる。

線形モデルのうち正規方程式の解、最小２乗解には次の統計的性質がある。

定理 4.3.1 (Gauss-Markovの定理の簡単な場合). l1b1+· · ·+lpbpの平均値が

yに等しいもののうちで、分散が最小になるのは最小２乗解l1ˆb1+· · ·+lpˆbpである。

重回帰式の有意性の検証(1) - 分散分析による検定

ここで扱うF分布による方法は、回帰係数のうち何個かが0であるという帰無仮説を検定するものである。したがって次節のt検定による単一の回帰係数が 0であるという帰無仮説を検定する方法を代替できるものである。

ここでは、単純に回帰係数全部が0という帰無仮説：

H0 : β1=· · ·=βp= 0

の検定を考える。もしこの仮定が真なら説明変量はすべて目的変量に影響を与えないことになる。すなわち、

重回帰式が(全体として)有意であるかどうかを検定することになる。

Se=

∑n i=1

(yi−yˆi)², SR=

∑n i=1

(ˆyi−y)¯ˆ² とおく。全変動を

S_yy =

∑n i=1

(y_i−y)¯ ² とおくと、

Se=Syy−SR

となっている。

一般に(帰無仮説H0がなくとも)、Se/σ²はN(0,1)に従う互いに独立なνe個の確率変数の2乗和として表すことができることが知られている(「自然科学の統計学」p.56)。ここにν_e =n−rank(X)(Xはn×(p+ 1)の説明変量のデータと１からなるいわゆる計画行列)であるが、ここでは計画行列の正則性を仮定して、

νe=n−p−1 としておく。

よってχ²に関する前述の定理よりS_e/σ²は自由度n−p−1のχ²分布に従うことがわかる。

一方、SR/σ²は帰無仮説H₀の下でN(0,1)に従う互いに独立なp個の確率変数の2乗和として表すことができることが知られている(「自然科学の統計学」

p.56、「多変量解析の徹底研究」など)。

よってχ²分布に関する前述の定理よりSR/σ²は自由度pのχ²分布に従うことがわかる。

したがって、F分布に関する前述の定理より、帰無仮説H₀の下では、

F =

S_R p S_e n−p−1

は、自由度(p, n−p−1)のF分布に従う。

これにより、帰無仮説の検定ができる。Fは推定による変動が推定誤差に相対的にどのぐらい大きいかの指標であるから大きい程推定式は有効であることにな

る。いいかえると、全変動が推定による変動SRで多く説明できる程推定式は有効であるから、

F = 1/

(S_yy/(n−p−1)

SR/p − p

n−p−1 )

が大きい程推定式は有効である。よってF分布のα点をfν_A,ν_e(α)とすると、

F > fν_A,ν_e(α) のときH₀を棄却する。

実は、Ve=Se/(n−p−1)は一般に(帰無仮説H0がなくとも)σ²の不偏推定値であり、VR = S_R/pも帰無仮説の下でならσ²の不偏推定値であるので、上のFは不偏分散比であるとみなすことができる。そこでこの検定を分散分析という。

重回帰式の有意性の検証(2) - 重相関係数による方法

次の式は、回帰式による推定誤差（２項目の分子）がデータの全変動（２項目の分母）に占める割合いの低さを表すものである。

R²= 1−

∑n i=1

(yi−b0−b1x1− · · · −bpxp)²

∑n i=1

(yi−y)¯ ²

すでに述べたように、これはR２乗値（重決定係数）と呼ばれ、その平方根は重相関係数と呼ばれる。重相関係数は、目的変量y のデータ値yi と推定値 b₀+b₁x_1i+. . .+b_px_piの相関係数に等しい。

さらにつぎがいえる。

定理4.3.2. 目的変量yと最大の相関係数を持つ線形モデルb₀+b₁l₁+· · ·+b_pl_p は重回帰式であり、そのときの最大相関係数は重相関係数である。(「多変量解析論」北川敏男著、共立出版、p.16参照)

分散分析によるF検定を行って有意であるという結論を得ても、これは「重回帰式は何らの役にも立たない」という帰無仮説が棄却されたということであるから、「何らの役にも立たない」とはいえない、という意味にすぎなく、積極的に役に立つということではない。普通F値が相当に大きくなければ実際に用いるには有効でないことが多い。

重相関係数は、分散分析による有意の結論を補助するために使うことができる。すなわち、重相関係数が十分大きければ、回帰式は有効、そうでなければあまり有効ではないと判断するのである。

回帰係数の区間推定と有意性の検定定理 4.3.3.

tk= bk−βk

√a^kkV_e, k= 1, . . . , p

t0= vuut b0−β0

(

1 n +

∑p j=1

∑p k=1

¯ xjx¯ka^jk

) Ve

なる統計量は、自由度n−p−1のt分布に従う。ここに、Veは残差の不偏分散、

すなわち

Ve=

∑n i=1

(yi−f(x1, . . . , xp))² n−p−1 であり、またa^jkは、偏差積和行列

A= (ajk) = ( _n

∑

i=1

(xji−x¯j)(xki−¯xk) )

の逆行列の(j, k)成分である。

(証明の概略) (「自然科学の統計学」p.60、「多変量解析の徹底研究」など)

これを利用して、回帰係数の区間推定と有意性(βk= 0)の検定ができる。まず、

P(t_k> t_n₋_p₋₁(α)) =P(t_k <−t_n₋_p₋₁(α)) = α 2 となるtn−p−1(α)を求めておく。

すると、信頼係数1−αのβ_kの信頼区間は [

bk−√

a^kkVe, bk+√ a^kkVe

]

, k= 1, . . . , p



b0− vu uu t



1 n+

∑p j=1

∑p k=1

¯ xjx¯ka^jk



Ve, b0+ vu uu t



1 n+

∑p j=1

∑p k=1

¯ xjx¯ka^jk



Ve



, k= 0

である。

帰無仮説H₀:β_k = 0の検定を考える。この仮説は説明変量x_kが目的変量の変化に全く影響しないことを意味するので、これはxkまたはbkの有意性を検定することになる。

この仮説のものでは、k= 1, . . . , p、k= 0に応じて、

t_k= bk

√a^kkVe

, k= 1, . . . , p

t0= b0

vu ut (

1 n +

∑p j=1

∑p k=1

¯ x_jx¯_ka^jk

) V_e

であり、bkが0から遠い程絶対値の大きな値となる。よって、

|t_k|> t_n₋_p₋₁(α) であれば、危険率αでH0を棄却できる。

ドキュメント内 x y 1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... x ( ) 2 (ページ 88-97)

第 4 章 多変量解析序説

4.3 重回帰分析

4.3.1 正規方程式

4.3.2 幾何学的考察による正規方程式の解の存在

4.3.3 重回帰式に関する推測

第 4 章多変量解析序説