多変量の確率分布は複数の確率変数の分布である.多変量の確率変数の実現値はベクトルであら わすことができる.その分布は多変量確率密度関数によって規定される.
定義8.6(多変量確率密度関数). d変量の確率密度関数p(x)は次の3つの性質をもつ関数である.
x∈Rddxp(x)≥0,
∀x∈Rd: p(x)≥0, 積分可能なあらゆる領域Rに対して:
x∈Rdxp(x) = Prob(x∈ R)
多変量確率分布の例として,多変量正規分布を紹介する.
定義8.7 (多変量正規分布). d次元正規分布N(μ,Σ)は,確率密度関数が
∀x∈Rd: N(x|μ,Σ) = 1 (2π)d/2
det(Σ)exp
−1
2(x−μ)Σ−1(x−μ)
で定義される確率分布である.ただし ,この確率分布は2つのパラメータμ∈Rd,Σ∈Sd++を もっており,それぞれ平均,分散共分散行列と呼ばれる.
9 線形制約の検定
これまで,重回帰モデル全体の検定(節5参照)と各偏回帰変数の検定(節 6参照)の2つの検定 方法を紹介してきた.また,節7では,母偏回帰係数の区間推定法も紹介した.それぞれは,命
題5.2,命題 6.1,および命題7.1に基づいていた.この3つの命題は,統一的な理論で示すこと
ができる.本節では,統一的な理論を示す準備として,線形制約で与えられる帰無仮説から得ら れるある統計値がF 分布に従う定理を紹介する.
重回帰モデルの確率モデル(定義5.1)を考える.フルラン クの行列H ∈ Rp×r とベクトル ξ0∈Rrが所与として,偏回帰係数β∈Rpが次の制約を満たすか検定しよう:
H0: Hβ=ξ0
重回帰モデル全体の検定で用いる帰無仮説(30)も偏回帰係数 βi(i= 1, . . . , p−1)の検定で用い る帰無仮説(31)も線形制約による仮設である:
例 9.1. 重回帰モデル全体の検定で用いる帰無仮説(30)は H=
Ip−1
0p−1
, ξ0=0p−1 とおいた場合に等しい.
例9.2. 偏回帰係数βi(i= 1, . . . , p−1)の検定で用いる帰無仮説(31)はHを第i要素のみ1で ほかの要素が0の p次元単位ベクトルとし ,ξ0をスカラー 0とおいた場合に等しい.
例 9.3. 偏回帰係数 βi(i = 1, . . . , p−1) の区間推定で用いる βi =βi∗ の仮説は,H を第 i 要 素のみ1 でほかの要素が0の p次元単位ベクトルとし ,ξ0 をスカラー βi∗ とおいた場合に等し い.
線形制約Hβ=ξ0を満たす偏回帰係数βの集合を
H(H,ξ0)≡ {β∈Rd|Hβ=ξ0} と書くことにする.
残差の変動平方和RSSは
RSS = min
β∈Rdy−Xβ2
とあらわすことができる.偏回帰係数βに線形制約Hβ=ξ0を課した上での最小二乗誤差を RSS0= min
β∈H(H,ξ0)y−Xβ2 (40)
と書くことにする.この2つの統計量,RSSおよびRSS0を使った次の命題は,重回帰分析に関 わる検定の根幹をなしている.
命題9.1. 統計量
W0=(RSS0−RSS)/r RSS/(n−p) は,自由度(r, n−p)のF分布F[r, n−p]に従う.
証明は節9.6に与える.重回帰モデルの検定(節5参照)と各偏回帰変数の検定(節6参照)の 2つの検定方法で用いた命題 5.2および命題 6.1は,この命題9.1の系になっている.また,区 間推定で用いる命題7.1も命題 9.1の系になっている.これらを示す前に,線形制約を課した場 合の最小二乗推定量を次節で与えておこう.
9.1 線形制約上での偏回帰係数の最小二乗推定量
線形制約付きで偏回帰係数を求めることは,次の最適化問題を解くことに他ならない:
min y−XβR2, wrt βR∈Rp, subj to HβR=ξ0
(41)
その最適解は,次の命題で与えられる.
命題9.2. 式 (41)で与えられる最適化問題の解βˆRは βˆR= ˆβ−
XX−1
HD−1
Hβˆ+ξ0
(42) で与えられる.ただし ,Dは
D≡H
XX−1
H (43)
とおいた.
証明は節9.2.
命題9.2で登場したr×rの対称行列Dを使うと,RSS0 と RSSの差は RSS0−RSS =
Hβˆ−ξ0 D−1
Hβˆ−ξ0
(44) であらわすことができる(証明は節9.3).ただし,βˆは,制約がなかった場合の偏回帰係数の最小 二乗推定量を表す(命題3.2参照.).よって,命題9.2は,次の命題で書き換えることができる.
命題9.3. 統計量
W0=
Hβˆ−ξ0
D−1
Hβˆ−ξ0
/r VR
は,自由度(r, n−p)のF分布F[r, n−p]に従う.
9.2 命題 9.2 の証明
ラグランジェ未定乗数法を使って最適解を求めよう.ラグランジェ未定乗数法とは,制約付き最 適化問題を解くための算法の一つである.一般的なやり方はここではふれない.この最適値βˆR が最適化問題
βminR∈Rpmax
λ∈R2y−XβR2−2λ
HβR−ξ0
(45) の解である.本講義ではその根拠までは深追いしないので,証明を知りたい方は文献 [1]を参照 されたい.式(45)の目的関数の部分
L(βR,λ)≡ y−XβR2−2λ
HβR−ξ0
はラグランジェ関数と呼ばれる.ラグランジェ乗数法は,この事実を利用して,次のようにβˆR を求める:
1. ステップ(1): ラグランジェ関数L(βR,λ)を最小化するβRをλであらわす.
2. ステップ(2): これを制約式に代入して,λを求める.
3. ステップ(3): 最初のステップで求めたβRの式に,λの式を代入する.
ステップ (1) ラグランジェ関数L(βR,λ)を最小化するβRをλであらわす.ラグランジェ関数 L(βR,λ)を最小化するβRは
∂L(βR,λ)
∂βR =0p
とおいて求める.すると,
∂L(βR,λ)
∂βR = 2X(XβR−y) + 2Hλ=0p を得,これより,
βR=
XX−1
Xy−Hλ
を得る.制約なしの場合の偏回帰係数の最小二乗推定量βˆは,命題3.2より,
βˆ=
XX−1
Xy であらわされることを使うと,
βR= ˆβ−
XX−1
Hλ (46)
を得る.
ステップ (2) 式(46)を制約式に代入する:
H
XX−1
Xy−Hλ
=ξ0
これを λについて整理すると λ=
H
XX−1
H−1 H
XX−1
Xy+ξ0
=D−1
Hβˆ+ξ0 を得る.
ステップ (3) ステップ(2)の結果を式46に代入すると,
βR= ˆβ−
XX−1
HD−1
Hβˆ+ξ0 を得る.
9.3 等式 (44) の証明
式(42)の第2項を
βˆC≡
XX−1
HD−1
Hβˆ−ξ0
とおく.すると,
RSS0=y−XβˆR2
=y−X βˆ−βˆC
2
=e+XβˆC2
=e2+ 2 ˆβCXe+XβˆC2 命題3.5より第2項は 0である:
2 ˆβCXe= 2 ˆβC0p= 0. 第3項は
XβˆC2= ˆβCXXβˆC
=
Hβˆ−ξ0
D−1H
XX−1
XX
XX−1
HD−1
Hβˆ−ξ0
=
Hβˆ−ξ0
D−1H
XX−1
HD−1
Hβˆ−ξ0
=
Hβˆ−ξ0
D−1DD−1
Hβˆ−ξ0
=
Hβˆ−ξ0
D−1
Hβˆ−ξ0
となる.よって,
RSS0−RSS =e2+
Hβˆ−ξ0 D−1
Hβˆ−ξ0
− e2
=
Hβˆ−ξ0
D−1
Hβˆ−ξ0
を得る.
9.4 命題 5.2 の証明
例9.1より,命題9.1における帰無仮説(30)は H=
Ip−1
0p−1
, ξ0=0p−1
とおいた場合に等しいことを示した.よって
r=p−1 である.
命題9.1におけるW0は命題5.2における F0= VE
VR = ESS/(p−1)
RSS/(n−p) = ESS/r
RSS/(n−p) (47)
まず,式(23)より,
RSS = n
i=1
e2i.
帰無仮説(30)のもとでも残差平方和は
RSS0= min
βp
n i=1
(yi−βp)2
とあらわすことができる.
n i=1
(yi−βp)2 が最小化されるのはβp= ˆy のとき.だから,
RSS0= min
βp
n i=1
(yi−y¯)2
となり,これは TSSに他ならない.つまり,
RSS0= TSS である.従って,
W0=(RSS0−RSS)/r RSS/(n−p)
=(TSS−RSS)/r RSS/(n−p)
= ESS/r RSS/(n−p) を得る.これと式(47)より,
W0=F0
となり,題意を得る.
9.5 命題 6.1 の証明
すでに,命題6.1は命題9.3に帰着されることを示した.さらに,各偏回帰係数の検定で用いる帰 無仮説(31)も線形制約のひとつであることを例9.2で示した.ここでは,一般性を失わず,β1= 0 を検定する場合を考える.このとき,r= 1すなわち,H はp次元ベクトルになり,ξ0 はスカ ラーとなるため,ξ0 と書くことにする:
H = 1
0p−1
, ξ0= 0. 式(32)で定義したAを使うと,
D=HA−1H 1, 0p−1
⎡
⎢⎣
A1,1 · · · A1,p ... . .. ... Ap,1 · · · Ap,p
⎤
⎥⎦ 1
0p−1
=A1,1
とあらわされる.また,
Hβˆ=
1, 0p−1βˆ= ˆβ1
である.よって,命題 9.3にある統計量W0は
W0=
Hβˆ−ξ0
D−1
Hβˆ−ξ0
/r VR
=
βˆ1−0 A1,1−1 βˆ1−0
/1 VR
= βˆi2 Ai,iVR
となり,命題6.1は示された.
9.6 命題 9.1 を証明するための指針
節9.1や節9.6において,命題 9.1は命題9.3と同値であることを示した.本節では命題 9.1の 証明を与えるために,命題9.3を示す.
命題9.4. スカラーUDを
UD≡
Hβˆ−ξ0
D−1
Hβˆ−ξ0
と定義する.統計量
UD
σ2 は自由度rのカイ二乗分布に従う.
命題9.5. 統計量(n−p)σ−2VRは自由度(n−p)のカイ二乗分布に従う.
命題 9.6. 統計量VRの分布は最小二乗推定量βˆと統計的独立である.よって,VRはU とも統 計的独立である.
これらが示されれば,命題8.1より,命題9.3が成り立つことが分かる.以降の証明は文献[5]
に従っている.命題9.6の証明は節 9.7に与える.
9.7 命題 9.6 の証明
命題9.6の証明に次の2つの命題を利用する.
命題9.7. n×n行列
P¯X ≡
I−X
XX−1 X を定義する.このとき,
e2=P¯X が成り立つ.
命題9.8. 次式を満たす冪等行列A∈Sn,とベクトルb∈Rnを考える:
Ab=0n
xを N(0n,In)に従うn変量確率変数とする.このとき,
xAx⊥⊥bx.
証明は節9.9.命題9.8に冪等行列という用語が含まれている.冪等行列とは次のように定義 される行列である.
定義9.1 (冪等行列). n×nの対称行列Aが A2=A を満たす時,Aは冪等であるという.
では,命題9.6の証明を始める.
重回帰モデルの確率モデルでは,確率変数は N(0n, σ2In)に従うと仮定していた(定義5.1 参照).よって,
σ−1∼ N(0n,In)
がいえる.これを利用して,命題 9.8の条件を満たすσ−1 の2次形式と内積を導こう.2次形 式のほうは,命題9.7より,
(n−p)σ−2VR=σ−2RSS =σ−2e2=
σ−1P¯X σ−1 を考える.内積のほうを導出するために,
BX≡X
XX−1
を定義し ,その列ベクトルを
BX =
b(X)1 , . . . ,b(X)p
のようにおく.そのうえで,
σ−1
βˆ−β
=σ−1
XX−1
Xy−β
=σ−1
XX−1
X(Xβ+)−β
=σ−1
XX−1
XXβ+
XX−1
X−β
=σ−1 β+
XX−1
X−β
=
XX−1 X
σ−1
=BX σ−1 を考える.
P¯XBX= ¯PXX
XX−1
=On×p
を満たしているので,
∀j= 1, . . . , p: P¯Xb(X)j = 0 を得る.これより,命題9.8より,∀j に対して,
σ−1P¯X σ−1
⊥⊥
b(X)j σ−1
が成り立つ.よって,βˆと VRは統計的独立であることが示された.
9.8 命題 9.7 の証明
等式
P¯XX =
I−X
XX−1
X X
=X−X
XX−1 XX
=X−X=On×p
が成り立つことと,命題3.5を使うと,
e2=
y−Xβˆ e
=
ye−βˆXe
=ye
=y
y−Xβˆ
=y
y−X
XX−1 Xy
=y
I−X
XX−1
X y
=yP¯Xy
=yP¯X(Xβ+)
=yP¯X
=
βX+P¯X
=P¯X が示される.
9.9 命題 9.8 の証明
命題9.6の証明に次の命題を利用する.
命題9.9. x∼ N(0n,In)とし,A1,A2∈Sn をA1A2=On なる冪等行列(定義9.1参照)とす る.このとき,2つの2次形式xA1xおよびxA2xは統計的に独立である.
証明は節9.10.
節9.8の証明を開始する.b=0nのときは明らか.よって,以降b=0nの場合を示す.
b ≡ b b とおく.(b)(b)は冪等行列であり,かつ,
A(b)(b)=Abb/b2=On
であるので,命題9.9より,xAxと(b)x2=x(b)(b)xが統計的独立.よって,xAx と bxは統計的独立である.
9.10 命題 9.9 の証明
命題9.9の証明には,コックラン(Cochran)の定理を利用する.コックランの定理は次で与え られる.
命題 9.10. x∼ N(0n,In)とする.次の等式を満たすようなk 個の対称行列 A1, . . . ,Ak ∈Sn を考える:
x2=xA1x+· · ·+xAkx さらに
n= rank(A1) +· · ·+ rank(Ak)
とする.このとき,k個の2次形式xA1x, . . . ,xAkxは,統計的に互いに独立であり,それ ぞれ自由度rank(Ai)のカイ二乗分布に従う.
コックランの定理の証明はほかの文献を参照されたい.
さらに,冪等行列(定義9.1参照)の次の性質を利用する.
命題9.11. A∈Sn を冪等行列とすると rank(A) = tr(A).
命題9.9の証明を始める.行列I−A1−A2は冪等である:
∵ (I−A1−A2)2=I−2A1−2A2+A21+A22+ 2A1A2
=I−2A1−2A2+A1+A2
=I−A1−A2. さらに,命題9.11より,
rank(A1) + rank(A2) + rank(I−A1−A2) = tr(A1) + tr(A2) + tr(I−A1−A2) = tr(I) =n となる.よって,コックランの定理よりxA1x,xA2x,x(I−A1−A2)xは互いに統計的 に独立である.
9.11 正規変量の2次形式の性質
命題9.4および命題9.5を証明するために必要な命題を文献[5]から2つ抜粋する.
命題9.12. x∼ N(0n,In)とする.任意の冪等行列A∈Snに対して,
xAx∼χ2[rank(A)]
が成り立つ.
命題9.13. x∼ N(0n,Σn)とする.このとき,
xΣ−1x∼χ2[n] が成り立つ.
9.12 命題 9.4 の証明
次の命題を用いる:
命題9.14. n変量確率変数xが正規分布N(μ,Σ)に従っているとする.このとき,
Cx∼ N(Cμ,CΣC) が成り立つ.ただし ,C ∈Rp×n,rank(C) =pとする.
統計量
z= 1 σ
Hβˆ−0
を考える.この統計量は
z=σ−1
H(XX)−1Xy−0
=σ−1
H(XX)−1X(Xβ+)−0
=σ−1
H(XX)−1X+Hβ−0
=σ−1
H(XX)−1X+0−0
=σ−1
H(XX)−1X とあらわせる.定義5.1より,
σ−1∼ N(0n, σ2In) であった.よって,命題9.14より,統計量zは,平均
vH(XX)−1X0n=0r,
分散共分散行列
σ−1H(XX)−1X (σ2I)
σ−1X(XX)−1H
=H(XX)−1H=D
なる正規分布N(0r,D)に従うことが分かる.ただし ,Dは,命題 9.2で定義したようにD = H
XX−1
H なる行列である.すると,
UD
σ2 =σ−2
Hβˆ−ξ0
D−1
Hβˆ−ξ0
=zD−1z
は,命題9.13より,自由度rのカイ二乗分布に従う.
9.13 命題 9.5 の証明
命題9.7より,
(n−p)σ−2VR=σ−2RSS =σ−2e2=
σ−1P¯X σ−1 がいえる.rank(X) =pと仮定されているので,
rank(PX) =n−p
である(証明は略する).定義5.1より,∼ N(0n, σ2In)なので,
σ−1∼ N(0n,In) を得る.命題9.12より,
(n−p)σ−2VR∼χ2[n−p] を得る.
10 期待値と積率母関数
命題9.4の証明には命題9.14を用いたが,命題9.14の証明はまだ与えていない.積率母関数と いう概念と使うと,簡単に命題9.14を証明することができる.積率母関数は期待値演算を使って 定義される.本節では,期待値演算,および積率母関数の定義を与える.
10.1 1変量確率分布の期待値
連続確率変数xの期待値は
E(x)≡
x
dxp(x)x (48)
で定義される.これはxの平均と呼ばれる.これを一般化して連続確率変数 xの関数f(x)期待 値は
E(f(x))≡
xdxp(x)f(x) で定義される.関数f(x)の分散は
var(x) =E(x2)−(E(x))2
で定義される.任意の自然数k∈Nに対して,原点周りのk次の積率は E(xk) =
x
dxp(x)xk で定義される.
例10.1. 正規分布N(μ, σ2)に従う確率変数xに対し,平均はμに等しく,分散はσ2に等しい.
すなわち,
E(x) =μ, var(x) =σ2 が成り立つ.
例 10.2. 自由度 ν のカイ二乗分布に従う確率変数 xに対し ,平均はνに等しく,分散は2ν に 等しい.すなわち,
E(x) =ν, var(x) = 2ν が成り立つ.
証明略.
10.2 1変量確率分布の積率母関数
連続確率変数xの積率母関数は
Mx(θ) =E(exp(θx)) =
x
dxp(x) exp(θx) (49)
で定義される.
確率変数の積率母関数はその変数の分布を一意的に決定する.証明は文献[2]を参照されたい.
例 10.3. 一変量正規分布N(μ, σ2)に従う確率変数xの積率母関数は Mx(θ) = exp
μθ+1
2σ2θ2
で与えられる.
演習10.1. 例10.3を導け.
解答は節10.5.
例 10.4. カイ二乗分布χ2[ν]に従う確率変数xの積率母関数は Mx(θ) = (1−2θ)−ν/2 で与えられる.
演習10.2. 例10.4を導け.
解答は節10.6.
10.3 多変量確率変数に対する期待値
連続確率変数x∈Rd の期待値は
E(x)≡
xdxp(x)x
で定義される.これは xの平均と呼ばれる.これを一般化して連続確率変数xの関数f(x)の 期待値は
E(f(x))≡
xdxp(x)f(x) で定義される.ベクトル値関数f(x)に対しても,
E(f(x))≡
xdxp(x)f(x) と定義される.