標本X = (X1, ..., Xn)として, 統計量Y =u(X1, ..., Xn)を使って帰無仮 説H0を検定したいとしよう. いま,当該検定の棄却領域がu(x1, ..., xn)≤c
29 S1.11. 統計的仮説検定 と書けるとし(すなわち,棄却水準cを検定統計量Y の実現値が下回ればH0
を棄却),一方,得られた観測値がy=u(x1, ..., xn)であるとする. この時, p= Pr [Y ≤y;H0]
を実現データ(x1, ..., xn)のp値(p-value)と呼ぶ.
p値と仮説検定との関係であるが,仮に有意水準5%の検定であれば, Pr [u(x1, ..., xn)≤c;H0] = 0.05
である. よって, p≤0.05が得られた場合には, y ≤cとなるから, 有意水準 5%でH0が棄却される.
もし, 棄却域がu(x1, ..., xn) ≥cならば, p値は分布の右裾を用いて, p= Pr [Y ≥y;H0]となる. あるいはもし,棄却域が|u(x1, ..., xn)| ≥cならば, 今 度は分布の両裾を用いてp= Pr [|Y| ≥ |y|;H0]とすれば良い. このように,検 定分布のどちらか一方の裾を見るものを片側p値,両裾を見るものを両側p値 と区別して呼ぶこともある.
すなわち, 手元のデータ(x1, ..., xn)が得られた場合, それを使って計算さ れる検定統計量の実現値はy =u(x1, ..., xn)であるから, 帰無仮説が正しい 状況において確率変数Y =u(X1, ..., Xn)を多数の試行で繰り返し発生させ た場合に,手元にある1回の結果yを越える確率を評価することで, yの値ど れだけ“極端な”実現値であるかを示すものがp値である. つまり,p値が小 さければ小さい程,yは確率的には起きにくいはずのものであり,それが現に 発生したとすれば,H0の成立が疑われる証拠となるのである.
S1.11.6 尤度比検定
共通の確率密度関数f(x;θ1, ..., θm)を持つn個のランダムサンプルX1, X2, ..., Xn
があるとする. パラメータθ= (θ1, ..., θm)の取りうる値の全体集合(パラメー タ空間)をΘ, Θの部分集合をΘ0とする. 帰無仮説 H0 : (θ1, ..., θm) ∈ Θ0
を対立仮説H1: (θ1, ..., θm)∈Θc0に対して検定したいとする. より一般的な 議論が可能であるが,以下では,特に帰無仮説が特定の値θ10, ..., θm0
0に対して
H0 :θ1 =θ01, ..., θm0 = θ0m0 と書け, 一方対立仮説はそのような制約がない
(同時に等式が成立しない)ケースを考えよう. ここで, 1≤m0≤mであり,
θiはそのように並べ替えられているとする. 尤度関数L(θ) = ∏n
i=1f(xi;θ1, ..., θm)に対して,それぞれθ∈Θ0, θ∈Θ における最大値(最尤推定値)を求める,すなわち,
L(Θ0) = sup
θ∈Θ0
L(θ), L(Θ) = sup
θ∈Θ
L(θ).
と書くとする. この時,両者の比
λ=λ(x1, ..., xn) = L(Θ0) L(Θ)
を尤度比(likelihood ratio)と呼ぶ.
いま,もし帰無仮説が正しい((θ1, ..., θm)∈Θ0)場合には,L(Θ0)を最大に する推定値の組(ˆθ1, ...,θˆm)はL(Θ)もやはり最大にすることが期待される.
従って, データ(x1, ..., xn)から計算される最大値の比λが1 に近いほど, 帰無仮説はデータに整合的であると言える. 反対に,帰無仮説が間違っていれ ば((θ1, ..., θm)∈/Θ0),最大値を求める領域の広い分母の方が分子より大きく なるはずである. よって,λが予め定めた閾値λcよりも小さければ,帰無仮説 を棄却すればよい. これが尤度比検定(likelihood test)である.
すなわち,確率変数λ(X1, ..., Xn)によって,検定の有意水準は α= Pr [λ(X1, ..., Xn)≤λc;H0]
にて与えられる.
実用上はλ(X1, ..., Xn)の確率分布が明示的に得られるケースばかりではな い. しかし,ある標準的な条件の成立する場合に最尤推定量は漸近的に正規分 布を持つという事実を使うことで,尤度比を使った近似的な検定を行うことが できる. すなわち,H0が正しい下では,標本数nが十分大きい時に,漸近的に
−2 lnλ(X1, ..., Xn) ∼· χ2m0
となるのである(“∼·”は左辺の分布が右辺の分布で近似できることを表す).
ここで,χ2分布の自由度はパラメータ空間Θの次元mとパラメータ空間Θ0 の次元(m−m0)の差m0である(Wilksの定理).
S1.11.7 分布一致検定
標本データが帰無仮説で仮定される分布からの抽出であるかどうかを検 定する方法のひとつにKolmogorov–Smirnov検定がある. Kolmogorov–
Smirnov検定とはM個の標本データyi (i= 1, . . . , M)から求まる経験分布 FM(x) = 1
M
∑M i=1
{
1 (yi≤x)
0 (yi> x) (S1.11.1) と帰無仮説H0で提示される分布F(x)から計算される検定量
zM = sup
1≤j≤M|FM(yj)−F(yj)|√
M (S1.11.2)
が十分大きいM に対して,Kolmogorov–Smirnov分布 Pr[ZM ≤x] =
√2π x
∑∞ i=1
e−(2i−1)2π2/(8x2) (S1.11.3) に従うことに基づく.
31 S1.12. 回帰モデル 検定量zM がzM > Kαを満たすとき, 帰無仮説H0は棄却され経験分 布は帰無仮説H0で提示された分布F(x)と異なることが示される. p値を p= Pr[ZM > zM]により定義する. p値が小さな値であればあるほど帰無仮 説で仮定される分布からの標本である可能性が低くなりH0が棄却されるこ ととなる. ここで, KαはPr[ZM > Kα] =αを満たすKαである.
例えば, Kolmogorov–Smirnov検定を用いて標本データが正規分布に従っ
ているかの検定を行ってみよう. このとき帰無仮説で仮定される損失の累積 確率分布F(x)は式(S1.5.2)より
F(x) =1 2erfc
(x+µ
√2σ )
(S1.11.4) となる. ここで正規分布の平均値µは式(S1.8.4)の標本平均, 標準偏差σは
式(S1.8.5)の標本分散から計算される標本標準偏差を用いる. この検定では
帰無仮説H0はデータが正規分布に従うとするので,p値が大きければ正規分 布であると判断できる.
S1.12 回帰モデル
S1.12.1 単回帰モデル
いま, 手元にM 組のデータ(x1, y2), . . .(xM, yM)があるとする. 2つの変 数xとyの間に線形関係y =a0+a1xが成り立っていると想定し, 関係式 yi =a0+a1xi+ei をデータに当てはめる (適合させる),このデータ間の関 係を表す直線式を単回帰モデル, xを説明変数,yを被説明変数と呼ぶ. また, eiは,i番目のデータの観測の際に生じた観測誤差,または, 2つの変数の間に 成り立つと想定した線形関係からの乖離を表し, (i番目データの)残差と呼ば れる. 一つの被説明変数に対して,説明変数が複数個ある場合を重回帰モデル と呼ぶ. 一般に,これらのモデルを総称して線形回帰モデルと呼ぶ.
さて, M 組のデータを使って, 線形関係を最も良く表現するように直線の 2つのパラメータ,y-切片a0,勾配a1を決定したい. この時, 最も標準的に用 いられるアプローチが,ここで紹介する最小二乗法(least squares method)で ある.
最小二乗法では残差二乗和(residual sum of squares) RSS(a0, a1) =
∑M i=1
(
yi−a0−a1xi )2
(S1.12.1) が最小となるように係数a0, a1を選ぶ. 残差二乗和RSS(a0, a1)を各パラメー タについて偏微分したものを0と置くことにより得られる最小化のための1 階条件より,次の2変数一元連立方程式 (正規方程式)
[
M ∑M
i=1xi
∑M
i=1xi ∑M i=1x2i
] [ a0
a1 ]
=
[ ∑M i=1yi
∑M i=1xiyi
]
が得られる. これを解くと a1 = M∑M
i=1xiyi−∑M i=1xi
∑M i=1yi
M∑M
i=1x2i −(∑M i=1xi
)2
a0 = 1 M
∑M i=1
yi−a1
1 M
∑M i=1
xi
が得られる.
最小二乗法を用いれば与えられたデータの組(xi, yi) i= 1, . . . , M に対し て, 1本の直線を定めることができるが,回帰分析のより発展的な使い方とし て,データの背後にある母集団の従う確率法則を想定することにより,区間推 定や仮説検定,予測などの統計的推測を行いたい場合がある.
いま, 確率変数Yiが説明変数xiとランダム誤差項ϵi により, Yi = α0+ α1xi+ϵiによって表されるとする. これを母集団(単)回帰モデルと呼ぶ5. 母集 団回帰モデルでは,ランダム誤差項は,基本的な設定では,平均ゼロE[ϵi] = 0, 分散一定Var[ϵi] =σ2,系列独立性または系列無相関性Cov[ϵi, ϵj] = 0 (i̸=j)) を仮定する. 必要に応じて, 残差項に対して,正規分布を仮定したり, 不均一 分散や,非独立性・系列相関性を仮定することになる.
母集団回帰モデルを想定することにより, データより得られた回帰係数の 推定精度や有意性について定量的に判断することが可能となる. いま,誤差項 はi.i.d.である仮定する. 誤差項の分散σ2の推定量S2として,
S2= 1
M −2RSS(a0, a1) = 1 M−2
∑M i=1
(yi−a0−a1xi)2
を考える6. これを使って, (真の)勾配係数α1の推定値a1に対するt値は T = a1−α1
S/√∑M
i=1(xi−x)¯ 2
と計算することができる. 前節で紹介した正規分布に関する諸性質を用いる と,M が十分に大きい時, (近似的に)T は自由度(M−2)のスチューデント t分布に従うことが示される7.
回帰分析においては,説明変数が増減した時に非説明変数がそれに連動して
(線形に)増減するかどうかが主要な興味事である. 実務上は,慣用的な有意水
準α= 0.05を暗黙的に設定し,帰無仮説H0:α1= 0,対立仮説H1:α1̸= 0 に対して,データより計算されるT値の絶対値が2を越える場合に帰無仮説を 棄却,すなわち回帰係数の(非ゼロの)有意性を判断することが広く行われる.
5母集団回帰モデルと区別する場合には,上述のデータ間の関係式は,標本回帰モデルと呼ば れる
6この時,E[S2] =σ2が成り立つ.すなわち,S2はσ2に対する不偏推定量である.
7i.i.d.誤差項にさらに正規性を仮定すれば有限のMにおいて厳密に成り立つ.
33 S1.12. 回帰モデル
S1.12.2 多項式回帰モデル
次に, 説明変数xと被説明変数yとの間には非線形の関係がある場合を考 えよう. このような時,m次多項式y=a0+a1x+· · ·+amxmをデータに当 てはめるとうまくいくことがある.
単回帰モデルと同様に,M 組のデータ(x1, y2), . . .(xM, yM)が手元にある 時,残差二乗和
RSS(a0, a1, . . . , am) =
∑M i=1
(
yi−a0−a1xi− · · · −amxmi )2
(S1.12.2) を最小化するパラメータ(a0, . . . , am)を求める. すなわち,RSS(a0, . . . , am) を各パラメータで偏微分して0と置いて,最小化のための1階条件
∂RSS
∂a0
= ∂RSS
∂a1
=· · ·=∂RSS
∂am
= 0 (S1.12.3)
を導く. 式(S1.12.3)から得られる連立方程式を解くことにより正規方程式
(normal equation)
M ∑
xi ∑
x2i · · · ∑ xmi
∑xi
∑x2i ∑
x3i · · · ∑ xm+1i
... ... . .. ...
∑xmi ∑
xm+1i ∑
xm+2i · · · ∑ x2mi
a0 a1
... am
=
∑yi
∑xiyi
...
∑xmi yi
(S1.12.4) が得られる.
さて,以上解説してきた最小二乗法による推定を,最尤推定と関連付けてみ よう. 誤差項に対して正規性(平均0,分散σ2)を仮定する:
f(y|µ(x;a0, a1, . . . , am), σ2) = 1
√2πσ2exp
[−(y−µ(x;a0, a1, . . . , am))2 2σ2
] . ここでは, µの関数形として特にxに関する多項式
µ(x;a0, a1, . . . , am) =a0+a1x+· · ·+amxm (S1.12.5) を仮定する8. 対数尤度関数は
l(a0, a1, . . . , am, σ2) =
∑M i=1
lnf(yi|µ(xi;a0, a1, . . . , am), σ2)
= −M
2 ln(2π)−M 2 lnσ2
− 1
2σ2
∑M i=1
(
yi−(a0+a1xi+· · ·+amxmi ) )2
(S1.12.6)
8µはxに関しては非線形であるが,パラメータの組(a0, . . . , am)に対しては線形であるこ とに注意しよう
となる. a0からamに関する対数尤度lの偏微分はそれぞれ
∂l
∂a0
= 1
σ2
∑M i=1
(
yi−a0−a1xi− · · · −amxmi )
,
∂l
∂a1 = 1 σ2
∑M i=1
xi
(
yi−a0−a1xi− · · · −amxmi )
, ...
∂l
∂am = 1 σ2
∑M i=1
xmi (
yi−a0−a1xi− · · · −amxmi )
, となるので,最尤推定量は尤度方程式
∂l
∂a1 = ∂l
∂a2 =· · ·= ∂l
∂am = 0 (S1.12.7)
の解として得られる. まとめて表記すれば最小二乗法で得た正規方程式と同 じ式(S1.12.4)を得る.
σ2に対する偏微分の式は
−M 2σ2 + 1
2σ4
∑M i=1
(yi−a0−a1xi− · · · −amxmi )2= 0 となるので,これを解くことによって,誤差分散σ2の推定値
ˆ σ2= 1
M
∑M i=1
(yi−a0−a1xi− · · · −amxmi )2 (S1.12.8) が得られる9. それゆえ最大対数尤度は
l(a0, a1,· · ·, am,σˆ2) =−M
2 (ln(2π) + 1 + ln ˆσ2) (S1.12.9) となる. 情報量規準AICとBICとはそれぞれ以下のように書かれる:
AIC = M(ln(2π) + 1 + ln ˆσ2) + 2(m+ 2), (S1.12.10) BIC = M(ln(2π) + 1 + ln ˆσ2) + (m+ 2) ln(M). (S1.12.11) xとyの散布図の形状や, AICまたはBICなどの規準を使用しながら次数m を決定する. 大きなmの選択は,オーバー・フィッティング(過剰適合)にな りかねないので慎重な判断が求められる.
以上で紹介した,多項式回帰モデルは,説明変数を複数個持つ重回帰モデル の特別なケースである(章末問題(4)参照).
9式(S1.12.8)のˆσ2は,誤差分散σ2の不偏推定値とはならない.
35 S1.12. 回帰モデル
章末問題
1. 独立なGauss変数X1,X2(平均0;分散σ12, σ22)の和,X =X1+X2が 再びGauss変数(平均0;分散σ2=σ21+σ22)となることを示せ. ヒント:確率変数の和の計算
G(x) =
∫ ∞
−∞
G(x−x2;σ21)G(x2;σ22)dx2=G(x;σ21+σ22) を計算せよ.
2. 平均µ,分散共分散行列ΣのN変量ガウス分布.
f(x1, . . . , xN) = 1
(2π)N/2|Σ|1/2exp {−1
2(x−µ)Σ−1(x−µ) }
について,
E[XiXj] =
∫
xixjf(x1, . . . , xN)dx1· · ·dxN (S1.12.12) E[Xi] =
∫
xif(x1, . . . , xN)dx1· · ·dxN (S1.12.13) とするとき,
E[XiXj]−E[Xi]E[Xj] = Σij
であることを示せ.
3. 最尤推定量.
式(S1.6.5)で与えられる多変量正規分布において,多変量時系列xi(t) (i= 1, . . . , N;t= 1, . . . , M)が与えられたときの,パラメータµとΣに 対する最尤推定量を,対数尤度
l(µ,Σ) = 1 M
∑M s=1
{−N
2 ln(2π)−1
2ln|Σ|−1
2(x(s)−µ)TΣ−1(x(s)−µ) }
を最大化することで導き, 式(S1.8.7)と式(S1.8.8)となることを確認 せよ.
4. 重回帰モデルの最小二乗法.
n個の標本の組(yi, xi1,· · · , xim)(i= 1, . . . , n)が得られているとき,ひ とつのyiとm個のxij(j = 1, . . . , m)との間に線型関係が仮定できる とする. 観測で含まれる誤差eiとして,i番目の標本について
yi=a0+
∑m j=1
ajxij+ei (i= 1, . . . , n)
が成り立つと仮定する. このとき, 1変量の最小二乗法の枠組みと同様 に二乗誤差
RSS=
∑n i=1
(yi−a0−
∑m j=1
ajxij)2
を最小化することにより係数aj(j = 0,1, . . . , m)を決定するための正 規方程式を導出せよ.
37
S2
分析のための道具 (2): 確率過程
本章では, 以降の章にて用いられる代表的かつ重要な「確率過程」のクラ スについて紹介する.
S2.1 確率過程
時間を表す添え字tが付けられた確率変数Xtの集まりを確率過程(stochastic process)と呼び,X ={Xt, t∈T}などと表す. 添え字集合Tが数えられる集 合,整数Zや自然数N∪ {0}などである時,Xを「離散時間確率過程」,Tが数 えられない集合,実数集合RやR+,区間[0, T]などの時, Xを「連続時間確 率過程」と言う. ランダム・ウォーク(S2.6節)やARMAモデル(S2.2.1-S2.3 節)は離散時間確率過程, Wiener過程(S2.7節)やPoisson過程(S2.8節)は 連続時間確率過程の例である. また, Xの取る値(状態空間)が離散値か連続 値かによって,離散確率過程,連続確率過程の別がある.
私たちは, 観察される金融時系列データを背後にある確率過程の1つの標
本パス(sample path)の実現であると見なす. そこで,時系列データを分析す
ることで,それを生成した確率過程のモデルを推定したり,推定モデルに基づ いた予測やリスク管理を行う. 確率過程にはさまざまな性質を持ったクラス が存在するが, 時系列解析する際に重要となる性質の一つが本章で最初に説 明する定常性である. GARCH過程モデルなど金融時系列データを表現する 重要な確率過程のクラスには,定常性を仮定するものも多い. また,市場の効 率性を表現する資産価格に対するランダム・ウォーク・モデルは,それ自体は 定常過程ではないが, その階差を取った差分過程が定常過程となるようなモ デルである.
1変量の確率過程X={Xt, t∈T}がある時,各tに対して
µt= E [Xt] (S2.1.1)
が存在する時, µtをXの平均値関数(mean value function)と呼ぶ. さらに, 全てのs, t対して
γ(s, t) = E [(Xs−µs) (Xt−µt)] (S2.1.2)