S1.11.5 p 値

標本X = (X1, ..., Xn)として, 統計量Y =u(X1, ..., Xn)を使って帰無仮説H0を検定したいとしよう. いま,当該検定の棄却領域がu(x1, ..., xn)≤c

29 S1.11. 統計的仮説検定と書けるとし(すなわち,棄却水準cを検定統計量Y の実現値が下回ればH0

を棄却),一方,得られた観測値がy=u(x1, ..., xn)であるとする. この時, p= Pr [Y ≤y;H0]

を実現データ(x1, ..., xn)のp値(p-value)と呼ぶ.

p値と仮説検定との関係であるが,仮に有意水準5%の検定であれば, Pr [u(x1, ..., xn)≤c;H0] = 0.05

である. よって, p≤0.05が得られた場合には, y ≤cとなるから, 有意水準 5%でH₀が棄却される.

もし, 棄却域がu(x1, ..., xn) ≥cならば, p値は分布の右裾を用いて, p= Pr [Y ≥y;H₀]となる. あるいはもし,棄却域が|u(x₁, ..., x_n)| ≥cならば, 今度は分布の両裾を用いてp= Pr [|Y| ≥ |y|;H0]とすれば良い. このように,検定分布のどちらか一方の裾を見るものを片側p値,両裾を見るものを両側p値と区別して呼ぶこともある.

すなわち, 手元のデータ(x1, ..., xn)が得られた場合, それを使って計算される検定統計量の実現値はy =u(x₁, ..., x_n)であるから, 帰無仮説が正しい状況において確率変数Y =u(X1, ..., Xn)を多数の試行で繰り返し発生させた場合に,手元にある1回の結果yを越える確率を評価することで, yの値どれだけ“極端な”実現値であるかを示すものがp値である. つまり,p値が小さければ小さい程,yは確率的には起きにくいはずのものであり,それが現に発生したとすれば,H₀の成立が疑われる証拠となるのである.

S1.11.6 尤度比検定

共通の確率密度関数f(x;θ1, ..., θm)を持つn個のランダムサンプルX1, X2, ..., Xn

があるとする. パラメータθ= (θ₁, ..., θ_m)の取りうる値の全体集合(パラメータ空間)をΘ, Θの部分集合をΘ0とする. 帰無仮説 H0 : (θ1, ..., θm) ∈ Θ0

を対立仮説H1: (θ1, ..., θm)∈Θ^c₀に対して検定したいとする. より一般的な議論が可能であるが,以下では,特に帰無仮説が特定の値θ₁⁰, ..., θ_m⁰

0に対して

H0 :θ1 =θ⁰₁, ..., θm₀ = θ⁰_m₀ と書け, 一方対立仮説はそのような制約がない

(同時に等式が成立しない)ケースを考えよう. ここで, 1≤m₀≤mであり,

θiはそのように並べ替えられているとする. 尤度関数L(θ) = ∏n

i=1f(x_i;θ₁, ..., θ_m)に対して,それぞれθ∈Θ₀, θ∈Θ における最大値(最尤推定値)を求める,すなわち,

L(Θ₀) = sup

θ∈Θ₀

L(θ), L(Θ) = sup

θ∈Θ

L(θ).

と書くとする. この時,両者の比

λ=λ(x1, ..., xn) = L(Θ0) L(Θ)

を尤度比(likelihood ratio)と呼ぶ.

いま,もし帰無仮説が正しい((θ1, ..., θm)∈Θ0)場合には,L(Θ0)を最大にする推定値の組(ˆθ₁, ...,θˆ_m)はL(Θ)もやはり最大にすることが期待される.

従って, データ(x1, ..., xn)から計算される最大値の比λが1 に近いほど, 帰無仮説はデータに整合的であると言える. 反対に,帰無仮説が間違っていれば((θ1, ..., θm)∈/Θ0),最大値を求める領域の広い分母の方が分子より大きくなるはずである. よって,λが予め定めた閾値λcよりも小さければ,帰無仮説を棄却すればよい. これが尤度比検定(likelihood test)である.

すなわち,確率変数λ(X1, ..., Xn)によって,検定の有意水準は α= Pr [λ(X₁, ..., X_n)≤λ_c;H₀]

にて与えられる.

実用上はλ(X1, ..., Xn)の確率分布が明示的に得られるケースばかりではない. しかし,ある標準的な条件の成立する場合に最尤推定量は漸近的に正規分布を持つという事実を使うことで,尤度比を使った近似的な検定を行うことができる. すなわち,H₀が正しい下では,標本数nが十分大きい時に,漸近的に

−2 lnλ(X1, ..., Xn) ∼^· χ²_m₀

となるのである(“∼^·”は左辺の分布が右辺の分布で近似できることを表す).

ここで,χ²分布の自由度はパラメータ空間Θの次元mとパラメータ空間Θ₀ の次元(m−m0)の差m0である(Wilksの定理).

S1.11.7 分布一致検定

標本データが帰無仮説で仮定される分布からの抽出であるかどうかを検定する方法のひとつにKolmogorov–Smirnov検定がある. Kolmogorov–

Smirnov検定とはM個の標本データy_i (i= 1, . . . , M)から求まる経験分布 FM(x) = 1

∑M i=1

{

1 (y_i≤x)

0 (yi> x) (S1.11.1) と帰無仮説H0で提示される分布F(x)から計算される検定量

z_M = sup

1≤j≤M|F_M(y_j)−F(y_j)|√

M (S1.11.2)

が十分大きいM に対して,Kolmogorov–Smirnov分布 Pr[ZM ≤x] =

√2π x

∑∞ i=1

e⁻⁽²ⁱ⁻¹⁾²^π²^/(8x²⁾ (S1.11.3) に従うことに基づく.

31 S1.12. 回帰モデル検定量zM がzM > Kαを満たすとき, 帰無仮説H0は棄却され経験分布は帰無仮説H0で提示された分布F(x)と異なることが示される. p値を p= Pr[Z_M > z_M]により定義する. p値が小さな値であればあるほど帰無仮説で仮定される分布からの標本である可能性が低くなりH0が棄却されることとなる. ここで, K_αはPr[Z_M > K_α] =αを満たすK_αである.

例えば, Kolmogorov–Smirnov検定を用いて標本データが正規分布に従っ

ているかの検定を行ってみよう. このとき帰無仮説で仮定される損失の累積確率分布F(x)は式(S1.5.2)より

F(x) =1 2erfc

(x+µ

√2σ )

(S1.11.4) となる. ここで正規分布の平均値µは式(S1.8.4)の標本平均, 標準偏差σは

式(S1.8.5)の標本分散から計算される標本標準偏差を用いる. この検定では

帰無仮説H0はデータが正規分布に従うとするので,p値が大きければ正規分布であると判断できる.

S1.12 回帰モデル

S1.12.1 単回帰モデル

いま, 手元にM 組のデータ(x1, y2), . . .(xM, yM)があるとする. 2つの変数xとyの間に線形関係y =a0+a1xが成り立っていると想定し, 関係式 yi =a0+a1xi+ei をデータに当てはめる (適合させる),このデータ間の関係を表す直線式を単回帰モデル, xを説明変数,yを被説明変数と呼ぶ. また, eiは,i番目のデータの観測の際に生じた観測誤差,または, 2つの変数の間に成り立つと想定した線形関係からの乖離を表し, (i番目データの)残差と呼ばれる. 一つの被説明変数に対して,説明変数が複数個ある場合を重回帰モデルと呼ぶ. 一般に,これらのモデルを総称して線形回帰モデルと呼ぶ.

さて, M 組のデータを使って, 線形関係を最も良く表現するように直線の 2つのパラメータ,y-切片a0,勾配a1を決定したい. この時, 最も標準的に用いられるアプローチが,ここで紹介する最小二乗法(least squares method)である.

最小二乗法では残差二乗和(residual sum of squares) RSS(a₀, a₁) =

∑M i=1

(

y_i−a₀−a₁x_i )2

(S1.12.1) が最小となるように係数a₀, a₁を選ぶ. 残差二乗和RSS(a₀, a₁)を各パラメータについて偏微分したものを０と置くことにより得られる最小化のための1 階条件より,次の2変数一元連立方程式 (正規方程式)

[

M ∑M

i=1xi

∑M

i=1x_i ∑M i=1x²_i

] [ a0

a₁ ]

[ ∑M i=1yi

∑M i=1x_iy_i

]

が得られる. これを解くと a1 = M∑M

i=1xiyi−∑M i=1xi

∑M i=1yi

M∑M

i=1x²_i −(∑M i=1xi

a0 = 1 M

∑M i=1

yi−a1

1 M

∑M i=1

が得られる.

最小二乗法を用いれば与えられたデータの組(x_i, y_i) i= 1, . . . , M に対して, 1本の直線を定めることができるが,回帰分析のより発展的な使い方として,データの背後にある母集団の従う確率法則を想定することにより,区間推定や仮説検定,予測などの統計的推測を行いたい場合がある.

いま, 確率変数Yiが説明変数xiとランダム誤差項ϵi により, Yi = α0+ α₁x_i+ϵ_iによって表されるとする. これを母集団(単)回帰モデルと呼ぶ⁵. 母集団回帰モデルでは,ランダム誤差項は,基本的な設定では,平均ゼロE[ϵi] = 0, 分散一定Var[ϵ_i] =σ²,系列独立性または系列無相関性Cov[ϵ_i, ϵ_j] = 0 (i̸=j)) を仮定する. 必要に応じて, 残差項に対して,正規分布を仮定したり, 不均一分散や,非独立性・系列相関性を仮定することになる.

母集団回帰モデルを想定することにより, データより得られた回帰係数の推定精度や有意性について定量的に判断することが可能となる. いま,誤差項はi.i.d.である仮定する. 誤差項の分散σ²の推定量S²として,

S²= 1

M −2RSS(a0, a1) = 1 M−2

∑M i=1

(yi−a0−a1xi)²

を考える⁶. これを使って, (真の)勾配係数α1の推定値a1に対するt値は T = a₁−α₁

S/√∑M

i=1(xi−x)¯ ²

と計算することができる. 前節で紹介した正規分布に関する諸性質を用いると,M が十分に大きい時, (近似的に)T は自由度(M−2)のスチューデント t分布に従うことが示される⁷.

回帰分析においては,説明変数が増減した時に非説明変数がそれに連動して

(線形に)増減するかどうかが主要な興味事である. 実務上は,慣用的な有意水

準α= 0.05を暗黙的に設定し,帰無仮説H₀:α₁= 0,対立仮説H₁:α₁̸= 0 に対して,データより計算されるT値の絶対値が2を越える場合に帰無仮説を棄却,すなわち回帰係数の(非ゼロの)有意性を判断することが広く行われる.

5母集団回帰モデルと区別する場合には,上述のデータ間の関係式は,標本回帰モデルと呼ばれる

6この時,E[S²] =σ²が成り立つ.すなわち,S²はσ²に対する不偏推定量である.

7i.i.d.誤差項にさらに正規性を仮定すれば有限のMにおいて厳密に成り立つ.

33 S1.12. 回帰モデル

S1.12.2 多項式回帰モデル

次に, 説明変数xと被説明変数yとの間には非線形の関係がある場合を考えよう. このような時,m次多項式y=a0+a1x+· · ·+amx^mをデータに当てはめるとうまくいくことがある.

単回帰モデルと同様に,M 組のデータ(x1, y2), . . .(xM, yM)が手元にある時,残差二乗和

RSS(a₀, a₁, . . . , a_m) =

∑M i=1

(

y_i−a₀−a₁x_i− · · · −a_mx^m_i )2

(S1.12.2) を最小化するパラメータ(a0, . . . , am)を求める. すなわち,RSS(a0, . . . , am) を各パラメータで偏微分して0と置いて,最小化のための1階条件

∂RSS

∂a0

= ∂RSS

∂a1

=· · ·=∂RSS

∂am

= 0 (S1.12.3)

を導く. 式(S1.12.3)から得られる連立方程式を解くことにより正規方程式

(normal equation)







M ∑

x_i ∑

x²_i · · · ∑ x^m_i

∑xi

∑x²_i ∑

x³_i · · · ∑ x^m+1_i

... ... . .. ...

∑x^m_i ∑

x^m+1_i ∑

x^m+2_i · · · ∑ x^2m_i











 a₀ a1

... a_m





=







∑y_i

∑xiyi

...

∑x^m_i y_i





 (S1.12.4) が得られる.

さて,以上解説してきた最小二乗法による推定を,最尤推定と関連付けてみよう. 誤差項に対して正規性(平均0,分散σ²)を仮定する:

f(y|µ(x;a₀, a₁, . . . , a_m), σ²) = 1

√2πσ²exp

[−(y−µ(x;a0, a1, . . . , am))² 2σ²

] . ここでは, µの関数形として特にxに関する多項式

µ(x;a₀, a₁, . . . , a_m) =a₀+a₁x+· · ·+a_mx^m (S1.12.5) を仮定する⁸. 対数尤度関数は

l(a₀, a₁, . . . , a_m, σ²) =

∑M i=1

lnf(y_i|µ(x_i;a₀, a₁, . . . , a_m), σ²)

= −M

2 ln(2π)−M 2 lnσ²

− 1

2σ²

∑M i=1

(

y_i−(a₀+a₁x_i+· · ·+a_mx^m_i ) )2

(S1.12.6)

8µはxに関しては非線形であるが,パラメータの組(a0, . . . , am)に対しては線形であることに注意しよう

となる. a0からamに関する対数尤度lの偏微分はそれぞれ

∂l

∂a0

= 1

σ²

∑M i=1

(

yi−a0−a1xi− · · · −amx^m_i )

∂l

∂a₁ = 1 σ²

∑M i=1

(

yi−a0−a1xi− · · · −amx^m_i )

, ...

∂l

∂a_m = 1 σ²

∑M i=1

x^m_i (

yi−a0−a1xi− · · · −amx^m_i )

, となるので,最尤推定量は尤度方程式

∂l

∂a₁ = ∂l

∂a₂ =· · ·= ∂l

∂a_m = 0 (S1.12.7)

の解として得られる. まとめて表記すれば最小二乗法で得た正規方程式と同じ式(S1.12.4)を得る.

σ²に対する偏微分の式は

−M 2σ² + 1

2σ⁴

∑M i=1

(y_i−a₀−a₁x_i− · · · −a_mx^m_i )²= 0 となるので,これを解くことによって,誤差分散σ²の推定値

ˆ σ²= 1

∑M i=1

(yi−a0−a1xi− · · · −amx^m_i )² (S1.12.8) が得られる⁹. それゆえ最大対数尤度は

l(a0, a1,· · ·, am,σˆ²) =−M

2 (ln(2π) + 1 + ln ˆσ²) (S1.12.9) となる. 情報量規準AICとBICとはそれぞれ以下のように書かれる:

AIC = M(ln(2π) + 1 + ln ˆσ²) + 2(m+ 2), (S1.12.10) BIC = M(ln(2π) + 1 + ln ˆσ²) + (m+ 2) ln(M). (S1.12.11) xとyの散布図の形状や, AICまたはBICなどの規準を使用しながら次数m を決定する. 大きなmの選択は,オーバー・フィッティング(過剰適合)になりかねないので慎重な判断が求められる.

以上で紹介した,多項式回帰モデルは,説明変数を複数個持つ重回帰モデルの特別なケースである(章末問題(4)参照).

9式(S1.12.8)のˆσ²は,誤差分散σ²の不偏推定値とはならない.

35 S1.12. 回帰モデル

章末問題

1. 独立なGauss変数X₁,X₂(平均0;分散σ₁², σ₂²)の和,X =X₁+X₂が再びGauss変数(平均0;分散σ²=σ²₁+σ²₂)となることを示せ. ヒント:確率変数の和の計算

G(x) =

∫ _∞

−∞

G(x−x2;σ²₁)G(x2;σ²₂)dx2=G(x;σ²₁+σ²₂) を計算せよ.

2. 平均µ,分散共分散行列ΣのN変量ガウス分布.

f(x₁, . . . , x_N) = 1

(2π)^N/2|Σ|^1/2exp {−1

2(x−µ)Σ⁻¹(x−µ) }

について,

E[X_iX_j] =

∫

x_ix_jf(x₁, . . . , x_N)dx₁· · ·dx_N (S1.12.12) E[X_i] =

∫

x_if(x₁, . . . , x_N)dx₁· · ·dx_N (S1.12.13) とするとき,

E[XiXj]−E[Xi]E[Xj] = Σij

であることを示せ.

3. 最尤推定量.

式(S1.6.5)で与えられる多変量正規分布において,多変量時系列x_i(t) (i= 1, . . . , N;t= 1, . . . , M)が与えられたときの,パラメータµとΣに対する最尤推定量を,対数尤度

l(µ,Σ) = 1 M

∑M s=1

{−N

2 ln(2π)−1

2ln|Σ|−1

2(x(s)−µ)^TΣ⁻¹(x(s)−µ) }

を最大化することで導き, 式(S1.8.7)と式(S1.8.8)となることを確認せよ.

4. 重回帰モデルの最小二乗法.

n個の標本の組(yi, xi1,· · · , xim)(i= 1, . . . , n)が得られているとき,ひとつのyiとm個のxij(j = 1, . . . , m)との間に線型関係が仮定できるとする. 観測で含まれる誤差e_iとして,i番目の標本について

y_i=a₀+

∑m j=1

a_jx_ij+e_i (i= 1, . . . , n)

が成り立つと仮定する. このとき, 1変量の最小二乗法の枠組みと同様に二乗誤差

RSS=

∑n i=1

(y_i−a₀−

∑m j=1

a_jx_ij)²

を最小化することにより係数a_j(j = 0,1, . . . , m)を決定するための正規方程式を導出せよ.

S2

分析のための道具 (2): 確率過程

本章では, 以降の章にて用いられる代表的かつ重要な「確率過程」のクラスについて紹介する.

S2.1 確率過程

時間を表す添え字tが付けられた確率変数Xtの集まりを確率過程(stochastic process)と呼び,X ={Xt, t∈T}などと表す. 添え字集合Tが数えられる集合,整数Zや自然数N∪ {0}などである時,Xを「離散時間確率過程」,Tが数えられない集合,実数集合RやR+,区間[0, T]などの時, Xを「連続時間確率過程」と言う. ランダム・ウォーク(S2.6節)やARMAモデル(S2.2.1-S2.3 節)は離散時間確率過程, Wiener過程(S2.7節)やPoisson過程(S2.8節)は連続時間確率過程の例である. また, Xの取る値(状態空間)が離散値か連続値かによって,離散確率過程,連続確率過程の別がある.

私たちは, 観察される金融時系列データを背後にある確率過程の１つの標

本パス(sample path)の実現であると見なす. そこで,時系列データを分析す

ることで,それを生成した確率過程のモデルを推定したり,推定モデルに基づいた予測やリスク管理を行う. 確率過程にはさまざまな性質を持ったクラスが存在するが, 時系列解析する際に重要となる性質の一つが本章で最初に説明する定常性である. GARCH過程モデルなど金融時系列データを表現する重要な確率過程のクラスには,定常性を仮定するものも多い. また,市場の効率性を表現する資産価格に対するランダム・ウォーク・モデルは,それ自体は定常過程ではないが, その階差を取った差分過程が定常過程となるようなモデルである.

1変量の確率過程X={Xt, t∈T}がある時,各tに対して

µ_t= E [X_t] (S2.1.1)

が存在する時, µtをXの平均値関数(mean value function)と呼ぶ. さらに, 全てのs, t対して

γ(s, t) = E [(X_s−µ_s) (X_t−µ_t)] (S2.1.2)

ドキュメント内 2016 (ページ 30-43)