2 時系列モデル

(1)

時系列モデルにおける変数選択問題 Variable selection in time siries modeling

数学専攻河内もも Momo KAWACHI

1 はじめに

時系列解析は,時間の推移とともに記録されていく時系列データをもとにモデル推定を行い,将来のデータ変動を予測する統計的分析のことである. 一般的には,将来の変動は過去の観測値からの影響を受けるため,モデル式における変数も過去の観測値が用いられることが多い. したがって,モデリングにおいて必要なのは,この変数の選択と,それに伴うパラメータの推定である.

近年, この時系列解析のモデル推定において, L1正則化法の適用に関する研究が進んでいる(Nardi and Rinaldo, 2011; Park and Sakaori, 2013). L1正則化法とは, 二乗和誤差関数や対数尤度関数に罰則項を加えて,モデル推定を行う手法のことである. 罰則項は,変数に対して正則化パラメータを付与したもので,次元数が増えると値が大きくなるように設定する. したがって,従来の推定量と比べると過適合が起こりにくく,より精度よく推定を行うことができる. L1正則化法としては罰則項の形によってさまざまな方法が提案されているが,代表的な方法の一つにLassoがある(Tibshirani, 1996;小西, 2010). これは,罰則項部分にL1ノルムを課した推定量であり,時系列モデルのみならず重回帰モデルなど様々なモデルで用いられている. L1ノルムによる罰則の影響で,偏回帰係数や自己回帰係数のうちいくつかが0と推定されるため,必要な変数を選び出す効果があるのである. L₁ノルムを用いた方法としては, Lasso以外にも, Elastic netやAdaptive Lassoなどの推定量が提案されている(Nardi and Rinaldo; 2011).

しかし,時系列モデルにこのLassoを適用するには, やや問題が残る. 時系列データは各変数間の相関が強く,ラグ（時点間の長さ）の影響を強く受けるため,全てのパラメータに対して同じ正則化パラメータを付与することは適切ではない. なぜならば,ラグが大きい変数ほど,影響が少なくなると考えられるからである. したがって, 各変数ごとに正則化パラメータを変えるなどの,なんらかの工夫を施さなければならない. そこで,各変数ごとにラグによる重み付けを行い,異なる正則化パラメータを付与する手法が提案されている（Park and

Sakaori, 2013）. 本論文では, ARモデルを中心とした時系列モデルにおける推定法についての研究について

まとめ,従来の推定法との比較,考察を行う.

2 時系列モデル

時系列ynを過去の観測値yn−iとホワイトノイズの現在の値の線形和で表したモデル

yn =

∑m i=1

αiyn−i+vn (1)

を自己回帰モデル（Auto Regressive model）といい,mを自己回帰の次数という. 以降, 次数mの自己回帰

モデルをAR(m)モデルとよぶ. また, αiを自己回帰係数といい,モデルの定常性や自己相関の強さなどを決

定するパラメータである. さらに,vnは平均0,分散σ²の正規分布に従うホワイトノイズであり, 時系列の過

1

(2)

去yn−iと独立であると仮定する. すなわち,vnは次の条件を満たすものとする: E(vn) = 0,

E(v_n²) =σ²,

E(vnvm) = 0, n̸=mのとき,

E(vnym) = 0, n > mのとき. (2)

一般的に, AR(1)モデルが弱定常となるための条件は|α₁|<1であることが知られている. 弱定常のAR(1) モデルのk次の自己共分散は

γ_k= Cov(y_t, y_t₋_k) =α₁ρ_k₋₁ となる. 自己共分散関数を用いると,

γ0=

∑m i=1

αiγi+σ²

γk =

∑m i=1

αiγk−i (3)

という関係式が得られる. これをユールウォーカー方程式という. この式は, ARモデルの自己相関が,y_tが従うARモデルと同一の係数をもつ差分方程式に従うことを示している.

ユールウォーカー方程式より

ρk=α1ρk−1=α^k₁

と計算できる. ただし,最後の等号は(2)式からρ₀= 1であることより成り立つ. |α₁|<1より,自己相関はどんどん減衰していく. そのため, α₁の符号により振動することもあるが,どちらにせよコレログラムは指数的に減少していく形をとる. つまりARモデルの場合,ラグが大きくなればなるほど自己相関が小さくなり, 過去の値との関連が薄くなっていく. また, ARモデルのもう一つの特徴として, 2次以降においては,循環する自己相関構造を記述できるという点がある.

時系列モデルとしては他にも,過去のホワイトノイズの線形和で表されるMAモデルや, それらの拡張であるARMAモデルなどがある.

3 AR(m) モデルにおける変数選択

3.1 AR

モデルにおける

Lasso

と

Adaptive lasso

(1)式のAR(m)モデルにおけるLasso推定量は

ˆ

α^Lasso= arg min

α

[

∥y−Y α∥²+λ

∑m j=1

|αj| ]

(4)

となる. ここでy= (ym+1,· · · , yN)^T, Y = (y1,· · · ,ym),yi = (ym−i+1,· · ·, yN−i)^T, α= (α1,· · · , α^T_m) である.

また, ARモデルに対するAdaptive Lasso推定量は次のようになる. αˆ^AdaLasso=

[

∥y−Y α∥²+λ

∑m j=1

ˆ wj∥αj∥

]

(5)

2

(3)

3.2 Lag weighted lasso

時系列モデルに対してLassoを用いると,各時点間の相関が強いなど,時系列データ特有の性質により,正確な推定が行われないことがある. 時系列データは,各時点間の相関とラグに強い関係をもっている. 一般的に, ラグが大きいと相関が小さくなり,逆にラグが小さいと相関が大きくなる. Adaptive Lassoにおいても重みは係数に依るものであり,ラグに関しては考慮されていないため,時系列に適用しても正しく推定されない. そこで, Park and Sakaori(2013)では, ARモデルを含む広い時系列モデルに対して, Lag weighted lassoとして以下の3つの重みによるAdaptive lassoを提案した:

w⁽¹⁾_j,l = 1

[α(1−α)^l]^γ, w_j,l⁽²⁾= 1 (|βˆj,l|)^γ

1

α(1−α)^l, w⁽³⁾_j,l = 1

[|βˆj,l|α(1−α)^l]^γ. ただし,α, γ, λはモデルをコントロールするチューニングパラメータである.

3.3 AR

モデルにおける

L₁

正則化法の漸近性質

Nardi and Rinaldo (2011)では, AR(m)モデルにおけるL₁正則化法について,以下の漸近的性質を示している. ϕ^∗をAR(m)モデルにおける真のパラメータとする. また,S={

j;ϕ^∗_j ̸= 0}

, S^c={1, . . . , m} \S, s=

|S|, ν =p−s=|S^c|とする. さらに, Γ_mを自己共分散行列とし, Γ_ABを集合A, Bに属する要素間の自己共分散行列とする. このとき,以下の定理が成り立つ.

定理3.1 AR(m)モデル

Xn=ϕ1Xn−1+· · ·+ϕmXn−m+Zn, n= 1, . . . , N (6) において,次のことが成り立つとする.

(1) ||Γ⁻_ss¹||_∞≤Cmaxとなるような有限の正の定数Cmaxが存在する. (2) ||Γs^csΓ⁻_ss¹||_∞≤1−ϵとなるようなϵ∈(0,1]が存在する. さらに,

lim sup

n→∞

maxi∈SλN,i

minj∈S^cλN,j ≤ 1 (7)

1 αN

[√s

N +λ_N ||λ_N,S ||∞

]

→0, asN → ∞ (8)

N λ²_N (min_i_∈_Scλ_N,i)²

max{s, ν} → ∞, N → ∞ (9)

であるとき, Lasso推定量ϕˆ_N はsign consistentである.

ここで ||· ||_∞^は行列のL_∞ノルムを表している. なお, Lasso推定量ϕˆN がsign consistentであるとは,符号関数

sgn(A) =





−1 (A <0のとき) 0 (A= 0のとき) 1 (A >0のとき)

(10)

に対して, サンプルサイズN が大きくなるとき,推定量ϕˆ_N と未知である真のパラメータϕˆ_N の符号関数が一致することである. つまり,以下の通りである:

P (sgn ( ˆϕN) = sgn (ϕ^∗) )→1, N→ ∞. (11)

3

(4)

定理3.2 AR(m)モデル

Xn=ϕ1Xn−1+· · ·+ϕmXn−m+Zn, n= 1, . . . , N (12) において, Γmの最小固有値が有界かつ0を超えているとする. また

m=o (

N¹² )

, rn=m¹² (

N¹² +λN|λN,S|)

(13) として

λ_N|λ_N,S|=O (

N⁻¹² )

(14) とする. このとき, Lasso推定量 ϕˆ_N はO_p(r_N)の収束オーダーでestimation consistentである.

なお,推定量ϕˆ_nがestimation consistentであるとは, n→ ∞のとき,||ϕˆ_n−ϕ^∗|| →0になることをいう. 以上2つの定理では, AR(m)モデルにおけるLassoについて,符号の一致性と係数の一致性がそれぞれ表されている. 推定したモデルと真のモデルの符号や係数が一致するということは, 正しい推定を行うことができるということである. ここで, Lag weighted lassoは定理3.1の(77)式を満たす傾向にある. この式は,サンプルサイズが大きくなると, 推定したモデルにかかるチューニングパラメータλn,iの最大値は, それ以外のモデルにかかるチューニングパラメータλn,j の最小値よりも小さくなるということを表している. 一般的に,モデルに含めたいパラメータほどλを小さく,含めたくないパラメータほどλを大きく調整するこのことより,ラグの大きさに対して罰則を調整することで, より正しい推定を行えることの理論的根拠が示されている. つまり,ラグが大きいパラメータほど罰則を大きく, ラグが小さいパラメータほど罰則を小さくする, Lag weighted lassoの理論的根拠の裏付けとなっている.

これより,時系列モデルに対して, Lag weighted lassoを適用することの妥当性が示された.

参考文献

[1] 川野秀一,廣瀬慧, 立石正平,小西貞則(2010).「回帰モデリングとL₁型正則化法の最近の展開」『日本統計学会誌』39, 211-242.

[2] 北川源四郎(2005).「時系列解析入門」岩波書店. [3] 小西貞則(2010).「多変量解析入門」岩波書店.

[4] Nardi, Y. and Rinaldo, A. (2011). Autoregressive Process Modeling via the Lasso Procedure, J. Multi. Ana., 102(3), 528-549.

[5] 沖本竜義(2010).「経済・ファイナンスデータの計量時系列分析」朝倉書店.

[6] Park, H. and Sakaori, F. (2013). Lag weighted lasso for time series model,Comput.Stat.,28, 493-504.

[7] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso,J. Roy. Statist. Soc. Ser. B, 58, 267-288.

4