ベイズアプローチによるスパースモデリングとモデル選択 Bayesian sparse modeling and model selection

(1)

ベイズアプローチによるスパースモデリングとモデル選択 Bayesian sparse modeling and model selection

数学専攻嶋村海人

SHIMAMURA, Kaito

1 はじめに

これまで，回帰モデリングでは，最尤法や最小２乗法で推定したモデルを情報量規準などで評価して，モデルを選択する一連のプロセスが有効に機能してきた．しかしながら，多数の説明変数を含む高次元データを分析の対象とする場合には，従来手法は有効に機能せず，正則化法など新たな手法が理論的・数値的に研究されている．

修士論文ではベイズアプローチによる３つのスパースモデリングを提案した．第

1

に，Bayesian lassoによるガウス型線形回帰モデルの枠組みのもとで，

Kawano et al. (2015)

で提案された近似予測情報量規準によるハイパーパラメータの選択方法に着目し，計算量削減のためのハイパーパラメータの事前決定法を提案した

(日本計算機統

計学会報告集, 2014)．また，構築したモデルの推定値の変動を抑えるために，リサンプリング法とモデル平均化法

(Burnham and Anderson, 2002)

を融合した新たなモデリング手法を提案した

(嶋村他, 2015)．第 2

に，Bayesian

lasso

のいくつかの問題点を克服するために，Laplace分布に替えて，NEG (normal-exponential-gamma)分布を事前分布としたベイズスパースモデリングを提案した．

NEG

分布を事前分布とした

lasso

型正則化法は，

Laplace

分布に基づくものと比べて，柔軟に正則化項を設定できることから，より精度の高いモデルを構築することができる．また，スパースモデリングの本質的な問題であるスパースの程度を制御する正則化パラメータを適切に選択するために，一般化情報量規準

GIC (Konishi and Kitagawa, 1996)

および一般化ベイズ型モデル評価基準

GBIC (Konishi, Ando and Imoto, 2004)

を導いた．第

3

に，fused lassoおよび

generalized fused lasso

に対し

NEG

分布に基づくベイズスパースモデリングを提案した

(Shimamura et al., 2016)

．NEG分布は

L 1

ノルム罰則項に対応する

Laplace

分布に比べ，0の付近では先鋭であり，すそでは平坦であるため，lassoよりも偏りの少ない推定が可能である．また，より汎用性の高いスパースなモデルの構築に有用である．

2 Bayesian lasso

目的変数

Y

と

p

個の説明変数

x = (x ₁ , · · · , x _p ) ^T

に関して

n

組のデータ

{ (y _i , x _i ); i = 1, 2, · · · , n }

が観測されたとする．ただし，x

_i = (x _i1 , · · · , x _ip ) ^T

とする．ここで，一般性を失うことなく，

∑ n

i=1 y _i = 0, ∑ n

i=1 x _ij = 0, ∑ n

i=1 x ² _ij = n (j = 1, 2, · · · , p)

と基準化する．このとき，ガウス型線形回帰モデルは

y = Xβ + ϵ, ϵ ∼ N n

( 0, σ ² I n

) (1)

で与えられる．ただし，y

= (y 1 , y 2 , · · · , y n ) ^T

は

n

次元観測値ベクトル，X

= (x 1 , x 2 , · · · , x n ) ^T

は

n × p

計画行列，β

= (β 1 , β 2 , · · · , β p ) ^T

は

p

次元回帰係数ベクトル，ϵ

= (ϵ 1 , ϵ 2 , · · · , ϵ n ) ^T

は

n

次元誤差ベクトルとする．また，尤度を

f (y | β, σ ² )

と表す．しかしながら，変数の個数

p

がデータ数

n

よりも大きい場合などには，最尤法などの推定法は有効に機能しないため，次に述べる

lasso

のような正則化法によるモデルの推定が必要となる．

Lasso

は，対数尤度関数に回帰係数の絶対値の和を罰則項として課した次のような目的関数の最大化に基づく

方法であり，回帰係数を真に

0

と推定する性質（これをスパース性と呼ぶ）があることから，モデルの推定と変数選択を同時に実行できる手法として知られている．

max β

 

 log f (y | β, σ ² ) − λ

∑ p j=1

| β j |

 

 . (2)

ただし，λ

(> 0)

は正則化パラメータと呼ばれ，選択する変数の個数を調整するパラメータである．

一般に，正則化法による推定をベイズの観点から捉えると，回帰係数ベクトル

β

はデータ

y

に対して，事後分布

π(β | y)

のモードとして推定される．Lassoは，線形回帰モデルの各回帰係数に

Laplace

分布を事前分布とし

1

(2)

て想定したときの回帰係数ベクトルの事後分布のモード推定として特徴付けられる．Park and Casella (2008)に

よる

Bayesian lasso

では，Laplace分布の正規尺度混合分布による表現を利用し事前分布を設定し直すことで，

ギブスサンプリングによるパラメータのベイズ推定を行っている．

3 モデル平均化法による Bayesian lasso 推定

構築したモデルの汎化能力は，事前分布を規定するハイパーパラメータの値に依存しているため，この値の選択がモデリングの過程において本質的な問題となる．また，従来手法によるモデリングは，モデル選択の信頼性に欠ける．これらの問題に対処するために，リサンプリング法とモデル平均化法を組み合わせた

Bayesian lasso

回帰モデリングを提案した．

3.1

ハイパーパラメータの事前決定

Kawano et al. (2015)

では，Baysian lassoにおいて，ベイズモデルに含まれるハイパーパラメータの値を決定するために，予測情報量規準

PIC (Kitagawa, 1997)

に基づいて近似予測情報量規準

aPIC

を導出した．Bayesian

lasso

における

PIC

は導出が困難であり，aPIC では事前分布の近似を利用して予測分布と真のモデルの分布

の間の

Kullback-Leibler

情報量を導出した．実際には，Bayesian lasso における回帰係数ベクトルの事前分布

Laplace(β | λ/σ)

を

Kullback-Leibler

情報量を最小とする正規分布

N p (β | 0, 2σ ² /λ ² I p )

で近似することで求めた．

したがって，aPICには近似した正規分布の推定値が用いられている．そのため，情報量規準を利用した一般的なハイパーパラメータ決定のプロセスとは違い，Bayesian lassoにおけるギブスサンプリングを実行し，推定値を計算する前に，最適なハイパーパラメータを選択する方法が考えられる．

近似事前分布

N _p (β | 0, 2σ ² /λ ² I _p )

により，回帰係数ベクトルと分散の推定値は次のように求められる．

β ˆ _n = { X ^T X + (λ ² /2)I p } ⁻ ¹ X ^T y, σ ˆ ² = (η 0 + y ^T y − β ˆ ^T _n { X ^T X + (λ ² /2)I p } ⁻ ¹ β ˆ _n )/2

(n + ν ₀ )/2 + 1 .

ただし，σ

²

には逆ガンマ事前分布

IG(ν 0 /2, η 0 /2)

を仮定した．これらを用いることにより，aPICと同様に

AIC

や

BIC

でもハイパーパラメータの事前決定を行うことができる．

これにより，高い計算コストを必要とするギブスサンプリングの推定を，従来手法では

λ

の候補点分行わなければならなかったことに対し，事前決定では１回行うだけで十分である．したがって，この操作により計算コストの大幅な削減が可能となる

(嶋村他, 2015)．

3.2

提案手法：ブートストラップモデル平均化法による

Bayesian lasso

ハイパーパラメータの事前決定を利用し，構築したモデルの推定値の変動を抑えるために，リサンプリング法とモデル平均化法

(Burnham and Anderson, 2002)

を融合した新たなモデリングを提案した

(嶋村他, 2015)．

観測データ

Data = { (y ₁ , x ₁ ), · · · , (y _n , x _n ) }

に対し，リサンプリングを行う．ここで，リサンプリング法によって新しく得られた

B

個のリサンプリングデータを

Data ^∗ _(b) = { (y ₁ ^∗ , x ^∗ ₁ ), · · · , (y ^∗ _m , x ^∗ _m ) } (b = 1, · · · , B)

とする．K 個のハイパーパラメータの候補点

λ ₁ , · · · , λ _K

を定め，候補から

Data ^∗ _(b)

に対する最適なハイパーパラメータ

λ ˆ ^(b)

を，ハイパーパラメータの事前決定により求める．次に，その

ˆ λ ^(b)

に基づき

Bayesian lasso

によるギブスサンプリングを実行し，回帰係数ベクトルの推定値

β ˆ ^(b)

を得る．また，そのときの最適な情報量規準の値を

IC (b)

とする．

推定したモデルの良さを相対的に評価するために，重みを次のように定義する．

w _(b) = exp (

− 1 2 ∆IC _(b)

) / ∑ B b

^′

=1

exp (

− 1 2 ∆IC _(b

′

)

. (3)

ここで，情報量規準値

IC _(b)

の最小値を

ICmin

とし，それらの差より

∆IC _(b) = IC _(b) − ICmin

とする．

このように定義された重みを用い，回帰係数を次のように推定する．

β ˆ _j =

 

 

 

 0,

( median

{ β ˆ _j ^(b) ; b = 1, · · · , B }

= 0 )

∑ B ,

b=1 w _(b) I j (M _(b) ) ˆ β _j ^(b)

∑ B

b=1 w _(b) I j (M _(b) ) , (otherwise) ,

j = 1, · · · , p.

2

(3)

ただし，B回中の多数回で推定値が正確に

0

となった場合であっても，モデル平均化を用いると完全に

0

にならない問題が発生するため，各推定値の要素の中央値が

0

になった場合は

0

とした．提案したモデリング手法は，

ブートストラップ法を用いたモデル平均化法や重み付きの

Bagging

などと捉えることができる．

4 NEG 事前分布によるベイズ回帰モデリング

Bayesian lasso

において仮定した

Laplace

分布を

NEG

分布に置き換える．NEG分布に対応する正則化項は，

lasso

の正則化項よりも

0

の付近で尖頂であり，大きな回帰係数の値に対し平坦となることから，Bayesian lasso

よりも柔軟なスパース推定を行うと考えることができる．

NEG

分布は次のように定義される．

NEG(β | λ, γ) =

∫ _∞

0 ∫ _∞

0 N(β; 0, τ ² )Exp(τ ² ; ψ)Ga(ψ; λ, γ ² )dτ ² dψ = κ exp ( β ²

4γ ² )

D ₋ 2λ − 1

( | β | γ

)

. (4)

ただし，κ

= (2 ^λ /γ √

π)Γ(λ + 1/2)

であり，関数

D

は放物柱関数

(parabolic cylinder function)

である．また，

Exp(x; λ)

は指数分布であり，Ga(x;

k, θ)

はガンマ分布である．

NEG

事前分布による最適化問題のベイズへの拡張を考える．回帰係数ベクトル

β

に事前分布

π(β j | σ ² ) =

∏ p j=1

√ 1

σ ² NEG ( β j

√ σ ² λ, γ

)

(5)

を仮定することで事後分布は単峰性をもつ．事前分布の階層化により，それぞれ次の事前分布を得る．

π(β | σ ² , τ ₁ ² , · · · , τ _p ² ) =

∏ p j=1

√ 1 2πσ ² τ _j ²

exp (

− β ² _j 2σ ² τ _j ²

) ,

π(τ ₁ ² , · · · , τ _p ² | ψ 1 , · · · , ψ p ) =

∏ p j=1

ψ j exp (

− ψ j τ _j ² ) ,

π(ψ 1 , · · · , ψ p ) =

∏ p j=1

(γ ² ) ^λ

Γ(λ) ψ _j ^λ ⁻ ¹ exp (

− γ ² ψ j

) .

また，σ

²

には逆ガンマ事前分布

IG(ν 0 /2, η 0 /2)

を仮定する．各パラメータ

β, σ ² , τ ₁ ² , · · · , τ _p ² , ψ 1 , · · · , ψ p

に対し，

ギブスサンプリングの実行を可能とする定式化を行うことでベイズ推定を行う．

本研究では，NEG事前分布を利用したベイズスパースモデリングに対する情報量基準

GIC

とモデル評価基準

GBIC

を導出し，ハイパーパラメータの選択を行った．

5 NEG 分布を利用した fused lasso 型ベイズモデリング

Fused lasso (Tibshirani et al., 2005)

は，回帰係数に加え，隣り合う回帰係数の差にも

L 1

ノルム罰則項を課したもので，順序付けられた説明変数に対して，この順序も考慮に入れた縮小推定法として有効に機能し，生命科学や画像処理など様々な分野で有用な手法として注目を集めている．本研究では，

fused lasso

に対し

NEG

分布に基づくベイズスパースモデリングを提案した．違うグループの変数がはっきりと分かれた推定値を得ることで，既存手法よりも予測とモデリングの精度を向上させる．

Bayesian fused lasso (Kyung et al., 2010)

では，回帰係数ベクトル

β

の事前分布を

Laplace

分布の積

π(β | σ ² ) ∝ (σ ² ) ⁻ ^(2p ⁻ ^1)/2

∏ p j=1

exp (

− √ λ 1

σ ² | β j | ) ∏ ^p

j=2

exp (

− √ λ 2

σ ² | β j − β j − 1 | )

で仮定した．本研究では，回帰係数の差に対する

Laplace

分布を

NEG

分布に置き換えることで，次の事前分布を提案した．

π(β | σ ² ) ∝ (σ ² ) ⁻ ^(2p ⁻ ^1)/2

∏ p j=1

Laplace ( β j

√ σ ² λ 1

) ∏ p j=2

NEG

( β j − β j − 1

√ σ ²

λ 2 , γ 2

) .

3

(4)

NEG

罰則は

L 1

罰則に比べ，0に近いほど大きな罰則をかけ，0から離れているほど小さな罰則をかけることができた．したがって，隣り合う回帰係数の差に

NEG

罰則をかけることにより，真に変数のグループが同じものは同じと推定し，グループが違うもの同士の距離をできるだけ縮めることなく推定を行う．

この事前分布に対し，NEG分布と

Laplace

分布の積分表現を利用すると次のようになる．

π(β | σ ² ) ∝

∫ . . .

∫ ∏ ^p

j=1

√ 1 2πσ ² τ _j ²

exp (

− β _j ² 2σ ² τ _j ²

) _p

∏

j=1

λ ² ₁ 2 exp

(

− λ ² ₁ τ _j ² 2

)

×

∏ p j=2

√ 1 2πσ ² e τ _j ²

exp {

− (β j − β j − 1 ) ² 2σ ² e τ _j ²

} _p

∏

j=2

ψ j exp ( ψ j e τ _j ² )

×

∏ p j=2

(γ ₂ ² ) ^λ

²

Γ(λ 2 ) ψ ^λ _j

²

⁻ ¹ exp (

− γ ₂ ² ψ _j ) ∏ ^p

j=1

dτ _j ²

∏ p j=2

d e τ _j ²

∏ p j=2

dψ _j .

これにより，β, τ

₁ ² , τ ₂ ² , · · · , τ _p ² , e τ ₂ ² , τ e ₃ ² , · · · , e τ _p ² , ψ 2 , ψ 3 , · · · , ψ p

の事前分布を再定義することで全条件分布が求められ，ギブスサンプリングによるベイズ推定が可能である．

本研究では，fused lassoの一般系である

generalized fused lasso

に対しても同様のベイズスパースモデリングを行った．また，ギブスサンプリングによるベイズ推定における罰則項が完全に

0

と推定されない問題を克服する計算アルゴリズムを提案した．更に，fused lasso型スパースモデリングのハイパーパラメータ選択にモデル評価基準

EBIC

を利用することを提案した

(Shimamura et al., 2016)．

6 今後の研究課題

今回提案した手法に対し，シミュレーションと実データ解析による数値実験を通して有効性を検証した．今後の課題として，他の実データへの応用を行い，それぞれの実データの特徴を捉えた手法の開発を行いたい．また，

他の評価方法との比較検討とベイズスパース回帰モデリングの統一的な理論研究を行いたい．

参考文献

[1] Burnham, K. P. and Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. Springer, New York.

[2] Kawano, S., Hoshina, I., Shimamura, K. and Konishi, S. (2015). Predictive model selection criteria for Bayesian lasso regression. Journal of the Japanese Society of Computational Statistics, 28, 67–82.

[3] Konishi, S., Ando, T. and Imoto, S. (2004). Bayesian information criteria and smoothing parameter selection in radial basis function networks. Biometrika, 91, 27–43.

[4] Konishi, S. and Kitagawa, G. (1996). Generalized information criteria in model selection. Biometrika, 83, 875–890.

[5] Kitagawa, G. (1997). Information criteria for the predictive evaluation of Bayesian models. Communication in Statistics-Theory and Methods, 26, 2223–2246.

[6] Kyung, M., Gill, J., Ghosh, M. and Casalla, G. (2010). Penalized regression, standard error, and Bayesian lasso. Bayesian Analysis, 5(2), 369–412.

[7] Park, T. and Casella, G. (2008). The Bayesian lasso. Journal of the American Statistical Association, 103, 681–686.

[8]

嶋村海人,川野秀一,小西貞則

(2014).

モデル平均化法による

Bayesian lasso

回帰モデリング.日本計算機統計学会第

28

回シンポジウム講演論文集, 27–30.

[9]

嶋村海人,川野秀一,小西貞則

(2015).

モデル平均化法による

Bayesian lasso

回帰モデリング.応用統計学会論文誌応用統計学, Vol. 44, No. 3. (印刷中)

[10]

嶋村海人,植木優夫,小西貞則

(2015). Bayesian generalized fused lasso via NEG distribution. 2015

年度統計関連学会連合大会講演報告集, 170.

[11] Shimamura, K., Ueki, M., Kawano, S. and Konishi, S. (2016). Bayesian generalized fused lasso modeling via NEG distribution. (投稿中) Cornell University Library, arXiv:1602.04910.

[12] Tibshirani, R. (1996). Regression shrinkage and selection via lasso. Journal of the Royal Statistical Society Series B, 58, 267–288.

[13] Tibshirani, R., Saunders, M., Rosset, S., Zhu, J. and Knight, K. (2005). Sparsity and smoothness via the fused lasso. J. Roy. Statist. Soc. Ser. B, 67, 91–108.

ベイズアプローチによるスパースモデリングとモデル選択 Bayesian sparse modeling and model selection