• 検索結果がありません。

ベイズアプローチによるスパースモデリングとモデル選択 Bayesian sparse modeling and model selection

N/A
N/A
Protected

Academic year: 2021

シェア "ベイズアプローチによるスパースモデリングとモデル選択 Bayesian sparse modeling and model selection"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

ベイズアプローチによるスパースモデリングとモデル選択 Bayesian sparse modeling and model selection

数学専攻 嶋村 海人

SHIMAMURA, Kaito

1 はじめに

これまで,回帰モデリングでは,最尤法や最小2乗法で推定したモデルを情報量規準などで評価して,モデル を選択する一連のプロセスが有効に機能してきた.しかしながら,多数の説明変数を含む高次元データを分析の 対象とする場合には,従来手法は有効に機能せず,正則化法など新たな手法が理論的・数値的に研究されている.

修士論文ではベイズアプローチによる3つのスパースモデリングを提案した.第

1

に,Bayesian lassoによるガ ウス型線形回帰モデルの枠組みのもとで,

Kawano et al. (2015)

で提案された近似予測情報量規準によるハイパー パラメータの選択方法に着目し,計算量削減のためのハイパーパラメータの事前決定法を提案した

(日本計算機統

計学会報告集, 2014).また,構築したモデルの推定値の変動を抑えるために,リサンプリング法とモデル平均化法

(Burnham and Anderson, 2002)

を融合した新たなモデリング手法を提案した

(嶋村 他, 2015).第 2

に,Bayesian

lasso

のいくつかの問題点を克服するために,Laplace分布に替えて,NEG (normal-exponential-gamma)分布を 事前分布としたベイズスパースモデリングを提案した.

NEG

分布を事前分布とした

lasso

型正則化法は,

Laplace

分布に基づくものと比べて,柔軟に正則化項を設定できることから,より精度の高いモデルを構築することがで きる.また,スパースモデリングの本質的な問題であるスパースの程度を制御する正則化パラメータを適切に 選択するために,一般化情報量規準

GIC (Konishi and Kitagawa, 1996)

および一般化ベイズ型モデル評価基準

GBIC (Konishi, Ando and Imoto, 2004)

を導いた.第

3

に,fused lassoおよび

generalized fused lasso

に対し

NEG

分布に基づくベイズスパースモデリングを提案した

(Shimamura et al., 2016)

.NEG分布は

L 1

ノルム罰 則項に対応する

Laplace

分布に比べ,0の付近では先鋭であり,すそでは平坦であるため,lassoよりも偏りの少 ない推定が可能である.また,より汎用性の高いスパースなモデルの構築に有用である.

2 Bayesian lasso

目的変数

Y

p

個の説明変数

x = (x 1 , · · · , x p ) T

に関して

n

組のデータ

{ (y i , x i ); i = 1, 2, · · · , n }

が観測さ れたとする.ただし,x

i = (x i1 , · · · , x ip ) T

とする.ここで,一般性を失うことなく,

n

i=1 y i = 0, ∑ n

i=1 x ij = 0, ∑ n

i=1 x 2 ij = n (j = 1, 2, · · · , p)

と基準化する.このとき,ガウス型線形回帰モデルは

y = + ϵ, ϵ N n

( 0, σ 2 I n

) (1)

で与えられる.ただし,y

= (y 1 , y 2 , · · · , y n ) T

n

次元観測値ベクトル,X

= (x 1 , x 2 , · · · , x n ) T

n × p

計画行 列,β

= (β 1 , β 2 , · · · , β p ) T

p

次元回帰係数ベクトル,ϵ

= (ϵ 1 , ϵ 2 , · · · , ϵ n ) T

n

次元誤差ベクトルとする.ま た,尤度を

f (y | β, σ 2 )

と表す.しかしながら,変数の個数

p

がデータ数

n

よりも大きい場合などには,最尤法な どの推定法は有効に機能しないため,次に述べる

lasso

のような正則化法によるモデルの推定が必要となる.

Lasso

は,対数尤度関数に回帰係数の絶対値の和を罰則項として課した次のような目的関数の最大化に基づく

方法であり,回帰係数を真に

0

と推定する性質(これをスパース性と呼ぶ)があることから,モデルの推定と変 数選択を同時に実行できる手法として知られている.

max β

 

 log f (y | β, σ 2 ) λ

p j=1

| β j |

 

. (2)

ただし,λ

(> 0)

は正則化パラメータと呼ばれ,選択する変数の個数を調整するパラメータである.

一般に,正則化法による推定をベイズの観点から捉えると,回帰係数ベクトル

β

はデータ

y

に対して ,事後 分布

π(β | y)

のモードとして推定される.Lassoは,線形回帰モデルの各回帰係数に

Laplace

分布を事前分布とし

1

(2)

て想定したときの回帰係数ベクトルの事後分布のモード推定として特徴付けられる.Park and Casella (2008)

よる

Bayesian lasso

では,Laplace分布の正規尺度混合分布による表現を利用し事前分布を設定し直すことで,

ギブスサンプリングによるパラメータのベイズ推定を行っている.

3 モデル平均化法による Bayesian lasso 推定

構築したモデルの汎化能力は,事前分布を規定するハイパーパラメータの値に依存しているため,この値の選 択がモデリングの過程において本質的な問題となる.また,従来手法によるモデリングは,モデル選択の信頼性 に欠ける.これらの問題に対処するために,リサンプリング法とモデル平均化法を組み合わせた

Bayesian lasso

回帰モデリングを提案した.

3.1

ハイパーパラメータの事前決定

Kawano et al. (2015)

では,Baysian lassoにおいて,ベイズモデルに含まれるハイパーパラメータの値を決定 するために,予測情報量規準

PIC (Kitagawa, 1997)

に基づいて近似予測情報量規準

aPIC

を導出した.Bayesian

lasso

における

PIC

は導出が困難であり,aPIC では事前分布の近似を利用して予測分布と真のモデルの分布

の間の

Kullback-Leibler

情報量を導出した.実際には,Bayesian lasso における回帰係数ベクトルの事前分布

Laplace(β | λ/σ)

Kullback-Leibler

情報量を最小とする正規分布

N p| 0,2 2 I p )

で近似することで求めた.

したがって,aPICには近似した正規分布の推定値が用いられている.そのため,情報量規準を利用した一般的 なハイパーパラメータ決定のプロセスとは違い,Bayesian lassoにおけるギブスサンプリングを実行し,推定値 を計算する前に,最適なハイパーパラメータを選択する方法が考えられる.

近似事前分布

N p| 0,2 2 I p )

により,回帰係数ベクトルと分散の推定値は次のように求められる.

β ˆ n = { X T X + (λ 2 /2)I p } 1 X T y, σ ˆ 2 = (η 0 + y T y β ˆ T n { X T X + (λ 2 /2)I p } 1 β ˆ n )/2

(n + ν 0 )/2 + 1 .

ただし,σ

2

には逆ガンマ事前分布

IG(ν 0 /2, η 0 /2)

を仮定した.これらを用いることにより,aPICと同様に

AIC

BIC

でもハイパーパラメータの事前決定を行うことができる.

これにより,高い計算コストを必要とするギブスサンプリングの推定を,従来手法では

λ

の候補点分行わなけ ればならなかったことに対し,事前決定では1回行うだけで十分である.したがって,この操作により計算コス トの大幅な削減が可能となる

(嶋村 他, 2015).

3.2

提案手法:ブートストラップモデル平均化法による

Bayesian lasso

ハイパーパラメータの事前決定を利用し,構築したモデルの推定値の変動を抑えるために,リサンプリング法 とモデル平均化法

(Burnham and Anderson, 2002)

を融合した新たなモデリングを提案した

(嶋村 他, 2015).

観測データ

Data = { (y 1 , x 1 ), · · · , (y n , x n ) }

に対し,リサンプリングを行う.ここで,リサンプリング法によっ て新しく得られた

B

個のリサンプリングデータを

Data (b) = { (y 1 , x 1 ), · · · , (y m , x m ) } (b = 1, · · · , B)

とする.K 個のハイパーパラメータの候補点

λ 1 , · · · , λ K

を定め,候補から

Data (b)

に対する最適なハイパーパラメータ

λ ˆ (b)

を,ハイパーパラメータの事前決定により求める.次に,その

ˆ λ (b)

に基づき

Bayesian lasso

によるギブスサン プリングを実行し,回帰係数ベクトルの推定値

β ˆ (b)

を得る.また,そのときの最適な情報量規準の値を

IC (b)

する.

推定したモデルの良さを相対的に評価するために,重みを次のように定義する.

w (b) = exp (

1 2 ∆IC (b)

) / ∑ B b

=1

exp (

1 2 ∆IC (b

)

)

. (3)

ここで,情報量規準値

IC (b)

の最小値を

ICmin

とし,それらの差より

∆IC (b) = IC (b) ICmin

とする.

このように定義された重みを用い,回帰係数を次のように推定する.

β ˆ j =

 

 

 

 0,

( median

{ β ˆ j (b) ; b = 1, · · · , B }

= 0 )

B ,

b=1 w (b) I j (M (b) ) ˆ β j (b)

B

b=1 w (b) I j (M (b) ) , (otherwise) ,

j = 1, · · · , p.

2

(3)

ただし,B回中の多数回で推定値が正確に

0

となった場合であっても,モデル平均化を用いると完全に

0

になら ない問題が発生するため,各推定値の要素の中央値が

0

になった場合は

0

とした.提案したモデリング手法は,

ブートストラップ法を用いたモデル平均化法や重み付きの

Bagging

などと捉えることができる.

4 NEG 事前分布によるベイズ回帰モデリング

Bayesian lasso

において仮定した

Laplace

分布を

NEG

分布に置き換える.NEG分布に対応する正則化項は,

lasso

の正則化項よりも

0

の付近で尖頂であり,大きな回帰係数の値に対し平坦となることから,Bayesian lasso

よりも柔軟なスパース推定を行うと考えることができる.

NEG

分布は次のように定義される.

NEG(β | λ, γ) =

0

0

N(β; 0, τ 2 )Exp(τ 2 ; ψ)Ga(ψ; λ, γ 2 )dτ 2 = κ exp ( β 2

2 )

D 1

( | β | γ

)

. (4)

ただし,κ

= (2 λ

π)Γ(λ + 1/2)

であり,関数

D

は放物柱関数

(parabolic cylinder function)

である.また,

Exp(x; λ)

は指数分布であり,Ga(x;

k, θ)

はガンマ分布である.

NEG

事前分布による最適化問題のベイズへの拡張を考える.回帰係数ベクトル

β

に事前分布

π(β j | σ 2 ) =

p j=1

1

σ 2 NEG ( β j

σ 2 λ, γ

)

(5)

を仮定することで事後分布は単峰性をもつ.事前分布の階層化により,それぞれ次の事前分布を得る.

π(β | σ 2 , τ 1 2 , · · · , τ p 2 ) =

p j=1

√ 1 2πσ 2 τ j 2

exp (

β 2 j2 τ j 2

) ,

π(τ 1 2 , · · · , τ p 2 | ψ 1 , · · · , ψ p ) =

p j=1

ψ j exp (

ψ j τ j 2 ) ,

π(ψ 1 , · · · , ψ p ) =

p j=1

2 ) λ

Γ(λ) ψ j λ 1 exp (

γ 2 ψ j

) .

また,σ

2

には逆ガンマ事前分布

IG(ν 0 /2, η 0 /2)

を仮定する.各パラメータ

β, σ 2 , τ 1 2 , · · · , τ p 2 , ψ 1 , · · · , ψ p

に対し,

ギブスサンプリングの実行を可能とする定式化を行うことでベイズ推定を行う.

本研究では,NEG事前分布を利用したベイズスパースモデリングに対する情報量基準

GIC

とモデル評価基準

GBIC

を導出し,ハイパーパラメータの選択を行った.

5 NEG 分布を利用した fused lasso 型ベイズモデリング

Fused lasso (Tibshirani et al., 2005)

は,回帰係数に加え,隣り合う回帰係数の差にも

L 1

ノルム罰則項を課し たもので,順序付けられた説明変数に対して,この順序も考慮に入れた縮小推定法として有効に機能し,生命科 学や画像処理など様々な分野で有用な手法として注目を集めている.本研究では,

fused lasso

に対し

NEG

布に基づくベイズスパースモデリングを提案した.違うグループの変数がはっきりと分かれた推定値を得ること で,既存手法よりも予測とモデリングの精度を向上させる.

Bayesian fused lasso (Kyung et al., 2010)

では,回帰係数ベクトル

β

の事前分布を

Laplace

分布の積

π(β | σ 2 ) 2 ) (2p 1)/2

p j=1

exp (

λ 1

σ 2 | β j | ) ∏ p

j=2

exp (

λ 2

σ 2 | β j β j 1 | )

で仮定した.本研究では,回帰係数の差に対する

Laplace

分布を

NEG

分布に置き換えることで,次の事前分布 を提案した.

π(β | σ 2 ) 2 ) (2p 1)/2

p j=1

Laplace ( β j

σ 2 λ 1

) ∏ p j=2

NEG

( β j β j 1

σ 2

λ 2 , γ 2

) .

3

(4)

NEG

罰則は

L 1

罰則に比べ,0に近いほど大きな罰則をかけ,0から離れているほど小さな罰則をかけることが できた.したがって,隣り合う回帰係数の差に

NEG

罰則をかけることにより,真に変数のグループが同じもの は同じと推定し,グループが違うもの同士の距離をできるだけ縮めることなく推定を行う.

この事前分布に対し,NEG分布と

Laplace

分布の積分表現を利用すると次のようになる.

π(β | σ 2 )

. . .

∫ ∏ p

j=1

√ 1 2πσ 2 τ j 2

exp (

β j 22 τ j 2

) p

j=1

λ 2 1 2 exp

(

λ 2 1 τ j 2 2

)

×

p j=2

√ 1 2πσ 2 e τ j 2

exp {

j β j 1 ) 22 e τ j 2

} p

j=2

ψ j exp ( ψ j e τ j 2 )

×

p j=2

2 2 ) λ

2

Γ(λ 2 ) ψ λ j

2

1 exp (

γ 2 2 ψ j ) ∏ p

j=1

j 2

p j=2

d e τ j 2

p j=2

j .

これにより,β, τ

1 2 , τ 2 2 , · · · , τ p 2 , e τ 2 2 , τ e 3 2 , · · · , e τ p 2 , ψ 2 , ψ 3 , · · · , ψ p

の事前分布を再定義することで全条件分布が求めら れ,ギブスサンプリングによるベイズ推定が可能である.

本研究では,fused lassoの一般系である

generalized fused lasso

に対しても同様のベイズスパースモデリング を行った.また,ギブスサンプリングによるベイズ推定における罰則項が完全に

0

と推定されない問題を克服す る計算アルゴリズムを提案した.更に,fused lasso型スパースモデリングのハイパーパラメータ選択にモデル評 価基準

EBIC

を利用することを提案した

(Shimamura et al., 2016).

6 今後の研究課題

今回提案した手法に対し,シミュレーションと実データ解析による数値実験を通して有効性を検証した.今後 の課題として,他の実データへの応用を行い,それぞれの実データの特徴を捉えた手法の開発を行いたい.また,

他の評価方法との比較検討とベイズスパース回帰モデリングの統一的な理論研究を行いたい.

参考文献

[1] Burnham, K. P. and Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. Springer, New York.

[2] Kawano, S., Hoshina, I., Shimamura, K. and Konishi, S. (2015). Predictive model selection criteria for Bayesian lasso regression. Journal of the Japanese Society of Computational Statistics, 28, 67–82.

[3] Konishi, S., Ando, T. and Imoto, S. (2004). Bayesian information criteria and smoothing parameter selection in radial basis function networks. Biometrika, 91, 27–43.

[4] Konishi, S. and Kitagawa, G. (1996). Generalized information criteria in model selection. Biometrika, 83, 875–890.

[5] Kitagawa, G. (1997). Information criteria for the predictive evaluation of Bayesian models. Communication in Statistics-Theory and Methods, 26, 2223–2246.

[6] Kyung, M., Gill, J., Ghosh, M. and Casalla, G. (2010). Penalized regression, standard error, and Bayesian lasso. Bayesian Analysis, 5(2), 369–412.

[7] Park, T. and Casella, G. (2008). The Bayesian lasso. Journal of the American Statistical Association, 103, 681–686.

[8]

嶋村海人,川野秀一,小西貞則

(2014).

モデル平均化法による

Bayesian lasso

回帰モデリング.日本計算機統 計学会 第

28

回シンポジウム 講演論文集, 27–30.

[9]

嶋村海人,川野秀一,小西貞則

(2015).

モデル平均化法による

Bayesian lasso

回帰モデリング.応用統計学会 論文誌 応用統計学, Vol. 44, No. 3. (印刷中)

[10]

嶋村海人,植木優夫,小西貞則

(2015). Bayesian generalized fused lasso via NEG distribution. 2015

年度 統 計関連学会連合大会 講演報告集, 170.

[11] Shimamura, K., Ueki, M., Kawano, S. and Konishi, S. (2016). Bayesian generalized fused lasso modeling via NEG distribution. (投稿中) Cornell University Library, arXiv:1602.04910.

[12] Tibshirani, R. (1996). Regression shrinkage and selection via lasso. Journal of the Royal Statistical Society Series B, 58, 267–288.

[13] Tibshirani, R., Saunders, M., Rosset, S., Zhu, J. and Knight, K. (2005). Sparsity and smoothness via the fused lasso. J. Roy. Statist. Soc. Ser. B, 67, 91–108.

4

参照

関連したドキュメント

The present paper shows how to assess the contribution made by negative selection relative to other tolerisation mechanisms by deducing the impact of negative selection on the T

A Tabu search procedure is then used to select a subset of financial ratio variables which best predict bankruptcy from among a larger initial set of 20 variables, and use that

A Tabu search procedure is then used to select a subset of financial ratio variables which best predict bankruptcy from among a larger initial set of 20 variables, and use that

In Section 4, we define the location-scale proportional hazard normal model and different methods for parameter estimation; we derive the information matrix and discuss likelihood

Yin, “Markowitz’s mean-variance portfolio selection with regime switching: a continuous-time model,” SIAM Journal on Control and Optimization, vol... Li,

The system consists of five components namely: Data Converter, Initial Microdata Analyzer, Disclosure Method Selection, Disclosure Risk and Information Loss Analyzer, and

The random intercept models proposed before may be debatable for fitting repeated measures of weighted change in EDSS, since they underestimate the change for patients, whose

By employing the theory of topological degree, M -matrix and Lypunov functional, We have obtained some sufficient con- ditions ensuring the existence, uniqueness and global