過分散カウントデータのベイズモデリングにおける モデル選択基準の評価とその応用
数学専攻 大里 隆也
1 はじめに
カウントデータとは, ある事象が決まった時間内に起こった回数を数え上げて得られる非負整数値をとる データのことである. マーケティングにおける顧客の購買回数やスポーツの得点データなどカウントデータの 多くはポアソン分布に従うことが知られ, これらの予測や要因分析にはポアソン回帰モデルが広く適用されて いる. しかし, ポアソン回帰モデルによるモデリングでは, 観測されるカウントデータがゼロの値を多くもつ (ゼロ過剰)という性質や, 過分散(モデルの理論的な分散の値に対し実際のデータの分散が大きくなる)という 性質などをもつ場合当てはまりが悪くなる. この問題に対し,ゼロ過剰ポアソンモデル(Lambert, 1992)や混 合効果モデル(Schall, 1991),ポアソン混合モデル(Lawless, 1987)など様々な方法が提案されている. 予測精 度が高いモデルを構築するためには,これらから最適なモデルを選ぶ必要がある. ベイズ的な枠組みの中で用い られる情報量規準としてはBIC(Schwarz, 1978)やDIC(Spiegelhalter et al., 2002)があり,多くの研究で適 用されている. とくにDICに関しては現在様々な理論的研究が行われている. 例えば,予測の観点からDICを 修正したものとしてBPIC(Ando, 2006),混合モデル等欠測値を含んだモデルに対するDICの扱い(Celeux, 2006)についてがある. 本研究では,過分散やゼロ過剰の状態のカウントデータに対し, DICやCeleuxが提案 したDIC型の情報量規準, Andoが提案した情報量規準, BICによるモデル選択の正当性を検証することを目 的とする. 最もシンプルな単回帰モデルを例にして,数値実験で情報量規準の精度をリスクの観点から評価し, その正当性について考察する. また,実例として野球の得点データに対するモデリングを行う. 本論文の構成は 次の通りである. まず第2節においてカウントデータに対する回帰モデルを概説する. 次に, 第3節において ベイズモデルに対する情報量規準および欠測値を含むモデルに対するDICについて詳しく述べる. 第4節で は数値実験により情報量規準の検証を行い,第5節では野球の得点分布に対する実例を紹介する. 最後に第6 節において結論を述べる.
2 カウントデータに対する回帰モデル 2.1 ポアソン混合回帰モデル
ポアソン分布の過分散問題を解決するためのモデルとして
Y ∼
Poisson(µ1) with prob. p1, Poisson(µ2) with prob. p2,
...
Poisson(µM) with prob. pM,
log(µj) =x0αj
と表現できる. ポアソン混合分布モデル(Lawless, 1987)がある. と表現する回帰モデルである.
2.2
混合効果モデル過分散問題を解決するためのモデルとして混合効果ポアソン回帰モデル(Schall, 1991)がある. 混合効果ポ アソン回帰モデルは誤差分布にポアソン分布を仮定し, ポアソン分布の期待値に対して個体ごとに変動する変
1
量効果項vをを考慮した回帰モデルであり,モデルは
f(y) =exp(−µi)µyi
y! ,log(µi) =x0iα+vi
と表現される.
2.3
ゼロ過剰ポアソン回帰モデルポアソン分布のゼロ過剰問題を解決するためのモデルとして,
Y ∼
{ 0 with prob. p
Poisson(µ) with prob. (1−p) , log(µ) =x0α と表現されるゼロ過剰ポアソン分布モデル(Lambert, 1992)がある.
2.4
推定パラメータの推定法としては最尤推定などがある. 前述したモデルは,欠測値を含むため,最尤推定はEMア ルゴリズム等の数値的な方法により,実現できる. しかしながら本論文では,混合効果モデルなどパラメータ数 が多い場合やパラメータの事前情報を反映させる場合など広範囲な状況を想定し, ベイズモデリングを扱うこ ととする.
3 ベイズモデルにおけるモデル選択基準
予測精度の良いモデルを構築するためには, 候補となるモデルの中から適切なモデルを選択することが重要 となる. 情報量規準はモデル選択の基準となる指標である.
3.1 Bayesian Information Criteria
ベイズファクターの対数の近似として得られるのが
−2 log{f(y|θ)˜}+plogn.
で与えられるBIC(Schwarz, 1978)である. ただし,pはモデルのパラメータ数である. BICは一般的には最尤 法により推定されたモデルを評価する基準であるが,ベイズモデリングの研究においてもよく用いられる.
3.2 Deviance Information Criteria
DICは,将来発生するデータに対するモデルの当てはまりを評価する情報量規準であり, DIC =−Eθ|y[2 log{f(y|θ)}] +pD
pD=2 log{f(x|θ)˜} −Eθ|y[2 log{f(x|θ)}]
で与えられる. しかしながら, DICによるベイズモデルに対するモデル選択には2 つの大きな問題がある. DICは混合モデルなど欠測値を含んだモデルに対する尤度が一意ではないこととデータをパラメータ推定と DICにおいてモデルの複雑さを表すpDの精度が不十分になり, DICは複雑なモデルを選ぶ傾向があることが 挙げられている.
2
3.3
欠測値に対するDIC
Celeux(2006)では, DICに欠測値を考慮するような尤度を3つの方法で検証した. Observed DICは観測値 の尤度を用いたものであり,
DICob=−4Eθ[logf(y|θ)|y] + 2 logf(y|θ(y))˜
で与えられる. Complete DICは, EMアルゴリズムと同様に欠測値と観測値の同時分布に基づく尤度を考え, 欠測値について期待値をとり算出するものであり,
DICc=−4Eθ[EZ{logf(y,Z|θ)|y}] + 2EZ{logf(y,Z|θ(y,˜ Z))}
で与えられる. Conditional DICは,欠測値を与えられたものとして扱い,欠測値について期待値をとり算出す るものであり, ,
DICcd=−4Eθ[EZ{logf(y|Z, θ)|y}] + 2EZ{logf(y|Z,θ(y,˜ Z))}
で与えられる.
3.4 Bayesian Predictive Information Criteria(BPIC)
BPICは, 統計モデルf(y|θ)があるθ0に対して真のモデルg(y)と一致する,もしくは真のモデルが近くに 存在している,そして標本数が大きいとき事前分布の影響が非常に小さくなるという条件のもとで
BPIC =−2Eθ[logf(y|θ)|y] + 2p となる.
4 数値実験
回帰モデルのなかで最も簡単な単回帰モデルを用いて100個のデータ生成を行い,そのデータに対して6種 類の統計モデルを当てはめその中から上述の情報量規準でモデル選択する. リスクの推定値で統計モデルの当 てはまり評価をし, 情報量規準で選択されているモデルがリスクの少ないモデルかどうかで行っていく. 表の 情報量規準の行の値はモデルの選択率を示している.
5 まとめ
数値実験の結果から, 過分散やゼロ過剰カウントデータに対してベイズモデリングを行う際は, Obsereved DICが予測の観点から最適である.
表1 生成データ1番に対する数値実験結果
Poisson MEP ZIP MEZIP MP ZIMP
リスク 286. 64 287. 13 287. 29 287. 47 287. 54 288. 23
BIC 0. 98 0. 00 0. 02 0. 00 0. 00 0. 00
Observed DIC 0. 72 0. 00 0. 17 0. 02 0. 80 0. 01 Conditional DIC 0. 00 0. 00 0. 10 0. 87 0. 10 0. 20
BPIC1 0. 96 0. 00 0. 4 0. 00 0. 00 0. 00
3
表2 生成データ2番に対する数値実験結果
Poisson MEP ZIP MEZIP MP ZIMP
リスク 318. 46 326. 00 316. 95 434. 03 315. 28 315. 61
BIC 0. 66 0. 00 0. 24 0. 00 0. 10 0. 00
Obsereved DIC 0. 26 0. 00 0. 19 0. 00 0. 44 0. 01 Conditional DIC 0. 00 0. 00 0. 21 0. 34 0. 21 0. 24
BPIC 0. 59 0. 00 0. 20 0. 00 0. 21 0. 00
表3 生成データ3番に対する数値実験結果
Poisson MEP ZIP MEZIP MP ZIMP
リスク 279. 26 279. 53 272. 12 272. 80 273. 53 272. 64
BIC 0. 29 0. 00 0. 69 0. 00 0. 02 0. 00
Obsereved DIC 0. 90 0. 00 0. 44 0. 13 0. 12 0. 22 Conditional DIC 0. 40 0. 00 0. 00 0. 24 0. 62 0. 14
BPIC 0. 30 0. 00 0. 61 0. 03 0. 05 0. 00
表4 生成データ4番に対する数値実験結果
Poisson MEP ZIP MEZIP MP ZIMP
リスク 285. 65 301. 55 254. 37 276. 37 254. 80 253. 33
BIC 0. 00 0. 00 0. 91 0. 00 0. 08 0. 01
Obsereved DIC 0. 00 0. 00 0. 42 0. 00 0. 16 0. 43 Conditional DIC 0. 00 0. 00 0. 20 0. 65 0. 00 0. 15
BPIC 0. 01 0. 00 0. 78 0. 00 0. 18 0. 03
表5 生成データ5番に対する数値実験結果
Poisson MEP ZIP MEZIP MP ZIMP
リスク 347. 53 366. 98 321. 39 348. 93 316. 31 314. 59
BIC 0. 01 0. 00 0. 52 0. 00 0. 35 0. 13
Observed DIC 0. 00 0. 00 0. 12 0. 00 0. 34 0. 54 Conditional DIC 0. 00 0. 00 0. 09 0. 50 0. 00 0. 41
BPIC 0. 00 0. 00 0. 38 0. 00 0. 42 0. 20
参考文献
[1] Ando, T. (2007). Bayesian predictive information criterion for the evaluation of hierarchical Bayesian and empirical Bayes models.Biometrika.94, 2, 443-458.
[2] Celeux,G., Forbes,F.,Robert,C.P.,and Titterington,D.D(2003). DEVIANCE INFORMATION CRI- TERIA FOR MISSING DATA MODELS.Technical report 4859. Unite de recherche INRIA Rhˆone- Alpes, Rhˆone-Alpes, France.
[3] Schwarz, G. (1978). Estimating the dimension of model.Annals of Statistics.6, 461-464.
[4] Spiegelhalter, D. J. , Best, N. G. , Carlin, B. P. , and Van Der Linde, A. (2002). Bayesian measures of model complexity and fit(with Discussion).J. R. Statist. Soc. B.64, 583-639.
4