2 カウントデータに対する回帰モデル 2.1 ポアソン混合回帰モデル

(1)

過分散カウントデータのベイズモデリングにおけるモデル選択基準の評価とその応用

数学専攻大里隆也

1 はじめに

カウントデータとは, ある事象が決まった時間内に起こった回数を数え上げて得られる非負整数値をとるデータのことである. マーケティングにおける顧客の購買回数やスポーツの得点データなどカウントデータの多くはポアソン分布に従うことが知られ, これらの予測や要因分析にはポアソン回帰モデルが広く適用されている. しかし, ポアソン回帰モデルによるモデリングでは, 観測されるカウントデータがゼロの値を多くもつ (ゼロ過剰)という性質や, 過分散(モデルの理論的な分散の値に対し実際のデータの分散が大きくなる)という性質などをもつ場合当てはまりが悪くなる. この問題に対し,ゼロ過剰ポアソンモデル(Lambert, 1992)や混合効果モデル(Schall, 1991),ポアソン混合モデル(Lawless, 1987)など様々な方法が提案されている. 予測精度が高いモデルを構築するためには,これらから最適なモデルを選ぶ必要がある. ベイズ的な枠組みの中で用いられる情報量規準としてはBIC(Schwarz, 1978)やDIC(Spiegelhalter et al., 2002)があり,多くの研究で適用されている. とくにDICに関しては現在様々な理論的研究が行われている. 例えば,予測の観点からDICを修正したものとしてBPIC(Ando, 2006),混合モデル等欠測値を含んだモデルに対するDICの扱い(Celeux, 2006)についてがある. 本研究では,過分散やゼロ過剰の状態のカウントデータに対し, DICやCeleuxが提案したDIC型の情報量規準, Andoが提案した情報量規準, BICによるモデル選択の正当性を検証することを目的とする. 最もシンプルな単回帰モデルを例にして,数値実験で情報量規準の精度をリスクの観点から評価し, その正当性について考察する. また,実例として野球の得点データに対するモデリングを行う. 本論文の構成は次の通りである. まず第2節においてカウントデータに対する回帰モデルを概説する. 次に, 第3節においてベイズモデルに対する情報量規準および欠測値を含むモデルに対するDICについて詳しく述べる. 第4節では数値実験により情報量規準の検証を行い,第5節では野球の得点分布に対する実例を紹介する. 最後に第6 節において結論を述べる.

2 カウントデータに対する回帰モデル 2.1

ポアソン混合回帰モデル

ポアソン分布の過分散問題を解決するためのモデルとして

Y ∼











Poisson(µ₁) with prob. p₁, Poisson(µ₂) with prob. p₂,

...

Poisson(µM) with prob. pM,

log(µ_j) =x⁰α_j

と表現できる. ポアソン混合分布モデル(Lawless, 1987)がある. と表現する回帰モデルである.

2.2

混合効果モデル

過分散問題を解決するためのモデルとして混合効果ポアソン回帰モデル(Schall, 1991)がある. 混合効果ポアソン回帰モデルは誤差分布にポアソン分布を仮定し, ポアソン分布の期待値に対して個体ごとに変動する変

1

(2)

量効果項vをを考慮した回帰モデルであり,モデルは

f(y) =exp(−µi)µ^y_i

y! ,log(µi) =x⁰_iα+vi

と表現される.

2.3

ゼロ過剰ポアソン回帰モデル

ポアソン分布のゼロ過剰問題を解決するためのモデルとして,

Y ∼

{ 0 with prob. p

Poisson(µ) with prob. (1−p) , log(µ) =x⁰α と表現されるゼロ過剰ポアソン分布モデル(Lambert, 1992)がある.

2.4

推定

パラメータの推定法としては最尤推定などがある. 前述したモデルは,欠測値を含むため,最尤推定はEMアルゴリズム等の数値的な方法により,実現できる. しかしながら本論文では,混合効果モデルなどパラメータ数が多い場合やパラメータの事前情報を反映させる場合など広範囲な状況を想定し, ベイズモデリングを扱うこととする.

3 ベイズモデルにおけるモデル選択基準

予測精度の良いモデルを構築するためには, 候補となるモデルの中から適切なモデルを選択することが重要となる. 情報量規準はモデル選択の基準となる指標である.

3.1 Bayesian Information Criteria

ベイズファクターの対数の近似として得られるのが

−2 log{f(y|θ)˜}+plogn.

で与えられるBIC(Schwarz, 1978)である. ただし,pはモデルのパラメータ数である. BICは一般的には最尤法により推定されたモデルを評価する基準であるが,ベイズモデリングの研究においてもよく用いられる.

3.2 Deviance Information Criteria

DICは,将来発生するデータに対するモデルの当てはまりを評価する情報量規準であり, DIC =−Eθ|y[2 log{f(y|θ)}] +pD

p_D=2 log{f(x|θ)˜} −E_θ_|_y[2 log{f(x|θ)}]

で与えられる. しかしながら, DICによるベイズモデルに対するモデル選択には2 つの大きな問題がある. DICは混合モデルなど欠測値を含んだモデルに対する尤度が一意ではないこととデータをパラメータ推定と DICにおいてモデルの複雑さを表すp_Dの精度が不十分になり, DICは複雑なモデルを選ぶ傾向があることが挙げられている.

2

(3)

3.3

欠測値に対する

DIC

Celeux(2006)では, DICに欠測値を考慮するような尤度を3つの方法で検証した. Observed DICは観測値の尤度を用いたものであり,

DIC_ob=−4E_θ[logf(y|θ)|y] + 2 logf(y|θ(y))˜

で与えられる. Complete DICは, EMアルゴリズムと同様に欠測値と観測値の同時分布に基づく尤度を考え, 欠測値について期待値をとり算出するものであり,

DIC_c=−4E_θ[E_Z{logf(y,Z|θ)|y}] + 2E_Z{logf(y,Z|θ(y,˜ Z))}

で与えられる. Conditional DICは,欠測値を与えられたものとして扱い,欠測値について期待値をとり算出するものであり, ,

DIC_cd=−4E_θ[E_Z{logf(y|Z, θ)|y}] + 2E_Z{logf(y|Z,θ(y,˜ Z))}

で与えられる.

3.4 Bayesian Predictive Information Criteria(BPIC)

BPICは, 統計モデルf(y|θ)があるθ₀に対して真のモデルg(y)と一致する,もしくは真のモデルが近くに存在している,そして標本数が大きいとき事前分布の影響が非常に小さくなるという条件のもとで

BPIC =−2E_θ[logf(y|θ)|y] + 2p となる.

4 数値実験

回帰モデルのなかで最も簡単な単回帰モデルを用いて100個のデータ生成を行い,そのデータに対して6種類の統計モデルを当てはめその中から上述の情報量規準でモデル選択する. リスクの推定値で統計モデルの当てはまり評価をし, 情報量規準で選択されているモデルがリスクの少ないモデルかどうかで行っていく. 表の情報量規準の行の値はモデルの選択率を示している.

5 まとめ

数値実験の結果から, 過分散やゼロ過剰カウントデータに対してベイズモデリングを行う際は, Obsereved DICが予測の観点から最適である.

表1 生成データ1番に対する数値実験結果

Poisson MEP ZIP MEZIP MP ZIMP

リスク 286. 64 287. 13 287. 29 287. 47 287. 54 288. 23

BIC 0. 98 0. 00 0. 02 0. 00 0. 00 0. 00

Observed DIC 0. 72 0. 00 0. 17 0. 02 0. 80 0. 01 Conditional DIC 0. 00 0. 00 0. 10 0. 87 0. 10 0. 20

BPIC1 0. 96 0. 00 0. 4 0. 00 0. 00 0. 00

3

(4)

リスク 318. 46 326. 00 316. 95 434. 03 315. 28 315. 61

BIC 0. 66 0. 00 0. 24 0. 00 0. 10 0. 00

Obsereved DIC 0. 26 0. 00 0. 19 0. 00 0. 44 0. 01 Conditional DIC 0. 00 0. 00 0. 21 0. 34 0. 21 0. 24

BPIC 0. 59 0. 00 0. 20 0. 00 0. 21 0. 00

リスク 279. 26 279. 53 272. 12 272. 80 273. 53 272. 64

BIC 0. 29 0. 00 0. 69 0. 00 0. 02 0. 00

BPIC 0. 30 0. 00 0. 61 0. 03 0. 05 0. 00

リスク 285. 65 301. 55 254. 37 276. 37 254. 80 253. 33

BIC 0. 00 0. 00 0. 91 0. 00 0. 08 0. 01

BPIC 0. 01 0. 00 0. 78 0. 00 0. 18 0. 03

リスク 347. 53 366. 98 321. 39 348. 93 316. 31 314. 59

BIC 0. 01 0. 00 0. 52 0. 00 0. 35 0. 13

Observed DIC 0. 00 0. 00 0. 12 0. 00 0. 34 0. 54 Conditional DIC 0. 00 0. 00 0. 09 0. 50 0. 00 0. 41

BPIC 0. 00 0. 00 0. 38 0. 00 0. 42 0. 20

参考文献

[1] Ando, T. (2007). Bayesian predictive information criterion for the evaluation of hierarchical Bayesian and empirical Bayes models.Biometrika.94, 2, 443-458.

[2] Celeux,G., Forbes,F.,Robert,C.P.,and Titterington,D.D(2003). DEVIANCE INFORMATION CRI- TERIA FOR MISSING DATA MODELS.Technical report 4859. Unite de recherche INRIA Rhˆone- Alpes, Rhˆone-Alpes, France.

[3] Schwarz, G. (1978). Estimating the dimension of model.Annals of Statistics.6, 461-464.

[4] Spiegelhalter, D. J. , Best, N. G. , Carlin, B. P. , and Van Der Linde, A. (2002). Bayesian measures of model complexity and fit(with Discussion).J. R. Statist. Soc. B.64, 583-639.

4