• 検索結果がありません。

2 カウントデータに対する回帰モデル 2.1 ポアソン混合回帰モデル

N/A
N/A
Protected

Academic year: 2021

シェア "2 カウントデータに対する回帰モデル 2.1 ポアソン混合回帰モデル "

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

過分散カウントデータのベイズモデリングにおける モデル選択基準の評価とその応用

数学専攻 大里 隆也

1 はじめに

カウントデータとは, ある事象が決まった時間内に起こった回数を数え上げて得られる非負整数値をとる データのことである. マーケティングにおける顧客の購買回数やスポーツの得点データなどカウントデータの 多くはポアソン分布に従うことが知られ, これらの予測や要因分析にはポアソン回帰モデルが広く適用されて いる. しかし, ポアソン回帰モデルによるモデリングでは, 観測されるカウントデータがゼロの値を多くもつ (ゼロ過剰)という性質や, 過分散(モデルの理論的な分散の値に対し実際のデータの分散が大きくなる)という 性質などをもつ場合当てはまりが悪くなる. この問題に対し,ゼロ過剰ポアソンモデル(Lambert, 1992)や混 合効果モデル(Schall, 1991),ポアソン混合モデル(Lawless, 1987)など様々な方法が提案されている. 予測精 度が高いモデルを構築するためには,これらから最適なモデルを選ぶ必要がある. ベイズ的な枠組みの中で用い られる情報量規準としてはBIC(Schwarz, 1978)DIC(Spiegelhalter et al., 2002)があり,多くの研究で適 用されている. とくにDICに関しては現在様々な理論的研究が行われている. 例えば,予測の観点からDIC 修正したものとしてBPIC(Ando, 2006),混合モデル等欠測値を含んだモデルに対するDICの扱い(Celeux, 2006)についてがある. 本研究では,過分散やゼロ過剰の状態のカウントデータに対し, DICCeleuxが提案 したDIC型の情報量規準, Andoが提案した情報量規準, BICによるモデル選択の正当性を検証することを目 的とする. 最もシンプルな単回帰モデルを例にして,数値実験で情報量規準の精度をリスクの観点から評価し, その正当性について考察する. また,実例として野球の得点データに対するモデリングを行う. 本論文の構成は 次の通りである. まず第2節においてカウントデータに対する回帰モデルを概説する. 次に, 3節において ベイズモデルに対する情報量規準および欠測値を含むモデルに対するDICについて詳しく述べる. 4節で は数値実験により情報量規準の検証を行い,5節では野球の得点分布に対する実例を紹介する. 最後に第6 節において結論を述べる.

2 カウントデータに対する回帰モデル 2.1

ポアソン混合回帰モデル

ポアソン分布の過分散問題を解決するためのモデルとして

Y









Poisson(µ1) with prob. p1, Poisson(µ2) with prob. p2,

...

Poisson(µM) with prob. pM,

log(µj) =x0αj

と表現できる. ポアソン混合分布モデル(Lawless, 1987)がある. と表現する回帰モデルである.

2.2

混合効果モデル

過分散問題を解決するためのモデルとして混合効果ポアソン回帰モデル(Schall, 1991)がある. 混合効果ポ アソン回帰モデルは誤差分布にポアソン分布を仮定し, ポアソン分布の期待値に対して個体ごとに変動する変

1

(2)

量効果項vをを考慮した回帰モデルであり,モデルは

f(y) =exp(−µiyi

y! ,log(µi) =x0iα+vi

と表現される.

2.3

ゼロ過剰ポアソン回帰モデル

ポアソン分布のゼロ過剰問題を解決するためのモデルとして,

Y

{ 0 with prob. p

Poisson(µ) with prob. (1−p) , log(µ) =x0α と表現されるゼロ過剰ポアソン分布モデル(Lambert, 1992)がある.

2.4

推定

パラメータの推定法としては最尤推定などがある. 前述したモデルは,欠測値を含むため,最尤推定はEM ルゴリズム等の数値的な方法により,実現できる. しかしながら本論文では,混合効果モデルなどパラメータ数 が多い場合やパラメータの事前情報を反映させる場合など広範囲な状況を想定し, ベイズモデリングを扱うこ ととする.

3 ベイズモデルにおけるモデル選択基準

予測精度の良いモデルを構築するためには, 候補となるモデルの中から適切なモデルを選択することが重要 となる. 情報量規準はモデル選択の基準となる指標である.

3.1 Bayesian Information Criteria

ベイズファクターの対数の近似として得られるのが

2 log{f(y|θ)˜}+plogn.

で与えられるBIC(Schwarz, 1978)である. ただし,pはモデルのパラメータ数である. BICは一般的には最尤 法により推定されたモデルを評価する基準であるが,ベイズモデリングの研究においてもよく用いられる.

3.2 Deviance Information Criteria

DIC,将来発生するデータに対するモデルの当てはまりを評価する情報量規準であり, DIC =−Eθ|y[2 log{f(y|θ)}] +pD

pD=2 log{f(x|θ)˜} −Eθ|y[2 log{f(x|θ)}]

で与えられる. しかしながら, DICによるベイズモデルに対するモデル選択には2 つの大きな問題がある. DICは混合モデルなど欠測値を含んだモデルに対する尤度が一意ではないこととデータをパラメータ推定と DICにおいてモデルの複雑さを表すpDの精度が不十分になり, DICは複雑なモデルを選ぶ傾向があることが 挙げられている.

2

(3)

3.3

欠測値に対する

DIC

Celeux(2006)では, DICに欠測値を考慮するような尤度を3つの方法で検証した. Observed DICは観測値 の尤度を用いたものであり,

DICob=4Eθ[logf(y|θ)|y] + 2 logf(y|θ(y))˜

で与えられる. Complete DIC, EMアルゴリズムと同様に欠測値と観測値の同時分布に基づく尤度を考え, 欠測値について期待値をとり算出するものであり,

DICc=4Eθ[EZ{logf(y,Z|θ)|y}] + 2EZ{logf(y,Z|θ(y,˜ Z))}

で与えられる. Conditional DIC,欠測値を与えられたものとして扱い,欠測値について期待値をとり算出す るものであり, ,

DICcd=4Eθ[EZ{logf(y|Z, θ)|y}] + 2EZ{logf(y|Z,θ(y,˜ Z))}

で与えられる.

3.4 Bayesian Predictive Information Criteria(BPIC)

BPIC, 統計モデルf(y|θ)があるθ0に対して真のモデルg(y)と一致する,もしくは真のモデルが近くに 存在している,そして標本数が大きいとき事前分布の影響が非常に小さくなるという条件のもとで

BPIC =2Eθ[logf(y|θ)|y] + 2p となる.

4 数値実験

回帰モデルのなかで最も簡単な単回帰モデルを用いて100個のデータ生成を行い,そのデータに対して6 類の統計モデルを当てはめその中から上述の情報量規準でモデル選択する. リスクの推定値で統計モデルの当 てはまり評価をし, 情報量規準で選択されているモデルがリスクの少ないモデルかどうかで行っていく. 表の 情報量規準の行の値はモデルの選択率を示している.

5 まとめ

数値実験の結果から, 過分散やゼロ過剰カウントデータに対してベイズモデリングを行う際は, Obsereved DICが予測の観点から最適である.

1 生成データ1番に対する数値実験結果

Poisson MEP ZIP MEZIP MP ZIMP

リスク 286. 64 287. 13 287. 29 287. 47 287. 54 288. 23

BIC 0. 98 0. 00 0. 02 0. 00 0. 00 0. 00

Observed DIC 0. 72 0. 00 0. 17 0. 02 0. 80 0. 01 Conditional DIC 0. 00 0. 00 0. 10 0. 87 0. 10 0. 20

BPIC1 0. 96 0. 00 0. 4 0. 00 0. 00 0. 00

3

(4)

2 生成データ2番に対する数値実験結果

Poisson MEP ZIP MEZIP MP ZIMP

リスク 318. 46 326. 00 316. 95 434. 03 315. 28 315. 61

BIC 0. 66 0. 00 0. 24 0. 00 0. 10 0. 00

Obsereved DIC 0. 26 0. 00 0. 19 0. 00 0. 44 0. 01 Conditional DIC 0. 00 0. 00 0. 21 0. 34 0. 21 0. 24

BPIC 0. 59 0. 00 0. 20 0. 00 0. 21 0. 00

3 生成データ3番に対する数値実験結果

Poisson MEP ZIP MEZIP MP ZIMP

リスク 279. 26 279. 53 272. 12 272. 80 273. 53 272. 64

BIC 0. 29 0. 00 0. 69 0. 00 0. 02 0. 00

Obsereved DIC 0. 90 0. 00 0. 44 0. 13 0. 12 0. 22 Conditional DIC 0. 40 0. 00 0. 00 0. 24 0. 62 0. 14

BPIC 0. 30 0. 00 0. 61 0. 03 0. 05 0. 00

4 生成データ4番に対する数値実験結果

Poisson MEP ZIP MEZIP MP ZIMP

リスク 285. 65 301. 55 254. 37 276. 37 254. 80 253. 33

BIC 0. 00 0. 00 0. 91 0. 00 0. 08 0. 01

Obsereved DIC 0. 00 0. 00 0. 42 0. 00 0. 16 0. 43 Conditional DIC 0. 00 0. 00 0. 20 0. 65 0. 00 0. 15

BPIC 0. 01 0. 00 0. 78 0. 00 0. 18 0. 03

5 生成データ5番に対する数値実験結果

Poisson MEP ZIP MEZIP MP ZIMP

リスク 347. 53 366. 98 321. 39 348. 93 316. 31 314. 59

BIC 0. 01 0. 00 0. 52 0. 00 0. 35 0. 13

Observed DIC 0. 00 0. 00 0. 12 0. 00 0. 34 0. 54 Conditional DIC 0. 00 0. 00 0. 09 0. 50 0. 00 0. 41

BPIC 0. 00 0. 00 0. 38 0. 00 0. 42 0. 20

参考文献

[1] Ando, T. (2007). Bayesian predictive information criterion for the evaluation of hierarchical Bayesian and empirical Bayes models.Biometrika.94, 2, 443-458.

[2] Celeux,G., Forbes,F.,Robert,C.P.,and Titterington,D.D(2003). DEVIANCE INFORMATION CRI- TERIA FOR MISSING DATA MODELS.Technical report 4859. Unite de recherche INRIA Rhˆone- Alpes, Rhˆone-Alpes, France.

[3] Schwarz, G. (1978). Estimating the dimension of model.Annals of Statistics.6, 461-464.

[4] Spiegelhalter, D. J. , Best, N. G. , Carlin, B. P. , and Van Der Linde, A. (2002). Bayesian measures of model complexity and fit(with Discussion).J. R. Statist. Soc. B.64, 583-639.

4

表 2 生成データ 2 番に対する数値実験結果

参照

関連したドキュメント

Characte r is t ic b ipo lar waveforms were frequen t ly observed by the e lec tr ic waveform rece iver onboard the lunar orb i ter named

In order to measure the efficiency rather than inefficiency, and to make some interesting interpretations of efficiency across comparable firms, it is recommended to investigate

In the present paper on the basis of the linear theory of thermoelasticity of homogeneous isotropic bodies with microtemperatures the zero order approximation of hierarchical models

We estimate the standard bivariate ordered probit BOP and zero-inflated bivariate ordered probit regression models for smoking and chewing tobacco and report estimation results

In this paper, the Bayes estimates are obtained under the linear exponential (LINEX) loss, general entropy and squared error loss function using Lindley’s approximation technique

The exponentiated gamma EG distribution and Fisher information matrices for complete, Type I, and Type II censored observations are obtained.. Asymptotic variances of the

3.5 今回工認モデルの妥当性検証 今回工認モデルの妥当性検証として,過去の地震観測記録でベンチマーキングした別の

The parameters set in trapezoidal operation can be used to start tuning sinusoidal mode. Begin with 6 window sinusoidal mode and then try to reduce the window