• 検索結果がありません。

経験ベイズモデルと階層ベイズモデル

ドキュメント内 21世紀の統計科学 <Vol. III> (ページ 104-111)

第 3 章  21 世紀の統計学への挑戦的 課題と展望

4.4 経験ベイズモデルと階層ベイズモデル

枝分かれ誤差回帰モデル (2.2) を yij =µij +eij, µij = xijβ+vi と分解 すると,条件付分布は yij|ij, σ2e)∼ Nij, σe2) となり,µij の事前分布が µij ∼ N(xijβ, σv2) で与えられるベイズモデルの形で捉えることができる。

母数 β,σv2,σe2 が既知のときが主観的ベイズモデルであり,それらの事前の 値に強く依存してしまう。そこで客観性を持たせるために2つの方法が知 られている。1つはβ,σv2,σe2 を未知母数として扱う方法で経験ベイズモデ ルと呼ばれる。未知母数とすることで事前分布の恣意性を排除できる。経 験ベイズ推定量は事前分布の情報を取り入れながらもその情報の誤りに対 する実害が生じないという利点をもっている。いいかえると,事前情報に 関して頑健であることを意味する。(2.2) などこの論文で扱ってきた線形混 合モデルは経験ベイズモデルに対応している。

事前分布に客観性を持たせるもう1つの方法は,β,σv2,σe2 を変量として 扱う方法で階層ベイズモデルと呼ばれる。この場合,(i, j)-成分にµij をも つ行列を µ とおくと,(µ, σe2)|(β, σ2v) π1(µ, σ2e|β, σ2v) を第1段階事前分 布,(β, σv2)∼π2(β, σ2v)を第2段階事前分布という。客観的なベイズ推定を 構成するためには,一般に,第1段階事前分布は正確に,第2段階事前分 布は無情報的に設定するのがよいとされている。例えば,第1段階事前分 布 π1(µ, σe2|β, σv2) として

µij|(β, σv2)∼N(xiβ, σv2), σe2 ∼σe2e2

がとられる。σe2e2 は尺度変換に関して不変な測度で無情報事前分布を表 している。また第2段階事前分布π2(β, σ2v)としてはσv2には無情報事前分布 σv2v2 を想定し,βに対しては,(1)一様分布dβ, (2)β2v ∼ N0, σ2vA),

(3) β|v2, λ)∼ N0, λσv2A),λ∼π3(λ), などの設定が考えられる。ここで β0,Aは既知の値とする。このような階層ベイズ推定量の理論的な性質につ いては Kubokawa and Strawderman (2007)とその中の参考文献を参照して ほしい。また階層ベイズを用いた空間データの解析については,Banerjee, Carlin and Gelfand (2004)に述べられている。

5 おわりに

線形混合モデルと経験最良線形不偏予測量について基本的な性質を解説 し,小地域推定や経時測定データへの応用について主に説明してきた。最 後に,線形混合モデルと関係のある推定問題について若干説明を加えて本 稿を終えることにする。

まず,家畜育種学という分野で生まれ育ってきた線形混合モデルの手法 が,数理統計学において有名なスタイン問題と関係している点を指摘して おこう。C. Stein が1956 年に発見した理論は,「3次元以上の正規分布の平 均を同時に推定する問題において標本平均よりも平均2乗誤差(MSE)を一 様に小さくする縮小推定量が存在する」ということであった。そこで登場 した縮小推定量を n1 =· · ·=nk =n の地域モデル (3.1)に当てはめてみる と,平均µi =xiβ+vi からなるベクトル µ= (µ1, . . . , µk) の縮小推定量は

b

µS =Xβb+ max {

1 (k−p−2)σe2 n∥yXβb2, 0

}

(yXβ)b

という形で表される。ここでβb = (XX)1Xyβの OLSである。Stein の理論によると,k−p≥3ならばµbS の MSEは y のMSE より一様に小 さいことになる。Stein 問題については篠崎 (1991),下平,伊藤,久保川,

竹内 (2004)に詳しく説明されているが,この問題は理論家の興味の対象と

なり 20 世紀の数理統計学の一分野に発展した。一方,n1 = · · · =nk =n の地域モデル (3.1) に対して µ の EBLUP は,θ を REML で推定すると (3.3)より,縮小推定量 µbS において (k−p−2)を (k−p) に置き換えたも のに一致する。Henderson の BLUP についての論文が出されたのが 1950 年であり,その数年後に全く違う分野で Stein が EBLUP と同等な手法を 考案していたことになる。しかも,Hendersonは家畜育種という応用分野,

Steinは統計的決定理論という理論分野であり,応用・理論の双方向から研

究されてきたトピックであるといえよう。

次に,2.4 節で扱ったように,LMM の分散成分に関する推定は LMM の 主要な研究テーマの一つであるが,この問題が分散の不等式制約に関係し ている点を指摘しておこう。例えば, n1 = · · ·=nk = n の枝分かれ誤差回 帰モデル (2.2) を取り上げてみると,(2.16) 周辺の議論から S1S2 が独 立になり,S121 ∼χ2m1,S222 ∼χ2m2 に従うことがわかる。ここで m1,m2 は対応する自由度を表し,σ12 =σ2e, σ22 =σe2+v2 である。従って分散σ12, σ22 の間にσ12 < σ22 なる不等式制約が入っていることがわかる。一般に多元 配置の変量モデルにおいては分散の間に複雑な順序関係が入ることになり,

母数制約のもとでの推定問題として定式化される。また多変量へ拡張した モデルを考えると,共分散行列の間に不等式制約が入った推定問題になり,

Srivastava and Kubokawa (1999), Kubokawa and Tsai (2006)などで議論さ れている。

LMM の変数選択などのモデル選択規準の導出は非常に興味ある問題で あり,Jiang, Rao, Gu and Nguyen (2008) の Fence 法や Kubokawa and

Srivastava (2010)の経験ベイズ情報量規準は一致性をもつ変数選択法になっ

ている。LMM の赤池情報量規準(AIC)には縮小推定量が規準の中に現れ ないため,小地域の推定に関わる変数選択規準としてはあまり好ましくな い。そこで,Vaida and Blanchard (2005) は条件付き AIC 規準を導入し,

縮小推定量に基づいた規準を導出した。Kubokawa (2011a), Kubokawa and Nagashima (2011) はこの結果を一般的なLMM に拡張している。

本稿で取り上げてきた内容からわかるように,筆者が線形混合モデルの 魅力に惹かれたのは小地域推定という問題を通してであった。カナダのオ タワにあるCarleton 大学へ滞在していた1989年,91年当時,そこの数学・

統計学科の教授John N.K. Rao の研究テーマがLMM を利用した小地域推 定であった。Rao はオタワ市内にあるカナダ統計局 (Statistica Canada) の スタッフとつねに連携を取り統計調査の現場において何が必要とされてい るのかに関心をもちながら研究を進めていた。当時のPhD学生の論文テー マもその現場にモチベーションをもつ内容であり,PhD を取得した後にカ ナダ統計局へ就職して活躍している研究者もいる。Rao のこのような研究 姿勢に,応用と理論の両輪で発展する統計学の生きた姿をみた思いがして 大変感銘したことが思い出される。

謝辞. 編集者及び査読者の方々から貴重なコメントを頂きました。ここに 深く感謝申し上げます。本研究は,科学研究費補助金 16500172, 21540114 及び東京大学大学院経済学研究科21世紀COEプログラムから研究助成

を受けております。

参考文献

[1] Banerjee, S., Carlin, B.P. and Gelfand, A.E. (2004).Hierarchical Mod-eling and Analysis for Spatial Data. Chapman and Hall, New York.

[2] Basu, R., Ghosh, J.K., and Mukerjee, R. (2003). Empirical Bayes pre-diction intervals in a normal regression model: higher order asymp-totics. Statist. Prob. Letters,63, 197-203.

[3] Battese, G.E., Harter, R.M. and Fuller, W.A. (1988). An error-components model for prediction of county crop areas using survey and satellite data.J. Amer. Statist. Assoc.,83, 28-36.

[4] Butar, F.B. and Lahiri, P. (2003). On measures of uncertainty of em-pirical Bayes small-area estimators. J. Statist. Plan. Inf., 112, 63-76.

[5] Chatterjee, S., Lahiri, P., and Li, H. (2008). Parametric bootstrap approximation to the distribution of EBLUP and related prediction intervals in linear mixed models. Ann. Statist., 36, 1221-1245.

[6] Das, K., Jiang, J. and Rao, J.N.K. (2004). Mean squared error of em-pirical predictor. Ann. Statist.,32, 818-840.

[7] Datta, G.S., Kubokawa, T., Rao, J.N.K., and Molina, I. (2011). Es-timation of mean squared error of model-based small area estimators.

Test, an Official Journal of the Spanish Society and Operations Re-search,20, 367-388.

[8] Datta, G.S., Rao, J.N.K. and Smith, D.D. (2005). On measuring the variability of small area estimators under a basic area level model.

Biometrika,92, 183-196.

[9] Demidenko, E. (2004).Mixed Models: Theory and Applications. Wiley.

[10] Diggle, P., Liang, K.-Y., and Zeger, S.L. (1994). Longitudinal Data Analysis. Oxford Univ. Press.

[11] Efron, B. and Morris, C. (1975). Data analysis using Stein’s estimator and its generalizations.J. Amer. Statist. Assoc., 70, 311-319.

[12] Fahrmeir, L. and Tutz, G. (2001). Multivariate Statistical Modelling Based on Generalized Linear Models. 2nd ed. Springer, New York.

[13] Fay, R.E. and Herriot, R. (1979). Estimates of income for small places:

An application of James-Stein procedures to census data. J. Amer.

Statist. Assoc., 74, 269-277.

[14] Fitzmaurice, G.M., Laird, N.M., and Ware, J.H. (2004). Applied Lon-gitudinal Analysis. Wiley.

[15] Hall, P. and Maiti, T. (2006a). Nonparametric estimation of mean-squared prediction error in nested-error regression models. Ann.

Statist., 34, 1733-1750.

[16] Hall, P. and Maiti, T. (2006b). On parametric bootstrap methods for small area prediction. J. Royal Statist. Soc.,68, 221-238.

[17] Henderson, C.R. (1950). Estimation of genetic parameters.Ann. Math.

Statist., 21, 309-310.

[18] Hsiao, C. (2003).Analysis of Panel Data. Cambridge University Press.

(「ミクロ計量経済学の方法:パネル・データ分析」(2007)国友直人訳,

東洋経済新報社)

[19] Jiang, J., Rao, J.S., Gu, Z., and Nguyen, T. (2008). Fence methods for mixed model selection.Ann. Statist.,36, 1669-1692.

[20] Kubokawa, T. (2000). Estimation of variance and covariance compo-nents in elliptically contoured distributions.J. Japan Statist. Soc., 30, 143-176.

[21] Kubokawa, T. (2010). Corrected empirical Bayes confidence intervals in nested error regression models.J. Korean Statist. Soc.,39, 221-236.

[22] Kubokawa, T. (2011a). Conditional and unconditional methods for se-lecting variables in linear mixed models.J. Multivariate Analysis,102, 641-660.

[23] Kubokawa, T. (2011b). On measuring uncertainty of small area esti-mators with higher order accuracy. J. Japan Statist. Soc., to appear.

[24] Kubokawa,T., and Nagashima, B. (2011). Parametric bootstrap meth-ods for bias correction in linear mixed models. Discussion Paper Series, CIRJE-F-801.

[25] Kubokawa, T., and Srivastava, M.S. (2010). An empirical Bayes infor-mation criterion for selecting variables in linear mixed models.J. Japan Statist. Soc., 40, 111-130.

[26] Kubokawa, T. and Strawderman, W.E. (2007). On minimaxity and admissibility of hierarchical Bayes estimators.J. Multivariate Analysis, 98, 829-851.

[27] Kubokawa, T. and Tsai, M.-T. (2006). Estimation of covariance matri-ces in fixed and mixed effects linear models. J. Multivariate Analysis, 97, 2242-2261.

[28] Laird, N.M. and Ware, J.H. (1982). Random-effects models for longi-tudinal data. Biometrics, 38, 963-974.

[29] Lawson, A.B. (2006). Statistical Methods in Spacial Epidemiology. 2nd ed. Wiley, England.

[30] Lawson, A.B., Browne, W.J. and Vidal Rodeiro, C.L. (2003). Disease Mapping with WinBUGS and MLwiN. Wiley, England.

[31] McCulloch, C.E. (2003).Generalized Linear Mixed Models. NSF-CBMS Regional Conference Series in Probability and Statistics, Volume 7.

IMS, USA.

[32] McCulloch, C.E. and Searle, S.R. (2001). Generalized, Linear and Mixed Models. Wiley, New York.

[33] Molenberghs, G. and Verbeke, G. (2006). Models for Discrete Longitu-dinal Data. Springer.

[34] Rao, J.N.K. (2003). Small Area Estimation. Wiley, New Jersey.

[35] Searle, S.R., Casella, G., and McCulloch, C.E. (1992). Variance Com-ponents, Wiley, New York.

[36] Srivastava, M.S. and Kubokawa, T. (1999). Improved nonnegative es-timation of multivariate components of variance. Ann. Statist., 27, 2008-2032.

[37] Tsimikas, J.V. and Ledolter, J. (1997). Mixed model representation of state space models: New smoothing results and their application to REML estimation.Statistica Sinica,7, 973-991.

[38] Vaida, F., and Blanchard, S. (2005). Conditional Akaike information for mixed-effects models. Biometrika, 92, 351-370.

[39] Verbeke, G. and Molenberghs, G. (2000).Linear Mixed Models for Lon-gitudinal Data. Springer, New York.

[40] 広津千尋 (1992).実験データの解析ー分散分析を超えてー. 共立出版.

[41] 久保川達也 (2007). 線形混合モデルと小地域の推定. 応用統計学,35, 139-161.

[42] 佐々木義之 (2007).変量効果の推定と BLUP 法. 京都大学学術出版会.

[43] 下平英寿, 伊藤秀一,久保川達也,竹内啓 (2004).モデル選択 : 予測・検 定・推定の交差点. 岩波書店

[44] 笹瀬吉隆,久保川達也 (2005). 経験ベイズ信頼区間の漸近補正と小地 域推定への応用.日本統計学会誌(和文誌), 35, 27-54.

[45] 篠崎信雄 (1991). Stein タイプの縮小推定量とその応用. 応用統計学, 20, 59-76.

[46] 丹後俊郎(1988).死亡指標の経験的ベイズ推定量について.応用統計学,

17, 81-96.

「21世紀の統計科学」第III巻 日本統計学会HP版, 2011年10月 第2部 統計数理の展開と統計科学

ドキュメント内 21世紀の統計科学 <Vol. III> (ページ 104-111)