Doubly Robust な推定量 (DR)

第 8 章その他の手法 87

8.4 Doubly Robust な推定量 (DR)

前述のIPWCC推定量による方法では，完了例のみが解析の対象となっていたため，完了例の応答変数Y_iの

み解析に含まれ，欠測症例の応答変数Yiについては解析に含めていない．また，仮定したモデルが正しくな

6観測確率は，観測確率モデルにパラメータ推定値を代入した値のため，ばらつきが考慮されるべきだが，Proc GENMODでは観測確率を固定した値として取り扱っている．

かった場合，推定値にバイアスが入る可能性が高い．それを受けて，途中脱落により最終時点のデータが欠測である被験者も解析に含めることが可能なAugmented IPW(AIPW)という解析方法が考案されている(Rotnitzky

et al., 1998)．なお，ここではIPWCC推定量のときと同様，欠測メカニズムがMARの場合を想定している．実

薬群の平均をµ1，プラセボ群の平均をµ0とすると，µ₁, µ0のAIPW推定量はそれぞれ以下の式で算出できる (Tsiatis, 2006)．

b µ₁= 1

∑n i=1

Ri1Yi1

π(W_i1,X_i1,ψ)b − 1 n

∑n i=1

{

Ri1

π(W_i1,X_i1,ψ)b −1 }

g(W_i1,X_i1,β)b b

µ₀= 1 n

∑n i=1

R_i0Y_i0

π(Wi0,Xi0,ψ)b − 1 n

∑n i=1

{

R_i0

π(Wi0,Xi0,ψ)b −1 }

g(W_i0,X_i0,β)b (8.24)

応答変数Y は最終時点の1時点のみのデータとする．ここで，第一項目はIPWCC推定量であり，第二項目 g(Wij,Xij,β)b は，観測時点より前のデータ及び未知パラメータの推定値βbにより構成された応答変数Y の回帰式で補完されたデータである（つまり，g(W_ij,Xij,β) =E[Yi|Wij,Xij]）．式（8.24）は観測確率モデル π(W_ij,X_ij,ψ)もしくは応答変数Y の回帰モデルg(W_ij,X_ij,β)のいずれかが正しく特定された場合，βの一致推定量が得られる（Tsiatis, 2006; Cao et al., 2009; Carpenter et al., 2006）．このような性質をもつ推定量を Doubly Robust推定量と呼ぶ．

なお，各群の推定量が一致推定量である場合，明らかに群間差の推定量bµ1−µb0もµ1−µ0の一致推定量となる．

式（8.24）は以下の通り式変形できる．

j= 0,1として，

b µ_j= 1

∑n i=1

[

Y_ij+R_ij−π(W_ij,X_ij,ψ)b π(Wij,Xij,ψ)b

{

Y_ij−g(W_ij,X_ij,β)b }]

観測確率モデルもしくは応答変数モデルが正しく特定された場合，各群の期待値E[µb₁]及びE[µb₀]は以下の通りである．ここでβ，ψは真の値とし，β^∗，ψ^∗はモデルを正しく特定できなかった場合のパラメータとする．

1. 観測確率モデルπ(Wij,Xij,ψ)が正しく特定された場合（ψは真値を用いる）

j= 0,1として，

E[µbj] = E [

Yij+R_ij−π(W_ij,X_ij,ψ)

π(Wij,Xij,ψ) {Yij−g(Wij,Xij,β^∗)} ]

= E[Yij] +E

[Rij−P(Rij= 1|Wij,Xij,ψ)

P(Rij= 1|Wij,Xij,ψ) {Yij−g(Wij,Xij,β^∗)} ]

(∵ (8.5))

= E[Yij] +E

[E[P(Rij = 1|Wij,Xij,ψ)]−P(Rij= 1|Wij,Xij,ψ)

P(R_ij= 1|W_ij,X_ij,ψ) {Yij−g(Wij,Xij,β^∗)} ]

= E[Yij] +E[0× {Yij−g(Wij,Xij,β^∗)}]

= E[Yij] =µj

2. 応答変数Y の回帰モデルg(W_ij,X_ij,β)が正しく特定された場合 j= 0,1として，

E[µb_j] = E [

Y_ij+R_ij−π(W_ij,X_ij,ψ^∗)

π(Wij,Xij,ψ^∗) {Y_ij−g(W_ij,X_ij,β)} ]

= E[Y_ij] +E

[R_ij−π(W_ij,X_ij,ψ^∗)

π(Wij,Xij,ψ^∗) E[{Y_ij−g(W_ij,X_ij,β)|W_ij,X_ij}] ]

= E[Yij] +E

[R_ij−π(W_ij,X_ij,ψ^∗)

π(Wij,Xij,ψ^∗) {E[Yij|Wij,Xij]−g(Wij,Xij,β)} ]

= E[Yij] +E

[Rij−π(Wij,Xij,ψ^∗) π(Wij,Xij,ψ^∗) ×0

]

= E[Y_ij] =µ_j

これより，いずれかのモデルが正しく定義された場合，µ_jの一致推定量が得られることが分かり，IPWCC推定量よりも頑健であるといわれている．パラメータの標準誤差は，IPWCC推定量と同様にブートストラップ法を用いればよい．現在は本手法を経時データに対して適用できるよう拡張した方法も紹介されている(Seaman and Copas, 2009; Belinda, 2013)．なお， Doubly Robust は推定量の性質を示すものであり，同一のパラメータに対して複数のDoubly Robustな推定量が提案されている．バイアス及び標準誤差の小さい推定量を検討するために，現在も研究の対象となっている．主な参考書籍としてTsiatis (2006)や，日本語の総説として，逸見 (2014)がある．

8.5 8 ^{章のまとめ}

本章で紹介した推定量について，以下に要点をまとめる．なお，以下の記載は本章で紹介したものに関するものであり，各手法・推定量の一般的性質について述べているわけではない点に注意が必要である．

• µe=

∑n i=1

n ：

• データの欠測が生じると計算不可

• µb=

∑n i=1

R_iY_i

∑n i=1

R_i

：

• データの欠測が生じても計算可能

• MARまたはMNARのとき，一般に推定の一致性は成り立たない

• IPWCC推定量：µb^{IP W} = 1 n

∑n i=1

RiYi

π(Wi,Xi,ψ)b

：

• 応答変数は最終時点データのみ用いる

• MARであり，観測確率モデルが正しく特定されていると仮定

• 極端に小さい観測確率が推定されるとパラメータ推定値に大きな影響を与えることがある

• 推定量の標準誤差はブートストラップ法により算出

• wGEE：

• 応答変数は経時データを用いる

• MARであり，観測確率モデルが正しく特定されていると仮定

• IPWCC推定量と同様，極端に小さい観測確率が推定されるとパラメータ推定値に大きな影響を与

えることがある

• 推定量の標準誤差はサンドウィッチ分散またはブートストラップ法により算出

• Doubly Robustな推定量：

• 応答変数は最終時点データのみ用いる

• 観測確率モデルはMARを仮定

• 観測確率モデル，応答変数Yの回帰モデルのいずれかのモデルが正しく特定できた場合，一致推定量が得られることからDoubly-Robustな推定量と呼ばれている．従って， Double Robust という語句はあくまで推定量の性質をさしているだけであるため，様々な推定量が考案されている．

参考文献

[1] Barker, N. (2005). A practical introduction to the bootstrap using the SAS system. In SAS Conference Proceed-ings: Phuse 2005: October 10-12 2005; Heidelberg, Germany SAS.

[2] Cao, W., Tsiatis, A. A., and Davidian, M. (2009). Improving efficiency and robustness of the doubly robust estimator for a population mean with incomplete data. Biometrika, asp033.

[3] Carpenter, J., and Bithell, J. (2000). Bootstrap confidence intervals: when, which, what? A practical guide for medical statisticians. Statistics in medicine,19(9), 1141-1164.

[4] Carpenter, J. R., Kenward, M. G., and Vansteelandt, S. (2006). A comparison of multiple imputation and doubly robust estimation for analyses with missing data.

Journal of the Royal Statistical Society: Series A (Statistics in Society),169(3), 571-584.

[5] Collins, L. M., Schafer, J. L., and Kam, C. M. (2001). A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychological methods,6(4), 330.

[6] Fitzmaurice, G. M., Molenberghs, G., and Lipsitz, S. R. (1995). Regression models for longitudinal binary responses with informative drop-outs. Journal of the Royal Statistical Society. Series B (Methodological), 691-704.

[7] 逸見昌之. (2014).欠測データに対するセミパラメトリックな解析法.統計数理,62(1), 103-122.

[8] Hogan, J. W., Roy, J., and Korkontzelou, C. (2004). Handling drop‐ out in longitudinal studies.

Statistics in medicine,23(9), 1455-1497.

[9] 小西貞則, (2008),計算統計学の方法：ブートストラップ・EMアルゴリズム・MCMC.朝倉書店, 2008.

[10] 駒嵜弘，土居正明，横山雄一，鵜飼裕之，藤原正和. (2015).【企画セッション】欠測のあるデータにおける主解析の検討(3)Proc GEEによるwGEE法を用いた連続量経時データの解析．SASユーザー総会論文集．

[11] Liang, K. Y., and Zeger, S. L. (1986). Longitudinal data analysis using generalized linear models.

Biometrika,73(1), 13-22.

[12] Mallinckrodt, C. H. (2013). Preventing and Treating Missing Data in Longitudinal Clinical Trials. Cambridge Press.

[13] Pan, W., Louis, T. A., and Connett, J. E. (2000). A note on marginal linear regression with correlated response data. The American Statistician,54(3), 191-195.

[14] Pepe, S, M., and Anderson, G. L. (1994). A cautionary note on inference for marginal regression models with lon-gitudinal data and general correlated response data. Communications in Statistics-Simulation and Computation, 23(4), 939-951.

[15] Preisser, J. S., Lohman, K. K., and Rathouz, P. J. (2002). Performance of weighted estimating equations for longitudinal binary data with drop‐ outs missing at random. Statistics in medicine,21(20), 3035-3054.

[16] Robins, J. M., Rotnitzky, A., and Zhao, L. P. (1994). Estimation of regression coefficients when some regressors are not always observed. Journal of the American Statistical Association,89(427), 846-866.

[17] Robins, J. M., Rotnitzky, A., and Zhao, L. P. (1995). Analysis of semiparametric regression models for repeated outcomes in the presence of missing data. Journal of the American Statistical Association,90(429), 106-121.

[18] Rodriguez, R. N., and Stokes, M. (2014). SAS/STATR 13.1 Round-Up.

[19] Rotnitzky, A., Robins, J. M., and Scharfstein, D. O. (1998). Semiparametric regression for repeated outcomes with nonignorable nonresponse. Journal of the American Statistical Association,93(444), 1321-1339.

[20] Seaman, S., and Copas, A. (2009). Doubly robust generalized estimating equations for longitudinal data.

Statistics in medicine,28(6), 937-955.

[21] Touloumi, G., Babiker, A. G., Pocock, S. J., and Darbyshire, J. H. (2001). Impact of missing data due to drop‐

outs on estimators for rates of change in longitudinal studies: a simulation study. Statistics in medicine,20(24), 3715-3728.

[22] Tsiatis, A. (2006). Semiparametric theory and missing data. Springer.

[23] Williamson, E. J., Morley, R., Lucas, A., and Carpenter, J. R. (2012). Variance estimation for stratified propensity score estimators. Statistics in medicine,31(15), 1617-1632.

第 II ^部

MMRM ^{の詳細と感度分析}

第 9 ^章 MMRM

9.1 はじめに

経時測定データを伴う臨床試験では，特定の時点(多くの場合，計画された観察期間の最終時点)での治療群間差に基づいて有効性の評価が行われる．このような試験の解析でしばしば問題とされるのは，被験者の試験からの脱落に起因するデータの欠測である．このような欠測データに対する処方として，LOCFによる単補完法に基づく解析が，検証的試験の主要な有効性解析などで慣例的に用いられてきた．この理由として，分散分析のような完全データに対する解析方法を適用することができること，治療効果を過小推定する傾向にあるという点で一般に保守的であると(誤って)見做されていること，実装が容易であることなどが挙げられる．また，実際にはLOCFの適切性は非常に強い仮定に依っているが，各治療群で異なる欠測が起こる時点，欠測データの占める割合，欠測理由に起因する偏りを潜在的に相殺することで，complete case解析よりも偏りが少ないと見做されるとの見方もある(Mallinckrodt et al., 2008)．しかし，4章で考察したように，LOCFを含む単補完に基づく方法には多くの議論があり，これに代わる方法論の研究が進んできている．本章で焦点を当てる MMRM(Mixed Model for Repeated Measures)に基づく解析は，LOCFに代わる柔軟な方法として近年ますます注目を集めている．

2章で述べたように，Rubin(1976)及びLittle & Rubin(2002)では3つの欠測メカニズムMCAR，MAR，MNAR を定義しているが，彼らは尤度に基づく解析の観点で，下記の2つの欠測メカニズムの性質も定義している．

• 尤度に基づく解析が，欠測メカニズムの分布を無視した場合でもパラメータの妥当な推測を与えるならば，その欠測メカニズムは「無視可能」(Ignorable)と呼ばれる．

• 尤度に基づく解析が，欠測メカニズムの分布を無視した場合にパラメータの妥当な推測を与えないならば，その欠測メカニズムは「無視不可能」(Non-ignorable)と呼ばれる．

Laird(1988)は，MCARとMARが無視可能な欠測メカニズムであり，欠測識別変数を無視した尤度に基づく解

析が妥当であることを示した．一方，MNARは無視不可能な欠測メカニズムであり，欠測識別変数を無視した尤度に基づく解析は潜在的に偏りをもつ推測を与えうる．

Laird & Ware (1982)は，経時測定データを扱う臨床試験から得られた不完全な(欠測を伴う)データを解析するために，線形混合モデルを利用した尤度に基づく解析を提案している．尤度に基づく解析では，観測データの尤度関数に基づきパラメータの推定値を与える．一般に，欠測メカニズムと応答変数に関するパラメータが異なる，かつ独立である(すなわち，パラメータの分離条件が満たされている)と想定される場合に，尤度に基づく方法において欠測が無視可能であること，すなわち観測データの周辺分布(直接尤度，Direct Likelifood： DLとも呼ばれる)を利用した推測が妥当であることは，欠測メカニズムがMAR(あるいはMCAR)であることと同等である．逆に言えば，欠測メカニズムにMARを想定することができる場合，尤度に基づく方法は妥当な推測結果を与える．Mallinckrodt et al. (2001a; 2001b)は，尤度に基づく方法の解析モデルの一つの特別な形式として線形混合モデルを検討し，これを"MMRM"と呼んだ．すなわち，MMRMによる解析は尤度に基づく解析の一つであり，欠測メカニズムがMARであればDLに基づいて妥当な推測結果を得ることができる．この意味で，MMRMは，MARを想定したSMの一つの特殊な形式であると考えることができる．詳細は5章を参照されたい．

ドキュメント内 I (ページ 94-101)

第 8 章 その他の手法 87

8.4 Doubly Robust な推定量 (DR)

8.5 8 章のまとめ

参考文献

第 II 部

MMRM の詳細と感度分析

第 9 章 MMRM

9.1 はじめに

第 8 章その他の手法 87

8.5 8 ^{章のまとめ}

第 II ^部

MMRM ^{の詳細と感度分析}

第 9 ^章 MMRM