第 8 章 その他の手法 87
12.2 シミュレーション 1
12.2.4 解析方法およびシミュレーションの結果
12.2.3節で作成した欠測メカニズムがMARのデータならびにMNARのデータ(それぞれ10,000組)に対
して,表12.7に示す手法を適用し,主要評価時点である時点4での検出力,αエラーなどの算出を行った.な お,データの作成は測定値について行ったが,解析ではベースラインからの変化量を用いた.また,有意水準 は両側5%とした.
表12.7:手法とその解析方法
解析手法 解析方法
MMRM 解析モデル
説明変数:ベースライン,投与群,時点,投与群と時点の交互作用
変量効果:被験者の影響を誤差と合わせてモデル化するため,明示的には特定 せず
相関構造:Unstructured 推定方法:REML
自由度調整方法:Kenward Roger
MI ANCOVA 補完モデル(投与群ごとの単調回帰モデル)
説明変数:ベースライン,各時点の変化量
補完回数:5回(補完回数を増やすことで標準誤差の観点から推定値が安定す ることが期待される.補完回数の設定については,今後検討が必要 である.)
解析モデル(時点4に対するANCOVA)
説明変数:投与群,ベースライン wGEE 観測確率モデル(logisticモデル)
説明変数:各時点の変化量,ベースライン,投与群,投与群と各時点の変化量 の交互作用
解析モデル
重み:subject-specific
説明変数:ベースライン,投与群,時点,投与群と時点の交互作用 相関構造:EXCH
※Missingdata.org.ukに公開されているマクロ%WGEEを使用
LOCF ANCOVA 解析モデル(LOCFにより補完した時点4に対するANCOVA)
説明変数:投与群,ベースライン
OC ANCOVA 解析モデル(時点4のデータが観測された症例に対する時点4に対するANCOVA)
説明変数:投与群,ベースライン
以下に,結果を示す(以降に記載のある「推定値」は,「時点4における群間差の推定値」を意味する).
【MAR】
表12.8:累積脱落率:10,000個の平均(MAR)
群 ベースライン 時点1 時点2 時点3 時点4
実薬群 0.0% 5.9% 10.5% 13.4% 15.4%
プラセボ群 0.0% 6.0% 10.5% 13.8% 16.5%
表12.9:手法の性能比較(MAR)
解析手法 αエラー(%) 検出力(%) 10,000個の 10,000個の MSE 推定値の平均 推定値のSD
(真値:-3.00)
MMRM 4.79 90.40 -2.9988 0.9083 0.8250
MI ANCOVA 4.80 89.19 -2.9984 0.9164 0.8397
wGEE 11.12 69.31 -2.9975 1.5172 2.3016
LOCF ANCOVA 4.78 83.42 -2.8162 0.9464 0.9293
OC ANCOVA 4.85 89.59 -2.9696 0.9108 0.8303
図12.6:各手法の推定値の箱ひげ図(MAR)
【MNAR】
表12.10:累積脱落率:10,000個の平均(MNAR)
群 ベースライン 時点1 時点2 時点3 時点4
実薬群 0.0% 6.0% 10.0% 12.6% 14.3%
プラセボ群 0.0% 6.0% 10.4% 13.7% 16.1%
表12.11:手法の性能比較(MNAR)
解析手法 αエラー(%) 検出力(%) 10,000個の 10,000個の MSE 推定値の平均 推定値のSD
(真値:-3.00)
MMRM 4.84 90.53 -2.9688 0.8970 0.8055
MI ANCOVA 4.70 89.16 -2.9654 0.9077 0.8250
wGEE 10.40 69.28 -2.9678 1.4776 2.1840
LOCF ANCOVA 4.76 86.33 -2.8562 0.9233 0.8731
OC ANCOVA 4.85 89.27 -2.9265 0.8994 0.8143
図12.7:各手法の推定値の箱ひげ図(MNAR)
【考察】
αエラーは,MAR,MNARともにwGEE以外の手法は5%未満に制御され,wGEEは高度に増大した.
検出力は,MAR,MNARともにMMRM,OC ANCOVA,MI ANCOVA,LOCF ANCOVA,wGEEの順で高 かった.
推定値は,MMRM,MI ANCOVA,wGEEは真値周りに分布したが,LOCF ANCOVAはやや過小評価され る傾向がみられた.また,推定値のSDは,wGEEが大きくなった.
以上より,本シミュレーションデータにおいて,各手法の性能を総合的に判断すると,MMRMが最も優れ た手法と考えられた.なお,MI ANCOVA,OC ANCOVAもやや劣るものの,ほぼ同様の傾向を示した.ただ
し,MMRM,MI ANCOVAはMARのもとで妥当な手法として提案されており,MNARのもとでは推定値への
バイアスや,αエラーの観点から,その性能に対して懸念がある.ゆえに,この結果はあくまで今回のシミュ レーションの設定に基づくものであることに注意が必要である.
wGEEは,検出力が他の手法よりも低く,αエラーが有意水準の5%を大きく超えていた.これは推定値の ばらつきが大きくなったことが原因であり(図12.6,図12.7参照),重みが極めて大きいデータが影響を与え た可能性がある.なお,本シミュレーションの状況や実行可能なプログラムは限定されたものであり,今回の
シミュレーション結果がwGEEの使用を全面的に否定するものではない.駒嵜ら(2015)において,αエラー の増大の原因が,観測確率モデルの誤特定及び重みの種類(subject-specific)にあることが示唆された.ただ し,Fitzmaurice et al. (1995)において,重みがsubject-specificであっても,観測確率モデルが正しいことをは じめとした一定の条件下で一致性が保証されている.そのため,駒嵜ら(2015)でのうつ病データの再解析のよ うに,観測確率モデルが正しく特定されている場合のαエラーの増大等は,例数が少ないことが原因の可能性 が考えられる.以上のように,wGEEの適切な使用のためには,上記検討事項などに対する適切な性能評価が 必要である.
LOCF ANCOVAは,今回のシミュレーションの設定ではαエラーには問題ないものの,検出力がMMRM,
MI ANCOVA,OC ANCOVAに比べて劣り,また推定値を過小評価する可能性が考えられるため,MMRM等
が使用可能ならば,本シミュレーションデータに対して,今回検討した基準からは推奨されない.