まとめ

第 8 章その他の手法 87

12.4 まとめ

LOCF ANCOVAは，αエラーが高度に増大しており，また推定値が過大評価され，さらに推定値のSDが他の手法と比較して小さくなっており，今回のシミュレーションと類似したデータに対する解析として使用する場合，妥当でないと考えられた．

参考文献

[1] Fitzmaurice, G. M., Molenberghs, G., and Lipsitz, S. R. (1995). Regression models for longitudinal binary responses with informative drop-outs. Journal of the Royal Statistical Society. Series B (Methodological), 691-704.

[2] 駒嵜弘,土居正明,横山雄一,鵜飼裕之,藤原正和. (2015).【企画セッション】欠測のあるデータにおける主解析の検討(3)Proc GEEによるwGEE法を用いた連続量経時データの解析. SASユーザー総会論文集.

[3] Mallinckrodt, C. H. (2013). Preventing and treating missing data in longitudinal clinical trials. Cambridge University Press.

資料作成者・タスクフォースメンバー

日本製薬工業協会医薬品評価委員会データサイエンス部会 2013 年度タスクフォース 2 ・ 2014 年度タスクフォース 4

【方法論・ SAS プログラム検討チーム（資料作成者）】

土居正明東レ株式会社（サブリーダー） 1章, 2章(2.1〜2.4), 3章, 5章, 11章，

Appendix A, B担当

縄田成毅杏林製薬株式会社(2013年度サブリーダー) 2章(2.5), Appendix C担当（分担）

藤原正和塩野義製薬株式会社(2014年度サブリーダー) 4章, 7章担当

横山雄一持田製薬株式会社(2014年度サブリーダー) 12章（分担），Appendix C担当（分担）

大浦智紀日本イーライリリー株式会社 Appendix C担当（分担）

大江基貴株式会社大塚製薬工場 9章担当駒嵜弘マルホ株式会社 8章・10章担当高橋文博田辺三菱製薬株式会社 6章担当

横溝孝明大正製薬株式会社 12章担当（分担）

【 NRC レポート・ EMA ガイドライン検討チーム】

竹ノ内一雅アステラス製薬株式会社(サブリーダー) 北川忠行武田薬品工業株式会社

佐伯浩之富士フイルムRIファーマ株式会社野村真功株式会社三和化学研究所

片岡尚子ノバルティスファーマ株式会社(2013年10月まで)

【 FDA, EMA, PMDA 事例調査検討チーム】

松岡伸篤ファイザー株式会社(サブリーダー) 高木弘毅サノフィ株式会社

土川克ゼリア新薬工業株式会社

鵜飼裕之日本ベーリンガーインゲルハイム株式会社笹川裕次 Meiji Seikaファルマ株式会社

棚橋昌也興和株式会社

吉田早織日本化薬株式会社（2014年4月から）

タスクフォースリーダー兼，推進委員

冨金原悟小野薬品工業株式会社菅波秀規興和株式会社

土屋悟大日本住友製薬株式会社

担当副部会長

廣岡秀樹アステラス製薬株式会社

Appendix 1 欠測のある連続量経時データに対する統計手法について

日本製薬工業協会

医薬品評価委員会データサイエンス部会 2013 ^{年度タスクフォース} 2

2014 年度タスクフォース 4

欠測のあるデータの解析チーム

A.1 はじめに. . . . 4 A.2 線形モデルと線形混合モデル. . . . 4 A.3 条件付き分布と周辺分布 . . . . 6 A.4 固定効果の検討 . . . . 6 A.5 変量効果と誤差の相関構造 . . . . 9 A.5.1 例1：変量効果1つ．誤差は独立等分散． . . . . 9 A.5.2 重要な注意 . . . . 13 A.5.3 例2：変量効果2つ．変量効果の相関は無特定．誤差は独立等分散． . . . . 14 A.5.4 例3：変量効果1つ．誤差の分散共分散構造はAR(1)． . . . . 16 A.5.5 例4：変量効果1つ．誤差の分散共分散構造は指数関数の系列相関． . . . . 17 A.5.6 例5：変量効果なし．誤差の分散共分散構造はCompound Symmetry． . . . . 18 A.5.7 一般論 . . . . 19 A.6 残差プロット . . . . 19 A.6.1 影響診断. . . . 20 A.7 サンプルSASコードと出力例 . . . . 21 A.7.1 テストデータの発生 . . . . 21 A.7.2 例1の解析プログラムと出力1（例1-1） . . . . 24 A.7.3 例1-2：自由度調整方法を変更. . . . 27 A.7.4 例1-3：ロバスト分散の使用 . . . . 28 A.7.5 例2の解析プログラムと出力 . . . . 29 A.7.6 例3の解析プログラムと出力 . . . . 31 A.7.7 例4の解析プログラムと出力 . . . . 33 A.7.8 例5の解析プログラムと出力 . . . . 35 A.7.9 例1の残差プロットのプログラム . . . . 36 A.7.10 影響診断のプログラム . . . . 37 A.7.11 計算が収束しない場合の例. . . . 37 A.8 欠測のあるデータに対するモデリングの考え方 . . . . 38 A.8.1 自由度の算出方法. . . . 39 A.8.2 ロバスト分散 . . . . 40 A.9 推定方法：最尤法と制限付き最尤法 . . . . 40 A.9.1 尤度関数の構成と最尤法 . . . . 41 A.9.2 尤度関数の導出 . . . . 41 A.9.3 制限付き最尤(REML)法 . . . . 43 A.9.4 最尤法と制限付き最尤法の比較・まとめ . . . . 44 A.9.5 変量効果の予測 . . . . 44 A.10この分野をさらに学習するために . . . . 45 参考文献. . . . 45

Appendix B 理論の詳細 47 B.1 はじめに. . . . 47 B.2 【2章】欠測メカニズムの具体例の詳細. . . . 47 B.2.1 欠測メカニズムの復習 . . . . 47 B.2.2 具体例 . . . . 47 B.2.2.1 MCARの具体例 . . . . 47 B.2.2.2 MARの具体例 . . . . 49 B.2.2.3 MNARの具体例1 . . . . 51 B.2.2.4 MNARの具体例2 . . . . 52 B.3 【5章】Selection Modelの補足 . . . . 54 B.3.1 MNARを仮定したモデルの計算の詳細 . . . . 54 B.3.1.1 脱落のない症例i . . . . 54 B.3.1.2 時点j(j≥3)で脱落した症例i . . . . 55 B.3.1.3 時点2で脱落した症例i . . . . 56 B.4 【6章】NFMV，NFD，ACMV，MARに対する補足 . . . . 57 B.4.1 記号の整理と前提事項 . . . . 57 B.4.1.1 前提 . . . . 58 B.4.1.2 記号 . . . . 58 B.4.1.3 仮定 . . . . 58 B.4.1.4 よく用いる公式. . . . 58 B.4.1.5 状況設定 . . . . 59 B.4.1.6 具体例. . . . 59 B.4.2 NFMVとACMVの関係 . . . . 60 B.4.2.1 NFMVの定義と具体例. . . . 60 B.4.2.1.1 NFMVの定義 . . . . 60 B.4.2.2 NFMVの具体例 . . . . 60 B.4.2.3 ACMVの定義と具体例 . . . . 61 B.4.2.3.1 ACMVの定義 . . . . 61 B.4.2.3.2 ACMVの具体例 . . . . 62 B.4.2.4 NFMVとACMVの関係 . . . . 62 B.4.2.4.1 具体例からの検討 . . . . 63 B.4.2.4.2 一般論の検討 . . . . 66 B.4.3 NRC (2010)のPMMの感度分析 . . . . 67 B.4.4 ACMVとMARの同値性の証明 . . . . 68 B.4.4.1 用語の整理 . . . . 68 B.4.4.2 仮定の整理 . . . . 68 B.4.4.3 補題 . . . . 69 B.4.4.4 定理B.4.1の証明. . . . 71 B.4.5 NFMVとNFDの同値性の証明 . . . . 72 B.4.5.1 用語の整理 . . . . 72 B.4.5.2 仮定の整理 . . . . 73 B.4.5.3 補題 . . . . 73 B.4.5.4 定理B.4.2の証明. . . . 74 参考文献. . . . 76

Appendix C SASマクロの紹介 77 C.1 はじめに. . . . 77 C.2 プログラム仕様書：Selection_Model2 . . . . 79 C.2.1 基本情報と実行方法 . . . . 79 C.2.2 引数 . . . . 79 C.2.3 マクロの説明 . . . . 80 C.2.4 使用上の注意 . . . . 81 C.2.5 その他：参考文献. . . . 81 C.3 プログラム仕様書：cbi_pmm. . . . 82 C.3.1 基本情報と実行方法 . . . . 82 C.3.2 引数 . . . . 82 C.3.3 マクロの説明 . . . . 83 C.3.4 使用上の注意 . . . . 84 C.3.5 その他：参考文献. . . . 84 C.4 プログラム仕様書：delta_pmm . . . . 85 C.4.1 基本情報と実行方法 . . . . 85 C.4.2 引数 . . . . 86 C.4.3 マクロの説明 . . . . 89 C.4.4 使用上の注意 . . . . 89 C.4.5 その他：参考文献. . . . 89 C.5 プログラム仕様書：Shared_Parameter1 . . . . 90 C.5.1 基本情報と実行方法 . . . . 90 C.5.2 引数 . . . . 90 C.5.3 マクロの説明 . . . . 92 C.5.4 使用上の注意 . . . . 92

Appendix A ^{線形混合モデル概論}

A.1 はじめに

本報告書の主な対象となる臨床試験は，被験者ごとに複数の時点で応答変数の測定が計画されている，2群比較試験である．また，応答変数の計画された時点¹の群間差が主な興味の対象とする．計画された時点（最終投与時点と一致することも多い）の群間差が主な興味となるものの，それまでに試験を中止した症例の観測されたデータも，治験薬の有効性に対して十分な情報を持っていると考えられる．そのため，すべての時点のデータを含めたモデリングを行った上で，計画された時点の群間差を検討することを試みる．

しかし，例えば「ベースラインと計画された時点のデータのみを用いた共分散分析」等と比べると，モデルが極めて複雑になり，考慮しなければならない点も多くなる．そこで本章では，線形モデルは既知だが線形混合モデルにはなじみのない読者に向けて，それらの基本的な内容（モデルの構成方法・推定方法など）を整理すると同時に，SASプログラムと解析結果の例を示す．また，欠測のあるデータに対するMMRMのモデリングの考え方，感度分析についても少し触れる．

なお，本章では欠測メカニズムはMCARまでしか考えず，欠測の推定値に与える影響には触れないものとする．

本報告書で用いる線形混合モデルの大きな特徴は以下の通りである．

• 同一被験者の各時点のデータは相関することを仮定する

• 変量効果を導入することで，時点間の相関（の一部）を表現する

A.2 線形モデルと線形混合モデル

被験者iに対して，1∼ni時点²の応答変数のデータが得られたとする．Yi= (Yi1,· · ·, Yin_i)^′, (i= 1,· · ·, N) とおく．最初に，被験者iに対する線形モデル(Linear Model, LM)は，

Y_i=X_iβ+ϵ_i

と表されるモデルである．ここで，βは固定効果，Xiは固定効果に対するデザイン行列，ϵiは誤差である．線形回帰分析・（固定効果）分散分析・共分散分析などの基本的なモデルは，この線形モデルに含まれる．なお，

誤差に関してはE[ϵi] =0は仮定することが多いが，ϵi∼N(0, σ²In_i)は必ずしも仮定する必要はない．

本章の主題となる線形混合モデル(Linear Mixed Model, LMM)は，これに被験者ごとの特徴を表す確率変数 b_i（変量効果）を追加して

Yi=Xiβ+Zibi+ϵi (A.1)

と表されるモデルである．ここで，Z_iは変量効果に対するデザイン行列である．固定効果・変量効果として用いられるのは，たとえば，

• 固定効果β：薬剤，時点，薬剤と時点の交互作用など

• 変量効果b_i：被験者，施設など

1中止例の「実際に測定された最後の時点（欠測していない最後のデータがとられた時点）」とは異なる．

2被験者ごとに観測データ数が異なってもよい，と想定している．本章では，欠測があった場合も気にせず観測されたデータのみを用いて尤度の計算をするため，被験者ごとのデータ数は必ずしも一致しない．

である．たとえば，1群・3時点で時点ごとに平均が異なるモデルを考える．被験者iの時点j(j= 1,2,3)のデータは，t_jを時点（カテゴリ値），b_iを変量効果として，

Y_i1 = µ+t₁+b_i+ϵ_i1 Y_i2 = µ+t₂+b_i+ϵ_i2 Yi3 = µ+t3+bi+ϵi3

(A.2)

と表せる．これをベクトル・行列を用いてまとめる．まず，

Y_i=





 Y_i1 Y_i2 Yi3





, β=





 µ t1





 , ϵ_i=





 ϵ_i1 ϵ_i2 ϵi3







とおき，デザイン行列を

X_i=







1 1 0 0 1 0 1 0 1 0 0 1





, Z_i =





 1 1 1







とおくと，式(A.2)は

Y_i =X_iβ+Z_ib_i+ϵ_i と表現できる．

ここで，重要な点は以下の通りである．

• データとして手に入るのは，Y_i,X_i,Z_iのみである．β,b_i,ϵ_iは手に入らない．

• 固定効果βは線形回帰分析・分散分析等と同じく，それ自身が推定(estimation)の対象となる．

• 変量効果biは確率変数であり，ある分布に従うことを仮定する³．つまり，たとえば被験者を変量効果とする場合，被験者がある集団からのランダムサンプリングであると想定する⁴．統計モデルを考える際に，変量効果が果たす極めて大きな特徴は，

(i)データの相関を表現する

(ii)誤差の分散を減らす・構造を簡単にする

の2つである⁵．(i)は，被験者1人の各時点のデータに対して，共通の変量効果を入れることで，時点間の相関が考慮できるようになる⁶．(ii)は，データのばらつきの一部を「被験者の違いによるばらつき」

と考えることで，変量効果を考えないモデルと比べて誤差の分散が減少する，また，誤差の構造が簡単になる．

3（多変量）正規分布に従うことを仮定することが多い．しかし，それは「計算が容易」であることが主な理由であることが多く，正規性の妥当性は気にせずに使用することも多い．

4現実的には，この仮定の妥当性はあまり検証されないことが多い．

5応答変数に影響を与える要因をモデルに組み込むことができる，という根本的な部分を除く．

6同じ被験者に対して2回くり返し測定したデータY1 = µ+b1+ϵ1, Y2 = µ+b1+ϵ2 を考える．b₁, ϵ1, ϵ2 は全て独立とし，

V[b1] =σ²_b, V[ϵ1] =V[ϵ2] =σ²とおくと，Y₁, Y2の共分散は

Cov[Y1, Y2] =Cov[µ+b1+ϵ1, µ+b1+ϵ2] =Cov[b1, b1] =σ²_b となり，分散は

V[Y1] =V[b1] +V[ϵ1] =σ²_b+σ², V[Y2] =V[b1] +V[ϵ2] =σ²_b+σ² となるので，Y₁とY2の相関は

Corr[Y1, Y2] = Cov[Y1, Y2]

√V[Y1]√

V[Y2]= σ²_b σ_b²+σ² となり，時点間の相関を表現できる．

• 以上を受けて，本報告書では変量効果に対する主な関心は「変量効果の個別値がいくらであるか」ではなく，「時点間相関がどのくらいあるか」「データのばらつき全体のうち，変量効果で説明できる部分はどのくらいか（誤差分散はどのくらいか）」にあるとする．これらの性質は，変量効果の従う分布のパラメータによって特徴づけられる．つまり，本報告書では変量効果に対して推測の主な対象となるのは，変量効果自身の値よりも，まずはその従う分布のパラメータであるとする．つまり，たとえばb_i∼N(0, τ²I_m) を仮定した場合，bi自身ではなく，τ²を推定の主な対象とすることが多い．次のステップとして，個別のbiの値にも興味がある場合もある．その場合，b_iが確率変数であるため，固定効果の場合の推定 (estimation)・推定量(estimator)と区別して，b_iの予測(prediction)・予測量(predictor)ということが多い⁷．代表的な予測量の1つとして，応答変数を与えたもとでの変量効果の事後平均bbi =E[bi|Yi]がある．本報告書では，予測についてはあまり扱わない．

• 誤差ϵiにも正規分布を仮定することが多いが，「誤差は時点間で独立」とするか「誤差も時点間相関する」ようにするか，検討が必要である．

なお，本報告書では，簡単のため以下を仮定する．

• 変量効果と誤差は全て（多変量）正規分布に従う．

• 変量効果と誤差は独立．つまり，b_iとϵ_jはi, jの値によらず独立．

• 異なる被験者のデータは全て独立．つまり，i̸=jの場合，biとbj，ϵiとϵjは独立．

これらは，基本的なモデルでは仮定されることが多い．

A.3 条件付き分布と周辺分布

応答変数に時点間相関のある経時データを扱う際，よく用いられる分布のタイプは2種類ある．1つは(A.1) 式のように，変量効果を明示した分布であり，これを条件付き分布と呼ぶ．

一方，変量効果は確率変数であり，分布に従う未知の変数である．そのため，biのばらつきも込みにしたYi

全体の分布を考えることがある．この分布を周辺分布と呼ぶ．計算上は，周辺分布の確率密度関数は条件付き分布の確率密度関数を，変量効果の確率密度関数をかけた上で積分すれば求まる．以下，これをみていくこととする．たとえば式(A.1)

Yi=Xiβ+Zibi+ϵi

に対して，b_i∼N(0,D), ϵ_i∼N(0,Σ_i)でb_iとϵ_iが独立，を仮定した場合，

• 条件付分布Yi|bi∼N(Xiβ,Σi)

• 周辺分布Y_i∼N(X_iβ,Z_iDZ^′_i+ Σ_i)

となる．また，条件付分布の密度関数f(Yi|bi)と周辺分布の密度関数f(Yi)の関係は，変量効果の密度関数 g(bi)を用いて

f(Yi) =

∫

f(Yi|bi)·g(bi)dbi

と表現できる．

A.4 固定効果の検討

固定効果について検討すべき点をいくつか整理する．

(i)時点をカテゴリ値にするか，連続値にするか

7文献によっては，変量効果に対しても「推定」「推定量」という用語を用いているため，以上の区別は絶対的なものではない．

ドキュメント内 I (ページ 144-200)

第 8 章 その他の手法 87