2. MBDD の理論背景解説
2.8 最近の話題
43
44 2.8.2 アダプティブ・デザイン
アダプティブ・デザインとは,中間解析によって得られた試験途中の情報(データ)を用いて,
試験デザインの変更を行うことである。
アダプティブ・デザインでは特に,集積されているデータに基づいて,試験デザインのアダプ テーションを実施するため,恣意性による妥当性(validity)とインテグリティ(integrity)の欠落 は,試験結果の信頼性を著しく損なうことになる。そのため,アダプティブ・デザインを利用す る際に妥当性と正当性の担保は,必須の要素として考慮すべき内容とされている53。
アダプティブ・デザインは,1990年より多段階デザインの一種としてadaptive interim analyses, flexible designなど様々な呼称で検討されてきた。21世紀に入り医薬品開発の開発費の削減,成功 確率の向上などの機運に乗り急激に注目を集めている。アダプティブ・デザインは,サンプルサ イズ,選択/除外基準,用量,エンドポイント,解析方法の変更を広く柔軟に変更可能としたLiu らの基本概念54のもとに PhRMA Working Group が定義した。各極の動向としては,欧米では,
European Medicines Evaluation Agency(EMEA) が 2002 年に Points to consider55,56,2007 年に REFLECTION PAPERが発出され,FDAは2010年2月にDraft Guidance57を発出しており,2007 年頃から急速にその利用も広がっている58。アダプテーションの方法としては,多くの提案,事 例があるがShein-Chung Chowによる成書59の記述を一部借りると,以下に示すようなデザインが ある。(1) an adaptive group sequential design:群逐次デザインにおいて事前に取り決めた,安全性,
有効性,及び無効の基準に準じて中止・継続の判断,サンプルサイズの再計算などを行う適応型 群逐次デザインである。(2) N-adjustable design:中間段階のデータに基づいて,サンプルサイズの 再計算のみを行うサンプルサイズ調整デザインである。サンプルサイズの再計算の方法には,盲 検下のデータから分散を推定しサンプルサイズ計算を行う Gould の方法がある60,61。一方,盲検 解除を伴う場合は,中間解析ごとにサンプルサイズの再調整を行う Cui-Hung-Wang 法62, Proschan-Hunsberger法63,Bauer and Kohne法64,65がある。Proschan-Hunsberger法,Bauer and Kohne 法は,各ステップでの統計量が独立であることを前提とした2段階デザインでの手法である。そ の他,Bauer and Kohne法を多段階に拡張したIndependent p-value Approachesや,同様に多段階デ ザインを前提とした逆正規変換法がある。(3) an adaptive seamless phase 2/3 design:第2相試験と 第3 相試験の別々の試験によって達成できる目的を,1つの試験で達成することを目的とした試 験計画であり,最終解析には,アダプテーションの前および後に集積された被験者のデータを用 いる。シームレスデザインには,通常の第2相試験と同じ目的の学習(learning)フェーズと,通 常の第 3 相試験と同じ目的で行われる検証(confirmatory)フェーズがある。(4) a drop-the-loser design:多段階デザインにおいて,効果のない治療群を脱落させる。(5) an adaptive randomization
design:適応型割付手順には,治療適応型割付,共変量適応型割付,反応適応型割付がある。治
療適応型割付および共変量適応型割付はその殆どが治療群間での目的とするサンプルサイズ比 からの不均衡もしくは偏りを減らすことを目的としている。一方,反応適応型割付は割りつけら れた治療群の効果(反応)により割り付けを行う方法である。(6) an adaptive dose-escalation design: 初期段階の臨床試験で用いられることが多く,最大耐用量を決定することが目的のデザインであ る。ベイズ統計学の考え方を利用して,がんの分野で汎用的な Continual Reassessment Method
(CRM)がその事例のひとつである。(7) an adaptive treatment switching:がんやHIVのような進
45
行性の疾患で使われており,登録時に割り付けられた治療群の効果が,治療の無効または疾患の 進行がみられるなどの場合には,倫理的な理由から別の治療群への切り替えが許されているデザ インである。(8) an adaptive hypotheses design:中間解析の結果により,試験仮説の変更を行うこ とができるデザインである。(9) any combination of the above:上記内容の複合デザインとなる。
上述のようにアダプティブ・デザインは,種類も多様であり FDA から発出されたドラフト・
ガイダンスでも多くの留意点が記述されている。ここですべてを記載することは出来ないが,ド ラフト・ガイダンスでは,如何にしてA&WC (adequate and well-controlled effectiveness) studyとし て成立させるかを命題の一つとしている。また,アダプティブ・デザインには,多くの複合デザ インがあり,方針の決定時期も多様である。適応過程で想定される重複因子を有するデザインで は,その特性を評価して,最適なデザインを選択することは難題である。そのため,試験デザイ ンを決定する際には,臨床試験シミュレーションにより複数のシナリオの統計的な特性を評価す る必要がある。特に,エンドポイントやイベントに対するモデル,脱落モデル,症例集積モデル,
アダプテーションの選択手順を示すモデルなどの臨床試験モデルを作成し,アダプテーションの 方法,アダプテーションのタイミング,多段階での薬剤効果を合併する手順,薬剤効果を推定す るための解析方法,最終段階での第一種の過誤や検出力などを評価することが望ましい。
2.8.3 ベイズ統計学
ベイズ統計学については多くの成書66,67で示されているように,考え方として,推測対象のパ ラメータが確率の分布によって表現されることを基本としている。データが得られる前のパラメ ータは事前確率の分布(事前分布:prior distribution)として定義される。得られたデータは,パラメ ータを含んだ尤度関数のモデルで表現される。事前確率分布と尤度関数の積を標準化したものは,
事後確率の分布(事後分布:posterior distribution)と呼ばれる。事後分布に基づいて,対象のパラ メータに関する推論を行うことができる。
従来,臨床試験で適応されている統計理論である頻度論と比較してベイズ統計学の特徴を概説 する。一般的に使用されている頻度論では,真値は唯一の点である。その真値を臨床試験で得ら れた結果を用いて知りえない値である真値(例えば,実薬とプラセボの差)について,推定,検 定を行うというのが頻度論の考え方である。
頻度論とベイズ統計学の大きな違いは,成功確率の直接的な判断の可否である。ベイズ統計学 では,例えば薬理効果の大きさを表すパラメータの事後分布における0以上の確率を計算するこ とで,薬剤の効果があると言える確率は何%であるかを直接的に評価することが可能である。一 方,頻度論に基づく統計的仮説検定の結果からは,真値が0かどうかという判断のみであり,真 値の推定値(もしくは真値の推定値が従う分布)からの成功確率の判断は出来ない。このことよ り,薬剤の効果の大きさを適切に見積もる必要がある早期段階の臨床試験において,ベイズ統計 学の利用は有用であると考えられる。
臨床試験デザインにおいてベイズ統計学は,中間モニタリング(中間解析によるgo/no-goの判 断),サンプルサイズの再算定,CRM(いずれも広義にはアダプティブ・デザイン)などに適用 できる。無論,単純な無作為化並行群間試験を頻度論ではなく,ベイズ統計学を基本として構成 することも可能である。ベイズ統計学を基本として試験を立案する際は,頻度論による検出力ベ
46
ースのサンプルサイズ設定や有意性検定の替わりに,ベイズ統計学による検出確率(Bayesian powerなど)によるサンプルサイズ設定とBayesian significanceによる評価となる。試験結果を解 析・評価するという視点で見ると,ベイズ統計学に基づいて実施した場合,判断基準は頻度論に 基づく有意水準ではなく,以下に示す”Bayesian significance”を評価することになる。△を群間差 とし,仮説を
0 :
0 :
1 0
>
Δ
<
Δ H H 対立仮説 帰無仮説
と設定した場合,
ε
を任意の確率(例えば 2.5%)として,P(
Δ<0|data)
<ε を満たす場合 に,”Bayesian significance”であるとする。P(
Δ<0|data)
の値は,得られた試験結果より求めた事 後分布を,0未満の領域で積分することより算出される。また,ベイズ統計学を用いた中間モニタリングにおける中止継続基準や被験者数再算定の基準 では,中間時までのデータにより検出確率として予測検出力(predictive power)及び予測確率
(predictive probability)を用いる。
ベイズ統計学を基本とした臨床試験においても,モデルを構築し,臨床試験シミュレーション により,Bayesian significanceや検出確率を元にその挙動を評価した上で,最適なデザインを決定 することで,その精度を向上させることができる。ベイズ統計学ではBayesian significanceや検出 確率の他に事前分布の設定も最終結果に影響を及ぼすため,これら任意に決定する設定値の結果 への影響度合いも評価する必要がある。例えば,CRMの試験デザインでは,用量制限毒性発現率 の事前分布,用量反応関数の設定,用量制限毒性発現率などをモデル化することにより,初回用 量,用量増加幅,成功確率などを評価し,最適な試験デザインを検討することができる。
47