最近の話題 - MBDD の理論背景解説 - Microsoft Word _アミ修正版_TF6

2. MBDD の理論背景解説

2.8 最近の話題

44 2.8.2 アダプティブ・デザイン

アダプティブ・デザインとは，中間解析によって得られた試験途中の情報（データ）を用いて，

試験デザインの変更を行うことである。

アダプティブ・デザインでは特に，集積されているデータに基づいて，試験デザインのアダプテーションを実施するため，恣意性による妥当性（validity）とインテグリティ（integrity）の欠落は，試験結果の信頼性を著しく損なうことになる。そのため，アダプティブ・デザインを利用する際に妥当性と正当性の担保は，必須の要素として考慮すべき内容とされている⁵³。

アダプティブ・デザインは，1990年より多段階デザインの一種としてadaptive interim analyses， flexible designなど様々な呼称で検討されてきた。21世紀に入り医薬品開発の開発費の削減，成功確率の向上などの機運に乗り急激に注目を集めている。アダプティブ・デザインは，サンプルサイズ，選択/除外基準，用量，エンドポイント，解析方法の変更を広く柔軟に変更可能としたLiu らの基本概念⁵⁴のもとに PhRMA Working Group が定義した。各極の動向としては，欧米では，

European Medicines Evaluation Agency（EMEA）が 2002 年に Points to consider^55,56，2007 年に REFLECTION PAPERが発出され，FDAは2010年2月にDraft Guidance⁵⁷を発出しており，2007 年頃から急速にその利用も広がっている⁵⁸。アダプテーションの方法としては，多くの提案，事例があるがShein-Chung Chowによる成書⁵⁹の記述を一部借りると，以下に示すようなデザインがある。(1) an adaptive group sequential design：群逐次デザインにおいて事前に取り決めた，安全性，

有効性，及び無効の基準に準じて中止・継続の判断，サンプルサイズの再計算などを行う適応型群逐次デザインである。(2) N-adjustable design：中間段階のデータに基づいて，サンプルサイズの再計算のみを行うサンプルサイズ調整デザインである。サンプルサイズの再計算の方法には，盲検下のデータから分散を推定しサンプルサイズ計算を行う Gould の方法がある^60,61。一方，盲検解除を伴う場合は，中間解析ごとにサンプルサイズの再調整を行う Cui-Hung-Wang 法⁶²， Proschan-Hunsberger法⁶³，Bauer and Kohne法^64,65がある。Proschan-Hunsberger法，Bauer and Kohne 法は，各ステップでの統計量が独立であることを前提とした2段階デザインでの手法である。その他，Bauer and Kohne法を多段階に拡張したIndependent p-value Approachesや，同様に多段階デザインを前提とした逆正規変換法がある。(3) an adaptive seamless phase 2/3 design：第2相試験と第3 相試験の別々の試験によって達成できる目的を，1つの試験で達成することを目的とした試験計画であり，最終解析には，アダプテーションの前および後に集積された被験者のデータを用いる。シームレスデザインには，通常の第2相試験と同じ目的の学習（learning）フェーズと，通常の第 3 相試験と同じ目的で行われる検証（confirmatory）フェーズがある。(4) a drop-the-loser design：多段階デザインにおいて，効果のない治療群を脱落させる。(5) an adaptive randomization

design：適応型割付手順には，治療適応型割付，共変量適応型割付，反応適応型割付がある。治

療適応型割付および共変量適応型割付はその殆どが治療群間での目的とするサンプルサイズ比からの不均衡もしくは偏りを減らすことを目的としている。一方，反応適応型割付は割りつけられた治療群の効果（反応）により割り付けを行う方法である。(6) an adaptive dose-escalation design：初期段階の臨床試験で用いられることが多く，最大耐用量を決定することが目的のデザインである。ベイズ統計学の考え方を利用して，がんの分野で汎用的な Continual Reassessment Method

（CRM）がその事例のひとつである。(7) an adaptive treatment switching：がんやHIVのような進

行性の疾患で使われており，登録時に割り付けられた治療群の効果が，治療の無効または疾患の進行がみられるなどの場合には，倫理的な理由から別の治療群への切り替えが許されているデザインである。(8) an adaptive hypotheses design：中間解析の結果により，試験仮説の変更を行うことができるデザインである。(9) any combination of the above：上記内容の複合デザインとなる。

上述のようにアダプティブ・デザインは，種類も多様であり FDA から発出されたドラフト・

ガイダンスでも多くの留意点が記述されている。ここですべてを記載することは出来ないが，ドラフト・ガイダンスでは，如何にしてA&WC (adequate and well-controlled effectiveness) studyとして成立させるかを命題の一つとしている。また，アダプティブ・デザインには，多くの複合デザインがあり，方針の決定時期も多様である。適応過程で想定される重複因子を有するデザインでは，その特性を評価して，最適なデザインを選択することは難題である。そのため，試験デザインを決定する際には，臨床試験シミュレーションにより複数のシナリオの統計的な特性を評価する必要がある。特に，エンドポイントやイベントに対するモデル，脱落モデル，症例集積モデル，

アダプテーションの選択手順を示すモデルなどの臨床試験モデルを作成し，アダプテーションの方法，アダプテーションのタイミング，多段階での薬剤効果を合併する手順，薬剤効果を推定するための解析方法，最終段階での第一種の過誤や検出力などを評価することが望ましい。

2.8.3 ベイズ統計学

ベイズ統計学については多くの成書⁶⁶,⁶⁷で示されているように，考え方として，推測対象のパラメータが確率の分布によって表現されることを基本としている。データが得られる前のパラメータは事前確率の分布(事前分布：prior distribution)として定義される。得られたデータは，パラメータを含んだ尤度関数のモデルで表現される。事前確率分布と尤度関数の積を標準化したものは，

事後確率の分布（事後分布：posterior distribution）と呼ばれる。事後分布に基づいて，対象のパラメータに関する推論を行うことができる。

従来，臨床試験で適応されている統計理論である頻度論と比較してベイズ統計学の特徴を概説する。一般的に使用されている頻度論では，真値は唯一の点である。その真値を臨床試験で得られた結果を用いて知りえない値である真値（例えば，実薬とプラセボの差）について，推定，検定を行うというのが頻度論の考え方である。

頻度論とベイズ統計学の大きな違いは，成功確率の直接的な判断の可否である。ベイズ統計学では，例えば薬理効果の大きさを表すパラメータの事後分布における0以上の確率を計算することで，薬剤の効果があると言える確率は何％であるかを直接的に評価することが可能である。一方，頻度論に基づく統計的仮説検定の結果からは，真値が0かどうかという判断のみであり，真値の推定値（もしくは真値の推定値が従う分布）からの成功確率の判断は出来ない。このことより，薬剤の効果の大きさを適切に見積もる必要がある早期段階の臨床試験において，ベイズ統計学の利用は有用であると考えられる。

臨床試験デザインにおいてベイズ統計学は，中間モニタリング（中間解析によるgo/no-goの判断），サンプルサイズの再算定，CRM（いずれも広義にはアダプティブ・デザイン）などに適用できる。無論，単純な無作為化並行群間試験を頻度論ではなく，ベイズ統計学を基本として構成することも可能である。ベイズ統計学を基本として試験を立案する際は，頻度論による検出力ベ

ースのサンプルサイズ設定や有意性検定の替わりに，ベイズ統計学による検出確率（Bayesian powerなど）によるサンプルサイズ設定とBayesian significanceによる評価となる。試験結果を解析・評価するという視点で見ると，ベイズ統計学に基づいて実施した場合，判断基準は頻度論に基づく有意水準ではなく，以下に示す”Bayesian significance”を評価することになる。△を群間差とし，仮説を

0 :

1 0

Δ H H 対立仮説　帰無仮説　

と設定した場合，

ε

を任意の確率（例えば 2.5%）として，P

(

^Δ^<0|data

)

^<^ε を満たす場合に，”Bayesian significance”であるとする。P

(

Δ<0|data

)

の値は，得られた試験結果より求めた事後分布を，0未満の領域で積分することより算出される。

また，ベイズ統計学を用いた中間モニタリングにおける中止継続基準や被験者数再算定の基準では，中間時までのデータにより検出確率として予測検出力（predictive power）及び予測確率

（predictive probability）を用いる。

ベイズ統計学を基本とした臨床試験においても，モデルを構築し，臨床試験シミュレーションにより，Bayesian significanceや検出確率を元にその挙動を評価した上で，最適なデザインを決定することで，その精度を向上させることができる。ベイズ統計学ではBayesian significanceや検出確率の他に事前分布の設定も最終結果に影響を及ぼすため，これら任意に決定する設定値の結果への影響度合いも評価する必要がある。例えば，CRMの試験デザインでは，用量制限毒性発現率の事前分布，用量反応関数の設定，用量制限毒性発現率などをモデル化することにより，初回用量，用量増加幅，成功確率などを評価し，最適な試験デザインを検討することができる。

ドキュメント内 Microsoft Word _アミ修正版_TF6_MBDD最終5.1の03のCA.doc (ページ 47-51)