1
クロスオーバー実験のデザインと解析
-テレメトリー法によ
る
QT/QTc 試験の実データを用いた検討-
II.クロスオーバー実験の統計解析
4)有意差検定と信頼区間方式の解析の比較
平田 篤由
薬理統計グループ 安全性薬理チーム
要約:ヒトのQT/QTc 評価試験における判断基準は,QTc 間隔の 95%信頼区間の上限が 10ms を 越えるかどうかである.一方,非臨床試験のイヌを用いたテレメトリーQT/QTc 試験では有意差 検定で判断されている.検定方式には,必ずしも医学的に問題になる変化の大きさと一致しない, 用いる手法によりp 値が異なるため試験の内容に合致した手法を選択する必要がある,変化の大 きさによる基準値が規定される場合に統計学的に有意であるか見るだけでは基準値に対しての判 断ができない,例数が少ない場合やデータのばらつきが大きい場合に有意になりにくく過小評価 となる,といった問題点がある.信頼区間方式には,基準値との比較という定量的な評価ができ, ヒトでの評価手順と同様に判断できる,ばらつきが大きい場合に信頼区間が広くなるため,質の 悪い試験では厳しく評価されるという特徴がある.今後のイヌを用いたテレメトリーQT/QTc 試 験の目標は,信頼区間方式での具体的な基準値を明確にすること,および実際に試験を行う場合 に試験の結果に影響を与える因子を特定し,それぞれについての許容範囲が明確にすることであ ると考えられる. キーワード: ICH E14,QT/QTc,テレメトリー試験,信頼区間,有意差検定 目 次 1.ICH E14 --- 3 2.信頼区間法による評価手順 --- 7 3.有意差検定の問題点 --- 11 4.信頼区間方式の利点と現状の問題点 --- 12 5.イヌを用いたテレメトリーQT/QTc 試験での目標 --- 132 2014/6/7 第14回医薬安全性研究会定例会 1
クロスオーバー実験の統計解析
4) 有意差検定と信頼区間方式の解析の比較 薬理統計グループ 安全性薬理チーム 平田篤由 2014/6/7 第14回医薬安全性研究会定例会 2アウトライン
• ICH E14
非抗不整脈薬におけるQT/QTc間隔の延長と 催不整脈作用の潜在的可能性に関する臨床的評価について• 信頼区間法による評価手順
• 有意差検定による方法
• 信頼区間方式の利点と現状の問題点
• 今後のイヌを用いたテレメトリーQT/QTc試験
の目標
本資料のアウトラインを示す. 最初に,臨床においてQT/QTc 間隔延長を評価するためのガイドライン(ICH E14)の内容を解 説する.ついで,信頼区間法による評価手順と有意差検定による方法について説明し,信頼区間 方式の利点と現状の問題点にふれる.最後に,イヌを用いたテレメトリーQT/QTc 試験での目標 についてのべる.3 2014/6/7 第14回医薬安全性研究会定例会 3
ICH E14 非抗不整脈薬におけるQT/QTc間隔の延長と
催不整脈作用の潜在的可能性に関する臨床的評価について
2.2 QT/QTc評価試験
QT/QTc評価試験の目的は、被験薬に心室再分極に対する一定の大きさ以上の薬 理作用があるか否かを決定することであり、その値はQT/QTc間隔の延長として検 出される。規制当局が関心をもつ基準値レベルについては後述するが、QTc間隔へ の作用の平均値としておよそ5msであり、95%信頼区間の上限を10msとするもので ある。この試験は通常、健康な志願者(不整脈の危険性が高い集団ではなく)を対象 に実施され、医薬品開発の後期に、目標とする患者集団において当該薬剤の QT/QTc延長作用を入念に調べる必要性があるか否かを決定するために用いられる。 この試験は、薬剤に催不整脈性があることを示すことを目的とはしていない。民族差 についてのデータは限られているが、民族的要因はQT/QTc評価試験の成績に影響 することはないと考えられている。 ICH E14 は,非抗不整脈薬における QT/QTc 間隔の延長と催不整脈作用の潜在的可能性に関す る臨床評価について定めている.2.2 QT/QTc 評価試験に,被験薬の心室再分極に対して規制当局 が興味を持つ判断基準が記載されており,QTc 間隔への作用の平均値としておよそ 5ms,95%信 頼区間の上限として10ms となっている.なお,この試験は,開発後期における目標とする患者 集団でのQT/QTc 延長作用検討の必要性を確認するため,通常、健康志願者で実施される.4 2014/6/7 第14回医薬安全性研究会定例会 4
2.2.1 QT/QTc評価試験のデザイン
QT/QTc評価試験は、無作為化、適切な盲検化、プラセボ対照群の同時設定と いった潜在的なバイアスに対処するための方策が取られ、適切かつよく管理された 試験でなければならない。この試験は、その後の医薬品の開発段階におけるデータ 収集の程度を決定する上で決定的な役割があるため、臨床的に意味のある差を検 出し得る高い信頼性を有することが重要である。分析感度(assay sensitivity)を確 立するための陽性対照群(薬理学的、もしくは非薬理学的)を同時に用いることによ り、試験におけるQT/QTc延長の検出能力の信頼性を大いに高めることができる。陽 性対照はQT/QTc間隔の平均値をおよそ5ms変化させる効果を示す必要がある(即 ち、規制当局が関心をもつ基準値であるQT/QTc間隔を5ms程度変化させる作用に 近い作用)。陽性対照の作用が検出できれば、被験薬についてもその試験で同様の 作用を検出する能力が証明されることになる。陽性対照を用いない場合には、その 妥当性を明らかにし、分析感度(assay sensitivity)を確立する別の方法を示す必要 がある。 QT/QTc 評価試験のデザインで重要なのは,陽性対照においてQT/QTc 間隔の平均値をおおよ そ5ms 変化させる効果を示す必要があることで,この条件が満たすことで被験薬についてもその 試験で同様の作用を検出する能力が証明されることになる.5 2014/6/7 第14回医薬安全性研究会定例会 5
2.2.4 QT/QTc評価試験の解釈
薬剤のQT/QTc間隔の平均値に対する作用がどの程度小さいと影響がないかを判 断するのは困難である。しかし、QT/QTc間隔の平均値を延長する作用が約5msま たはそれ以下である薬剤は、TdPを引き起こしていないようである。そうした前提の 上で、陽性対照(薬理学的、もしくは非薬理学的)には、その特徴が明らかにされて おり、規制当局が関心をもつ基準値(5ms、第2.2節参照)付近のQT/QTc間隔の変 化を常に示すものを使用するべきである。 同様の考え方に基づき、QT/QTc評価試験が陰性とは、その薬剤のQTc間隔への 時間を一致させた平均効果の最大値に対する95%片側信頼区間の上限が10msを 下回る場合を指す。この定義は、被験薬のQT/QTc間隔への作用の平均がおよそ 5msを超えないことを合理的に保証するために選択されている。時間を一致させた 差の最大値がこの基準値を超える場合、試験結果は陽性とされる。試験結果が陽性 であれば、その後の医薬品の開発段階における評価方法には影響を与えるが、この 試験結果はその薬剤が催不整脈性であることを意味するものではない。 QT/QTc 評価試験の結果,被験薬の QTc 間隔への時間を一致させた平均効果の最大値に対する 95%片側信頼区間の上限が 10ms を下回る場合,陰性と判断される.10ms を越える場合は陽性と して,その後の開発段階で心臓への影響を注意深く確認する必要があるが,必ずしも催不整脈性 を有することを意味するものではない.6 2014/6/7 第14回医薬安全性研究会定例会 6
5.1 QT/QTc間隔延長作用と承認プロ
セスとの関連性
QT/QTc間隔の平均値への作用が小さい場合に、その影響が重要でない
かどうかを判断するのは困難であるが、不整脈のリスクは
QT/QTc延長の程
度とともに増大するようである。
平均
QT/QTc間隔の延長が5ms前後、ある
いはそれ未満の薬剤は、
TdPを引き起こさないようである
。それは薬物のリ
スクが増大しないためなのか、あるいはリスクは増大するが非常に小さくて
検出できないためなのかは不明である。
QT/QTc間隔の平均への延長作用
が
5ms程度から20ms未満までの薬剤については結論は出ていないが、中
には催不整脈リスクとの関連を示しているものもある
。
QT/QTc間隔の平均
値への延長作用が
20msを超える薬剤は、催不整脈リスクがある可能性が
実質的に高く
、医薬品開発期間中に
不整脈の事象が臨床的に認められる
可能性がある
。
平均QT/QTc 間隔の延長が 5ms 前後,あるいはそれ未満の場合,トルサデポアン型心室頻拍 (Torsa de Pointes:TdP) を引き起こさないようだが,5ms から 20ms 未満までの場合,催不整 脈リスクとの関連を示す薬剤もある.20ms を越える場合,開発期間中に臨床的に不整脈の発現 が認められる可能性がある. 2014/6/7 第14回医薬安全性研究会定例会 77 2014/6/7 第14回医薬安全性研究会定例会 8
クロスオ-バ-法の解析:
JMPの例
クロスオーバー試験で実施した場合の実際の解析手順について,JMP の出力画面を元に解説す る.0mg/kg,3mg/kg,10mg/kg,30mg/kg の 4 群 4 期で,各群当たり 1 例使用した場合の結果 を示す.上から順に,分散分析でモデルとして意味があるか,効果の検定で投与量(Dose),投 与時期(Period) ,動物(Animal)の各要因に効果があるか,そして Dose に関して,各投与量8
2014/6/7 第14回医薬安全性研究会定例会 9
差の信頼区間
群間の違いを見るために,Dose の赤下三角をクリックし,最小 2 乗平均の Student の t 検定に
9 2014/6/7 第14回医薬安全性研究会定例会 10
Studentのt検定の結果
Student の t 検定の場合,対照群との差の上側 95%信頼区間の値は 3,10,30mg/kg 群でそれ ぞれ12.451,19.2510,36.2510,p 値はそれぞれ 0.2050,0.0123,0.0001 で,10mg/kg 群以上 で統計学的に有意になる.10 2014/6/7 第14回医薬安全性研究会定例会
Dunnett検定の場合
Studentのt検定よ りも広い=より10ms との差が広がる →陰性と判断しにく くなる 11次にDose の赤下三角をクリックし,最小 2 乗平均の Dunnett 検定にチェックを入れ,Dunnett
検定の結果を求める.Dunnett 検定では多重性が考慮されるため,95%上側信頼限界はそれぞれ 14.55083、21.35083、38.35083 と Student の t 検定よりも広くなり,判定基準の 10ms を超え る可能性が高くなる.一方,p 値はそれぞれ 0.4156,0.0296,0.0003 と 10mg/kg 群以上で有意 になり,Student の t 検定と同じ結果だが,数値としてはより大きくなるため有意になりにくい. すなわち,精度の悪い試験の場合,検定では有意になりにくいので甘く評価されるが,信頼区 間方式では逆に厳しく評価されることが解る.
11 2014/6/7 第14回医薬安全性研究会定例会 12
検定方式の問題点
• 結果は、統計学的有意差の有無で判断される
が、それが医学的に問題になる変化の大きさ
による判断基準を示すものではない
• 用いる手法によりp値が変わるため,試験の
内容に合致した手法を選択する必要がある
• 変化の大きさによる基準値が規定される場合,
検定で判断するのは面倒である
• 有意でなければ良いは,安全性を考える場合,
過小評価になる
検定方式の問題点として以下の4 点が上げられる. ・結果は統計学的有意差の有無で判断されるが,必ずしも医学的に問題になる変化の大きさと一 致しない.試験に用いた例数やデータのばらつきに左右される. ・検定では,用いる手法によりp 値が異なるため,試験の内容に合致した手法を選択する必要が ある. ・変化の大きさによる基準値が規定される場合,単純に群間で検定して統計学的に有意であるか 見るだけでは,基準値に対しての判断ができない. ・統計学的に有意でなければ差がないと判断すると,例数が少ない場合やデータのばらつきが大 きい場合に生物学的な差を見逃すことになり,安全性を判断する際は過小評価となる.12 2014/6/7 第14回医薬安全性研究会定例会 13
信頼区間方式の利点と現状の問題点
• 信頼区間方式の利点
– ばらつきが考慮されており,質の悪い試験では厳しく
評価される
– 定量的評価ができる
– ヒトでの評価(ICH E14)と同じ考え方になる
• 現状の問題点
– 大動物でのTdPとQT/QTc間隔の平均値を延長する
作用の関係が検証されていない→基準値が不明
– 評価に影響する因子と制御範囲が不明
同じ哺乳類の臓器とは言え,ヒトの 基準値の適用が可能?? 一方,信頼区間方式では,ばらつきが大きい場合は信頼区間上限が広くなり,基準値を超えや すくなるため,見過ごす危険性が低くなるという点で,質の悪い試験では厳しく評価されること になる.また,有意差の有無でなく基準値との比較という定量的な評価ができ,ヒトでの評価(ICH E14)手順と同じにできるという利点がある. 現状での問題点としては,ヒトのICH E14 の基準値に対応する大動物での TdP と QT/QTc 間隔 の平均値の延長する作用との関係が検証されていないことで,そのためICH E14 に規定されるよ うな基準値が明確になっていない.また,実際に試験を実施する際に制御する必要のある評価に 影響する因子が特定されていない点も問題で,そのためどのような因子をどの範囲に制御する必 要があるかが不明である.13