ユニット1.診断に関する研究
森實敏夫
2014.1.18
アウトライン
• 診断法実施の臨床的文脈
• 診断精度(DTA)の研究
• DTAの効果指標
– 感度・特異度 – ROC解析• 診断に関するクリニカルクエスチョン
臨床課題を解析するための枠組み
疾患の疑 われる集 団 患者集団 または 適用集団 代理ア ウトカム 主要ア ウトカム 重要アウ トカム 死亡 QOL 害:副作用 /有害事象 害:副作用 /有害事象 1 5 6 介入* 2 3 臨床課題 ①検査法は疾患の診断にどれくらい有効か? ②検査法はどれくらいの害を伴うか? ③介入は重要アウトカムを改善するか? ④介入は主要アウトカムを改善するか? ⑤主要アウトカムの改善は重要なアウトカムの改善を伴うか? ⑥介入はどれくらいの害を伴うか? ⑤⑥介入のベネフィットと害はどれくらいか? ⑦検査法のマネージメントへの影響はどれくらいか? ⑧検査がアウトカムを改善する直接的エビデンスがあるか? 4 検査 臨床 決断 の変 更 検査陰性 の集団 7 臨床決断 8Harris RP, Helfand M, Woolf SH, et al. Current
methods of the US Preventive Services Task Force: a review of the process. Am J Prev Med 2001;20(3 Suppl):21-35.より改変
臨床的 文脈で の位置 づけ!
臨床課題
①診断法は疾患の診断にどれくらい有効か?
②
診断法はどれくらいの害を伴うか?
③介入は重要アウトカムを改善するか? ④介入は主要アウトカムを改善するか? ⑤主要アウトカムの改善は重要なアウトカムの改善を伴うか? ⑥介入はどれくらいの害を伴うか? ⑤⑥介入の益と害はどれくらいか?⑦診断法のマネージメントへの影響はどれくらい
か?
⑧
診断法がアウトカムを改善する直接的エビデ
ンスがあるか?
診断法の臨床的文脈:
診断標的と診断法実施のアウトカム • 疾患 • 病変 • 病態 • 病期 • その他の介入を必要とする状態 診断標的 Target condition 診断法実施の臨床的転帰 結 果 診 断 法 実 施 対象集団 Patients or Population• さらなる検査を実施 • 経過観察(モニター )する • 治療を開始する • 治療を変更する • 治療を終了する 診断法実施の臨床的転帰 結 果 患者中心アウトカム Patient-centered Outcome 転機が複雑 で患者中心ア ウトカムの評 価が難しい!
診断研究の現状での限界
• 一つひとつの診断法の診断能の解析が行われているが、 2つ以上の複数の診断法の組み合わせについてはほとん ど解析が行われてきていない。 • 異なる診断法の間の相関が不明のため、感度・特異度が 高く精度が高い診断法であっても、その診断法だけで十分 かどうかの判断が困難。 • 実臨床では個別患者の状態に応じて、複数の診断法が同 時に、あるいは連続して実施される。 • 一つの診断法の患者中心アウトカムに対する効果を解析 するのは困難となる。研究として計画する際にも困難を伴 う。診断法研究のレベル
レベル 期待される成果 研究目的 ① 技術の確立と最 適化 安定した結果 ② 診断能(精度/正 診率) 感度・特異度 害 ③ 診断思考への影 響 診断法実施後医師の疾患確率評価が変 わる率 ④ 治療選択への影 響 診断法実施後に治療計画が変更される 率 ⑤ 患者中心アウト カムへの影響 診断法を実施しない場合と比較して実 施した場合にアウトカムが改善する (生存、QOLなど)(害) ⑥ 社会への影響 費用効果分析(例:検診における有用 性)患者中心アウトカムを直接証明できな
い非直接的な証明
•膵癌が疑われる成人で
腹部PETスキャン
を
施行するとしない場合に比べ
生存
が長いか?
•膵癌が疑われる成人で
腹部PETスキャンは
腹部CTスキャンと比べ
膵癌の診断精度
が優
れているか(有用性が高いか)?
診断に関する研究
• 診断精度の研究 → 横断研究
– 検査時にイベントが生起している。 (参照基準による診断確定まで時間がかかる場 合もある) – 疾患・病態・病変の有無を判定する。• 予後予測(Clinical Prediction Rule, CPR)の
研究
– 検査時にイベントが生起していない。イベントが 遅れて生起する。
2つのタイプの研究
• コホート型研究 Cohort type accuracy study (Single-gate study)
– その疾患が疑われる患者:例 胸痛の患者→①心筋梗塞 ⇔ ②そ れ以外 ①と②でトロポニン測定を比較する。
– 実臨床に近い。
• 症例対照型研究 Case-control type study (Two-gate study) – その疾患の患者とそれ以外:例 ①心筋梗塞の患者 ⇔ ②それ以 外 ①と②でトロポニン測定を比較する。 – 疾患スペクトルが実臨床とずれやすくバイアスの影響を受けやすい。 いずれの場合も参照基準”Reference standard”の診断法が参 照される。
診断法の比較
• インデックス診断法 Index tests
• 被比較診断法 Comparator tests
• 参照基準 Reference standards
(
≠ 至適基準 Gold standards)
• 診断標的 Target condition
比較 比較診断法の比較
• 直接比較 Head-to-head comparison
– 疾患群と非疾患群のすべての被験者で比較され る2つ以上の診断法と至適基準の診断法が実施 されている。 → 直接比較が可能。• 間接比較 Indirect comparison
– それぞれの診断法と至適基準の診断法が実施さ れている被験者が異なる。 → ランダムに選択して比較することで対処可能だ が普通は実施困難。参照基準 Reference standard
• 症状・検査 • 一連の症状・検査 • 一組の診断手順 • 単一の項目で構成される場合もあるが(例:高血圧)、 臨床症状、臨床検査、画像検査、病理検査、経過観 察、治療応答の組み合わせもある。 • 臨床的に受け入れられるものでなければならない。 • ほとんどの場合不完全である。(感度≠100%、特異 度≠100%)診断法の患者中心アウトカムへの
効果をRCTで証明できる場合
⑤ 患者中心アウト カムへの影響 診断法を実施しない場合と比較し て実施した場合にアウトカムが改 善する(生存、QOLなど) • リスク比 RR • オッズ比 OR • 相対リスク減少率 RRR • 絶対リスク減少ARR (率差)(RD) • 治療必要人数 NNT • スクリーニング必要人数 NNSNumber Needed to Screen (NNS)
• 定義:一定の期間に1人の死亡/有害なイベント(ア ウトカム)を防止するために診断法の実施が必要 な人数。 • 診断法を実施する群と実施しない群を比較する RCTでアウトカムを測定することにより直接証明で きる。 • NNS = 1 / |ARR| = NNT Rembold CM: BMJ 1998;317:307-12.Number Needed to Screen (NNS)
• 診断確定後に受ける治療が一定で、その治療法 のNNTが分かっている場合、間接的にNNSを算 出することが可能。 1. 治療法のNNT 2. その診断法によって検出される疾患の有病率(=そ の診断法を実施しないと発見されない患者の割 合) Pu • NNS = NNT/Pu感度・特異度
• 感度・特異度は診断法固有の属性であり診断精度 Diagnostic Test Accuracy (DTA)の指標となる。
• 感度・特異度はその算出のもとになった対象群が同 じであっても、診断閾値によって変動する。
• 感度は対象群の疾患スペクトル、特異度は対照群 の疾患構成とそれぞれの疾患スペクトルの影響を 受ける。
正診率/的中率
• 正診率は診断法を適用する対象集団の有病
率によって変動する。
– 同じ診断法であってもプライマリケア、二次・三次ケアで 異なり、スクリーニング・サーベイランス・診断などの用途 で異なる。• 個別患者では事前確率(症状、経過、診察所
見などに基づく疾患確率)によって的中率は
変動する。
2 x 2 table
至適基準 (+) 至適基準 (-) インデックス 診断法(+) 真陽性TP 偽陽性FP インデックス 診断法 (-) 偽陰性FN 真陰性TN 有病率 = (TP+FN)/(TP+FN+FP+TN) TPR = 感度 = TP/(TP+FN) FPR = FN/(TP+FN) FNR = FP/(TN+FP) TNR = 特異度 = TN/(TN+FP) 陽性尤度比LR+=TP/FP 陰性尤度比LR- =FN/TN 診断オッズ比DOR = (TP/FN)/(FP/TN) = TP・TN/FN・FP = LR+/LR-α = ln(DOR) = ln(TP/FN) – ln(FP/TN) θ = [ln(TP/FN) + ln(FP/TN)]/2 精度(Accuracy)の指標 閾値(Threshold)の指標 ロジット(logit): オッズの自然対数ROC曲線
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 FPR = 1 - Sp TPR = Se •縦軸:感度 •横軸:偽陽性率=1-特異度 •閾値を変動させて描かれた 曲線 •測定値の分布に影響され ない。 •連続変数、順序変数に適 用されることが多い。 •曲線下の面積(AUC)が診 断能の指標となり比較する ことができる •完全な診断法はAUC=1.0 となり、左上隅に達する。Receiver Operating Characteristic Curve (受信者動作特性曲線)
DTA研究のチャレンジ
• 疾患群、対照群の2群のデータを解析。 • 感度・特異度の2つのパラメータが必要。 • 閾値を変えることで感度・特異度が変動する。 • “Gold standard”が不完全な場合がある。 • 検査間に相関がある場合が多い。• Bivariate model, Hierarchical Summary ROC (HSROC).
• Latent Class Model with Bayesian approach. • Sensitivity adjusted with covariance.
解 決 策
新しい手法の使用状況
Willis BH, Quigley M: Uptake of newer methodological developments and the deployment of meta-analysis in diagnostic test research: a systematic review. BMC Med Res Medol 2011;11:27.
まとめ
診断標的を有することが 想定される対象者でその 結果、益を受けられる場 合に、それを検出するた めに診断法が実施される。 診断精度の指標として感 度・特異度が用いられ、そ れ(DTA)を明らかにする ため主として横断研究とし て診断法の研究が行われ る。 実臨床での対象者と同じ 対象集団でSingle-gate studyから得られた感度・ 特異度は有用性が高い。 DTA研究のメタアナリシス の手法などチャレンジが 残されている分野である。診断法に関するクリニカルクエスチョ
ン
診断研究一般に対するクリニカルク
エスチョンのOutcomeの設定
• 対象:診断標的が疑われる者 • Index test インデックス診断法 • Comparator 比較診断法/無し • Outcome 診断標的(参照基準)Relevant clinical outcomes;
includes any intermediate outcomes of interest. Patient health outcomes;
includes morbidity (including adverse effects of tests and treatment), mortality, quality of life;
intermediate outcomes: includes technical
specifications, accuracy, decisional, therapeutic impact.
DTA研究に対するクリニカルクエ
スチョンの形式
治療介入 • Population • Intervention • Comparator • Outcome 診断法 • 診断標的が疑われる者 • インデックス診断法 • 比較診断法/無し • 患者中心アウトカム;診断法の害;臨床決断への影響 ;診断精度(DTA); DTA • 診断標的が疑われる者 • インデックス診断法 • 比較診断法/無し • 診断標的(参照基準)DTA研究のシステマティックレビ
ューの目的
• Population • Intervention • Comparator • Outcome DTA • 診断標的が疑われる者 • インデックス診断法 • 比較診断法 • 診断標的(参照基準)感度・特異度の統合値と信頼区間を求める!
診断法の臨床的意義の間接的証明
DTAのクリニカルクエスチョン
P
opulation
診断標的が疑われる者
I
ntervention
インデックス診断法
C
omparator
空欄
O
utcome
診断標的(参照基準)
診断法実施に伴う害
D
esign
横断研究、臨床試験、など
診断標的が疑われる成人でインデックス診断法の診断精度 は優れているか(有用性が高いか)? 単独の 診断法DTAのクリニカルクエスチョン
P
opulation
診断標的が疑われる者
I
ntervention
インデックス診断法
C
omparator
比較診断法
O
utcome
診断標的(参照基準)
診断法実施に伴う害
D
esign
横断研究、臨床試験、など
診断標的が疑われる成人でインデックス診断法は比較診断 法と比べ診断標的の診断精度が優れているか(有用性が高 いか)? 2つの 診断法 の比較DTAのクリニカルクエスチョン例1
P
opulation
膵癌が疑われる成人
I
ntervention 腹部造影CTスキャン
C
omparator 腹部超音波検査
O
utcome
膵癌(手術・病理学的診断)
造影剤副の作用
D
esign
横断研究、臨床試験、など
膵癌が疑われる成人で腹部造影CTスキャンは腹部超音波検 査と比べ膵癌の診断精度が優れているか(有用性が高い か)?クリニカルクエスチョン例2
Population 咽頭・扁桃炎 Intervention A群溶連菌迅速検査の実施 Comparator 同検査を実施しない Outcome 急性腎炎、心筋炎 抗菌薬による副作用(下痢、皮疹など) Design ランダム化比較試験 咽頭・扁桃炎の成人でCentorスコアが2の場合にA群溶連菌 迅速検査をするとしない場合と比べ適切な抗菌薬投与を受け る患者増加するか?診断法に関するクリニカルクエス
チョンの類型
① 診断法の診断精度を問う、あるいは、いずれの診断法の精度が高いか を問う。 例:疾患Xが疑われる場合どの診断法を第一選択とすべきか。 ② 疾患確率が変わるあるいは診断思考が変わる結果が得られるかを問う。 例:医師の鑑別診断が結果により変化するか。 ③ 治療法の選択が変わるかを問う。 例:PETスキャンで転移が検出され、化学療法が選択される率。 ④ 患者関連アウトカムの改善を問う。 例:1年おきの乳房撮影で乳癌の死亡率が下がる。 ⑤ 費用効果分析。 例:xx癌検診によりxx癌の医療費が減少する。現時点では診断精度Diagnostic Test Accuracy (DTA)を明らかにする①のタ イプの研究が多い。