医学統計勉強会 第7 回 傾向スコア 1
医学統計勉強会
東北大学病院循環器内科・東北大学病院臨床研究推進センター
共催
東北大学大学院医学系研究科
EBM 開発学寄附講座
宮田 敏
Absence of evidence is not evidence of absence!
医学統 1.因 医学 き, われ 通常 後因 討 ( 証の RCT RCT 新 は 処 か RCT 群に す。 来る しか で, 例え 統計勉強会 因果効果と 学において新 これらの新 れます。 常「処置」と 因子、背景因 single arm のための方法 T) と呼ばれ T において 新しい処置 はプラセボ 処置群と対 ヒトを対象 から文書に T では、処 における処置 このことで ようになり かし、臨床に 処置群と対 えば,ある薬 交絡因子 新規薬剤が 新しい処置 と「アウト 因子、共変 m) してもア 法として、 れる方法が は、 置を受ける群 ボ)を受け 対照群の割 象とする場合 による同意 置群と対照 置の有無以 で交絡因子 ります。 における観 対照群の間 薬剤の投薬
第
7 回
が開発された 置(=医学的 カム」は、 変量)の影響 アウトカム 無作為化比 があります。 群 (treatm る対照群 り付けは, 合、試験に を得る。(i 照群の無作 以外の要因は 子の影響を除 観察研究では 間で交絡因子 薬の効果を検回 傾向
たり,新た 的介入)の因 、様々な交 響を受ける ムに対する効 比較試験 ( (RCT につ ment group (control gr 無作為割 について十分 informed c 作為割り付け は,全て偶 除き、真の は、群の割 子の分布に 検証する際向スコア
たな手術技法 因果効果を 交絡因子(= るため、処置 効果は分か (Randomiz ついては,次 p) と共に、 roup)を置 り付けによ 分な情報開 consent) けを行うこ 偶然の誤差に の因果効果の 割り付けを無 に大きな違い 際、医師は適 第7ア
法が考案さ を検証するた = confound 置を行った かりません。 zed Contro 次回詳しく 、標準的な 置く。(cont よる。(rand 開示を行った とにより、 によるもの のみを検証 無作為化す いが出るこ 適応がある 7 回 傾向ス されたりした ための研究 ding factor た対象だけを 。因果効果 olled Trial 取り上げま な処置(あ trol) domizatio た上で、被 処置群と のと解釈出来 証することが することが困 ことがありま る患者、最も スコア 2 たと 究が行 r, 予 を検 果の検 l, ます。) るい n) 被験者 対照 来ま が出 困難 ます。 も治医学統計勉強会 第7 回 傾向スコア 3 療を必要としている患者に優先して投与するかもしれません。また、喫煙のよ うな有害な習慣の場合、無作為に割り付けて喫煙を強要するわけにも生きませ ん。このように処置がランダムに割り付けられない場合、処置の因果効果は様々 な交絡因子の影響を受けるため、交絡の影響をコントロールする研究デザイン が必要になります。近年交絡をコントロールする手法として注目されている手 法の一つが傾向スコア (Propensity Score, PS) になります。傾向スコアは「処 置」の有無に関わる全交絡因子の情報を集約する手法で、層別や多変量解析な ど従来用いられた手法に代わるものとして盛んに用いられています。 例:lindner データ
オハイオ州lindner センターで経皮的冠動脈形成術 (Percutaneous Coronary
Interventions (PCIs)) を施行した 996 名の患者のうち、PCI のみの患者 298 名
とPCI+Abciximab(アブシキマブ)投与の患者 698 名に対して、PCI 施行 6
ヶ月経過後の平均余命を比較したデータ(1997 年)。 lifepres:PCI 施行 6 ヶ月経過後の平均余命.死亡=0,生存=11.4 cardbill:PCI 施行後 6 ヶ月間の心臓病関連医療費(ドル) abcix:Abciximab 投与有り=1, 投与なし=0 stent:ステント height:身長 female:性別(女性) diabetic:糖尿病 acutemi:7 日以内の AMI ejecfrac:左室駆出率
lifepres cardbill abcix stent height female diabetic acutemi ejecfrac 1 0 14301 1 0 163 1 1 0 56 2 11.6 3563 1 0 168 0 0 0 56 3 11.6 4694 1 0 188 0 0 0 50
Name abcix=0 (n=298) abcix=1 (n=698) p-value cardbill 14614.22 ± 840.77 16126.68 ± 355.18 0.098 height 171.45 ± 0.61 171.44 ± 0.4 0.996 ejecfrac 52.29 ± 0.6 50.4 ± 0.39 0.009 stent 174 (58.4%) 492 (70.5%) 0 female 115 (38.6%) 231 (33.1%) 0.11 diabetic 80 (26.8%) 143 (20.5%) 0.031 acutemi 18 (6%) 125 (17.9%) 0
医学統計勉強会 第7 回 傾向スコア 4 Lindner データからは、Abciximab 投与群と非投与群では,身長を除く全ての 変数に有意な差があることが分かります。 2.傾向スコア 【定義】傾向スコア (Propensity Score, PS) 処置の有無に関与する複数の共変量を用いた、処置群、対照群への割り付け 確率を予測するスコア。
x X
P i treatment group| PS 通常傾向スコアはロジスティック回帰モデルによって推定されます。処置の有 無に関与する共変量は全てPS 予測に用いられ、PS 予測に用いられた共変量の 情報は全てPS に吸収されたと解釈されます。従って、それ以降の解析では, PS 予測に用いた共変量は使用されません。 傾向スコアの特徴: 群の割り付けに関する多くの交絡因子を,一次元の情報に集約し調整する。 (交絡因子の数がイベントに比べて多いとき、次元の縮小に有用) 同じ傾向スコアを持つ標本は、処置群と対照群の多くの共変量が同時にバラ ンスされている。 例:lindner データの傾向スコア ロジスティック回帰モデルによる傾向スコアの推定:
i
i
i i i i i i p p ejectfrac acutemi diabetic female stent height 1 log 6 5 4 3 2 1 0 ただし、p :i Abciximab 投与群への割り付け確率 = 傾向スコア.上の式の右 辺で、傾向スコアの推定には、height から ejectfrac までの共変量が用いられて いますが、cardbill は用いられていないことに注意してください。これは、 cardbill が治療群選択後にかかった医療費を表していて、Abciximab 投与群への 割り付け確率=傾向スコアには関係がないからです。医学統 こ られ か明 例: 1. 2.「 3.従 4.「 を選 統計勉強会 のように、 れるのが原則 明記する必要 SPSS によ “lindner.s 「分析」→「回 従属変数: 「カテゴリ」 選択 → 「 傾向スコ 則であり、 要がありま よる傾向ス sav” を読み 回帰」→「二 abcix、共 ボタン:カ 「続行」 アの推定で 論文にはど ます。 コアの推定 み込む。 二項ロジステ 共変量:ste カテゴリ変 では群の割 どの共変量 定(ロジス ティック」 nt ~ ejectf 変数として、 割り付けに関 量が傾向スコ ティック回 frac 、stent, fe 第7 関わる共変 コアの推定 回帰による male, diab 7 回 傾向ス 変量は全て用 定に用いられ ) betic, acut スコア 5 用い れた temi
医学統 5.「 6.「 行」 7.「 統計勉強会 「保存」ボタ 「オプション 「ロジスティ タン:予測値 ン」ボタン ィック回帰 値の「確率」 :「Hosmer 帰」ウィンド 」、「所属グ r-Lemesho ドで、「OK」 グループ」を ow の適合度 」 第7 を選択 → 度」にチェ 7 回 傾向ス 「続行」 ェック → スコア 6 「続
医学統 3.傾 傾向 が同 そこ ンプ ずこ け) 処 マ 同 ル 例: 1.傾 2.「 3.ロ 数に 統計勉強会 傾向スコア 向スコアを用 同じになる傾 で、傾向ス プルをマッチ れを適当な を行います 処置群と対 もし、同じ マッチング 同じ傾向ス ルはマッチ SPSS を用 傾向スコア 「変換」 → ロジスティ に丸める。新 アマッチング 用いた解析 傾向がある スコアを推 チングさせ な桁数に丸 す。 対照群で同 じ傾向スコア グさせる。 スコアを持つ チデータか いた傾向ス アの推定まで → 「変数の ック回帰で 新たに、丸 グ (Propen 析では、傾向 とされてい 推定した後、 せることを考 丸めます。そ じ傾向スコ アを持つペ つサンプル ら削除する スコアマッ で行う。 の計算」 で推定した 丸めた後の変 nsity Scor 向スコアが います。(数 、処置群と 考えます。 その後で、 コアを持つ ペアが複数存 ルが他方の る。 チング(l た群の割り付 変数名を “ re Matchin が同じサンプ 数学的な証 対照群で同 傾向スコア 以下の方法 サンプルを 存在すると 群に存在し indner デー 付け確率=傾 “PS” とし、 第7 ng) プルは、交 証明は省略し 同じ傾向ス アは実数値 法でマッチ をマッチ(対 ときは、順番 しないとき ータ) 傾向スコア 、「数式」は 7 回 傾向ス 交絡因子の分 します) スコアを持つ 値ですので、 チング(対応 対応付け)す 番はランダ は、そのサ アを、適当 は以下の通 スコア 7 分布 つサ 、ま 応付 する。 ダムに サンプ な桁 り
医学統 「関 ここ 点以 ッチ ると 4.傾 乱数 「変換 統計勉強会 関数グループ では小数点 以下の桁数が チングの程度 、マッチす 傾向スコア 数を生成して 換」 → 「 プ」算術 点以下第2 が一桁のよ 度は荒くな するサンプ が同じペア ておきます 「変数の計算 → 「関数 位まで丸め うに少なけ なります。逆 プル数が少な アが複数あ す。 算」 → 変 数と特殊変 めたが、丸 ければ、マ 逆に、小数 なくなって った場合、 変数名:ra 変数」RND 丸める程度は マッチするサ 点以下第3 てしまいます ランダムに an1 第7 (PRE_1, 0 は状況によ サンプルは 3 位、4 位と す。 にマッチン 数式:uni 7 回 傾向ス 0.01) よる。もし小 は増えますが と高次まで ングを行うた iform(1) スコア 8 小数 がマ で求め ため、
医学統 5.以 で同 統計勉強会 以下、傾向 同じ傾向スコ 向スコアの順 コアを持つ 順にサンプ つペアを抽出 プルをソー 出していき ト(並べ直 きます。 第7 直し)し、処 7 回 傾向ス 処置群と対 スコア 9 対照群
医学統統計勉強会 第77 回 傾向ススコア
医学統統計勉強会 第77 回 傾向ススコア
医学統 4.傾 傾向 する 傾 ⇒ ⇒ 同 lindn 定に 統計勉強会 傾向スコア 向スコアを推 必要があり 傾向スコア ンスを評価 ⇒ Hosmer ⇒ ROC 曲 同じ傾向ス ner データ に用いられな Nam car heig ejec ste fem diab acu アモデルのチ 推定した後 ります。 アを推定す 価する r-Lemesho 曲線 スコアを持つ 傾向 タの場合、傾 なかったca me ab rdbill 148 ght cfrac nt male betic utemi チェック 後、傾向スコ るのに用い ow の適合度 つサンプル 向スコアマ 傾向スコア ardbill も結 bcix=0 (n=2 841.53 ± 9 171.5 ± 0. 51.83 ± 0. 174 (63.3% 99 (36%) 62 (22.5%) 18 (6.5%) コアの推定 いたロジス 度検定 ルは、交絡因 マッチング後 アの推定に用 結果的に差 275) ab 02.45 160 64 1 62 5 %) ) 定がうまくい ティック回 因子の分布 後の共変量 用いた共変 差がなくなっ bcix=1 (n=2 009.2 ± 53 71.37 ± 0. 51.41 ± 0.6 185 (67.3% 109 (39.6% 63 (22.9%) 15 (5.5%) 第7 いっている 回帰モデル 布が同じにな 量の比較 変量だけでな っています 75) p-va 36.21 0. .63 0. 61 0. %) 0 %) 0. ) 0 7 回 傾向ス るかどうか検 ルの、パフォ なる傾向が なく、PS す。 lue .267 .884 .631 0.37 .429 1 0.72 スコア 12 検証 ォーマ がある。 の推
医学統計勉強会 第7 回 傾向スコア 13 傾向スコアマッチングの目的は、処置群と対照群で背景因子を一致させるこ とにあります。傾向スコアマッチングの結果、実際に背景因子が一致したか を調べる尺度に、standardized difference と呼ばれるものがあります。 連続変数:
2 2 control 2 treatment control treatment s s x x d 離散変数:
2 ˆ 1 ˆ ˆ 1 ˆ ˆ ˆ control control treatment treatment control treatment p p p p p p d マッチングが成功していれば、standardized difference は 0 に近くなります。Standardized difference の cut-off としては、1.96 2 nが提案されていま す。Austin, P. C. (2009) Statist. Med. 2009;3083-3107. 通常論文では、前
項の二群比較の検定のp 値と、standardized difference の両方を報告しま す。 マッチングされた後のサンプル数を確認する。処置群と対照群で傾向スコア の分布の乖離があまりに大きいと、マッチされるサンプルが少なくなり、解 析に適しません。 5.傾向スコアを用いた解析法 以上述べてきたような方法で傾向スコアを推定した場合、推定した傾向スコア を用いた解析はいくつかの場合に分けられます。 5.1 傾向スコアマッチングを用いた解析 処置群と対照群で同じ傾向スコアを持つサンプルをマッチさせます。その場合、 マッチする相手がいなかったサンプルは対応付けされたデータからは除かれま す。従って、処置群と対照群で傾向スコアの分布が大きく異なるときは、マッ チされたデータの数は大幅に少なくなり、元データの限られた一部分しか見て いないことになります。そうではなく、処置群と対照群の多くのサンプルがマ ッチされた場合は、共変量の情報は全て傾向スコアに吸収されていますので、 群の違いのみに注目した単変量解析に帰着します。回帰分析であれば単回帰、 ロジスティック回帰モデルであれば、対応のあるデータに対する条件付きロジ スティック回帰、生存時間解析であれば群の違いに注目した単変量の log-rank 検定を行うことになります。さらに、マッチされたペアを一つの層 (strata) と
医学統計勉強会 第7 回 傾向スコア 14 見なして、層別log-rank検定を行う場合もあります。 5.2 マッチングを行わずに、傾向スコアを用いる解析 5.2.1.層別 処置群、対照群をプールした上で、傾向スコアの値で層別する(通常5 層に分
ける).その上で、層別に解析を行う。(例:stratified Cox proportional hazard model) 5.2.2.共変量としての傾向スコア マッチングは行わず、全てのサンプルを用い、群の割り付けを表すダミー変数G と傾向スコアの値PS を共変量とした多変量モデルを当てはめる。
i i i i i i i i i i G p p G G p p other PS 1 log group control : 0 group treatment : 1 , PS 1 log 2 1 0 1 0 上の式は、ロジスティック回帰を例に説明していますが、他のモデルでも同様 です。第一式では、傾向スコアのみを共変量として用いています。一方第二式 では傾向スコアの他にモデルに残っている共変量をモデルに入れています。た だし第二式のようなモデルでは、傾向スコアの推定に使った共変量をモデルに 入れてはいけません。そのような共変量の情報は、全て傾向スコアに吸収され ていると考えるからです。Lindner データの例でいえば、cardbill:PCI 施行後 6 ヶ月間の心臓病関連医療費(ドル)のように傾向スコアの推定に用いられなか った共変量が、付け加えられる可能性があります。5.2.3.重み付け:Inverse-probability score-based weighted methods (IPTW) 傾向スコアの逆数を重み付けとして、各種多変量モデルを推定する。線形回帰 モデル、ロジスティック回帰モデル、Cox 比例ハザードモデルなどいずれの解 析モデルにも、重み付き回帰モデルが存在するので、その重みに傾向スコアの 逆数を用いるということ。重みは,以下の公式で与えられます。
i i i i i PS Z PS Z w 1 1 ただし、Zi は介入有り→1、介入なし→0 となる変数で有り、Psi はそれに対応す る傾向スコアになります。つまり、IPTW では、介入の有無が確実な(すなわち PS が 0 または 1 に近い)場合は重みが小さくなり、介入が微妙な場合(PS が 0.5 に近い場合)には重みを大きくして重点的に学習することになります。IPTW医学統計勉強会 第7 回 傾向スコア 15 はすべてのサンプルを使えるところが最大の利点で有り、現段階では最も有力 な傾向スコア解析の手法と考えられています。 傾向スコアを用いた解析法には、未だ最終的な答えはありません。少なくとも、 傾向スコアマッチングに対するlog-rank 検定 IPTW を用いた重み付き Cox 比例ハザードモデル の二つを含む複数のモデルを用いて、同じような結果が出ることを確かめるべ きだと思われます。 以上 Take Home Message
1. 因果効果と交絡因子 2. 傾向スコア 3. 傾向スコアマッチング 4. 傾向スコアモデルのチェック 5. 傾向スコアを用いた解析法 i. 傾向スコアマッチング:対応づけられたデータに対する単変量解析 ii. 層別 iii. 共変量としての傾向スコア
iv. 重み付け:Inverse-probability score-based weighted methods (IPTW) 参考文献
Rosenbaum & Rubin, “The central role of the propensity score in observational studies for causal effects” Biometrika (1983) 70 (1): 41-55. Peter C. Austin, “An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies” Multivariate Behavioral Research, 46:399– 424, 2011
星野 崇宏「調査観察データの統計科学―因果推論・選択バイアス・データ融合」