<4D F736F F D2088E38A77939D8C7695D78BAD89EF313491E63789F18C588CFC E646F6378>

(1)

医学統計勉強会第7 回傾向スコア 1

医学統計勉強会

東北大学病院循環器内科・東北大学病院臨床研究推進センター

共催

東北大学大学院医学系研究科

EBM 開発学寄附講座

宮田敏

Absence of evidence is not evidence of absence!

(2)

医学統 1．因医学き，われ通常後因討 ( 証の RCT RCT  新は  処  か RCT 群にす。来るしかで，例え統計勉強会因果効果と学において新これらの新れます。常「処置」と因子、背景因 single arm のための方法 T) と呼ばれ T において新しい処置はプラセボ処置群と対ヒトを対象から文書に T では、処における処置このことでようになりかし、臨床に処置群と対えば，ある薬交絡因子新規薬剤が新しい処置と「アウト因子、共変 m) してもア法として、れる方法がは、置を受ける群ボ）を受け対照群の割象とする場合による同意置群と対照置の有無以で交絡因子ります。における観対照群の間薬剤の投薬

第

7 回

が開発された置（=医学的カム」は、変量）の影響アウトカム無作為化比があります。群 (treatm る対照群り付けは，合、試験にを得る。(i 照群の無作以外の要因は子の影響を除観察研究では間で交絡因子薬の効果を検

回傾向

たり，新た的介入）の因、様々な交響を受けるムに対する効比較試験 ( （RCT につ ment group (control gr 無作為割について十分 informed c 作為割り付けは，全て偶除き、真のは、群の割子の分布に検証する際

向スコア

たな手術技法因果効果を交絡因子（= るため、処置効果は分か (Randomiz ついては，次 p) と共に、 roup）を置り付けによ分な情報開 consent) けを行うこ偶然の誤差にの因果効果の割り付けを無に大きな違い際、医師は適第7

ア

法が考案さを検証するた = confound 置を行ったかりません。 zed Contro 次回詳しく、標準的な置く。(cont よる。(rand 開示を行ったとにより、によるもののみを検証無作為化すいが出るこ適応がある 7 回傾向スされたりしたための研究 ding factor た対象だけを。因果効果 olled Trial 取り上げまな処置（あ trol) domizatio た上で、被処置群とのと解釈出来証することがすることが困ことがありまる患者、最もスコア 2 たと究が行 r, 予を検果の検 l, ます。）るい n) 被験者対照来まが出困難ます。も治

(3)

医学統計勉強会第7 回傾向スコア 3 療を必要としている患者に優先して投与するかもしれません。また、喫煙のような有害な習慣の場合、無作為に割り付けて喫煙を強要するわけにも生きません。このように処置がランダムに割り付けられない場合、処置の因果効果は様々な交絡因子の影響を受けるため、交絡の影響をコントロールする研究デザインが必要になります。近年交絡をコントロールする手法として注目されている手法の一つが傾向スコア (Propensity Score, PS) になります。傾向スコアは「処置」の有無に関わる全交絡因子の情報を集約する手法で、層別や多変量解析など従来用いられた手法に代わるものとして盛んに用いられています。例：lindner データ

オハイオ州lindner センターで経皮的冠動脈形成術 (Percutaneous Coronary

Interventions (PCIs)) を施行した 996 名の患者のうち、PCI のみの患者 298 名

とPCI+Abciximab（アブシキマブ）投与の患者 698 名に対して、PCI 施行 6

ヶ月経過後の平均余命を比較したデータ（1997 年）。 lifepres：PCI 施行 6 ヶ月経過後の平均余命．死亡=0，生存=11.4 cardbill：PCI 施行後 6 ヶ月間の心臓病関連医療費（ドル） abcix：Abciximab 投与有り=1, 投与なし=0 stent：ステント height：身長 female：性別（女性） diabetic：糖尿病 acutemi：7 日以内の AMI ejecfrac：左室駆出率

lifepres cardbill abcix stent height female diabetic acutemi ejecfrac 1 0 14301 1 0 163 1 1 0 56 2 11.6 3563 1 0 168 0 0 0 56 3 11.6 4694 1 0 188 0 0 0 50

Name abcix=0 (n=298) abcix=1 (n=698) p-value cardbill 14614.22 ± 840.77 16126.68 ± 355.18 0.098 height 171.45 ± 0.61 171.44 ± 0.4 0.996 ejecfrac 52.29 ± 0.6 50.4 ± 0.39 0.009 stent 174 (58.4%) 492 (70.5%) 0 female 115 (38.6%) 231 (33.1%) 0.11 diabetic 80 (26.8%) 143 (20.5%) 0.031 acutemi 18 (6%) 125 (17.9%) 0

(4)

医学統計勉強会第7 回傾向スコア 4 Lindner データからは、Abciximab 投与群と非投与群では，身長を除く全ての変数に有意な差があることが分かります。 2．傾向スコア【定義】傾向スコア (Propensity Score, PS) 処置の有無に関与する複数の共変量を用いた、処置群、対照群への割り付け確率を予測するスコア。



x X



P _i   treatment group| PS 通常傾向スコアはロジスティック回帰モデルによって推定されます。処置の有無に関与する共変量は全てPS 予測に用いられ、PS 予測に用いられた共変量の情報は全てPS に吸収されたと解釈されます。従って、それ以降の解析では， PS 予測に用いた共変量は使用されません。傾向スコアの特徴：  群の割り付けに関する多くの交絡因子を，一次元の情報に集約し調整する。（交絡因子の数がイベントに比べて多いとき、次元の縮小に有用）  同じ傾向スコアを持つ標本は、処置群と対照群の多くの共変量が同時にバランスされている。例：lindner データの傾向スコアロジスティック回帰モデルによる傾向スコアの推定：

















i





i





i i i i i i p p ejectfrac acutemi diabetic female stent height 1 log 6 5 4 3 2 1 0                      ただし、p ：_i Abciximab 投与群への割り付け確率 = 傾向スコア．上の式の右辺で、傾向スコアの推定には、height から ejectfrac までの共変量が用いられていますが、cardbill は用いられていないことに注意してください。これは、 cardbill が治療群選択後にかかった医療費を表していて、Abciximab 投与群への割り付け確率=傾向スコアには関係がないからです。

(5)

医学統こられか明例： 1． 2．｢ 3．従 4．｢を選統計勉強会のように、れるのが原則明記する必要 SPSS によ “lindner.s ｢分析｣→｢回従属変数：｢カテゴリ｣選択 → ｢傾向スコ則であり、要がありまよる傾向ス sav” を読み回帰｣→｢二 abcix、共ボタン：カ｢続行｣アの推定で論文にはどます。コアの推定み込む。二項ロジステ共変量：ste カテゴリ変では群の割どの共変量定（ロジスティック｣ nt ~ ejectf 変数として、割り付けに関量が傾向スコティック回 frac 、stent, fe 第7 関わる共変コアの推定回帰による male, diab 7 回傾向ス変量は全て用定に用いられ） betic, acut スコア 5 用いれた temi

(6)

医学統 5．｢ 6．｢行｣ 7．｢統計勉強会｢保存｣ボタ｢オプション｢ロジスティタン：予測値ン｣ボタンィック回帰値の｢確率｣：「Hosmer 帰｣ウィンド｣、｢所属グ r-Lemesho ドで、｢OK｣グループ｣を ow の適合度｣第7 を選択 → 度」にチェ 7 回傾向ス｢続行｣ェック → スコア 6 ｢続

(7)

医学統 3．傾傾向が同そこンプずこけ）  処  マ  同ル例： 1．傾 2．｢ 3．ロ数に統計勉強会傾向スコア向スコアを用同じになる傾で、傾向スプルをマッチれを適当なを行います処置群と対もし、同じマッチング同じ傾向スルはマッチ SPSS を用傾向スコア｢変換｣ → ロジスティに丸める。新アマッチング用いた解析傾向があるスコアを推チングさせな桁数に丸す。対照群で同じ傾向スコアグさせる。スコアを持つチデータかいた傾向スアの推定まで → ｢変数のック回帰で新たに、丸グ (Propen 析では、傾向とされてい推定した後、せることを考丸めます。そじ傾向スコアを持つペつサンプルら削除するスコアマッで行う。の計算｣で推定した丸めた後の変 nsity Scor 向スコアがいます。（数、処置群と考えます。その後で、コアを持つペアが複数存ルが他方のる。チング（l た群の割り付変数名を “ re Matchin が同じサンプ数学的な証対照群で同傾向スコア以下の方法サンプルを存在すると群に存在し indner デー付け確率=傾 “PS” とし、第7 ng) プルは、交証明は省略し同じ傾向スアは実数値法でマッチをマッチ（対ときは、順番しないときータ）傾向スコア、｢数式｣は 7 回傾向ス交絡因子の分します）スコアを持つ値ですので、チング（対応対応付け）す番はランダは、そのサアを、適当は以下の通スコア 7 分布つサ、ま応付する。ダムにサンプな桁り

(8)

医学統「関ここ点以ッチると 4．傾乱数｢変換統計勉強会関数グループでは小数点以下の桁数がチングの程度、マッチす傾向スコア数を生成して換｣ → ｢プ」算術点以下第2 が一桁のよ度は荒くなするサンプが同じペアておきます｢変数の計算 → 「関数位まで丸めうに少なけなります。逆プル数が少なアが複数あす。算｣ → 変数と特殊変めたが、丸ければ、マ逆に、小数なくなってった場合、変数名：ra 変数」RND 丸める程度はマッチするサ点以下第3 てしまいますランダムに an1 第7 (PRE_1, 0 は状況によサンプルは 3 位、4 位とす。にマッチン数式：uni 7 回傾向ス 0.01) よる。もし小は増えますがと高次までングを行うた iform(1) スコア 8 小数がマで求めため、

(9)

医学統 5．以で同統計勉強会以下、傾向同じ傾向スコ向スコアの順コアを持つ順にサンプつペアを抽出プルをソー出していきト（並べ直きます。第7 直し）し、処 7 回傾向ス処置群と対スコア 9 対照群

(10)

医学統統計勉強会第77 回傾向ススコア

(11)

医学統統計勉強会第77 回傾向ススコア

(12)

医学統 4．傾傾向する  傾 ⇒ ⇒  同 lindn 定に統計勉強会傾向スコア向スコアを推必要があり傾向スコアンスを評価 ⇒ Hosmer ⇒ ROC 曲同じ傾向ス ner データに用いられな Nam car heig ejec ste fem diab acu アモデルのチ推定した後ります。アを推定す価する r-Lemesho 曲線スコアを持つ傾向タの場合、傾なかったca me ab rdbill 148 ght cfrac nt male betic utemi チェック後、傾向スコるのに用い ow の適合度つサンプル向スコアマ傾向スコア ardbill も結 bcix=0 (n=2 841.53 ± 9 171.5 ± 0. 51.83 ± 0. 174 (63.3% 99 (36%) 62 (22.5%) 18 (6.5%) コアの推定いたロジス度検定ルは、交絡因マッチング後アの推定に用結果的に差 275) ab 02.45 160 64 1 62 5 %) ) 定がうまくいティック回因子の分布後の共変量用いた共変差がなくなっ bcix=1 (n=2 009.2 ± 53 71.37 ± 0. 51.41 ± 0.6 185 (67.3% 109 (39.6% 63 (22.9%) 15 (5.5%) 第7 いっている回帰モデル布が同じにな量の比較変量だけでなっています 75) p-va 36.21 0. .63 0. 61 0. %) 0 %) 0. ) 0 7 回傾向スるかどうか検ルの、パフォなる傾向がなく、PS す。 lue .267 .884 .631 0.37 .429 1 0.72 スコア 12 検証ォーマがある。の推

(13)

医学統計勉強会第7 回傾向スコア 13  傾向スコアマッチングの目的は、処置群と対照群で背景因子を一致させることにあります。傾向スコアマッチングの結果、実際に背景因子が一致したかを調べる尺度に、standardized difference と呼ばれるものがあります。  連続変数：





2 2 control 2 treatment control treatment s s x x d     離散変数：













2 ˆ 1 ˆ ˆ 1 ˆ ˆ ˆ control control treatment treatment control treatment p p p p p p d      マッチングが成功していれば、standardized difference は 0 に近くなります。

Standardized difference の cut-off としては、1.96 2 nが提案されています。Austin, P. C. (2009) Statist. Med. 2009;3083-3107. 通常論文では、前

項の二群比較の検定のp 値と、standardized difference の両方を報告します。  マッチングされた後のサンプル数を確認する。処置群と対照群で傾向スコアの分布の乖離があまりに大きいと、マッチされるサンプルが少なくなり、解析に適しません。 5．傾向スコアを用いた解析法以上述べてきたような方法で傾向スコアを推定した場合、推定した傾向スコアを用いた解析はいくつかの場合に分けられます。 5.1 傾向スコアマッチングを用いた解析処置群と対照群で同じ傾向スコアを持つサンプルをマッチさせます。その場合、マッチする相手がいなかったサンプルは対応付けされたデータからは除かれます。従って、処置群と対照群で傾向スコアの分布が大きく異なるときは、マッチされたデータの数は大幅に少なくなり、元データの限られた一部分しか見ていないことになります。そうではなく、処置群と対照群の多くのサンプルがマッチされた場合は、共変量の情報は全て傾向スコアに吸収されていますので、群の違いのみに注目した単変量解析に帰着します。回帰分析であれば単回帰、ロジスティック回帰モデルであれば、対応のあるデータに対する条件付きロジスティック回帰、生存時間解析であれば群の違いに注目した単変量の log-rank 検定を行うことになります。さらに、マッチされたペアを一つの層 (strata) と

(14)

医学統計勉強会第7 回傾向スコア 14 見なして、層別log-rank検定を行う場合もあります。 5.2 マッチングを行わずに、傾向スコアを用いる解析 5.2．1．層別処置群、対照群をプールした上で、傾向スコアの値で層別する（通常5 層に分

ける）．その上で、層別に解析を行う。（例：stratified Cox proportional hazard model) 5.2．2．共変量としての傾向スコアマッチングは行わず、全てのサンプルを用い、群の割り付けを表すダミー変数G と傾向スコアの値PS を共変量とした多変量モデルを当てはめる。

 







                         i i i i i i i i i i G p p G G p p other PS 1 log group control : 0 group treatment : 1 , PS 1 log 2 1 0 1 0        上の式は、ロジスティック回帰を例に説明していますが、他のモデルでも同様です。第一式では、傾向スコアのみを共変量として用いています。一方第二式では傾向スコアの他にモデルに残っている共変量をモデルに入れています。ただし第二式のようなモデルでは、傾向スコアの推定に使った共変量をモデルに入れてはいけません。そのような共変量の情報は、全て傾向スコアに吸収されていると考えるからです。Lindner データの例でいえば、cardbill：PCI 施行後 6 ヶ月間の心臓病関連医療費（ドル）のように傾向スコアの推定に用いられなかった共変量が、付け加えられる可能性があります。

5.2．3．重み付け：Inverse-probability score-based weighted methods (IPTW) 傾向スコアの逆数を重み付けとして、各種多変量モデルを推定する。線形回帰モデル、ロジスティック回帰モデル、Cox 比例ハザードモデルなどいずれの解析モデルにも、重み付き回帰モデルが存在するので、その重みに傾向スコアの逆数を用いるということ。重みは，以下の公式で与えられます。





i i i i i PS Z PS Z w     1 1 ただし、Zi は介入有り→1、介入なし→0 となる変数で有り、Psi はそれに対応する傾向スコアになります。つまり、IPTW では、介入の有無が確実な（すなわち PS が 0 または 1 に近い）場合は重みが小さくなり、介入が微妙な場合（PS が 0.5 に近い場合）には重みを大きくして重点的に学習することになります。IPTW

(15)

医学統計勉強会第7 回傾向スコア 15 はすべてのサンプルを使えるところが最大の利点で有り、現段階では最も有力な傾向スコア解析の手法と考えられています。傾向スコアを用いた解析法には、未だ最終的な答えはありません。少なくとも、  傾向スコアマッチングに対するlog-rank 検定  IPTW を用いた重み付き Cox 比例ハザードモデルの二つを含む複数のモデルを用いて、同じような結果が出ることを確かめるべきだと思われます。以上 Take Home Message

1. 因果効果と交絡因子 2. 傾向スコア 3. 傾向スコアマッチング 4. 傾向スコアモデルのチェック 5. 傾向スコアを用いた解析法 i. 傾向スコアマッチング：対応づけられたデータに対する単変量解析 ii. 層別 iii. 共変量としての傾向スコア

iv. 重み付け：Inverse-probability score-based weighted methods (IPTW) 参考文献

Rosenbaum & Rubin, “The central role of the propensity score in observational studies for causal effects” Biometrika (1983) 70 (1): 41-55. Peter C. Austin, “An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies” Multivariate Behavioral Research, 46:399– 424, 2011

星野崇宏「調査観察データの統計科学―因果推論・選択バイアス・データ融合」