生存時間解析の基礎
東京理科大学 浜田知久馬
第
16
回EUA 2013/10/4
1
内容
・ Kaplan-Meier 曲線の構成法と読み方 N と脱落の影響
生存時間曲線がクロスする場合 区間打ち切りの場合
・ MST とその信頼区間の構成
・生存時間のノンパラ検定
・生存時間の多重比較
2
Kaplan-Meier 曲線の構成法と読み方
3
階段状のカーブの解釈は?
4
Kaplan-Meier 法
別名:積極限法
(product limit method)
生存関数
(
時点t
まで生き残る確率)の推定法:
─────────────────────────────────────────────────────
打切り
| ↑ ↑ ↑
───────────────────────────────────────────────────
0 t1 t2 t3 t4 t
3 6 7 9 10 12 13 死亡数 d1 d2 d3 d4 直前の
リスク n1(7) n2(6) n3(4) n4(2)
─────────────────────────────────────────────────────
ni:時点iのリスク集合の大きさ,di:時点iの死亡数
2 2 1
1 1
1
1 )
(
n d n
d
n t d
S
i i t
ti
4
人死亡3
人打ち切りΠ(パイ):Σに対して積算記号 積:product
5
Kaplan-Meier 法
死亡時点で階段が低下
t1 t2 t3 t4
1/7
1/7
2 1 1
4 1 1
6 1 1
7 1 1
4 1 1
6 1 1
7 1 1
6 1 1
7 1 1
7 1 1
Kaplan-Meier 法
瞬間の単位で生き残る確率を積算
時点tまで生き残る:ti<tの全てを生き残る.
死亡が起きてない時点
:
生き残る確率= 1
死亡が起きた時点
:
生き残る確率=
n
i:時点iのリスク集合の大きさ d
i:時点iの死亡数
死亡がおきてない時点は水平で,死亡が起きた時点で生 存関数S(t)は階段状に低下
(d
i=1で打ち切りがなければ,1/nづつ低下)
i i
n 1 d
7
生存割合の推移
時点t1まで:
1
(死亡がおきてない)t1
~
t2 :t2
~
t3 :t3
~
t4 :t4
~
:0 . 27 2
1 1 4
1 1 6
1 1 7
1 1
54 . 4 0
1 1 6
1 1 7
1 1
714 .
7 0 5 6
5 7
6 6
1 1 7
1 1
857 .
7 0 6 7
1 1
死亡:階段低下 打ち切り:ヒゲ
t1 t2 t3 t4
1.0 0.8 0.6 0.4 0.2 0.0
↑ ↑ ↑
9
KM プロットの読み方
1)階段の落ち方は
1/N
時間とともに 例)0.05→ n=20
あまり急激に変化する場合は信頼できない
.
2)脱落が多いと,後半時点は階段が急に低下し,信頼性が乏しい
.
3)時点0や生存割合
0
%の点を示してないときは その意図を考察.
4)打ち切り症例の数は?
5)打ち切り症例は特定の群に偏ってないか?
N と KM プロット(脱落なし)
N が大きいと緩やかに階段低下
10
N=5
0.2 N=10
0.1
N=20 0.05
N=100
0.01
脱落と KM プロット (N=50)
脱落が多いと,後半で階段が急に低下 ( 同一のデータで脱落率のみ変化 )
11
脱落0%
最後まで 1/50づつ 階段が低下
脱落22%
脱落42% 脱落72%
信頼性が乏しい.
12
アガリクスよりも高い抗癌作用がある ことを動物実験により発見
サントリー(株)健康科学研究所は,鹿角霊芝 の効能についての研究を進めてきました.
その結果,鹿角霊芝の摂取により,癌細胞の 増殖が抑えられ,アガリクスを上回る非常に高 い抗癌作用を示すこと,また担癌状態における 延命効果を示すことが明らかとなりましたので,
日本農芸化学会2002年度大会で発表します.
http://www.jongara-net.or.jp/~kinosei/f0303.htm
13
実験結果
N はいくつか?
KM プロットの例
14
A群:Nが小さい
B群:Nが大きい 脱落が多く,後半で
階段が急に低下
信頼性が乏しい.
最後は N はいくつか?
15
生存曲線がクロスする場合
生存曲線が途中でクロスしてしまっている場 合,結果を解釈する時,その理由としてどのよ うなポイントを疑えばよいのでしょうか?
16
アジア国際共同第 III 相臨床試験
( IPASS )
日本を含むアジアで実施した試験では,軽度の 喫煙歴を有する又は非喫煙であり,かつ組織 型が腺癌である,化学療法未治療の進行・再 発非小細胞肺癌患者を対象に,
イレッサ(
250mg/
日)と,カルボプラチンとパクリ タキセルの併用化学療法が比較された.なお,本試験は無増悪生存期間における非劣性検 証を主要目的として実施された.
[
IPASS
試験結果:
無増悪生存割合][IPASS試験結果:遺伝子(EGFR)変異の有無による無増悪生存割合]
Treatment by subgroup interaction test, p<0.0001
後半のみ
イレッサが高い. 前半のみ
イレッサが低い.
奏効する部分集団と
奏効しない部分集団が混在
赤(点線):奏効集団20%(MST 10倍)残り80%(MST 0.6倍)
生存関数 ハザード関数
奏効集団 が生き残る
前半高
後半低 非奏効集団
が先に死亡
時間 時間
生存曲線がクロスする理由
1
)奏効する部分集団と奏効しない部分集団が混在
2
)途中脱落が多く,後半の差は精度不足で 偶然で生じた.(時間軸の限定が必要)
3
)OSで治療のクロスオーバーが大量に起きた.4
)mild(
延命)な治療とintensive(治癒)な治療 の比較.
脱落が多く,精度不足で最後にクロス
脱落が多く,精度不足で最後にクロス
Primary prevention of
cardiovascular disease with pravastatin in Japan
a prospective
randomised controlled trial
Haruo Nakamura, Kikuo Arakawa, Hiroshige Itakura, Akira Kitabatake, Yoshio Goto, Takayoshi Toyota, Noriaki Nakaya, Shoji Nishimoto,
Masaharu Muranaka, Akira Yamamoto, Kyoichi Mizuno, Yasuo Ohashi, for the MEGA Study Group
Lancet 2006; 368: 1155–63
MEGA Study
24
25
Figure 3: Kaplan-Meier curves for the primary and secondary endpoints
累積イベント曲線
食事療法群 食事療法+プラバスタチン群
26
治療遵守状況
食事療法群
3966
例食事療法
+
プラバスタチン群3866
例食事療法のみ (75%)
食事療法+ P 薬 (25%)
食事療法+ P 薬 (90%)
食事療法のみ(10%)
延命 MST を 2倍
生存割合を あげる
3割を根治
生存関数
時間
延命効果がある治療と最終生存 割合をあげる治療との比較
延命 MST を2倍
生存割合をあげる
3割を根治,7割がリスク集団
ハザード関数
時間
29
指数型でない生存曲線 区間打ち切りデータ
生存曲線が指数型でない(途中で膨らんだり する)場合,解釈に留意すべきことはありますで しょうか.
30
Progression Free Survival (duck 型 ) 無増悪生存時間
Open-Label Phase III Trial of Panitumumab Plus Best Supportive Care Compared With Best
Supportive Care Alone in Patients With Chemotherapy-Refractory Metastatic Colorectal Cancer, Journal of Clinical Oncology, 25, 13, MAY 1 2007
Progression Free Survival (duck 型 )
無増悪生存時間
32
理論生存時間分布(白鳥型)
33
区間打ち切りデータ:定期検査による 増悪の確認
検査時点の分布
2 4
0 6 8 10 1 2
真 の P FS
観察される PFS
時間
真の PFS
観察される PFS
検査時点の分布
34
真 progressionが起きた時間
progression
が検 査 で確 認 さ れ た 時 間
増悪の確認時点は
遅れ特定の時点に集中
35
検査日が一定の場合
1日間隔で観察
37
検査日がばらつく場合
38
みにくいあひるの子の正体は?
39
生存時間解析の要約指標
・
N
年生存割合:KM
曲線でN
年生存している割合・ハザード
(
単位時間当たりの死亡率)
死亡数/総観察時間・平均生存時間:打ち切りを受けた個体について は生存時間が不明で算出不能
打ち切り時点を死亡時間と扱うと過小評価
・
MST(
メディアン生存時間) Median Survival time
半分の個体が死亡する時間
メディアン生存時間
MST : median survival time
生命表(生存曲線)で,
累積生存割合が
50%
になるときの時間.すなわち,半数のものが 死亡する時間
KM
曲線が50%
の水平線と交わる時点
このような場合はMSTは推定不能
KM
曲線が50%
の水平線と交わらない
MST( Median Survival time)
生存曲線が,ちょうど生存割合
50%
と重なっ ている場合,生存時間の中央値MST
はどこをと るのでしょうか?42
50%
生存曲線
1 ) 左端 2 ) 右端 3 ) 中点
左端 中点 右端
ちょうど生存割合が 50% となる場合の MST は?
0.30
0.43
1 ) 左端 0.30
2 ) 右端 0.43
3 ) 中点 0.365
44
メディアン(打ち切りがない場合)
中央値(中位数,メディアン)
) ( )
2 ( )
1
(
x x
nx
2
1
x
n nが奇数
2
2 1 2 )
(
n
n x
x
MSTは中央値(メディアン)を
打ち切りがある状況に拡張したもの n=10のときは5番目と6番目の平均 n=9のときは5番目の値
nが偶数
MST
の信頼区間上限-
生存期間中央値の信頼区間の上限が,とき どき推定されないことがあります.なぜ,推定で きないのでしょうか?
45
×
生存関数の信頼区間
パーセ ント
点推定 95% 信頼区間 [下限 上限) 50 0.32285 0.08002 0.86181
MST
信頼下限 0.08002
MST
信頼上限 0.86181
生存割合の差の
95%信頼区間
50%の水平線が生存関数の信頼区間と交わった点が信頼区間
生存関数の信頼区間
MSTの信頼上限が求まらない場合
パーセ ント
点推定 95% 信頼区間 [下限 上限) 50 0.33130 0.18505 .
MST
信頼下限 0.18505
追跡期間が不十分で
上限が特定できない
生存関数の信頼区間 75% 点の信頼区間
パーセ ント
点推定 95% 信頼区間 [下限 上限) 75 50.00 23.00 134.00
信頼 下限 23
信頼 上限 134
生存時間のノンパラ検定とは
50
ノンパラ検定のイメージ
生存割合
時間
1
0
:2群の生存割合の差
複数の時点の差を統合
ノンパラメトリック検定の特徴 時点毎の差の重み付き和
ログランク:後半 ウイルコクソン:前半
•51
1
生 存割 合
時間
1
生 存 割 合
時間
ログランク検定で 検出しやすい差
一般化Wilcoxon検定で
検出しやすい差
重み
52
ログランク検定と
一般化ウイルコクソン検定
• 一般化ウイルコクソン検定は,前の時点の 差を検出しやすい.
• ログランク検定は,後ろの時点の差を検出 しやすい.
• ログランク検定は,全ての時点で同様な差 がある比例ハザード性の下で最も検出力 が高くなる.
一般化ウイルコクソン検定の相対効率は75%
53
ログランク:p= 0.02
ウイルコクソン:p= 0.07
54
ログランク:p= 0.06
ウイルコクソン:p= 0.01
55
ログランク:p= 0.19
ウイルコクソン:p= 0.15
コルモゴロフスミルノフ: p=0.03
56
コルモゴロフスミルノフ: p=0.03
コルモゴロフスミルノフは 最大の生存割合
の差に基づいた検定
57
ログランク検定:p= 0.10
ウイルコクソン検定:p= 0.01
58
ログランク検定: X
2= 16.8
ウイルコクソン検定: X
2= 13.5( 約 75%)
59
Kaplan-Meier curve for survival
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
0 1 2 3 4 5 6 7
Years
overall survival
81.8%
77.2%
5-year OS
76.5%
69.5%
7-year OS
Surg.+UFT
Surg. alone
Surg.+UFT Surg. alone
60
研究を併合したノンパラ検定
Stratified Test of Equality over Group
Pr >
Test Chi-Square DF Chi-Square
Log-Rank 6.5089 1 0.0107
Wilcoxon 2.2652 1 0.1323
Tarone 4.2173 1 0.0400 Peto 5.5797 1 0.0182 Modified Peto 5.5701 1 0.0183 Fleming(1) 5.5846 1 0.018161
時点の重み SASV9
検定 重み:
ログランク 1
一般化ウイルコクソン
Tarone-Ware Peto-Prentice modified P.P.
Harrington- Fleming(p,q)
w
in
ini
)
~( ti
S
) 1
~(
i
i
i n
t n S
Sˆ(t ) 1 Sˆ(ti )
q , p 0, q 0p i
62
打ち切りがないときの重みのイメージ
ログランク(1) 一般化ウイルコクソン(ni)
Tarone-Ware 重み
時間 ni
S0 S
S0.5
63
性能比較(比例ハザード性S 0 型)
検定法 ログランク Tarone Wilcoxon Fleming 重み 1(S0) S0.5 S S2
Pitmanの相対効率 1.000 0.889 0.750 0.556 N=50の検出力 0.954 0.938 0.894 0.812
相対効率
ログランクとWilcoxon 1 : 0.75
カイ2乗統計量 100 : 75
同じ差を検出するN 75 : 100
対照群のハザード関数
薬剤群のハザード関数
死亡率
64
性能比較( S 0.5 型)
検定法 ログランク Tarone Wilcoxon Fleming 重み 1 S0.5 S S2
Pitmanの相対効率 0.889 1.000 0.960 0.816 N=50の検出力 0.844 0.878 0.868 0.830
死亡率
65
性能比較 ( S 0.5 型)
検定法 ログランク Tarone Wilcoxon Fleming 重み 1 S0.5 S S2
Pitmanの相対効率 0.750 0.960 1.000 0.938 N=50の検出力 0.754 0.834 0.864 0.828
死亡率
66
性能比較(S 2 型)
検定法 ログランク Tarone Wilcoxon Fleming 重み 1 S0.5 S S2
Pitmanの相対効率 0.556 0.816 0.938 1.000 N=50の検出力 0.534 0.662 0.722 0.742
死亡率
生存時間の多重比較
皮膚癌データ : SCANCER
data scancer;
do dose=10,30,90;do i=1 to 30;
input time censor @@;output;end;end;
cards;
40 1 76 0 76 0 76 0 64 0 66 1 76 0 76 0 76 0 76 0 32 1 40 1 60 1 72 0 76 0 44 1 62 1 60 0 76 0 76 0 40 1 42 1 60 1 76 0 76 0 48 1 76 0 76 0 76 0 76 0 26 0 46 1 32 1 49 0 44 1 44 0 43 0 40 1 44 1 45 1 22 1 43 0 48 1 44 1 44 1 36 1 44 1 42 1 45 1 49 0 33 0 38 1 48 0 48 0 47 0 41 1 46 1 46 1 38 1 35 0 36 1 40 1 44 1 44 1 49 0 29 1 28 1 34 0 48 1 49 0 40 1 42 1 40 1 38 1 38 1 32 1 38 1 32 1 49 0 22 1 32 1 38 1 48 0 23 0 32 1 49 0 44 0 45 1 49 0 1 0 68
皮膚癌データ : SCANCER
ラットを用いた発癌実験データ
10nmol : HR=1
90nmol:HR=5.680
30nmol:HR=4.167
69
生存時間の多重比較の方法
LIFETEST STRATA
文ADJ=
オプションADJUST=BONFERRONI ADJUST=DUNNETT
ADJUST=SCHEFFE ADJUST=SIDAK
ADJUST=SIMULATE ADJUST=SMM | GT2 ADJUST=TUKEY
70
TEST=WILCOXONで一般化ウイルコクソン 検定の多重比較も可能
打ち切りと非打ち切り値の数の要約 層 DOSE 全体 死亡 打ち切
り 1 10 30 11 19 2 30 30 19 11 3 90 30 20 10 Total 90 50 40
基本的な多重比較法 A,B,C の比較
A
B
C AB
AC
BC
Tukey : AB,AC,BC Dunnett : AB,AC Scheffe :
AB,AC,BC,A-BC
A-BC
m
:比較の数Bonferroni
:p
値をm
倍Sidak
:独立性を前提に多重性調整
SIMULATED
:シミュレーションにより多重性調整71
検定の多重性
有意水準 α で独立な検定を m 回行った場合 1)1回も有意にならない確率
α =0.05 , m=10 のときの確率
(1 -α)
m(1 -0.05)
10=0.59874 2)1回以上有意になる確率
また α =0.05 , m=10 のときの確率 1- (1 -α)
m≒ m ・ α
1- (1 -0.05)
10= 0.40126
72
独立な最小 p 値の分布
1 m
m
) 1
( )'
( )
(
) 1
( 1
) ( p
) (
1
) 1
( 1
1
x
mm x
F x
f
x x
F m
m
確率密度関数:
分布関数:
値の分布 個の最小
α未満 最小p値が有意
つ以上が有意
α α水準で有意:
つ以上が 個の独立な検定のうち
73
m 個の最小 p 値の確率密度関数
1 2 3 4 5
m=10
) ( p
f f ( p ) m ( 1 p )
m174
p
m 個の最小 p 値の累積分布関数
1 2
3 4 m=10 5
) ( p F
法
≒
に近いとき が
法
Bonferroni p m
) (
0
) 1
( 1
)
(
m
p F
p
Sidak
p p
F
75
p
0.40126
多群の場合のノンパラ検定 包括検定:分散分析型統計量 自由度:群の数(r)ー
1
群間で差があるか 分散共分散行列
数の差のベクトル 観測死亡数と期待死亡
r
V V
V
V V
V
V V
V
u u u
T
rr r
r
r r
r
: ,
: :
2
2 1
2 22
21
1 12
11 2
1
u V
u
V u
V u
76
u V u
T
2Dunnett
型 多重比較(
基準群(用量10nmol
群)との比較)ods graphics on;
proc lifetest data=scancer
plots=survival(atrisk=0 to 80 by 10);
time time*censor(0);
strata dose /
test=logrank adjust=dunnett;
run;
ods graphics off;
77
ログランク検定の出力(包括検定)
u V u
T
278
3×1
3×3
順位統計量
DOSE ログランク 10 -13.863 30 4.814
90 9.048
数の差 観測死亡数と期待死亡
u
1u
2u
3ログランク検定の共分散行列
DOSE 10 30 90
10 10.2810 -5.7934 -4.4875
30 -5.7934 9.0072 -3.2138
90 -4.4875 -3.2138 7.7013
V
11V
21V
31V
12V
13V
22V
23V
32V
33層に対しての同等性の検定
検定 カイ 2 乗 自由度 Pr >
Chi-Square ログランク 20.2565 2 <.0001
u
V
12 11
22
2 1 2 2
12
2
) (
V V
V
u X u
群iと群jの
対比較のカイ 2 乗統計量Xij2
2982 .
11
) 7890 .
5 (
2 2810
. 10 0072
. 9
)) 863 .
13 (
814 .
4 (
2 ) (
2 ) (
] [
) (
2 1 2
1 1 2 2
2 1
2 2 1 2
2 2
2
V V
V
u X u
V V
V
u u
u u
V
u X u
ij ii
jj
i j
i j
i j
ij
79
p Pr(
12 11 . 2982 ) 0 . 0008
多重比較の調整 p 値の計算
関数 関数 未加工
r:群数 検定の回数,
) (PROBM C
:
) (PROBM C
:
) Pr(
:
) 1
( 1
:
) ,
1 min(
:
) Pr(
: ) (
:
2 2
1
2 2
1
Hsu Dunnett
Dunnett
Kramer Tukey
Tukey
X adjp
Scheffe
p adjp
Sidak
p m
adjp Bonferroni
X p
adjusted non
m
ij r
m
ij
80
Dunnett 型 多重比較 ( adjust=dunnett);
81
層に対しての同等性の検定
検定 カイ 2 乗 自由度 Pr >
Chi-Square ログランク 20.2565 2 <.0001
多重比較の調整 : Logrank 検定
層比較 カイ 2 乗 p 値
DOSE DOSE 未加工
(調整無)Dunnett- Hsu
30 10 11.2982 0.0008
0.0015**90 10 19.4717 <.0001
<.0001**Xij2
u V u
T
2Tukey 型多重比較 ( 全ての対比較)
ods graphics on;
proc lifetest data=scancer
plots=survival(atrisk=0 to 80 by 10);
time time*censor(0);
strata dose /
test=logrank adjust=tukey;
run;
ods graphics off;
82
Tukey 型多重比較 ( adjust=tukey)
83
多重比較の調整 : Logrank 検定 層比較 カイ 2 乗 p 値 DOSE DOSE 未加工
(調整無)
Tukey- Kramer 10 30 11.2982 0.0008 0.0022**
10 90 19.4717 <.0001 <.0001**
30 90 0.7748 0.3787 0.6528 Xij2