生存関数における
信頼区間算出法の比較
佐藤 聖士,浜田 知久馬 東京理科大学 工学研究科
Comparison of confidence
intervals for survival rate
Masashi Sato, Chikuma Hamada
Graduate school of Engineering, Tokyo University of Science
要旨:
生存割合の信頼区間算出の際に用いられる各変換関数 の性能について 被覆確率を評価指標として比較した. キーワード:生存関数,信頼区間,被覆確率, LIFETEST procedure 2生存時間解析
[1]
• ある基準の時刻からある目的の反応がおきるまでの時間の
解析
• 打切りを考慮
A ・・・ 通常のデータ B ・・・ 脱落データ C ・・・ 観察打切り 生存時間 :死亡 = イベント :生存 A B C 患者 観察終了時点 時間 0 3 背景生存関数・ハザード関数
[1]
• 生存関数:
時点 t までイベントが起きない確率• ハザード関数:
時点 t の瞬間でのイベントの発生率)
(t
h
)
(t
S
時間(t) ハザード関数 (指数分布) 0 h(t) 生存関数 (指数分布) 時間(t) 0 S(t) ) exp( ) (t t S = −λ h( t) = λ a = λ b = λ a b 1 4 背景カプラン・マイヤー(積極限)推定量
[1]
• 生存関数の推定量
• 生存関数:
( ) (
=
−
) (
×
−
)
×
=
∏
<(
−
)
t tid
in
in
d
n
d
t
S
ˆ
1
1 11
2 2L
1
の大きさ における全リスク集合 時点 におけるイベント総数 時点i n i di : , i : ( )t S 0 1 時間 (1−d1 n1) (1−d1 n1) (⋅ 1−d2 n2) (1−d1 n1) (⋅ 1−d2 n2) (⋅ 1−d3 n3) t :打切り :イベント 5 背景信頼区間の算出
• 得られた生存割合
を関数
で変換
(以下, を変換関数と 呼ぶ)• 変換後に区間を計算し,逆変換
( )
( )
( )
( )
t
S
g
t
S
ˆ
⎯
g⎯→
⎯
xˆ
( )
( )
S
t
[
g
( )
S
( )
t
]
n
g
ˆ
±
1
.
96
var
ˆ
( )
( )
[
( )
( )
]
⎟
⎠
⎞
⎜
⎝
⎛
±
−n
t
S
g
t
S
g
g
1ˆ
1
.
96
var
ˆ
g-1(x)( )
t
Sˆ
g( )
x g( )
x 6 背景LIFETEST procedure で計算可能な5種類の変換
[2][3]名称
変換関数
変換無し
(以下,NONTRANS)対数変換
(以下,LOG)二重対数変換
(以下,LOGLOG)逆正弦変換
(以下,ASINSQRT)ロジット変換
(以下,LOGIT)( )
x
( )
x
g
=
sin
−1( )
x
(
( )
x
)
g
=
log
−
log
( )
x
x
g
=
( )
x
( )
x
g
=
log
( )
x
(
x
(
x
)
)
g
=
log
1
−
7 背景信頼区間の性能
• 被覆確率:
– 信頼区間が真値を含む確率( )
n( )
x(
)
n x xx
n
x
I
t
C
− =−
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⋅
=
∑
,
π
π
1
π
0( )
t
C
( )
⎪⎩
⎪
⎨
⎧
=
ない
信頼区間が真値を含ま
信頼区間が真値を含む
,
0
,
1
,
π
x
I
8 背景背景の整理と本研究の目的
• 背景の整理
– 複数ある被覆確率の定量的な評価は不十分 • どの信頼区間を用いればよいか不明確¾被覆確率による,各信頼区間の定量的な評価
¾どの変換関数が好ましいかの考察
目的
9 目的正確(exact)な被覆確率の評価
• 生存時間データにおける生存割合の信頼区間につ
いて算出
• 条件
– 信頼区間:両側95%水準 – 症例数:50, 100, 200, 400例 – 生存割合の真値:0.0 ~ 1.0 by 0.01 10 方法正確な被覆確率の計算
ある時刻 t で生存している人数 x は成 功確率 S(t) の二項分布に従う[
]
( )
(
( )
)
( )
(
n
S
t
)
t
S
t
S
x
n
x
X
x n x,
Bin
1
Pr
=
−
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
=
=
− 生存関数 :S(t) 時間(t) 0 S(t) S(t)t
症例数 : n 1 生存割合 打切りがない場合 11 方法正確な被覆確率の計算例
x 二項分布の確率 p(x) 95%信頼区間 I(x, S(t)) I(x, S(t)) p(x) 下側 上側 0 0.006 0 0 0 0 1 0.040 0 0.286 0 0 2 0.120 0 0.448 1 0.121 3 0.214 0.015 0.584 1 0.215 4 0.250 0.096 0.704 1 0.251 5 0.200 0.190 0.810 1 0.201 6 0.111 0.296 0.904 1 0.111 7 0.042 0.416 0.984 0 0 8 0.010 0.552 1 0 0 9 0.002 0.714 1 0 0 10 0.0001 1 1 0 0 合計C(t)
= 0.899
n = 10, S(t)=0.4 12 方法プログラム
13 方法 data data; do n = 50 to 400 by 50; do trues = 0.0001 to 0.9999 by 0.0001; over=0; do x = 0.000001,1 to n-1,n-0.000001; prob = pdf('binomial',x,trues,n); se = sqrt(x*(n-x)/(n**3)); l0 = (x/n)-1.96*se; u0 = (x/n)+1.96*se;if l0<trues<u0 then cover= linear+prob; end;
output; end; end; run;
proc gplot data=data_detail uniform; plot (linear log loglog asinsqrt logit) * trues /vref=0.95;
by n;
symbol1 i=spline w=4 h=4 c=blue v=none; where 0.05<trues<0.95;
正確な被覆確率の評価
• 各症例数,
S(t)の真値で被覆確率を評価
– 被覆確率が95%により近い場合に『性能が良い』とする
• 正確な信頼区間では打切りの考慮が困難
打切りがある場合について シミュレーションを行い,評価する その為 被覆確率が 95%を上回る 信頼区間の幅が 広い 保守的な 信頼区間 被覆確率が 95%を下回る 信頼区間の幅が 狭い 革新的な 信頼区間 14 方法シミュレーションによる評価
¾ 生存時間分布に指数分布を仮定
¾ 観察打切り,脱落の発生
¾ NONTRANS, LOG, LOGLOG, ASINSQRT, LOGIT の
95%信頼区間を構成
¾ 各信頼区間の被覆確率から性能評価
打切りを含む生存時間データにおける
シミュレーション実験による,信頼区間算出法の評価
シミュレーション目的 15 方法シミュレーション設定
• 条件
– 指数分布のパラメータ: – 症例数:50, 100, 200, 400例 – 観察期間:5年 – シミュレーション回数:10000回0.6
0.5,
0.4,
=
λ
16 方法シミュレーション方法
データ生成• 指数分布に従う生存時間データを発生
• 観察打切り,脱落データを考慮
信頼区間の 構成• S(t) = 0.1, 0.2, …,0.5において,各信頼
区間を構成
被覆の確認• 構成された各信頼区間に生存割合の真
値が含まれているかを調べる
10000回繰り返し, 被覆確率を算出被覆確率による信頼区間の評価
正確な被覆確率に準ずる評価
17 方法正確な被覆確率
[
n=50, NONTRANS]
平均:93.37%
18 結果
正確な被覆確率
[
n=50, LOG]
平均:94.31%
19 結果
正確な被覆確率
[
n=50, LOGLOG]
平均:95.22%
20 結果
正確な被覆確率
[
n=50, ASINSQRT]
平均:94.61%
21 結果
正確な被覆確率
[
n=50, LOGIT]
平均:95.60%
22 結果
正確な被覆確率
区間[0.05, 0.95]における平均値
90% 95% 100% 50 100 200 400 被 覆 確 率NONTRANS LOG LOGLOG ASINSQRT LOGIT
症例数 [n]
23 結果
シミュレーション結果
[
λ=0.5, n=50,
打切り割合:
9.6%]
85 90 95 100 0.1 0.2 0.3 0.4 0.5 被 覆 確 率( %)NONTRANS LOG LOGLOG ASINSQRT LOGIT
生存割合
24 結果
シミュレーション結果
[
λ=0.5, n=50,
打切り割合:30.6%]
85 90 95 100 0.1 0.2 0.3 0.4 0.5 被 覆 確 率( %)NONTRANS LOG LOGLOG ASINSQRT LOGIT
生存割合
25 結果