AUROC
プログラム 1 (タイのないデータ) プログラム 2 (タイのあるデータ)
• U
統計量、AUROC
とその標準誤差を算出するプログラムを紹介するでの計算例
•
表1
と表2
のデータに対してSAS
マクロ「%WMWodds
」を適用し、それぞれの
WMWodds
を計算する%WMWodds(SAMPLEDATA2, TREAT, Y) ; *--- 表1 ;
%WMWodds(SAMPLEDATA3, TREAT, Y) ; *--- 表2 ;
Area
:AUROC
の点推定値 StdErr
:AUROC
の標準誤差 WMWOdds
:WMWodds
の点推定値 SE
:WMWodds
の標準誤差 LowerCI_exp
:WMWodds
の両側
95%
信頼区間の下限 UpperCI_exp
:WMWodds
の両側
95%
信頼区間の上限での計算例
> mydata <- read.table(textConnection(' + treat y
+ 1 17 + 1 16 + 2 15 + 1 14 + 2 13 + 1 12
+ 2 11'), head=T)
> wilcox.test(y ~ treat, data=mydata) Wilcoxon rank sum test
data: y by treat W = 9, p-value = 0.4
alternative hypothesis: true location shift is not equal to 0
> library(pROC)
> roc <- roc(mydata$treat, mydata$y)
> mydata <- read.table(textConnection(' + treat y
+ 1 17 + 1 16 + 2 15 + 1 13 + 2 13 + 1 12
+ 2 11'), head=T)
> wilcox.test(y ~ treat, data=mydata)
Wilcoxon rank sum test with continuity correction
data: y by treat
W = 8.5, p-value = 0.4755
alternative hypothesis: true location shift is not equal to 0
> library(pROC)
> roc <- roc(mydata$treat, mydata$y)
プログラム
1 (タイのないデータ)
プログラム2 (タイのあるデータ)
• Mann–Whitney
のU
検定の実施、AUROC
とその標準誤差を 算出するプログラムを紹介するでの計算例
mydata <- read.table(textConnection(' treat y
1 17 1 16 2 15 1 14 2 13 1 12
2 11'), head=T)
wmwodds(mydata, y, treat, 1:2)
mydata <- read.table(textConnection(' treat y
1 17 1 16 2 15 1 13 2 13 1 12
2 11'), head=T)
wmwodds(mydata, y, treat, 1:2)
プログラム
1 (タイのないデータ)
プログラム2 (タイのあるデータ)
• WMWodds
と両側95%
信頼区間を算出するプログラムを紹介する> wmwodds(mydata, y, treat, 1:2) > wmwodds(mydata, y, treat, 1:2)
メニュー
1. Mann–Whitney の U 検定と Hodges‐Lehmann 型の推定方法 2. Mann–Whitney の U 検定と ROC 曲線との関係
3. WMWodds と ROC 曲線下面積( AUROC )との関係
4. 手法の比較①: Mann–Whitney の U 検定の結果との対応 5. 手法の比較②:両側 95% 信頼区間の被覆確率
6. まとめ
手法の比較①: Mann–Whitney の U 検定の結果との対応
•
各群の応答変数 及び に対して同じ確率分布を仮定し、δ 1
だけずらしたシミュレーションデータを用いて、Hodges‐Lehmann
型に よるδ
の両側95%
信頼区間とWMWodds
の両側95%
信頼区間に ついて、Mann–Whitney
のU
検定の結果とどれだけ対応が取れて いるかを調査する•
各群の例数:250
例•
確率分布:正規分布、指数分布、ポアソン分布及び負の二項分布•
場面:各確率分布について、Mann–Whitney
のU
検定のp
値が• 0.05
をわずかに下回る(有意差あり)場合と• 0.05
をわずかに上回る(有意差あり)場合の2
パターンを用意手法の比較①: Mann–Whitney の U 検定の結果との対応
手法の比較①: Mann–Whitney の U 検定の結果との対応
確率分布
(
1
群250
例)Mann–Whitney
のU
検定Hodges‐Lehmann
型WMWodds
Lower Upper Lower Upper
正規分布
0.9 1.2
p 0.0480 0.0109
1.8471
1.00111.5055
p 0.0494 0.0028
1.8541 0.9999 1.5037
p 0.0502 ‐0.0012 1.8575 0.9991 1.5024
p 0.0512 ‐0.0053 1.8610 0.9982 1.5011
指数分布
0.9 1.2
p 0.0494 0.0010
1.8483
1.00011.5034
p 0.0497 0.0005
1.8487 0.9997 1.5029
p 0.0501 ‐0.0009 1.8499 0.9994 1.5025
p 0.0515 ‐0.0062 1.8544 0.9981 1.5005
ポアソン分布
1.0 1.2
p 0.0490 0.0000
2.0000
1.00061.5021
p 0.0495 0.0000
2.0000
1.00011.5013
p 0.0502
0.00002.0000 0.9995 1.5005
p 0.0539
0.00002.0000 0.9963 1.4956
負の二項分布
3.0 1.2
p 0.0481 0.0000
6.0000
1.00141.5047
p 0.0494 0.0000
6.0000
1.00021.5029
p 0.0508
0.00006.0000 0.9990 1.5010
p 0.0515
0.00006.0000 0.9984 1.5001
赤字下線部:有意差あり
手法の比較①: Mann–Whitney の U 検定の結果との対応
•
データが連続分布に従っている状況では(タイが生じにくい状況では)、「
2
つの分布の形状は同じだが位置がある定数δ
だけずれている」という仮定が成り立っていれば、Hodges‐Lehmann 型による
δ
の両側95%信頼区間は
良好な結果となることが分かり、WMWoddsの両側95%
信頼区間では、p
値が0.05
をわずかに下回る状況ではHodges‐Lehmann型による推定よりも
わずかに劣ることが示唆された。(ただし、この問題は実用上はほとんど気にならないと考えられる)
•
データが離散分布に従っている状況では、タイが生じやすい状況であるため、 に基づいて
δ
の推定を行うHodges‐Lehmann
型の方法 では、 として同じ値ばかりが生成されるため望ましい結果が得られないことが 伺える。⇒ さらに考察するため、先ほど用いた正規分布及び指数分布に従うデータ
の小数点以下を切り捨て(整数化し)、このデータに対して同様の手法の比較①: Mann–Whitney の U 検定の結果との対応
手法の比較①: Mann–Whitney の U 検定の結果との対応
• Hodges‐Lehmann
型によるδ
の両側95%
信頼区間の下限は全て0
。• WMWodds
の両側95%
信頼区間はMann–Whitney
のU
検定の結果と 対応が良く取れていることから、データの分布が連続分布でも離散分布確率分布
(
1
群250
例)Mann–Whitney
のU
検定Hodges‐Lehmann
型WMWodds
Lower Upper Lower Upper
正規分布
1.0 1.2
p 0.0441 0.0000
2.0000
1.00491.5110
p 0.0558
0.00002.0000 0.9945 1.4941
p 0.0535
0.00002.0000 0.9964 1.4971
p 0.0501
0.00002.0000 0.9992 1.5015
指数分布
1.0 1.2
p 0.0523
0.00002.0000 0.9975 1.4982
p 0.0509
0.00002.0000 0.9987 1.5000
p 0.0492 0.0000
2.0000
1.00021.5023
p 0.0564
0.00002.0000 0.9941 1.4930
赤字下線部:有意差あり
メニュー
1. Mann–Whitney の U 検定と Hodges‐Lehmann 型の推定方法 2. Mann–Whitney の U 検定と ROC 曲線との関係
3. WMWodds と ROC 曲線下面積( AUROC )との関係
4. 手法の比較①: Mann–Whitney の U 検定の結果との対応 5. 手法の比較②:両側 95% 信頼区間の被覆確率
6. まとめ
手法の比較②:両側 信頼区間の被覆確率
•
前項と同様の状況ではあるが、本項では各群の応答変数 及び に対して全く同じ確率分布を仮定して(δ 0
として)シミュレーション データを生成し、Hodges‐Lehmann
型によるδ
の両側95%
信頼区間 とWMWodds
の両側95%
信頼区間について被覆確率に関する調査 を行う• Hodges‐Lehmann
型:両側95%
信頼区間が0
を含んでいる確率• WMWodds
:両側95%
信頼区間が1
を含んでいる確率•
各群の例数:10
、20
、50
、100
及び200
例•
確率分布:正規分布、指数分布、ポアソン分布及び負の二項分布•
シミュレーション回数:5000
回正規分布及び指数分布に関する被覆確率
〔黒: 型、赤: 〕
•
両手法とも95%
を下回る場合が散見されたが、WMWodds
の両側95%
信頼区間の方が頻度は小さかった。
•
また、WMWodds
の被覆確率の範囲は94.7%
~97.6%
であり、第1
種の 過誤確率は概ね5%
以内に抑えられており、かつ過度に保守的になって949596979899
N Coverage Probability (%) 949596979899
N
Coverage Probability (%)
10 50 100 200
正正正正
正分
= 1
正分= 5
正分= 9
949596979899
N
949596979899
N
10 50 100 200
指指正正
平平
= 1
平平= 5
平平= 9
ポアソン分布及び負の二項分布に関する被覆確率
〔黒: 型、赤: 〕
949596979899
N
949596979899
N
10 50 100 200
ポポポポ正正
949596979899
N Coverage Probability (%) 949596979899
N
Coverage Probability (%)
10 50 100 200
負の二二正正(
p=0.25
)○:平均
1
△:平均
5
+:平均
9
○:成功回数
1
△:成功回数
5
+:成功回数
9
負の二項分布に関する被覆確率
〔黒: 型、赤: 〕
• Hodges‐Lehmann
型の被覆確率は過度に大きくなった。これは前項の考察よ り、離散分布に対するHodges‐Lehmann
型によるδ
の両側95%
信頼区間の 下限は0
になりやすいことが原因と思われる。• WMWodds
の被覆確率は95%
を下回る場合が散見されたが、被覆確率の 範囲は94.3%
~97.2%
であり、第1
種の過誤確率は概ね5%
以内に抑え949596979899
N
949596979899
N
10 50 100 200
負の二二正正(
p=0.50
)949596979899
N
949596979899
N
10 50 100 200
負の二二正正(
p=0.75
)メニュー
1. Mann–Whitney の U 検定と Hodges‐Lehmann 型の推定方法 2. Mann–Whitney の U 検定と ROC 曲線との関係
3. WMWodds と ROC 曲線下面積( AUROC )との関係
4. 手法の比較①: Mann–Whitney の U 検定の結果との対応 5. 手法の比較②:両側 95% 信頼区間の被覆確率
6. まとめ
まとめ
• Mann–Whitney
のU
検定とROC
曲線下面積(AUROC
)との関係を紹介した•
「Mann–Whitney
のU
検定結果との対応」と「両側95%
信頼区間の被覆確率」の観点から、連続&離散分布の場合において
Hodges‐Lehmann
型によるδ
の 両側95%
信頼区間とWMWodds
とその両側95%
信頼区間の比較を行った。Hodges‐Lehmann
型による両側95%
信頼区間データが連続分布に従っている場合は望ましいが、データが離散分布に従っている場合 やタイが生じやすい状況では性能が悪くなることが示唆された。
WMWodds
の両側95%
信頼区間の推定結果データの分布が連続分布であっても離散分布であっても望ましい結果となる ことが分かった。また、
WMWodds
の両側95%
信頼区間の被覆確率は概ね95%
を上回っており、第1
種の過誤確率の観点からもWMWodds
の両側95%
信頼区間は望ましい性質を持つことが分かった。
参考文献
Acion L, et. al.
(2006
)「Probabilistic index: an intuitive non‐parametric approach to measuring the size of treatment effects
(Statistics in Medicine, Volume 25: 591‐602
)」DeLong ER, et. al.
(1988
)「Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach
(Biometrics, Volume 44 3 : 837‐45
)」Divine G, et al.
(2013
)「A review of analysis and sample size calculation considerations for Wilcoxon tests
(