第 3 章 相同性検索手法の組み合わせ 20
3.4 union 、 intersection 操作を行った結果
3.4.1 true positive および false positiveの推移
表3.6はError level(false positivesの検出数)が10において、true
positiveの検出数が、組み合わせの元となる2つの手法に比べて増加して
いた組み合わせである。Error levelが10においては、30通りの組み合わ せのうち、12通りの組み合わせで、true positive の検出数が、組み合わ せの元となった2つの手法に比べて増加した。
表3.6: Error level10において、true positiveの検出数が、組み合わせの 元となる2つの手法に比べて増加していた組み合わせ
Method A Method B Set
Operation True
positives E-value
cut-off BLAST FASTA intersection 13779 0.26 / 0.31 4.3*E-4.0
BLAST FASTA union 13908 1.2 / 1.3 3.9*E-5.0
BLAST SSEARCH union 13918 1.3 / 3.1 2.2*E-5.0
BLAST WU-BLAST union 14339 4.3 / 8.8 8.6*E-6.0
BLAST SCANPS intersection 13747 0.029 / 1.7 2.2*E-5.0
BLAST SCANPS union 13950 1.5 / 3.2 2.4*E-5.0
FASTA WU-BLAST intersection 13931 1.4 / 5.7 1.8*E-4.0 FASTA SCANPS intersection 13867 0.95 / 2.6 1.8*E-4.0 FASTA PatternHunter union 13939 1.5 / 17.5 1.3*E-4.0
SSEARCH SCANPS union 13766 2.0 / 1.8 2.2*E-5.0
SSEARCH PatternHunter union 13722 1.6 / 15.7 2.7*E-5.0 SCANPS PatternHunter union 13585 0.50 / 14.6 2.4*E-5.0
Coverage %increase over parent
また、表3.7はError level(false positivesの検出数)が20において、
true positiveの検出数が、組み合わせの元となった2つの手法に比べて増
加していた組み合わせである。Error levelが20においては、30通りの組 み合わせのうち、17通りの組み合わせで、true positive の検出数が、組 み合わせの元となった2つの手法の手法に比べて増加した。
表3.7: Error level20において、true positiveの検出数が、組み合わせの 元となる2つの手法に比べて増加していた組み合わせ
Method A Method B Set
Operation True
positives E-value
cut-off BLAST FASTA intersection 14963 1.5 / 8.9 4.9*E-3.0
BLAST FASTA union 15494 5.1 / 12.8 7.5*E-4.0
BLAST SSEARCH union 15498 5.1 / 1.8 5.0*E-4.0
BLAST WU-BLAST union 15359 4.2 / 0.93 7.3*E-5.0
BLAST SCANPS union 15165 2.8 / 2.3 2.6*E-4.0
BLAST PatternHunter union 14880 0.91 / 19.5 9.0*E-4.0 FASTA SSEARCH union 15455 12.5 / 1.5 7.1*E-4.0 FASTA WU-BLAST union 15286 11.3 / 0.45 7.3*E-5.0 FASTA SCANPS intersection 14897 8.5 / 0.52 1.0*E-3.0
FASTA SCANPS union 14971 9.0 / 1.0 3.1*E-4.0
FASTA PatternHunter union 14963 20.2 / 8.9 7.7*E-4.0 SSEARCH WU-BLAST union 15419 1.2 / 1.3 7.3*E-5.0 SSEARCH PatternHunter union 15428 1.3 / 23.9 6.8*E-4.0 WU-BLAST SCANPS intersection 15282 0.42 / 3.1 9.0*E-4.0 WU-BLAST SCANPS union 15367 1.0 / 3.7 8.9*E-5.0 WU-BLAST PatternHunter union 15222 0.026 / 22.3 7.3*E-5.0 SCANPS PatternHunter union 14892 0.49 / 19.6 3.1*E-4.0
Specificity
%increase over
表3.6や表3.7から、組み合わせの元となった手法と同じError levelに おいて、true positiveの検出数を増やすためには、intersection操作より
もunion操作の方が有効であることがわかる。
また、図3.8はBLASTとFASTAについて、union、intersection操作 を行った結果である。
図3.8: BLASTとFASTAの組み合わせ
8000 9000 10000 11000 12000 13000 14000 15000 16000 17000
0 10 20 30 40 50
number of false positives num
ber of t rue posi tives
BLAST FASTA union intersection
図3.8のように、Error level(false positivesの検出数)が20までの範囲
では、true positiveの検出数が、組み合わせの元となる手法に比べて増え
ていたという組み合わせが多く見受けられた。しかし、Error level(false positivesの検出数)が20を超える範囲では、true positiveの検出数の増 加幅は、減っていくという現象が、全30通りの組み合わせの結果に共通 して起こった。
3.4.2 union
union操作を行った結果、sensitivityが向上し、speicficityが低下する 結果が得られた。、E-value閾値1.0*E-3において、15通りのunion操作 のうち、表3.8に示す9通りが組み合わせの元となる2つの手法と比べて、
sensitivityが1.0%以上向上した。
表3.8では、sensitivityが上昇しているものの、若干、specificityが下 降していることがわかる。しかし、E-value閾値が1.0*E-3の場合、6つ の各相同性検索手法ともに99.8%以上のspecificityを記録している。この E-value閾値が1.0*E-4においては、各手法単独でのspecificityは十分に
表 3.8: E-value閾値が1.0*E-4におけるunion操作のsensitivity、 speci-ficity の増減率
Method A Method B Set Operation
BLAST FASTA union 3.9 / 5.5 -0.011 / -0.024 BLAST SSEARCH union 5.5 / 4.0 -0.016 / -0.010 BLAST WU-BLAST union 11.6 / 1.1 -0.075 / 0.0017 BLAST SCANPS union 5.7 / 3.7 -0.023 / -0.010 FASTA SSEARCH union 4.4 / 1.4 -0.018 / 0.0012 FASTA SCANPS union 4.5 / 1.0 -0.025 / 0.00089 SSEARCH WU-BLAST union 10.2 / 1.2 -0.075 / -0.0045 SSEARCH SCANPS union 2.7 / 2.2 -0.012 / -0.0049 SSEARCH PatternHunter union 1.6 / 30.9 0.0013 / -0.029
Sensitivity
%increase over parent methods
Specificity %increase over parent methods
高く、若干下げたとしても問題ないと考えられる。したがって、表3.8か ら、E-valueが1.0*E-3よりも小さい範囲、つまり、相同でないタンパク 質ペアの検出数が少ない範囲では、union操作が有効であることがわかる。
また、E-value閾値0.001においては、組み合わせの元となる2つの手
法と比べてsensitivityが1.0%以上向上したものは15通りのunion操作 のうち、表3.9に示す7通りであった。
表3.9: E-value閾値が0.001におけるunion操作のsensitivity、specificity の増減率
Method A Method B Set Operation
BLAST FASTA union 5.5 / 4.6 -0.068 / -0.063 BLAST SSEARCH union 7.0 / 2.1 -0.084 / -0.046 BLAST WU-BLAST union 13.6 / 1.1 -0.370 / -0.036 BLAST SCANPS union 7.0 / 3.4 -0.096 / -0.037 FASTA SCANPS union 4.0 / 1.4 -0.070 / -0.016 SSEARCH WU-BLAST union 8.9 / 1.5 -0.33 / -0.040 SSEARCH SCANPS union 1.5 / 2.8 0.060 / -0.038
Sensitivity
%increase over parent methods
Specificity
%increase over parent methods
また、表3.8と表3.9のspecificityを比較してみることにより、E-value が大きくなるにつれて、union操作によるspecificityの減少幅が増えてき ていることがわかる。これは、3.2.3節で述べた、E-value閾値が1.0*E-3 より大きくなると相同でないタンパク質の検出数が増えるといったこと を、反映した結果といえる。
3.4.3 intersection
intersection操作を行った結果、specificityが上昇し、sensitivityが下 降するといったunion操作とは全く逆の結果が得られた。E-value閾値 1.0*E-3において、15通りのintersection操作のうち、表3.10に示す5通 りが組み合わせの元となる2つの手法と比べて、specificityが1.0%以上 向上した。
表3.10: E-value閾値が0.1におけるintersction操作のsensitivity、 speci-ficityの増減率
Method A Method B Set Operation
BLAST FASTA intersection -4.7 / -10.4 2.4 / 1.5 BLAST SSEARCH intersection -2.9 / -11.6 2.4 / 1.9 BLAST WU-BLAST intersection -2.1 / -15.9 1.6 / 12.4 BLAST SCANPS intersection -3.7 / -11.4 2.5 / 2.7 WU-BLAST SCANPS intersection -8.4 / -1.9 11.5 / 1.0
Sensitivity
%increase over parent methods
Specificity
%increase over parent methods
また、E-valueが大きくなるにつれて、intersection操作によるspecificity の上昇幅が大きくなるという結果になった。6つの各相同性検索手法とも に、specificityが低下しはじめるE-valueが1.0*E-3より大きくなったあた りから、intersection操作によるspecificityの上昇幅が増え始める結果と なった。したがって、E-valueが大きく、各手法ともに単独で用いると、相 同でないタンパク質ペアを多数検出してしまうような場合、intersection 操作によってspecificityを上昇させることができ、有用であると考えら れる。