第 3 章 相同性検索手法の組み合わせ 20
3.5 提案手法
3.5.4 考察
0.7 0.75 0.8 0.85 0.9 0.95 1 1.05
0.25 0.3 0.35 0.4
sensitivity sp ec
ifi ci
ty
BLASTFASTAunion intersection combination
図 3.11: E-value閾値1.0*E-10〜1.0におけるBLASTとFASTAの組み 合わせ結果
0.9 0.95 1 1.05 1.1 1.15 1.2
-5 -4 -3 -2 -1 0
E-value(10の指数)
組み 合わ せの sens itivi ty/B LAST の
sens itivi
ty union
intersection combination
図3.12: BLAST単独の結果のsensitivityに対する組み合わせを行った結 果のsensitivityの比率
低下し、specificityが向上する。図3.14は、BLAST単独の結果に対する 提案手法を行った結果の比率を表す。
図3.14 より、提案手法によってE-value 閾値3.0*E-3(1.0*10−2.69)〜 3.0*E-2(1.0*10−1.69)の間で、BLASTのsensitivity、specificityの両方を 向したことが確認できる。また、E-value閾値3.0*E-3(1.0*10−2.69)〜 3.0*E-2(1.0*10−1.69)の間では、BLAST単独で用いた結果のsensitivityが27.9
%以上だったのに対し、specificity は99.1%以上だった。したがって、
E-value閾値3.0*E-3(1.0*10−2.69)〜3.0*E-2(1.0*10−1.69)の間では、 speci-ficityはsensitivitiyと比較し、上昇する余地が少なかったため、sensitivity に比べ増加幅も小さくなったといえる。
0.9 0.95 1 1.05 1.1 1.15 1.2
-5 -4 -3 -2 -1 0
E-value(10の指数)
組み 合わ せの spec ifici ty/B LAST の
spec ifici
ty union
intersection combination
図3.13: BLAST単独の結果のspecificityに対する組み合わせを行った結 果のspecificityの比率
0.975 1 1.025 1.05 1.075
-5 -4 -3 -2 -1 0
E-value(10の指数)
比率
sensitivity(提案手 法/BLAST) specificity(提案手 法/BLAST)
図3.14: BLAST単独の結果に対する提案手法を行った結果の比率
第 4 章 おわりに
本研究では、相同性検索手法を、タンパク質ペアのE-valueによって union、intersection操作を効果的に使い分けて、組み合わせることによ り、sensitivity、specificity両方の向上を目指した。その結果、BLASTと FASTAの組み合わせでは、E-value閾値3.0*E-3のように、union、 in-tersection操作の使い分けに用いるE-value閾値(1.0*E-3)に近い範囲 では、sensitivity、specificity共に、BLASTとFASTA単独で用いる場 合に比べて向上させることができた。しかし、E-value閾値が大きくなる と、specificityは向上したものの、sensitivityは低下するといった結果と なった。
BLASTとFASTAのように、手法単独で用いる場合と比較して
sensi-tivityやspecificityが向上した組み合わせがあった背景には、タンパク質 のアミノ酸配列のアラインメントを行うアルゴリズムやE-valueの計算方 法が各手法で異なるということが考えられる。
また、組み合わせを行ったが、sensitivityをE-value閾値全域にわたっ て、向上するには至らなかったことから、各手法が拾ってくる相同なタン パク質ペアは似通っていると考えられ、ペアワイズアラインメントで相同 性検索を行う点に限界を感じる。
今後は、手法の組み合わせによって通常のGapped-BLASTより多くの 配列を拾うことで、PSI-BLASTのプロファイルの質やPSI-BLASTの精 度にどのような影響を及ぼすのか検証を行う予定である。
謝辞
本研究を行うにあたり、適切な助言やご指導を頂いた山名早人助教授に 深く感謝致します。また、日頃から常に熱心かつ的確に指導をして下さっ た山田真介先輩に心から感謝致します。そして、PC の設定や相同性検索 手法のインストールなどを手伝って下さった山田晃太郎先輩、岩橋永悟先 輩、斉藤純先輩をはじめ、研究室の先輩方、同輩にも御礼申し上げます。
参考文献
[1] GenBank
http://www.ncbi.nlm.nih.gov/
[2] SWISS-PROT
http://www.expasy.ch/sprot/
[3] Benson.DA, Karsch.MI, Lipman.DJ, Ostell.J, Wheeler.DL(2004) GenBank: update,Nucleic Acid Research, vol.32, D23-D26
[4] C.Webber, G.J.Barton(2003)Increased coverage obtained by com-bination for protein sequence database searching, Bioinfomatics, vol.19, 1397-1403
[5] Henikoff,S. and Henikoff,J.G.(1992)Amino acid substitution matri-ces from protein blocks,Proc. Natl. Acad. Sci. USA, vol.89, 10915-10919
[6] S.B. Needlman and C.D. Wunsch(1970)A general method applicable to the search for similarities in the amino acid sequence of two proteins,J.Mol.Biol., vol.48, 443-453
[7] T.F. Smith and M.S. Waterman(1981)Identification of common molecular subsequences,J.Mol.Biol., vol.147, 195-197
[8] Altschul.SF, Gish.W, Miller.W, Myers.EW, Lipman.DJ (1990) Ba-sic Local Alignment Search Tool,J. Mol. Biol, vol.215,403-410 [9] Pearson.WR (1990) Rapid and Sensitive Sequence Comparison with
FASTP and FASTA,Methods in Enzymology, vol.183, 63-98 [10] Altschul.SF, Gishu.W (1996) Local alignment statistics, Methods
in Enzymology, vol.266, 460-480 [11] WU-BLAST2.0 TOPICS
http://blast.wustl.edu/blast/README.html