SVM を用いたタンパク質のディスオーダー領域における機能部位の予測
全文
(2) 4. 評価実験 4.1. データセット 本研究では,Fukuchi ら[11]によって作成されたデータベースである IDEAL からデータを取得した.IDEAL には 2013 年 1 月 25 日現在 261 個のタンパク質データが登録されており,アミノ酸残基ごとに Order や Disorder などのタグ付けがされている.本研究では,MoRF 領域を意味 する ProS とタグ付けされたアミノ酸残基が含まれる 121 個のタンパク 質を取得し,ProS とタグ付けされたアミノ酸残基をポジティブデータ, それ以外のアミノ酸残基をネガティブデータとした.その結果,3,945 個のポジティブデータと 77,239 個のネガティブデータが得られた.本 研究では,IDEAL からデータを取得して作成したデータセットを IDEAL データセットと呼ぶ. 4.2. 10-fold Cross Validation による実験 学習を行う際はポジティブデータとネガティブデータの数を等しく する必要があるため、本実験では IDEAL データセットのポジティブデ ータセットとネガティブデータセットからそれぞれ 3,940 個のデータを ランダムサンプリングすることでデータセットを作成した。そして, 10-fold Cross Validation を行い,Accuracy,TPR,TNR,AUC の平均 値を求め,学習器の評価を行った.ここで,予測結果はデータセットに 依存している可能性があり,1 回の実験では学習器の評価を十分に検証 しているとは言えない.よって,本研究ではランダムサンプリングを 10 回行うことで 10 個のデータセットを作成し,それぞれのデータセット を使用した 10-fold Cross Validation による実験を行った.Accuracy が 高い上位 3 件までの実験結果を表 1 に示す。表 1 より、短いウィンド ウサイズを 55,長いウィンドウサイズを 101 に設定した場合の実験結 果が最も良いため,提案手法ではウィンドウサイズを 55,101 に設定す る. 表 1 10-fold Cross Validation による学習の結果 ウィンドウ. Accuracy. TPR. TNR. AUC. 55,101. 0.99023. 0.98985. 0.99061. 0.99593. 55,91. 0.99010. 0.98883. 0.99137. 0.99505. 51,71. 0.99010. 0.99086. 0.98934. 0.99600. サイズ. 4.3. 関連研究との比較 4.3.1. TEST データセットを使用した実験 関連研究との比較を行うため、MoRFpred で使用された TEST データ セットを使用し、10-fold Cross Validation による実験を行い、結果は表 2 の通りとなった。 表 2 TEST データセットを使用した場合の予測結果 手法. Accuracy. TPR. TNR. AUC. MoRFpred. 0.937. 0.254. 0.951. 0.673. 提案手法. 0.878. 0.257. 0.912. 0.618. 4.3.2. IDEAL データセットを使用した実験 MoRFpred の評価実験で使用された TEST データセットは信頼性が 疑わしいデータも存在するため、4.1 節で述べた IDEAL データセット を使用した実験を行い、提案手法と MoRFpred を比較した。ここで、 MoRFpred は配列長が 1000 以上のアミノ酸配列には使用できないため、 4.1 節で述べた 121 個のタンパク質から、配列長が 1000 以下である 103 個のタンパク質を抽出し,実験を行った.実験は 4.2 節で述べた方法で 行い、結果は表 3 のようになった。 表 3 IDEAL データセットを使用した場合の予測結果 手法. Accuracy. TPR. TNR. AUC. 提案手法. 0.985. 0.987. 0.988. 0.992. MoRFpred. 0.602. 0.789. 0.562. 0.632. 4.4. 考察 本節では、MoRFpred と提案手法の比較実験について考察する。表 2 より、すべての評価値を考慮した場合,MoRFpred が最も良い結果とな っている.しかし,TEST データセットは不均衡データセットであるた め、TEST データセットを使用した実験は予測器の性能を十分に評価し た実験とは言えない。よって、より信頼できる IDEAL データセットを 使用した実験を行い、予測器の性能を評価したところ、表 3 より、提案 手法による予測が MoRFpred を大きく上回っている。よって、4.3.2 項 より、提案手法の有用性は証明されたちと言える。 おわりに 本研究ではタンパク質のディスオーダー領域における機能部位を予 測する手法を提案した.提案手法では,関連研究の問題点として考えら れたデータセットの作成手法,そして特徴量抽出手法を見直すことで精 度の向上を図った.その結果,10-fold Cross Validation による実験では MoRF 領域とそれ以外の領域をほぼ正しく分類することができた.また, 関連研究との比較のために行った IDEAL データセットを使用した実験 では関連研究を大幅に上回る予測結果が得られた. 5.. 参考文献 [1] F. M. Disfani, W. L. Hsu, M. J. Mizianty, C. J. Oldfield, B. Xue, A. K. Dunker, V. N. Uversky and L. Kurgan, “MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding regions in proteins,” Bioinformatics, vol. 28, pp. 75-83, 2012. [2] S. Kawashima and M. Kanehisa, “AAindex: Amino Acid index database,” Nucleic Acids Research, vol. 28, no. 1, p.374, 2000. [3] S. Hirose, K. Shimizu, S. Kanai, Y. Kuroda and T. Noguchi, “POODLE-L: a two-level SVM prediction system for reliably predicting long disordered regions,” Bioinformatics, vol. 23, no. 16, pp.2046-2053, 2007. [4] K. Shimizu, S. Hirose and T. Noguchi, “POODLE-S: web application for predicting protein disoreder by using physicochemical features and reduced amino acid set of a position-specific scoring matrix,” Bioinformatics, vol. 23, no. 17, pp.2337-2338, 2007. [5] L. J. McGuffin, K. Bryson and D. T. Jones, “The PSIPRED protein structure prediction server,” Bioinformatics, vol. 16, no. 4, pp.404-405, 2000. [6] M. J. Zvelebil, G. J. Barton, W. R. Taylor and M. J. E. Sternberg, “Prediction of protein secondary structure and active sites using the alignment of homologous sequences,” Journal of Molecular Biology, vol. 195, pp.957-961, 1987. [7] J. Kyte and R. F. Doolittle, “A Simple Method for Displaying the Hydropathic Character of a Protein,” Journal of Molecular Biology, vol. 157, pp.105-132, 1982. [8] D. M. Engelman, T. A. Steitz and A. Goldman, “Identifying nonpolar transbilayer helices in amino acid sequences of membrane proteins,” Annual Review of Biophysics and Biophysical Chemistry, vol. 15, pp.321-353, 1986. [9] V. N. Uversky, J. R. Gillespie and A. L. Fink, “Why are “natively unfolded” proteins unstructured under physiologic conditions?,” Proteins, vol. 41, pp.415-427, 2000. [10] M. A. Hall, “Correlation-based feature selection for machine learning,” University of Waikato, Department of Computer Science, 1999. [11] S. Fukuchi, S. Sakamoto, Y. Nobe, S. D. Murakami, T. Amemiya, K. Hosoda, R. Koike, H. Hiroaki and M. Ota, “IDEAL: Intrinsically Disordered proteins with Extensive Annotations and Literature,” Nucleic Acids Research, vol. 40, pp.507-511, 2012..
(3)
関連したドキュメント
We diagnosed this patient with neurosyphilis because his blood and CSF were both positive for RPR and TPHA. The patient received a 2-week course of penicillin G, and
BOTH SIDES OF THE CIRCLE'. The Autobiography of Christmas Humphreys. Christmas Humphreys, founder and president of the Buddhist Society, London, covers a period of
Hence, it was considered that the solvent of spiro-OMeTAD (chlorobenzene) can shift the XRD peak position to the higher angle, but that the dopant (which may be lithium ion and
Title On minimal vertical singular diffusion preventing overturning (Viscosity Solutions of Differential Equations and Related Topics).. Author(s) Giga, Mi-Ho;
JAIST Repository https://dspace.jaist.ac.jp/ Title キュリー夫人の理科教室 第2報(科学コミュニケーショ ン, 第20回年次学術大会講演要旨集II)
1 の三座配位のキ レー トを生成することを見 出し, またこれ らの金属では生体内に存在す とは結合比 1: る種 々の メル カプ ト基 を有す るキ レー ト剤 の共存 において混合配位子キ
Y.Bor
[r]