• 検索結果がありません。

SVM を用いたタンパク質のディスオーダー領域における機能部位の予測

N/A
N/A
Protected

Academic year: 2022

シェア "SVM を用いたタンパク質のディスオーダー領域における機能部位の予測"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)修 士 論 文 概 要 書 Summary of Master’s Thesis Date of submission: 02/01/2013 (MM/DD/YYYY) 専攻名(専門分野) 情報理工学専攻 Department. 氏 名 Name. 並列・分散 研究指導名 Research guidance アーキテクチャ研究. 学籍番号 Student ID number. 研究題目 Title. CD. 5111B026-9. 指 導 教 員 Advisor. 山名 早人. 印 Seal. SVM を用いたタンパク質のディスオーダー領域における機能部位の予測. はじめに タンパク質は単体でその役割を果たすのではなく、生体内で他の分子 と結合し、相互作用することでその役割を果たす。よって、タンパク質 間相互作用はタンパク質の機能を考える上で必要不可欠である。従来、 タンパク質は定まった立体構造を構築した領域で他分子と結合すると 考えられていたが、近年、タンパク質の結合部位がディスオーダー領域、 つまり定まった構造を取らない領域にもあることがわかって来た。こう いった他の分子との結合部位の特定は生物のメカニズムを解明する上 で重要であるが、結合部位がディスオーダー領域である場合、その領域 を特定する実験には莫大なコストと時間がかかる。よって、生化学実験 の絞り込みを可能にするディスオーダー領域における機能部位 (以下、 MoRF 領域) の予測手法が研究されている。しかし、関連研究では特徴 量の抽出方法が不完全である、信頼性の低いデータセットが使用されて いるなどの問題点がある。よって、本研究では特徴量抽出、そしてデー タセットの見直しを行った結果、関連研究と比べて 30%以上の精度向上 が見られた。 1.. 2.. 片岡 義雅. 関連研究. 2.1. MoRFpred Disfani ら[1]は SVM とアライメントによる予測結果を組み合わせる ことで MoRF 領域を予測した。SVM による予測では、アミノ酸配列か ら、ディスオーダー領域の予測結果や AAindex[2]などの特徴量を抽出 し、各アミノ酸残基が MoRF 領域である確率𝑝𝑠𝑣𝑚 を求める。そして、 𝑝𝑠𝑣𝑚 >0.5 のアミノ酸残基を MoRF 領域、それ以外のアミノ酸残基を MoRF 領域でないと予測する。アライメントによる予測では、学習用デ ータセットとテストデータセットをアライメントし,テストデータセッ ト中のアミノ酸配列ごとに,配列の類似度を表す e-value が 0.5 未満の アミノ酸配列を学習用データセットから抽出する.そして,学習用デー タセットから抽出したアミノ酸配列の MoRF 領域に対応する部位を,テ ストデータセットにおける MoRF 領域だと予測する.最後に,SVM に よる予測とアライメントによる予測の結果を組み合わせる.SVM では MoRF 領域ではないと予測され,アライメントによる予測では MoRF 領域であると予測されたアミノ酸残基において、以下の式(1)を適用する。. 𝑝=. 𝑝𝑠𝑣𝑚 + 1 2. (1). ここで,𝑝𝑠𝑣𝑚 とは SVM による予測によって得られた MoRF 領域であ る確率を表す.そして,p > 0.5 であるアミノ酸残基を,MoRF 領域で あると予測する. 2.2. 関連研究の問題点 MoRFpred では 2 つのウィンドウを用いた特徴量抽出を行っているが, ウィンドウサイズは長くても 25 である。アミノ酸配列上では離れたア ミノ酸残基でも相互作用することがあるため、ウィンドウサイズは長く 取るべきであり、25 は短すぎると思われる。また、データセットの信頼 性も問題点である。MoRFpred で使用されたデータは PDB で取得して いるが、データセット中のすべてのタンパク質が実験によって MoRF 領 域を持つと立証されたデータではなく、信頼性が疑わしいデータも存在 する。よって、提案手法ではウィンドウサイズ、特徴量、そしてデータ セットの見直しを行った。. 3. 提案手法 3.1. 提案手法概要 提案手法では、タンパク質のアミノ酸配列から特徴量を抽出し、SVM を用いた予測を行う。ここで、長いディスオーダー領域にある短いオー ダー領域が MoRF 領域である可能性が高いため、提案手法では長さのこ となる 2 つのウィンドウを用いた特徴量抽出を行う。 3.2. 特徴量 3.2.1. 特徴量の抽出 提案手法では,それぞれのアミノ酸残基から特徴量を抽出する際に, 周辺のアミノ酸残基の情報も考慮するため,スライディングウィンドウ 方式による特徴量抽出を行う.本研究ではウィンドウサイズが異なる二 つのウィンドウを設け,それぞれのウィンドウから特徴量を抽出する. 3.2.2. 提案手法で使用する特徴量  ディスオーダー領域予測の結果 本 研 究 で は 、 長 い ウ ィ ン ド ウ に お い て は Hirose ら [3] に よ る POODLE-L の結果、短いウィンドウにおいては Shimizu ら[4]による POODLE-S の結果を使用する。  タンパク質の二次構造予測結果 提案手法では PSIPRED[5]を使用した二次構造予測を行い、短いウィ ンドウ内の各アミノ酸残基がヘリックス、シート、コイルとなる確率を 特徴量として使用する。  アミノ酸の物理化学的性質 Zvelebil ら[6]は 20 種類のアミノ酸残基において、それぞれの性質を 記載した真理値表を作成した。アミノ酸残基が持ちうる性質は全部で 10 個あり、提案手法ではそれぞれのウィンドウにおける各性質の出現頻度 を特徴量とする  Kyte-Doolittle、GES の疎水性指標 疎水性指標とは、20 種類のアミノ酸残基それぞれの疎水性を表す数値 である。提案手法では Kyte-Doolittle[7]、GES[8]の疎水性指標を特徴量 として使用する。  Net Charge Net Charge は Uversky ら[9]の研究を参考にした。具体的にはリシン (K) とアルギニン (R) を+1,アスパラギン酸 (D) とグルタミン酸 (E) を-1,その他のアミノ酸を 0 と定義し,それぞれのウィンドウ中の総和 を求める。  AAindex AAindex は Kawashima ら[2]が作成した特徴量データベースである。 提案手法では 2013 年 1 月 25 日現在 544 個の特徴量が登録してある AAindex から、予測に最も関係していると思われる 18 種類の特徴量を 使用する. 3.2.3. 特徴選択 本 研究 で は CFS[10]を 使 用し た 最良 優 先探 索に よ る特 徴選 択 を 10-fold Cross Validation に よ っ て 行 う . そ し て , 10-fold Cross Validation で 4 回以上選択された特徴量を,MoRF 領域の予測に重要だ と思われる特徴量として選択する.この特徴選択を 10 回繰り返し,一 度でも選択された特徴量を,学習に使用する特徴量として選択する. 3.2.4. 学習と予測 本研究ではガウシアンカーネルに基づくサポートベクターマシン (SVM) を学習器として使用する.SVM を用いる際には,カーネル,ソ フトマージンのパラメータを決定し,SVM を最適化する必要があるた め、本研究ではグリッドサーチによってパラメータを最適化した。.

(2) 4. 評価実験 4.1. データセット 本研究では,Fukuchi ら[11]によって作成されたデータベースである IDEAL からデータを取得した.IDEAL には 2013 年 1 月 25 日現在 261 個のタンパク質データが登録されており,アミノ酸残基ごとに Order や Disorder などのタグ付けがされている.本研究では,MoRF 領域を意味 する ProS とタグ付けされたアミノ酸残基が含まれる 121 個のタンパク 質を取得し,ProS とタグ付けされたアミノ酸残基をポジティブデータ, それ以外のアミノ酸残基をネガティブデータとした.その結果,3,945 個のポジティブデータと 77,239 個のネガティブデータが得られた.本 研究では,IDEAL からデータを取得して作成したデータセットを IDEAL データセットと呼ぶ. 4.2. 10-fold Cross Validation による実験 学習を行う際はポジティブデータとネガティブデータの数を等しく する必要があるため、本実験では IDEAL データセットのポジティブデ ータセットとネガティブデータセットからそれぞれ 3,940 個のデータを ランダムサンプリングすることでデータセットを作成した。そして, 10-fold Cross Validation を行い,Accuracy,TPR,TNR,AUC の平均 値を求め,学習器の評価を行った.ここで,予測結果はデータセットに 依存している可能性があり,1 回の実験では学習器の評価を十分に検証 しているとは言えない.よって,本研究ではランダムサンプリングを 10 回行うことで 10 個のデータセットを作成し,それぞれのデータセット を使用した 10-fold Cross Validation による実験を行った.Accuracy が 高い上位 3 件までの実験結果を表 1 に示す。表 1 より、短いウィンド ウサイズを 55,長いウィンドウサイズを 101 に設定した場合の実験結 果が最も良いため,提案手法ではウィンドウサイズを 55,101 に設定す る. 表 1 10-fold Cross Validation による学習の結果 ウィンドウ. Accuracy. TPR. TNR. AUC. 55,101. 0.99023. 0.98985. 0.99061. 0.99593. 55,91. 0.99010. 0.98883. 0.99137. 0.99505. 51,71. 0.99010. 0.99086. 0.98934. 0.99600. サイズ. 4.3. 関連研究との比較 4.3.1. TEST データセットを使用した実験 関連研究との比較を行うため、MoRFpred で使用された TEST データ セットを使用し、10-fold Cross Validation による実験を行い、結果は表 2 の通りとなった。 表 2 TEST データセットを使用した場合の予測結果 手法. Accuracy. TPR. TNR. AUC. MoRFpred. 0.937. 0.254. 0.951. 0.673. 提案手法. 0.878. 0.257. 0.912. 0.618. 4.3.2. IDEAL データセットを使用した実験 MoRFpred の評価実験で使用された TEST データセットは信頼性が 疑わしいデータも存在するため、4.1 節で述べた IDEAL データセット を使用した実験を行い、提案手法と MoRFpred を比較した。ここで、 MoRFpred は配列長が 1000 以上のアミノ酸配列には使用できないため、 4.1 節で述べた 121 個のタンパク質から、配列長が 1000 以下である 103 個のタンパク質を抽出し,実験を行った.実験は 4.2 節で述べた方法で 行い、結果は表 3 のようになった。 表 3 IDEAL データセットを使用した場合の予測結果 手法. Accuracy. TPR. TNR. AUC. 提案手法. 0.985. 0.987. 0.988. 0.992. MoRFpred. 0.602. 0.789. 0.562. 0.632. 4.4. 考察 本節では、MoRFpred と提案手法の比較実験について考察する。表 2 より、すべての評価値を考慮した場合,MoRFpred が最も良い結果とな っている.しかし,TEST データセットは不均衡データセットであるた め、TEST データセットを使用した実験は予測器の性能を十分に評価し た実験とは言えない。よって、より信頼できる IDEAL データセットを 使用した実験を行い、予測器の性能を評価したところ、表 3 より、提案 手法による予測が MoRFpred を大きく上回っている。よって、4.3.2 項 より、提案手法の有用性は証明されたちと言える。 おわりに 本研究ではタンパク質のディスオーダー領域における機能部位を予 測する手法を提案した.提案手法では,関連研究の問題点として考えら れたデータセットの作成手法,そして特徴量抽出手法を見直すことで精 度の向上を図った.その結果,10-fold Cross Validation による実験では MoRF 領域とそれ以外の領域をほぼ正しく分類することができた.また, 関連研究との比較のために行った IDEAL データセットを使用した実験 では関連研究を大幅に上回る予測結果が得られた. 5.. 参考文献 [1] F. M. Disfani, W. L. Hsu, M. J. Mizianty, C. J. Oldfield, B. Xue, A. K. Dunker, V. N. Uversky and L. Kurgan, “MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding regions in proteins,” Bioinformatics, vol. 28, pp. 75-83, 2012. [2] S. Kawashima and M. Kanehisa, “AAindex: Amino Acid index database,” Nucleic Acids Research, vol. 28, no. 1, p.374, 2000. [3] S. Hirose, K. Shimizu, S. Kanai, Y. Kuroda and T. Noguchi, “POODLE-L: a two-level SVM prediction system for reliably predicting long disordered regions,” Bioinformatics, vol. 23, no. 16, pp.2046-2053, 2007. [4] K. Shimizu, S. Hirose and T. Noguchi, “POODLE-S: web application for predicting protein disoreder by using physicochemical features and reduced amino acid set of a position-specific scoring matrix,” Bioinformatics, vol. 23, no. 17, pp.2337-2338, 2007. [5] L. J. McGuffin, K. Bryson and D. T. Jones, “The PSIPRED protein structure prediction server,” Bioinformatics, vol. 16, no. 4, pp.404-405, 2000. [6] M. J. Zvelebil, G. J. Barton, W. R. Taylor and M. J. E. Sternberg, “Prediction of protein secondary structure and active sites using the alignment of homologous sequences,” Journal of Molecular Biology, vol. 195, pp.957-961, 1987. [7] J. Kyte and R. F. Doolittle, “A Simple Method for Displaying the Hydropathic Character of a Protein,” Journal of Molecular Biology, vol. 157, pp.105-132, 1982. [8] D. M. Engelman, T. A. Steitz and A. Goldman, “Identifying nonpolar transbilayer helices in amino acid sequences of membrane proteins,” Annual Review of Biophysics and Biophysical Chemistry, vol. 15, pp.321-353, 1986. [9] V. N. Uversky, J. R. Gillespie and A. L. Fink, “Why are “natively unfolded” proteins unstructured under physiologic conditions?,” Proteins, vol. 41, pp.415-427, 2000. [10] M. A. Hall, “Correlation-based feature selection for machine learning,” University of Waikato, Department of Computer Science, 1999. [11] S. Fukuchi, S. Sakamoto, Y. Nobe, S. D. Murakami, T. Amemiya, K. Hosoda, R. Koike, H. Hiroaki and M. Ota, “IDEAL: Intrinsically Disordered proteins with Extensive Annotations and Literature,” Nucleic Acids Research, vol. 40, pp.507-511, 2012..

(3)

参照

関連したドキュメント

We diagnosed this patient with neurosyphilis because his blood and CSF were both positive for RPR and TPHA. The patient received a 2-week course of penicillin G, and

BOTH SIDES OF THE CIRCLE'. The Autobiography of Christmas Humphreys. Christmas Humphreys, founder and president of the Buddhist Society, London, covers a period of

Hence, it was considered that the solvent of spiro-OMeTAD (chlorobenzene) can shift the XRD peak position to the higher angle, but that the dopant (which may be lithium ion and

Title On minimal vertical singular diffusion preventing overturning (Viscosity Solutions of Differential Equations and Related Topics).. Author(s) Giga, Mi-Ho;

JAIST Repository https://dspace.jaist.ac.jp/ Title キュリー夫人の理科教室 第2報(科学コミュニケーショ ン, 第20回年次学術大会講演要旨集II)

1 の三座配位のキ レー トを生成することを見 出し, またこれ らの金属では生体内に存在す とは結合比 1: る種 々の メル カプ ト基 を有す るキ レー ト剤 の共存 において混合配位子キ

Y.Bor

[r]