単純ベイズ確率モデルの導入による天然変性蛋白質領域予測の改良

全文

(1)Vol.2010-BIO-21 No.34 2010/6/19. 情報処理学会研究報告 IPSJ SIG Technical Report. てきた．近年，構造生物学の進展により，数多くの蛋白質の立体構造が明らかとなったが，大規模な構造解析はそれと同時に，天然状態下であっても不安定で一定の構造を形成せず，. 単純ベイズ確率モデルの導入による天然変性蛋白質領域予測の改良. 変性状態をとる領域が数多くの蛋白質中に存在することも明らかにした1) ．いくつかの蛋白質が天然状態でも一定の構造を形成しないことは既に 20 年前から示唆されていたが，近年の研究により，そのような領域がその蛋白質の機能にとって重要な箇所にも存在していること. 石田貴士†1,†2 秋山. が明らかとなってきた2) ．そのため，現在ではそれらの領域は天然変性蛋白質 (Intrinsically. 泰†1. disordered protein) 領域と呼ばれ，大きな注目を集めるようになっている．天然変性蛋白質の関係する機能は，転写や翻訳，細胞シグナリングと多岐にわたるが，多くの場合その機. 天然変性蛋白質領域予測において既知構造ホモログの構造情報を直接利用する際の定式化の改良を行った．従来の手法では天然変性領域を持つホモログの sequence identity の重み付き平均を天然変性傾向として利用してきたが，本研究では単純ベイズ確率モデルを用いることにより，より正確に天然変性傾向を見積ることを試み，また，機械学習によって事前確率を見積もることで，従来に比べ高い予測精度を実現した．. 能は分子認識に関わるものである．構造を持たない領域が特異的に分子を認識することは，従来の蛋白質科学の観点からは大きな驚きであるが，現在では，天然変性蛋白質領域は，特定の相互作用相手と結合することで安定な構造へと転移し，特異的に分子認識をすることが知られている3) ．通常，天然変性蛋白質領域は立体構造解析と同様に，X 線結晶構造解析や核磁気共鳴等の実. Disordered protein region prediction based on the naive Bayes probabilistic model Takashi Ishida. †1,†2. and Yutaka Akiyama. 験により決定される．しかし，これらの実験には多くの時間的，金銭的コストが必要であり，ゲノムレベルで天然変性蛋白質領域を決定することは困難である．そのため，蛋白質のアミノ酸配列からこの天然変性蛋白質領域を予測する試みが行われてきた．現在までにア. †1. ミノ酸配列の組成から予測する手法や4) ，構造のエネルギーを見積もる手法5) など様々な手法が提案されてきたが，近年では，その予測精度から，機械学習を用いて残基単位で予測. We improved the prediction of intrinsically disordered regions in proteins by refining the use of the structural information obtained from homologs. We had previously estimated the disorder tendencies of a region from the weighted average of the sequence identities of homologs with disordered regions. In this work, we used the naive Bayse model for estimating the disorder tendencies, and achieved more accurate prediction.. 6) を行う手法が主流となっている．しかし，今までに提案された機械学習を用いた予測手法. では，予測の入力として局所的なアミノ酸配列の特徴のみが用いられており，遠距離の残基からの影響，フォールドレベルでの構造情報といったものは十分に利用されてこなかった．そのため，筆者らはそれらの大局的な情報を予測に取り込むため，予測の際に予測対象の蛋白質のホモログを既知構造データベース中から探索し，そのホモログに存在する天然変性領域の情報を利用する方法を提案した7) ．これはホモログの対応残基の天然変性傾向を，. 1. はじめに. sequence identity による重み付き平均をとって，天然変性傾向の推定とする方法で，より. 以前までは，蛋白質は，天然状態下では自発的に特定の球状の立体構造を形成し，その立. 多くの天然変性領域を持つホモログが既知構造データベース中に見つかった場合に，その領. 体構造を基盤として相互作用相手を特異的に認識することで機能を発揮するものと考えられ. 域に対応する残基について，より高い天然変性傾向を予測として返すものであった．この方法は機械学習を用いた予測と併せることで機械学習のみを用いた手法に比べ高い予測精度. †1 東京工業大学大学院情報理工学研究科 Graduate School of Information Science and Engineering, Tokyo Institute of Technology †2 東京工業大学グローバル COE「計算世界観の深化と展開」 CompView, Global COE, Tokyo Institute of Technology. を実現したが，一方で天然変性領域を持たないホモログの情報を上手く利用できていない等の問題点を含んでおり，まだ改善の余地のあるものであった．そのため，本研究ではこの既知構造ホモログの構造情報の利用を単純ベイズ確率モデルを導入することで改良し，より高. 1. c 2010 Information Processing Society of Japan.

(2) Vol.2010-BIO-21 No.34 2010/6/19. 情報処理学会研究報告 IPSJ SIG Technical Report. い予測精度を実現することを試みた．. SEQ 1qu4 1f3t 1szr 1njj 2tod 2p3e 3btn 2j66 2plk 2plj 2oo0 2on3 1hkv 1d7k 2o0t 1ko0 1knw 1hkw 2nv9 2nva 1twi 3c5q 2qgh 7odc 1tuf 2yxx. 2. データセット本研究では，PISCES サーバ8) を用いて，2010 年 3 月時点の Protein Data Bank(PDB)9) から，残基数が 50 以上，解像度 2.5 オングストローム以下，R 因子 0.25 以下，相互の配列相同性が 20%以下の X 線結晶構造のみを含むデータセットを構築し，予測器の訓練，及びテストに用いた．また，天然変性蛋白質領域の定義には PDB ファイル中の REMARK465 行に記述された欠失残基 (missing residue) を用い，それ以外の ATOM 行に原子座標が存 2) 在する残基を安定な蛋白質領域とした．また，各残基について単体時の溶媒露出表面積. (Solvent Accessible Surface Area, SASA) を DSSP プログラム12) を用いて計算し，その. 100 150 200 . ISQLERFADKAAGIARGLRLNPQVSSSSFDLADPARPFSRLGEWDVPKVERVMDRINGFMIHNNCENKDFGLFDRMLGEIEERFGALIARVDWVSLGGGI RES A. ...|..|......|.|||||------||********.........|..|....|.|||||||..........|...|..|..||......|..||||.|| 2.90 A. ...|..|......|.|||||------.|**********.......|..|......|||||||..........|...|..|..||......|..||||..| 2.00 A. ...|..|......|.|||||------..*************....|.........||||||...........|...|..|..||......|.|||||..| 2.15 A. ...|..|...|..|.|||||------.|**********.......|..|....|.|||||||..........|...|..|..||......|..|||||.| 2.45 A. ...|.........|.|||||------||********...................|||||||..........|...|..|...|......|..|||||.| 2.00 A. ...|..||........||||||****************...|...............|||||.................|...|........|||.|||| 1.99 A. ......|......|.|||||------....********.......|.......|.||||||||.........|...|..|..||......|..|||.||- 2.05 A. ...|..||.||..|||||||||....**.........--...|||............||||||.........|..||..||.........|.||||||.| 1.65 A. ......|........|||||..*****---*****.........|..||......|.|||||.......|...|..|...|............|||||.| 2.14 A. ......|........|||||..*****---****..........|..||......|.|||||.......|...|..|...|.........|..|||||.| 1.70 A. ...|..|...|..|.|||||------||.|...........|..||.........|.|||||||.|||...||...|..|..||......|..||||||| 1.90 A. ...|..|...|..|.|||||------|.**********.......|.........|.|||||..........|...|..|..||.........|||||.| 3.00 A. ......||.......|||||||.|.|...............|..|..........|.||||||...||...||..||................||||||| 2.60 A. ......|......|.|||||------|..................|.........|.|||||..........|...|..|..||.........||||..| 2.10 A. ...|..||.|.....|||||||.|.|...............|..|......|...|.||||||...||...||..|...|.............||||||| 2.33 A. |..|..||.....|||||||||..|........|||....||||.............||||||||-......|..|...|............||||.|.| 2.20 A. |..|..||.....|.|||||||..|.........||....||||....|........||||||||-.........|...|............||||.|.| 2.10 A. ......|..|.....|||||||.|.|...............||.|....|..|..||||||||..|||...||..||..|.............||||||| 2.80 A. ...|..|........|||||||.|.........------..|...|..|....|.|.||||||||.|.....|..||..|..||.........||||||| 1.95 A. ...|..|......|.|||||||.|.........------..|...|..|....|.||||||||||.|....||..||..|..||.........||||||| 1.80 A. ...|.........|||||||||.|...........|.....|..|...|......|.||||...........||..|...|............|||||.| 2.00 A. ......||.......|||||||...|.......||.....|||....|.....||||||||||||||.....|..||...|...........|||||||| 2.40 A. ......||.......|||||||...|.......||.....|||....|.....||||||||||||||.....|..||...|...........|||||||| 2.30 A. ...|..|...|..|.|||||------.|***********......|.........|||||||..........|...|..|..||.........||||..| 1.60 A. ...|..|......|||||||||.|...........|.....|..|...|......|||||||..........||..||..|...........||||||.| 2.40 A. ...............|||||||.|...........|.....|...............||||||.........|...|..|..........||||||.|.. 1.70. id. 0.192 0.192 0.192 0.192 0.190 0.187 0.186 0.185 0.182 0.182 0.182 0.182 0.181 0.179 0.178 0.177 0.177 0.173 0.171 0.171 0.170 0.170 0.170 0.169 0.168 0.166. E. 6e-40 6e-40 1e-39 5e-40 8e-39 2e-72 1e-31 1e-44 2e-35 2e-35 4e-39 3e-39 6e-52 2e-37 1e-50 1e-69 1e-69 1e-50 5e-23 2e-23 3e-67 7e-67 2e-67 4e-37 6e-66 9e-69. * 天然変性領域 - ギャップ領域 | 蛋白質コア . 非蛋白質コア. SASA が Chothia によって求められた各残基種毎の最大溶媒露出面積13) との比が 0.05 以図 1 構造アノテーションを加えたマルチプルシーケンスアラインメント Fig. 1 multiple sequence alignment with strucural anotations. 下の残基を蛋白質中心部に位置し，特に安定な構造を形成するコア残基として定義した．このセットは 5,121 の蛋白質鎖からなっており，48,921 残基の天然変性領域と 1,002,947 残基の安定な領域を含んでいる．. (2). 3. 予測手法. 得られたホモログのセット内での冗長性を除くため，ホモログ間で BLAST により配列の相同性を計算し，sequence identity が 0.9 以上のペアが存在した場合，クエ. 本研究での予測は予測対象である蛋白質のホモログを既知構造データベース中から探索. リとの配列相同性が低いものを取り除く．. し，ホモログに存在する天然変性領域にアラインされる予測対象蛋白質中の残基は，より強. (3). い天然変性傾向を持つと推定することによって行われる．これは，蛋白質ホモログ間で天然. クエリ側のギャップ領域にアラインされたホモログ側の残基を切り捨て，クエリ側にギャップの無いマルチプルシーケンスアラインメントを構築する．. 変性蛋白質領域が進化的に保存されていることに基づいている．天然変性蛋白質領域が進化. (4). 的に保存されていることは従前の研究で明らかになっており，また，その保存割合はホモロ. ホモログの立体構造から変性領域，コア領域を同定し，ホモログ中の各残基に構造情報のアノテーションを加える．. グ間の sequence identity と相関があることが明らかになっている10) ．. 3.2 従来の予測手法（重み付き平均）従来の予測手法では i 番目の残基の天然変性傾向 Di は以下の式によって上述のマルチプ. 3.1 マルチプルシーケンスアラインメントの構築. ルシーケンスアラインメントからその sequence identity による天然変性傾向の重み付き平. 実際の予測に当たっては，まず以下の手順でクエリとなる予測対象の蛋白質に対してマル. 均として計算された7) ．. ∑n. チプルシーケンスアラインメントを構築し，そこに構造情報を加えることで，図 1 のような. Di =. (1). j=1. αj I j. を利用し，ホモログを. (1) n ここで n はホモログの数であり，Ij は j 番目のホモログの sequence identity である．ま. PDB 中から探索する．その際，フォールドレベルで構造が一致するホモログのみを. た，αj は j 番目のホモログ中で，クエリの i 番目の残基にアラインされた残基が天然変性. 対象とするため，アラインメントの expectation value が 0.001 以上のもの，及びク. 領域にあれば 1，そうでなければ 0 である．. 構造情報アノテーション付のマルチプルシーケンスアラインメントを構築する．配列データベースに対する繰り返し 2 回の PDB-BLAST. 11). エリに対してのカバー率が 0.6 以下の不十分なものは除く．. 2. c 2010 Information Processing Society of Japan.

(3) Vol.2010-BIO-21 No.34 2010/6/19. 情報処理学会研究報告 IPSJ SIG Technical Report. P (H1 , H2 , . . . , Hn |dis) = P (H1 |dis)P (H2 |dis) · · · P (Hn |dis)P (dis). 3.3 単純ベイズ確率モデルによる予測単純ベイズ確率モデルは，各特徴の条件付き独立性仮定と共にベイズの定理を適用する単. (4). また，同様にエビデンスについても，. P (H1 , H2 , . . . , Hn ) = P (H1 )P (H2 ) · · · P (Hn ). 純な確率的モデルである. このモデルによる判別は，条件付独立が成立せず，クラスの出現する確率の推定に誤差がある場合でも，判別されるクラスまで誤る確率は低いことが示され. となる．. ており，単純なモデルでありながら広範囲の問題に対して良い予測性能を示すことが知られ. 結果，天然変性確率は. ている14) ．本研究ではこの単純ベイズ確率モデルを用いて，構造情報のアノテーションが. P (dis|H) = P (dis). 付加されたマルチプルシーケンスアラインメントが与えられた際の各残基の天然変性確率. n ∏ P (Hj |dis) j=1. を求めることで，天然変性蛋白質領域の予測を行う．. (5). (6). P (Hj ). ここであるクエリ蛋白質について，そのホモログに対する構造情報アノテーション付きマル. となり，ある残基が天然変性領域に存在する場合に同じ特徴を持つホモログが出現する確率. チプルシーケンスアラインメント H が与えられた時，クエリ蛋白質の i 番目の残基が天然. と，その特徴を持つホモログの出現確率から計算可能となる．. 変性領域にある確率を考える．この場合の天然変性確率は条件付き確率 P (dis|H) である. この時，H に含まれるアラインメント全域からの情報を全て利用すると，必要となるホモ. が，この条件付き確率はホモログの数が不定であり，その数が大きい場合にクラスの数が非. ログの特徴クラスの分類が膨大になり，各特徴クラスでの頻度を計算することが困難とな. 常に多くなるため，データベースから計算することが困難である．. る．そこで，本研究では残基レベルの構造情報はホモログ中でクエリの i 番目の残基にアラ. そのため，まずこの確率をベイズの定理を用いて変形し，個々のホモログを別々に書き下す．. インされる残基のもののみを利用し，特徴クラスの分類を行った．本研究で用いたホモログ. P (H|dis)P (dis) P (H) P (H1 , H2 , . . . , Hn |dis)P (dis) = P (H1 , H2 , . . . , Hn ). の特徴は以下のものである.. P (dis|H) =. (1). クエリとの間のアラインメントの sequence identity. • Sequecen identity は 0.1 刻みで別々のビンとし，10 のクラスに分類. (2) (2). クエリの i 番目の残基にアラインされた残基の状態. ここで P (dis) は天然変性領域に残基が存在する事前確率であり，P (H|dis) は尤度，P (H). • 天然変性蛋白質領域. はエビデンスである．また，P (H) は各ホモログの特徴クラスであり，n はホモログの総数. • 蛋白質コア安定領域. である．. • 非蛋白質コア安定領域. ここで尤度を条件付き確率に書き換えて分解すると，以下の様になる．. • ギャップ領域 (ホモログ側にアラインされる残基が存在しない) ここでギャップ領域を独立したクラスとして扱っているが，これは Radivojac らの研究により，天然変性蛋白質領域では配列の進化速度が他の安定な領域に比べ速く，より置換や欠. P (H1 , H2 , . . . , Hn |dis) = P (H1 |dis)P (H2 , . . . , Hn |H1 , dis). 失，挿入が起きやすいことが知られており15) ，ギャップ領域にアラインされた残基は安定領. = P (H1 |dis)P (H2 |H1 , dis)P (H3 , . . . , Hn |H1 , H2 , dis) .. .. 域にアラインされた残基に比べ，より強い天然変性傾向を持つと考えられるためである．最. (3). 終的に，全てのホモログの特徴は 40(= 10 × 4) のクラスに分類され, そして全てのクラス. この定式化では他の別のホモログの情報が与えられた場合の，あるホモログの出現確率を求. について，その出現確率と，ある残基が天然変性領域に存在する場合に出現する確率を訓練. める必要が有り，困難である．そこで，ここに条件付き独立性仮定を導入し，各ホモログの. セットから計算しておくことで，式 (6) によりホモログの構造情報アノテーション付マルチ. 特徴 Hj が他のホモログの特徴に依存せず独立である仮定とする．するとホモログの出現確. プルシーケンスアラインメントが与えられた時，各残基の天然変性確率を求めることが可能. 率は対象残基の状態のみに依存するようになり，. となる．. 3. c 2010 Information Processing Society of Japan.

(4) Vol.2010-BIO-21 No.34 2010/6/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 3.3.1 事前確率の推定. まま用いている.. 天然変性確率を求めるのに必要となる尤度とエビデンスについては，条件付き独立性仮定. また，ホモログの配列アラインメントを利用した予測手法の予測精度は既知構造データベー. を導入することで，データベースから容易に計算可能となることを示した．事前確率 P (dis). ス中にどれだけ配列相同性が高いホモログが存在するかに依存する．この性能評価ではより. も同様にデータベースから天然変性蛋白質領域の存在確率として求めることが可能である. 正確に性能を見積もるため，クエリに対してが sequence identity が 0.9 を超えるような非. が，その場合全ての蛋白質残基について事前確率の値は一定となる．この事前確率は残基種. 常に近縁のホモログについては予測の際に常に除外し，また，通常，予測を実行したい場合. 毎にその天然変性傾向に応じて異なる値を用いるなどの改良が可能であるが，本研究ではこ. には，あまり高い配列相同性を有する既知構造蛋白質が存在することは稀であることを考慮. の事前確率を局所的な配列特徴から機械学習を用いることでさらに高精度に推定すること. し，sequence identity が 0.5 以上のホモログを全て除外した場合でもテストを行った．. を試みた．事前確率の推定には，既に従前の研究で構築された教師付学習アルゴリズムで. 4.1 評価指標. あるサポートベクターマシン (Support Vector Machine, SVM) に基づいた予測システム7). 天然変性蛋白質領域の予測は 2 クラスの分類問題であるため，通常は予測精度の評価指. を用いた．これは PSI-BLAST によってクエリ配列から変換された位置特異行列 (Position. 標にテストセット中で予測が正解となった割合である Q2 予測精度が用いられる．しかし，. Specific Score Matrix, PSSM) の予測対象となる残基の周囲 27 残基分を入力として学習，. 天然変性蛋白質領域の予測ではデータセット中に天然変性蛋白質領域が 5%程度しか存在. 予測を行うものであり，0 から 1 の間に正規化された天然変性傾向が予測値として返され. しないため，Q2 予測精度を評価指標に用いた場合，全ての残基を非天然変性領域として. る．しかし，予測システムの返す値はあくまで天然変性傾向であり，天然変性確率ではな. 予測することで容易に高い予測精度が実現できてしまう．そのため，本研究では予測の評. い．そのため，Ward らの方法. 16). を用い，あらかじめ訓練セットと非冗長のテストセット. 価指標として，Q2 予測精度ではなく，各擬陽性率における感度をプロットしたものである. から予測システムの返す天然変性傾向毎に実際の天然変性領域の存在確率を計算しておき，. ROC(Receiver Operator Characteristic) カーブ17) の下の面積である AUC(Area Under. それを利用して SVM の予測結果を確率に変換し，事前確率とした．. the Curve) を用いている．この指標は０から１の間の値をとり，ランダムな予測の場合に 0.5 となり，値が 1 に近づくほど良い予測結果であることを示す．. 4. 性能評価. 4.2 実験結果. 本研究によって提案された新たな手法の予測性能を評価するため，5 フォールドの交差検. 図 2 は交差検定法により得られた予測結果を用いて描かれた ROC カーブである．新た. 定法を用いて性能評価実験を行った．比較のため同じ訓練セットを用いて従来の予測手法. に提案された単純ベイズ確率モデルに基づいた手法による予測結果は全ての擬陽性率にお. （重み付き平均）と SVM に基づく機械学習による予測器を再構築し，以下の 5 つの手法に. いて従来の手法の結果より良い予測結果を返し，AUC では 0.1 近い改善がみられた．また，. ついてその性能を評価した．. 単純ベイズ確率モデルに機械学習により推定された事前確率を用いた場合，機械学習による. (1). 単純ベイズ確率モデル+一定の事前確率 (Bayes). 予測単体に比べて特に擬陽性率の低い領域について予測精度の改善が見られ，また，AUC. (2). 単純ベイズ確率モデル+機械学習により推定された事前確率 (Bayse+SVM). でも改善が見られた．従来の重み付き平均と機械学習による予測を組み合わせた手法でも機. (3). 重み付き平均 (Ave). 械学習による予測単体に比べ AUC の改善が見られているが，その改善の度合いは単純ベイ. (4). 重み付き平均+機械学習による予測 (Ave+SVM). ズ確率モデルに機械学習により推定された事前確率を用いた場合の方が優っており，今回提. (5). 機械学習による予測 (SVM). 案した単純ベイズ確率モデル手法がより優れた手法であることが示された．. 4 番目の手法は従前の研究で既に提案された手法で，ホモログの配列アラインメントから得. 4.2.1 高い配列相同性を有する既知構造蛋白質を除いた場合. られた予測の結果と機械学習による予測結果を重み付で足し合わせることで組み合わせた. 表 2 は配列アラインメントからの予測を行う際に sequence identity が 0.5 を超えるホモ. 10). 予測法であり，個々の予測結果より，良い結果が得られることが示されている. ．ここで，. ログを全て除外し, より厳しい条件下で性能評価を行った場合の結果である．ホモログの構. 組み合わせの際の重みは今回の訓練セットに最適化せず，従来の研究で用いられた値をその. 造情報を利用した手法は，全てのホモログを利用した場合に比べその利用手法に関わらず，. 4. c 2010 Information Processing Society of Japan.

(5) Vol.2010-BIO-21 No.34 2010/6/19. 情報処理学会研究報告 IPSJ SIG Technical Report 1. なケースにおいても有用であることが示された．. 参. true positive rate. 0.8. (1) Bayes (2) Bayes+SVM (3) Ave (4) Ave+SVM (5) SVM. 0.2. Random 0 0. 0.2. 0.4 0.6 0.8 false positive rate. 1. 図 2 各予測器の ROC カーブ Fig. 2 ROC curves of each predictor 表 1 性能評価実験結果 Table 1 The resutls of evaluation tests 予測手法. AUC. (1) Bayse 0.776. (2) Bayse+SVM 0.896. (3) Ave 0.673. (4) Ave+SVM 0.885. (5) SVM 0.881. 明らかに性能の低下が見れらた．しかし，性能の低下は今回提案した単純ベイズ確率モデルを利用した手法においてより少なくなっており，また，機械学習による予測と組み合わせた場合，まだ有意にその性能を向上させており，厳しい条件下であっても十分に有用であることが示された．表 2 性能評価実験結果 (sequence identity ≥ 0.5 のホモログ無し) Table 2 The resutls of evaluation tests (without homologs with sequence identity ≥ 0.5) 予測手法. AUC. (1) Bayse 0.716. (2) Bayse+SVM 0.889. (3) Ave 0.607. (4) Ave+SVM 0.883. 文. 献. 1) Tompa P.: Intrinsically unstructured proteins., Trends Biochem. Sci., Vol.27, pp. 523–533 (2002). 2) Dunker A.K., Brown C.J., Lawson J.D., Iakoucheva L.M., Obradovic Z.: Intrinsic dis and protein function., Biochemistry, Vol.41, pp.6573–6582 (2002). 3) Dyson H.J. and Wright P.E.: Intrinsically unstructured proteins and their functions., Nat. Rev. Mol. Cell Biol. , Vol.6, pp.197–208 (2005). 4) Prilusky J., Felder C.E., Zeev-Ben-Mordehai T., Rydberg E.H., Man O., Beckmann J.S., Silman I., Sussman J.L..: FoldIndex: a simple tool to predict whether a given protein sequence is intrinsically unfolded. Bioinformatics, Vol.21, pp.3435– 3438 (2005). 5) Dosztanyi Z., Csizmok V., Tompa P., Simon I.: The Pairwise Energy Content Estimated from Amino Acid Composition Discriminates between Folded and Intrinsically Unstructured Proteins. J. Mol. Biol., Vol.347, pp.827–839 (2005). 6) He B., Wang K., Liu Y., Xue B., Uversky V.N., Dunker A.K..: Predicting intrinsic dis in proteins: an overview., Cell Res., Vol.19, pp.929–949 (2009). 7) Ishida T. and Kinoshita K.: PrDOS: prediction of dised protein regions from amino acid sequence., Nucleic Acids Res., Vol.35, pp.460–464 (2007). 8) Wang G., Dunbrack R.L. : PISCES: a protein sequence culling server., Bioinformatics, Vol.19, pp.1589–1591 (2003). 9) Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weissig H., Shindyalov I.N., Bourne P.E. : The Protein Data Bank., Nucleic Acids Res., Vol.28, pp.235–242 (2000). 10) 石田貴士, 中村周吾, 清水謙多郎: アミノ酸配列によるタンパク質 dis 領域の予測, 物性研究, Vol.86, pp.56–60 (2006). 11) Li W., Jaroszewski L., Godzik A.: Sequence clustering strategies improve remote homology recognitions while reducing search times. Protein Eng., Vol.15, pp.643– 649 (2002). 12) Kabsch W. and Sander C.: Dictionary of protein secondary structure: Pattern recognition of hydrogen-bonded and geometrical features. Biopolymers, Vol.22, pp. 2577–2637 (1983). 13) Chothia C.: The nature of the accessible and buried surfaces in proteins. J. Mol. Biol., Vol.105, pp.1–14 (1976). 14) Pedro D. and Pazzani M.: On the optimality of the simple Bayesian classifier under zero-one loss Machine Learning, Vol.29, pp.103–137 (1997). 15) Improving sequence alignments for intrinsically disordered proteins. Radivojac P.,. 0.6. 0.4. 考. (5) SVM 0.881. 5. まとめ本研究ではアミノ酸配列からの天然変性蛋白質領域の予測精度を，ホモログの構造情報を利用する際に単純ベイズ確率モデルを用いることで向上させた．その予測精度の向上は，配列相同性の高い近縁のホモログが利用可能な場合において顕著であったが，あまり配列相同性の高いホモログが利用できない場合においても十分な予測精度の向上が確認され，実用的. 5. c 2010 Information Processing Society of Japan.

(6) Vol.2010-BIO-21 No.34 2010/6/19. 情報処理学会研究報告 IPSJ SIG Technical Report. Obradovic Z., Brown C.J., Dunker A.K.: Pac Symp Biocomput., pp.589–600 (2002). 16) Ward J.J., Sodhi J.S., McGuffin L.J., Buxton B.F. and Jones D.T.: Prediction and functional analysis of native disorder in proteins from the three kingdoms of life J. Mol. Biol., Vol.337, pp.635–645 (2004). 17) Zweig M. H. and CampbellG.: Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine. Clin. Chem., Vol.39, pp.561–577 (1993).. 6. c 2010 Information Processing Society of Japan.

(7)