• 検索結果がありません。

タンパク質立体構造予測に関する 最新技術動向

N/A
N/A
Protected

Academic year: 2022

シェア "タンパク質立体構造予測に関する 最新技術動向"

Copied!
35
0
0

読み込み中.... (全文を見る)

全文

(1)

2004年 度 卒 業 論 文

タン パク 質 立体 構造 予 測 に 関 す る 最 新 技 術 動 向

提 出 日 : 200 5年 2月 2 日 指 導 : 山 名 早 人 助 教 授 早 稲 田 大 学 理 工 学 部 情 報 学 科

学 籍 番 号 : 1 G 00P02 0-9

栄 多 谷 政 夫

(2)

概要

タンパク質の機能が発現されるような環境下において、それぞれのタンパク質は一 意的な立体構造をとる。タンパク質の機能を解明することは、原因不明の病気の治療、

薬剤設計などに役立ち、タンパク質の立体構造と機能の関係を解明することは大変重要な 問題である。タンパク質の立体構造と機能の関係を探るために、立体構造のわかっている タンパク質を調べることで一般的な原理を導き出そうというスタイルの研究では、似た立 体構造を持つタンパク質を集め、機能に関わる共通の特徴抽出を行うのが大まかな流れと なる。そのため、アミノ酸配列からタンパク質の立体構造を正しく予測することは、タン パク質の機能解明、立体構造と機能の関係を明らかにする上で重要な位置を占めていると いえる。本論文では、タンパク質の機能を理解するにはタンパク質の立体構造が不可欠で あるという立場に立ち、タンパク質の立体構造予測について調査した。まず、一般的な立 体構造の予測手法について述べるとともに、タンパク質の立体構造予測コンテストである CASP(Critical Assessment of techniques for protein Structure Prediction)のここ最近 の結果をもとに、立体構造予測に関する技術がどう発展したのか、また予測をする上にお いての問題点について調査した。

(3)

目 次 目 次 目 次 目 次

第1章 はじめに 5

第2章 基礎知識 7

2.1 alignment………..7

2.2 multiple alignment……….. ….………7

2.3 配列相同性検索………..……..…….8

2.4 BLAST………..8

2.5 PSI-BLAST………..….………9

第3章 立体構造手法 11

3.1 Comparative modeling………11

3.2 Fold recognition………...11

3.3 New fold……….11

3.4 手法毎の比較………12

第4章 ターゲットの分類 14

4.1 タンパク質ドメイン……… 14

4.2 ドメイン境界の定義……..………..……….14

4.3 ドメイン構造の予測が困難な場合……….15

4.4 進化に基づくドメイン分類……… 15

4.4.1 CM domain………15

4.4.2 FR domain………15

4.4.3 NF domain………16

4.5 ドメイン分類のまとめ………17

第5章 フォールドから見る構造予測 18

5.1 フォールドの概念……… 18

5.1.1 フォールド………18

5.1.2 フォールドの比較法……..………18

5.1.3 フォールドの類似性……..………18

(4)

5.1.4 フォールドの分類……..………19

5.1.5 フォールドの数…………..………19

5.2 フォールド認識の技法………20

5.2.1 配列プロファイル………20

5.2.2 二次構造予測………….………20

5.2.3 構造-配列適合性関数…………..………20

5.2.4 構造アライメント…….………21

5.2.5 多重方向サーチ…………..………21

5.3 Hybrid fold recognition………21

5.3.1 手法の概要………..………21

5.3.2 SDP……….………22

5.4 まとめ………22

第6章 CASP 24

6.1 CASP……… 24

6.2 CAFASP………..……….24

6.3 CASP の結果……… 25

6.3.1 比較モデリング部門………25

6.3.2 フォールド認識部門………26

6.3.3 ニューフォールド部門………27

6.4 CAFASP の結果の考察………27

6.5 まとめ……….. .. ……….28

第7章 おわりに 30 参考文献

(5)

第 第 第

第 1 1 1 1 章 章 章 章 は じ め に は じ め に は じ め に は じ め に

近年、世界中で進められた世界中で進められているゲノム・プロジェクトにより、す でに 50 種を越える生物の塩基配列が明らかにされた。多くの場合、それぞれの遺伝子は固 有のタンパク質を構成するアミノ酸配列の情報をもつが、核酸である tRNA や rRNA となっ てタンパク質に翻訳されないものも含まれている。タンパク質は枝分かれのないアミノ酸 の鎖でできた高分子であり、その固有のアミノ酸の配列に応じ、ある定まった環境下にお いて一意的な立体構造を形成する。それぞれの遺伝子に対応するタンパク質が発現した後、

これらタンパク質が互いに相互作用し、各タンパク質のもつ機能が共同して現れたり、一 方が他方の機能を阻害したりして、生命活動が営まれている。

このように、生物情報の多くはいったんタンパク質分子の機能情報という形に変換され るが、この分子機能はタンパク質の立体構造のもとに発現するのである。残念ながら、タ ンパク質の立体構造がタンパク質の機能にどう結びついているのかに関する統一的な理解 はできていない。しかしながら、タンパク質の立体構造と機能には密接な関係があると思 われる。タンパク質の機能が明らかになれば、食品や薬剤設計など我々の生活の様々な場 面に役立つものを作ることができる。そのため、タンパク質の立体構造と機能の関係を解 明することは、生物学的にも、生化学的にも重要な課題となっている。タンパク質の立体 構造と機能を解明する上で、アミノ配列からタンパク質の立体構造を正確に予測すること は重要なファクターであり、盛んに研究がおこなわれている。今回はタンパク質の機能を 理解するにはまず、タンパク質の立体構造に関する理解が必要だと言う立場に立ち、本論 文ではタンパク質の立体構造に関する研究の最新技術動向について紹介する。

本論文は以下のように構成される。まず第 2 章では、本題であるタンパク質の立体構造 予測の説明に入る前に、タンパク質立体構造予測を理解する上で知っておきたい基礎知識 について述べる。第 3 章では、一般的なタンパク質立体構造予測法について述べる。第 4 章では、タンパク質ドメイン、予測対象のターゲットの分類について述べる。第 5 章では、

タンパク質のフォールドを取り上げ、フォールドの観点から見たタンパク質立体構造予測 について述べる。第 6 章では、タンパク質立体構造予測のコンテストであるCASPを取り

(6)

上げ、立体構造の予測手法にそれぞれどのような進展があったのか、また、予測を行う上 での障害や問題点について探る。

(7)

第 第 第

第 2 2 2 2 章 章 章 章 基 礎 知 識 基 礎 知 識 基 礎 知 識 基 礎 知 識

本章では、タンパク質立体構造の予測手法について説明する前に、立体構造予測を行う 上で必要な手法、基礎知識について簡単に説明する。

2.1 2.1 2.1

2.1 alignment alignment alignment alignment ( ( ( ( ア ラ イメ ン ト ア ラ イメ ン ト ア ラ イメ ン ト ) ア ラ イメ ン ト ) ) )

図1のようにある2つの配列を比較し、2つの配列間で配列が一致しているか、または ギャップになっているかということを"|"、"-"等の記号で表したもの。表示の仕方は、ア ライメントのファイルフォーマットによって異なる。アライメントは、BLAST[1]の結果 に表示させることができる。また、2本の配列を用いてclustalw[2]を実行した場合も、結 果として与えられるアライメントはペアワイズアライメントである。

・ギャップ

生物の進化の過程で生じたとされる、アミノ酸配列の挿入や決失を表すための”-“という 記号。

図1:配列のアライメント例

2.2 2.2 2.2

2.2 multiple alignment multiple alignment multiple alignment multiple alignment ( ( マ ル チ プ ル ア ラ イ メ ン ト ( ( マ ル チ プ ル ア ラ イ メ ン ト マ ル チ プ ル ア ラ イ メ ン ト マ ル チ プ ル ア ラ イ メ ン ト ) ) ) )

アライメントは2つの配列を比較し、配列の一致度等を調べるものであったが、図2の ようにマルチプルアライメントは複数の配列に対して適用したもので、与えられた複数の 配列に対し、一致、ギャップ等を記号で表している。マルチプルアライメントを作成する

ALTDTGLSSNER ALIDTGSATR-K

|| |||

配 列 配 列 配 列 配 列 a a a a

配 列 配 列 配 列 配 列 b b b b

・| は2つの配列間で配列が一致することを表している。

・-はギャップを表している。

(8)

代表的なプログラムに、clustalwがある。

・ clustalw[2]

まず、与えられた配列を総当たりでペアワイズに比較する。このとき、正確な整列を 行うことはしない。その結果を基にして距離行列を作成し、似ているもの同士でグル ープを作成する。さらにこの結果を用いて、順次クラスターごとにアライメントを作 成し、さらにクラスター間でアライメントを行うことによりマルチプルアライメント を完成する。

図2:マルチプルアライメントの例

2.3 2.3 2.3

2.3 配 列 相 同性 検 索 配 列 相 同性 検 索 配 列 相 同性 検 索 配 列 相 同性 検 索

配列相同性検索とは、ある配列(遺伝子配列又はアミノ酸配列)に対して、あらかじめ ユーザが指定した値以上の相同性を持つ配列群を配列データベースの中から検索する操作 を指す。配列相同性検索を行う代表的なプログラムにBLAST[1]がある。

2.4 2.4 2.4

2.4 BLAST[1] BLAST[1] BLAST[1] BLAST[1]

BLAST は、問い合わせ配列をワード(固定長の断片)に区切り、ワード単位で類似性

の見られる断片を検索し、断片を類似度が最大になるまで両方向に伸ばして局所的なアラ イメントを行い、最後にこれらを結合して最終的なアライメントを行う手法である。

BLAST は、相同な配列間ではとても短い領域ではあるものの非常に類似度の高い領域が

TDTAALTDTGLSTNER SGLLALIDTGSATR-K QQ-LAIMDTGPTTELG

・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・

配列配列配列 配列bbbb 配列 配列配列 配列aaaa

配列 配列配列 配列cccc

・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・

・ 複数の配列を並べて配列同士の一致、不一致、ギャップ等をしらべたもの をマルチプルアライメントと呼ぶ。

(9)

保存されている場合が多いという仮定を基にしている。このため、探索初期における保存 領域の同定に、ワードを基にする方法を用いている。BLAST のアルゴリズムは以下の 3 つのステップに分けられる。

・ データベースにある配列の中に、問い合わせ配列に含まれる領域と非常に類似度の高 い領域を見つける段階

問い合わせ配列を長さ k の短い断片(ワード)として区切り、スコア行列を用いて閾 値以上のスコアでマッチするワード群を求め、リストを作成する。データベース配列 の中で、リスト中のワードとギャップなしでマッチするワードを探索する。

・ 見つけた領域を拡張する段階

マッチしたワードをギャップが存在しないように、スコア値が最大になるまで両方向 に伸ばしていく。

・ 得られた領域を結合する段階

データベース全体で、一定の閾値以上のスコアを持つ HSP を求める。HSP とは、配 列間の比較の際に、両配列間のギャップを含まない類似度の高い領域のことを指す。

2.5 2.5 2.5

2.5 PSI PSI PSI PSI----BLAST[3] BLAST[3] BLAST[3] BLAST[3]

PSI-BLASTは、BLASTにギャップを取り扱えるようにしたgapped BLASTに基づい て作成されている。PSI-BLASTのアルゴリズムは以下4つのステップにて表される。

・ 1本の配列を問い合わせとしてgapped BLASTによりデータベース検索を実行するス テップ(ステップ1)

・ 検出された類似配列を用いてマルチプルアライメントを作成するステップ(ステップ 2)

・ そのアライメントから作成された、サイト特異的スコア・テーブルを用いてデータベ ース検索を行う。(ステップ3)

新規の類似配列が検出された場合はステップ2に戻り、新規の類似配列が検出されなくな るまでステップ 2、3、4 の処理を繰り返す。新規の類似配列が検出されなくなった場合、

繰り返し処理を打ち切り検索を終了する。新規の類似配列が検出されなくなった状態は、

(10)

PSI-BLAST中では「収束した(converged)」と表現される。(ステップ4)

(11)

第 第 第

第 3 3 3 3 章 章 章 章 立 体 構 造 予 測 手法 立 体 構 造 予 測 手法 立 体 構 造 予 測 手法 立 体 構 造 予 測 手法

本章では、大まかに見て3つに分類されるタンパク質立体構造の予測手法についての説 明を行う。

3.1 3.1 3.1

3.1 Comparative Comparative Comparative Comparative modeling modeling modeling modeling ( ( ( ( 比較 比較 比較 モ デ リ ン グ 比較 モ デ リ ン グ モ デ リ ン グ モ デ リ ン グ 法 法 法 ) 法 ) ) )

比較モデリング法とは、一般的に配列一致度が高い場合(目安として30%以上)に用 いられる立体構造予測手法で、具体的には配列の類似したタンパク質同士はその立体構造 も類似していることが多いため、予測対象のアミノ酸配列と構造既知のタンパク質のアミ ノ酸配列との間に高い配列一致度がある場合に、その構造既知のタンパク質の構造をテン プレートとして全体の構造を構築する手法である。

3.2 3.2 3.2

3.2 Fold r Fold r Fold r Fold recognition ecognition ecognition ecognition ( ( ( ( フ ォ ール ド フ ォ ール ド フ ォ ール ド フ ォ ール ド 認 識 法 認 識 法 認 識 法 ) 認 識 法 ) ) )

フォールド認識法とはタンパク質立体構造予測手法の一つ。フォールドとはタンパク質 の特定の折りたたみ構造のことで、アミノ酸配列が変化してもそのフォールドが保存され ていることがある。また、存在するタンパク質のフォールドは 1000 程度と、その数に限 りがあると推測されている。フォールドの数が限りあると仮定すると、ある配列のフォー ルドが既知のフォールドと類似であるかを調べることにより立体構造の予測が可能になる。

この方法がフォールド認識法。配列一致度が数%程度と低い場合にも予測ができる。

3.3 3.3 3.3

3.3 New fold New fold New fold New fold ( ( ( ( ニ ュ ー フォ ー ル ド ニ ュ ー フォ ー ル ド ニ ュ ー フォ ー ル ド ニ ュ ー フォ ー ル ド 法 法 法 法 ) ) ) )

ニューフォールド法とは、一般的に既知の立体構造と全く類似性が見られない場合に用 いられる手法で、名前の通り、全く新規のフォールドを予測する。具体的には、タンパク 質は天然状態では自由エネルギー最小の状態を取るという仮定に従い、立体構造のポテン シャルエネルギーを計算しそれを最小化する構造を探すことで構造を予測する。最近では、

タンパク質の局所的な構造のフラグメントを統計的に得られたポテンシャルを最小化する

(12)

ように組み合わせ、立体構造を予測するfragment assembly法が主流になっている。

3.4 3.4 3.4

3.4 手 法 毎 手 法 毎 の 手 法 毎 手 法 毎 の の 比 較 の 比 較 比 較 比 較

3つの手法の特徴をまとめると、表 1のようになる。比較モデリング法は配列間の相同 性が高い場合(目安として30%以上)によく用いられる。他の2つの手法と比べて配列間 の相同性が高いという重要な情報を持っているため、比較モデリング法は他の2つの手法 と比べて正解構造に近い精度の高いモデルを予測できる。フォールド認識法は配列間の相 同性が数%と低い場合、また立体構造の一部に類似性が見られる場合に用いられる。一般 的に比較モデリングよりモデルの精度は低いが、近年ではそれに匹敵するほど精度の高い モデルが提出されている。ニューフォールド法は、配列、構造ともに既知のものと全く類 似性が見られない場合に用いられる。配列、構造の情報を全く持っていないため、ゼロか ら立体構造を予測しなければいけない。研究が始まった当初は全く見当はずれのモデルを 提出することが多かった。以上のような特徴を各予測手法は持っているが、最近は立体構 造予測のターゲットであるタンパク質を、この3つの手法のどこで扱うかを定めることが 非常に難しいケースが増えている。特に比較モデリングとフォールド認識、フォールド認 識とニューフォールドの境界は、お互いの手法がそれぞれ相手の手法の長所を取り入れて いることもあって、曖昧になってきている。

表1:各立体構造予測手法のまとめ

立体構造の予測手法名 手法毎の利点、特徴

比較モデリング法

(Comparative modeling)

配列相類似度が高い場合に有効

(30%超)

フォールド認識法 (Fold recognition)

配列類似度が数%程の場合に有効 構造に類似性が見られる場合に有効

(13)

ニューフォールド法 (New fold)

配列、構造ともに全く類似性が見られ ない場合に有効

(14)

第 第 第

第 4 4 4 4 章 章 章 章 タ ー ゲ ッ ト タ ー ゲ ッ ト タ ー ゲ ッ ト タ ー ゲ ッ ト の の の の 分 類 分 類 分 類 分 類

立体構造予測のターゲットとなるタンパク質は、実際の予測に入る前に配列や既知のフ ォールドとの類似性をもとにして分類される。分類することによって、ターゲットとなる タンパク質の特性に応じて立体構造予測手法が適用される。本章では、CASP というタン パク質立体構造予測コンテスト[4](CASP については後で詳細に説明する。)の最新の結

果(CASP5)をもとにタンパク質ターゲットの分類について述べる。[5]

4.1 4.1 4.1

4.1 タ ン パ ク タ ン パ ク タ ン パ ク タ ン パ ク 質 質 質 質 ド メ イ ン ド メ イ ン ド メ イ ン ド メ イ ン

大型のタンパク質の立体構造は,いくつかの立体構造の組み合わせでできている。この 立体構造の単位をドメインと呼ぶ。一般に、ドメインは約70-100残基から成る。複数のド メインによって成立するタンパク質では、1つのドメインが固有の機能を発揮する場合が 多い。 現在判明しているだけで約 2-300 種のドメインがあり、構造が未知のタンパク質 を考慮すると、全部で約 1000 種のドメインがあると推定されている。現在では,立体構 造が分かっている多くのタンパク質のデータを基に、特定のタンパク質のドメイン構造は 1次構造(配列)から推定できる。

4.2 4.2 4.2

4.2 ド メ イ ン ド メ イ ン ド メ イ ン ド メ イ ン 境 界 境 界 境 界 境 界 の の の 定 義 の 定 義 定 義 定 義

ターゲットは既知のフォールドとの配列一致度や構造類似度に基づいて分類される。そ のような分類を行うにあたって、まずターゲットをドメインの単位にまで分解する。なぜ なら、ドメインは立体構造の最小単位と言えるからである。しかし、ターゲットが複数の ドメインを有している場合、ターゲットの分類がスムーズに行われないことがある。例え ば、2つのドメインを有するT0149というターゲットは、N末端のドメインは既知のフォ ールドと配列、構造ともに類似性が見られるにもかかわらず、C末端のドメインは既知の フォールドと配列における類似性は全く見られないという特徴をもつ。従って、正確なタ ーゲットの分類にはドメインの境界を定め、それぞれドメインごとに異なるカテゴリに属

(15)

する必要がある。境界は残基や側鎖といったパラメータによって定められる。CASP5 に おいては、全部で55のターゲットを80のそれぞれ独立したドメインに分類している。

4.3 4.3 4.3

4.3 ド メ イ ン ド メ イ ン ド メ イ ン ド メ イ ン 構 造 構 造 構 造 構 造 の の の 予 測 の 予 測 予 測 予 測 が が が が 困 難 困 難 困 難 困 難 な な な 場 合 な 場 合 場 合 場 合

ここでは、ドメイン構造の予測が難しい場合をCASP5での結果を例に挙げて見ていく。

まず1つ目に挙げられるのが、ドメインの置換が起こっている場合である。具体的には、

タンパク質鎖間においてドメインが入れ替わっている場合や、ドメイン間において二次構 造要素が入れ替わっている場合などである。2つ目に挙げられるのが、アミノ酸配列から 見て、ドメインの境界が見分けづらい場合である。この事態もドメイン間での二次構造要 素の置換や既知のフォールドの中にドメインが挿入されることによって引き起こされる。

4.4 4.4 4.4

4.4 進 化 進 化 に 進 化 進 化 に に に 基 基 基 づ く 基 づ く づ く ド メ イ ン づ く ド メ イ ン ド メ イ ン ド メ イ ン 分 類 分 類 分 類 分 類

CASP5の大きな目的として、立体構造予測が比較モデリング(Comparative modeling), フォールド認識(Fold Recognition),ニューフォールド(New Fold)の3つのカテゴリのいず れかで行われるよう、ターゲットが既知のどの構造と似ているかを定めることが挙げられ る。SCOPといったデータベースを参照し、ターゲットと既存のタンパク質との配列、構 造類似性を探ることによってターゲットと既存のタンパク質との進化的な関連性を見出す ことができる。

4.4.1 4.4.14.4.1

4.4.1 CM domain (Comparative Modeling)CM domain (Comparative Modeling)CM domain (Comparative Modeling)CM domain (Comparative Modeling)

ターゲットと既知のフォールドとの類似性を調べる場合、配列プロファイルや立体構造 データベースを参照する。特に、BLAST や PSI-BLAST など一次構造(配列)の情報に 依存した手法によって判明したドメインは、比較モデリング法で立体構造予測されるカテ ゴリに分類される。CASP5 ではターゲットの全ドメイン80 個中51 個のドメインがこの カテゴリに属している。

4.4.2 4.4.24.4.2

4.4.2 FR(H)/(A) domain (Fold Recognition)FR(H)/(A) domain (Fold Recognition)FR(H)/(A) domain (Fold Recognition)FR(H)/(A) domain (Fold Recognition)

(16)

このカテゴリに属するドメインは大きく2つに分かれており、1つは、PSI-BLAST 等 によって既知の構造の配列と相同性は示すものの、相同性が低い場合である。このFR(H) ドメインはCM ドメインと厳密な区別がつきにくく、CASP5ではCMドメインと数が一 部重複し、22個のドメインがFR(H)のカテゴリに属している。また、DaliといったPDB のデータベースから既知の構造との類似性を探し、構造類似性が見られるドメインは FR(A)のカテゴリに属する。CASP5では24個のドメインが FR(A)のカテゴリに属してい る。

4.4.3 4.4.34.4.3

4.4.3 NF domain (New Fold)NF domain (New Fold)NF domain (New Fold)NF domain (New Fold)

4.4.2で述べた手法を用いても、既知の構造と全く類似性が見られない場合、ニューフォ

ールドのカテゴリにおいて立体構造予測が行われる。CASP5では、5個のドメインがこの カテゴリに属している。

4.5 4.5 4.5

4.5 ド メ イ ン ド メ イ ン ド メ イ ン ド メ イ ン 分 類 分 類 分 類 分 類 の ま と め の ま と め の ま と め の ま と め

4.4 では CASP5 の結果を例にとって、ドメインのカテゴリ分けについて述べた。表 2

にその結果を示す。表からもわかるように、ドメインは一応3つのカテゴリに分類される ことになっているが、CMのカテゴリとFR(H)のカテゴリのようにドメインが一部重複す る、境界が曖昧なカテゴリも見受けられる。やはり、この予測手法による3つのカテゴリ 分けは便宜的なものでしかなく、あまり意味のないものと思われる。それよりも、ターゲ ットとなるドメインをデータベースと比較して、配列に特徴があるか、構造に特徴がある かといった、問題の性質に応じてカテゴリ分けを行うのが望ましいとされている。

表2 :CASP5 におけるターゲット分類

カテゴリ名 ドメイン数

CM domain

(CM=比較モデリング)

51個

(うちFR(H)と共有22個)

(17)

FR domain

(FR=フォールド認識)

46個

( FR(H)22個, FR(A)24個 ) NF domain

(NF=ニューフォールド) 5個

(18)

第 第 第

第 5 5 5 5 章 章 章 章 フ ォ ー ル ド フ ォ ー ル ド フ ォ ー ル ド フ ォ ー ル ド か ら か ら か ら か ら 見 見 見 見 る る る る 構 造 予 測 構 造 予 測 構 造 予 測 構 造 予 測

本章では、タンパク質立体構造予測において重要な情報を持っているフォールドについ て掘り下げる。また、CASP の比較モデリングやフォールド認識の部門において毎回上位 にランクされるモデルを提出している Fischerの提案したフォールド認識の手法を紹介す る。

5.1 5.1 5.1

5.1 フ ォ ー ルド フ ォ ー ルド の フ ォ ー ルド フ ォ ー ルド の の の 概 念 概 念 概 念 概 念

5.1.1 Fold 5.1.1 Fold5.1.1 Fold

5.1.1 Fold((((フォールドフォールドフォールドフォールド))))

Fold(フォールド)とは、タンパク質の主鎖の大まかな折りたたみ構造のことを指す。

フォールドという観点からタンパク質を見た場合、似たフォールドを持つタンパク質同士 は機能も似ていることがあり、生物学的に重要である。

5.1.2 5.1.2 5.1.2

5.1.2 フォールドフォールドフォールドフォールドののの比較法の比較法比較法比較法

フォールドを比較する手段として、DaliやVASTといったプログラムが提唱されてい る。これらのプログラムは大筋として、主鎖の中の Cα原子あるいは側鎖の最初の炭素原 子であるCβ原子の位置の比較を行う。そしてそれらの原子間距離を比較し、その差の、

ある対応付けを与えたときに計算できる和ができるだけ小さくなるような対応付けを探す。

5.1.3 5.1.3 5.1.3

5.1.3 フォールドフォールドフォールドフォールドののの類似性の類似性類似性類似性

・ タンパク質ファミリー

タンパク質が他の有機化合物と異なるのは、進化の産物であると同時に、アミノ酸が重合 してできた高分子化合物という側面があることである。そのため、近縁の生物種の中には 似た機能を持つタンパク質が存在し、これらに似た機能を持つタンパク質を調べるとその アミノ酸配列も似ていることがわかるこのことは、進化の過程でタンパク質はそのアミノ 酸配列を少しずつ変化させながら現在に至ったことを示している。このことから、アミノ 酸配列で類似性が見られる一群のタンパク質は進化的な類縁関係があると考えることにし て、これらをまとめてタンパク質ファミリーと呼んでいる。

(19)

・ スーパーファミリー

タンパク質全体では非常に弱い配列類似性しか見られないが、機能に関わる重要な残基 が保存され、機能も保持されているタンパク質の一群

・ スーパーフォールド

多くのタンパク質の立体構造が明らかになるにつれ、似た配列を持つタンパク質は似た フォールドをとっている、つまり同じファミリー内では同じフォールドを持っていること がわかってきた。言い換えると、フォールドは進化の過程で機能と同じように保存量とな っているようである。また、スーパーファミリーにおいても、フォールドの観点から見る と高い類似性が見られることが多くのタンパク質で明らかになってきた。また、配列や機 能において全く類似性が見られないにも関わらず、フォールドだけ類似性が見られるタン パク質も発見されている。このような、進化的関係がわからないタンパク質群でよく見ら れるフォールドをスーパーフォールドと呼ぶ。

5.1.4 5.1.45.1.4

5.1.4フォールドフォールドフォールドフォールドのののの分類分類分類分類

タンパク質ドメインに着目してそのフォールドを系統的に分類する試みはすでにいくつ かなされている。有名な分類としてはSCOP[6]、CATH[7]、FSSP[8]などがある。これら の分類は手法やポリシーが異なり、それに応じて分類の結果も変わってくる。主な違いと して、SCOPは構造に関するあらゆる知識を総動員してすべてマニュアルで行うのに対し、

FSSP[8]はコンピュータプログラムを使って自動的に行う。CATH[7]はSCOPとFSSPの 手法をバランスよく用いている。また、分類結果もタンパク質ドメインの定義の仕方、構 造の類似性と機能の類似性のどちらに重きを置くか、構造が似ているかどうかの判断を行 う閾値の取り方によって変わってくる。

5.1.5 5.1.55.1.5

5.1.5 フォールドフォールドフォールドフォールドのののの数数数数

タンパク質が水溶液中で安定性を獲得するためには、高い密度で球状に固まらなくては ならず、二次構造を作ってそれらがある程度の規則性もって固まる特性があることを

Finkelstein らが証明した。その結果からタンパク質がとりうる立体構造には限りあるこ

(20)

とが証明された。Chothia は 1990 年の時点で構造がわかっているタンパク質において、

その構造が明らかになった時点でそれが既知の構造と類似性がある割合と、既知の配列の ファミリーとスーパーファミリーの数の関係を使って、全体としてどれくらいの数のフォ ールドが存在するかを推量し、1000種類程度あると予測した。これにより、フォールドの 数に限りがあるため、フォールドを用いてタンパク質の立体構造を予測することが可能と なる。

5.2 5.2 5.2

5.2 フ ォ ー ルド フ ォ ー ルド 認 識 フ ォ ー ルド フ ォ ー ルド 認 識 認 識 認 識 の の の 技 法 の 技 法 技 法 技 法

5.2.1 5.2.1 5.2.1

5.2.1 配列配列配列配列プロファイルプロファイルプロファイルプロファイル[9][9][9][9]

配列プロファイルは問い合わせ配列を基にホモロジー検索等を行ってマルチプルアライ メントを作成し導出する。また、配列プロファイルのことを PSSM(position specific

scoring matrix)とも呼ぶ。字のごとく、サイト(残基の位置)に依存した置換行列(PAM

やBlosum)を示す。同じH(ヒスチジン)でも、類縁タンパク質でLやAに置換されて

いる部分にある Hと、H が保存されている部分にあるH では配列中の役割が異なってく るであろう。従って、前者と後者で利用する置換行列は異なるべきである。こういう点を 考慮した置換行列が配列プロファイル。

5.2.2 5.2.2 5.2.2

5.2.2 二次構造予測二次構造予測二次構造予測二次構造予測[9][9][9][9]

多くの方法では、問い合わせ配列の二次構造予測の結果を利用している。後に紹介する

Fischer の手法もこの技法を採用している。フォールドが似ているということは、二次構

造の配置もおおよそ一致することを意味している。この点を強調するために、二次構造予 測結果とデータベース側の二次構造の一致を数値化してスコアに取り込む。二次構造予測 の精度が高まっていることから有効な手法である。

5.2.3 5.2.3 5.2.3

5.2.3 構造構造構造構造----配列適合性関数配列適合性関数配列適合性関数配列適合性関数[9][9][9][9]

古典的なフォールド認識においては、フォールドレベルでタンパク質を捉えるあまり、

配列プロファイル等の配列由来の技法を極力排除していた。その代わりとして、構造と配

(21)

列の適合性を直接評価するような適合性関数(構造関数)を用いてデータベース検索を実 行していた。適合性関数とは、タンパク質の安定性を評価するエネルギー的なものを指す。

具体的にはアミノ酸間相互作用関数、水和の関数、アミノ酸の二面角の傾向を反映した関 数等である。

5.2.4 5.2.4 5.2.4

5.2.4 構造構造アライメント構造構造アライメントアライメントアライメント[9][9][9][9]

本来、配列プロファイルは配列アライメントから作成されるが、立体構造のわかってい るタンパク質があれば、構造アライメントを利用してより厚いアライメントを作成するこ と が 可 能 で あ る 。 こ の 構 造 ア ラ イ メ ン ト に 基 づ い て 作 成 し た 配 列 プ ロ フ ァ イ ル を 3D-PSSMとも呼ぶ。

5.2.5 5.2.5 5.2.5

5.2.5 多重方向多重方向多重方向多重方向サーチサーチサーチサーチ[9][9][9][9]

PSI-BLAST に代表される配列プロファイルを利用したサーチでは、問い合わせ配列の

配列プロファイルを作成して、立体構造既知のタンパク質からなる配列データベースに対 して検索をかける。一方で、配列データベースのタンパク質についてプロファイルを作成 し、問い合わせ配列との適合を評価するというサーチ法もある。この二つのサーチを実行 して結果の和を利用すると精度が上がることが経験的に知られている。

5.3 Hybrid fold recognition[10]

5.3 Hybrid fold recognition[10] 5.3 Hybrid fold recognition[10]

5.3 Hybrid fold recognition[10]

5.3.1 5.3.1 5.3.1

5.3.1 手法手法手法手法のののの概要概要概要概要

立体構造予測を行う上で、ただ単一の方法のみを用いて予測を行うよりも、複数の手法 を組合せて予測を行ったほうが高い予測精度を示すということが経験的に知られている。

ここで紹介するFischerが提唱したHybrid fold recognition という予測方法は、名前の示 すように配列情報と構造情報の2つを組合せて予測精度の向上を目指すものである。具体

的には、PSI-BLAST を主とした配列相同性検索による進化的情報と問い合わせ配列を元

に二次構造を予測し、観察される二次構造と重ね合わせるといった構造情報の2つを組合 せて予測を行っている。

(22)

5.3.2 SDP[11]

5.3.2 SDP[11]5.3.2 SDP[11]

5.3.2 SDP[11]

ここでは、Hybrid fold recognitionの中核を成すSDPのアルゴリズムについて説明す る。SDPとは配列由来の情報とグローバル・ローカルダイナミックプログラミング(動的 計画法)アルゴリズムを用いて配列と構造の適応性を計算する。計算式は以下のようにな る。

g(

g(

g( g( i, i, i, jjjj )))) = i, = = f( = f( f( i, f( i, i, i, jjjj )))) + + + + w *h( w *h( w *h( w *h( i, i, i, i, jjjj ))))

・ 関数gはiの位置にあるターゲット配列の情報とjの位置にあるフォールドに関連する。

・ 関数fはiの位置にあるターゲット配列とjの位置にあるフォールドの配列の相同性を 表している。具体的には、マルチプルアライメントや配列プロファイルによって計算 される。

・ 関数hはターゲット配列の二次構造予測の結果を利用し、iの位置にあるターゲット配 列から予測された二次構造と j の位置にあるフォールドに観察される構造との適応性 を計算する。

・ wは位置に依存した経験的な重みを表す。

5.4 5.4 5.4

5.4 ま と め ま と め ま と め ま と め

この章では、まずフォールドと呼ばれるタンパク質の主鎖の折りたたみ構造の性質、フ ォールドと立体構造予測の関わりについて説明した。フォールドの類似性に応じたグルー プに関しては、以下の表3にまとめた。フォールドの数は1000程度と限りあることから、

既知のフォールドをもとにタンパク質の立体構造全体を予測することが可能となる。次に、

フォールドを用いた立体構造予測であるフォールド認識法の中でよく使われる技法を紹介 した。それぞれの特徴について表4にまとめた。また、CASPにおいて好成績を収めてい

るFischerの提案したフォールド認識の手法について説明した。フォールド認識の技法の

中でも、紹介した Fischerの手法でも用いられている二次構造予測、配列プロファイルは 予測精度を高めるものとして現在もよく使用されている。逆に、構造-配列適合性関数はま れに素晴らしい結果を残すこともあるが、簡単な問題を間違えることも多く、現在あまり

(23)

用いられることが少ない技法である。

表3 :フォールドの類似性

グループ名 特徴

タンパク質ファミリー アミノ酸配列で類似性が見られる タンパク質の一群

スーパーファミリー 配列類似性は弱いが、機能、機能に関わる残 基が保存されているタンパク質の一群 スーパーフォールド 配列や機能に全く類似性が見られないが、

フォールドが類似したタンパク質の一群

表4 :フォールド認識の技法

技法名 内容

配列プロファイル 残基の位置に依存した置換行列

二次構造予測 問合せ配列の二次構造予測結果とデータベ ース中の二次構造を重ね合せスコア化する。

構造-配列適合性関数 アミノ酸間相互作用関数といった配列と構 造の適合性を直接評価する関数

構造アライメント 既知の立体構造と構造同士のアライメント を行う。

多重方向サーチ 配列や構造など様々なデータベースに検索 をかけ、問合せ配列との適合性を評価

(24)

第 第 第

第 6 6 6 6 章 章 章 章 CASP( CASP( Critical Assessment of te CASP( CASP( Critical Assessment of te Critical Assessment of te Critical Assessment of techniques for chniques for chniques for chniques for protein Structure Prediction

protein Structure Prediction protein Structure Prediction protein Structure Prediction ))))

本章では、タンパク質の立体構造予測コンテストであるCASPの結果を元に、タンパク 質立体構造予測の最新技術動向について説明する。

6.1 CASP[5]

6.1 CASP[5] 6.1 CASP[5]

6.1 CASP[5]

CASPとは、Critical Assessment of Structure Predictionの略で、2年に1回世界規模 で行われるタンパク質構造予測のコンテストである。1994年に第1回のCASP1が開催さ れ、昨年第6回目の CASP6 が行われた。CASP では, 立体構造が近々実験的に決定され るタンパク質のアミノ酸配列が問題としてインターネット上に掲載され、期限内に参加者 がその立体構造を予測し結果を送る。実験により決定された正解構造がすべて出た時点で, 第三者の評価によりスコアがつけられ評価が決まる。各参加グループの成績は比較モデリ ング(CM)、フォールド認識(FR)、ニューフォールド(NF)の 3 カテゴリに分けて評価され る。まず、ターゲットを構造ドメインごとにCMからNFまで, テンプレートを簡単に発 見することができた、発見するのが困難だったというテンプレート発見の難易度にしたが って、前もって 6つのレベルに分類する。核カテゴリでは, どのレベルのターゲットを使 って成績評価するかが決まっており, 割り当てられたターゲットに対する予測構造の精度 によって, それぞれのカテゴリにおける各チームの成績が決まる。

6.2 CAFASP[12]

6.2 CAFASP[12] 6.2 CAFASP[12]

6.2 CAFASP[12]

CAFASPはCritical Assessment of Fully Automated Structure Predictionの略であり、

CASP と同じ立体構造予測コンテストであるが、すべてをコンピュータのプログラムのみ で行うという点で異なっている。すなわち予測の過程において、人間の思考が入らないと いうことである。具体的には予測したい構造のアミノ酸配列をサーバーに入力すれば、そ の配列の立体構造が自動的に返ってくるという仕組みである。また、CASP は問題を出題

(25)

してから一ヶ月以上解答までの猶予があるのに対し、CAFASP では出題から48時間以内 に解答お提出しなければいけないという規則もある。これも人間の思考が予測に入らない ようにするためである。CASPと同時期に開催され、CAFASPは1998年にCAFASP1と して始まり2004年にCAFASP4が行われた。

6.3 CASP 6.3 CASP 6.3 CASP

6.3 CASP の の 結 果 の の 結 果 結 果 結 果

CASP では 問い合わせ配列と既知の立体構造の配列との類似性によって、以下の 3 つ の部門に分類されている。

6.3.1 6.3.1 6.3.1

6.3.1 比較比較モデリング比較比較モデリングモデリングモデリング部門部門部門部門[15][16][15][16][15][16][15][16]

比較モデリング部門では、問い合わせ配列と既知構造の配列と有意な類似性を示すもの が扱われる。

・CASP4におけるCM部門

CASP4 では上位8グループの結果はほぼ同じで、良いアライメントを得られたことが

好結果につながる鍵であったようだ。上位グループの行った手法はほぼ似通っており、そ の手順はまず、類縁タンパク質間で立体構造上保存されている領域を同定する。そのよう な保存領域については、主鎖の平均的構造をモデルとして使用し、非保存領域については、

例えば、二次構造予測や配列類似性解析等の結果から最も相応しいと思われる主鎖構造を 慎重に選ぶ。また、比較モデリング法の理想として、テンプレートから得られた三次元モ デルをターゲットの正しい立体構造にできるだけ近づけることが挙げられる。そのため、

分子の運動や分子の構造に基づいて三次元モデルをより正しい立体構造に近づける方法が あるが、先に挙げた8グループはその方法を取り入れていない。得られたモデルを正しい 立体構造から遠ざけてしまうと判断してのことだろう。

・CASP5におけるCM部門

CASP5での比較モデリング法に関しては、CASP4の時点で既に高水準のモデルを作る

手法が確立していたため、全く新規の手法が提案されているということはなかった。比較 モデリングでは、構造既知のタンパク質をテンプレートとして立体構造予測を行うが、そ

(26)

のテンプレートを複数用いるマルチプル・テンプレートという手法を取り入れることで、

正解構造により近い精密なモデルを作ることを可能にした。しかし、テンプレートを複数 使うということは複数のモデルが出来上がるわけで、どれが一番正しいモデルかを決め難 いという問題もある。

6.3.2 6.3.2 6.3.2

6.3.2 フォールドフォールド認識部門フォールドフォールド認識部門認識部門認識部門[17][18][17][18][17][18][17][18]

フォールド認識部門では比較モデリング部門において扱われる配列程、既知の構造と類 似性が見られないが、結果としてターゲットの立体構造フォールドが既知のフォールドと 類似しているものが扱われる。

・CASP4におけるFR部門

フォールド認識法は、既知の構造に配列をマッチさせるための、進化的情報を抽出する

手法(PSI-BLAST や隠れマルコフモデル等の配列情報に基づく手法)の進歩によって大

きく変化した。フォールド予測の際に、PSI-BLAST 単体では、他の配列情報に基づく手 法や配列-構造情報に基づく手法よりも性能が劣るという、興味深い結果がでている。フォ ールド認識法は比較モデリング法のトップグループと比べて、同じレベルまでに精度が高 まってきたが、問題点として、構造情報が配列情報に基づく手法を改善できるかどうかと いった問題がある。つまり、構造情報によって配列情報に基づく手法では見つけ出せない 離れた相同性を見つけることができるかということである。しかし、配列情報だけで良い 成果を収めているORFeusやFFASなどのサーバーの例もあり、構造情報による明らかな 改善例はないようである

・CASP5におけるFR部門

CASP5 においては、メタ・サーバーと呼ばれるコンセンサス予測法の一群が上位を占

めた事が特徴的である。この傾向は、CAFASPの評価結果にも見られる。メタ・サーバー とは、複数のサーバーから構造予測に関する情報を取り込むことで、データの絶対数を増 やし、豊富なデータを参照して構造予測を行うものである。また、Rychlewskiの構築した

3D-Jury システムは、幾つかの独自の予測法を持つサ-バ群の予測結果構造を入力とし、

それら複数の構造から中心となる構造を選択するようなシステムである。それ故、比較モ

(27)

デリング部門の項で述べたような類縁タンパク質間の平均的構造を選択するような効果も 間接的に入っていると思われる。

6.3.3 6.3.3 6.3.3

6.3.3 ニューフォールドニューフォールド部門ニューフォールドニューフォールド部門部門部門[19][19] [19][19]

比較モデリング、フォールド認識の部門で扱われる程、ターゲットの配列やフォールド が既知の立体構造と類似性を見出すことができないため、立体構造モデルを参加者自身が 独自に作らなければならないものが扱われる。

・CASP4におけるNF部門

ニューフォールド法は全く何も情報がない状態から立体構造を予測するようなものなの で、配列や構造情報をもとに予測を行う比較モデリング法やフォールド認識法と比べて良 い予測結果が出にくいとされる。CASP2の頃までは全く成果が見られなかったが、CASP2

からCASP3、CASP3からCASP4へと時間を経るにつれ、少しずつ成果が出始めてきた。

特にCASP4 ではRosetta らが大きな領域を占めるドメインの全体配置をかなりの精度で

定めるなど、すばらしい成果を収めている。

・CASP5におけるNF部門

主催者側が計算する予測モデルと実際の構造間の類似性の測り方では不都合が生じると され、評価者が実際に目で見て行う判断(主な二次構造要素の配置が合致するか)に重き が置かれた。Bakerのグル-プは上記の評価法においても、主催者側が通常行う類似性に よる評価でも単独上位を占めた。Bakerのグループが行った新規的な提案として、二次構 造の中のβ構造部分に対する評価システムを強化した。具体的には、β-ヘアピン予測を採 り入れたり、β-ストランド間での残基同士の接触をスコアに表していた。

6.4 CAFASP 6.4 CAFASP 6.4 CAFASP

6.4 CAFASP の の の の 結 果 結 果 結 果 結 果 の の の の 考察 考察 考察 考察

従来では、完全自動予測が人間(専門家)の知識を加えた予測を上回ることはなかった。

しかしながら、CAFASP2では完全自動予測サーバーによる予測精度は人間の知識が入る 予測の精度に迫りつつあり、特にフォールド認識の領域において両者の差はほとんどない ようである。計算機のみより人間の介入を許したほうが予測が上手くいくのは、人間がタ

(28)

ーゲットに関する広く多様な情報をまとめることができるからで、複数のサーバーを用い て人間のこの能力を代替しようとする試みがある。複数のサーバーを用いた予測は単一の サーバーによる予測よりも精度が高く、期待が見込まれる。

6.5 6.5 6.5

6.5 ま と め ま と め ま と め ま と め

CASP4、CASP5 それぞれについての特徴を表 5、表 6 にまとめた。全体として、比較

モデリング法に関しては大きな発展はなかったと言える。CASP3に大きな成果をあげた、

スーパーファミリーに属する配列同士など、比較的遠い相同関係を検出するソフトウェア

であるPSI-BLAST の影響が大きく、精度の高いモデルを作り出せるようになったのはこ

れに拠るところがある。しかしながら、アライメントの問題(ターゲットとテンプレート 間のアライメントの精度が悪いと結果的にモデルの出来も悪くなる。)等モデルを真に正し い構造に近づける方法の確立は難しいと言える。また、フォールド認識においてはメタ・

サーバーを用いた予測が大きな成功を収めた。ニューフォールド法に関しては、CASPが 始まった当初は見当はずれの予測ばかりであったのに対し、タンパク質の正しい全体配置 が得られる程の発展を遂げた。3つの手法全体に共通する問題としては、細部にわたって 精度が高いモデルを作ることが挙げられる。おおまかに全体的な配置はあっていても、細 かい所まで正確なモデルをつくることは難しい。また、近年の傾向として立体構造予測の カテゴリ分けが崩れてきたようである。例えば、フォールド認識法の技術が詳細な配列情 報を組み合せることによってアライメントを改善することや、また、比較モデリング法に おけるロングループモデリングは、最終的に小さなニューフォールド法の問題であるとも 言える。このように、他の手法を取り入れて、より高い精度で立体構造を予測しようとす る試みはここ数年続いていくように思われる。

(29)

表5 :CASP4 における各立体構造予測

予測部門名 予測精度 進歩点、問題点 文献 CM 部門

(比較モデリング) 高い アライメントが構造の精度を左右する。

CASP3からのPSI-BLASTの影響大。

[15]

[16]

FR 部門

(フォールド認識)

CMに やや劣る

CM部門と同じくPSI-BLASTによる影響大。

構造情報の扱いが難しい。

[17]

[18]

NF 部門(ニューフ

ォールド) 低い Rossetaらがドメインの全体配置を定める等、

三部門の中で一番大きな発展を示す。 [19]

表6 :CASP5 における各立体構造予測

予測部門名 予測精度 進歩点、問題点 文献

CM 部門

(比較モデリング) 高い CASP4から発展あまり見られず。

複数のテンプレートを基にした予測が有効

[16]

[20]

FR 部門

(フォールド認識)

CMに 匹敵

様々なサーバーのデータを集めたメタ・サーバー を用いた予測が台頭

[18]

[21]

NF 部門(ニューフ

ォールド) 低い CASP4と同じく発展大きい。

β構造部分を予測に取り入れる試みを為す。

[22]

[23]

(30)

第 第 第

第 7 7 7 7 章 章 章 章 お わ り に お わ り に お わ り に お わ り に

タンパク質がその機能を発現する環境下において、そのタンパク質は一意的な立体構造 を形成する。そのため、タンパク質の機能を推定、解明するのにタンパク質の立体構造情 報は大きな助けとなる。その考えに基づいて、現在構造ゲノミクスというプロジェクトが 進められている。その内容は、タンパク質の分子性機能を解明するために、すべてのフォ ールドを定めようという試みである。フォールドは機能に関連が深いと考えられるので、

フォールドを決定することでタンパク質の機能が推定可能になる。タンパク質を発現させ、

立体構造の情報を用いないで機能を決定しようとしても、機能に対する見当がなければ、

何から実験すればよいかの手がかりもない。タンパク質の立体構造の決定によって、機能 に関する手がかりを得ることは十分に可能である。

本論文では、まず一般的なタンパク質立体構造予測手法である比較モデリング法、フォ ールド認識法、ニューフォールド法についてそれぞれ説明を行った。特にフォールドとい う観点から立体構造予測を取り上げ、フォールドの概念に始まって、フォールドの意味、

フォールド認識の手法や、その中で使われる技法についても説明を行った。また、立体構 造予測コンテストであるCASPの最近の結果を考察し、各立体構造予測手法における進歩 した点、問題点について明らかにした。

(31)

謝 辞

本研究を行うにあたり、適切な助言やご指導を頂いた山名早人助教授に深く感謝致しま す。また、アドバイスを下さった山田真介先輩に心から感謝いたします。そして、色々と お世話になった研究室の先輩方、同輩にも御礼申し上げます。

(32)

参 考 文 献 参 考 文 献 参 考 文 献 参 考 文 献

[1] BLAST, http://www.ncbi.nlm.nih.gov/BLAST

[2] CLUSTALW analyzing system,

http://crick.genes.nig.ac.jp/homology/clustalw-e.shtml

[3] 美宅成樹, 榊佳之: 応用生命科学シリーズ 9 バイオインフォマティクス, 東京科学同 人, pp98-115 (2003)

[4] Protein Structure Prediction Center, http://predictioncenter.llnl.gov

[5] Lisa N. Kinch, Yuan Qi, Tim J. P. Hubbard, Nick V. Grishin: CASP5 target classification, Proteins, 53(Suppl 6) pp340-351 (2003)

[6] SCOP, http;//scop.mrc-lmb.cam.ac.uk/scop/index.html

[7] FSSP, http://www2.ebi.ac.uk/dali/fssp/fssp.html

[8]CATH, http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html

[9]菅原秀明: あなたにも役立つバイオインフォマティクス, 共立出版, pp77-84 (2002)

[10] Fischer D: Hybrid fold recognition: combining sequence derived properties with evolutionary information. Pac Symp Biocomput. :pp119-30 (2000)

[11] Fischer D and Eisenbarg D: Protein fold recognition using sequences-derived

(33)

predictions, Prot, Sci., 5 ;pp947-955 (1996)

[12] Fischer D: CAFASP, Proteins, 53(Suppl 6) pp503-516 (2003)

[13] Fischer D, Elofsson A, Rychlewski L, Pazos F, Valencia A, Rost B, Ortiz AR, Dunbrack RL Jr: CAFASP2 the second critical assessment of fully automated structure prediction methods, Proteins , 45(Suppl 5) pp171-183 (2001)

[14] Jack Schonbrun, William J Wedemeyer and David Baker: Protein structure prediction in 2002, Current Opinion in Structural Biology, pp348-354 (2002)

[15] Tramontano A, Leplae R, Morea V: Analysis and assessment of comparative modeling predictions in CASP4, Proteins, 45(Suppl 5) pp22-38 (2001)

[16] Tramontano A, Morea V: Assessment of homology based prediction in CASP5, Proteins,53(Suppl 6) pp352-368 (2003)

[17] M. Turcotte, S.H. Muggleton, & M.J.E. Sternberg: Automated discovery of structural signatures of protein fold and function. Journal of Molecular Biology, 306:

pp 591–605 (2001)

[18] Lisa N. Kinch, James O. Wrabl, S. Sri Krishna, Indraneel Majumdar, Ruslan I.

Sadreyev, Yuan Qi, Jimin Pei, Hua Cheng, Nick V. Grishin: CASP5 assessment of fold recognition target predictions, Proteins, 53(Suppl 6) pp395-409 (2003)

[19] Bonneau R, Tsai J, Ruczinski I, Chivian D, Rohl C, Strauss CE, Baker D: Rosetta in CASP4: progress in ab initio protein structure prediction, Proteins, 45(Suppl 5)

(34)

pp119-126 (2001)

[20 ]Venclovas C: Comaparative modeling in CASP5: Progress is evident,but alignment error remain a significant hindrance, Proteins, 53(Suppl 6) pp380-388 (2003)

[21] Marcin von Grotthuss, Jakub Pas, Lucjan Wyrwicz, Krzysztof Ginalski, Leszek Rychlewski: Application of 3D-Jury, GRDB, and Verify3D in fold recognition, Proteins,53(Suppl 6) pp418-423 (2003)

[22] Patrick Aloy, Alexander Stark, Caroline Hadley, Robert B. Russell: Predictions without templates: New folds, secondary structure, and contacts in CASP5, Proteins,53(Suppl 6) pp436-456 (2003)

[23] Philip Bradley, Dylan Chivian, Jens Meiler, Kira M.S. Misura, Carol A. Rohl, William R. Schief, William J. Wedemeyer, Ora Schueler-Furman, Paul Murphy, Jack Schonbrun, Charles E.M. Strauss, David Baker: Rosetta predictions in CASP5:

Successes, failures, and prospects for complete automation,Proteins,53(Suppl 6) pp457-468 (2003)

(35)

参照

関連したドキュメント

自閉症の人達は、「~かもしれ ない 」という予測を立てて行動 することが難しく、これから起 こる事も予測出来ず 不安で混乱

各新株予約権の目的である株式の数(以下、「付与株式数」という)は100株とします。ただし、新株予約

 右上の「ログイン」から Google アカウント でログインあるいは同じ PC であると⼆回⽬以

事業所や事業者の氏名・所在地等に変更があった場合、変更があった日から 30 日以内に書面での

セキュリティパッチ未適用の端末に対し猶予期間を宣告し、超過した際にはネットワークへの接続を自動で

また、 NO 2 の環境基準は、 「1時間値の1 日平均値が 0.04ppm から 0.06ppm までの ゾーン内又はそれ以下であること。」です

は,医師による生命に対する犯罪が問題である。医師の職責から派生する このような関係は,それ自体としては

ヒット数が 10 以上の場合は、ヒットした中からシステムがランダムに 10 問抽出して 出題します。8.