• 検索結果がありません。

FASTA, BLAST, S-W

ドキュメント内 Microsoft PowerPoint pptx (ページ 38-55)

速度

BLAST > FASTA > S-W

精度

S-W > FASTA > BLAST

FASTA,BLASTはヒューリスティック

Heuristic:経験則に基づき、必要でないと思われる計算を省く方法。

必要なものを省いてしまう場合もあるため、その解は正解とは限らな い。

発見的方法とも。試行錯誤により答えを探す。

計算機の高速化によりSmith-Watermanの利用が拡大

プログラムはFASTAのおまけSSEARCH

類似度が低い場合でも検出可能

遠縁の遺伝子を探索できる

「ベイズブロックアライナー」というのもある

アラインメントの有意性の確認法

二つの配列の一方を乱数で変更してもう一方とアラインメントし、スコアを計算

Zスコア

(得られたスコア-平均スコア)/標準偏差

0ならランダムと変わらない

5以上なら有意

P値

ランダムと変わりない確率

Zスコアに比べてスコアの分布を考慮できる

P<=10-100で厳密に一致、10-100<P<=10-50は対立遺伝子やSNPなどでほとんど一致、10

-50<P<=10-10は近縁の配列で相同であることが確実、10-5<P<=10-1は遠縁の可能性あり、P>10

-1は有意でない

E値

オリジナルと同じか、それ以上のZスコアを与える配列の個数

P値×母集団のサイズ

E<=0.02でおそらく相同、0.02<E<=1で相同性がないとは言い切れない、E>1で一致は偶然

一致度(similarity)

45%以上なら共通もしくは類似構造を持つかも

25%以上なら全体的な構造が似ているかも

18〜25%はトワイライトゾーン(Doolittle)

18%以下だと何もわからない

一次構造からタンパク質の立体構造を予 測する

分子進化の経験的知識

同じファミリー・スーパーファミリーに属するタンパク質に有意 なホモロジーがあれば立体構造もよく似ている

ホモロジー検索

立体構造データベースのアミノ酸配列に対して配列がよく似てい るタンパク質を検索し、検索結果をもとに立体構造モデルを作成

ホモロジーモデリング(homology modeling)

【参考】Ab initio法

物理の法則のみを使って立体構造予測

「力場」パラメータが問題

ホモロジーモデリング

データベースを検索して有意な類似性を示すタンパク質 を得る

各アミノ酸残基の対応をアラインメントにより確定する

構造上よく保存されている領域(SCR: Structurally  Conserved Region)と変化の大きいそうでない領域 (SVR: Structurally Variable Region)に分ける

SCRについてデータベースから検索されたタンパク質の 構造をそのまま当てはめる。SVRについては構造ライブ ラリーなどから適当に決める

側鎖のコンフォメーションを確定する

エネルギー最小化などにより全体構造を微調整する

ホモロジーモデリングの限界

配列の類似度が低い場合は予測不可能

トワイライトゾーンの存在

配列の一致度が18〜25%

類似性があるともないとも言い切れない

配列の類似性がないのに似た構造を持つタンパク質の存在

(case 1)進化的に非常に遠い関係

(case 2)Convergent evolution

ホモロジーが低い配列には3D-1Dを適用

3D-1D法の登場

「立体構造(3D)」と「配列(1D)」をアラインメント

(1) 立体構造ライブラリ(=配列データベース)を作成

(2) アラインメント時の評価関数を作成

(3) アラインメント

アミノ酸配列の類似度が低くても検出可能

起源①

Bowie et al., 

Proteins

, 7, 257-264, 1990.

構造と配列を「アラインメント」

アラインメント:類似度比較のため配列どうしや構造どうしを並 べること

ギャップを考慮

アラインメント後にスコア(類似度)を計算

「構造」と「配列」といった異なるものをアラインメントする方 法を提案

Bowie et al.(1990)の方法

1. アミノ酸配列を、疎水性を反映した文字列に変換

2. 構造を、タンパク質内部への埋もれ度を反映した文字 列に変換

3. 文字列同士の「スコア表」を使って両者をアラインメ ント

アラインメントにはDPを利用

スコア表は関数の形で表現

起源②

Gribskov et al., 

PNAS

, 84, 4355-4358, 1987.

Eisenberg Group (UCLA)

プロファイル法(Profile Method)

配列同士のホモロジー検索にProfileを利用

Profileは立体構造を元に定められたスコア表

3D-1D法の登場と発展

Bowie et al.,  Science , 253, 164-170, 1991.

スコア表に3D Profileを利用

サイト周りの環境のみに依存する関数

経験的なエネルギー関数

Sippl, 

JMB

, 213, 859-883, 1990.

ペアワイズ形式

Jones et al.,  Nature , 358, 86-89, 1992.

Sipplの関数にDP法を適用

様々なスコア表が提案され現在に至る

3D-1D法の基本

1. 既知の構造データベース(PDBなど)から構造と配列の 適合性関数を作成

2. 3D-1Dアラインメントを行う

欠損・置換の考慮が問題

構造を3D Profile(スコア表)に変換し、DPでアラインメント

PAM250, BIOSUMなどを使う場合と同じなので既存のホモロ ジー検索プログラムを利用できる

適合性関数の作成

立体構造中でアミノ酸が置かれている環境を18のクラ スに分類

主鎖3状態

側鎖6状態

各アミノ酸が各クラスに存在する頻度を調べマトリック ス(3D-1Dスコア)を定義

3D-1Dスコアを元に3D Profileライブラリを作成

3D-1D法の問題

すべての構造が既知でないと予測不可能

立体構造解析の進展により多くの構造が既知に

フォールドのパターンは数千

Chothia, Nature, 357, 543-544, 1992.

構造ライブラリの完成は間近?

1D-1D(ホモロジー検索)はスーパーファミリーまで、

3D-1Dはフォールドの類似性まで検出できる

例外的なフォールドを無視してよいのか?

フォールドはおおざっぱな構造にすぎず、これがわかっ ても機能はわからない

局所立体構造の精密な予測

相互作用予測技術の開発→ドッキング

タンパク質の構造

一次構造(primary structure)

アミノ酸配列

二次構造(secondary structure)

αへリックス・βシート・ターン・ループ

超二次構造(supersecondary structure)

二次構造要素の組み合わせ

三次構造(tertiary structure)

立体構造

四次構造(quaternary structure)

複数のポリペプチド鎖の立体配置

一次構造とデータベース

一次構造=mRNA上のコドン配列を鋳型にしてリボソー ム上で合成されたポリペプチド鎖に含まれるアミノ酸の 並び

データベースはUniProt(Universal Protein Resource)

http://www.uniprot.org/

Swiss-Prot(SBI), TrEMBL(EBI), PIR(Georgetown Univ.)が 2005年に統合されたもの

UniProt(http://www.uniprot.org)

最新リリースは2010.11.2のRelease 2010̲11

UniProtKB/Swiss-Prot release 2010̲11

522,019の配列

Annotation(注釈)は手動、reviewされる

UniProtKB/TrEMBLE release 2010̲11

12,347,303の配列

Annotationは自動、reviewなし

オンライン検索&ファイルダウンロード

様々なデータベースとcross-reference

遺伝子→EMBL

立体構造→PDB

Wikipediaへのリンクがあるタンパク質も

立体構造のデータベース

PDB(Protein Data Bank)

X線結晶解析・NMRにより決定された原子の位置座標データ

「PDB形式」は様々なソフトウェアが対応

Brookhaven National Laboratoryのデータベースから RCSB(Research Collaboratory for Structural 

Bioinformatics)→wwPDB

http://www.wwpdb.org/

RCSB PDB, MSD-EBI, PDBj, BMRB

日本ではhttp://www.pdbj.org/

ドキュメント内 Microsoft PowerPoint pptx (ページ 38-55)

関連したドキュメント