FASTA, BLAST, S-W

• 速度

• BLAST > FASTA > S-W

• 精度

• S-W > FASTA > BLAST

• FASTA,BLASTはヒューリスティック

• Heuristic:経験則に基づき、必要でないと思われる計算を省く方法。

必要なものを省いてしまう場合もあるため、その解は正解とは限らない。

• 発見的方法とも。試行錯誤により答えを探す。

• 計算機の高速化によりSmith-Watermanの利用が拡大

• プログラムはFASTAのおまけSSEARCH

• 類似度が低い場合でも検出可能

• 遠縁の遺伝子を探索できる

• 「ベイズブロックアライナー」というのもある

アラインメントの有意性の確認法

• 二つの配列の一方を乱数で変更してもう一方とアラインメントし、スコアを計算

• Zスコア

• （得られたスコア-平均スコア）／標準偏差

• ０ならランダムと変わらない

• ５以上なら有意

• P値

• ランダムと変わりない確率

• Zスコアに比べてスコアの分布を考慮できる

• P<=10^-100で厳密に一致、10^-100<P<=10^-50は対立遺伝子やSNPなどでほとんど一致、10

-50<P<=10^-10は近縁の配列で相同であることが確実、10^-5<P<=10^-1は遠縁の可能性あり、P>10

-1は有意でない

• E値

• オリジナルと同じか、それ以上のZスコアを与える配列の個数

• P値×母集団のサイズ

• E<=0.02でおそらく相同、0.02<E<=1で相同性がないとは言い切れない、E>1で一致は偶然

• 一致度(similarity)

• 45%以上なら共通もしくは類似構造を持つかも

• 25%以上なら全体的な構造が似ているかも

• 18〜25%はトワイライトゾーン（Doolittle）

• 18%以下だと何もわからない

一次構造からタンパク質の立体構造を予測する

• 分子進化の経験的知識

• 同じファミリー・スーパーファミリーに属するタンパク質に有意なホモロジーがあれば立体構造もよく似ている

• ホモロジー検索

• 立体構造データベースのアミノ酸配列に対して配列がよく似ているタンパク質を検索し、検索結果をもとに立体構造モデルを作成

• ホモロジーモデリング(homology modeling)

• 【参考】Ab initio法

• 物理の法則のみを使って立体構造予測

• 「力場」パラメータが問題

ホモロジーモデリング

• データベースを検索して有意な類似性を示すタンパク質を得る

• 各アミノ酸残基の対応をアラインメントにより確定する

• 構造上よく保存されている領域(SCR: Structurally Conserved Region)と変化の大きいそうでない領域 (SVR: Structurally Variable Region)に分ける

• SCRについてデータベースから検索されたタンパク質の構造をそのまま当てはめる。SVRについては構造ライブラリーなどから適当に決める

• 側鎖のコンフォメーションを確定する

• エネルギー最小化などにより全体構造を微調整する

ホモロジーモデリングの限界

• 配列の類似度が低い場合は予測不可能

• トワイライトゾーンの存在

• 配列の一致度が18〜25%

• 類似性があるともないとも言い切れない

• 配列の類似性がないのに似た構造を持つタンパク質の存在

• (case 1)進化的に非常に遠い関係

• (case 2)Convergent evolution

• ホモロジーが低い配列には3D-1Dを適用

3D-1D法の登場

• 「立体構造(3D)」と「配列(1D)」をアラインメント

• (1) 立体構造ライブラリ(=配列データベース)を作成

• (2) アラインメント時の評価関数を作成

• (3) アラインメント

• アミノ酸配列の類似度が低くても検出可能

起源①

• Bowie et al.,

Proteins

, 7, 257-264, 1990.

• 構造と配列を「アラインメント」

• アラインメント：類似度比較のため配列どうしや構造どうしを並べること

• ギャップを考慮

• アラインメント後にスコア(類似度)を計算

• 「構造」と「配列」といった異なるものをアラインメントする方法を提案

Bowie et al.(1990)の方法

1. アミノ酸配列を、疎水性を反映した文字列に変換

2. 構造を、タンパク質内部への埋もれ度を反映した文字列に変換

3. 文字列同士の「スコア表」を使って両者をアラインメント

• アラインメントにはDPを利用

• スコア表は関数の形で表現

起源②

• Gribskov et al.,

PNAS

, 84, 4355-4358, 1987.

• Eisenberg Group (UCLA)

• プロファイル法(Profile Method)

• 配列同士のホモロジー検索にProfileを利用

• Profileは立体構造を元に定められたスコア表

3D-1D法の登場と発展

•

Bowie et al., Science , 253, 164-170, 1991.

• スコア表に3D Profileを利用

• サイト周りの環境のみに依存する関数

•

経験的なエネルギー関数

• Sippl,

JMB

, 213, 859-883, 1990.

• ペアワイズ形式

•

Jones et al., Nature , 358, 86-89, 1992.

• Sipplの関数にDP法を適用

•

様々なスコア表が提案され現在に至る

3D-1D法の基本

1. 既知の構造データベース(PDBなど)から構造と配列の適合性関数を作成

2. 3D-1Dアラインメントを行う

• 欠損・置換の考慮が問題

• 構造を3D Profile(スコア表)に変換し、DPでアラインメント

• PAM250, BIOSUMなどを使う場合と同じなので既存のホモロジー検索プログラムを利用できる

適合性関数の作成

• 立体構造中でアミノ酸が置かれている環境を１８のクラスに分類

• 主鎖３状態

• 側鎖６状態

• 各アミノ酸が各クラスに存在する頻度を調べマトリックス(3D-1Dスコア)を定義

• 3D-1Dスコアを元に3D Profileライブラリを作成

3D-1D法の問題

• すべての構造が既知でないと予測不可能

• 立体構造解析の進展により多くの構造が既知に

• フォールドのパターンは数千

• Chothia, Nature, 357, 543-544, 1992.

• 構造ライブラリの完成は間近？

• 1D-1D(ホモロジー検索)はスーパーファミリーまで、

3D-1Dはフォールドの類似性まで検出できる

• 例外的なフォールドを無視してよいのか？

• フォールドはおおざっぱな構造にすぎず、これがわかっても機能はわからない

• 局所立体構造の精密な予測

• 相互作用予測技術の開発→ドッキング

タンパク質の構造

• 一次構造(primary structure)

• アミノ酸配列

• 二次構造(secondary structure)

• αへリックス・βシート・ターン・ループ

• 超二次構造(supersecondary structure)

• 二次構造要素の組み合わせ

• 三次構造(tertiary structure)

• 立体構造

• 四次構造(quaternary structure)

• 複数のポリペプチド鎖の立体配置

一次構造とデータベース

• 一次構造＝mRNA上のコドン配列を鋳型にしてリボソーム上で合成されたポリペプチド鎖に含まれるアミノ酸の並び

• データベースはUniProt(Universal Protein Resource)

• http://www.uniprot.org/

• Swiss-Prot(SBI), TrEMBL(EBI), PIR(Georgetown Univ.)が 2005年に統合されたもの

UniProt(http://www.uniprot.org)

• 最新リリースは2010.11.2のRelease 2010̲11

• UniProtKB/Swiss-Prot release 2010̲11

• 522,019の配列

• Annotation(注釈)は手動、reviewされる

• UniProtKB/TrEMBLE release 2010̲11

• 12,347,303の配列

• Annotationは自動、reviewなし

• オンライン検索＆ファイルダウンロード

• 様々なデータベースとcross-reference

• 遺伝子→EMBL

• 立体構造→PDB

• Wikipediaへのリンクがあるタンパク質も

立体構造のデータベース

• PDB(Protein Data Bank)

• X線結晶解析・NMRにより決定された原子の位置座標データ

• 「PDB形式」は様々なソフトウェアが対応

• Brookhaven National Laboratoryのデータベースから RCSB(Research Collaboratory for Structural

Bioinformatics)→wwPDB

• http://www.wwpdb.org/

• RCSB PDB, MSD-EBI, PDBj, BMRB

• 日本ではhttp://www.pdbj.org/

ドキュメント内 Microsoft PowerPoint pptx (ページ 38-55)