• 速度
• BLAST > FASTA > S-W
• 精度
• S-W > FASTA > BLAST
• FASTA,BLASTはヒューリスティック
• Heuristic:経験則に基づき、必要でないと思われる計算を省く方法。
必要なものを省いてしまう場合もあるため、その解は正解とは限らな い。
• 発見的方法とも。試行錯誤により答えを探す。
• 計算機の高速化によりSmith-Watermanの利用が拡大
• プログラムはFASTAのおまけSSEARCH
• 類似度が低い場合でも検出可能
• 遠縁の遺伝子を探索できる
• 「ベイズブロックアライナー」というのもある
アラインメントの有意性の確認法
• 二つの配列の一方を乱数で変更してもう一方とアラインメントし、スコアを計算
• Zスコア
• (得られたスコア-平均スコア)/標準偏差
• 0ならランダムと変わらない
• 5以上なら有意
• P値
• ランダムと変わりない確率
• Zスコアに比べてスコアの分布を考慮できる
• P<=10-100で厳密に一致、10-100<P<=10-50は対立遺伝子やSNPなどでほとんど一致、10
-50<P<=10-10は近縁の配列で相同であることが確実、10-5<P<=10-1は遠縁の可能性あり、P>10
-1は有意でない
• E値
• オリジナルと同じか、それ以上のZスコアを与える配列の個数
• P値×母集団のサイズ
• E<=0.02でおそらく相同、0.02<E<=1で相同性がないとは言い切れない、E>1で一致は偶然
• 一致度(similarity)
• 45%以上なら共通もしくは類似構造を持つかも
• 25%以上なら全体的な構造が似ているかも
• 18〜25%はトワイライトゾーン(Doolittle)
• 18%以下だと何もわからない
一次構造からタンパク質の立体構造を予 測する
• 分子進化の経験的知識
• 同じファミリー・スーパーファミリーに属するタンパク質に有意 なホモロジーがあれば立体構造もよく似ている
• ホモロジー検索
• 立体構造データベースのアミノ酸配列に対して配列がよく似てい るタンパク質を検索し、検索結果をもとに立体構造モデルを作成
• ホモロジーモデリング(homology modeling)
• 【参考】Ab initio法
• 物理の法則のみを使って立体構造予測
• 「力場」パラメータが問題
ホモロジーモデリング
• データベースを検索して有意な類似性を示すタンパク質 を得る
• 各アミノ酸残基の対応をアラインメントにより確定する
• 構造上よく保存されている領域(SCR: Structurally Conserved Region)と変化の大きいそうでない領域 (SVR: Structurally Variable Region)に分ける
• SCRについてデータベースから検索されたタンパク質の 構造をそのまま当てはめる。SVRについては構造ライブ ラリーなどから適当に決める
• 側鎖のコンフォメーションを確定する
• エネルギー最小化などにより全体構造を微調整する
ホモロジーモデリングの限界
• 配列の類似度が低い場合は予測不可能
• トワイライトゾーンの存在
• 配列の一致度が18〜25%
• 類似性があるともないとも言い切れない
• 配列の類似性がないのに似た構造を持つタンパク質の存在
• (case 1)進化的に非常に遠い関係
• (case 2)Convergent evolution
• ホモロジーが低い配列には3D-1Dを適用
3D-1D法の登場
• 「立体構造(3D)」と「配列(1D)」をアラインメント
• (1) 立体構造ライブラリ(=配列データベース)を作成
• (2) アラインメント時の評価関数を作成
• (3) アラインメント
• アミノ酸配列の類似度が低くても検出可能
起源①
• Bowie et al.,
Proteins
, 7, 257-264, 1990.• 構造と配列を「アラインメント」
• アラインメント:類似度比較のため配列どうしや構造どうしを並 べること
• ギャップを考慮
• アラインメント後にスコア(類似度)を計算
• 「構造」と「配列」といった異なるものをアラインメントする方 法を提案
Bowie et al.(1990)の方法
1. アミノ酸配列を、疎水性を反映した文字列に変換
2. 構造を、タンパク質内部への埋もれ度を反映した文字 列に変換
3. 文字列同士の「スコア表」を使って両者をアラインメ ント
• アラインメントにはDPを利用
• スコア表は関数の形で表現
起源②
• Gribskov et al.,
PNAS
, 84, 4355-4358, 1987.• Eisenberg Group (UCLA)
• プロファイル法(Profile Method)
• 配列同士のホモロジー検索にProfileを利用
• Profileは立体構造を元に定められたスコア表
3D-1D法の登場と発展
•
Bowie et al., Science , 253, 164-170, 1991.
• スコア表に3D Profileを利用
• サイト周りの環境のみに依存する関数
•
経験的なエネルギー関数
• Sippl,
JMB
, 213, 859-883, 1990.• ペアワイズ形式
•
Jones et al., Nature , 358, 86-89, 1992.
• Sipplの関数にDP法を適用
•
様々なスコア表が提案され現在に至る
3D-1D法の基本
1. 既知の構造データベース(PDBなど)から構造と配列の 適合性関数を作成
2. 3D-1Dアラインメントを行う
• 欠損・置換の考慮が問題
• 構造を3D Profile(スコア表)に変換し、DPでアラインメント
• PAM250, BIOSUMなどを使う場合と同じなので既存のホモロ ジー検索プログラムを利用できる
適合性関数の作成
• 立体構造中でアミノ酸が置かれている環境を18のクラ スに分類
• 主鎖3状態
• 側鎖6状態
• 各アミノ酸が各クラスに存在する頻度を調べマトリック ス(3D-1Dスコア)を定義
• 3D-1Dスコアを元に3D Profileライブラリを作成
3D-1D法の問題
• すべての構造が既知でないと予測不可能
• 立体構造解析の進展により多くの構造が既知に
• フォールドのパターンは数千
• Chothia, Nature, 357, 543-544, 1992.
• 構造ライブラリの完成は間近?
• 1D-1D(ホモロジー検索)はスーパーファミリーまで、
3D-1Dはフォールドの類似性まで検出できる
• 例外的なフォールドを無視してよいのか?
• フォールドはおおざっぱな構造にすぎず、これがわかっ ても機能はわからない
• 局所立体構造の精密な予測
• 相互作用予測技術の開発→ドッキング
タンパク質の構造
• 一次構造(primary structure)
• アミノ酸配列
• 二次構造(secondary structure)
• αへリックス・βシート・ターン・ループ
• 超二次構造(supersecondary structure)
• 二次構造要素の組み合わせ
• 三次構造(tertiary structure)
• 立体構造
• 四次構造(quaternary structure)
• 複数のポリペプチド鎖の立体配置
一次構造とデータベース
• 一次構造=mRNA上のコドン配列を鋳型にしてリボソー ム上で合成されたポリペプチド鎖に含まれるアミノ酸の 並び
• データベースはUniProt(Universal Protein Resource)
• http://www.uniprot.org/
• Swiss-Prot(SBI), TrEMBL(EBI), PIR(Georgetown Univ.)が 2005年に統合されたもの
UniProt(http://www.uniprot.org)
• 最新リリースは2010.11.2のRelease 2010̲11
• UniProtKB/Swiss-Prot release 2010̲11
• 522,019の配列
• Annotation(注釈)は手動、reviewされる
• UniProtKB/TrEMBLE release 2010̲11
• 12,347,303の配列
• Annotationは自動、reviewなし
• オンライン検索&ファイルダウンロード
• 様々なデータベースとcross-reference
• 遺伝子→EMBL
• 立体構造→PDB
• Wikipediaへのリンクがあるタンパク質も
立体構造のデータベース
• PDB(Protein Data Bank)
• X線結晶解析・NMRにより決定された原子の位置座標データ
• 「PDB形式」は様々なソフトウェアが対応
• Brookhaven National Laboratoryのデータベースから RCSB(Research Collaboratory for Structural
Bioinformatics)→wwPDB
• http://www.wwpdb.org/
• RCSB PDB, MSD-EBI, PDBj, BMRB
• 日本ではhttp://www.pdbj.org/