• 検索結果がありません。

生命情報学

N/A
N/A
Protected

Academic year: 2021

シェア "生命情報学"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

生命情報学 (6)

タンパク質構造解析

阿久津 達也

京都大学 化学研究所

(2)
(3)

アミノ酸とタンパク質

 アミノ酸:20種類  タンパク質:アミノ 酸の鎖(短いもの はペプチドと呼ば れる) R C H N H R N O C C C H H O ペプチド結合 アミノ酸 蛋白質 C H H N H R OH O C アミノ基 カルボシキル基 側鎖

(4)

タンパク質の種類と高次構造

タンパク質の分類

 球状タンパク質  繊維状タンパク質  膜タンパク質 

一次構造(アミノ酸配列)

二次構造

(α、β、それ以外(ループ、コイル)) 

三次構造(三次元構造、立体構造)

四次構造(複数の鎖)

(5)

タンパク質立体構造の決定

主にX線結晶解析かNMR解析による

 一般にX線解析の方が精度が高い  しかし、結晶中の構造しかわからない 

アミノ酸配列決定より困難

 半年から1年くらいかかることも珍しく無い 

既知アミノ酸配列 >> 10万

既知立体構造 < 数万

(6)

タンパク質立体構造の特徴

 基本的には鎖(ひも)状  二種類の特徴的な構造 が頻繁に現れ、立体構造 の骨格(コア)を作る  αへリックス(らせん状の部 分)  βシート(ひも状の部分が並 んだ部分) α β ループ

(7)

タンパク質立体構造の例(1)

立体構造:Cα原子の座標列で概要がわかる αへリックスとβシートが構造の骨格を形成

(8)
(9)
(10)

構造とアミノ酸の種類の関係

(球状)タンパク質

 内側:疎水性アミノ酸 外側:親水性アミノ酸 

αへリックス

 内側:疎水性 外側:親水性 

βストランド

 疎水性と親水性が交互に現れる 

ループ領域

 親水性が高い

(11)
(12)

タンパク質立体構造比較の必要性

 立体構造と機能の間には密接な関係  配列が似ていなくても構造類似のタンパク質が多 数存在  構造分類データベース  SCOP(人間が分類)  FSSP(DALIプログラムにより分類)  CATH(SSAPプログラムなどにより分類)

(13)

立体構造アラインメント

 立体構造の類似性判 定のために有用  どのように回転、平行 移動すれば、最適な残 基間の対応づけ(アラ インメント)が得られる かを計算  配列アラインメントの場 合と異なり、決定版とい うようなアルゴリズムが 無い

(14)

構造アラインメント例

ヘモグロビン

(15)

RMSD(Root Mean Square Deviation)

点(e.g., Cα原子)の対応 関係がわかっている場合 に最適な重ね合わせとな る回転・平行移動を計算  行列計算により O(n) 時 間で計算可能

p

1

p

2

p

3

p

4

q

1

q

2

q

3

q

4

T

=

n i i i T rms

T

n

Q

P

d

1 2

|

)

(

|

1

min

)

,

(

q

p

(16)

構造アラインメントプログラム

: stralign

 広くは利用されていないが、理論(計算幾何学)的 考察に基づいてアルゴリズムが設計されている 問題の定義 入力: 3次元点列: P=( p1,…, pm ), Q=(q1,…, qn),お よび、 実数δ (m ≦ n とする) 出力: 以下を満たし、かつ、長さ(アラインされる点 のペアの個数)が最大となる P,Q 間のアラインメ ント M (および、付随する平行・回転移動 T )

δ

|

(

)

|

max

) , ( pi qj M

T

p

i

q

j

(17)

stralign の基本アルゴリズム

M0← {}

for all triplets PP=(pi1,pi2,pi3) from P dofor all triplets QQ=(qj1,qj2,qj3) from Q do

Compute rigid motion TPP,QQ from PP to QQCompute alignment M between TPP,QQ(P) and Qif |M| > |M0| then M0 ← M

(18)

回転・平行移動 T

PP,QQ

の計算法

PP=(p

1

,p

2

,p

3

)

QQ=(q

1

,q

2

,q

3

)

に対するT

PP,QQ

の計算法

p1 が q1 に重なるように PP を並行移動  p1p2 と q1q2 が同一直線上 にあるように、 PP を回転 移動  PP と QQ が同一平面上あるように、PP を p1p2 を 軸として回転移動

T

PP,QQ

p

1

p

2

p

3

q

1

q

2

q

3

(19)

T(P) と Q に対するアラインメント M の計算

p

1

p

2

p

3

q

1

q

2

q

3

q

4 cδ

q

1

q

2

q

3

q

4

p

1

p

2

p

3    − ≤ =      + − − − − = otherwise 0 | ) ( | if 1 ] 1 , 1 [ ] 1 , [ ] , 1 [ max ] , [ δ c T w w j i S j i S j i S j i S j i ij ij q p

(20)

基本アルゴリズムの性能解析(1)

 補題: PP=(p1,p2,p3), QQ=(q1,q2,q3)とし、T を |T(pi) - qi| ≦δ (i=1,2,3) を満たす変換とすると、 任意の p ∈ reg(p1,p2,p3) について以下が成立 |T(p) - q| ≦ δ ならば |T PP,QQ(p) - q| ≦ 8δ } ) , ( ) , ( |, | | | | { ) , , (p1 p2 p3 x x p1 p2 p1 dist x p1p2 dist p3 p1p2 reg ≡ − ≤ − ≤

p

1

p

2

p

3 ≦δ ≦8δ

q

p

T(p)

T

PP,QQ

(p)

T

T

PP,QQ

(21)

基本アルゴリズムの性能解析(2)

 定理: δに対する最適アラインメントを MOPT とすると、 基本アルゴリズムは O(n8) 時間で、以下を満たすアラ インメント M (と変換 T)を出力する

|

|

|

|

and

8

|

)

(

|

max

OPT ) , ( pi qjM

T

p

i

q

j

δ

M

M

証明概略 MOPT に現れる P,Q の部分集合を、それぞれ、P’,Q’ とする。す ると、P’ がregの中に全部含まれるような PP⊆P’ が存在。 MOPT において、PP に対応する QQ も存在し、補題の仮定を満 たす。よって、T(P’) は Q’ と 8δ 以内でマッチするため、アル ゴリズムは |M|≧|MOPT| を満たすアラインメントを出力。 注: (かなり大きくなるが)定数倍の時間をかければ、8δ は δ に近づけることが可能

(22)

実用版 stralign

基本アルゴリズムは O(n8) 時間かかるので非実用的  ランダムサンプリング や sparse DP などを用いると O(n5) 時間 くらいに近づけることができるが、それでも非実用的  そこで、理論的な性能保証はあきらめ、実用的なアルゴリズムを 開発  PP,QQ として 長さ 10~20残基程度の連続した fragment を利 用し、TPP,QQ は rmsd の計算法により求める

全部で O(n2) ペアしか調べないので、 O(n2)×DPの計算量= O(n4)時間 。

実際には rmsd が大きいペアには DP を行わないため、より高速。

 解の精度を高めるため、「アラインメント ⇒ rmsd fitting」 を数回

繰り返す

(23)

他の構造アラインメント・アルゴリズム

数多くの構造アライメント手法が提案

 DALI(距離行列のアラインメント)  SSAP(二重DP) [Taylor & Orengo 1989]

 CE (Combinatorial Expansion) [Shindyalov & Bourne 1998]

 VAST (Vector Alignment Search Tool) [Gibrat et al. 1998]

 DP+Iterative Improvement [Gernstein & Levitt 1998]

 StrMul (二重DPを基にした多重構造アラインメント)

(24)

DALI (Alignment of Distance Matrices)  Distance Matrix のアラインメント [Holm & Sander 1993]

 Distance Matrix  (同一タンパク P 内の)残基間の距離を行列形式で表現したものP と Q の distance matrix (ただし、アラインメントされる残基のみから構成 される行列)ができるだけ類似するようなアラインメントを計算  Simulated Annealing に類似した方法を用いて、アラインメントを計算 0 3 5 8 6 0 1 5 4 5 1 0 2 7 8 5 2 0 3 6 4 7 3 0 3 G L A D V 0 5 8 1 6 0 2 5 7 8 2 0 2 2 1 5 2 0 3 6 7 2 3 0 5 G A E R V G L A - V G - A R V D E 0 5 8 6 5 0 2 7 8 2 0 2 6 7 2 0 G A E V G A E V 0 5 8 6 5 0 2 7 8 2 0 3 6 7 3 0 G A D V G A D V アラインメント

(25)
(26)

タンパク質立体構造予測

 アミノ酸配列から、タ ンパク質の立体構造 (3次元構造)をコン ピュータにより推定  実験よりは、はるか に精度が悪い  だいたいの形(fold) がわかれば良いので あれば、ある程度有 効 T C A V F G L G G V R L S V D アミノ酸配列 コンピュータ タンパク質 立体構造

(27)

立体構造予測法の分類

 物理的原理に基づく方法 (ab initio法)  エネルギー最小化、分子動力学法  ホモロジーモデリング  配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖 の配置の最適化を分子動力学法などで実行  2次構造予測  各アミノ酸がα、β、それ以外のいずれかにあるかを予測  ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用い れば80%近い予測率  格子モデル  スレッディング  予測したい配列と既知構造の間のアラインメントを計算  フラグメント・アセンブリー法  数残基から十数残基からなる複数のフラグメント候補をデータベース検索 により選択した後、分子動力学法などを用いてそれらをつなげ合わせる

(28)

二次構造予測

 アミノ酸配列中の各残基 が、α、β、それ以外のど れに属するかを予測  でたらめに推定しても、 33.3%の的中率  最も高精度なソフトを使え ば、80%~の的中率  ニューラルネット、HMM、 サポートベクタマシンなど の利用 α β それ以外 L A P I K

(29)

フォールド予測(

Fold Recognition)

 精密な3次元構造 ではなく、だいたい の形(fold)を予測  立体構造は1000 種類程度の形に分 類される、との予 測(Chotia, 1992) に基づく T C A V F G L G G V R L S V D 1000個のテンプレート構造 アミノ酸配列

(30)

タンパク質スレッディング

立体構造(テンプレート)とアミノ酸配列の間 のアラインメント

(31)

スレッディングとアラインメント

A L G F G S L Y G

A L G G V S L G

A L G F G S L Y G

(32)

スレディング法の分類

プロファイル

によるスレッディング

 動的計画法で最適解が計算可能  PSI-BLAST  3D-1D法  構造アライメント結果に基づくスレッディング 

残基間ポテンシャル

によるスレッディング

 NP困難。ただし、整数計画法などが効果的に適用可能  コンタクトポテンシャル  距離依存ポテンシャル  その他のポテンシャル

(33)

プロファイル

 アラインメントに おけるスコア行 列と類似  スレッディングの 場合、残基位置 ごとにスコア(位 置依存スコア) A C D E 残基1 残基2 残基3 残基4 3.8 1.5 -1.5 0.2 -3.5 1.3 -2.9 2.1 -0.3 3.7 2.3 -4.6 3.1 -1.3 1.2 4.2 立体構造 残基1 残基2 残基3 残基4

(34)

プロファイルによるアラインメント

 動的計画法 (DP)により最 適解を計算  スコア行列の かわりにプロ ファイルを使う AED ... アミノ酸配列: A C D E 残基1 残基2 残基4 3.8 1.5 -1.5 0.2 -3.5 1.3 -2.9 -4.1 -0.3 3.7 2.3 -4.6 3.1 -1.3 1.2 4.2 残基3 プロファイル: 123 ... AED ... アライメント 1234 ... A-ED ... 1- 23 ...AEDC ... スコア 3.8-4.1+4.2 =3.9 3.8-2.0+3.7+ 3.1=8.7 3.8-2.0-2.9+ -0.3=-1.4

(35)

3D-1Dプロファイル

 最初のversionは Eisenbergらが 1991年に提案  構造中の残基(位 置)を18種類の環 境に分類  二次構造(3種類)  内外性+極性(6 種類) E P 2 P 1 B 2 B 1 B 3 内外性 極 性 α β 主鎖 側鎖

(36)

3D-1Dプロファイル

3D-1Dスコア 3D-プロファイル E P 2 P 1 B 3 内外性 極 性 B 2 B 1 残基1 残基3 残基2 残基4 タンパク質 立体構造 A R Y W -0.66 0.18 -1.67 1.00 -0.79 -1.16 0.07 1.17 -0.91 -2.16 0.17 1.05 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ B 1 B 1 α B 1 β ・ ・ ・ ・ ・ ・ 環境クラス ア ミ ノ 酸 A R Y W -0.79 -1.16 0.07 1.17 -0.91 -2.16 0.17 1.05 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 残基1 残基2 残基3 -0.79 -1.16 0.07 1.17

(37)

その他のプロファイル

配列のマルチプルアラインメントに基づくプロファ

イル

 PSI-BLAST、HMM 

立体構造のマルチプルアラインメントに基づくプロ

ファイル作成

角度情報なども考慮したプロファイル

プロファイル vs プロファイルによるアラインメント

(38)

ポテンシャル型スコア関数を用いたスレッディング

 全体のポテン シャルエネル ギーを最小化 (Σfd(X,Y)が最 小となるような スレッディング を計算) T C A V F G L G V R L S V D アミノ酸配列 K 立体構造 d f (T, F) d

(39)

プロファイル型スコア関数と

ポテンシャル型スコア関数

 プロファイル型スコア 関数 (Eisenberg et al. 1991)  ポテンシャル型スコア 関数 (Miyazawa, Sippl, . . .) A C D E

Pos1 Pos2 Pos3 Pos4

3.8 1.5 -1.5 0.2 -3.5 1.3 -2.9 2.1 -0.3 3.7 2.3 -4.6 3.1 -1.3 1.2 4.2 d d score A L

(40)

立体構造予測におけるブレークスルー

スレッディング法

の発明(Eisenberg et al., 1991)

 構造既知の配列と類似性が無い配列の構造予測

PSI-BLAST

の開発(Altschul et al, 1997)

 プロファイルに基づくマルチプルアラインメントの繰り返

し実行によるスレッディング

David Baker による

フラグメントアセンブリ法

(1997)

(41)

フラグメント・アセンブリ法

 Univ. Washington の Baker らが開発  現時点では最強の方法とされている 方法  数残基から十数残基の断片構造(フラグメント)をプロ ファイル比較法などを用いて既知構造データベース から取得 ⇒ 各断片配列ごとにいくつかの候補を選ぶ  フラグメントをつなぎ合わせることにより全体構造を 予測。つなぎ合わせる際には分子動力学法などによ るエネルギー最適化などを行う

(42)

立体構造予測コンテスト:

CASP

 CASP (Critical Assessment of Techniques for

Protein Structure Prediction)

 ブラインドテストにより予測法を評価 ① 半年以内に立体構造が実験により決定する見込みの配 列(数十種類)をインターネット上で公開 ② 参加者は予測結果を送付 ③ 構造決定後、正解とのずれなどを評価、順位づけ  結果の公表  会議、専門学術誌(Proteins)  ホームページ  http://predictioncenter.gc.ucdavis.edu/  1994年より2年ごとに開催

(43)

まとめ

立体構造比較

 構造分類データベースが作成されている  比較のためには構造アラインメントが有用  ただし、決定版はなく様々な方法が提案されている 

立体構造予測

 正確な座標は予測できない  だいたいの形の予測であればある程度有効  二次構造予測であれば、80%~程度 

スレッディング法

 プロファイル型スコア関数  動的計画法で最適解が計算可能  ポテンシャル型スコア関数  NP困難だが整数計画法などにより最適解が計算可能

参照

関連したドキュメント

プログラムに参加したどの生徒も週末になると大

(実被害,構造物最大応答)との検討に用いられている。一般に地震動の破壊力を示す指標として,入

に転換し、残りの50~70%のヘミセルロースやリグニンなどの有用な物質が廃液になる。パ

に転換し、残りの50~70%のヘミセルロースやリグニンなどの有用な物質が廃液になる。パ

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

しかしながら,式 (8) の Courant 条件による時間増分

葛ら(2005):構造用鋼材の延性き裂発生の限界ひずみ,第 8

活性 クロマ チン構 造の存在... の複合体 がきわ