1
タンパク質立体構造の計算的研究
データベース散策、構造予測、ダイナミクス、、、構造プロテオミクス 東京大学農学生命科学研究科 アグリバイオインフォマティクス人材養成ユニット 特任助教古田 忠臣
東京大学農学生命科学研究科 アグリバイオインフォマティクス人材養成プログラム プロテオーム情報学 平成19年7月23日(月) @農学部2号館化学第一講義室2
講義の予定
プロテオームについて
HUGO、HUPO、HapMap
ゲノムを覗く
NCBI ENTREZ Genome Project
ExPASy: SwissProt
2d gel databases、3D structure databases (PDB、SMR、ModBase)、GO タンパク質立体構造データベース PDB (立体構造) タンパク3000プロジェクト、 PSI CATH、SCOP (構造分類) DBAli、CE、DALI、VAST (構造比較) SMR、ModBase (構造モデル) タンパク質立体構造予測法 ホモロジーモデリング実習(DS1.7使用) H-InvDB、GTOP (構造モデル等) フォールド認識法:FUGUE、3D-Juryなど フラグメントアセンブリ法:Robettaなど タンパク質のダイナミクス:MolMovDB、DynDom
3
プロテオームとは?
ゲノム:全遺伝子情報(DNA) ・・・転写:RNAポリメラーゼ ↓ ↑ (スプライシング含む) ・・・逆転写:逆転写酵素 トランスクリプトーム:全転写情報((m)RNA) ↓ ・・・翻訳:リボソーム、tRNA (翻訳後修飾含む) プロテオーム:全翻訳情報(タンパク質) Marc Wilkins, 1994“all proteins expressed by a genome, cell or tissue”
↓ メタボローム:全代謝産物 ↓ インタラクトーム、フェノーム、 システ オーム、フィジオーム、ファーマコゲノミクス、 ニュートリゲノミクス etc. [語尾] -ome:全ての、-ics:学問、研究
V. C. Wasinger et al., Electrophoresis 16, 1090-1094 (1995) “Progress with gene-product mapping of the Mollicutes : Mycoplasma genitalium” M. Tyers, M. Mann, Nature 422, 193-197 (2003) “From genomics to proteomics” [URL] http://www.nature.com/nature/insights/6928.html
M. Wilkins ・・・ゲノミクス(ゲノム学) シークエンシング マッピング アノテーション ・・・プロテオミクス(プロテオーム学/解析)、5本の柱 発現プロテオミクス 2次元電気泳動(等電点、分子量) 質量分析(質量電荷比) 機能プロテオミクス プロテインアレイ 蛍光タンパク標識[GFP,FRET] 酵母ツーハイブリッド[Y2H] 構造プロテオミクス X線(発現、結晶化、測定、位相決定、モデル構築) NMR(発現、測定、帰属、モデル構築) (プロテオーム)情報学 各種情報学的解析(文書のXML化など含む) 参考:HUPO (http://psidev.sourceforge.net) 臨床プロテオミクス 臨床診断 創薬 Webで顔写真を 探して下さい。
4
ヒトゲノムからヒトプロテオームへ
1990年、DOE/NHGRIの30億ドルの予算で15年の予定で「ヒトゲノム計画」開始
2001年、Venter率いるCelera Genomics社がヒトゲノム配列をScienceに発表
実は、Venterのゲノム。その中には、、、アルツハイマー遺伝子が。
2001年、国際ヒトゲノムシークエンスコンソーシアムもヒトゲノムのdraft配列を Natureに発表 参照⇒Human Genome Project Information
2003年4月14日、ヒトゲノム解読完了(13年) ・・・DNA二重らせん発見から50年 6カ国(仏米英独日中)首脳による共同宣言 (PDF) ヒトゲノム解読完了の総理への報告 (動画) 現在、数100生物種のゲノムが解読完了 2001年、ヒトプロテオーム機構(HUPO) 他、2002年、国際HapMap計画 A. Patrinos
Human Genome Project Information [URL] http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
J.C. Venter et al., Science 291, 1304-1351 (2001) “The Sequence of the Human Genome”
International Human Genome Sequencing Consortium, Nature 409, 860-921 (2001) “Initial sequencing and analysis of the human genome”
J.C. Venter
参考)
和田プロジェクト 1981~(1990年目前に打ち切り)
和田昭允は、日立の神原秀記らとDNA配列 自動高速解読を提唱
A. Wada, Nature 325, 771-772 (1987) “Automated high-speed DNA sequencing”
⇒Watsonそしてアメリカを刺激した!? Webで顔写真を 探して下さい。
5
ゲノムを覗く
NCBI ENTREZ Genome Project
( http://www.ncbi.nlm.nih.gov/sites/entrez?db=genomeprj )
どの様な生物種のゲノムが解読されているか、覗いてみま
しょう。
講義のページから以下をクリック
NCBI ENTREZ Genome Project Statisticsをクリック 1995 インフルエンザ菌(生物) 1996 出芽酵母(真核生物) 1998 線虫(多細胞生物) 2000 シロイヌナズナ(植物) 2001 ヒトゲノム概要 2003 ヒトゲノム完全解読
・WGS(Whole Genome Shotgun)法
6
ゲノムの統計
現在(Jul 17, 2007)、 原核生物(Prokaryotes)540種 真核生物(Eukaryotes)26種 合計、566種のゲノムの解読が完了 している 参考 GOLD: 609種 進行中の計画も含めると、1592種の ゲノムの情報を得ることが出来る。 参考 GOLD: 2811 genome projects
Prokaryotes(原核生物) Archaea(古細菌) Bacteria(バクテリア、細菌) Eukaryotes(真核生物)
Animals(動物) Mammals(哺乳類) Birds(鳥類) Fishes(魚類) Insects(昆虫) Flatworms(扁形動物、扁虫) Roundworms(回虫) Amphibians(両生類) Reptiles(爬虫類) Other animals(他の動物)
Plants(植物) Land plants(陸上植物) Green Algae(緑藻類)
Fungi(菌類) Ascomycetes(子嚢菌) Basidiomycetes(担子菌) Other fungi(他の菌類)
Protists(原生生物) Apicomplexans(寄生性の微胞子虫、アピコンプレクサ) Kinetoplasts(動原核、キネトプラスト) Other protists(他の原生生物) ・rRNAによる系統分類では、古細菌(原核生物)はバクテリア(原核生物)よりも、真核生物に近い。
7
ゲノムサイズ、遺伝子数、染色体数
ヒト2番染色体 = チンパンジー12番染色体+チンパンジー13番染色体 塩基対(ゲノムサイズ) 遺伝子 染色体 E. coli 大腸菌 460万 4,000 -S. cerevisiae 出芽酵母 1,200万 6,000 16 C. elegans 線虫 9,700万 14,000 6 D. melanogaster ショウジョウバエ 1億.8,000万 12,000 8 A. thaliana シロイヌナズナ 1億2,000万 25,500 10 P. troglodytes チンパンジー 30億 22000 48 H. sapiens ヒト 30億 22000 46 Protopterus ,,, 肺魚 (マツバラン、サンショウウオ) 1,000億 不明 ?? ・ショウジョウバエの遺伝子数は意外にも線虫より少なかった。・・・ゲノムサイズと遺伝子数は比例しない。 (昆虫、哺乳類など高等生物になる程、選択的スプライシングなどを有効に利用しているのかも知れません) ゲノムサイズはpg(picogram)で表現したりもします。 上記の値はおおよその数値です。さらなる解析で上下します。8
ヒト(Homo sapience)のアクチン(actin)を覗いてみる
Mammals(哺乳類)をクリック
14番目(くらい)にあるヒト(Homo sapiens - overview)をク
リック
“actin”で検索
9
見つかった10547のうち1209のヒットが示されている(すべての染色体にアク
チン関連の遺伝子等があるようです。絞り込む必要がある)
“actin”と”skeletal muscle gene”で検索
ヒトの染色体は常染色体22対と性染色体X、Y(男性のみ、父親からの情報)
22対は長いものから1番、2番、、、21と22だけ逆
21トリソミー・・・ダウン症
MTはミトコンドリアDNA(母親からの情報)
10
ヒト(Homo sapience)のアクチン(actin)を覗いてみる
今度は8件に絞り込まれました
ヒトの骨格筋(skeletal muscle)アクチン(actin)が見つかりま
した。ACTA1は1番と5番染色体(Chr.1,Chr.5)にあるようです。
Celera社のゲノムも
載っています。
11
ヒト(Homo sapience)のアクチン(actin)を覗いてみる
ACTA1がピンクで表示されている 骨格筋アクチンは1番染色体の長腕の端の方1q42.13-q42.2 にあるようです。あなたはここです。 p(=petit):短腕 q(pの逆):長腕 Orientation(O)がNegative Strand(↑) 他、Links(下記参照)から 様々な情報が得られます。 配列を見てみましょう:svをクリック12
ゲノム、トランスクリプトーム、プロテオーム
⇒ DNA、mRNA、タンパク質
黒字:DNA (gene) 配列:ATG TGC GAC ,,, 青字:mRNA (RNA) ピンク:タンパク質(CDS:CoDing Sequence) 配列:M C D ,,,The Genetic Code 一つ戻って(←)、HGNCをクリック
参考 TGA:セレノシステイン(1986) TAG:ピロリジン(2002) 配列は ま だ ま だ 続 きま す
13
HUGO Gene Nomenclature Committee (HGNC)
HUGO遺伝子命名委員会
これまで出てきたACTA1は、
HGNCが決めた“actin, alpha 1, skeletal muscle” のシンボルでした。 Accession Numbersなど居 様々なデータベースへのリ ンクになっています。 SwissProtをクリック(IDは P68133、他様々なデータベース のIDが表示されています)
14
ExPASy(Expert Protein Analysis System )
SwissProt: Protein Knowledgebase(タンパク質の知識基盤)
ExPASyのSwiss-Protサイトに飛びました。
少し下の(Entry,,Name,,References,,)Commentsまでスク
ロールして下さい。
Boeckmann B., Bairoch A., Apweiler R., Blatter M.-C., Estreicher A., Gasteiger E., Martin M.J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M.
Nucleic Acids Res. 31, 365-370 (2003).
15 機能:アクチンは全ての真核細胞で発現する様々なタイプの 細胞運動に関わる、良く保存されたタンパク質である。 サブユニット:球状アクチン(G-アクチン)の重合により、二重 らせん形の構造体フィラメント(F-アクチン)になる。 細胞内での場所:細胞質 etc. Cross-referencesに進んで下さい。
16
配列情報
構造情報
発現情報
など色々なデータベースが参照されています。その下に。
ヒトのアクチンは構造が決まっ ていないのでモデル構造(SMR、 ModBase)が載っています。 それぞれ(SMR、ModBase)の P68133を右クリック、新しい ウィンドウで開き、後ほど見る ので最小化しておいて下さい。17
GO(Gene Ontology)
・・・遺伝子産物に機能アノテーションを行う 本家: [URL] http://www.geneontology.org/ ための用語集とその用語間の関係を 定義したもの GOは、主に次の3つのオントロジーで分類しています。 biological process (生物学的プロセス) cellular component (細胞の構成要素) molecular function (分子機能) アクチンの場合、 細胞の構成要素 アクチンフィラメント ストレスファイバー 横紋筋細繊維 分子機能 ADP結合 ATP結合 ミオシン結合 細胞骨格の構造構成要素 生物学的プロセス 筋収縮 筋細繊維集合 これで、網羅的解析ならぬ、遺伝子・タンパク質の主な特徴の網羅的探索が出来る様になったと思います。18 エントリー:P62736 2D gel databaseの REPRODUCTION-2DPAGEには2次元ゲ ル電気泳動の画像(同 定されたそのタンパク 質のスポット)が登録さ れています。 エントリー:P68135 同様に、ACTS_RABITを検索して下さ い(ウサギ骨格筋アクチン)。 3D structure databaseには構造が決 定されている場合PDB (タンパク質立 体構造データベース)が載っています。 1ATNのRCSBをクリック&最小化。 以上、これまでのプロテオーム情報学 で出てきた実験情報です。
Sanchez J.-C., Appel R.D., Golaz O., Pasquali C., Ravier F., Bairoch A., Hochstrasser D.F.
Electrophoresis 16, 1131-1151 (1995)
“Inside SWISS-2DPAGE database”
ページ一番上でACTA_HUMANを検 索して下さい(ヒト大動脈平滑筋)。 ModBaseのP62736を クリックし、最小化。 後で、DBAliのところで 見ます。
19
かなり大まかな解析の流れ/まとめ
ゲノム解析:DNAシークエンシング 例) WGS法(ABI3700マルチキャピラリーシークエンサー) ↓ トランスクリプトーム解析:DNAマイクロアレイ 様々な転写情報が得られる しかし、細胞内のmRNA量とタンパク質の現存量は比例しない →プロテオーム解析の必要性 理由:転写因子はすぐに分解、コラーゲンなどは蓄積、、、 プロテオーム解析 タンパク質分離精製:2次元ゲル電気泳動法(2-DE) タンパク質同定:質量分析(MS:MALDI、ESI) 立体構造決定:X線解析、NMR解析 ⇔ 予測(ホモロジーモデリング等) フォールディング・ダイナミクス: 分子(動力学)シミュレーションなど 相互作用解析:Y2H ⇔ ドッキングシミュレーション 相互作用(部位)解析(予測)など 参考)ショットガン法 先程、最小化したSMRのウィンドウを開いてください。20
SWISS-MODEL REPOSITORY (SMR)
注釈付けされたタンパク質の比較モデリング法(SWISS-MODEL)により 構築された立体構造のデータベース(・・・少し後でモデリングを実習します) モデル情報(Model Info) X線解析で決まったPDB(2FXU: A)の配列と100%の配列一致度 モデル構造を見てみましょう 図をクリック すぐ下に、Javaでastex viewer (表示ソフト)が起動し、立体構造 が表示され、回転、拡大縮小、表 示の切り替えなど出来ます。 ウィンドウを閉じ、最小化している ModBaseのP68133をクリック Kopp J, Schwede T.Nucleic Acids Res. 32, D230-D234 (2004).
21
ModBase
比較モデリング法(MODELLER)で構築したタンパク質3次元構造のデータベース こちらも同じくtemplateと してPDB(1FXU:A) Xenopus(実はアフリカツ メガエル)のアクチンでモ デリングしています。 ウィンドウを閉じ、最小化 してあるRCSB PDB: 1atnのウィンドウを開いて ください。Ursula Pieper, Narayanan Eswar, Hannes Braberg, M.S. Madhusudhan, Fred Davis, Ashley C. Stuart, Nebojsa Mirkovic, Andrea Rossi, Marc A. Marti-Renom, Andras Fiser, Ben Webb, Daniel Greenblatt, Conrad Huang, Tom Ferrin, Andrej Sali
Nucleic Acids Res. 32, D217-D222 (2004)
22
タンパク質立体構造データベース:
PDB – Protein Data Bank
[URL] http://www.rcsb.org/pdb/
現在
(Jul/17/2007)、
44,700構造が登録さ
れている
1atnのページに戻り、下の赤い字のCATH Classificationをクリックして下さい。
H.M. Berman, et al., Nucleic Adids Res. 28, 235-242 (2000), “The Protein Data Bank”
PDB ID:4文字の英数字 ex) 1AB1
右上PDB Statistics
→Summary Table of Released Entries
23
CATH:構造分類データベース
他の有名な構造分類データベース:SCOP (バイオインフォマティクスリテラシーIの構造予測分野のページを参照) Searchのテキスト ボックスに1atnを入 力し検索。 アクチンのA chain は4つのドメインか らなるので、右図に ある様に4つに分類 されて登録されて います。24
タンパク質立体構造分類データベース:
CATH –
Class, Architecture, Topology, Homologous superfamily[URL] http://cathwww.biochem.ucl.ac.uk/latest/
→ Browse or search the classification
現在、1,084 topologies (folds) が登録されている (v3.1.0) かなり自動的に分類され るが、最後は人手 階層 C A T H S クラス、アーキテクチャー、トポロジー、ホモロガススーパーファミリー、シークエンスファミリー ex) CATH code: 1. 10. 8. 10. 1
Mainly Alpha
Orthogonal Bundle
Helicase,,,
DNA helicase RuvA subunit,,,
DNA helicase Ruv subunit,,,
Fold・・・
C.A. Orengo, et al., Structure 5, 1093-1108 (1997), “CATH – A Hierarchic Classification of Protein Domain Structures”
25
タンパク質立体構造分類データベース:
SCOP – Structural Classification of Proteins
[URL] http://scop.mrc-lmb.cam.ac.uk/scop/
→ top of the hierarchy
2005年時点での27,599PDB が75,930ドメインに分割され、
現在、約1,000(971)
のフォールドが登録
されている
(1.71) Murzinが中心となり、 人の手・目!?で分類されて いるA.G. Murzin, et al., J. Mol. Biol.. 247, 536-540 (1995),
“SCOP: a structural classification of proteins database for the investigation of sequences and structures”
階層:
クラス、フォールド、スーパーファミリー、ファミリー ex) sccs: a. 1. 1. 1
All alpha proteins. Globin-like. Globin-like. Truncated hemoglobin
All alpha All beta a/b a+b
スーパーファミリー:機能・構造的特徴から恐らく共通の進化的起源
26
構造プロテオミクス:
タンパク3000プロジェクト 2002~2006
[URL]
http://www.mext-life.jp/protein/
・・・講義ページにリンクあり ⇒研究推進体制について、研究成果概要 タンパク質の基本構造10000種のうち、3000以上のタンパク質の構造を決定する NIGMSタンパク質構造イニシアティブ、10年で10,000タンパク質構造 3億塩基対が解読され、およそ100,000タンパク質がコードされている・・・全ての構造解析は困難 同一ファミリーとしては25%程度、さらに2or3分の1に減少でき⇒基本構造10,000タンパク質 [URL] http://www.nigms.nih.gov/Initiatives/PSI/27
タンパク質立体構造比較サーバー:DBAli
Chainは1d4xAと設定されているので、Searchをクリック
配列一致度(Seq.Id.)でソートされた、類似構造が検索され
ます(構造類似性の指標RMSDが表示されています)。
P62736で開いたModBaseに戻り、Template Structure内のDBALI列の右の1d4xAをクリック
他にも、有名な構造比較サーバーとして、CE(8残基フラグメントを組み合わせる)、
DALI(類似度スコアSを最大化)、VASTなどがあります(バイオインフォマティクスリテラ
シーI参照)。配列と同じくグローバル/ローカルなアラインメントがあります。
28
ホモロジーモデリング
(比較モデリング)
「問い合わせ配列」に対して、データベースを用いて配列解 析を行い、検索された鋳型・アラインメントを基に「立体構造」 を構築することを、ホモロジーモデリング(比較モデリング)と 言います。 問い合わせ配列 配列解析 PSI-BLASTなど モデル構築 MODELLERなど 立体構造 データベース PDBなど モデルの評価 Verify3Dなど ACTA1を、SMR、ModBaseと同様にPDB:2FXU:Aを用いてモデリングしてみましょう! (2FXUはXenopusのアクチンです)29
配列を入手
Swiss-Protのページの一番下のSequence information(配 列情報)の右下の、P68133 in FASTA formatをクリック MEGA3.1が起動され配列が表示されるので<Ctrl>+Aで すべてを選択し、<Ctrl>+Cでコピー デスクトップ(もしくは「スタート」→「すべてのプログラム」)か ら、Discovery Studio 1.7を起動30
配列の入力
「File」→「New」→ 「Protein Sequence Window」 先程コピーした配列 を貼り付け 配列名(Untitled1)を 右クリックして 「Rename Sequence」を選択し、 「ACTA1」に変更31
PSI-BLAST検索
Protocols内Sequence Analysisの左の+をクリッ
クし、PSI-BLAST Searchをダブルクリック
右下のPSI-BLAST設定ウィンドウの内容を以下に変更
Input Sequence (デフォルトで) Sequence:ACTA1
Input Database PDB_nr95 → PDB E-Value Cutoff 10 → 0.001 Maximum Hits 250 → 100 以上設定ができたら、左上の緑の三角をクリックして実行 Protocolsが ない場合、 View →Explorers →Protocols にチェックを 入れ表示して 下さい。
32
アラインメントの表示
30秒程で終了する。
左下のJobsから今実行した
PSI-BLAST,,,をダブルクリック
Output Files内の Sequence-ACTA1.xmlをクリック
下のTable Viewタブをクリック
52番目くらいのAccession:
2FXU_Aを右クリックし、 「Load Sequence and
Alignment」をクリックしアライ ンメントを表示 より良いモデリングには、 多数のTemplatesを選択し、 マルチプルアラインメントを行うなど アラインメントの改良を行います。
33
構造のダウンロードと
配列と構造のリンク
先ほどのBlast Window(左)に戻り、 同様に右クリック、Load Selected Structures選択で構造をダウンロード Sequence Windowのpdb|2FXU|Aを
選択し、Rename Sequenceで2FXU
に変更
「Sequence」メニュー→「Link
Sequence and Structure」を選択し、 「Link」をクリック 結合しているリガンドATPを含めてモデ リングしてみましょう 左のProtocolsのProtein Modelingの 左の+で展開し、「Build Homology Models」をダブルクリック
34
右下のBuild Homology Modelsの設定ウィンドウで
Input Sequence Alignmentの左の+をクリックし展開すると、以下の様に 自動的に補完されています。
Input Model Sequence: ACTA1
Input Template Structure: 2FXU
Copy Ligandsの設定は2FXU::ATP98にチェックを入れてください。
リガンドのある状態でモデリングされます
先程同様、左上の緑の三角をクリックし、モデリング実行して下
さい。4分くらいで終了します。
モデリングの実行
35
モデリングされた構造の表示
左下のJobsウィンドウのBuild Homology,,,をダブルクリック Output Filesから 「ACTA1.B99990001.msv」をク リック 表示の切り替え 開いた、3D Windowをアク ティブにして、「Ctrl」+「D」 以下の設定で「OK」クリック Atom: None Protein: Solid Ribbon
Colored by Secondary Type
Ribbon sizeにチェック
36
構造の評価:Verify3D
ProtocolsのAnalysisを開き、
Verify Protein (Profiles-3D)をダブルクリック 右下の設定でInput Protein Moleculeに 「ACTA1:B99990001:ACT A1:B99990001」が補完さ れたことを確認し、緑の三角 で実行 20秒程で終了します。 Jobsから結果を表示し、 Output Filesの ACTA1.B99990001.msvを クリック Amino Acidをクリックし、 Verify Score列を選択して、
Chart→Simple Line Plot
残基のVerify Score 40番目および160番目 の辺りが上手くモデリング 出来ていない様です。
37
H-InvDB:ヒト遺伝子アノテーション統合データベース
ヒトゲノムのアノテー
ション(注釈付け)がま
とまっています。
“
actin skeletal
muscle
”で検索し、
HIT000035891
をク
リック
Protein Structure
をク
リック
GTOP
をクリック
このリンクはH-InvDB用の GTOPのリンクです。C. Yamasaki et al., Gene 364, 99-107 (2005), “Investigation of protein functions through data-mining on integrated human transcriptome database, H-Invitational database (H-InvDB) ”
38
GTOP:
Genomes TO Protein structures and functions 先程、皆さんが実行したのと同じ(リガンドはなしですが)、 E-value<0.001でホモロジーモデリングした構造が表示さ れます。 立体構造予測だけでは なく、機能予測やいくつ かの解析がまとめられ ています。 それも610生物種全て のゲノムに対して解析 したまとめです。
T. Kawabata, K. Nishikawa, Tanpakushitsu Kakusan Koso 46, 2592-2597 (2001), “GTOP: database for protein 3D structure prediction ”
39
PDB-BLAST
:少し遠縁の検索 これまでのモデリング(構造予測)は、PDBデータベースに対 して、相同性検索に基づいたものですが、有意な構造がない 場合、構造が構築できません。 上記より、少し遠縁のタンパク質を検索する方法として PDB-BLASTがあります。 構造に偏りのあるPDBではなく、初めにNRデータベースに対して5ラ ウンドPSI-BLAST検索しPSSMを出力します。 そのPSSMを用いて、PDBデータベースに対して、PSI-BLAST検索 して少し遠縁のタンパク質を検索します。 モデリングは、アラインメントを基に先程おこなったものと同じ です。 2ページ後の3D-Juryの項目に入ってます(内部で実行)。 プロファイル(PSSM)情報は大変有用です。40
Fold Recognition(フォールド認識)サーバー:
FUGUE2
これまでの、PSI-BLASTに おけるプロファイル(PSSM) は配列情報のみによる。 既知立体構造(PDB)情報 を基にデータベース HOMSTRADを構築し、そ のデータベースに対して、 配列のPSSMおよび構造/ 環境のPSSM(ESSTs)を 用いて、フォールド・機能の 検索を行う。 PSSMの例) ACTA1配列をPSI-BLAST検索 (構造PSSMではない) J. Shi, T.L. Blundell, K. Mizuguchi, J. Mol. Biol. 310, 243-257 (2001), “FUGUE: sequence-structure homology recognition using environment-specific substitution tables and structure-dependent gap penalties ”41
フォールド認識法
Threadingなど
これまでは、BLAST、PSI-BLAST等による相同性検索を用いて主に近縁の配列 を検索し、その鋳型・アラインメントを基にモデル構築をおこないましたが、 マルチプルアラインメント、プロファイル(PSSM)を有効に用いたり、構造配列相 関を用いることにより、より遠縁の鋳型を検索することができます。 これらフォールド認識法を用いた多くのサーバーが存在します。3D-PSSM, FUGUE2, Sam-T02, mGenThreaderなど
さらに、それらいくつかのサーバーのメタサーバー(コンセンサス予測をする)もあ
ります。
3D-Jury
[URL] http://bioinfo.pl/meta/
K. Ginalski et al., Bioinformatics 19, 1015-1018 (2003), “3D-Jury: a simple approach to improve protein structure predictions”
K. Ginalski やはり、時代はコンセンサス!? CASP7ではFR,NFとも構築した構造を もう一度データベース情報を基に探すと 良い構造が見つかった様です。 Webで顔写真を 探して下さい。
42
ab initio / de novo予測法
Fragment Assembly法
鋳型構造がない、つまり新規フォールドの予測に関
して、PSSM相関等で集めた部分構造(フラグメン
ト)を利用する、フラグメントアセンブリ法が主流です。
D. Bakerが普及させました(Rosetta法)。
ROBETTA = Robot + Rosetta [URL] http://robetta.bakerlab.org
K.T. Simons et al., J. Mol. Biol. 268, 209-225 (1997),
“Assembly of protein tertiary structures from fragments with similar local sequences using simulate anealing and Bayesian scoring functions”
D. Chivian et al., Proteins 53, 524-533 (2003), “Automated prediction of CASP-5 structures using the Robetta server”
D. Baker
立体構造予測において、
プロファイル(PSSM)は大変重要です。
Webで顔写真を 探して下さい。
43
MolMovDB ・ DynDom
MolMovDB: Database of Macromolecular Movements with,,,
リガンドがある場合、ない場合など同じタンパク質の2つの PDBをつないで、タンパク質の運動を可視化 DynDom:Protein Domain Motion Analysis ドメイン運動を可視化し たサーバー、ドメイン間 の回転角、変位が分か る。 Actin(1hlu), Myosin (1b7t), Kinesin(1i5s), F1-Atpase(1bmf)など を検索してみよう。 Serpinなど本当はか なり大きく動きます。
N. Echols, D. Milburn, M. Gerstein, Nucleic Acids Res. 31, 478-482 (2003), “MolMovDB: analysis and visualization of conformational change and structural flexibility ” R.A. Lee, M. Razaz, S. Hayward, Bioinformatics 19, 1290-1291 (2003), “The DynDom database of protein domain motions ”
44
【課題】 遺伝子・タンパク質を探し、調べる
自分の研究に関連する生物種の遺伝子・タンパク質をNCBI
ENTREZ Genome ProjectもしくはGTOPで検索する。
遺伝子・タンパク質に関わっていない方は、興味のある生物種の遺伝子・ タンパク質で良いです。
以下などをPowerPointにまとめ、メールに添付して私のメール
アドレス([email protected])まで送信して下さい。
遺伝子名/タンパク質名 例)ACTA1、actin, alpha 1, skeletal muscle 存在する染色体の場所 例)1q42.13-q42.2 他の生物種にあるか?(分かれば存在する染色体の場所も含め) アミノ酸配列 例)MCDEDETTALVCDNGSGLVKAGFAGDDAP、、、 GO 例) 本文参照 (あれば)それタンパク質(PDB)またはそのモデルの立体構造(SMR、 ModBase、GTOP)(図) (あれば)MolMovDBまたはDynDomでの運動(前、後の図)