立体構造予測フォールディング問題、

(1)

1

タンパク質立体構造の計算的研究

データベース散策、構造予測、ダイナミクス、、、構造プロテオミクス東京大学農学生命科学研究科アグリバイオインフォマティクス人材養成ユニット特任助教

古田忠臣

東京大学農学生命科学研究科アグリバイオインフォマティクス人材養成プログラムプロテオーム情報学平成19年7月23日(月) ＠農学部2号館化学第一講義室

(2)

2

講義の予定

プロテオームについて

HUGO、HUPO、HapMap

ゲノムを覗く

NCBI ENTREZ Genome Project

ExPASy: SwissProt

2d gel databases、3D structure databases （PDB、SMR、ModBase）、GO タンパク質立体構造データベース PDB （立体構造）タンパク3000プロジェクト、 PSI CATH、SCOP （構造分類） DBAli、CE、DALI、VAST （構造比較） SMR、ModBase （構造モデル）タンパク質立体構造予測法ホモロジーモデリング実習(DS1.7使用) H-InvDB、GTOP （構造モデル等）フォールド認識法：FUGUE、３D-Juryなどフラグメントアセンブリ法：Robettaなどタンパク質のダイナミクス：MolMovDB、DynDom

(3)

3

プロテオームとは？

ゲノム：全遺伝子情報（DNA）・・・転写：RNAポリメラーゼ ↓ ↑ （スプライシング含む）・・・逆転写：逆転写酵素トランスクリプトーム：全転写情報((m)RNA) ↓ ・・・翻訳：リボソーム、tRNA (翻訳後修飾含む) プロテオーム：全翻訳情報（タンパク質） Marc Wilkins, 1994

“all proteins expressed by a genome, cell or tissue”

↓ メタボローム：全代謝産物 ↓ インタラクトーム、フェノーム、システオーム、フィジオーム、ファーマコゲノミクス、ニュートリゲノミクス etc. [語尾] -ome：全ての、-ics：学問、研究

V. C. Wasinger et al., Electrophoresis 16, 1090-1094 (1995) “Progress with gene-product mapping of the Mollicutes : Mycoplasma genitalium” M. Tyers, M. Mann, Nature 422, 193-197 (2003) “From genomics to proteomics” [URL] http://www.nature.com/nature/insights/6928.html

M. Wilkins ・・・ゲノミクス（ゲノム学）シークエンシングマッピングアノテーション・・・プロテオミクス（プロテオーム学/解析）、5本の柱発現プロテオミクス 2次元電気泳動（等電点、分子量）質量分析（質量電荷比）機能プロテオミクスプロテインアレイ蛍光タンパク標識[GFP,FRET] 酵母ツーハイブリッド[Y2H] 構造プロテオミクス X線（発現、結晶化、測定、位相決定、モデル構築） NMR（発現、測定、帰属、モデル構築）（プロテオーム）情報学各種情報学的解析（文書のXML化など含む）参考：HUPO (http://psidev.sourceforge.net) 臨床プロテオミクス臨床診断創薬 Webで顔写真を探して下さい。

(4)

4

ヒトゲノムからヒトプロテオームへ

1990年、DOE/NHGRIの30億ドルの予算で15年の予定で「ヒトゲノム計画」開始

2001年、Venter率いるCelera Genomics社がヒトゲノム配列をScienceに発表

実は、Venterのゲノム。その中には、、、アルツハイマー遺伝子が。

2001年、国際ヒトゲノムシークエンスコンソーシアムもヒトゲノムのdraft配列を Natureに発表参照⇒Human Genome Project Information

2003年4月14日、ヒトゲノム解読完了（13年）・・・DNA二重らせん発見から50年６カ国（仏米英独日中）首脳による共同宣言（PDF）ヒトゲノム解読完了の総理への報告（動画）現在、数100生物種のゲノムが解読完了 2001年、ヒトプロテオーム機構（HUPO）他、2002年、国際HapMap計画 A. Patrinos

Human Genome Project Information [URL] http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml

J.C. Venter et al., Science 291, 1304-1351 (2001) “The Sequence of the Human Genome”

International Human Genome Sequencing Consortium, Nature 409, 860-921 (2001) “Initial sequencing and analysis of the human genome”

J.C. Venter

参考）

和田プロジェクト 1981～（1990年目前に打ち切り）

和田昭允は、日立の神原秀記らとDNA配列自動高速解読を提唱

A. Wada, Nature 325, 771-772 (1987) “Automated high-speed DNA sequencing”

⇒Watsonそしてアメリカを刺激した！？ Webで顔写真を探して下さい。

(5)

5

ゲノムを覗く

NCBI ENTREZ Genome Project

（ http://www.ncbi.nlm.nih.gov/sites/entrez?db=genomeprj ）

どの様な生物種のゲノムが解読されているか、覗いてみま

しょう。

講義のページから以下をクリック

NCBI ENTREZ Genome Project Statisticsをクリック 1995 インフルエンザ菌（生物） 1996 出芽酵母（真核生物） 1998 線虫（多細胞生物） 2000 シロイヌナズナ（植物） 2001 ヒトゲノム概要 2003 ヒトゲノム完全解読

・WGS(Whole Genome Shotgun)法

(6)

6

ゲノムの統計

現在(Jul 17, 2007)、原核生物(Prokaryotes)540種真核生物(Eukaryotes)26種合計、566種のゲノムの解読が完了している参考 GOLD： 609種進行中の計画も含めると、1592種のゲノムの情報を得ることが出来る。

参考 GOLD： 2811 genome projects

Prokaryotes（原核生物） Archaea（古細菌） Bacteria（バクテリア、細菌） Eukaryotes（真核生物）

Animals（動物） Mammals（哺乳類） Birds（鳥類） Fishes（魚類） Insects（昆虫） Flatworms（扁形動物、扁虫） Roundworms（回虫） Amphibians（両生類） Reptiles（爬虫類） Other animals（他の動物）

Plants（植物） Land plants（陸上植物） Green Algae（緑藻類）

Fungi（菌類） Ascomycetes（子嚢菌） Basidiomycetes（担子菌） Other fungi（他の菌類）

Protists（原生生物） Apicomplexans（寄生性の微胞子虫、アピコンプレクサ） Kinetoplasts（動原核、キネトプラスト） Other protists（他の原生生物）・rRNAによる系統分類では、古細菌（原核生物）はバクテリア（原核生物）よりも、真核生物に近い。

(7)

7

ゲノムサイズ、遺伝子数、染色体数

ヒト2番染色体＝チンパンジー12番染色体＋チンパンジー13番染色体塩基対（ゲノムサイズ）遺伝子染色体 E. coli 大腸菌 460万 4,000 -S. cerevisiae 出芽酵母 1,200万 6,000 16 C. elegans 線虫 9,700万 14,000 6 D. melanogaster ショウジョウバエ 1億.8,000万 12,000 8 A. thaliana シロイヌナズナ 1億2,000万 25,500 10 P. troglodytes チンパンジー 30億 22000 48 H. sapiens ヒト 30億 22000 46 Protopterus ,,, 肺魚（マツバラン、サンショウウオ） 1,000億不明 ?? ・ショウジョウバエの遺伝子数は意外にも線虫より少なかった。・・・ゲノムサイズと遺伝子数は比例しない。（昆虫、哺乳類など高等生物になる程、選択的スプライシングなどを有効に利用しているのかも知れません）ゲノムサイズはpg(picogram)で表現したりもします。上記の値はおおよその数値です。さらなる解析で上下します。

(8)

8

ヒト(Homo sapience)のアクチン(actin)を覗いてみる

Mammals（哺乳類）をクリック

14番目（くらい）にあるヒト（Homo sapiens - overview）をク

リック

“actin”で検索

(9)

9

見つかった10547のうち1209のヒットが示されている（すべての染色体にアク

チン関連の遺伝子等があるようです。絞り込む必要がある）

“actin”と”skeletal muscle gene”で検索

ヒトの染色体は常染色体22対と性染色体X、Y（男性のみ、父親からの情報）

22対は長いものから1番、2番、、、21と22だけ逆

21トリソミー・・・ダウン症

MTはミトコンドリアDNA（母親からの情報）

(10)

10

ヒト(Homo sapience)のアクチン(actin)を覗いてみる

今度は8件に絞り込まれました

ヒトの骨格筋（skeletal muscle）アクチン（actin）が見つかりま

した。ACTA1は1番と5番染色体(Chr.1,Chr.5)にあるようです。

Celera社のゲノムも

載っています。

(11)

11

ヒト(Homo sapience)のアクチン(actin)を覗いてみる

ACTA1がピンクで表示されている骨格筋アクチンは1番染色体の長腕の端の方1q42.13-q42.2 にあるようです。あなたはここです。 p(=petit)：短腕 q(pの逆)：長腕 Orientation（O)がNegative Strand（↑）他、Links（下記参照）から様々な情報が得られます。配列を見てみましょう：svをクリック

(12)

12

ゲノム、トランスクリプトーム、プロテオーム

⇒ DNA、mRNA、タンパク質

黒字：DNA (gene) 配列：ATG TGC GAC ,,, 青字：mRNA (RNA) ピンク：タンパク質(CDS:CoDing Sequence) 配列：M C D ,,,

The Genetic Code 一つ戻って（←）、HGNCをクリック

参考 TGA：セレノシステイン(1986) TAG：ピロリジン(2002) 配列はまだまだ続きます

(13)

13

HUGO Gene Nomenclature Committee (HGNC)

HUGO遺伝子命名委員会

これまで出てきたACTA1は、

HGNCが決めた“actin, alpha 1, skeletal muscle” のシンボルでした。 Accession Numbersなど居様々なデータベースへのリンクになっています。 SwissProtをクリック（IDは P68133、他様々なデータベースのIDが表示されています）

(14)

14

ExPASy(Expert Protein Analysis System )

SwissProt: Protein Knowledgebase(タンパク質の知識基盤)

ExPASyのSwiss-Protサイトに飛びました。

少し下の(Entry,,Name,,References,,)Commentsまでスク

ロールして下さい。

Boeckmann B., Bairoch A., Apweiler R., Blatter M.-C., Estreicher A., Gasteiger E., Martin M.J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M.

Nucleic Acids Res. 31, 365-370 (2003).

(15)

15 機能：アクチンは全ての真核細胞で発現する様々なタイプの細胞運動に関わる、良く保存されたタンパク質である。サブユニット：球状アクチン（G-アクチン）の重合により、二重らせん形の構造体フィラメント（F-アクチン）になる。細胞内での場所：細胞質 etc. Cross-referencesに進んで下さい。

(16)

16

配列情報

構造情報

発現情報

など色々なデータベースが参照されています。その下に。

ヒトのアクチンは構造が決まっていないのでモデル構造（SMR、 ModBase)が載っています。それぞれ（SMR、ModBase）の P68133を右クリック、新しいウィンドウで開き、後ほど見るので最小化しておいて下さい。

(17)

17

GO（Gene Ontology）

・・・遺伝子産物に機能アノテーションを行う本家： [URL] http://www.geneontology.org/ ための用語集とその用語間の関係を定義したもの GOは、主に次の3つのオントロジーで分類しています。 biological process （生物学的プロセス） cellular component （細胞の構成要素） molecular function （分子機能）アクチンの場合、細胞の構成要素アクチンフィラメントストレスファイバー横紋筋細繊維分子機能 ADP結合 ATP結合ミオシン結合細胞骨格の構造構成要素生物学的プロセス筋収縮筋細繊維集合これで、網羅的解析ならぬ、遺伝子・タンパク質の主な特徴の網羅的探索が出来る様になったと思います。

(18)

18 エントリー：P62736 2D gel databaseの REPRODUCTION-2DPAGEには2次元ゲル電気泳動の画像（同定されたそのタンパク質のスポット）が登録されています。 エントリー：P68135 同様に、ACTS_RABITを検索して下さい（ウサギ骨格筋アクチン）。 3D structure databaseには構造が決 定されている場合PDB （タンパク質立体構造データベース）が載っています。 １ATNのRCSBをクリック＆最小化。以上、これまでのプロテオーム情報学で出てきた実験情報です。

Sanchez J.-C., Appel R.D., Golaz O., Pasquali C., Ravier F., Bairoch A., Hochstrasser D.F.

Electrophoresis 16, 1131-1151 (1995)

“Inside SWISS-2DPAGE database”

ページ一番上でACTA_HUMANを検索して下さい（ヒト大動脈平滑筋）。 ModBaseのP62736をクリックし、最小化。後で、DBAliのところで見ます。

(19)

19

かなり大まかな解析の流れ／まとめ

ゲノム解析：DNAシークエンシング例） WGS法（ABI3700マルチキャピラリーシークエンサー） ↓ トランスクリプトーム解析：DNAマイクロアレイ様々な転写情報が得られるしかし、細胞内のmRNA量とタンパク質の現存量は比例しない →プロテオーム解析の必要性理由：転写因子はすぐに分解、コラーゲンなどは蓄積、、、プロテオーム解析タンパク質分離精製：2次元ゲル電気泳動法（2-DE） タンパク質同定：質量分析（MS：MALDI、ESI） 立体構造決定：X線解析、NMR解析 ⇔ 予測（ホモロジーモデリング等）フォールディング・ダイナミクス：分子（動力学）シミュレーションなど相互作用解析：Y2H ⇔ ドッキングシミュレーション相互作用（部位）解析（予測）など参考）ショットガン法 先程、最小化したSMRのウィンドウを開いてください。

(20)

20

SWISS-MODEL REPOSITORY (SMR)

注釈付けされたタンパク質の比較モデリング法（SWISS-MODEL）により構築された立体構造のデータベース（・・・少し後でモデリングを実習します）モデル情報(Model Info) X線解析で決まったPDB（2FXU： A）の配列と100%の配列一致度モデル構造を見てみましょう図をクリックすぐ下に、Javaでastex viewer （表示ソフト）が起動し、立体構造が表示され、回転、拡大縮小、表示の切り替えなど出来ます。ウィンドウを閉じ、最小化している ModBaseのP68133をクリック Kopp J, Schwede T.

Nucleic Acids Res. 32, D230-D234 (2004).

(21)

21

ModBase

比較モデリング法（MODELLER）で構築したタンパク質3次元構造のデータベースこちらも同じくtemplateとしてPDB（1FXU：A） Xenopus（実はアフリカツメガエル）のアクチンでモデリングしています。ウィンドウを閉じ、最小化してあるRCSB PDB： 1atnのウィンドウを開いてください。

Ursula Pieper, Narayanan Eswar, Hannes Braberg, M.S. Madhusudhan, Fred Davis, Ashley C. Stuart, Nebojsa Mirkovic, Andrea Rossi, Marc A. Marti-Renom, Andras Fiser, Ben Webb, Daniel Greenblatt, Conrad Huang, Tom Ferrin, Andrej Sali

Nucleic Acids Res. 32, D217-D222 (2004)

(22)

22

タンパク質立体構造データベース：

PDB – Protein Data Bank

[URL] http://www.rcsb.org/pdb/

現在

（Jul/17/2007）

、

44,700構造が登録さ

れている

1atnのページに戻り、下の赤い字のCATH Classificationをクリックして下さい。

H.M. Berman, et al., Nucleic Adids Res. 28, 235-242 (2000), “The Protein Data Bank”

PDB ID：4文字の英数字 ex) 1AB1

右上PDB Statistics

→Summary Table of Released Entries

(23)

23

CATH：構造分類データベース

他の有名な構造分類データベース：SCOP （バイオインフォマティクスリテラシーIの構造予測分野のページを参照） Searchのテキストボックスに1atnを入力し検索。アクチンのA chain は_{4つのドメイン}からなるので、右図にある様に4つに分類されて登録されています。

(24)

24

タンパク質立体構造分類データベース：

CATH –

Class, Architecture, Topology, Homologous superfamily

[URL] http://cathwww.biochem.ucl.ac.uk/latest/

→ Browse or search the classification

現在、1,084 topologies （folds）が登録されている (v3.1.0) かなり自動的に分類されるが、最後は人手階層 C A T H S クラス、アーキテクチャー、トポロジー、ホモロガススーパーファミリー、シークエンスファミリー ex) CATH code: 1. 10. 8. 10. 1

Mainly Alpha

Orthogonal Bundle

Helicase,,,

DNA helicase RuvA subunit,,,

DNA helicase Ruv subunit,,,

Fold・・・

C.A. Orengo, et al., Structure 5, 1093-1108 (1997), “CATH – A Hierarchic Classification of Protein Domain Structures”

(25)

25

タンパク質立体構造分類データベース：

SCOP – Structural Classification of Proteins

[URL] http://scop.mrc-lmb.cam.ac.uk/scop/

→ top of the hierarchy

2005年時点での27,599PDB が75,930ドメインに分割され、

現在、約1,000（971）

のフォールドが登録

されている

(1.71) Murzinが中心となり、人の手・目！？で分類されている

A.G. Murzin, et al., J. Mol. Biol.. 247, 536-540 (1995),

“SCOP: a structural classification of proteins database for the investigation of sequences and structures”

階層：

クラス、フォールド、スーパーファミリー、ファミリー ex) sccs: a. 1. 1. 1

All alpha proteins. Globin-like. Globin-like. Truncated hemoglobin

All alpha All beta a/b a+b

スーパーファミリー：機能・構造的特徴から恐らく共通の進化的起源

(26)

26

構造プロテオミクス：

タンパク3000プロジェクト 2002～2006

[URL]

http://www.mext-life.jp/protein/

・・・講義ページにリンクあり ⇒研究推進体制について、研究成果概要タンパク質の基本構造10000種のうち、3000以上のタンパク質の構造を決定する NIGMSタンパク質構造イニシアティブ、10年で10,000タンパク質構造 3億塩基対が解読され、およそ100,000タンパク質がコードされている・・・全ての構造解析は困難同一ファミリーとしては25%程度、さらに2or3分の1に減少でき⇒基本構造10,000タンパク質 [URL] http://www.nigms.nih.gov/Initiatives/PSI/

(27)

27

タンパク質立体構造比較サーバー：DBAli

Chainは1d4xAと設定されているので、Searchをクリック

配列一致度（Seq.Id.）でソートされた、類似構造が検索され

ます（構造類似性の指標RMSDが表示されています）。

P62736で開いたModBaseに戻り、Template Structure内のDBALI列の右の1d4xAをクリック

他にも、有名な構造比較サーバーとして、CE（8残基フラグメントを組み合わせる）、

DALI(類似度スコアSを最大化)、VASTなどがあります（バイオインフォマティクスリテラ

シーI参照）。配列と同じくグローバル／ローカルなアラインメントがあります。

(28)

28

ホモロジーモデリング

（比較モデリング）

「問い合わせ配列」に対して、データベースを用いて配列解析を行い、検索された鋳型・アラインメントを基に「立体構造」を構築することを、ホモロジーモデリング（比較モデリング）と言います。問い合わせ配列配列解析 PSI-BLASTなどモデル構築 MODELLERなど立体構造データベース PDBなどモデルの評価 Verify3Dなど ACTA1を、SMR、ModBaseと同様にPDB:2FXU:Aを用いてモデリングしてみましょう！（2FXUはXenopusのアクチンです）

(29)

29

配列を入手

Swiss-Protのページの一番下のSequence information（配列情報）の右下の、P68133 in FASTA formatをクリック MEGA3.1が起動され配列が表示されるので＜Ctrl＞＋Aですべてを選択し、＜Ctrl＞＋Cでコピーデスクトップ（もしくは「スタート」→「すべてのプログラム」）から、Discovery Studio 1.7を起動

(30)

30

配列の入力

「File」→「New」→ 「Protein Sequence Window」先程コピーした配列を貼り付け配列名（Untitled1）を右クリックして「Rename Sequence」を選択し、「ACTA1」に変更

(31)

31

PSI-BLAST検索

Protocols内Sequence Analysisの左の＋をクリッ

クし、PSI-BLAST Searchをダブルクリック

右下のPSI-BLAST設定ウィンドウの内容を以下に変更

Input Sequence (デフォルトで) Sequence:ACTA1

Input Database PDB_nr95 → PDB E-Value Cutoff 10 → 0.001 Maximum Hits 250 → 100 以上設定ができたら、左上の緑の三角をクリックして実行 Protocolsがない場合、 View →Explorers →Protocols にチェックを入れ表示して下さい。

(32)

32

アラインメントの表示

30秒程で終了する。

左下のJobsから今実行した

PSI-BLAST,,,をダブルクリック

Output Files内の Sequence-ACTA1.xmlをクリック

下のTable Viewタブをクリック

52番目くらいのAccession：

2FXU_Aを右クリックし、「Load Sequence and

Alignment」をクリックしアラインメントを表示より良いモデリングには、多数のTemplatesを選択し、マルチプルアラインメントを行うなどアラインメントの改良を行います。

(33)

33

構造のダウンロードと

配列と構造のリンク

先ほどのBlast Window（左）に戻り、同様に右クリック、Load Selected Structures選択で構造をダウンロード

Sequence Windowのpdb|2FXU|Aを

選択し、Rename Sequenceで2FXU

に変更

「Sequence」メニュー→「Link

Sequence and Structure」を選択し、「Link」をクリック結合しているリガンドATPを含めてモデリングしてみましょう左のProtocolsのProtein Modelingの左の＋で展開し、「Build Homology Models」をダブルクリック

(34)

34

右下のBuild Homology Modelsの設定ウィンドウで

Input Sequence Alignmentの左の＋をクリックし展開すると、以下の様に自動的に補完されています。

Input Model Sequence： ACTA1

Input Template Structure： 2FXU

Copy Ligandsの設定は2FXU::ATP98にチェックを入れてください。

リガンドのある状態でモデリングされます

先程同様、左上の緑の三角をクリックし、モデリング実行して下

さい。4分くらいで終了します。

モデリングの実行

(35)

35

モデリングされた構造の表示

左下のJobsウィンドウのBuild Homology,,,をダブルクリック Output Filesから「ACTA1.B99990001.msv」をクリック表示の切り替え開いた、3D Windowをアクティブにして、「Ctrl」＋「D」以下の設定で「OK」クリック Atom: None

Protein: Solid Ribbon

Colored by Secondary Type

Ribbon sizeにチェック

(36)

36

構造の評価：Verify3D

ProtocolsのAnalysisを開き、

Verify Protein （Profiles-3D）をダブルクリック右下の設定でInput Protein Moleculeに「ACTA1:B99990001:ACT A1:B99990001」が補完されたことを確認し、緑の三角で実行 20秒程で終了します。 Jobsから結果を表示し、 Output Filesの ACTA1.B99990001.msvをクリック Amino Acidをクリックし、 Verify Score列を選択して、

Chart→Simple Line Plot

残基のVerify Score 40番目および160番目の辺りが上手くモデリング出来ていない様です。

(37)

37

H-InvDB:ヒト遺伝子アノテーション統合データベース

ヒトゲノムのアノテー

ション（注釈付け）がま

とまっています。

“

actin skeletal

muscle

”で検索し、

HIT000035891

をク

リック

Protein Structure

をク

リック

GTOP

をクリック

このリンクはH-InvDB用の GTOPのリンクです。

C. Yamasaki et al., Gene 364, 99-107 (2005), “Investigation of protein functions through data-mining on integrated human transcriptome database, H-Invitational database (H-InvDB) ”

(38)

38

GTOP：

Genomes TO Protein structures and functions

先程、皆さんが実行したのと同じ（リガンドはなしですが）、 E-value＜0.001でホモロジーモデリングした構造が表示されます。立体構造予測だけではなく、機能予測やいくつかの解析がまとめられています。それも610生物種全てのゲノムに対して解析したまとめです。

T. Kawabata, K. Nishikawa, Tanpakushitsu Kakusan Koso 46, 2592-2597 (2001), “GTOP: database for protein 3D structure prediction ”

(39)

39

PDB-BLAST

：少し遠縁の検索これまでのモデリング（構造予測）は、PDBデータベースに対して、相同性検索に基づいたものですが、有意な構造がない場合、構造が構築できません。上記より、少し遠縁のタンパク質を検索する方法として PDB-BLASTがあります。構造に偏りのあるPDBではなく、初めにNRデータベースに対して5ラウンドPSI-BLAST検索しPSSMを出力します。そのPSSMを用いて、PDBデータベースに対して、PSI-BLAST検索して少し遠縁のタンパク質を検索します。モデリングは、アラインメントを基に先程おこなったものと同じです。 2ページ後の3D-Juryの項目に入ってます（内部で実行）。プロファイル（PSSM）情報は大変有用です。

(40)

40

Fold Recognition（フォールド認識）サーバー:

FUGUE2

これまでの、PSI-BLASTにおけるプロファイル（PSSM）は配列情報のみによる。既知立体構造（PDB）情報を基にデータベース HOMSTRADを構築し、そのデータベースに対して、配列のPSSMおよび構造/ 環境のPSSM（ESSTs）を用いて、フォールド・機能の検索を行う。 PSSMの例） ACTA1配列をPSI-BLAST検索（構造PSSMではない） J. Shi, T.L. Blundell, K. Mizuguchi, J. Mol. Biol. 310, 243-257 (2001), “FUGUE: sequence-structure homology recognition using environment-specific substitution tables and structure-dependent gap penalties ”

(41)

41

フォールド認識法

Threadingなど

これまでは、BLAST、PSI-BLAST等による相同性検索を用いて主に近縁の配列を検索し、その鋳型・アラインメントを基にモデル構築をおこないましたが、マルチプルアラインメント、プロファイル（PSSM）を有効に用いたり、構造配列相関を用いることにより、より遠縁の鋳型を検索することができます。これらフォールド認識法を用いた多くのサーバーが存在します。

3D-PSSM, FUGUE2, Sam-T02, mGenThreaderなど

さらに、それらいくつかのサーバーのメタサーバー（コンセンサス予測をする）もあ

ります。

3D-Jury

[URL] http://bioinfo.pl/meta/

K. Ginalski et al., Bioinformatics 19, 1015-1018 (2003), “3D-Jury: a simple approach to improve protein structure predictions”

K. Ginalski やはり、時代はコンセンサス！？ CASP7ではFR,NFとも構築した構造をもう一度データベース情報を基に探すと良い構造が見つかった様です。 Webで顔写真を探して下さい。

(42)

42

ab initio / de novo予測法

Fragment Assembly法

鋳型構造がない、つまり新規フォールドの予測に関

して、PSSM相関等で集めた部分構造（フラグメン

ト）を利用する、フラグメントアセンブリ法が主流です。

_{D. Bakerが普及させました（Rosetta法）。}

ROBETTA ＝ Robot + Rosetta [URL] http://robetta.bakerlab.org

K.T. Simons et al., J. Mol. Biol. 268, 209-225 (1997),

“Assembly of protein tertiary structures from fragments with similar local sequences using simulate anealing and Bayesian scoring functions”

D. Chivian et al., Proteins 53, 524-533 (2003), “Automated prediction of CASP-5 structures using the Robetta server”

D. Baker

立体構造予測において、

プロファイル（PSSM）は大変重要です。

Webで顔写真を探して下さい。

(43)

43

MolMovDB ・ DynDom

MolMovDB: Database of Macromolecular Movements with,,,

リガンドがある場合、ない場合など同じタンパク質の2つの PDBをつないで、タンパク質の運動を可視化 DynDom：Protein Domain Motion Analysis ドメイン運動を可視化したサーバー、ドメイン間の回転角、変位が分かる。 Actin（1hlu）, Myosin （1b7t）, Kinesin(1i5s), F1-Atpase(1bmf)などを検索してみよう。 Serpinなど本当はか なり大きく動きます。

N. Echols, D. Milburn, M. Gerstein, Nucleic Acids Res. 31, 478-482 (2003), “MolMovDB: analysis and visualization of conformational change and structural flexibility ” R.A. Lee, M. Razaz, S. Hayward, Bioinformatics 19, 1290-1291 (2003), “The DynDom database of protein domain motions ”

(44)

44

【課題】遺伝子・タンパク質を探し、調べる

自分の研究に関連する生物種の遺伝子・タンパク質をNCBI

ENTREZ Genome ProjectもしくはGTOPで検索する。

遺伝子・タンパク質に関わっていない方は、興味のある生物種の遺伝子・タンパク質で良いです。

以下などをPowerPointにまとめ、メールに添付して私のメール

アドレス([email protected])まで送信して下さい。

遺伝子名／タンパク質名例）ACTA1、actin, alpha 1, skeletal muscle 存在する染色体の場所例）1q42.13-q42.2 他の生物種にあるか？（分かれば存在する染色体の場所も含め）アミノ酸配列例）MCDEDETTALVCDNGSGLVKAGFAGDDAP、、、 GO 例）本文参照（あれば）それタンパク質（PDB）またはそのモデルの立体構造（SMR、 ModBase、GTOP）（図）（あれば）MolMovDBまたはDynDomでの運動（前、後の図）

立体構造予測 フォールディング問題、

タンパク質立体構造の計算的研究

古田 忠臣

講義の予定

プロテオームとは？

ヒトゲノムからヒトプロテオームへ

ゲノムを覗く

NCBI ENTREZ Genome Project

ゲノムの統計

ゲノムサイズ、遺伝子数、染色体数

ヒト(Homo sapience)のアクチン(actin)を覗いてみる

ヒト(Homo sapience)のアクチン(actin)を覗いてみる

ヒト(Homo sapience)のアクチン(actin)を覗いてみる

ゲノム、トランスクリプトーム、プロテオーム

⇒ DNA、mRNA、タンパク質

HUGO Gene Nomenclature Committee (HGNC)

HUGO遺伝子命名委員会

ExPASy(Expert Protein Analysis System )

配列情報

構造情報

発現情報

など色々なデータベースが参照されています。その下に。

GO（Gene Ontology）

かなり大まかな解析の流れ／まとめ

SWISS-MODEL REPOSITORY (SMR)

ModBase

タンパク質立体構造データベース：

PDB – Protein Data Bank

現在

、

44,700構造が登録さ

れている

CATH：構造分類データベース

タンパク質立体構造分類データベース：

CATH –

タンパク質立体構造分類データベース：

SCOP – Structural Classification of Proteins

現在、約1,000（971）

のフォールドが登録

されている

構造プロテオミクス：

タンパク3000プロジェクト 2002～2006

[URL]

http://www.mext-life.jp/protein/

タンパク質立体構造比較サーバー：DBAli

ホモロジーモデリング

（比較モデリング）

配列を入手

配列の入力

PSI-BLAST検索

アラインメントの表示

構造のダウンロードと

配列と構造のリンク

モデリングの実行

モデリングされた構造の表示

構造の評価：Verify3D

H-InvDB:ヒト遺伝子アノテーション統合データベース

ヒトゲノムのアノテー

ション（注釈付け）がま

とまっています。

“

actin skeletal

muscle

”で検索し、

HIT000035891

をク

リック

Protein Structure

をク

リック

GTOP

をクリック

GTOP：

PDB-BLAST

Fold Recognition（フォールド認識）サーバー:

FUGUE2

フォールド認識法

Threadingなど

ab initio / de novo予測法

Fragment Assembly法

立体構造予測フォールディング問題、

古田忠臣

_{D. Bakerが普及させました（Rosetta法）。}

【課題】遺伝子・タンパク質を探し、調べる