タンパク質立体構造予測に関する最新技術動向

(1)

2004年度卒業論文

タンパク質立体構造予測に関する最新技術動向

提出日 : 200 5年 2月 2 日指導 : 山名早人助教授早稲田大学理工学部情報学科

学籍番号 : １ G 00P02 0-9

栄多谷政夫

(2)

概要

タンパク質の機能が発現されるような環境下において、それぞれのタンパク質は一意的な立体構造をとる。タンパク質の機能を解明することは、原因不明の病気の治療、

薬剤設計などに役立ち、タンパク質の立体構造と機能の関係を解明することは大変重要な問題である。タンパク質の立体構造と機能の関係を探るために、立体構造のわかっているタンパク質を調べることで一般的な原理を導き出そうというスタイルの研究では、似た立体構造を持つタンパク質を集め、機能に関わる共通の特徴抽出を行うのが大まかな流れとなる。そのため、アミノ酸配列からタンパク質の立体構造を正しく予測することは、タンパク質の機能解明、立体構造と機能の関係を明らかにする上で重要な位置を占めているといえる。本論文では、タンパク質の機能を理解するにはタンパク質の立体構造が不可欠であるという立場に立ち、タンパク質の立体構造予測について調査した。まず、一般的な立体構造の予測手法について述べるとともに、タンパク質の立体構造予測コンテストである CASP（Critical Assessment of techniques for protein Structure Prediction）のここ最近の結果をもとに、立体構造予測に関する技術がどう発展したのか、また予測をする上においての問題点について調査した。

(3)

目次目次目次目次

第１章はじめに 5

第２章基礎知識 7

2.1 alignment………..7

2.2 multiple alignment……….. ….………7

2.3 配列相同性検索………..……..…….8

2.4 BLAST………..8

2.5 PSI-BLAST………..….………9

第３章立体構造手法 11

3.1 Comparative modeling………11

3.2 Fold recognition………...11

3.3 New fold……….11

3.4 手法毎の比較………12

第４章ターゲットの分類 14

4.1 タンパク質ドメイン……… 14

4.2 ドメイン境界の定義……..………..……….14

4.3 ドメイン構造の予測が困難な場合……….15

4.4 進化に基づくドメイン分類……… 15

4.4.1 CM domain………15

4.4.2 FR domain………15

4.4.3 NF domain………16

4.5 ドメイン分類のまとめ………17

第５章フォールドから見る構造予測 18

5.1 フォールドの概念……… 18

5.1.1 フォールド………18

5.1.2 フォールドの比較法……..………18

5.1.3 フォールドの類似性……..………18

(4)

5.1.4 フォールドの分類……..………19

5.1.5 フォールドの数…………..………19

5.2 フォールド認識の技法………20

5.2.1 配列プロファイル………20

5.2.2 二次構造予測………….………20

5.2.3 構造-配列適合性関数…………..………20

5.2.4 構造アライメント…….………21

5.2.5 多重方向サーチ…………..………21

5.3 Hybrid fold recognition………21

5.3.1 手法の概要………..………21

5.3.2 SDP……….………22

5.4 まとめ………22

第６章 CASP 24

6.1 CASP……… 24

6.2 CAFASP………..……….24

6.3 CASP の結果……… 25

6.3.1 比較モデリング部門………25

6.3.2 フォールド認識部門………26

6.3.3 ニューフォールド部門………27

6.4 CAFASP の結果の考察………27

6.5 まとめ……….. .. ……….28

第７章おわりに 30 参考文献

(5)

第第第

第 1 1 1 1 章章章章はじめにはじめにはじめにはじめに

近年、世界中で進められた世界中で進められているゲノム・プロジェクトにより、すでに 50 種を越える生物の塩基配列が明らかにされた。多くの場合、それぞれの遺伝子は固有のタンパク質を構成するアミノ酸配列の情報をもつが、核酸である tRNA や rRNA となってタンパク質に翻訳されないものも含まれている。タンパク質は枝分かれのないアミノ酸の鎖でできた高分子であり、その固有のアミノ酸の配列に応じ、ある定まった環境下において一意的な立体構造を形成する。それぞれの遺伝子に対応するタンパク質が発現した後、

これらタンパク質が互いに相互作用し、各タンパク質のもつ機能が共同して現れたり、一方が他方の機能を阻害したりして、生命活動が営まれている。

このように、生物情報の多くはいったんタンパク質分子の機能情報という形に変換されるが、この分子機能はタンパク質の立体構造のもとに発現するのである。残念ながら、タンパク質の立体構造がタンパク質の機能にどう結びついているのかに関する統一的な理解はできていない。しかしながら、タンパク質の立体構造と機能には密接な関係があると思われる。タンパク質の機能が明らかになれば、食品や薬剤設計など我々の生活の様々な場面に役立つものを作ることができる。そのため、タンパク質の立体構造と機能の関係を解明することは、生物学的にも、生化学的にも重要な課題となっている。タンパク質の立体構造と機能を解明する上で、アミノ配列からタンパク質の立体構造を正確に予測することは重要なファクターであり、盛んに研究がおこなわれている。今回はタンパク質の機能を理解するにはまず、タンパク質の立体構造に関する理解が必要だと言う立場に立ち、本論文ではタンパク質の立体構造に関する研究の最新技術動向について紹介する。

本論文は以下のように構成される。まず第 2 章では、本題であるタンパク質の立体構造予測の説明に入る前に、タンパク質立体構造予測を理解する上で知っておきたい基礎知識について述べる。第 3 章では、一般的なタンパク質立体構造予測法について述べる。第 4 章では、タンパク質ドメイン、予測対象のターゲットの分類について述べる。第 5 章では、

タンパク質のフォールドを取り上げ、フォールドの観点から見たタンパク質立体構造予測について述べる。第 6 章では、タンパク質立体構造予測のコンテストであるCASPを取り

(6)

上げ、立体構造の予測手法にそれぞれどのような進展があったのか、また、予測を行う上での障害や問題点について探る。

(7)

第第第

第 2 2 2 2 章章章章基礎知識基礎知識基礎知識基礎知識

本章では、タンパク質立体構造の予測手法について説明する前に、立体構造予測を行う上で必要な手法、基礎知識について簡単に説明する。

2.1 2.1 2.1

2.1 alignment alignment alignment alignment （（（（アライメントアライメントアライメント）アライメント）））

図1のようにある2つの配列を比較し、２つの配列間で配列が一致しているか、またはギャップになっているかということを"|"、"-"等の記号で表したもの。表示の仕方は、アライメントのファイルフォーマットによって異なる。アライメントは、BLAST[1]の結果に表示させることができる。また、2本の配列を用いてclustalw[2]を実行した場合も、結果として与えられるアライメントはペアワイズアライメントである。

・ギャップ

生物の進化の過程で生じたとされる、アミノ酸配列の挿入や決失を表すための”-“という記号。

図1：配列のアライメント例

2.2 2.2 2.2

2.2 multiple alignment multiple alignment multiple alignment multiple alignment （（マルチプルアライメント（（マルチプルアライメントマルチプルアライメントマルチプルアライメント））））

アライメントは2つの配列を比較し、配列の一致度等を調べるものであったが、図2のようにマルチプルアライメントは複数の配列に対して適用したもので、与えられた複数の配列に対し、一致、ギャップ等を記号で表している。マルチプルアライメントを作成する

ALTDTGLSSNER ALIDTGSATR-K

|| |||

配列配列配列配列 a a a a

配列配列配列配列 b b b b

・| は2つの配列間で配列が一致することを表している。

・－はギャップを表している。

(8)

代表的なプログラムに、clustalwがある。

・ clustalw[2]

まず、与えられた配列を総当たりでペアワイズに比較する。このとき、正確な整列を行うことはしない。その結果を基にして距離行列を作成し、似ているもの同士でグループを作成する。さらにこの結果を用いて、順次クラスターごとにアライメントを作成し、さらにクラスター間でアライメントを行うことによりマルチプルアライメントを完成する。

図2：マルチプルアライメントの例

2.3 2.3 2.3

2.3 配列相同性検索配列相同性検索配列相同性検索配列相同性検索

配列相同性検索とは、ある配列（遺伝子配列又はアミノ酸配列）に対して、あらかじめユーザが指定した値以上の相同性を持つ配列群を配列データベースの中から検索する操作を指す。配列相同性検索を行う代表的なプログラムにBLAST[1]がある。

2.4 2.4 2.4

2.4 BLAST[1] BLAST[1] BLAST[1] BLAST[1]

BLAST は、問い合わせ配列をワード（固定長の断片）に区切り、ワード単位で類似性

の見られる断片を検索し、断片を類似度が最大になるまで両方向に伸ばして局所的なアライメントを行い、最後にこれらを結合して最終的なアライメントを行う手法である。

BLAST は、相同な配列間ではとても短い領域ではあるものの非常に類似度の高い領域が

TDTAALTDTGLSTNER SGLLALIDTGSATR-K QQ-LAIMDTGPTTELG

・・・・・・・・・・・・

配列配列配列配列bbbb 配列配列配列配列aaaa

配列配列配列配列cccc

・・・・・・・・・・・・

・複数の配列を並べて配列同士の一致、不一致、ギャップ等をしらべたものをマルチプルアライメントと呼ぶ。

(9)

保存されている場合が多いという仮定を基にしている。このため、探索初期における保存領域の同定に、ワードを基にする方法を用いている。BLAST のアルゴリズムは以下の 3 つのステップに分けられる。

・データベースにある配列の中に、問い合わせ配列に含まれる領域と非常に類似度の高い領域を見つける段階

問い合わせ配列を長さ k の短い断片（ワード）として区切り、スコア行列を用いて閾値以上のスコアでマッチするワード群を求め、リストを作成する。データベース配列の中で、リスト中のワードとギャップなしでマッチするワードを探索する。

・見つけた領域を拡張する段階

マッチしたワードをギャップが存在しないように、スコア値が最大になるまで両方向に伸ばしていく。

・得られた領域を結合する段階

データベース全体で、一定の閾値以上のスコアを持つ HSP を求める。HSP とは、配列間の比較の際に、両配列間のギャップを含まない類似度の高い領域のことを指す。

2.5 2.5 2.5

2.5 PSI PSI PSI PSI----BLAST[3] BLAST[3] BLAST[3] BLAST[3]

PSI-BLASTは、BLASTにギャップを取り扱えるようにしたgapped BLASTに基づいて作成されている。PSI-BLASTのアルゴリズムは以下4つのステップにて表される。

・ 1本の配列を問い合わせとしてgapped BLASTによりデータベース検索を実行するステップ（ステップ1）

・検出された類似配列を用いてマルチプルアライメントを作成するステップ（ステップ 2）

・そのアライメントから作成された、サイト特異的スコア・テーブルを用いてデータベース検索を行う。（ステップ3）

新規の類似配列が検出された場合はステップ2に戻り、新規の類似配列が検出されなくなるまでステップ 2、3、4 の処理を繰り返す。新規の類似配列が検出されなくなった場合、

繰り返し処理を打ち切り検索を終了する。新規の類似配列が検出されなくなった状態は、

(10)

PSI-BLAST中では「収束した(converged)」と表現される。（ステップ4）

(11)

第第第

第 3 3 3 3 章章章章立体構造予測手法立体構造予測手法立体構造予測手法立体構造予測手法

本章では、大まかに見て３つに分類されるタンパク質立体構造の予測手法についての説明を行う。

3.1 3.1 3.1

3.1 Comparative Comparative Comparative Comparative modeling modeling modeling modeling （（（（比較比較比較モデリング比較モデリングモデリングモデリング法法法）法）））

比較モデリング法とは、一般的に配列一致度が高い場合（目安として３０％以上）に用いられる立体構造予測手法で、具体的には配列の類似したタンパク質同士はその立体構造も類似していることが多いため、予測対象のアミノ酸配列と構造既知のタンパク質のアミノ酸配列との間に高い配列一致度がある場合に、その構造既知のタンパク質の構造をテンプレートとして全体の構造を構築する手法である。

3.2 3.2 3.2

3.2 Fold r Fold r Fold r Fold recognition ecognition ecognition ecognition （（（（フォールドフォールドフォールドフォールド認識法認識法認識法）認識法）））

フォールド認識法とはタンパク質立体構造予測手法の一つ。フォールドとはタンパク質の特定の折りたたみ構造のことで、アミノ酸配列が変化してもそのフォールドが保存されていることがある。また、存在するタンパク質のフォールドは 1000 程度と、その数に限りがあると推測されている。フォールドの数が限りあると仮定すると、ある配列のフォールドが既知のフォールドと類似であるかを調べることにより立体構造の予測が可能になる。

この方法がフォールド認識法。配列一致度が数％程度と低い場合にも予測ができる。

3.3 3.3 3.3

3.3 New fold New fold New fold New fold （（（（ニューフォールドニューフォールドニューフォールドニューフォールド法法法法））））

ニューフォールド法とは、一般的に既知の立体構造と全く類似性が見られない場合に用いられる手法で、名前の通り、全く新規のフォールドを予測する。具体的には、タンパク質は天然状態では自由エネルギー最小の状態を取るという仮定に従い、立体構造のポテンシャルエネルギーを計算しそれを最小化する構造を探すことで構造を予測する。最近では、

タンパク質の局所的な構造のフラグメントを統計的に得られたポテンシャルを最小化する

(12)

ように組み合わせ、立体構造を予測するfragment assembly法が主流になっている。

3.4 3.4 3.4

3.4 手法毎手法毎の手法毎手法毎のの比較の比較比較比較

3つの手法の特徴をまとめると、表 1のようになる。比較モデリング法は配列間の相同性が高い場合（目安として30%以上）によく用いられる。他の2つの手法と比べて配列間の相同性が高いという重要な情報を持っているため、比較モデリング法は他の2つの手法と比べて正解構造に近い精度の高いモデルを予測できる。フォールド認識法は配列間の相同性が数%と低い場合、また立体構造の一部に類似性が見られる場合に用いられる。一般的に比較モデリングよりモデルの精度は低いが、近年ではそれに匹敵するほど精度の高いモデルが提出されている。ニューフォールド法は、配列、構造ともに既知のものと全く類似性が見られない場合に用いられる。配列、構造の情報を全く持っていないため、ゼロから立体構造を予測しなければいけない。研究が始まった当初は全く見当はずれのモデルを提出することが多かった。以上のような特徴を各予測手法は持っているが、最近は立体構造予測のターゲットであるタンパク質を、この3つの手法のどこで扱うかを定めることが非常に難しいケースが増えている。特に比較モデリングとフォールド認識、フォールド認識とニューフォールドの境界は、お互いの手法がそれぞれ相手の手法の長所を取り入れていることもあって、曖昧になってきている。

表1：各立体構造予測手法のまとめ

立体構造の予測手法名手法毎の利点、特徴

比較モデリング法

(Comparative modeling)

配列相類似度が高い場合に有効

（30%超）

フォールド認識法 (Fold recognition)

配列類似度が数%程の場合に有効構造に類似性が見られる場合に有効

(13)

ニューフォールド法 (New fold)

配列、構造ともに全く類似性が見られない場合に有効

(14)

第第第

第 4 4 4 4 章章章章ターゲットターゲットターゲットターゲットのののの分類分類分類分類

立体構造予測のターゲットとなるタンパク質は、実際の予測に入る前に配列や既知のフォールドとの類似性をもとにして分類される。分類することによって、ターゲットとなるタンパク質の特性に応じて立体構造予測手法が適用される。本章では、CASP というタンパク質立体構造予測コンテスト[4]（CASP については後で詳細に説明する。）の最新の結

果(CASP5)をもとにタンパク質ターゲットの分類について述べる。[5]

4.1 4.1 4.1

4.1 タンパクタンパクタンパクタンパク質質質質ドメインドメインドメインドメイン

大型のタンパク質の立体構造は，いくつかの立体構造の組み合わせでできている。この立体構造の単位をドメインと呼ぶ。一般に、ドメインは約70-100残基から成る｡複数のドメインによって成立するタンパク質では、１つのドメインが固有の機能を発揮する場合が多い｡現在判明しているだけで約 2-300 種のドメインがあり、構造が未知のタンパク質を考慮すると、全部で約 1000 種のドメインがあると推定されている。現在では，立体構造が分かっている多くのタンパク質のデータを基に、特定のタンパク質のドメイン構造は 1次構造（配列）から推定できる。

4.2 4.2 4.2

4.2 ドメインドメインドメインドメイン境界境界境界境界ののの定義の定義定義定義

ターゲットは既知のフォールドとの配列一致度や構造類似度に基づいて分類される。そのような分類を行うにあたって、まずターゲットをドメインの単位にまで分解する。なぜなら、ドメインは立体構造の最小単位と言えるからである。しかし、ターゲットが複数のドメインを有している場合、ターゲットの分類がスムーズに行われないことがある。例えば、２つのドメインを有するT0149というターゲットは、N末端のドメインは既知のフォールドと配列、構造ともに類似性が見られるにもかかわらず、C末端のドメインは既知のフォールドと配列における類似性は全く見られないという特徴をもつ。従って、正確なターゲットの分類にはドメインの境界を定め、それぞれドメインごとに異なるカテゴリに属

(15)

する必要がある。境界は残基や側鎖といったパラメータによって定められる。CASP5 においては、全部で55のターゲットを80のそれぞれ独立したドメインに分類している。

4.3 4.3 4.3

4.3 ドメインドメインドメインドメイン構造構造構造構造ののの予測の予測予測予測がががが困難困難困難困難ななな場合な場合場合場合

ここでは、ドメイン構造の予測が難しい場合をCASP5での結果を例に挙げて見ていく。

まず１つ目に挙げられるのが、ドメインの置換が起こっている場合である。具体的には、

タンパク質鎖間においてドメインが入れ替わっている場合や、ドメイン間において二次構造要素が入れ替わっている場合などである。２つ目に挙げられるのが、アミノ酸配列から見て、ドメインの境界が見分けづらい場合である。この事態もドメイン間での二次構造要素の置換や既知のフォールドの中にドメインが挿入されることによって引き起こされる。

4.4 4.4 4.4

4.4 進化進化に進化進化ににに基基基づく基づくづくドメインづくドメインドメインドメイン分類分類分類分類

CASP5の大きな目的として、立体構造予測が比較モデリング(Comparative modeling), フォールド認識(Fold Recognition),ニューフォールド(New Fold)の３つのカテゴリのいずれかで行われるよう、ターゲットが既知のどの構造と似ているかを定めることが挙げられる。SCOPといったデータベースを参照し、ターゲットと既存のタンパク質との配列、構造類似性を探ることによってターゲットと既存のタンパク質との進化的な関連性を見出すことができる。

4.4.1 4.4.14.4.1

4.4.1 CM domain (Comparative Modeling)CM domain (Comparative Modeling)CM domain (Comparative Modeling)CM domain (Comparative Modeling)

ターゲットと既知のフォールドとの類似性を調べる場合、配列プロファイルや立体構造データベースを参照する。特に、BLAST や PSI-BLAST など一次構造（配列）の情報に依存した手法によって判明したドメインは、比較モデリング法で立体構造予測されるカテゴリに分類される。CASP5 ではターゲットの全ドメイン80 個中51 個のドメインがこのカテゴリに属している。

4.4.2 4.4.24.4.2

4.4.2 FR(H)/(A) domain (Fold Recognition)FR(H)/(A) domain (Fold Recognition)FR(H)/(A) domain (Fold Recognition)FR(H)/(A) domain (Fold Recognition)

(16)

このカテゴリに属するドメインは大きく２つに分かれており、１つは、PSI-BLAST 等によって既知の構造の配列と相同性は示すものの、相同性が低い場合である。このFR(H) ドメインはCM ドメインと厳密な区別がつきにくく、CASP5ではCMドメインと数が一部重複し、22個のドメインがFR(H)のカテゴリに属している。また、DaliといったPDB のデータベースから既知の構造との類似性を探し、構造類似性が見られるドメインは FR(A)のカテゴリに属する。CASP5では24個のドメインが FR(A)のカテゴリに属している。

4.4.3 4.4.34.4.3

4.4.3 NF domain (New Fold)NF domain (New Fold)NF domain (New Fold)NF domain (New Fold)

4.4.2で述べた手法を用いても、既知の構造と全く類似性が見られない場合、ニューフォ

ールドのカテゴリにおいて立体構造予測が行われる。CASP5では、5個のドメインがこのカテゴリに属している。

4.5 4.5 4.5

4.5 ドメインドメインドメインドメイン分類分類分類分類のまとめのまとめのまとめのまとめ

4.4 では CASP5 の結果を例にとって、ドメインのカテゴリ分けについて述べた。表 2

にその結果を示す。表からもわかるように、ドメインは一応3つのカテゴリに分類されることになっているが、CMのカテゴリとFR(H)のカテゴリのようにドメインが一部重複する、境界が曖昧なカテゴリも見受けられる。やはり、この予測手法による3つのカテゴリ分けは便宜的なものでしかなく、あまり意味のないものと思われる。それよりも、ターゲットとなるドメインをデータベースと比較して、配列に特徴があるか、構造に特徴があるかといった、問題の性質に応じてカテゴリ分けを行うのが望ましいとされている。

表2 ：CASP5 におけるターゲット分類

カテゴリ名ドメイン数

CM domain

(CM=比較モデリング)

51個

（うちFR(H)と共有22個）

(17)

FR domain

(FR=フォールド認識)

46個

( FR(H)22個, FR(A)24個 ) NF domain

(NF=ニューフォールド) 5個

(18)

第第第

第 5 5 5 5 章章章章フォールドフォールドフォールドフォールドからからからから見見見見るるるる構造予測構造予測構造予測構造予測

本章では、タンパク質立体構造予測において重要な情報を持っているフォールドについて掘り下げる。また、CASP の比較モデリングやフォールド認識の部門において毎回上位にランクされるモデルを提出している Fischerの提案したフォールド認識の手法を紹介する。

5.1 5.1 5.1

5.1 フォールドフォールドのフォールドフォールドののの概念概念概念概念

5.1.1 Fold 5.1.1 Fold5.1.1 Fold

5.1.1 Fold（（（（フォールドフォールドフォールドフォールド））））

Fold（フォールド）とは、タンパク質の主鎖の大まかな折りたたみ構造のことを指す。

フォールドという観点からタンパク質を見た場合、似たフォールドを持つタンパク質同士は機能も似ていることがあり、生物学的に重要である。

5.1.2 5.1.2 5.1.2

5.1.2 フォールドフォールドフォールドフォールドののの比較法の比較法比較法比較法

フォールドを比較する手段として、DaliやVASTといったプログラムが提唱されている。これらのプログラムは大筋として、主鎖の中の Cα原子あるいは側鎖の最初の炭素原子であるCβ原子の位置の比較を行う。そしてそれらの原子間距離を比較し、その差の、

ある対応付けを与えたときに計算できる和ができるだけ小さくなるような対応付けを探す。

5.1.3 5.1.3 5.1.3

5.1.3 フォールドフォールドフォールドフォールドののの類似性の類似性類似性類似性

・タンパク質ファミリー

タンパク質が他の有機化合物と異なるのは、進化の産物であると同時に、アミノ酸が重合してできた高分子化合物という側面があることである。そのため、近縁の生物種の中には似た機能を持つタンパク質が存在し、これらに似た機能を持つタンパク質を調べるとそのアミノ酸配列も似ていることがわかるこのことは、進化の過程でタンパク質はそのアミノ酸配列を少しずつ変化させながら現在に至ったことを示している。このことから、アミノ酸配列で類似性が見られる一群のタンパク質は進化的な類縁関係があると考えることにして、これらをまとめてタンパク質ファミリーと呼んでいる。

(19)

・スーパーファミリー

タンパク質全体では非常に弱い配列類似性しか見られないが、機能に関わる重要な残基が保存され、機能も保持されているタンパク質の一群

・スーパーフォールド

多くのタンパク質の立体構造が明らかになるにつれ、似た配列を持つタンパク質は似たフォールドをとっている、つまり同じファミリー内では同じフォールドを持っていることがわかってきた。言い換えると、フォールドは進化の過程で機能と同じように保存量となっているようである。また、スーパーファミリーにおいても、フォールドの観点から見ると高い類似性が見られることが多くのタンパク質で明らかになってきた。また、配列や機能において全く類似性が見られないにも関わらず、フォールドだけ類似性が見られるタンパク質も発見されている。このような、進化的関係がわからないタンパク質群でよく見られるフォールドをスーパーフォールドと呼ぶ。

5.1.4 5.1.45.1.4

5.1.4フォールドフォールドフォールドフォールドのののの分類分類分類分類

タンパク質ドメインに着目してそのフォールドを系統的に分類する試みはすでにいくつかなされている。有名な分類としてはSCOP[6]、CATH[7]、FSSP[8]などがある。これらの分類は手法やポリシーが異なり、それに応じて分類の結果も変わってくる。主な違いとして、SCOPは構造に関するあらゆる知識を総動員してすべてマニュアルで行うのに対し、

FSSP[8]はコンピュータプログラムを使って自動的に行う。CATH[7]はSCOPとFSSPの手法をバランスよく用いている。また、分類結果もタンパク質ドメインの定義の仕方、構造の類似性と機能の類似性のどちらに重きを置くか、構造が似ているかどうかの判断を行う閾値の取り方によって変わってくる。

5.1.5 5.1.55.1.5

5.1.5 フォールドフォールドフォールドフォールドのののの数数数数

タンパク質が水溶液中で安定性を獲得するためには、高い密度で球状に固まらなくてはならず、二次構造を作ってそれらがある程度の規則性もって固まる特性があることを

Finkelstein らが証明した。その結果からタンパク質がとりうる立体構造には限りあるこ

(20)

とが証明された。Chothia は 1990 年の時点で構造がわかっているタンパク質において、

その構造が明らかになった時点でそれが既知の構造と類似性がある割合と、既知の配列のファミリーとスーパーファミリーの数の関係を使って、全体としてどれくらいの数のフォールドが存在するかを推量し、1000種類程度あると予測した。これにより、フォールドの数に限りがあるため、フォールドを用いてタンパク質の立体構造を予測することが可能となる。

5.2 5.2 5.2

5.2 フォールドフォールド認識フォールドフォールド認識認識認識ののの技法の技法技法技法

5.2.1 5.2.1 5.2.1

5.2.1 配列配列配列配列プロファイルプロファイルプロファイルプロファイル[9][9][9][9]

配列プロファイルは問い合わせ配列を基にホモロジー検索等を行ってマルチプルアライメントを作成し導出する。また、配列プロファイルのことを PSSM(position specific

scoring matrix)とも呼ぶ。字のごとく、サイト（残基の位置）に依存した置換行列（PAM

やBlosum）を示す。同じH（ヒスチジン）でも、類縁タンパク質でLやAに置換されて

いる部分にある Hと、H が保存されている部分にあるH では配列中の役割が異なってくるであろう。従って、前者と後者で利用する置換行列は異なるべきである。こういう点を考慮した置換行列が配列プロファイル。

5.2.2 5.2.2 5.2.2

5.2.2 二次構造予測二次構造予測二次構造予測二次構造予測[9][9][9][9]

多くの方法では、問い合わせ配列の二次構造予測の結果を利用している。後に紹介する

Fischer の手法もこの技法を採用している。フォールドが似ているということは、二次構

造の配置もおおよそ一致することを意味している。この点を強調するために、二次構造予測結果とデータベース側の二次構造の一致を数値化してスコアに取り込む。二次構造予測の精度が高まっていることから有効な手法である。

5.2.3 5.2.3 5.2.3

5.2.3 構造構造構造構造----配列適合性関数配列適合性関数配列適合性関数配列適合性関数[9][9][9][9]

古典的なフォールド認識においては、フォールドレベルでタンパク質を捉えるあまり、

配列プロファイル等の配列由来の技法を極力排除していた。その代わりとして、構造と配

(21)

列の適合性を直接評価するような適合性関数（構造関数）を用いてデータベース検索を実行していた。適合性関数とは、タンパク質の安定性を評価するエネルギー的なものを指す。

具体的にはアミノ酸間相互作用関数、水和の関数、アミノ酸の二面角の傾向を反映した関数等である。

5.2.4 5.2.4 5.2.4

5.2.4 構造構造アライメント構造構造アライメントアライメントアライメント[9][9][9][9]

本来、配列プロファイルは配列アライメントから作成されるが、立体構造のわかっているタンパク質があれば、構造アライメントを利用してより厚いアライメントを作成することが可能である。この構造アライメントに基づいて作成した配列プロファイルを 3D-PSSMとも呼ぶ。

5.2.5 5.2.5 5.2.5

5.2.5 多重方向多重方向多重方向多重方向サーチサーチサーチサーチ[9][9][9][9]

PSI-BLAST に代表される配列プロファイルを利用したサーチでは、問い合わせ配列の

配列プロファイルを作成して、立体構造既知のタンパク質からなる配列データベースに対して検索をかける。一方で、配列データベースのタンパク質についてプロファイルを作成し、問い合わせ配列との適合を評価するというサーチ法もある。この二つのサーチを実行して結果の和を利用すると精度が上がることが経験的に知られている。

5.3 Hybrid fold recognition[10]

5.3 Hybrid fold recognition[10] 5.3 Hybrid fold recognition[10]

5.3 Hybrid fold recognition[10]

5.3.1 5.3.1 5.3.1

5.3.1 手法手法手法手法のののの概要概要概要概要

立体構造予測を行う上で、ただ単一の方法のみを用いて予測を行うよりも、複数の手法を組合せて予測を行ったほうが高い予測精度を示すということが経験的に知られている。

ここで紹介するFischerが提唱したHybrid fold recognition という予測方法は、名前の示すように配列情報と構造情報の2つを組合せて予測精度の向上を目指すものである。具体

的には、PSI-BLAST を主とした配列相同性検索による進化的情報と問い合わせ配列を元

に二次構造を予測し、観察される二次構造と重ね合わせるといった構造情報の２つを組合せて予測を行っている。

(22)

5.3.2 SDP[11]

5.3.2 SDP[11]5.3.2 SDP[11]

5.3.2 SDP[11]

ここでは、Hybrid fold recognitionの中核を成すSDPのアルゴリズムについて説明する。SDPとは配列由来の情報とグローバル・ローカルダイナミックプログラミング（動的計画法）アルゴリズムを用いて配列と構造の適応性を計算する。計算式は以下のようになる。

g(

g( g( i, i, i, jjjj )))) = i, = = f( = f( f( i, f( i, i, i, jjjj )))) + + + + w h( w h( w h( w h( i, i, i, i, jjjj ))))

・関数gはiの位置にあるターゲット配列の情報とjの位置にあるフォールドに関連する。

・関数fはiの位置にあるターゲット配列とjの位置にあるフォールドの配列の相同性を表している。具体的には、マルチプルアライメントや配列プロファイルによって計算される。

・関数hはターゲット配列の二次構造予測の結果を利用し、iの位置にあるターゲット配列から予測された二次構造と j の位置にあるフォールドに観察される構造との適応性を計算する。

・ wは位置に依存した経験的な重みを表す。

5.4 5.4 5.4

5.4 まとめまとめまとめまとめ

この章では、まずフォールドと呼ばれるタンパク質の主鎖の折りたたみ構造の性質、フォールドと立体構造予測の関わりについて説明した。フォールドの類似性に応じたグループに関しては、以下の表3にまとめた。フォールドの数は1000程度と限りあることから、

既知のフォールドをもとにタンパク質の立体構造全体を予測することが可能となる。次に、

フォールドを用いた立体構造予測であるフォールド認識法の中でよく使われる技法を紹介した。それぞれの特徴について表4にまとめた。また、CASPにおいて好成績を収めてい

るFischerの提案したフォールド認識の手法について説明した。フォールド認識の技法の

中でも、紹介した Fischerの手法でも用いられている二次構造予測、配列プロファイルは予測精度を高めるものとして現在もよく使用されている。逆に、構造-配列適合性関数はまれに素晴らしい結果を残すこともあるが、簡単な問題を間違えることも多く、現在あまり

(23)

用いられることが少ない技法である。

表3 ：フォールドの類似性

グループ名特徴

タンパク質ファミリーアミノ酸配列で類似性が見られるタンパク質の一群

スーパーファミリー配列類似性は弱いが、機能、機能に関わる残基が保存されているタンパク質の一群スーパーフォールド配列や機能に全く類似性が見られないが、

フォールドが類似したタンパク質の一群

表4 ：フォールド認識の技法

技法名内容

配列プロファイル残基の位置に依存した置換行列

二次構造予測問合せ配列の二次構造予測結果とデータベース中の二次構造を重ね合せスコア化する。

構造-配列適合性関数アミノ酸間相互作用関数といった配列と構造の適合性を直接評価する関数

構造アライメント既知の立体構造と構造同士のアライメントを行う。

多重方向サーチ配列や構造など様々なデータベースに検索をかけ、問合せ配列との適合性を評価

(24)

第第第

第 6 6 6 6 章章章章 CASP( CASP( Critical Assessment of te CASP( CASP( Critical Assessment of te Critical Assessment of te Critical Assessment of techniques for chniques for chniques for chniques for protein Structure Prediction

protein Structure Prediction protein Structure Prediction protein Structure Prediction ))))

本章では、タンパク質の立体構造予測コンテストであるCASPの結果を元に、タンパク質立体構造予測の最新技術動向について説明する。

6.1 CASP[5]

6.1 CASP[5] 6.1 CASP[5]

6.1 CASP[5]

CASPとは、Critical Assessment of Structure Predictionの略で、2年に１回世界規模で行われるタンパク質構造予測のコンテストである。1994年に第１回のCASP1が開催され、昨年第６回目の CASP6 が行われた。CASP では, 立体構造が近々実験的に決定されるタンパク質のアミノ酸配列が問題としてインターネット上に掲載され、期限内に参加者がその立体構造を予測し結果を送る。実験により決定された正解構造がすべて出た時点で, 第三者の評価によりスコアがつけられ評価が決まる。各参加グループの成績は比較モデリング(CM)、フォールド認識(FR)、ニューフォールド(NF)の 3 カテゴリに分けて評価される。まず、ターゲットを構造ドメインごとにCMからNFまで, テンプレートを簡単に発見することができた、発見するのが困難だったというテンプレート発見の難易度にしたがって、前もって 6つのレベルに分類する。核カテゴリでは, どのレベルのターゲットを使って成績評価するかが決まっており, 割り当てられたターゲットに対する予測構造の精度によって, それぞれのカテゴリにおける各チームの成績が決まる。

6.2 CAFASP[12]

6.2 CAFASP[12] 6.2 CAFASP[12]

6.2 CAFASP[12]

CAFASPはCritical Assessment of Fully Automated Structure Predictionの略であり、

CASP と同じ立体構造予測コンテストであるが、すべてをコンピュータのプログラムのみで行うという点で異なっている。すなわち予測の過程において、人間の思考が入らないということである。具体的には予測したい構造のアミノ酸配列をサーバーに入力すれば、その配列の立体構造が自動的に返ってくるという仕組みである。また、CASP は問題を出題

(25)

してから一ヶ月以上解答までの猶予があるのに対し、CAFASP では出題から48時間以内に解答お提出しなければいけないという規則もある。これも人間の思考が予測に入らないようにするためである。CASPと同時期に開催され、CAFASPは1998年にCAFASP1として始まり2004年にCAFASP4が行われた。

6.3 CASP 6.3 CASP 6.3 CASP

6.3 CASP のの結果のの結果結果結果

CASP では問い合わせ配列と既知の立体構造の配列との類似性によって、以下の 3 つの部門に分類されている。

6.3.1 6.3.1 6.3.1

6.3.1 比較比較モデリング比較比較モデリングモデリングモデリング部門部門部門部門[15][16][15][16][15][16][15][16]

比較モデリング部門では、問い合わせ配列と既知構造の配列と有意な類似性を示すものが扱われる。

・CASP4におけるCM部門

CASP4 では上位８グループの結果はほぼ同じで、良いアライメントを得られたことが

好結果につながる鍵であったようだ。上位グループの行った手法はほぼ似通っており、その手順はまず、類縁タンパク質間で立体構造上保存されている領域を同定する。そのような保存領域については、主鎖の平均的構造をモデルとして使用し、非保存領域については、

例えば、二次構造予測や配列類似性解析等の結果から最も相応しいと思われる主鎖構造を慎重に選ぶ。また、比較モデリング法の理想として、テンプレートから得られた三次元モデルをターゲットの正しい立体構造にできるだけ近づけることが挙げられる。そのため、

分子の運動や分子の構造に基づいて三次元モデルをより正しい立体構造に近づける方法があるが、先に挙げた8グループはその方法を取り入れていない。得られたモデルを正しい立体構造から遠ざけてしまうと判断してのことだろう。

・CASP5におけるCM部門

CASP5での比較モデリング法に関しては、CASP4の時点で既に高水準のモデルを作る

手法が確立していたため、全く新規の手法が提案されているということはなかった。比較モデリングでは、構造既知のタンパク質をテンプレートとして立体構造予測を行うが、そ

(26)

のテンプレートを複数用いるマルチプル・テンプレートという手法を取り入れることで、

正解構造により近い精密なモデルを作ることを可能にした。しかし、テンプレートを複数使うということは複数のモデルが出来上がるわけで、どれが一番正しいモデルかを決め難いという問題もある。

6.3.2 6.3.2 6.3.2

6.3.2 フォールドフォールド認識部門フォールドフォールド認識部門認識部門認識部門[17][18][17][18][17][18][17][18]

フォールド認識部門では比較モデリング部門において扱われる配列程、既知の構造と類似性が見られないが、結果としてターゲットの立体構造フォールドが既知のフォールドと類似しているものが扱われる。

・CASP4におけるFR部門

フォールド認識法は、既知の構造に配列をマッチさせるための、進化的情報を抽出する

手法（PSI-BLAST や隠れマルコフモデル等の配列情報に基づく手法）の進歩によって大

きく変化した。フォールド予測の際に、PSI-BLAST 単体では、他の配列情報に基づく手法や配列-構造情報に基づく手法よりも性能が劣るという、興味深い結果がでている。フォールド認識法は比較モデリング法のトップグループと比べて、同じレベルまでに精度が高まってきたが、問題点として、構造情報が配列情報に基づく手法を改善できるかどうかといった問題がある。つまり、構造情報によって配列情報に基づく手法では見つけ出せない離れた相同性を見つけることができるかということである。しかし、配列情報だけで良い成果を収めているORFeusやFFASなどのサーバーの例もあり、構造情報による明らかな改善例はないようである

・CASP5におけるFR部門

CASP5 においては、メタ・サーバーと呼ばれるコンセンサス予測法の一群が上位を占

めた事が特徴的である。この傾向は、CAFASPの評価結果にも見られる。メタ・サーバーとは、複数のサーバーから構造予測に関する情報を取り込むことで、データの絶対数を増やし、豊富なデータを参照して構造予測を行うものである。また、Rychlewskiの構築した

3D-Jury システムは、幾つかの独自の予測法を持つサ－バ群の予測結果構造を入力とし、

それら複数の構造から中心となる構造を選択するようなシステムである。それ故、比較モ

(27)

デリング部門の項で述べたような類縁タンパク質間の平均的構造を選択するような効果も間接的に入っていると思われる。

6.3.3 6.3.3 6.3.3

6.3.3 ニューフォールドニューフォールド部門ニューフォールドニューフォールド部門部門部門[19][19] [19][19]

比較モデリング、フォールド認識の部門で扱われる程、ターゲットの配列やフォールドが既知の立体構造と類似性を見出すことができないため、立体構造モデルを参加者自身が独自に作らなければならないものが扱われる。

・CASP4におけるNF部門

ニューフォールド法は全く何も情報がない状態から立体構造を予測するようなものなので、配列や構造情報をもとに予測を行う比較モデリング法やフォールド認識法と比べて良い予測結果が出にくいとされる。CASP2の頃までは全く成果が見られなかったが、CASP2

からCASP3、CASP3からCASP4へと時間を経るにつれ、少しずつ成果が出始めてきた。

特にCASP4 ではRosetta らが大きな領域を占めるドメインの全体配置をかなりの精度で

定めるなど、すばらしい成果を収めている。

・CASP5におけるNF部門

主催者側が計算する予測モデルと実際の構造間の類似性の測り方では不都合が生じるとされ、評価者が実際に目で見て行う判断（主な二次構造要素の配置が合致するか）に重きが置かれた。Bakerのグル－プは上記の評価法においても、主催者側が通常行う類似性による評価でも単独上位を占めた。Bakerのグループが行った新規的な提案として、二次構造の中のβ構造部分に対する評価システムを強化した。具体的には、β-ヘアピン予測を採り入れたり、β-ストランド間での残基同士の接触をスコアに表していた。

6.4 CAFASP 6.4 CAFASP 6.4 CAFASP

6.4 CAFASP のののの結果結果結果結果のののの考察考察考察考察

従来では、完全自動予測が人間（専門家）の知識を加えた予測を上回ることはなかった。

しかしながら、CAFASP２では完全自動予測サーバーによる予測精度は人間の知識が入る予測の精度に迫りつつあり、特にフォールド認識の領域において両者の差はほとんどないようである。計算機のみより人間の介入を許したほうが予測が上手くいくのは、人間がタ

(28)

ーゲットに関する広く多様な情報をまとめることができるからで、複数のサーバーを用いて人間のこの能力を代替しようとする試みがある。複数のサーバーを用いた予測は単一のサーバーによる予測よりも精度が高く、期待が見込まれる。

6.5 6.5 6.5

6.5 まとめまとめまとめまとめ

CASP4、CASP5 それぞれについての特徴を表 5、表 6 にまとめた。全体として、比較

モデリング法に関しては大きな発展はなかったと言える。CASP3に大きな成果をあげた、

スーパーファミリーに属する配列同士など、比較的遠い相同関係を検出するソフトウェア

であるPSI-BLAST の影響が大きく、精度の高いモデルを作り出せるようになったのはこ

れに拠るところがある。しかしながら、アライメントの問題（ターゲットとテンプレート間のアライメントの精度が悪いと結果的にモデルの出来も悪くなる。）等モデルを真に正しい構造に近づける方法の確立は難しいと言える。また、フォールド認識においてはメタ・

サーバーを用いた予測が大きな成功を収めた。ニューフォールド法に関しては、CASPが始まった当初は見当はずれの予測ばかりであったのに対し、タンパク質の正しい全体配置が得られる程の発展を遂げた。３つの手法全体に共通する問題としては、細部にわたって精度が高いモデルを作ることが挙げられる。おおまかに全体的な配置はあっていても、細かい所まで正確なモデルをつくることは難しい。また、近年の傾向として立体構造予測のカテゴリ分けが崩れてきたようである。例えば、フォールド認識法の技術が詳細な配列情報を組み合せることによってアライメントを改善することや、また、比較モデリング法におけるロングループモデリングは、最終的に小さなニューフォールド法の問題であるとも言える。このように、他の手法を取り入れて、より高い精度で立体構造を予測しようとする試みはここ数年続いていくように思われる。

(29)

表5 ：CASP4 における各立体構造予測

予測部門名予測精度進歩点、問題点文献 CM 部門

(比較モデリング) 高いアライメントが構造の精度を左右する。

CASP3からのPSI-BLASTの影響大。

[15]

[16]

FR 部門

(フォールド認識)

CMにやや劣る

CM部門と同じくPSI-BLASTによる影響大。

構造情報の扱いが難しい。

[17]

[18]

NF 部門(ニューフ

ォールド) 低い Rossetaらがドメインの全体配置を定める等、

三部門の中で一番大きな発展を示す。 [19]

表6 ：CASP5 における各立体構造予測

予測部門名予測精度進歩点、問題点文献

CM 部門

(比較モデリング) 高い CASP4から発展あまり見られず。

複数のテンプレートを基にした予測が有効

[16]

[20]

FR 部門

(フォールド認識)

CMに匹敵

様々なサーバーのデータを集めたメタ・サーバーを用いた予測が台頭

[18]

[21]

NF 部門(ニューフ

ォールド) 低い CASP4と同じく発展大きい。

β構造部分を予測に取り入れる試みを為す。

[22]

[23]

(30)

第第第

第 7 7 7 7 章章章章おわりにおわりにおわりにおわりに

タンパク質がその機能を発現する環境下において、そのタンパク質は一意的な立体構造を形成する。そのため、タンパク質の機能を推定、解明するのにタンパク質の立体構造情報は大きな助けとなる。その考えに基づいて、現在構造ゲノミクスというプロジェクトが進められている。その内容は、タンパク質の分子性機能を解明するために、すべてのフォールドを定めようという試みである。フォールドは機能に関連が深いと考えられるので、

フォールドを決定することでタンパク質の機能が推定可能になる。タンパク質を発現させ、

立体構造の情報を用いないで機能を決定しようとしても、機能に対する見当がなければ、

何から実験すればよいかの手がかりもない。タンパク質の立体構造の決定によって、機能に関する手がかりを得ることは十分に可能である。

本論文では、まず一般的なタンパク質立体構造予測手法である比較モデリング法、フォールド認識法、ニューフォールド法についてそれぞれ説明を行った。特にフォールドという観点から立体構造予測を取り上げ、フォールドの概念に始まって、フォールドの意味、

フォールド認識の手法や、その中で使われる技法についても説明を行った。また、立体構造予測コンテストであるCASPの最近の結果を考察し、各立体構造予測手法における進歩した点、問題点について明らかにした。

(31)

謝辞

本研究を行うにあたり、適切な助言やご指導を頂いた山名早人助教授に深く感謝致します。また、アドバイスを下さった山田真介先輩に心から感謝いたします。そして、色々とお世話になった研究室の先輩方、同輩にも御礼申し上げます。

(32)

参考文献参考文献参考文献参考文献

[1] BLAST, http://www.ncbi.nlm.nih.gov/BLAST

[2] CLUSTALW analyzing system,

http://crick.genes.nig.ac.jp/homology/clustalw-e.shtml

[3] 美宅成樹, 榊佳之: 応用生命科学シリーズ 9 バイオインフォマティクス, 東京科学同人, pp98-115 (2003)

[4] Protein Structure Prediction Center, http://predictioncenter.llnl.gov

[5] Lisa N. Kinch, Yuan Qi, Tim J. P. Hubbard, Nick V. Grishin: CASP5 target classification, Proteins, 53(Suppl 6) pp340-351 (2003)

[6] SCOP, http;//scop.mrc-lmb.cam.ac.uk/scop/index.html

[7] FSSP, http://www2.ebi.ac.uk/dali/fssp/fssp.html

[8]CATH, http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html

[9]菅原秀明: あなたにも役立つバイオインフォマティクス, 共立出版, pp77-84 (2002)

[10] Fischer D: Hybrid fold recognition: combining sequence derived properties with evolutionary information. Pac Symp Biocomput. :pp119-30 (2000)

[11] Fischer D and Eisenbarg D: Protein fold recognition using sequences-derived

(33)

predictions, Prot, Sci., 5 ;pp947-955 (1996)

[12] Fischer D: CAFASP, Proteins, 53(Suppl 6) pp503-516 (2003)

[13] Fischer D, Elofsson A, Rychlewski L, Pazos F, Valencia A, Rost B, Ortiz AR, Dunbrack RL Jr: CAFASP2 the second critical assessment of fully automated structure prediction methods, Proteins , 45(Suppl 5) pp171-183 (2001)

[14] Jack Schonbrun, William J Wedemeyer and David Baker: Protein structure prediction in 2002, Current Opinion in Structural Biology, pp348-354 (2002)

[15] Tramontano A, Leplae R, Morea V: Analysis and assessment of comparative modeling predictions in CASP4, Proteins, 45(Suppl 5) pp22-38 (2001)

[16] Tramontano A, Morea V: Assessment of homology based prediction in CASP5, Proteins,53(Suppl 6) pp352-368 (2003)

[17] M. Turcotte, S.H. Muggleton, & M.J.E. Sternberg: Automated discovery of structural signatures of protein fold and function. Journal of Molecular Biology, 306:

pp 591–605 (2001)

[18] Lisa N. Kinch, James O. Wrabl, S. Sri Krishna, Indraneel Majumdar, Ruslan I.

Sadreyev, Yuan Qi, Jimin Pei, Hua Cheng, Nick V. Grishin: CASP5 assessment of fold recognition target predictions, Proteins, 53(Suppl 6) pp395-409 (2003)

[19] Bonneau R, Tsai J, Ruczinski I, Chivian D, Rohl C, Strauss CE, Baker D: Rosetta in CASP4: progress in ab initio protein structure prediction, Proteins, 45(Suppl 5)

(34)

pp119-126 (2001)

[20 ]Venclovas C: Comaparative modeling in CASP5: Progress is evident,but alignment error remain a significant hindrance, Proteins, 53(Suppl 6) pp380-388 (2003)

[21] Marcin von Grotthuss, Jakub Pas, Lucjan Wyrwicz, Krzysztof Ginalski, Leszek Rychlewski: Application of 3D-Jury, GRDB, and Verify3D in fold recognition, Proteins,53(Suppl 6) pp418-423 (2003)

[22] Patrick Aloy, Alexander Stark, Caroline Hadley, Robert B. Russell: Predictions without templates: New folds, secondary structure, and contacts in CASP5, Proteins,53(Suppl 6) pp436-456 (2003)

[23] Philip Bradley, Dylan Chivian, Jens Meiler, Kira M.S. Misura, Carol A. Rohl, William R. Schief, William J. Wedemeyer, Ora Schueler-Furman, Paul Murphy, Jack Schonbrun, Charles E.M. Strauss, David Baker: Rosetta predictions in CASP5:

Successes, failures, and prospects for complete automation,Proteins,53(Suppl 6) pp457-468 (2003)

(35)

タンパク質立体構造予測に関する 最新技術動向

2004年 度 卒 業 論 文