2004 年度修士論文

(1)

2004 年度修士論文

たんぱく質における完全グラフを利用した rigid domain の同定法と SCOP への適用

提出日： 2005 年 2 月 2 日指導教員：山名早人助教授

早稲田大学大学院理工学研究科情報・ネットワーク専攻学籍番号： 3603u129-8

益子理絵

(2)

概要

アミノ酸配列上は類似性がみられないたんぱく質間でも，類似構造を持つたんぱく質が多数存在する．たんぱく質の機能と立体構造は密接な関係にあり，類似構造を持つたんぱく質間の機能には関係があると推測できる．また，たんぱく質の立体構造の中には進化的に保存されてきた部位があり，その部位が機能に大きな役割を果たしている．PDB(Protein

Data Bank)に代表される，既知の膨大な構造データを利用して立体構造を比較すること

は，配列の類似性のない分子進化的に離れたたんぱく質同士の関係を評価する上で重要な役割を果たす．

本研究の目的は，たんぱく質内部で，進化の過程で保持されている局所的な構造を同定し，分類や解析することで，立体構造の構築原理についての知見と，多様性を生み出す機構についての知見の得ることである．本論文では，構造データが既知で，互いに類似した構造をもつ複数のたんぱく質について，その対応関係をグラフに表し，その中から完全グラフを見つけることで，局所的に共通する構造，あるいはそれらのたんぱく質の間で変化しない硬い構造(rigid domain)を同定する方法を提案した．この方法では，まず，たんぱく質の各アミノ酸をCαで代表し，そのCαをグラフ上の1つの点と考える．続いて，あるCαペアについて，比較するたんぱく質間で対応するすべてのCαペアの距離のばらつきが，ある一定範囲内にあるとき，その2つの点を結ぶ辺が存在するものとする．こうして得られたグラフから完全グラフを発見し，進化の過程で保持されてきたrigid domainを抽出した．評価として，たんぱく質構造データベースSCOP(Structural Classification Of Proteins)の階層的な分類を利用して，同一のFold，同一のSuperFamily,あるいは同一の

Familyに属する複数のたんぱく質に対してrigid domainを求め，その結果を考察した．

(3)

第 1 _{章はじめに}

たんぱく質は，生物細胞の主要な構成物質で，細胞内の構造形成に関与したり，酵素として生体反応を触媒するなどの機能を果たす生体高分子である．たんぱく質は，DNA上にコードされた遺伝子塩基配列がRNA配列に転写され，そのRNA配列がアミノ酸に翻訳されるというセントラルドグマの過程を経て(図1.1)，一次元の鎖状のアミノ酸配列に生合成されたものである．たんぱく質の立体構造は，20種類からなるこのアミノ酸配列から決定されており(アンフィンゼンのドグマ[1])，生体を形作ったり，代謝などの生命活動を営む特異的な機能を発現している．

図1.1: セントラルドグマ

PDB(Protein Data Bank[2],[3])は，実験的に構造決定されたたんぱく質の立体構造データベースとして広く利用されている．X線結晶解析やNMR解析等の実験的方法によって決定されたデータ登録数は増加しており，2005年1月の時点で29,000件を超えている(図 1.2参照)．付録Aに，PDBのエントリー例を示す．登録されている膨大なPDBの構造データを利用して，立体構造比較からの機能推定，立体構造の予測，機能部位の特定等といった研究を行うことが可能となっている．

たんぱく質は，遺伝子重複や種文化を経ながら多様化してきた．この過程で，保存されてきた(あるいは保存されなければならなかった)部位と，多様性を増した部位を明らかにすることが，たんぱく質を理解することに繋がると考えられる．また，その保存部位は機能に関わっていることが確認され，部分的な配列及びその構造と機能の関係が議論されている．これまで，保存部位は主に生物学的実験に基づいて決定されてきたが，時間と手間

(6)

図1.2: PDBのエントリー数の推移([3]より引用)

がかかるため，近年では，判明済みの膨大なアミノ酸配列などの一次元データの比較からアルゴリズムによって自動的に保存部位を抽出する方法も利用されている．現在までに提案されている手法の多くは，複数のアミノ酸配列における，アミノ酸の20種の文字の羅列からパターンを発見するというやり方である．しかし，アミノ酸配列上類似性がみられないたんぱく質の間でも，類似構造を持つたんぱく質が多数存在している．このため，計算量は多くなるが，文字の配列の比較ではなく，たんぱく質の構造データの比較から保存部位を抽出することは，より正確な保存部位の抽出に繋がり，分子進化的に離れたたんぱく質どうしに共通する保存部位の抽出も期待できる．

以上のことから，本論文の研究目的は，たんぱく質の立体構造比較を行うことで局所的に共通する(アミノ酸配列が連続している・していないに関わらず)立体構造を同定し，進化の過程で保持されている構造と多様性を生み出す領域を明らかにすることである．局所的な構造を同定し，分類や解析することで，立体構造の構築原理についての知見と，多様性を生み出す機構についての知見が得られるものと期待できる．

(7)

本論文の構成を次に示す．２章では，たんぱく質の立体構造比較に関連する研究を紹介する．３章では，完全グラフを利用したrigid domainの同定方法について述べる．４章では，構造データベースであるSCOP(Structural Classification Of Proteins)[5]のたんぱく質について適用した結果を示す．５章では，本研究のまとめと考察を行う．

(8)

第 2 _{章関連研究}

立体構造のデータから局所構造を抽出するには，構造を比較して条件に合う構造部を発見するという作業が必要である．現在までに提案されている構造比較の手法は，たんぱく質のフォールド(立体構造パターン)全体を比較する手法が主であるが，構造比較過程で類似性を計算するアルゴリズムが局所構造の抽出においても基本的に利用される．局所構造の抽出に特化した手法はまだ少ないため，構造比較についての関連研究も示す．本章では，

構造データの利用における局所構造発見の位置づけについて述べた後，立体構造比較手法について述べ，続いて，局所的な構造を抽出する手法について述べる．

2.1 局所構造発見の位置づけ

たんぱく質の立体構造のパターン(フォールド)は，1000種程度であると言われている．

立体構造は機能と直結していることと，配列よりも立体構造の方が保存的であるということから，まず全てのフォールドを明らかにし，それを軸に機能予測や構造予測などの研究が行われている．局所構造であるモチーフの発見についての研究も，既知の立体構造のデータベースを利用して行われる(図2.1参照)．構造データを，計算機上で発掘または対比することで局所構造のパターンを抽出し，局所的に強く保存されていると判明すればモチーフの構造データベースに登録する．構造データベースもモチーフデータベースも，たんぱく質の立体構造予測，機能予測，そして構造分類のために利用される．

具体的に，局所構造(パターン)を発見するためのフレームワークは，図2.2の通りである．パターンは，実験的に直接発見する方法，比較アルゴリズムを用いて行う方法，そしてパターンマッチングによって発見する方法によって抽出される．図2.2中の辺(1)は，比較した結果は1つ以上のパターンとして表されるためにさらなる何らかの処理を必要とする可能性を示す．さらに，2つの構造を比較した結果を局所パターンとして表すことがで

(9)

図2.1: たんぱく質の比較とモチーフの発見([6]より引用)

図2.2: パターン発見のプロセス([6]より引用)

(10)

き，他の構造や局所パターンと比較できる場合，図中の辺(2)は，徐々により大きい構造とマッチするパターンを見つける作業が可能であることを示す．構造が一致しているかを

見る”Matcher”と，構造比較を行う”Comparison”は，非常に似た作業であり，実際に同じ

手法を使用している場合がほとんどである[6]．

2.2 立体構造の比較手法

立体構造の比較には，構造類似性のスコアを定義して計算する必要がある．構造類似性のスコアは，構造アラインメントを行う際に得られる．構造アラインメントでは，探索アルゴリズムとスコアリング関数の定義の両面から研究が行われている．最も直接的な手法は，残基同士の対応が予め求められている場合には，原子間距離によって構造類似性を計算することである．まずは，この原子間距離を基にした基本的なスコア計算について述べる．その後，残基間の対応自体も求める必要がある場合の，類似性のスコアが一番高くなるように構造アラインメントを行う手法について述べる．

2.2.1 原子間距離による構造類似性のスコア

残基同士の対応があらかじめ求められていて，なおかつ残基数が同一である場合には，

単純に原子間の距離から類似性のスコアを算出可能である．2つのたんぱく質の構造を比較するときの尺度として利用されている，RMS距離(Root Mean Square Distance)には，

次の2つの計算方法がある[7]．比較対象の2つのたんぱく質をAとBとする．cRM SD の計算式を次に示す．

cRM SD(A, B) = vu ut 1

N XN i=1

(kA(i)−B(i)k²)

cRM SDの場合は，Bは元の配列B⁰のままではなく，予めcRM SD(A, B)が最小となる

ように平行移動・回転を加えたものである．それには，B⁰の重心がAの重心と重なるように平行移動し，続いて最適な回転行列を求める．N は類似性を評価する原子の数であり，

A(i), B(i)は2つのたんぱく質の対応する原子座標である．続いて，dRM SDの計算式を

(11)

示す．

dRM SD= vu ut 1

N(N −1)

N−1X

i=1

XN j=i+1

(d^A_ij−d^B_ij)²

dRM Sの場合は，相互距離のそれぞれ(例えばi, j間)において，たんぱく質AとBでど

のくらい一致しているかを比較指標とする．N は類似性を評価する原始の数, d^A_ij はたんぱく質Aの原子i, j間の距離である．cRM SDのように座標の変換を求める必要がなく，

理解しやすい．

これらのRM SDは，外れた要素がある場合には，その要素に引きずられる，たんぱく

質のサイズが大きいほど値が大きくなる傾向にある，重心より遠いほど重みが増すなどの問題があり，類似の構造間の比較においてのみ有効な尺度である．また，単に原子間の距離を考慮するのみだけでは，進化の過程で保存された部位や活性部位を無視している．こ

のため，RM SDのみを利用して構造比較を行う方式はほとんどとられていない．

2.2.2 構造アラインメントと立体構造比較法

立体構造の比較法では，類似性のスコアが一番高くなるように構造アライメントが行われ，残基が対応付けられる．現在までに，自動で立体構造の比較を行うプログラムも含めて，構造アラインメントを行うプログラムが多数提案されている．それらのプログラムと採用している手法について，[7]と[8]を参考に，次の表2.1にまとめた．各手法について簡単に紹介する．

CE(1998)[9]

CE(Combinatorial Extension of the optimal pathway)は，構造類似性に関して一定の基準を満たすようにアラインメントした断片を組み合わせて延長していくことで，二つの構造の最善なアラインメントを見つけようとする．構造類似性のスコアは，RM SDを利用する．また，アラインメント中のギャップ(複数のたんぱく質間で対応関係にない残基) の最大値が制限されている．また，全体の指標として，ランダムな構造を比較する際に，

同じ長さのアラインメントを作成する確率を計算することによって得られる，Zスコアが利用される．

(12)

表2.1:構造比較プログラムの一覧プログラム名URL手法 CE[9]http://cl.sdsc.eduExtensionoftheoptimalpath DALI[10]http://www2.ebi.ac.uk/daliDistancematrixalignment Matras[11]http://biunit.naist.jp/matrasMarkoviantransitionofstrustureevolution SAP[12]http://mathbio.nimr.mrc.ac.uk/tools(DownloadOnly)Doubledynamicprogramming STRUCTAL[13]http://bioinfo.mbb.yale.edu/align/server.cgiDoubledynamicprogramming VAST[14]http://www.ncbi.nlm.nih.gov/Structure/VAST/vastsearch.htmlVectoralignment

(13)

DALI(1993)[10]

DALIでは，比較対象のたんぱく質各々について，Cα原子間の距離行列を作成する．その距離行列を比較することによって，どれだけ一致するかを構造比較する．もし，全体を比較すると，たんぱく質の残基長の二乗の積に比例する計算時間がかかる．このため，局所的な部分毎に区切って比較を行い，最後にこの局所部をMonte Carloシミュレーションで統合する．

Matras(2000)[11]

Matrasは，マルコフ連鎖による構造変化モデルを利用した，相同性と相似性の対数オッ

ズ関数という特殊なスコアを使って相同な構造類似性を認識する．構造類似性のスコアは次の通りである．

S(i, j) = logP(i→j) P(j)

i, jを比較対象の構造的特徴(ここでは距離)とし，P(i→j)が，進化の過程でiがjに変移する確率，P(j)が，jが偶然に存在する確率である．特徴として，残基主鎖のおおまかな比較を行う点と，マルコフ連鎖の進化モデルに基づく方法ゆえに，進化的な由来による類似性を認識能力が高いことが挙げられる．

SAP(1999)[12],STRUCTAL(1993)[13]

SAPもSTRUCTALもDDP(Double Dynamic Programming)を利用する．2つの残基を対応づけるかどうかのスコアを下層のDPで求め，その値を利用して上層DPで計算する．下層では，2つの残基を対応付けるという仮定の下で，その制限の元で得られる下層用スコアを用意する．仮想用スコアを利用すると，周囲の最適パスを求めることが可能になる．最適パスに含まれていたスコア値を上層スコアに加算する．全ての残基ペアについて行うと上層スコアが準備され，通常のDPを行える．

(14)

VAST(1997)[14]

VASTは，SSEをアラインメントするのにグラフ理論に基づいたアプローチを行う．同じ構造を持つSSEを点で表し，対応するSSEの距離や角度が特定の制約に違反しない限り，これらの点の間に辺が存在する．VASTでは，内部の二次構造単位の型や，相対配置の類似性を高速に調べる．

また，プログラムとして自動化されてはいないが，他に提案されている構造比較の方法

として，Geometric Hashingによる方法がある．この手法のアルゴリズムを次に示す．

Geometric Hashingによる構造比較法(1991)[15]

Cα原子を点として扱い，座標軸を複数の点に着目して固定し，他の点を変換する．座標軸を全ての点に着目して変換し，全ての場合の変換後の点を空間に重ねて配置したマップを作成する．別のたんぱく質も同様にマップを作成し，互いに最も点が重なる変換方法を採用して重ね合わせる．この手法は，主鎖上の残基の順番には注目していないのが特徴で，利点でもあり欠点でもある．

2.3 局所構造の抽出手法

たんぱく質のとりうる構造は，物理的な立体構造と化学的な制約を受けているが，それらの空間的制約は，連続した残基間で依存関係にある．加えて，残基配列としては連続していない長距離間の残基どうしにおいても，空間的制約を受けている．たんぱく質の構造データを利用して，残基が隣接している局所モチーフを決定する手法と隣接に関係なく局所モチーフを決定する手法に分けて示す．

2.3.1 残基が隣接している局所モチーフの決定手法

たんぱく質のループ構造の分類手法のいくつかが，局所構造モチーフの自動抽出という問題に適応し，拡張されてきた[16],[17]．これらの手法は基本的に，重複も含めてたんぱく質を断片化した大きなデータベースを作成し，このデータベースを利用してクラスタリ

(15)

ングアルゴリズムを適用するという方法である．概念は単純であるが，この手法は以下の問題点がある．

1. 重複した断片間の類似性は，クラスタリングアルゴリズムにノイズを生む

2. クラスタリングアルゴリズムは，三角不等式を満足する類似性の指標を必要とする 3. 考えるうる最も適切な断片サイズを決定する問題が解決されていない

Micheletti[18]らは，2000年に，この初期検査を改良し，4,5,6残基からなる断片の重複を許さないライブラリとし，一連の10つのたんぱく質を1˚A以内に収めた．

2.3.2 残基が隣接していない局所モチーフの決定手法

rigid domainの発見[19]

Nichols[19]らは，複数のたんぱく質構造において，どの2つの対応する残基を選んでも，

残基のCα原子間距離が一定値以内にある局所構造をrigid domainと定義した．興味の対象である，ヒトヘモグロビンのα₁単量体や二量体¹のoxy構造とdeoxy構造に対して，詳細にrigid domainを求めた．rigid domainを抽出する手法としては，まず，残基間距離を閾値0.3˚Aに大きく制限し，この残基間距離が閾値を満たすペアを抜き出し，しきい値以上の残基数を持つ集合を抽出する．その集合の中には，閾値を満たさない残基のペアが含まれるため，このペアをより多く形成する残基を1つずつ取り除いていき，閾値を満たすもののみをrigid domainとして同定した．

ドロネー四面体分割による局所構造モチーフの決定[20]

Wako[20]らは，1998年に残基の隣接を義務付けないモチーフを決定する新しい方法を

提案した．ドロネー四面体分割法により，与えられたタンパク質の立体構造が占める空間を，頂点をCα原子とする四面体で一意的に分割する．そして各四面体に，それを含む局所構造の特徴を反映したコード(文字列)を指定する．ドロネー四面体分割を用いてタンパク質構造を四面体の集合としてネットワーク的様相を持って表し，各四面体にドロネー

1重合体（ポリマーpolymer）にできる，多重結合または複数個の官能基を持つ分子．

(16)

コードなるコードを付与することで，タンパク質構造をコード化（ドロネーコード）する．

このコードを用いてタンパク質構造の特徴をとらえる．ドロネーコードはタンパク質内のアミノ酸の，空間的近接と配列上での近接の情報を持つ．また，タンパク質の全体構造の比較と，局所構造の比較の両方に対応できる点もドロネーコードの特徴である．コード番号が同じ部分構造を集めてみると，実際互いによく似ており，その頻度が大きいものはモチーフと呼ぶにふさわしい構造であることを明らかにした．

(17)

第 3 章完全グラフを利用した rigid domain の同定

本章では，完全グラフを利用して，rigid domainを求める手法について述べる．まず，たんぱく質をグラフとして利用する方法と，rigid domainの定義について述べる．次に，残基の対応づけについて述べる．そして，rigid domainの探索アルゴリズムについて述べる．

最後に得られたrigid domainの出力方法について述べる．

3.1 グラフの利用方法と rigid domain の定義

たんぱく質をグラフとして利用するための前提を述べる．グラフは，点と辺からなる．

たんぱく質を構成するアミノ酸の中で骨格をなすCα原子をグラフの点とする．続いてアラインメントを行って，複数のたんぱく質の間で対応するCα原子(点)を決定しておく．

1つのたんぱく質のCα₁とCα₂の距離と，別のたんぱく質のCα_1′とCα_2′の距離が一定値以内であれば辺が存在すると仮定する．複数のたんぱく質間でも同様に，全てのたんぱく質間で対応するCα原子間距離が一定値以内である場合に，そのCα原子(点)間には辺が存在すると仮定する．

次に，rigid domainを定義する．複数のたんぱく質構造に共通して存在する三次構造で，

どの2つの残基を選んでも，各々のたんぱく質の対応する残基間距離が一定値以内にある

構造をrigid domainと定義する(図3.1参照)．たんぱく質をグラフとして表現した中か

ら，自点以外の全ての点と連結しているグラフである完全グラフを発見することが，すな

わち，rigid domainの発見である．さらに，完全グラフの中でも最大のものを求めること

が，より大きなrigid domainを求めることになる．

(18)

図3.1: rigid domainのグラフによる表現

3.2 残基の対応づけ

rigid domainを探索する前に，複数のたんぱく質どうしの残基の対応を決定するアライ

ンメントを行う必要がある．アラインメントの方法には，残基の配列の類似性から対応関係を決定づける配列アラインメントと，構造の類似性から対応関係を決定づける構造アラインメントがある．配列アラインメントは，配列が似ているものは構造が似ている，そして，構造が似ているものは機能が似ているという考えのもとで，残基の配列の並びでアラインメント行う．一方，構造アラインメントは，配列の類似性がそれほど高くなくとも，

構造が似ているものは機能が似ているという考えで，立体構造によってアラインメントを行う．このため，構造アラインメントは配列アラインメントよりも精度がよいが，計算時間がかかるという特長がある．本論文では，残基の対応付けを知るためにアラインメントを行うので，より精度の高い構造アラインメントを採用し，プログラムとしてCE[9]をマルチプルアラインメント化した，CE-MC[21][22]を利用する．

3.3 rigid domain の探索アルゴリズム

本節では，グラフの計算機での扱いとrigid domainの探索方法について述べる．

構造データから行列を作成し，その行列内を探索する方法をとる．

(19)

3.3.1 行列の作成

比較したい複数のたんぱく質に対して，それぞれCα原子どうしの距離行列を作成する．

d^k_ijをたんぱく質kのCα原子i, j間の距離とすると，あるたんぱく質1のd¹_ijと別のたんぱく質2のd²_ijの距離行列の違いは，その差の絶対値で表せる

4_ij =|d¹_ij −d²_ij| (3.1)

4_ijが閾値²以下であれば，どちらのたんぱく質においてもi, jの残基間は構造的にrigid であると判断でき，グラフのi, jの残基間には辺が存在する．たんぱく質が複数ある場合も同様に，

4_ij =|max(d¹_ij, . . . , d^p_ij)−min(d¹_ij, . . . , d^p_ij)| (3.2) を計算し，4_ij が閾値²以下かどうかを計算する．こうして，探索対象のグラフ(図3.2の左図参照)が作成される．

作成したグラフは次のように符号化する．頂点の集合をV ={v₁, . . . ,v_n}とすれば，グラフを各要素が0または1のn×nの行列として表現可能である．図3.2は，グラフを行列に符号化する例である．左側の部分グラフV ={v₃〜v₆}は完全グラフを構成する頂点集合であり，右側の行列でも該当するペアの符号はどの組み合わせでも1として表現される．

図3.2: グラフ表現(左図)から行列(右図)の作成

実際には，

4_ij > ²ならばc_ij = 0, 4_ij ≤²ならばc_ij = 1 (3.3)

(20)

として，行列C= {c_ij}を作成する．作成したCの各要素は，残基i, j間の構造関係が

rigidであれば1であり，そうでなければ0である．

閾値²として用いられる値は，求めたいrigid domainの目的による．構造の微妙な違いをも考慮したrigid domainを探索したい場合には値を小さくし，より全体の類似性を考慮

したrigid domainを探索する場合には値を大きくする．

3.3.2 rigid domainの探索方法

グラフが与えられた中から最大の完全グラフを探索する問題は，節点数の多項式時間では解くことができないと予想されているNP-困難な問題の1つである．そこで，ヒューリスティックに，一定値以上の大きさのグラフを効率よく探索する方法をとる．求める解は，

どの残基対をとってもc_ij = 1であるような，(残基数)S_min以上の濃度を持つ集合Dである．以下にアルゴリズムを示す．

1. 集合の大きさの下限値S_minを定める(下限値より小さい残基集合は無視) 2.

X

j

c_kj =s_k< S_minとなる残基kについて，全てのijにおいてc_kj =c_jk = 0とするこれを，c_ijが更新されなくなるまで繰り返す

3. s_k≥S_minを満たす残基kの集合をAとし，集合Aに含まれる残基の数をn(A)で表す F =φとおく．

4. (4.1)

A←A−F

n(A) = 0ならば，(4.6)へ

T_max(ドメインの大きさ(残基数)の最大値)←S_min

集合Aに含まれる残基のうち，s_kが最も大きい残基kを発見集合F ={k}, x= 0, w(x) = 0, h= 0, e_j0 ←c_kj (4.2)

g←h

集合B ← {e_jg= 1となる残基jの集合} −F n(B) = 0ならば，(4.5)へ

(21)

集合Bに含まれる残基を，s_kの小さい順に並べ替えて，リストu(g)の後ろに追加 x←x+ 1, h←h+n(B)

(4.3)

F ←F+u(h), w(x) =h e_jh ←e_jg×c_u(h)j,

X

j

e_jh ≥T_maxならば，(4.2)へ (4.4)

F ←F− {u(h)}, h←h−1, h > w(x−1)ならば(4.3)へ x←x−1, h←h−1

x >1ならば，(4.2)へ，x≤1ならば，(4.1)へ (4.5)

n(F)≥T_maxならば，集合F を記録する, T_max=n(F), (4.4)へ (4.6)

複数のドメインが得られた場合，お互いの共通部分やドメインの大きさを考慮して，最終的に出力するrigid domainを調整する

3.4 得られた rigid domain の表示

得られたrigid domainを視覚で認識するためには，たんぱく質の構造表示ソフトである

Rasmol[23]を利用する．その際，複数のたんぱく質のrigid domain部分を重ねて表示す

ることで，共通してrigidな部分とそうでない部分の構造を明らかにすることが可能である．そのためにはrigid domain部分が重なるように座標の変換を行う必要がある．本節で

は，まずRasmolの利用について述べ，次に座標の変換について述べる．

3.4.1 Rasmolの利用

たんぱく質の構造データを立体表示するために，分子構造を表示する3DソフトのRasmol[23]

を利用する．Rasmolは，1993年にR.Sayle氏(当時Edinburgh Univ. Biocomputing Re-

search Unit)によって開発されて以来，オープンソースとして改良がなされており，PDB

のファイル形式にも対応している．図3.3は，rasmolによるヘモグロビンの表示例である．

(22)

様々な構造の表示法が用意されており，広く利用されている．backbone表示では，たん

図3.3: Rasmolによる表示例

(ヘモグロビンのbackbone(左),ball-and-stick(中),cartoon(右)形式の表示) ぱく質のCα原子のみをつなげて表示するため構造の骨格が分かりやすい．そのため，本論文のrigid domainの表示は主にこのbackbone表示を利用する．

3.4.2 構造の重ね合わせ

rigid domain部分を重ね合わせて表示するために，1つのたんぱく質を他方のたんぱく

質に重ね合わせるように座標の変換を行う．重ね合わせの方法については，[24]を参考にし，重心をあわせてから回転行列を求める方法をとる．[24]のアルゴリズムは以下の通りである．

N個の残基i= 1...Nとして，重ね合わせる座標を(x₁, y₂, z₃)と(X₁, Y₂, Z₃)とする．

1. それぞれ重心(g, G)を求め，重心を原点の座標系に変換重心g：g_x= 1

N XN

i=1

x_i, g_y = 1 N

XN i=1

y_i, g_z = 1 N

XN i=1

z_i

重心を移動：x_i ←x_i−g_x, y_i←y_i−g_y, z_i←z_i−g_z

重心G：G_x = 1 N

XN i=1

X_i, G_y = 1 N

XN i=1

Y_i, G_z = 1 N

XN i=1

Z_i 重心を移動：X_i ←X_i−g_x, Y_i ←Y_i−g_y, Z_i ←Z_i−g_z

(23)

2. 次の行列Aを計算 A(1,1) =X

i

x_iX_i, A(1,2) =X

i

x_iY_i, A(1,3) =X

i

x_iZ_i A(2,1) =X

i

y_iX_i, A(2,2) =X

i

y_iY_i, A(2,3) =X

i

y_iZ_i A(3,1) =X

i

z_iX_i, A(3,2) =X

i

z_iY_i, A(3,3) =X

i

z_iZ_i

3. 行列AをA=U DV の形に特異値分解(Dは対角行列(3×3),U, V は直行行列(3×3)) 4. 回転行列R(3×3)を計算

R_ij =U_i1V_j1+U_i2V_j2±U_i3V_j3

ここで復号は，detA >0ならば+，<0ならば−をとる．

5. 座標を変換(重心座標系の(X₁, Y₂, Z₃)からオリジナル座標系の(x₁, y₂, z₃)へ) X_i ←R₁₁X_i+R₁₂Y_i+R₁₃Z_i+g_x

Y_i←R₂₁X_i+R₂₂Y_i+R₂₃Z_i+g_y Z_i ←R₃₁X_i+R₃₂Y_i+R₃₃Z_i+g_z

重ね合わせる部分については，求められたrigid domain部分のRMSDが最小となるよ

うに，rigid domain部分の座標だけを利用して回転行列を求める．その回転行列を使って，

残りの残基の座標も変換する．

(24)

第 4 _{章実験}

本章では，立体構造のトポロジーを解析して分類したたんぱく質のデータベースである

SCOP[5]のいくつかの階層についてrigid domainを求めた結果を示し，考察を行う．使

用するPDBファイルのデータフォーマットについては，付録Aに，作成したプログラムの仕様と実験環境については，付録Bに示す．

SCOPでは，二次構造の含有量の類似性に応じてall-α, all-β, α/β, α+βなどの構造ク

ラス(Class)に分類した後，それらをさらに立体構造の類似性に応じて分類(Fold)して，

そこから生物学的に分類(SuperFamily,Family)を行っている．SCOPは構造全体の分類を行ったデータベースで，部分的な構造の違いは考慮されていない．また，各グループの代表構造といったものは特に決められていない．

rigid domainを求める実験をSCOPのFamily,SuperFamily,Fold内のいくつかのたんぱく質を対象に行った結果をそれぞれ示し，最後に考察を述べる．

(25)

4.1 Family ： Ubiquitin-like

まず，同一FamilyであるUbiquitin-related内の8つのたんぱく質を対象とした結果を示す．対象としたたんぱく質の階層と内容は，次の通りである．

1.Root: scop

2.Class: Alpha and beta proteins (a+b) [53931]

3.Fold: beta-Grasp (ubiquitin-like) [54235]

core: beta(2)-alpha-beta(2); mixed beta-sheet 2143 4.Superfamily: Ubiquitin-like [54236]

5.Family: Ubiquitin-related [54237] 内の異なるSpeciesから 1ogw,1a5r,1ndd,1lm8,1bt0,1m94,1j8c,1iyf

結果として得られた残基の対応表と閾値²の関係は次の表4.1の通りである．また，得ら表4.1: Family:Ubiquitin-like関係のrigid domainに関する結果

抽出対象たんぱく質データ数 8 アラインメント結果残基数 67 閾値 ² 2˚A 4 ˚A 6 ˚A 8 ˚A 10 ˚A

rigid domain残基数 10 23 38 52 55

れたrigid domainをRasmolで表示したものを次に示す．rigid domainのみの骨格表示

が図4.1で，rigid domain以外の部分の骨格も含めて重ね合わせた表示を，図4.2に示す．

rigid domain部分が太線で，それ以外の部位を細線で示す．

rigid domain部の形状と，その他の部位の形状は重ね合わせの図によって知ることが可

能であるが，1つのたんぱく質内で，閾値によるrigid domain部の変化がどのようになっているか，1つのたんぱく質を選んで表示することで可能である．1a5r.pdbを選択し，閾値によってrigid domain部分を色分けしたものを図4.3に示す．図4.3では，²= 2˚A時の rigid domainをmageta，²= 4˚Aをred，²= 6˚Aをyellowで表している．また，球はCβ 原子である．

(26)

図4.1: Family：Ubiquitin-likeのrigid domain部分

(27)

図4.2: Family：Ubiquitin-likeのrigid domain部(太線)とその他の部位

(28)

図4.3: 1a5r : sumo-1の閾値によるrigid domain部の違い

(29)

4.2 SuperFamily ： Cytochromes

続いて，SuperFamilyのCytochromes内の6つのたんぱく質を対象とした結果を示す．

対象データの詳細は次の通り．

1. Root: scop

2. Class: All alpha proteins [46456]

3. Fold: Four-helical up-and-down bundle [47161]

core: 4 helices; bundle, closed or partly opened, left-handed twist; up-and-down

4. Superfamily: Cytochromes [47175]内の異なるFamily,異なるSpeciesから 1jaf,256b,2ccy,1bbh,1cgn,1cgo

結果として得られた残基の対応表と閾値²の関係は次の表4.2の通りである．得られたrigid 表4.2: SuperFamily:Cytochromes関係のrigid domainに関する結果

domainを，rigid部以外の骨格も含めて重ね合わせた図4.4を示す．また，1jaf.pdbを選択し，閾値によってrigid domain部分を色分けしたものを図4.5に示す．²= 2˚A時のrigid domainをmageta，²= 4˚Aをred，²= 6˚Aをyellowで表している．また，球はCβ原子である．

(30)

図4.4: SuperFamily：Cytochromes内のrigid domain部(太線)とその他の部位

(31)

図4.5: 1jaf : cytochrome c’(HEM - Protoporphyrin ix containing Fe)の閾値によるrigid domain部の違い

(32)

4.3 Fold ： Flavodoxin-like

続いて，Foldレベルでの比較を行った結果を示す．Flavodoxin-like内の9つのたんぱく質を対象とした．対象データの詳細を次に示す．

1. Root: scop

2. Class: Alpha and beta proteins (a/b) [51349]

Mainly parallel beta sheets (beta-alpha-beta units) 3. Fold: Flavodoxin-like [52171]

3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 異なるSuperfamilyからそれぞれ3つ

4. Superfamily: CheY-like 3chy,1dcf,1m2f

4. Superfamily: SGHN hydrolase 1wab,1esc,1ivn

4. Superfamily: Flavoproteins 1b1c,2fcr,1d4a

全たんぱく質から得られた残基の対応表と閾値²の関係は次表4.3の通りである．表4.3 表4.3: Fold：Flavodoxin-like関係のrigid domainに関する結果

から，閾値が10 ˚Aでの残基数が12である．これは，たんぱく質の大きさとほぼ同じであり，得られたrigid domainの残基数が閾値に対して少ない．そのため，各SuperFamily内

でrigid domainを求めた結果を比較した．その結果が，表4.3の通りである．

(33)

表4.4: Fold：Flavodoxin-like内それぞれのSuperFamilyのrigid domainに関する結果 Superfamily: CheY-like

抽出対象たんぱく質データ数 3 アラインメント結果残基数 109 閾値 ² 2˚A 4 ˚A 6 ˚A 8 ˚A 10 ˚A rigid domain残基数 39 64 69 94 108

SGHN hydrolase

Superfamily: Flavoproteins

抽出対象たんぱく質データ数 3 アラインメント結果残基数 142 閾値 ² 2˚A 4 ˚A 6 ˚A 8 ˚A 10 ˚A rigid domain残基数 30 62 100 112 119

(34)

得られたrigid domainを重ね合わせ，rigid部以外の骨格も含めて図4.6に示す．また，

1b1c.pdbと3chy.pdbを選択し，閾値によってrigid domain部分を色分けしたものを図4.7 と図4.8に示す．²= 2˚A時のrigid domainをmageta，²= 4˚Aをred，²= 6˚Aをyellow で，Cβ原子を球で表している．

(35)

図4.6: Fold：Flavodoxin-like内のrigid domain部(太線)とその他の部位

(36)

図 4.7: (左)1b1c :NADPH-cytochrome p450 reductase(Ligand: FMN - Flavin mononu- cleotide)の閾値によるrigid domain部の違い

図4.8: (右)3chy: Che Y(Ligand SO4 - Sulfate)の閾値によるrigid domain部の違い

(37)

4.4 考察

本節では，前節までに得られた結果から考察を行う．

まず，rigid domain部分を重ね合わせて表示した結果の図4.2,4.4などから，rigidな部分とそうでない部分が明らかになると同時に，閾値の変化によってrigidな部分の中でも

よりrigidな部分というものが顕著に表される．立体構造の重ね合わせでは，全体を重ね

合わせた場合には，比較的類似の構造どうしに対しては適用することができるが，共通の部分構造をもつ構造どうしのローカルな類似性をみることはできない．この場合は，どの領域に注目して重ね合わせるかが重要である．rigid domain部分を重ね合わせて表示することで，核となる局所構造，あるいはモチーフ構造を視覚によって得ることが可能である．

また，図4.6の中段のSGHN hydrolaseの通り，閾値を大きくしても，大きなrigid domain が同定されないものもある．同様に，図4.6からSCOPのFold階層が同じでも構造の細部は自由度が大きく，SuperFamilyを超えて同じrigid domainを得るのは難しいことも明らかになった．

1つのたんぱく質内で，rigidな部分がどう展開されているかについては，図4.3,図4.5, 図4.7,図4.8から判断することができる．特に，図4.5では，HEMと結合するための部位として，HEM周囲の部分が特にrigidであることを示している．また，よりrigidなのは結合する内側の部分で，比較的ゆるいrigidなのがその周囲の外側であることもわかる．

そして，図4.7,図4.8からは，緑色で示されているリガンド¹の結合部位が，rigid domain に含まれる場合も，含まれない場合もあることがわかる．

1リガンド(鍵)は，受容体(鍵穴)に特異的に結合することによって特定のシグナルを細胞内に伝達する．

(38)

第 5 _{章おわりに}

本論文では，完全グラフの探索を利用してたんぱく質のrigid domainを求める手法を提案し，SCOPの数種のデータに適用した．

解決すべき問題点の1つとして，計算時間の問題がある．本論文で行った実験では，残基数が多くなるにつれて複数のrigid domainを得るのに時間がかかりすぎ，最初に見つ

かったrigid domainを採用して出力した．これを，複数のrigid domainを網羅的に現実

的な時間で得られるように改良し，それらをどのように統合もしくは取捨選択するかを考える必要がある．

また，rigid domainと機能の関係についてもさらなる調査が必要であり，そのためには

生物学についての知識も必要である．rigid domainを求めるWebシステムを提供することで，必要とする研究者などに役立ててもらいたい．加えて，rigid domainの大きさと閾値の関係をSCOPでの全データに対して統計調査を行うことによって，SCOPの分類状況や，立体構造の構築原理に関してより深い洞察が行えることも期待できる．

(39)

謝辞

早稲田大学社会学部の輪湖博先生には多大なご指導を賜りましたことを深く感謝いたします．研究の環境と指導を賜りました指導教授の山名早人先生にも，感謝いたします．また，

研究室の先輩である山田真介氏には，数多くのアドバイスを頂いた他，色々とお世話になりましたことに感謝いたします．

(40)

参考文献

[1] Anfinsen,C.B. (1973) Principle that govern the folding of protein chains,Science, 181, 223.

[2] Bernstein,F.C., Koetzle,T.F., Williams,G.J.B., Meyer Jr,E.F., Brice,M.D., Rodgers,J.R. , Kennard,O. , Shimanouchi,T., Tasumi,M. (1977) The Protein Data Bank: a computer-based archival file for macromolecular structures,J. Mol. Biol., 112, 535-542

[3] Protein Data Bank (PDB) http://www.rcsb.org/pdb/

[4] Murzin,A.G., Brenner,S.E., Hubbard,T., Chothia,C. (1995) SCOP: a structural classification of proteins database for the investigation of sequences and structures, J. Mol. Biol.,247, 536-540.

[5] Structural Classification Of Proteins (SCOP) http://scop.berkeley.edu/

[6] Eidhammer,I., Jonassen,I., Taylor,W.R. (2000) Structure Comparison and Struc- ture Patterns, J. Comput. Biol.,7, 685-716.

[7] Koehl,P. (2001) Protein Structure Similarities,Curr. Opin. Struct. Biol.,11, 348- 353.

[8] Novotny,M., Madsen,D., Kleywegt,G.J. (2004) Evaluation of protein fold comparison servers,Proteins,54, 260-270.

(41)

[9] Shindyalov IN, Bourne PE (1998) Protein structure alignment by incremental combinatorial extension (CE) of the optimal path, Protein Eng.,11, 739-747.

[10] Holm,L. and Sander,C. (1993) Protein structure comparison by alignment of distance matrix, J. Mol. Biol.,233, 123-138.

[11] Kawabata,T., Nishikawa,K. (2000) Protein structure comparison using the Markov transition matrix of evolution,Proteins,41, 108-122.

[12] Taylor,W.R. (1999) Protein structure comparison using iterated double dynamic programming, Proteins Sci.,8, 654-665

[13] Subbiah,S., Laurents,D.V., Levitt,M. (1993) Structural similarity of DNA-binding domains of bacteriophage repressors and the globin core,Curr. Biol.,3, 141-148 [14] Gibrat,J.F., Madej,T., Spouge,J.L., Bryant,S.H. (1997) The vast protein structure

comparison method, Biophys. J.,72, MP298

[15] Nussinov,R., Wolfson,H.J. (1991) Efficient Detection of Three-Dimensional Struc- tural Motifs in Biological Macromolecules by Computer Vision Techniques, Proc.

Natl. Acad. Sci.,88, 10495-10499

[16] vanVlijmen,H.W.T., Karplus,M. (1997) PDB-based protein loop prediction: pa- rameters ofr selection and methods for optimization,J.Mol.Biol.,267, 975-1001 [17] Rufino,S.D., Donate,L.E., Canard,L.H.J., Blundell,T.L. (1997) Predicting the con-

formational class of short and medium sixze loops connecting regular secondary structures: application to comparative modeling, J.Mol.Biol.,267, 352-367 [18] Micheletti,C., Seno,F., Maritan,A. (2000) Recurrent oligomers in proteins: an op-

timal scheme reconciling accurate and concise backbone representations in auto- mated folding and design studies., Proteins,40, 662-674

[19] Nichols,W.L., Rose,G.D., Ten Eyck,L.F., Zimm,B.H. (1995) Rigid domains in proteins: An algorithmic approach to their identification, Proteins,23, 38-48.

(42)

[20] Wako,H., Yamato,T. (1998) Novel method to detect a motif of local structures in different protein conformations, Protein Eng.,11, 981-990.

[21] CE-MC

http://cemc.sdsc.edu/

bibitemce-mc01Guda,C., Scheeff,E.D., Bourne,P.E., Shindyalov,I.N. (2001) A new algorithm for the alignment of multiple protein structures using Monte Carlo optimization, Proc. Pac. Symp. Biocomp.,6, 275-286.

[22] Guda,C., Scheeff,E.D., Bourne,P.E., Shindyalov,I.N. (2004) A multiple protein structure alignment server,Nucleic Acids Res.,32, W100-W104.

[23] R.Sayle and E.J.Milner-White (1995) RasMol: Biomolecular graphics for all, Trends Biochem. Sci.,20, 374.

[24] A.D.McLachlan (1979) Least Squares Fitting of Two Structures,J.Mol.Biol.,128, 74-79.

(43)

付録 A PDB _{のデータフォーマット}

PDBのデータフォーマットについて示す．まず全体のデータフォーマットについて示し，

特に構造データが記されているATOM行レコードのフォーマットについて示す．

A.1 全体のデータフォーマット

図A.1にPDBのエントリー例を示す．エントリーデータは，1行が80カラムからなるテキストデータである．最初の6カラムが，その行の内容を示すヘッダである．ヘッダは，タイトル，一次構造，二次構造，座標部などに分類されている．9−10カラム目は継続情報で，11 カラム目からは，ヘッダに対応した情報が記述されている．図A.1の例では，”HEADER”

行に記述されている通り，たんぱく質の種類が OXYGEN STORAGE/TRANSPORT，

公開日が21-FEB-03，PDBコードが1J40である．構造を示すたんぱく質の原子座標は，

ATOM行に記述されている．その他，生物種，実験方法，文献情報，分解能や配列などの情報が記述されており，最後は”END”行で終わる．

(44)

HEADER OXYGEN STORAGE/TRANSPORT 21-FEB-03 1J40 TITLE DIRECT OBSERVATION OF PHOTOLYSIS-INDUCED TERTIARY

TITLE 2 STRUCTURAL CHANGES IN HUMAN HAEMOGLOBIN; CRYSTAL STRUCTURE TITLE 3 OF ALPHA(NI)-BETA(FE-CO) HEMOGLOBIN (LASER UNPHOTOLYSED) COMPND MOL_ID: 1;

COMPND 2 MOLECULE: HEMOGLOBIN ALPHA CHAIN;

COMPND 3 CHAIN: A, C, E, G;

・・・

SOURCE MOL_ID: 1;

SOURCE 2 ORGANISM_SCIENTIFIC: HOMO SAPIENS;

SOURCE 3 ORGANISM_COMMON: HUMAN;

・・・

JRNL AUTH S.ADACHI,S.-Y.PARK,J.R.H.TAME,Y.SHIRO,N.SHIBAYAMA JRNL TITL DIRECT OBSERVATION OF PHOTOLYSIS-INDUCED TERTIARY JRNL TITL 2 STRUCTURAL CHANGES IN HEMOGLOBIN

・・・ REMARK 1 REMARK 2

REMARK 2 RESOLUTION. 1.45 ANGSTROMS.

・・・

SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR

・・・

HELIX 1 1 SER A 3 GLY A 18 1 16

HELIX 2 2 HIS A 20 PHE A 36 1 17

HELIX 3 3 PRO A 37 PHE A 43 5 7

・・・

ATOM 1 N VAL A 1 2.681 60.206 2.122 1.00 13.81 N

ATOM 2 CA VAL A 1 2.090 58.978 1.501 1.00 13.54 C

ATOM 3 C VAL A 1 0.789 59.379 0.795 1.00 12.64 C

・・・

ATOM 8773 CE1 HIS H 146 23.835 37.479 30.528 1.00 15.63 C ATOM 8774 NE2 HIS H 146 22.888 37.495 31.450 1.00 16.23 N ATOM 8775 OXT HIS H 146 27.809 38.614 32.493 1.00 15.29 O TER 8776 HIS H 146

HETATM 8777 NI HNI A 142 13.458 63.973 -17.042 1.00 9.67 NI HETATM 8778 CHA HNI A 142 15.029 62.298 -19.583 1.00 10.71 C HETATM 8779 CHB HNI A 142 11.041 61.526 -16.880 1.00 8.69 C

・・・

CONECT 9139 9135 9138 CONECT 9140 9138

MASTER 275 0 14 73 0 0 0 611364 8 376 92

END

(45)

A.2 ATOM 行のフォーマット

原子座標に関するデータは，ヘッダがATOMの行に記述されている．ATOM行のデータのフォーマットは次の通りである．

COLUMNS DATA TYPE CONTENTS

--- 01 - 06 Record Name ATOM

07 - 11 Integer Atom Serial Number

13 - 16 Atom Atom Name

17 Character Alternate location indicator 18 - 20 Residue name Residue Name

22 Character Chain identifier 23 - 26 Integer Residue sequence number 27 AChar Code for insertion of residues

31 - 38 Real(8.3) Orthogonal coordinates for X in Angstroms 39 - 46 Real(8.3) Orthogonal coordinates for Y in Angstroms 47 - 54 Real(8.3) Orthogonal coordinates for Z in Angstroms 55 - 60 Real(6.2) Occupancy

61 - 66 Real(6.2) Temperature factor

73 - 76 LString(4) Segment identifier, left-justified 77 - 78 LString(2) Element symbol, right-justified 79 - 80 LString(2) Charge on the atom

ATOM行の例を次に示す．

12345678901234567890123456789012345678901234567890123456789012345678901234567890 ATOM 145 N VAL A 25 32.433 16.336 57.540 1.00 11.92 A1 N ATOM 146 CA VAL A 25 31.132 16.439 58.160 1.00 11.85 A1 C ATOM 147 C VAL A 25 30.447 15.105 58.363 1.00 12.34 A1 C

(46)

付録 B プログラムの仕様と実験環境

B.1 プログラムの仕様

プログラムはC言語で作成し，トータルで約3000行である．

入力として与えるファイルは，対象としたいたんぱく質のPDB形式のファイル(複数) と，PDBファイル名を改行コードで区切って羅列したリストのファイルの2つである．出力されるファイルは，閾値が2,4,6,8,10˚Aの場合について，重ね合わせ済みのrigid domain のみを表すPDB形式のファイルと，同じく重ね合わせ済みの全残基データのPDB形式のファイルである．同時に，全残基データを重ね合わせたPDB形式のファイル用に，Rasmol

でrigid domain部分を色分けして強調するためのscriptも出力する．

B.2 実験環境

表B.1: 実験環境

CPU UltraSPARC-IIs 450MHz ×4

Memory 1024MB

OS Solaris 8 10/00

Compiler gcc version 2.95.2

(47)

研究業績

講演等

• 益子理絵，輪湖博，山名早人(2004.12)：”完全グラフを利用したタンパク質のrigid

domainの同定とSCOPへの応用”,日本生物物理学会第42回年会

その他 ( コンテスト )

• Imagine Cup 2004 日本大会準優勝ソフトウェアデザイン部門：益子理絵,岩橋永悟,

仲沢由香里,本田大

2004 年度修士論文