機械学習を用いたコンタクトマップによるタンパク質機能部位予測

(1)

2007 年度修士論文

機械学習を用いたコンタクトマップによるタンパク質機能部位予測

提出日： 2008 年 2 月 4 日指導：村岡洋一教授

早稲田大学大学院理工学研究科情報・ネットワーク専攻学籍番号： 3606U068-9

豊田毅嗣

(2)

図目次

2.1 タンパク質の立体構造:1qsh . . . . 5

4.1 タンパク質の立体構造のPDBファイルでの表現 . . . . 10

4.2 タンパク質の立体構造のコンタクトマップへの写像 . . . . 11

4.3 コンタクトマップへの物質結合部位のマッピング . . . . 12

4.4 機能部位予測概要：メインフロー . . . . 13

4.5 機能部位予測概要：学習データ作成プロセスフロー . . . . 13

5.1 アミノ酸の構造 . . . . 15

5.2 コンタクトマップ(要素数：N×N) . . . . 16

5.3 コンタクトマップ(要素数：^N^×^(N₂ ⁻¹⁾) . . . . 17

5.4 REMARK 465(PDB ID:1ALU) . . . . 18

5.5 コンタクトマップ(構造をとらない残基未対応). . . . 19

5.6 コンタクトマップ(構造をとらない残基対応済み) . . . . 19

5.7 Support Vector Machine . . . . 21

5.8 密度の表現法による差 . . . . 30

6.1 ROCカーブ(金属,M:0,T:10,L:7) . . . . 35

6.2 ROCカーブ(SO4,M:0,T:10,L:7) . . . . 36

6.3 ROCカーブ(ATP・ADP,M:0,T:10,L:7) . . . . 36

(6)

6.8 金属:各密度(和)における機能部位の割合 . . . . 41

6.9 金属:密度(最小値)の分布 . . . . 42

6.10 金属:各密度(最小値)における機能部位の割合 . . . . 42

6.11 SO4:密度(和)の分布 . . . . 43

6.12 SO4:各密度(和)における機能部位の割合 . . . . 43

6.13 SO4:密度(最小値)の分布. . . . 44

6.14 SO4:各密度(最小値)における機能部位の割合 . . . . 44

6.15 ATP・ADP:密度(和)の分布 . . . . 45

6.16 ATP・ADP:各密度(和)における機能部位の割合 . . . . 45

6.17 ATP・ADP:密度(最小値)の分布 . . . . 46

6.18 ATP・ADP:各密度(最小値)における機能部位の割合 . . . . 46

6.19 ROCカーブ(金属-dD,M:0,T:10,L:7). . . . 48

6.20 ROCカーブ(SO4-dD,M:0,T:10,L:7) . . . . 48

6.21 ROCカーブ(ATP-dD,M:0,T:10,L:7) . . . . 49

6.22 ROCカーブ(金属-dM,M:0,T:10,L:7) . . . . 51

6.23 ROCカーブ(SO4-dM,M:0,T:10,L:7) . . . . 51

6.24 ROCカーブ(ATP-dM,M:0,T:10,L:7) . . . . 52

6.25 ROCカーブ(金属-DM,M:0,T:10,L:7) . . . . 53

6.26 ROCカーブ(SO4-DM,M:0,T:10,L:7) . . . . 54

6.27 ROCカーブ(ATP-DM,M:0,T:10,L:7) . . . . 54

6.28 ROCカーブ(金属-dDM,M:0,T:10,L:7) . . . . 56

6.29 ROCカーブ(SO4-dDM,M:0,T:10,L:7). . . . 56

6.30 ROCカーブ(ATP-dDM,M:0,T:10,L:7) . . . . 56

6.31 金属:予測精度の比較 . . . . 58

6.32 SO4:予測精度の比較 . . . . 58

6.33 ATP・ADP:予測精度の比較 . . . . 59

(7)

表目次

5.1 アミノ酸の物理化学的性質に対する真理表１[8] . . . . 24 5.2 アミノ酸の物理化学的性質に対する真理表２[8] . . . . 25 6.1 実験環境 . . . . 34

(8)

第 1 _{章序論}

本章では，始めに本論文の全体の流れについて述べ，その後，本研究の背景，目的について述べ，最後に本論文の構成を述べる．

1.1 _研究背景

タンパク質は，人体を構成し，生命現象に直接関わる重要な物質である．タンパク質を構成するアミノ酸は20種あり，その並びや組み合わせによって様々なタンパク質が作られる．このアミノ酸配列を一次構造と呼び，タンパク質の立体構造は一次構造から一意に決定される．タンパク質はポリペプチド鎖が折り畳まれて特定の立体構造をつくり，その生物学的な機能は相補的な構造を持つ結合物質との結合における物理的相互作用によって決まる．タンパク質がタンパク質，核酸，低分子化合物等の他の分子と分子間相互作用することが，情報伝達をはじめとする様々な機能を発揮するための第一段階となる．この為，タンパク質の構造の中から，当該タンパク質の他の分子等との相互作用の起点を知ることはタンパク質の機能の解明にとって大きな意味を持つ．

従来はタンパク質の構造の解析については実験的な手法がとられていた．例えば，構造決定はNMRやX線結晶解析などを用いた実験を通してである．しかし，

これらのプロセスは時間的・金銭的両面からみてコストが大きい．このため，多くの立体構造不明なタンパク質が存在する状況においてはもはや実験的な手法だけに頼っていては追いつかなくなっていた．そのため，蓄積された膨大なアミノ酸配列等のタンパク質に関するデータを基に情報科学的手法を用いてその立体構造を予測し，実際に実験を行なうターゲットを絞り込み，又は，直接明らかにす

(9)

る方法がとられるようになってきた．このようなタンパク質立体構造予測技術等の進歩により，現在多くのタンパク質構造情報が得られるようになってきている．

そこで，現在，これらの立体構造情報を利用したタンパク質の機能に関する研究が進められている．その一例として，タンパク質構造を考慮した創薬に関する研究が挙げられる．創薬とは，例えば疾病の原因となっているタンパク質の疾病に関与する機能を抑える化合物を発見するものである．元来創薬は実験的な手法に頼って行なわれていたが，この手法では成功確率が低く，また，その為研究に膨大な時間及び費用がかかるという問題があった．そこで，現在ではタンパク質立体構造やゲノム配列など，およびそれらを解析するソフトウェアを用いることにより，効率よく目的の薬候補を見つけ出す方法が試みられ，近年になって実際に薬になる例が増えてきた．この領域に関して，現在，タンパク質とその結合相手となる結合物質の結合可能性を求める様々なドッキングシミュレーションプログラムが開発されており，それらは一定の評価を得ている．

しかし，こういった立体構造を利用したドッキングシミュレーション等の方法を用いて機能の解明を行なう場合であっても，正確に分子の結合エネルギーを予測するために1千万ステップ以上の計算が必要とされる．その為，あらゆるタンパク質・結合物質について網羅的に行なうとなるとやはり膨大な時間を要することとなるという問題がある．この為，実用時間内に処理を行なう為には，実際にシミュレーション・実験を行なうべき領域を限定する為の手法が必要となる．

1.2 研究目的

タンパク質は生命現象に直接関る重要な物質であり，多くのタンパク質は他の原子や分子と相互作用することにより機能を果たす．そして，その機能の理解に

(10)

が存在するが，いずれの手法も複雑で予測に膨大な時間を必要とする等の問題がある．

本研究では，タンパク質のアミノ酸残基の接触を表す行列であるコンタクトマップに対し，タンパク質とその結合原子（金属イオン）・分子（リガンドなど）の既知構造データから得られる結合部位情報を基に，その結合部位をマッピングし，これにより得られた結合部位マッピング済みコンタクトマップを機械学習することにより，結合部位を予測する手法を開発する．本手法により，既知のタンパク質構造における金属イオンやリガンドなどの結合部位を簡易迅速に予測することを目指す．

1.3 論文の構成

本論文は以下の7章からなる．

第１章序論

本論文の概要，目的，構成について述べる．

第２章タンパク質について

本研究の研究対象であるタンパク質の基礎知識を述べる．

第３章関連研究

従来の関連研究を紹介する．

第４章提案手法

提案手法について述べる．

第５章実装

提案手法の実装について述べる．

第６章実験・評価と考察

提案手法の実験を行い，その結果を考察する．

第７章結論

本論文の結論と，今後の課題について述べる．

(11)

第 2 章タンパク質について

本研究はタンパク質を研究の対象とする．そこで本章では，本研究の理解を助ける為，タンパク質の構造やそれを支える結合などタンパク質に関する基礎について述べる．

タンパク質はアミノ酸残基がペプチド結合により多数つながった生体高分子である．タンパク質を構成しているアミノ酸残基は20種あり，その並びや組み合わせによって様々なタンパク質が作られる．タンパク質のアミノ酸配列を一次構造と呼び，一次構造から立体構造が決定される．タンパク質は，ポリペプチド鎖が折り畳まれて立体構造を作ることにより機能を果たすことができる．

以下にタンパク質の構造及び機能についての基礎を記す．

2.1 タンパク質の構造

タンパク質はポリペプチド鎖が折りたたまれた状態で存在[図2.1]し，三次元の立体構造を作ることによりその機能を発揮している．

バイオインフォマティクスの大きな目標の一つは，タンパク質のアミノ酸配列と三次元構造の関係を理解することである．この関係がわかれば，タンパク質の構造はそのアミノ酸配列から精度よく予測できる．配列と構造に基づいてタンパク質を分類する研究は盛んに行なわれており，これらの情報はタンパク質の構造モデルを構築する上で非常に有用である．

(12)

図 2.1: タンパク質の立体構造:1qsh

コンホメーションの変化であり，その変化を生み出すのは鎖中の各アミノ酸の相互作用である．

ここで，タンパク質は以下のような階層構造をもつ．

1. 一次構造アミノ酸配列 2. 二次構造

残基間の相互作用（水素結合）により，直鎖であったペプチド鎖が折りたたまれ作られるα ヘリックス構造やβ シート構造

3. 三次構造

二次構造同士の配置で，通常状態で1本のペプチド鎖がとる立体構造．主鎖の折りたたまれ方は一定のパターンが多いが，側鎖は様々な方向に突き向いている．タンパク質の機能は三次構造によってかなりの部分が規定されることから，三次構造はタンパク質の機能解析に重要な役割を果たす

4. 四次構造

複数（場合によっては複数種）のポリペプチド鎖がまとまって複合体を形成

(13)

しているもの

このような立体構造を作ることによりタンパク質はその機能を発揮している．

2.2 タンパク質の機能

タンパク質には代謝やシグナル伝達等様々な機能が存在する．そして，タンパク質がタンパク質，核酸，低分子化合物等の他の分子と分子間相互作用することが，これら様々な機能を発揮するための第一段階となる．

ここで，これらのタンパク質の機能はその立体構造と密接な関係を持つ．

例えば，

1. ) ポリペプチド鎖内で隣り合う領域が相互作用して，リガンド結合部位に水分子が近寄れない場合，水分子が排除され，リガンド結合部位は乾いたままとなり，タンパク質とリガントの水素結合が強化される．

2. ) 近くにある極性のアミノ酸側鎖が集まり，互いの反応性を変化させる場合，

タンパク質の折り畳みで負電荷をもつ側鎖がたくさん集まると陽イオンに対する親和力が大きくなり，特定の側鎖が水素結合で相互作用すると反応性のない側鎖が活性化する．

このようにタンパク質の立体構造の特定の部位に，その構造と相補的な構造をとる物質が結合することによりタンパク質はその機能を発揮するのである．したがって，タンパク質に対する他の結合物質の結合部位を知ることは，その機能を発揮し出す起点を知ることになり，タンパク質のよりマクロな機能を理解するために非常に重要となってくる．

(14)

第 3 _{章関連研究}

タンパク質の機能を予測する方法として配列相同性検索が有名であるが，機能既知のタンパク質との相同性がみられない配列が多数存在することから，この手法には限界がある．そこで，配列よりも機能部位における保存性が高く機能と密接に関わっている立体構造情報を利用した機能予測手法など様々な手法が研究されている．

3.1 物性の類似度等に着目した機能部位予測

立体構造から機能部位を推定する方法には分子表面の構造と物性（静電ポテンシャルと疎水性度）の類似性等に着目した方法がある [1] [2]．

また，機械学習(SVM,NN)を用いたリガンド結合部位予測に関する研究も行なわれている [3] [4]．

3.2 ドッキング予測

実験的手法によらず，原子間相互作用の計算によるシミュレーションにより機能部位を予測する手法(ドッキング予測の一種)も存在する．例えば，分子動力学法はタンパク質などの分子を構成する原子に働く相互作用力を共有結合をバネ，非共有結合をクーロン力，ファンデルワールス力や水素結合力のようなポテンシャ

ル関数(分子力学モデル)で近似し，分子の熱運動を，ニュートンの運動方程式を

解いてシミュレーションする方法である．

しかし，この方法を用いてより正確に分子の結合エネルギーを予測するためには，1千万ステップ以上の計算が必要と考えられており，その為，この手法により

(15)

あらゆる結合物質について網羅的に行なうとなると膨大な時間を要する．この為，

実用時間内に処理を行なう為の，実際にシミュレーションを行なう領域を限定する為の手法が必要であると考えられる．

(16)

第 4 _{章提案手法}

本研究はタンパク質の立体構造情報が存在する場合，そのタンパク質内の各残基同士の接触を表す行列であるコンタクトマップを作成し，そのコンタクトマップ上に結合物質の結合部位をマッピングする．この操作を多数のタンパク質に繰り返し，得られた情報をもとに学習を行い，タンパク質の機能部位を予測する．

したがって，本手法は，立体構造が既知のタンパク質に対して，その機能部位(結合物質の結合部位)を予測する．

4.1 コンタクトマップ

タンパク質の立体構造情報からその機能部位を予測するために，まずタンパク質の立体構造の生データ(タンパク質に含まれる全原子の配列情報)より，タンパク質の立体構造上の特徴のある程度を捉えることが出来るコンタクトマップを作成する．

4.1.1 コンタクトマップとは

コンタクトマップはタンパク質の持つN個の残基の接触を表すN×Nの単純な行列である．このコンタクトマップからは光学異性体情報等の情報を捉えることは出来ない一方で，タンパク質の全体のトポロジーや局所的な構造(例えばαヘリックス・βシート等の二次構造)等多くの情報を捉えることが出来る[5]．また，

コンタクトマップから三次元立体構造を復元することも可能である [6]．

タンパク質構造のデータベース：PDB [7]から入手できるタンパク質の三次元の立体構造情報は各原子の三次元座標情報で表現されており[図4.1]，その情報量は

(17)

非常に大きい．また，必ずしもタンパク質を決められた方向から見るような決まりがないため，座標を処理し直接機能部位を予測するには複雑で多くの計算を行なう必要がある．これらの問題はタンパク質の立体構造をより簡潔に表現する情報を用いることにより回避することが出来る．そこで本研究では立体構造を簡潔に表現するコンタクトマップを用いる[図 4.2]．

コンタクトマップの実装については第５章で詳しく述べる．

図 4.1: タンパク質の立体構造のPDBファイルでの表現

4.2

(18)

図 4.2: タンパク質の立体構造のコンタクトマップへの写像

詳しく述べる．ここで得られた非結合部位コンタクト及び結合部位コンタクトに関する情報をもとに学習を行い，その結果を用い機能未知のタンパク質の機能部位を予測する．

本研究では，コンタクト毎の予測という予測手法を用いる．

4.2.1 コンタクト毎の予測

それぞれのコンタクト(コンタクトマップにおいて値が1となっている点)に対し，そのコンタクトを構成する2の残基の物理化学的特徴や立体構造上の特徴等から計算されるパラメータを与える．そして，各コンタクトのこのパラメータ及び結合物質の結合の有無を学習機械への入力とし，コンタクトへの結合物質の結合についての学習を行なう．

(19)

図 4.3: コンタクトマップへの物質結合部位のマッピング

この際，コンタクト自体の物理化学的特徴としてCharge，Polar，Hydrophobic 等，コンタクトと周辺のアミノ酸残基の相互作用を考慮した物理化学的特徴としてコンタクトの周辺のCharge，そして立体構造上の特徴として残基間距離等をパラメータとして用いる．

これらのパラメータについては第５章で詳しく述べる．

(20)

以下[図4.4 ,4.5]に本手法の概要(フロー)を示す．

図 4.4: 機能部位予測概要：メインフロー

図 4.5: 機能部位予測概要：学習データ作成プロセスフロー

(21)

第 5 _{章実装}

本章では提案手法の実装の中で特にコンタクトマップの作成方法，物質結合部位コンタクトマップの作成方法，学習手法及び学習において用いるパラメータについて詳しく述べる．

5.1 コンタクトマップの作成

前述したようにコンタクトマップはN残基からなるタンパク質の各残基のコンタクトを表すN×Nの行列である．したがって，コンタクトマップを作成する為には，残基のコンタクトを定義する必要がある．その為，ここではまず残基のコンタクトの定義について述べる．次に，本研究においては残基のコンタクトを以下に示すように定義することに伴い残基間の距離を定義する必要が生じる為，残基間距離の定義についても述べる．さらにコンタクトマップの処理負荷の軽減や，

一定の立体構造をとらないアミノ酸残基の存在等の実装上の問題への対応について述べる．

5.1.1 残基のコンタクトの定義

残基間距離が閾値以内である2つの残基をコンタクトしているものとみなす．

(22)

コンタクト

¶ ³

S(i, j) =







1 if δ(i, j)≤threshold, |i−j| ≥margin 0 Otherwise

δ(i, j) :残基iと残基jの距離

threshold:コンタクトとみなす残基間距離の最大値(任意)

margin :コンタクトとみなすアミノ酸配列上の距離の最小値(任意)

µ ´

5.1.2 残基間距離の定義

本研究においては，残基間の距離は残基のC_β間の距離とみなす．各残基は主に側鎖が動くことにより他の残基等と接触する．この為，残基の側鎖の動きをより正確に捉える必要がある．

ここで，タンパク質を構成するアミノ酸残基は図5.1 のような構造を持っている為，C_βを用いることによりC_α等を用いた場合に比べて側鎖の動きをより正確に捉える事が出来る．ただし，C_βが存在しないグリシンに限りC_βの代わりにC_α を用いる．

図 5.1: アミノ酸の構造

(23)

5.1.3 コンタクトマップの処理負荷の軽減

コンタクトマップはタンパク質のN個の残基の接触を表すN×Nの行列[図5.2]

であるが，この行列はN次の正方行列であり，また，その転置行列が正方行列自身と一致するN次の実対称行列である．

図 5.2: コンタクトマップ(要素数：N×N)

このため，N残基からなるコンタクトマップから得られる情報は，^N^×^(N−1)₂ の要素で表現する事が可能である．本研究では，コンタクトマップの実装にあたり，

計算負荷の軽減の為コンタクトマップを^N^×^(N₂ ⁻¹⁾ の要素で表現する方法を採っている[図5.3]．

(24)

図 5.3: コンタクトマップ(要素数：^N^×^(N₂ ⁻¹⁾)

(25)

5.1.4 一定の立体構造をとらない残基への対応

PDBに収められたタンパク質の中には，アミノ酸配列上には存在するが原子の動きが大きいため，座標が決められないアミノ酸残基[図5.4 ]を持つタンパク質が存在する．(ここではこの座標が決められない残基をさして立体構造をとらない残基と表現する．)

図 5.4: REMARK 465(PDB ID:1ALU)

このようなアミノ酸残基の存在は，本研究手法においてタンパク質を構成するアミノ酸残基の物理化学的特徴のみに着目した機能部位の機械的予測を行なう場合には問題とはならないが，タンパク質の立体構造上の特徴を考慮した機能部位の機械的予測を行なう場合には非常に大きな問題となる．この為，立体構造をと

(26)

図 5.5: コンタクトマップ(構造をとらない残基未対応)

図 5.6: コンタクトマップ(構造をとらない残基対応済み)

(27)

5.2 結合物質結合部位コンタクトマップの作成

本研究ではにコンタクトマップへの結合物質結合部位のマッピングを行なう．この際，結合物質のコンタクトである結合物質コンタクトを定義する必要がある．その為，ここではまず結合物質結合コンタクトの定義について述べ，次に，これに伴い必要となる，結合物質-残基間距離の定義について述べる．

5.2.1 結合物質結合コンタクトの定義

結合物質とコンタクトを形成する2の残基双方からの距離が閾値以内であるコンタクトを結合物質が結合しているものとみなす．

結合物質コンタクト

¶ ³

L(l, i, j) =







1 if S(i, j) = 1, δ(l, i, j)≤bthreshold 0 Otherwise

δ(l, i, j) :結合物質lと残基i・残基jとの距離の最大値

bthreshold:結合物質コンタクトとみなす結合物質−残基間距離の最大値(任

意)

µ ´

5.2.2 結合物質 - 残基間距離の定義

本研究においては，結合物質-コンタクト間の距離は，結合物質を構成する原子と残基のCβとの間の距離の最小値とみなす．各残基は主に側鎖が動くことにより結合物質と接触する．この為，残基の側鎖の動きをより正確に捉える為に残基側の基準としてCβを用いる．ただし，Cβが存在しないグリシンに限りCβの代わり

(28)

5.3 SVM(Support Vector Machine)

本研究におけるタンパク質機能部位予測における機械学習にはSVMを用いる．

ここでSVMとはパターン識別手法の一つであり，入力を高次元の特徴空間に写像して特徴空間内で最適な線形分離超平面を構成する方法をとり，高い汎化能力が実現する．

パターン識別手法は多数存在しており，その中でも多層パーセプトロンをバックプロパゲーション学習させるニューラルネットを用いた識別手法が有名であるが，ここではそういったニューラルネットに代表されるバックプロパゲーション学習を行なう識別手法に対するSVMの優位性について述べる．

ニューラルネットに代表されるバックプロパゲーション学習は，その学習アルゴリズムから与えられた教師データに関してのみ学習結果を保証する．つまり，タンパク質機能部位予測における使用においては，教師データに含まれない未知のデータ，すなわち未知の機能部位を予測する能力に欠ける事が予想される．

図 5.7: Support Vector Machine

これに対し，SVMは，ニューラルネットのようなバックプロパゲーション学習と同じくノンパラメトリックなパターン識別手法(与えられた学習データをすべて

(29)

正しく識別できるようにする方法)ではあるが，マージンの最大化を最大の特徴とする．SVMは学習データの中で最も他のクラスと近い位置にいるもの(Support

Vector)を基準とし，そのユークリッド距離が最も大きくなるような位置にパター

ン識別の境界を設定する．つまり，SVMはクラスの最端から他クラスまでのマージンを最大にするようにする．これがマージンの最大化[図5.7 ]と呼ばれるものであり，これによりSVMの高い汎化能力を実現している．

すなわち，SVMは，本研究が目的とするタンパク質機能部位予測において，未知の機能部位の存在への対応力の点でニューラルネット等のバックプロパゲーション学習を用いた識別手法よりも優れていると考えられる．

本研究ではSVMの実装としてSVM^lightを使用する．

(30)

5.4 予測に用いるパラメータ

物理化学的性質に係るパラメータ

¶ ³

Charge：

コンタクトしている残基対の電荷を表すパラメータ

Hydrophobic：

コンタクトしている残基対の疎水性を表すパラメータ

Polar：

コンタクトしている残基対の極性を表すパラメータ

Small：

コンタクトしている残基の大きさに関するパラメータ

Tiny：

コンタクトしている残基の大きさに関するパラメータ

Aromatic：

コンタクトしている残基が芳香族かどうかに関するパラメータ

Ariphatic：

コンタクトしている残基が脂肪族かどうかに関するパラメータ

Proline：

コンタクトしている残基がプロリンを有するかに関するパラメータ

Neighbouring Charge：

コンタクトしている残基対の周辺の電荷を表すパラメータ

(31)

構造上の特徴に係るパラメータ

¶ ³

Residue Distance：

コンタクトしている残基対のアミノ酸配列上での距離を表すパラメータ

Density：

コンタクトしている残基対の周辺の密度を表すパラメータ

µ ´

5.4.1 物理化学的性質に係るパラメータ

残基の物理化学的性質は以下の値を用いる．

I L V C A G M F Y W H K R

hydrophobic 1 1 1 1 1 1 1 1 1 1 1 1 0

polar 0 0 0 0 0 0 0 0 0 1 1 1 1

small 0 0 1 1 1 1 0 0 0 0 0 0 0

proline 0 0 0 0 0 0 0 0 0 0 0 0 0

tiny 0 0 0 0 1 1 0 0 0 0 0 0 0

aliphatic 1 1 1 0 0 0 0 0 0 0 0 0 0

aromatic 0 0 0 0 0 0 0 1 1 1 1 0 0

positive 0 0 0 0 0 0 0 0 0 0 1 1 1

negative 0 0 0 0 0 0 0 0 0 0 0 0 0

表 5.1: アミノ酸の物理化学的性質に対する真理表１[8]

(32)

E Q D N S T P B Z X 4 hydrophobic 0 0 0 0 0 1 0 0 0 1 1

polar 1 1 1 1 1 1 0 1 1 1 1

small 0 0 1 1 1 1 1 0 0 1 1

proline 0 0 0 0 0 0 1 0 0 1 1

tiny 0 0 0 0 1 0 0 0 0 1 1

aliphatic 0 0 0 0 0 0 0 0 0 1 1

aromatic 0 0 0 0 0 0 0 0 0 1 1

positive 0 0 0 0 0 0 0 0 0 1 1

negative 1 0 1 0 0 0 0 0 0 1 1

表 5.2: アミノ酸の物理化学的性質に対する真理表２[8]

そして，それぞれのコンタクトの持つパラメータは以下のように定義する．

1. Charge

コンタクトを形成するアミノ酸残基対が(x,y)であるコンタクトのパラメータChargeの値:Charge(x, y)は以下の式から得る．

Charge

¶ ³

Charge(x, y) =positive(x)−negative(x) +positive(y)−negative(y);

positive(i) :アミノ酸残基iのpositiveの値 negative(i) :アミノ酸残基iのnegativeの値

µ ´

電荷が＋の残基と電荷が＋の残基がコンタクトしている場合，電荷が−の結合物質はより結合しやすく，電荷が＋の結合物質はより結合しにくくなる．

一方で，電荷が−の残基と電荷が−の残基がコンタクトしている場合，電荷が＋の結合物質はより結合しやすく，電荷が−の結合物質はより結合しにく

(33)

くなる．

この性質を表現する為には，式中で一の残基の電荷と他の残基の電荷との演算子として＋を用いることが相当であると考えられる．

2. Hydrophobic

コンタクトを形成するアミノ酸残基対が(x,y)であるコンタクトのパラメータHydrophobic:Hydrophobic(x, y)の値は以下の式から得る．

Hydrophobic

¶ ³

Hydrophobic(x, y) =hydrophobic(x) +hydrophobic(y);

hydrophobic(i) :アミノ酸残基iのhydrophobicの値

µ ´

疎水性とは，水に対する親和性が低い，すなわち水に溶解しにくい，あるいは水と混ざりにくい物質または分子（の一部分）の性質のことである．疎水

性分子(の一部)は水などの極性溶媒中で溶媒と分離し凝集する性質である疎

水効果を有する．

疎水性の高い残基と疎水性の高い残基がコンタクトしている場合，疎水性の高い分子との反応性が高く，疎水性の低い残基と疎水性の低い残基がコンタクトしている場合，疎水性の高い分子との反応性は低くなる．この性質を表現する為には，上式におけるhydrophobic(x)とhydrophobic(y)の間の演算子として＋(加算)を用いることが相当であると考えられる．(二項の演算子として×(乗算)も同様の効果が得られるように思われる．しかし，本研究では各残基のhydrophobicの値は1か0である為，この値が1の残基と0の残

(34)

3. Polar

コンタクトを形成するアミノ酸残基対が(x,y)であるコンタクトのパラメータPolarの値:P olar(x, y)は以下の式から得る．

Polar

¶ ³

P olar(x, y) = polar(x) +polar(y);

polar(i) :アミノ酸残基iのpolarの値

µ ´

極性は分子内に存在する電気的な偏りのことで，電気双極子モーメントによって生まれる．極性は溶解や反応を考える際に重要で，例えば高極性物質は高極性溶媒に溶解しやすいが，低極性溶媒には溶解しにくいという性質がある．

極性の高い残基と極性の高い残基がコンタクトしている場合，極性の高い分子との反応性が高く，極性の低い残基と極性の低い残基がコンタクトしている場合，極性の高い分子との反応性は低くなる．この性質を表現する為には上式におけるpolar(x)とpolar(y)の間の演算子として＋(加算)を用いることが相当であると考えられる．(二項の演算子として×(乗算)も同様の効果が得られるように思われる．しかし，本研究では各残基のpolarの値は1か 0である為，この値が1の残基と0の残基から成るコンタクトのPolar(x, y) の値が0となってしまい妥当ではない．このため，Polar(x, y)の値を求める式中の二項の演算子としては＋を用いる．)

4. その他の物理化学的性質

上述のCharge，Hydrophobic及びPolar以外の物理化学的性質：Small，Tiny，

Aromatic，Ariphatic及びProlineについてのパラメータも同様に以下の式から得る．

(35)

The Other Five Parameters

¶ ³

P arameter(x, y) =parameter(x) +parameter(y);

parameter(i) :アミノ酸残基iのparameterの値

µ ´

5. 周辺の物理化学的性質

コンタクトを形成している残基対の周辺の物理化学的性質として特に周辺の Chargeの値:nCharge(x, y)は以下の式から得る．

Neighbouring Charge

¶ ³

nCharge(x, y) = nCharge(x)+nCharge(y)

|Nx|+|Ny| ; nCharge(i) = ^X

k∈Ni

{positive(i)−negative(i)}

N_i ={j|S(i, j) = 1∪S(j, i) = 1}

S(i, j) :コンタクトマップの位置(i, j)の値

µ ´

タンパク質はアミノ酸配列が折りたたまれ立体構造を形成しており，そこへの結合物質の結合には，立体構造におけるある特定の部分に位置する複数の残基が関与している．この為，結合物質コンタクトであるか否かを判断しようとしているコンタクトそのものの物理化学的性質だけでなく，タンパク質の立体構造上でそのコンタクトの周辺にある残基の物理化学的性質もそのコンタクトへの結合物質の結合性に影響を与えるものと考えられる．例えば，

コンタクトの周辺の電荷が極端に＋である場合にはコンタクトの電荷が−であっても金属イオンのような＋の電荷を持つ結合物質は結合し難くなり，逆に，コンタクトの周辺の電荷が極端に−である場合には電荷が＋であるコン

(36)

5.4.2 構造に係るパラメータ

1. Residue Distance

コンタクトを形成する残基対のアミノ酸配列上での距離を表し，その値:Distance(x, y) は以下の式から得る．

Residue Distance

¶ ³

Distance(x, y) = |x−y|

i:アミノ酸配列上での位置

µ ´

結合物質結合コンタクトの絶対数はコンタクトを形成する残基対のアミノ酸配列上での距離の値が小さい方が多くなるであろうことを考慮したものである．

2. Density

コンタクトを形成する残基対の周辺の密度を表し，その値:Density(x, y)は以下の何れかの式から得る．

Density(最小値による表現)

¶ ³

Density(x, y) =minimum(|Nx|,|Ny|)−1;

N_i ={j|i6=j, S(i, j) = 1∪S(j, i) = 1}

S(i, j) :コンタクトマップの位置(i, j)の値 minimum(i, j) :i, jの内小さい方の値を返す

µ ´

(37)

Density(和による表現)

¶ ³

Density(x, y) =|N_x|+|N_y| −2;

N_i ={j|i6=j, S(i, j) = 1∪S(j, i) = 1}

S(i, j) :コンタクトマップの位置(i, j)の値

µ ´

密度はコンタクトの周辺に存在する残基の個数，より正確に言えば，コンタクトを形成している残基にコンタクトしている残基の個数を表している．あるコンタクトの密度が非常に大きい場合，そのコンタクトには結合物質の結合余地が少なく，結合物質が結合する可能性は低くなると考えられ，また，

あるコンタクトの密度が非常に小さい場合，そのコンタクトは結合物質の結合余地は多いが，そのコンタクトを含むその周辺は結合物質を捕える為に適当な立体構造をとっておらず，その為，結合物質が結合する可能性は低くなると考えられる．一方で，あるコンタクトの密度が小さすぎない値である場合は，結合物質が結合する可能性は高くなると考えられる．

図 5.8: 密度の表現法による差

なお，Densityの最小値による表現は，コンタクトを形成する残基対のどち

(38)

判断しない場合に用いるものである．

図5.8 は，残基R1及びR2からなるコンタクトのDensityの値の例を示している。残基R₁にはR₂以外に4つの残基が接触しており，残基R₂にはR₁ 以外に2つの残基が接触している．このため，Densityをコンタクトを形成する二つの残基の周辺の混み具合の和と考えて計算する場合，その値は6となる．一方で，Densityをコンタクトを形成する二つの残基の周辺の混み具合の最小値と考えて計算する場合には，その値は2となる．

(39)

第 6 _{章実験・評価と考察}

本章では本論文で提案する手法がタンパク質の機能部位の予測において有効であることを証明する為に，PDBに収録された機能部位既知のタンパク質の機能部位を本手法を用いて予測する実験を行い，それを評価することにより，本論文の提案手法の有効性を立証する．

6.1 _{実験データ}

実験のデータとして，PDB(2006年10月版)に収録された，タンパク質と低分子やペプチド等タンパク質を除く結合物質との複合体のデータを用いる．十分な学習データを得る為にリストの冗長性は，残基一致率50%以下に設定した．また，

配列長が40残基以上のタンパク質に限定している．この条件でPDBから得られた4669個のタンパク質のデータを用い実験を行なった．

予測の対象となる結合物質は，

1. 金属原子 2. ATP・ADP 3. SO4

(40)

1. 金属原子 :1807個 2. ATP・ADP :134個 3. SO4 :853個

である．

6.2 実験概要

提案手法の有効性を立証する為，前述の実験対象のコンタクトマップ上での機能部位を複数の異なるパラメータを用いたSVMにより予測させる実験を行なった．

ここで，各実験(で用いたパラメータ)は以下の通りである．

1. 実験１ Charge，Hydrophobic，Polar，Small，Tiny，Aromatic，Ariphatic

及びProlineの物理化学的性質に係るパラメータによる学習・予測

2. 実験２実験１の物理化学的性質に係るパラメータ＋立体構造に係るパラメータDistanceによる学習・予測

3. 実験３実験２のパラメータ＋立体構造に係るパラメータDensityによる学習・予測

4. 実験４実験２のパラメータ＋物理化学的性質に係るパラメータnChargeによる学習・予測

5. 実験５実験１の物理化学的性質に係るパラメータ＋Density＋nChargeによる学習・予測

6. 実験６実験３のパラメータ＋物理化学的性質に係るパラメータnChargeによる学習・予測

これらの実験は予測対象である結合物質(金属，SO4，ATP・ADP)毎に，全データの内予測対象を結合物質として持つタンパク質群のデータ(金属については全

(41)

データからランダムに抽出した300のデータ)を3分割したジャックナイフ法により行なう． SV M^lightはカーネルはリニアカーネルを用い，その他の設定はデフォルトの設定を用いる．

実験環境は以下表6.1 の通りである．

CPU Athlon 2.00GHz OS Windows XP RAM SDRAM 1.00GB

表 6.1: 実験環境

6.3 実験結果・評価と考察

ここでは6つの予測実験の結果・評価とそれに対する考察を述べる．

実験結果の評価にはROC曲線を用いる．ROC曲線は，縦軸を_{T P}^{T P}_{+F N}，横軸を

F P

F P+T N としてプロットする曲線である．この曲線により閾値をどこにとるかで，

結合物質コンタクトと非結合物質コンタクトを判別する能力がどうなるかを視覚的に示す事が可能となる．

6.3.1 コンタクト閾値・結合物質結合コンタクト閾値等各種設定

コンタクトの閾値となる残基間距離は本実験では10˚Aとしている．アミノ酸残基の側鎖のファンデルワールス半径を考慮したものである．例えば，アラニンは，

(42)

した[5] [10] [11] [12] [13] ．

物質結合コンタクトのCβ-結合物質間距離の閾値は7˚Aとする．この値は実際の結合距離よりも若干大きいと思われる値をとっている[12] [13] ．これはアミノ酸残基の側鎖のファンデルワールス半径と結合物質原子のファンデルワールス半径に加え，物質との結合においてタンパク質の構造が変化する可能性があることを考慮したものである．また，実際にコンタクトマップへ結合物質をマッピングしてみたところ，コンタクトマップ上で機能部位を十分に捉える為にはこの7˚A程度の値が必要になることがわかった為でもある．

6.3.2 コンタクトの物理化学的性質のみ

コンタクトの物理化学的性質のみから機能部位を予測することが可能であるかを実験した．

物理化学的性質に係るCharge，Hydrophobic，Polar，Small，Tiny，Aromatic，

Ariphatic及びProlineのパラメータを用いて行なった実験結果は，金属を予測対

象の結合物質としたものが図6.1 ，SO4を予測対象の結合物質としたものが図6.2

，ATP・ADPを予測対象の結合物質としたものが図6.3となった．

図 6.1: ROCカーブ(金属,M:0,T:10,L:7)

(43)

図 6.2: ROCカーブ(SO4,M:0,T:10,L:7)

(44)

この実験結果から，金属，SO4を予測対象とした場合，物理化学的性質に係るパラメータのみによる機能部位予測手法により機能部位を予測することが可能であることが示された．しかし，その予測精度はあまり高くないことが同時にみてとられる．また，ATP・ADPを予測対象とした場合には，物理化学的性質に係るパラメータのみによる機能部位予測手法によっては機能部位を予測することがほぼ出来ないことがわかった．

これは，金属とSO4については，それぞれ正及び負のイオンとして存在している為電荷が結合物質の結合において重要となり，電荷を含む物理化学的性質をパラメータとして用いたことにより予測能力を有したものと考えられる．一方，ATP・

ADPについてはそのような性質がないため，その結合部位を予測することが出来なかったのであろうと考えられる．また，すべての予測対象の結合物質について，

コンタクトの物理化学的性質に係るパラメータのみによる学習は，言い換えれば，

400組のコンタクトの機能部位へのなり易さを学習しているに過ぎない．よって，

あるコンタクトS(x₁, y₁)と他のコンタクトS(x₂, y₂)が存在したとき，例えばそれぞれのアミノ酸残基がx₁ =x₂∩y₁ =y₂という関係にあるときなどはそれぞれのコンタクトの持つパラメータは等しくなり，SVMがコンタクトS(x₁, y₁)とコンタクトS(x₂, y₂)を同じものと判断してしまう．このため，予測精度が低い若しくはほぼ予測出来ないという結果になったのであろうと考えられる．

6.3.3 物理化学的性質＋配列上の距離

前項の実験より，物理化学的性質に係るパラメータのみでは機能部位の予測精度はそれほど高くないことがわかった．ここで，同一の物理化学的性質に係るパラメータの値を持つあるコンタクトS(x1, y1)と他のコンタクトS(x2, y2)を異なるものであるとSVMに判断させる為に，物理が学的性質にたよらない構造に係るパラメータとしてコンタクトを形成する残基対のアミノ酸配列上での距離を表す Distance(x, y)を用いる．

これにより，SVMは同一の残基対から成るコンタクトのような同一のパラメータ

(45)

を持つ異なるコンタクトを異なるものとして判断する事が出来るようになると考えられる．

Charge，Hydrophobic，Polar，Small，Tiny，Aromatic，Ariphatic，Proline及

びDistanceをパラメータとして用いて行なった実験の結果は，金属を予測対象の結

合物質としたものが図6.4，SO4を予測対象の結合物質としたものが図6.5，ATP・ ADPを予測対象の結合物質としたものが図6.6となった．

図 6.4: ROCカーブ(金属-d,M:0,T:10,L:7)

(46)

図 6.6: ROCカーブ(ATP・ADP-d,M:0,T:10,L:7)

この実験結果から，先ず，金属及びATP・ADPの結合部位については，パラメータとしてコンタクトを形成する残基対のアミノ酸配列上での距離を加えることにより予測精度を向上させられることがわかった．ただし，機能部位の予測精度向上の度合いは僅かであった．

配列上での距離というパラメータは機械学習によるコンタクトマップ自体の予測に関する研究においては有効であることがわかっている [9]，[10] ，[11] ．本実験からこのパラメータはコンタクトマップ上でのある一定の機能部位の予測においても有効であることがわかったが，その効果は僅かであることもわかった．

これは，コンタクトマップ自体の予測は一つのアミノ酸が折り畳まれて作られる一つのタンパク質のみを対象としており，このアミノ酸の折り畳みの性質上アミノ酸配列上での距離が離れたアミノ酸残基はコンタクトしにくく，このコンタクトを形成する残基対のアミノ酸配列上での距離というパラメータが有効に機能する，その一方で，本研究はタンパク質とアミノ酸の折り畳みとは関係のない結合物質との結合を扱うものであり，コンタクトを形成する残基対のアミノ酸配列上での距離の如何は結合のし易さにはさして影響を与えないということを示していると考えられる．

また，Distance(x, y)の値が小さい方がポジティブな学習データの絶対数が多いため，アミノ酸配列上での距離により予測能力が向上するものと思われたが，そう

(47)

はならなかった．これは，Distance(x, y)の値が小さい方がポジティブな学習データの絶対数は多くなるが，同時にネガティブな学習データの数も多くなる為，ポジティブな学習データの割合はDistance(x, y)の値が変化した場合であってもあまり変化しないということを表しているのであろうと考えられる．

次に，SO4の結合部位については，距離のパラメータを加えることにより予測精度が低下することがわかった．これは，SO4の結合においては，コンタクトを形成する残基対の距離はほとんど関係なく，距離を考慮することが学習においてノイズとなってしまったのだと考える．

6.3.4 物理化学的性質＋配列上の距離＋密度

前項の実験結果から，物理化学的性質に構造上の特徴に係るパラメータとしてコンタクト残基対の配列上の距離を加えることにより機能部位の予測精度を向上させられることがわかった．しかし，同時にその向上の度合いはそれほど大きなものではないことがわかった．このため，これらパラメータのパラメータに加え構造に係るパラメータである密度を用いた実験を行なった．密度は以下に示す特徴を有するため，予測精度の向上に資することが出来ると考えたためである．

前述の通り，本研究では密度の計算式として和による表現の式と最小値による表現の式の2つの式を考えている．

それぞれの式を用いて結合コンタクトの持つ密度，非結合コンタクトの持つ密度，

コンタクトの各密度における結合コンタクトの割合を計算した結果を以下図6.7 ， 6.8 ，6.9 ，6.9 ，6.11 ，6.12 ，6.13 ，6.13 に示す．

図6.7は，和による密度の式を用いて計算した金属を結合物質として持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである．そ

6.8

(48)

図 6.7: 金属:密度(和)の分布

図 6.8: 金属:各密度(和)における機能部位の割合

(49)

図6.9は，最小値による密度の式を用いて計算した金属を結合物質として持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである．そして，図6.10は，この場合における金属を結合物質として持つ結合物質コンタクトの各密度における出現率のグラフである．

図 6.9: 金属:密度(最小値)の分布

(50)

図6.11は，和による密度の式を用いて計算したSO4を結合物質として持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである．

そして，図6.12は，この場合におけるSO4を結合物質として持つ結合物質コンタクトの各密度における出現率のグラフである．

図 6.11: SO4:密度(和)の分布

図 6.12: SO4:各密度(和)における機能部位の割合

(51)

図6.13は，最小値による密度の式を用いて計算したSO4を結合物質として持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである．そして，図6.14は，この場合におけるSO4を結合物質として持つ結合物質コンタクトの各密度における出現率のグラフである．

図 6.13: SO4:密度(最小値)の分布

(52)

図6.15は，和による密度の式を用いて計算したATP・ADPを結合物質として持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである．そして，図6.16は，この場合におけるATP・ADPを結合物質として持つ結合物質コンタクトの各密度における出現率のグラフである．

図 6.15: ATP・ADP:密度(和)の分布

図 6.16: ATP・ADP:各密度(和)における機能部位の割合

(53)

図6.17は，最小値による密度の式を用いて計算したATP・ADPを結合物質として持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである．そして，図6.18は，この場合におけるATP・ADPを結合物質として持つ結合物質コンタクトの各密度における出現率のグラフである．

図 6.17: ATP・ADP:密度(最小値)の分布

(54)

図6.7 ，6.9 からは，金属を結合物質とした場合のコンタクトの密度の分布は結合コンタクトと非結合コンタクトでほぼ同じように見える．しかし，図6.8，6.10 から結合コンタクトの密度の選好と非結合コンタクトの密度の選好との間に違いがあることがわかる．例えば，極端に大きい密度や小さい密度では結合コンタクトの割合が非常に低くなっている．図6.11 ，6.13 からは，SO4を結合物質とした場合のコンタクトの密度の分布に結合コンタクトと非結合コンタクトで若干差があるように見える．次に，図6.12 ，6.14 からも結合コンタクトの密度の選好と非結合コンタクトの密度の選好との間に違いがあることがわかる．例えば，極端に大きい密度や小さい密度では結合コンタクトの割合が非常に低くなっており，また，

明らかな右肩下がりのトレンドが見られる．図6.15 ，6.17 からは，ATP・ADP を結合物質とした場合のコンタクトの密度の分布に結合コンタクトと非結合コンタクトで若干差があるように見える．次に，図6.16 ，6.18からも結合コンタクトの密度の選好と非結合コンタクトの密度の選好との間に違いがあることがわかる．

例えば，極端に大きい密度や小さい密度では結合コンタクトの割合が非常に低くなっており，また，明らかな右肩上がりのトレンドが見られる．

このため，いずれの式を用いたとしても密度は単独の指標として機能部位の予測能力を有する可能性があると考えられる．

ここで，密度を和による表現により表した式を用いた場合の方が，各コンタクトの密度を様々な値で表現する事が出来る．また，結合コンタクトの密度の選好と非結合コンタクトの密度の選好違いがより明確であるように思われる．さらに，

本研究では物質結合コンタクトの定義を結合物質とコンタクトを形成する2の残基双方からの距離が閾値以内であるコンタクトとしている．この為，本実験では

密度Densityの計算式として和による表現の式を用いることとした．

Charge，Hydrophobic，Polar，Small，Tiny，Aromatic，Ariphatic，Proline，Dis-

tance及びDensityをパラメータとして用いて行なった実験の結果は，金属を予測

対象の結合物質としたものが図6.19 ，SO4を予測対象の結合物質としたものが図 6.20 ，ATP・ADPを予測対象の結合物質としたものが図6.21となった．

(55)

図 6.19: ROCカーブ(金属-dD,M:0,T:10,L:7)

図 6.20: ROCカーブ(SO4-dD,M:0,T:10,L:7)

(56)

図 6.21: ROCカーブ(ATP-dD,M:0,T:10,L:7)

SO4を予測対象とした実験結果において，密度をパラメータとして加えても機能部位を予測出来ることがわかった．また，構造上の特徴に係るパラメータとして距離のみを用いたものよりも予測精度が向上した．しかし，物理化学的性質のみを用いた場合と予測精度はあまり差がなかった．機能部位を予測することが出来たのは，前述のように物質結合コンタクトの密度と非結合コンタクトの密度とは異なるトレンドを持つことが反映されたものであると考えられる．例えば，極端に密度が大きいものは結合コンタクトには非常になりにくいため，結合コンタクトと予測されにくくなる．このようにFPが減少し，一方でTPが増加したのであろう．一方で，密度のパラメータとして用いた場合と物理化学的性質のみを用いた場合で予測精度にあまり差がなかったのは，結合コンタクトと非結合コンタクトで密度の選好に差があるとはいえ，その差は僅かであるため．また，特徴的な密度であっても絶対数では結合コンタクトよりも非結合コンタクトの方が圧倒的に多いため，であると考える．

金属及びATP・ADPを予測対象とした実験結果においては，構造上の特徴に係るパラメータとして距離のみを用いたものと比べ，予測精度が低下した．これは，

まず金属については，SO4は密度の選好に目に見える右下がりの特徴がある(図

6.12 )のに対して，金属の密度の選好に差があまりない(図6.8 )ことを反映して

いるのだと考えられる．また，特徴的な密度であっても絶対数では結合コンタク

(57)

トよりも非結合コンタクトの方が圧倒的に多いことが学習に影響しているのだと考えられる．次にATP・ADPについて，ATP・ADPの密度の選好はSO4と同様目に見える特徴がある(図6.16 )が，密度を考慮することにより距離の値が小さいが特徴的な密度を有しないコンタクトを結合コンタクトと判断出来なくなってしまったため予測精度が低下したのではないかと考えられる．距離の値が小さい主鎖付近のコンタクトに結合コンタクトは最も多く，逆に距離の値が大きい大域的な接触を行なうコンタクトには結合コンタクトは非常に少ない．このため，密度を考慮することにより特徴的な密度を持つ大域的な接触を行なうコンタクトを機能部位と予測出来るようになる効果よりも，あまり特徴的でない密度の主鎖付近のコンタクトを機能部位と予測出来なくなる効果の方が大きかったのではないか、

と考えられるためである．また，予測精度低下の他の理由として，ATP・ADPを有するタンパク質のデータの量がSVMが学習モデルを作るために十分なデータ量ではなかった可能性も考えられる．

6.3.5 物理化学的性質＋配列上の距離＋周辺電荷

前述のように，タンパク質はアミノ酸配列が折りたたまれ立体構造を形成しており，そこへの結合物質の結合には，立体構造におけるある特定の部分に位置する複数の残基が関与している．この為，結合物質コンタクトであるか否かを判断しようとしているコンタクトそのものの物理化学的性質だけでなく，タンパク質の立体構造上でそのコンタクトの周辺にある残基の物理化学的性質もそのコンタクトへの結合物質の結合性に影響を与えるものと考えられる．そこで，物理化学的性質のうち，金属やSO4等の結合物質の結合への影響が最も大きいと考えられる電

(58)

6.23 ，ATP・ADPを予測対象の結合物質としたものが図6.24となった．

図 6.22: ROCカーブ(金属-dM,M:0,T:10,L:7)

図 6.23: ROCカーブ(SO4-dM,M:0,T:10,L:7)

(59)

図 6.24: ROCカーブ(ATP-dM,M:0,T:10,L:7)

金属及びATP・ADP を予測対象とした実験結果においては，構造上の特徴に

係るパラメータとして距離のみを用いたものと比べ，予測精度が低下した．

この結果から，これらの結合部位の予測においては，周辺の電荷は，少なくともコンタクト残基の物理化学的性質や配列上での距離との組み合わせでは予測能力を有さず，学習・予測においてノイズにしかならないということがわかった．ATP・

ADPについては，電荷が結合に大きな影響を与えないことが反映されているのだと思われる．また，データ量が少なく適切な学習モデルを作ることが出来なかったという可能性も考えられる．金属については，まず周辺の電荷は結合にほぼ影響を与えない可能性が考えられる．また，周辺の電荷は結合に影響するが，これを考慮することにより主鎖付近の結合コンタクトを予測する能力が低下し，全体として予測精度が低下したという可能性が考えられる．さらに，学習データが足りずに適切な学習モデルを作ることが出来なかったという可能性も考えられる．金属については，正の電荷を有するため周辺の電荷が結合に大きく影響してくるものと考えられたが，実際は周辺の電荷はそれほど結合に関与していないという可能性が考えられる．ただし，未だ他のパラメータと結びつくことにより予測能力

(60)

て距離のみを用いたものと比べ，予測精度が上昇した．これは，SO4の結合には電荷が非常に大きく影響しており，距離の値が小さい主鎖付近のコンタクトの中から正の電荷を持つコンタクトを結合コンタクトとして予測出来るようになり，TP が増加し一方でFPが減少したということであると考える．

6.3.6 物理化学的性質＋密度＋周辺電荷

金属及びATP・ADPを予測対象とした実験においては，物理化学的性質と距離

と密度，物理化学的性質と距離と周辺の電荷をパラメータとした場合，物理化学的性質と距離をパラメータとして用いたときより予測精度が低下した．ここでは，

学習パラメータから距離を除き，物理化学的性質と密度及び周辺の電荷のみを用いて実験を行なった．

Charge，Hydrophobic，Polar，Small，Tiny，Aromatic，Ariphatic，Proline，Den-

sity及びnChargeをパラメータとして用いて行なった実験の結果は，金属を予測

対象の結合物質としたものが図6.25 ，SO4を予測対象の結合物質としたものが図 6.26 ，ATP・ADPを予測対象の結合物質としたものが図6.27となった．

図 6.25: ROCカーブ(金属-DM,M:0,T:10,L:7)

(61)

図 6.26: ROCカーブ(SO4-DM,M:0,T:10,L:7)

機械学習を用いたコンタクトマップ によるタンパク質機能部位予測

2007 年度 修士論文