2007 年度 修士論文
機械学習を用いたコンタクトマップ によるタンパク質機能部位予測
提出日: 2008 年 2 月 4 日 指導:村岡洋一教授
早稲田大学大学院理工学研究科情報・ネットワーク専攻 学籍番号: 3606U068-9
豊田 毅嗣
目 次
第1章 序論 1
1.1 研究背景 . . . . 1
1.2 研究目的 . . . . 2
1.3 論文の構成 . . . . 3
第2章 タンパク質について 4 2.1 タンパク質の構造 . . . . 4
2.2 タンパク質の機能 . . . . 6
第3章 関連研究 7 3.1 物性の類似度等に着目した機能部位予測 . . . . 7
3.2 ドッキング予測 . . . . 7
第4章 提案手法 9 4.1 コンタクトマップ . . . . 9
4.1.1 コンタクトマップとは . . . . 9
4.2 機能部位予測 . . . . 10
4.2.1 コンタクト毎の予測 . . . . 11
第5章 実装 14 5.1 コンタクトマップの作成 . . . . 14
5.1.1 残基のコンタクトの定義 . . . . 14
5.1.2 残基間距離の定義 . . . . 15
5.1.3 コンタクトマップの処理負荷の軽減 . . . . 16
5.1.4 一定の立体構造をとらない残基への対応 . . . . 18
5.2 結合物質結合部位コンタクトマップの作成 . . . . 20
5.2.1 結合物質結合コンタクトの定義 . . . . 20
5.2.2 結合物質-残基間距離の定義 . . . . 20
5.3 SVM(Support Vector Machine) . . . . 21
5.4 予測に用いるパラメータ . . . . 23
5.4.1 物理化学的性質に係るパラメータ . . . . 24
5.4.2 構造に係るパラメータ . . . . 29
第6章 実験・評価と考察 32 6.1 実験データ . . . . 32
6.2 実験概要 . . . . 33
6.3 実験結果・評価と考察 . . . . 34
6.3.1 コンタクト閾値・結合物質結合コンタクト閾値等各種設定 . 34 6.3.2 コンタクトの物理化学的性質のみ . . . . 35
6.3.3 物理化学的性質+配列上の距離 . . . . 37
6.3.4 物理化学的性質+配列上の距離+密度 . . . . 40
6.3.5 物理化学的性質+配列上の距離+周辺電荷 . . . . 50
6.3.6 物理化学的性質+密度+周辺電荷 . . . . 53
6.3.7 物性+距離+密度+周辺電荷 . . . . 55
6.3.8 予測速度 . . . . 60
第7章 結論 61 7.1 まとめ . . . . 61
7.2 今後の予定 . . . . 61
謝辞 66
図 目 次
2.1 タンパク質の立体構造:1qsh . . . . 5
4.1 タンパク質の立体構造のPDBファイルでの表現 . . . . 10
4.2 タンパク質の立体構造のコンタクトマップへの写像 . . . . 11
4.3 コンタクトマップへの物質結合部位のマッピング . . . . 12
4.4 機能部位予測概要:メインフロー . . . . 13
4.5 機能部位予測概要:学習データ作成プロセスフロー . . . . 13
5.1 アミノ酸の構造 . . . . 15
5.2 コンタクトマップ(要素数:N×N) . . . . 16
5.3 コンタクトマップ(要素数:N×(N2 −1)) . . . . 17
5.4 REMARK 465(PDB ID:1ALU) . . . . 18
5.5 コンタクトマップ(構造をとらない残基未対応). . . . 19
5.6 コンタクトマップ(構造をとらない残基対応済み) . . . . 19
5.7 Support Vector Machine . . . . 21
5.8 密度の表現法による差 . . . . 30
6.1 ROCカーブ(金属,M:0,T:10,L:7) . . . . 35
6.2 ROCカーブ(SO4,M:0,T:10,L:7) . . . . 36
6.3 ROCカーブ(ATP・ADP,M:0,T:10,L:7) . . . . 36
6.8 金属:各密度(和)における機能部位の割合 . . . . 41
6.9 金属:密度(最小値)の分布 . . . . 42
6.10 金属:各密度(最小値)における機能部位の割合 . . . . 42
6.11 SO4:密度(和)の分布 . . . . 43
6.12 SO4:各密度(和)における機能部位の割合 . . . . 43
6.13 SO4:密度(最小値)の分布. . . . 44
6.14 SO4:各密度(最小値)における機能部位の割合 . . . . 44
6.15 ATP・ADP:密度(和)の分布 . . . . 45
6.16 ATP・ADP:各密度(和)における機能部位の割合 . . . . 45
6.17 ATP・ADP:密度(最小値)の分布 . . . . 46
6.18 ATP・ADP:各密度(最小値)における機能部位の割合 . . . . 46
6.19 ROCカーブ(金属-dD,M:0,T:10,L:7). . . . 48
6.20 ROCカーブ(SO4-dD,M:0,T:10,L:7) . . . . 48
6.21 ROCカーブ(ATP-dD,M:0,T:10,L:7) . . . . 49
6.22 ROCカーブ(金属-dM,M:0,T:10,L:7) . . . . 51
6.23 ROCカーブ(SO4-dM,M:0,T:10,L:7) . . . . 51
6.24 ROCカーブ(ATP-dM,M:0,T:10,L:7) . . . . 52
6.25 ROCカーブ(金属-DM,M:0,T:10,L:7) . . . . 53
6.26 ROCカーブ(SO4-DM,M:0,T:10,L:7) . . . . 54
6.27 ROCカーブ(ATP-DM,M:0,T:10,L:7) . . . . 54
6.28 ROCカーブ(金属-dDM,M:0,T:10,L:7) . . . . 56
6.29 ROCカーブ(SO4-dDM,M:0,T:10,L:7). . . . 56
6.30 ROCカーブ(ATP-dDM,M:0,T:10,L:7) . . . . 56
6.31 金属:予測精度の比較 . . . . 58
6.32 SO4:予測精度の比較 . . . . 58
6.33 ATP・ADP:予測精度の比較 . . . . 59
表 目 次
5.1 アミノ酸の物理化学的性質に対する真理表1[8] . . . . 24 5.2 アミノ酸の物理化学的性質に対する真理表2[8] . . . . 25 6.1 実験環境 . . . . 34
第 1 章 序論
本章では,始めに本論文の全体の流れについて述べ,その後,本研究の背景,目 的について述べ,最後に本論文の構成を述べる.
1.1 研究背景
タンパク質は,人体を構成し,生命現象に直接関わる重要な物質である.タン パク質を構成するアミノ酸は20種あり,その並びや組み合わせによって様々なタ ンパク質が作られる.このアミノ酸配列を一次構造と呼び,タンパク質の立体構 造は一次構造から一意に決定される.タンパク質はポリペプチド鎖が折り畳まれ て特定の立体構造をつくり,その生物学的な機能は相補的な構造を持つ結合物質 との結合における物理的相互作用によって決まる.タンパク質がタンパク質,核 酸,低分子化合物等の他の分子と分子間相互作用することが,情報伝達をはじめ とする様々な機能を発揮するための第一段階となる.この為,タンパク質の構造 の中から,当該タンパク質の他の分子等との相互作用の起点を知ることはタンパ ク質の機能の解明にとって大きな意味を持つ.
従来はタンパク質の構造の解析については実験的な手法がとられていた.例え ば,構造決定はNMRやX線結晶解析などを用いた実験を通してである.しかし,
これらのプロセスは時間的・金銭的両面からみてコストが大きい.このため,多 くの立体構造不明なタンパク質が存在する状況においてはもはや実験的な手法だ けに頼っていては追いつかなくなっていた.そのため,蓄積された膨大なアミノ 酸配列等のタンパク質に関するデータを基に情報科学的手法を用いてその立体構 造を予測し,実際に実験を行なうターゲットを絞り込み,又は,直接明らかにす
る方法がとられるようになってきた.このようなタンパク質立体構造予測技術等 の進歩により,現在多くのタンパク質構造情報が得られるようになってきている.
そこで,現在,これらの立体構造情報を利用したタンパク質の機能に関する研 究が進められている.その一例として,タンパク質構造を考慮した創薬に関する 研究が挙げられる.創薬とは,例えば疾病の原因となっているタンパク質の疾病 に関与する機能を抑える化合物を発見するものである.元来創薬は実験的な手法 に頼って行なわれていたが,この手法では成功確率が低く,また,その為研究に 膨大な時間及び費用がかかるという問題があった.そこで,現在ではタンパク質 立体構造やゲノム配列など,およびそれらを解析するソフトウェアを用いること により,効率よく目的の薬候補を見つけ出す方法が試みられ,近年になって実際 に薬になる例が増えてきた.この領域に関して,現在,タンパク質とその結合相 手となる結合物質の結合可能性を求める様々なドッキングシミュレーションプロ グラムが開発されており,それらは一定の評価を得ている.
しかし,こういった立体構造を利用したドッキングシミュレーション等の方法 を用いて機能の解明を行なう場合であっても,正確に分子の結合エネルギーを予 測するために1千万ステップ以上の計算が必要とされる.その為,あらゆるタン パク質・結合物質について網羅的に行なうとなるとやはり膨大な時間を要するこ ととなるという問題がある.この為,実用時間内に処理を行なう為には,実際に シミュレーション・実験を行なうべき領域を限定する為の手法が必要となる.
1.2 研究目的
タンパク質は生命現象に直接関る重要な物質であり,多くのタンパク質は他の 原子や分子と相互作用することにより機能を果たす.そして,その機能の理解に
が存在するが,いずれの手法も複雑で予測に膨大な時間を必要とする等の問題が ある.
本研究では,タンパク質のアミノ酸残基の接触を表す行列であるコンタクトマッ プに対し,タンパク質とその結合原子(金属イオン)・分子(リガンドなど)の既 知構造データから得られる結合部位情報を基に,その結合部位をマッピングし,こ れにより得られた結合部位マッピング済みコンタクトマップを機械学習すること により,結合部位を予測する手法を開発する.本手法により,既知のタンパク質 構造における金属イオンやリガンドなどの結合部位を簡易迅速に予測することを 目指す.
1.3 論文の構成
本論文は以下の7章からなる.
第1章 序論
本論文の概要,目的,構成について述べる.
第2章 タンパク質について
本研究の研究対象であるタンパク質の基礎知識を述べる.
第3章 関連研究
従来の関連研究を紹介する.
第4章 提案手法
提案手法について述べる.
第5章 実装
提案手法の実装について述べる.
第6章 実験・評価と考察
提案手法の実験を行い,その結果を考察する.
第7章 結論
本論文の結論と,今後の課題について述べる.
第 2 章 タンパク質について
本研究はタンパク質を研究の対象とする.そこで本章では,本研究の理解を助け る為,タンパク質の構造やそれを支える結合などタンパク質に関する基礎につい て述べる.
タンパク質はアミノ酸残基がペプチド結合により多数つながった生体高分子で ある.タンパク質を構成しているアミノ酸残基は20種あり,その並びや組み合わ せによって様々なタンパク質が作られる.タンパク質のアミノ酸配列を一次構造 と呼び,一次構造から立体構造が決定される.タンパク質は,ポリペプチド鎖が 折り畳まれて立体構造を作ることにより機能を果たすことができる.
以下にタンパク質の構造及び機能についての基礎を記す.
2.1 タンパク質の構造
タンパク質はポリペプチド鎖が折りたたまれた状態で存在[図2.1]し,三次元の 立体構造を作ることによりその機能を発揮している.
バイオインフォマティクスの大きな目標の一つは,タンパク質のアミノ酸配列と 三次元構造の関係を理解することである.この関係がわかれば,タンパク質の構 造はそのアミノ酸配列から精度よく予測できる.配列と構造に基づいてタンパク 質を分類する研究は盛んに行なわれており,これらの情報はタンパク質の構造モ デルを構築する上で非常に有用である.
図 2.1: タンパク質の立体構造:1qsh
コンホメーションの変化であり,その変化を生み出すのは鎖中の各アミノ酸の相 互作用である.
ここで,タンパク質は以下のような階層構造をもつ.
1. 一次構造 アミノ酸配列 2. 二次構造
残基間の相互作用(水素結合)により,直鎖であったペプチド鎖が折りたた まれ作られるα ヘリックス構造やβ シート構造
3. 三次構造
二次構造同士の配置で,通常状態で1本のペプチド鎖がとる立体構造.主鎖 の折りたたまれ方は一定のパターンが多いが,側鎖は様々な方向に突き向い ている.タンパク質の機能は三次構造によってかなりの部分が規定されるこ とから,三次構造はタンパク質の機能解析に重要な役割を果たす
4. 四次構造
複数(場合によっては複数種)のポリペプチド鎖がまとまって複合体を形成
しているもの
このような立体構造を作ることによりタンパク質はその機能を発揮している.
2.2 タンパク質の機能
タンパク質には代謝やシグナル伝達等様々な機能が存在する.そして,タンパ ク質がタンパク質,核酸,低分子化合物等の他の分子と分子間相互作用すること が,これら様々な機能を発揮するための第一段階となる.
ここで,これらのタンパク質の機能はその立体構造と密接な関係を持つ.
例えば,
1. ) ポリペプチド鎖内で隣り合う領域が相互作用して,リガンド結合部位に水 分子が近寄れない場合,水分子が排除され,リガンド結合部位は乾いたまま となり,タンパク質とリガントの水素結合が強化される.
2. ) 近くにある極性のアミノ酸側鎖が集まり,互いの反応性を変化させる場合,
タンパク質の折り畳みで負電荷をもつ側鎖がたくさん集まると陽イオンに対 する親和力が大きくなり,特定の側鎖が水素結合で相互作用すると反応性の ない側鎖が活性化する.
このようにタンパク質の立体構造の特定の部位に,その構造と相補的な構造を とる物質が結合することによりタンパク質はその機能を発揮するのである.した がって,タンパク質に対する他の結合物質の結合部位を知ることは,その機能を 発揮し出す起点を知ることになり,タンパク質のよりマクロな機能を理解するた めに非常に重要となってくる.
第 3 章 関連研究
タンパク質の機能を予測する方法として配列相同性検索が有名であるが,機能既 知のタンパク質との相同性がみられない配列が多数存在することから,この手法 には限界がある.そこで,配列よりも機能部位における保存性が高く機能と密接 に関わっている立体構造情報を利用した機能予測手法など様々な手法が研究され ている.
3.1 物性の類似度等に着目した機能部位予測
立体構造から機能部位を推定する方法には分子表面の構造と物性(静電ポテン シャルと疎水性度)の類似性等に着目した方法がある [1] [2].
また,機械学習(SVM,NN)を用いたリガンド結合部位予測に関する研究も行なわ れている [3] [4].
3.2 ドッキング予測
実験的手法によらず,原子間相互作用の計算によるシミュレーションにより機能 部位を予測する手法(ドッキング予測の一種)も存在する.例えば,分子動力学法 はタンパク質などの分子を構成する原子に働く相互作用力を共有結合をバネ,非 共有結合をクーロン力,ファンデルワールス力や水素結合力のようなポテンシャ
ル関数(分子力学モデル)で近似し,分子の熱運動を,ニュートンの運動方程式を
解いてシミュレーションする方法である.
しかし,この方法を用いてより正確に分子の結合エネルギーを予測するために は,1千万ステップ以上の計算が必要と考えられており,その為,この手法により
あらゆる結合物質について網羅的に行なうとなると膨大な時間を要する.この為,
実用時間内に処理を行なう為の,実際にシミュレーションを行なう領域を限定す る為の手法が必要であると考えられる.
第 4 章 提案手法
本研究はタンパク質の立体構造情報が存在する場合,そのタンパク質内の各残基 同士の接触を表す行列であるコンタクトマップを作成し,そのコンタクトマップ 上に結合物質の結合部位をマッピングする.この操作を多数のタンパク質に繰り 返し,得られた情報をもとに学習を行い,タンパク質の機能部位を予測する.
したがって,本手法は,立体構造が既知のタンパク質に対して,その機能部位(結 合物質の結合部位)を予測する.
4.1 コンタクトマップ
タンパク質の立体構造情報からその機能部位を予測するために,まずタンパク 質の立体構造の生データ(タンパク質に含まれる全原子の配列情報)より,タンパ ク質の立体構造上の特徴のある程度を捉えることが出来るコンタクトマップを作 成する.
4.1.1 コンタクトマップとは
コンタクトマップはタンパク質の持つN個の残基の接触を表すN×Nの単純な 行列である.このコンタクトマップからは光学異性体情報等の情報を捉えること は出来ない一方で,タンパク質の全体のトポロジーや局所的な構造(例えばαヘ リックス・βシート等の二次構造)等多くの情報を捉えることが出来る[5].また,
コンタクトマップから三次元立体構造を復元することも可能である [6].
タンパク質構造のデータベース:PDB [7]から入手できるタンパク質の三次元の 立体構造情報は各原子の三次元座標情報で表現されており[図4.1],その情報量は
非常に大きい.また,必ずしもタンパク質を決められた方向から見るような決ま りがないため,座標を処理し直接機能部位を予測するには複雑で多くの計算を行 なう必要がある.これらの問題はタンパク質の立体構造をより簡潔に表現する情 報を用いることにより回避することが出来る.そこで本研究では立体構造を簡潔 に表現するコンタクトマップを用いる[図 4.2].
コンタクトマップの実装については第5章で詳しく述べる.
図 4.1: タンパク質の立体構造のPDBファイルでの表現
4.2
図 4.2: タンパク質の立体構造のコンタクトマップへの写像
詳しく述べる.ここで得られた非結合部位コンタクト及び結合部位コンタクトに 関する情報をもとに学習を行い,その結果を用い機能未知のタンパク質の機能部 位を予測する.
本研究では,コンタクト毎の予測という予測手法を用いる.
4.2.1 コンタクト毎の予測
それぞれのコンタクト(コンタクトマップにおいて値が1となっている点)に対 し,そのコンタクトを構成する2の残基の物理化学的特徴や立体構造上の特徴等 から計算されるパラメータを与える.そして,各コンタクトのこのパラメータ及 び結合物質の結合の有無を学習機械への入力とし,コンタクトへの結合物質の結 合についての学習を行なう.
図 4.3: コンタクトマップへの物質結合部位のマッピング
この際,コンタクト自体の物理化学的特徴としてCharge,Polar,Hydrophobic 等,コンタクトと周辺のアミノ酸残基の相互作用を考慮した物理化学的特徴とし てコンタクトの周辺のCharge,そして立体構造上の特徴として残基間距離等をパ ラメータとして用いる.
これらのパラメータについては第5章で詳しく述べる.
以下[図4.4 ,4.5]に本手法の概要(フロー)を示す.
図 4.4: 機能部位予測概要:メインフロー
図 4.5: 機能部位予測概要:学習データ作成プロセスフロー
第 5 章 実装
本章では提案手法の実装の中で特にコンタクトマップの作成方法,物質結合部位 コンタクトマップの作成方法,学習手法及び学習において用いるパラメータにつ いて詳しく述べる.
5.1 コンタクトマップの作成
前述したようにコンタクトマップはN残基からなるタンパク質の各残基のコン タクトを表すN×Nの行列である.したがって,コンタクトマップを作成する為 には,残基のコンタクトを定義する必要がある.その為,ここではまず残基のコ ンタクトの定義について述べる.次に,本研究においては残基のコンタクトを以 下に示すように定義することに伴い残基間の距離を定義する必要が生じる為,残 基間距離の定義についても述べる.さらにコンタクトマップの処理負荷の軽減や,
一定の立体構造をとらないアミノ酸残基の存在等の実装上の問題への対応につい て述べる.
5.1.1 残基のコンタクトの定義
残基間距離が閾値以内である2つの残基をコンタクトしているものとみなす.
コンタクト
¶ ³
S(i, j) =
1 if δ(i, j)≤threshold, |i−j| ≥margin 0 Otherwise
δ(i, j) :残基iと残基jの距離
threshold:コンタクトとみなす残基間距離の最大値(任意)
margin :コンタクトとみなすアミノ酸配列上の距離の最小値(任意)
µ ´
5.1.2 残基間距離の定義
本研究においては,残基間の距離は残基のCβ間の距離とみなす.各残基は主に 側鎖が動くことにより他の残基等と接触する.この為,残基の側鎖の動きをより 正確に捉える必要がある.
ここで,タンパク質を構成するアミノ酸残基は図5.1 のような構造を持ってい る為,Cβを用いることによりCα等を用いた場合に比べて側鎖の動きをより正確 に捉える事が出来る.ただし,Cβが存在しないグリシンに限りCβの代わりにCα を用いる.
図 5.1: アミノ酸の構造
5.1.3 コンタクトマップの処理負荷の軽減
コンタクトマップはタンパク質のN個の残基の接触を表すN×Nの行列[図5.2]
であるが,この行列はN次の正方行列であり,また,その転置行列が正方行列自 身と一致するN次の実対称行列である.
図 5.2: コンタクトマップ(要素数:N×N)
このため,N残基からなるコンタクトマップから得られる情報は,N×(N−1)2 の 要素で表現する事が可能である.本研究では,コンタクトマップの実装にあたり,
計算負荷の軽減の為コンタクトマップをN×(N2 −1) の要素で表現する方法を採って いる[図5.3].
図 5.3: コンタクトマップ(要素数:N×(N2 −1))
5.1.4 一定の立体構造をとらない残基への対応
PDBに収められたタンパク質の中には,アミノ酸配列上には存在するが原子の 動きが大きいため,座標が決められないアミノ酸残基[図5.4 ]を持つタンパク質 が存在する.(ここではこの座標が決められない残基をさして立体構造をとらない 残基と表現する.)
図 5.4: REMARK 465(PDB ID:1ALU)
このようなアミノ酸残基の存在は,本研究手法においてタンパク質を構成する アミノ酸残基の物理化学的特徴のみに着目した機能部位の機械的予測を行なう場 合には問題とはならないが,タンパク質の立体構造上の特徴を考慮した機能部位 の機械的予測を行なう場合には非常に大きな問題となる.この為,立体構造をと
図 5.5: コンタクトマップ(構造をとらない残基未対応)
図 5.6: コンタクトマップ(構造をとらない残基対応済み)
5.2 結合物質結合部位コンタクトマップの作成
本研究ではにコンタクトマップへの結合物質結合部位のマッピングを行なう.こ の際,結合物質のコンタクトである結合物質コンタクトを定義する必要がある.そ の為,ここではまず結合物質結合コンタクトの定義について述べ,次に,これに 伴い必要となる,結合物質-残基間距離の定義について述べる.
5.2.1 結合物質結合コンタクトの定義
結合物質とコンタクトを形成する2の残基双方からの距離が閾値以内であるコ ンタクトを結合物質が結合しているものとみなす.
結合物質コンタクト
¶ ³
L(l, i, j) =
1 if S(i, j) = 1, δ(l, i, j)≤bthreshold 0 Otherwise
δ(l, i, j) :結合物質lと残基i・残基jとの距離の最大値
bthreshold:結合物質コンタクトとみなす結合物質−残基間距離の最大値(任
意)
µ ´
5.2.2 結合物質 - 残基間距離の定義
本研究においては,結合物質-コンタクト間の距離は,結合物質を構成する原子 と残基のCβとの間の距離の最小値とみなす.各残基は主に側鎖が動くことにより 結合物質と接触する.この為,残基の側鎖の動きをより正確に捉える為に残基側 の基準としてCβを用いる.ただし,Cβが存在しないグリシンに限りCβの代わり
5.3 SVM(Support Vector Machine)
本研究におけるタンパク質機能部位予測における機械学習にはSVMを用いる.
ここでSVMとはパターン識別手法の一つであり,入力を高次元の特徴空間に写 像して特徴空間内で最適な線形分離超平面を構成する方法をとり,高い汎化能力 が実現する.
パターン識別手法は多数存在しており,その中でも多層パーセプトロンをバッ クプロパゲーション学習させるニューラルネットを用いた識別手法が有名である が,ここではそういったニューラルネットに代表されるバックプロパゲーション 学習を行なう識別手法に対するSVMの優位性について述べる.
ニューラルネットに代表されるバックプロパゲーション学習は,その学習アルゴ リズムから与えられた教師データに関してのみ学習結果を保証する.つまり,タ ンパク質機能部位予測における使用においては,教師データに含まれない未知の データ,すなわち未知の機能部位を予測する能力に欠ける事が予想される.
図 5.7: Support Vector Machine
これに対し,SVMは,ニューラルネットのようなバックプロパゲーション学習 と同じくノンパラメトリックなパターン識別手法(与えられた学習データをすべて
正しく識別できるようにする方法)ではあるが,マージンの最大化を最大の特徴と する.SVMは学習データの中で最も他のクラスと近い位置にいるもの(Support
Vector)を基準とし,そのユークリッド距離が最も大きくなるような位置にパター
ン識別の境界を設定する.つまり,SVMはクラスの最端から他クラスまでのマー ジンを最大にするようにする.これがマージンの最大化[図5.7 ]と呼ばれるもの であり,これによりSVMの高い汎化能力を実現している.
すなわち,SVMは,本研究が目的とするタンパク質機能部位予測において,未 知の機能部位の存在への対応力の点でニューラルネット等のバックプロパゲーショ ン学習を用いた識別手法よりも優れていると考えられる.
本研究ではSVMの実装としてSVMlightを使用する.
5.4 予測に用いるパラメータ
物理化学的性質に係るパラメータ
¶ ³
Charge:
コンタクトしている残基対の電荷を表すパラメータ
Hydrophobic:
コンタクトしている残基対の疎水性を表すパラメータ
Polar:
コンタクトしている残基対の極性を表すパラメータ
Small:
コンタクトしている残基の大きさに関するパラメータ
Tiny:
コンタクトしている残基の大きさに関するパラメータ
Aromatic:
コンタクトしている残基が芳香族かどうかに関するパラメータ
Ariphatic:
コンタクトしている残基が脂肪族かどうかに関するパラメータ
Proline:
コンタクトしている残基がプロリンを有するかに関するパラメータ
Neighbouring Charge:
コンタクトしている残基対の周辺の電荷を表すパラメータ
構造上の特徴に係るパラメータ
¶ ³
Residue Distance:
コンタクトしている残基対のアミノ酸配列上での距離を表すパラメータ
Density:
コンタクトしている残基対の周辺の密度を表すパラメータ
µ ´
5.4.1 物理化学的性質に係るパラメータ
残基の物理化学的性質は以下の値を用いる.
I L V C A G M F Y W H K R
hydrophobic 1 1 1 1 1 1 1 1 1 1 1 1 0
polar 0 0 0 0 0 0 0 0 0 1 1 1 1
small 0 0 1 1 1 1 0 0 0 0 0 0 0
proline 0 0 0 0 0 0 0 0 0 0 0 0 0
tiny 0 0 0 0 1 1 0 0 0 0 0 0 0
aliphatic 1 1 1 0 0 0 0 0 0 0 0 0 0
aromatic 0 0 0 0 0 0 0 1 1 1 1 0 0
positive 0 0 0 0 0 0 0 0 0 0 1 1 1
negative 0 0 0 0 0 0 0 0 0 0 0 0 0
表 5.1: アミノ酸の物理化学的性質に対する真理表1[8]
E Q D N S T P B Z X 4 hydrophobic 0 0 0 0 0 1 0 0 0 1 1
polar 1 1 1 1 1 1 0 1 1 1 1
small 0 0 1 1 1 1 1 0 0 1 1
proline 0 0 0 0 0 0 1 0 0 1 1
tiny 0 0 0 0 1 0 0 0 0 1 1
aliphatic 0 0 0 0 0 0 0 0 0 1 1
aromatic 0 0 0 0 0 0 0 0 0 1 1
positive 0 0 0 0 0 0 0 0 0 1 1
negative 1 0 1 0 0 0 0 0 0 1 1
表 5.2: アミノ酸の物理化学的性質に対する真理表2[8]
そして,それぞれのコンタクトの持つパラメータは以下のように定義する.
1. Charge
コンタクトを形成するアミノ酸残基対が(x,y)であるコンタクトのパラメー タChargeの値:Charge(x, y)は以下の式から得る.
Charge
¶ ³
Charge(x, y) =positive(x)−negative(x) +positive(y)−negative(y);
positive(i) :アミノ酸残基iのpositiveの値 negative(i) :アミノ酸残基iのnegativeの値
µ ´
電荷が+の残基と電荷が+の残基がコンタクトしている場合,電荷が−の結 合物質はより結合しやすく,電荷が+の結合物質はより結合しにくくなる.
一方で,電荷が−の残基と電荷が−の残基がコンタクトしている場合,電荷 が+の結合物質はより結合しやすく,電荷が−の結合物質はより結合しにく
くなる.
この性質を表現する為には,式中で一の残基の電荷と他の残基の電荷との演 算子として+を用いることが相当であると考えられる.
2. Hydrophobic
コンタクトを形成するアミノ酸残基対が(x,y)であるコンタクトのパラメー タHydrophobic:Hydrophobic(x, y)の値は以下の式から得る.
Hydrophobic
¶ ³
Hydrophobic(x, y) =hydrophobic(x) +hydrophobic(y);
hydrophobic(i) :アミノ酸残基iのhydrophobicの値
µ ´
疎水性とは,水に対する親和性が低い,すなわち水に溶解しにくい,あるい は水と混ざりにくい物質または分子(の一部分)の性質のことである.疎水
性分子(の一部)は水などの極性溶媒中で溶媒と分離し凝集する性質である疎
水効果を有する.
疎水性の高い残基と疎水性の高い残基がコンタクトしている場合,疎水性の 高い分子との反応性が高く,疎水性の低い残基と疎水性の低い残基がコンタ クトしている場合,疎水性の高い分子との反応性は低くなる.この性質を表 現する為には,上式におけるhydrophobic(x)とhydrophobic(y)の間の演算 子として+(加算)を用いることが相当であると考えられる.(二項の演算子 として×(乗算)も同様の効果が得られるように思われる.しかし,本研究で は各残基のhydrophobicの値は1か0である為,この値が1の残基と0の残
3. Polar
コンタクトを形成するアミノ酸残基対が(x,y)であるコンタクトのパラメー タPolarの値:P olar(x, y)は以下の式から得る.
Polar
¶ ³
P olar(x, y) = polar(x) +polar(y);
polar(i) :アミノ酸残基iのpolarの値
µ ´
極性は分子内に存在する電気的な偏りのことで,電気双極子モーメントに よって生まれる.極性は溶解や反応を考える際に重要で,例えば高極性物質 は高極性溶媒に溶解しやすいが,低極性溶媒には溶解しにくいという性質が ある.
極性の高い残基と極性の高い残基がコンタクトしている場合,極性の高い分 子との反応性が高く,極性の低い残基と極性の低い残基がコンタクトしてい る場合,極性の高い分子との反応性は低くなる.この性質を表現する為には 上式におけるpolar(x)とpolar(y)の間の演算子として+(加算)を用いるこ とが相当であると考えられる.(二項の演算子として×(乗算)も同様の効果 が得られるように思われる.しかし,本研究では各残基のpolarの値は1か 0である為,この値が1の残基と0の残基から成るコンタクトのPolar(x, y) の値が0となってしまい妥当ではない.このため,Polar(x, y)の値を求める 式中の二項の演算子としては+を用いる.)
4. その他の物理化学的性質
上述のCharge,Hydrophobic及びPolar以外の物理化学的性質:Small,Tiny,
Aromatic,Ariphatic及びProlineについてのパラメータも同様に以下の式か ら得る.
The Other Five Parameters
¶ ³
P arameter(x, y) =parameter(x) +parameter(y);
parameter(i) :アミノ酸残基iのparameterの値
µ ´
5. 周辺の物理化学的性質
コンタクトを形成している残基対の周辺の物理化学的性質として特に周辺の Chargeの値:nCharge(x, y)は以下の式から得る.
Neighbouring Charge
¶ ³
nCharge(x, y) = nCharge(x)+nCharge(y)
|Nx|+|Ny| ; nCharge(i) = X
k∈Ni
{positive(i)−negative(i)}
Ni ={j|S(i, j) = 1∪S(j, i) = 1}
S(i, j) :コンタクトマップの位置(i, j)の値
µ ´
タンパク質はアミノ酸配列が折りたたまれ立体構造を形成しており,そこへ の結合物質の結合には,立体構造におけるある特定の部分に位置する複数の 残基が関与している.この為,結合物質コンタクトであるか否かを判断しよ うとしているコンタクトそのものの物理化学的性質だけでなく,タンパク質 の立体構造上でそのコンタクトの周辺にある残基の物理化学的性質もそのコ ンタクトへの結合物質の結合性に影響を与えるものと考えられる.例えば,
コンタクトの周辺の電荷が極端に+である場合にはコンタクトの電荷が−で あっても金属イオンのような+の電荷を持つ結合物質は結合し難くなり,逆 に,コンタクトの周辺の電荷が極端に−である場合には電荷が+であるコン
5.4.2 構造に係るパラメータ
1. Residue Distance
コンタクトを形成する残基対のアミノ酸配列上での距離を表し,その値:Distance(x, y) は以下の式から得る.
Residue Distance
¶ ³
Distance(x, y) = |x−y|
i:アミノ酸配列上での位置
µ ´
結合物質結合コンタクトの絶対数はコンタクトを形成する残基対のアミノ 酸配列上での距離の値が小さい方が多くなるであろうことを考慮したもので ある.
2. Density
コンタクトを形成する残基対の周辺の密度を表し,その値:Density(x, y)は 以下の何れかの式から得る.
Density(最小値による表現)
¶ ³
Density(x, y) =minimum(|Nx|,|Ny|)−1;
Ni ={j|i6=j, S(i, j) = 1∪S(j, i) = 1}
S(i, j) :コンタクトマップの位置(i, j)の値 minimum(i, j) :i, jの内小さい方の値を返す
µ ´
Density(和による表現)
¶ ³
Density(x, y) =|Nx|+|Ny| −2;
Ni ={j|i6=j, S(i, j) = 1∪S(j, i) = 1}
S(i, j) :コンタクトマップの位置(i, j)の値
µ ´
密度はコンタクトの周辺に存在する残基の個数,より正確に言えば,コンタ クトを形成している残基にコンタクトしている残基の個数を表している.あ るコンタクトの密度が非常に大きい場合,そのコンタクトには結合物質の結 合余地が少なく,結合物質が結合する可能性は低くなると考えられ,また,
あるコンタクトの密度が非常に小さい場合,そのコンタクトは結合物質の結 合余地は多いが,そのコンタクトを含むその周辺は結合物質を捕える為に適 当な立体構造をとっておらず,その為,結合物質が結合する可能性は低くな ると考えられる.一方で,あるコンタクトの密度が小さすぎない値である場 合は,結合物質が結合する可能性は高くなると考えられる.
図 5.8: 密度の表現法による差
なお,Densityの最小値による表現は,コンタクトを形成する残基対のどち
判断しない場合に用いるものである.
図5.8 は,残基R1及びR2からなるコンタクトのDensityの値の例を示し ている。残基R1にはR2以外に4つの残基が接触しており,残基R2にはR1 以外に2つの残基が接触している.このため,Densityをコンタクトを形成 する二つの残基の周辺の混み具合の和と考えて計算する場合,その値は6と なる.一方で,Densityをコンタクトを形成する二つの残基の周辺の混み具 合の最小値と考えて計算する場合には,その値は2となる.
第 6 章 実験・評価と考察
本章では本論文で提案する手法がタンパク質の機能部位の予測において有効であ ることを証明する為に,PDBに収録された機能部位既知のタンパク質の機能部位 を本手法を用いて予測する実験を行い,それを評価することにより,本論文の提 案手法の有効性を立証する.
6.1 実験データ
実験のデータとして,PDB(2006年10月版)に収録された,タンパク質と低分 子やペプチド等タンパク質を除く結合物質との複合体のデータを用いる.十分な 学習データを得る為にリストの冗長性は,残基一致率50%以下に設定した.また,
配列長が40残基以上のタンパク質に限定している.この条件でPDBから得られ た4669個のタンパク質のデータを用い実験を行なった.
予測の対象となる結合物質は,
1. 金属原子 2. ATP・ADP 3. SO4
1. 金属原子 :1807個 2. ATP・ADP :134個 3. SO4 :853個
である.
6.2 実験概要
提案手法の有効性を立証する為,前述の実験対象のコンタクトマップ上での機能 部位を複数の異なるパラメータを用いたSVMにより予測させる実験を行なった.
ここで,各実験(で用いたパラメータ)は以下の通りである.
1. 実験1 Charge,Hydrophobic,Polar,Small,Tiny,Aromatic,Ariphatic
及びProlineの物理化学的性質に係るパラメータによる学習・予測
2. 実験2 実験1の物理化学的性質に係るパラメータ+立体構造に係るパラメー タDistanceによる学習・予測
3. 実験3 実験2のパラメータ+立体構造に係るパラメータDensityによる学 習・予測
4. 実験4 実験2のパラメータ+物理化学的性質に係るパラメータnChargeに よる学習・予測
5. 実験5 実験1の物理化学的性質に係るパラメータ+Density+nChargeに よる学習・予測
6. 実験6 実験3のパラメータ+物理化学的性質に係るパラメータnChargeに よる学習・予測
これらの実験は予測対象である結合物質(金属,SO4,ATP・ADP)毎に,全デー タの内予測対象を結合物質として持つタンパク質群のデータ(金属については全
データからランダムに抽出した300のデータ)を3分割したジャックナイフ法により 行なう. SV Mlightはカーネルはリニアカーネルを用い,その他の設定はデフォ ルトの設定を用いる.
実験環境は以下表6.1 の通りである.
CPU Athlon 2.00GHz OS Windows XP RAM SDRAM 1.00GB
表 6.1: 実験環境
6.3 実験結果・評価と考察
ここでは6つの予測実験の結果・評価とそれに対する考察を述べる.
実験結果の評価にはROC曲線を用いる.ROC曲線は,縦軸をT PT P+F N,横軸を
F P
F P+T N としてプロットする曲線である.この曲線により閾値をどこにとるかで,
結合物質コンタクトと非結合物質コンタクトを判別する能力がどうなるかを視覚 的に示す事が可能となる.
6.3.1 コンタクト閾値・結合物質結合コンタクト閾値等各種設定
コンタクトの閾値となる残基間距離は本実験では10˚Aとしている.アミノ酸残 基の側鎖のファンデルワールス半径を考慮したものである.例えば,アラニンは,
した[5] [10] [11] [12] [13] .
物質結合コンタクトのCβ-結合物質間距離の閾値は7˚Aとする.この値は実際の 結合距離よりも若干大きいと思われる値をとっている[12] [13] .これはアミノ酸 残基の側鎖のファンデルワールス半径と結合物質原子のファンデルワールス半径 に加え,物質との結合においてタンパク質の構造が変化する可能性があることを 考慮したものである.また,実際にコンタクトマップへ結合物質をマッピングし てみたところ,コンタクトマップ上で機能部位を十分に捉える為にはこの7˚A程度 の値が必要になることがわかった為でもある.
6.3.2 コンタクトの物理化学的性質のみ
コンタクトの物理化学的性質のみから機能部位を予測することが可能であるか を実験した.
物理化学的性質に係るCharge,Hydrophobic,Polar,Small,Tiny,Aromatic,
Ariphatic及びProlineのパラメータを用いて行なった実験結果は,金属を予測対
象の結合物質としたものが図6.1 ,SO4を予測対象の結合物質としたものが図6.2
,ATP・ADPを予測対象の結合物質としたものが図6.3となった.
図 6.1: ROCカーブ(金属,M:0,T:10,L:7)
図 6.2: ROCカーブ(SO4,M:0,T:10,L:7)
この実験結果から,金属,SO4を予測対象とした場合,物理化学的性質に係る パラメータのみによる機能部位予測手法により機能部位を予測することが可能で あることが示された. しかし,その予測精度はあまり高くないことが同時にみ てとられる.また,ATP・ADPを予測対象とした場合には,物理化学的性質に係 るパラメータのみによる機能部位予測手法によっては機能部位を予測することが ほぼ出来ないことがわかった.
これは,金属とSO4については,それぞれ正及び負のイオンとして存在してい る為電荷が結合物質の結合において重要となり,電荷を含む物理化学的性質をパラ メータとして用いたことにより予測能力を有したものと考えられる.一方,ATP・
ADPについてはそのような性質がないため,その結合部位を予測することが出来 なかったのであろうと考えられる.また,すべての予測対象の結合物質について,
コンタクトの物理化学的性質に係るパラメータのみによる学習は,言い換えれば,
400組のコンタクトの機能部位へのなり易さを学習しているに過ぎない.よって,
あるコンタクトS(x1, y1)と他のコンタクトS(x2, y2)が存在したとき,例えばそれ ぞれのアミノ酸残基がx1 =x2∩y1 =y2という関係にあるときなどはそれぞれの コンタクトの持つパラメータは等しくなり,SVMがコンタクトS(x1, y1)とコンタ クトS(x2, y2)を同じものと判断してしまう.このため,予測精度が低い若しくは ほぼ予測出来ないという結果になったのであろうと考えられる.
6.3.3 物理化学的性質+配列上の距離
前項の実験より,物理化学的性質に係るパラメータのみでは機能部位の予測精 度はそれほど高くないことがわかった.ここで,同一の物理化学的性質に係るパ ラメータの値を持つあるコンタクトS(x1, y1)と他のコンタクトS(x2, y2)を異なる ものであるとSVMに判断させる為に,物理が学的性質にたよらない構造に係るパ ラメータとして コンタクトを形成する残基対のアミノ酸配列上での距離を表す Distance(x, y)を用いる.
これにより,SVMは同一の残基対から成るコンタクトのような同一のパラメータ
を持つ異なるコンタクトを異なるものとして判断する事が出来るようになると考 えられる.
Charge,Hydrophobic,Polar,Small,Tiny,Aromatic,Ariphatic,Proline及
びDistanceをパラメータとして用いて行なった実験の結果は,金属を予測対象の結
合物質としたものが図6.4,SO4を予測対象の結合物質としたものが図6.5,ATP・ ADPを予測対象の結合物質としたものが図6.6となった.
図 6.4: ROCカーブ(金属-d,M:0,T:10,L:7)
図 6.6: ROCカーブ(ATP・ADP-d,M:0,T:10,L:7)
この実験結果から,先ず,金属及びATP・ADPの結合部位については,パラ メータとしてコンタクトを形成する残基対のアミノ酸配列上での距離を加えるこ とにより予測精度を向上させられることがわかった.ただし,機能部位の予測精 度向上の度合いは僅かであった.
配列上での距離というパラメータは機械学習によるコンタクトマップ自体の予 測に関する研究においては有効であることがわかっている [9],[10] ,[11] .本実 験からこのパラメータはコンタクトマップ上でのある一定の機能部位の予測にお いても有効であることがわかったが,その効果は僅かであることもわかった.
これは,コンタクトマップ自体の予測は一つのアミノ酸が折り畳まれて作られ る一つのタンパク質のみを対象としており,このアミノ酸の折り畳みの性質上ア ミノ酸配列上での距離が離れたアミノ酸残基はコンタクトしにくく,このコンタ クトを形成する残基対のアミノ酸配列上での距離というパラメータが有効に機能 する,その一方で,本研究はタンパク質とアミノ酸の折り畳みとは関係のない結 合物質との結合を扱うものであり,コンタクトを形成する残基対のアミノ酸配列 上での距離の如何は結合のし易さにはさして影響を与えないということを示して いると考えられる.
また,Distance(x, y)の値が小さい方がポジティブな学習データの絶対数が多い ため,アミノ酸配列上での距離により予測能力が向上するものと思われたが,そう
はならなかった.これは,Distance(x, y)の値が小さい方がポジティブな学習デー タの絶対数は多くなるが,同時にネガティブな学習データの数も多くなる為,ポ ジティブな学習データの割合はDistance(x, y)の値が変化した場合であってもあ まり変化しないということを表しているのであろうと考えられる.
次に,SO4の結合部位については,距離のパラメータを加えることにより予測 精度が低下することがわかった.これは,SO4の結合においては,コンタクトを 形成する残基対の距離はほとんど関係なく,距離を考慮することが学習において ノイズとなってしまったのだと考える.
6.3.4 物理化学的性質+配列上の距離+密度
前項の実験結果から,物理化学的性質に構造上の特徴に係るパラメータとして コンタクト残基対の配列上の距離を加えることにより機能部位の予測精度を向上 させられることがわかった.しかし,同時にその向上の度合いはそれほど大きな ものではないことがわかった.このため,これらパラメータのパラメータに加え 構造に係るパラメータである密度を用いた実験を行なった.密度は以下に示す特 徴を有するため,予測精度の向上に資することが出来ると考えたためである.
前述の通り,本研究では密度の計算式として和による表現の式と最小値による 表現の式の2つの式を考えている.
それぞれの式を用いて結合コンタクトの持つ密度,非結合コンタクトの持つ密度,
コンタクトの各密度における結合コンタクトの割合を計算した結果を以下図6.7 , 6.8 ,6.9 ,6.9 ,6.11 ,6.12 ,6.13 ,6.13 に示す.
図6.7は,和による密度の式を用いて計算した金属を結合物質として持つ結合物 質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである.そ
6.8
図 6.7: 金属:密度(和)の分布
図 6.8: 金属:各密度(和)における機能部位の割合
図6.9は,最小値による密度の式を用いて計算した金属を結合物質として持つ 結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフであ る.そして,図6.10は,この場合における金属を結合物質として持つ結合物質コ ンタクトの各密度における出現率のグラフである.
図 6.9: 金属:密度(最小値)の分布
図6.11は,和による密度の式を用いて計算したSO4を結合物質として持つ結合 物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフである.
そして,図6.12は,この場合におけるSO4を結合物質として持つ結合物質コンタ クトの各密度における出現率のグラフである.
図 6.11: SO4:密度(和)の分布
図 6.12: SO4:各密度(和)における機能部位の割合
図6.13は,最小値による密度の式を用いて計算したSO4を結合物質として持つ 結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフであ る.そして,図6.14は,この場合におけるSO4を結合物質として持つ結合物質コ ンタクトの各密度における出現率のグラフである.
図 6.13: SO4:密度(最小値)の分布
図6.15は,和による密度の式を用いて計算したATP・ADPを結合物質として 持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグラフ である.そして,図6.16は,この場合におけるATP・ADPを結合物質として持 つ結合物質コンタクトの各密度における出現率のグラフである.
図 6.15: ATP・ADP:密度(和)の分布
図 6.16: ATP・ADP:各密度(和)における機能部位の割合
図6.17は,最小値による密度の式を用いて計算したATP・ADPを結合物質と して持つ結合物質コンタクト(左)と非結合コンタクト(右)の各密度の出現数のグ ラフである.そして,図6.18は,この場合におけるATP・ADPを結合物質とし て持つ結合物質コンタクトの各密度における出現率のグラフである.
図 6.17: ATP・ADP:密度(最小値)の分布
図6.7 ,6.9 からは,金属を結合物質とした場合のコンタクトの密度の分布は結 合コンタクトと非結合コンタクトでほぼ同じように見える.しかし,図6.8,6.10 から結合コンタクトの密度の選好と非結合コンタクトの密度の選好との間に違い があることがわかる.例えば,極端に大きい密度や小さい密度では結合コンタクト の割合が非常に低くなっている.図6.11 ,6.13 からは,SO4を結合物質とした場 合のコンタクトの密度の分布に結合コンタクトと非結合コンタクトで若干差があ るように見える.次に,図6.12 ,6.14 からも結合コンタクトの密度の選好と非結 合コンタクトの密度の選好との間に違いがあることがわかる.例えば,極端に大 きい密度や小さい密度では結合コンタクトの割合が非常に低くなっており,また,
明らかな右肩下がりのトレンドが見られる.図6.15 ,6.17 からは,ATP・ADP を結合物質とした場合のコンタクトの密度の分布に結合コンタクトと非結合コン タクトで若干差があるように見える.次に,図6.16 ,6.18からも結合コンタクト の密度の選好と非結合コンタクトの密度の選好との間に違いがあることがわかる.
例えば,極端に大きい密度や小さい密度では結合コンタクトの割合が非常に低く なっており,また,明らかな右肩上がりのトレンドが見られる.
このため,いずれの式を用いたとしても密度は単独の指標として機能部位の予 測能力を有する可能性があると考えられる.
ここで,密度を和による表現により表した式を用いた場合の方が,各コンタク トの密度を様々な値で表現する事が出来る.また,結合コンタクトの密度の選好 と非結合コンタクトの密度の選好違いがより明確であるように思われる.さらに,
本研究では物質結合コンタクトの定義を結合物質とコンタクトを形成する2の残 基双方からの距離が閾値以内であるコンタクトとしている.この為,本実験では
密度Densityの計算式として和による表現の式を用いることとした.
Charge,Hydrophobic,Polar,Small,Tiny,Aromatic,Ariphatic,Proline,Dis-
tance及びDensityをパラメータとして用いて行なった実験の結果は,金属を予測
対象の結合物質としたものが図6.19 ,SO4を予測対象の結合物質としたものが図 6.20 ,ATP・ADPを予測対象の結合物質としたものが図6.21となった.
図 6.19: ROCカーブ(金属-dD,M:0,T:10,L:7)
図 6.20: ROCカーブ(SO4-dD,M:0,T:10,L:7)
図 6.21: ROCカーブ(ATP-dD,M:0,T:10,L:7)
SO4を予測対象とした実験結果において,密度をパラメータとして加えても機 能部位を予測出来ることがわかった.また,構造上の特徴に係るパラメータとし て距離のみを用いたものよりも予測精度が向上した.しかし,物理化学的性質の みを用いた場合と予測精度はあまり差がなかった.機能部位を予測することが出 来たのは,前述のように物質結合コンタクトの密度と非結合コンタクトの密度と は異なるトレンドを持つことが反映されたものであると考えられる.例えば,極 端に密度が大きいものは結合コンタクトには非常になりにくいため,結合コンタ クトと予測されにくくなる.このようにFPが減少し,一方でTPが増加したので あろう.一方で,密度のパラメータとして用いた場合と物理化学的性質のみを用 いた場合で予測精度にあまり差がなかったのは,結合コンタクトと非結合コンタ クトで密度の選好に差があるとはいえ,その差は僅かであるため.また,特徴的 な密度であっても絶対数では結合コンタクトよりも非結合コンタクトの方が圧倒 的に多いため,であると考える.
金属及びATP・ADPを予測対象とした実験結果においては,構造上の特徴に係 るパラメータとして距離のみを用いたものと比べ,予測精度が低下した.これは,
まず金属については,SO4は密度の選好に目に見える右下がりの特徴がある(図
6.12 )のに対して,金属の密度の選好に差があまりない(図6.8 )ことを反映して
いるのだと考えられる.また,特徴的な密度であっても絶対数では結合コンタク
トよりも非結合コンタクトの方が圧倒的に多いことが学習に影響しているのだと 考えられる.次にATP・ADPについて,ATP・ADPの密度の選好はSO4と同様 目に見える特徴がある(図6.16 )が,密度を考慮することにより距離の値が小さい が特徴的な密度を有しないコンタクトを結合コンタクトと判断出来なくなってし まったため予測精度が低下したのではないかと考えられる.距離の値が小さい主 鎖付近のコンタクトに結合コンタクトは最も多く,逆に距離の値が大きい大域的 な接触を行なうコンタクトには結合コンタクトは非常に少ない.このため,密度 を考慮することにより特徴的な密度を持つ大域的な接触を行なうコンタクトを機 能部位と予測出来るようになる効果よりも,あまり特徴的でない密度の主鎖付近 のコンタクトを機能部位と予測出来なくなる効果の方が大きかったのではないか、
と考えられるためである.また,予測精度低下の他の理由として,ATP・ADPを 有するタンパク質のデータの量がSVMが学習モデルを作るために十分なデータ量 ではなかった可能性も考えられる.
6.3.5 物理化学的性質+配列上の距離+周辺電荷
前述のように,タンパク質はアミノ酸配列が折りたたまれ立体構造を形成して おり,そこへの結合物質の結合には,立体構造におけるある特定の部分に位置する 複数の残基が関与している.この為,結合物質コンタクトであるか否かを判断しよ うとしているコンタクトそのものの物理化学的性質だけでなく,タンパク質の立 体構造上でそのコンタクトの周辺にある残基の物理化学的性質もそのコンタクト への結合物質の結合性に影響を与えるものと考えられる.そこで,物理化学的性 質のうち,金属やSO4等の結合物質の結合への影響が最も大きいと考えられる電
6.23 ,ATP・ADPを予測対象の結合物質としたものが図6.24となった.
図 6.22: ROCカーブ(金属-dM,M:0,T:10,L:7)
図 6.23: ROCカーブ(SO4-dM,M:0,T:10,L:7)
図 6.24: ROCカーブ(ATP-dM,M:0,T:10,L:7)
金属及びATP・ADP を予測対象とした実験結果においては,構造上の特徴に
係るパラメータとして距離のみを用いたものと比べ,予測精度が低下した.
この結果から,これらの結合部位の予測においては,周辺の電荷は,少なくともコ ンタクト残基の物理化学的性質や配列上での距離との組み合わせでは予測能力を 有さず,学習・予測においてノイズにしかならないということがわかった.ATP・
ADPについては,電荷が結合に大きな影響を与えないことが反映されているのだ と思われる.また,データ量が少なく適切な学習モデルを作ることが出来なかっ たという可能性も考えられる.金属については,まず周辺の電荷は結合にほぼ影 響を与えない可能性が考えられる.また,周辺の電荷は結合に影響するが,これを 考慮することにより主鎖付近の結合コンタクトを予測する能力が低下し,全体と して予測精度が低下したという可能性が考えられる.さらに,学習データが足り ずに適切な学習モデルを作ることが出来なかったという可能性も考えられる.金 属については,正の電荷を有するため周辺の電荷が結合に大きく影響してくるも のと考えられたが,実際は周辺の電荷はそれほど結合に関与していないという可 能性が考えられる.ただし,未だ他のパラメータと結びつくことにより予測能力
て距離のみを用いたものと比べ,予測精度が上昇した.これは,SO4の結合には電 荷が非常に大きく影響しており,距離の値が小さい主鎖付近のコンタクトの中か ら正の電荷を持つコンタクトを結合コンタクトとして予測出来るようになり,TP が増加し一方でFPが減少したということであると考える.
6.3.6 物理化学的性質+密度+周辺電荷
金属及びATP・ADPを予測対象とした実験においては,物理化学的性質と距離
と密度,物理化学的性質と距離と周辺の電荷をパラメータとした場合,物理化学 的性質と距離をパラメータとして用いたときより予測精度が低下した.ここでは,
学習パラメータから距離を除き,物理化学的性質と密度及び周辺の電荷のみを用 いて実験を行なった.
Charge,Hydrophobic,Polar,Small,Tiny,Aromatic,Ariphatic,Proline,Den-
sity及びnChargeをパラメータとして用いて行なった実験の結果は,金属を予測
対象の結合物質としたものが図6.25 ,SO4を予測対象の結合物質としたものが図 6.26 ,ATP・ADPを予測対象の結合物質としたものが図6.27となった.
図 6.25: ROCカーブ(金属-DM,M:0,T:10,L:7)
図 6.26: ROCカーブ(SO4-DM,M:0,T:10,L:7)