• 検索結果がありません。

2014 年度 修士論文 結合・非結合時における特異な特徴量を用いた

N/A
N/A
Protected

Academic year: 2021

シェア "2014 年度 修士論文 結合・非結合時における特異な特徴量を用いた"

Copied!
56
0
0

読み込み中.... (全文を見る)

全文

(1)

2014 年度 修士論文

結合・非結合時における特異な特徴量を用いた G タンパク共役受容体と化学化合物の結合予測

提出日: 2015 年 2 月 2 日 指導: 山名 早人 教授

早稲田大学大学院 基幹理工学研究科 情報理工学専攻 学籍番号: 5113B011-1

大野 亮仁

(2)

i

概 要

Gタンパク共役受容体(G-protein-coupled receptor,以下GPCR)は,細胞外からの様々なリ ガンドをシグナルとして細胞内に伝達する役割を持つ. 一方,本来のリガンドではない化合 物が GPCR と結合すると,外部からの有害なシグナルが細胞内部に伝達されることを防ぐ ことができ,それら化合物は創薬のシードとなる.そのため GPCR と化合物の結合予測は 新薬開発に欠くことができない技術となっている.新薬の候補となる化合物は大量に存在 するため,計算機を用いて新たな GPCR と化合物の結合を予測する研究が行われている.

GPCRと化学化合物との結合は,両者の性質によって決まる.このため,既存研究では化合 物の性質のみを用いた結合予測やタンパク質と化合物の両方の性質を用いた結合予測が行 われている.しかし,前者の場合は片方の性質のみを用いており十分な精度が得られない.

後者の場合は,両方の性質を用いているが,結合と関係無い性質を含めて結合予測をして いるため十分な精度が得られていない.そこで,本研究では化合物の性質に加えて,化合 物と結合する部分を構成する GPCR のアミノ酸が持つ性質に重みを置き,予測精度向上を 目指した.具体的には,GPCRと化合物が結合する際に頻出する特徴を抽出する手法を提案 する.SVMを用いて結合予測実験をした結果,既存手法と比較してAccuracyは12.0%,AUC は0.064,F値は0.115向上した.

(3)

ii

目 次

1章 はじめに ... 1

2章 タンパク質 ... 3

2. 1 タンパク質の立体構造 ... 3

2. 2 GPCR ... 5

2. 2. 1 GPCRの構造 ... 5

2. 2. 2 GPCRの機能 ... 6

2. 2. 3 GPCRの機能の例 ... 8

3章 関連研究 ... 10

3. 1 化合物のみを用いてタンパク質と化合物の結合を予測する研究 ... 10

3. 1. 1 分子構造重ね合わせによるファーマコフォアモデル構築手法開発と PDE4 阻 害剤への応用[8] ... 10

3. 1. 2 フィードバック手法を利用した類似化合物探索 ... 12

3. 2 タンパク質と化合物を用いてタンパク質と化合物の結合を予測する研究 ... 15

3. 2. 1 タンパク質と化合物の結合シミュレーションによる結合の特徴解析[10] ... 15

3. 2. 2 SVMによるタンパク質の全アミノ酸配列と化合物を用いた結合予測[11] .... 17

3. 2. 3 GPCR中のαヘリックス構造と化合物の結合予測[12] ... 20

3. 3 関連研究のまとめ ... 22

4章 結合時・非結合時に特異な特徴量抽出手法 ... 23

4. 1 概要 ... 23

4. 2 GPCPの特徴量算出 ... 24

4. 3 化合物の特徴量算出 ... 25

4. 4 スコア付けによる特徴量抽出 ... 26

4. 4. 1 スコア算出 ... 26

4. 4. 2 特徴量抽出 ... 29

4. 5 SVMによる結合予測 ... 29

5章 実験・評価 ... 30

5. 1 データセット ... 30

5. 2 実験データ ... 30

5. 3 実験内容 ... 33

5. 3. 1 提案手法を用いた実験 ... 33

5. 3. 2 比較手法を用いた実験 ... 33

5. 4 評価方法 ... 34

5. 5 実験結果 ... 36

(4)

iii

5. 5. 1 提案手法を用いた実験結果 ... 36

5. 5. 2 比較手法を用いた実験結果 ... 42

5. 5. 3 提案手法による結果と比較手法による結果の比較 ... 45

5. 6 考察 ... 46

5. 6. 1 提案手法におけるアミノ酸の位置情報ついて ... 46

5. 6. 2 提案手法における特徴量数と予測結果について ... 46

5. 6. 3 提案手法と比較手法との比較結果ついて ... 46

6章 おわりに ... 48

(5)

1

1 章 はじめに

タンパク質は,生命活動を行うための機能を果たしていると同時に,医薬品の標的とし ても重要な分子である[1].現存する医薬品の代表的な標的タンパク質としてGタンパク質 共役受容体(G-protein-coupled receptor,以下GPCR)が挙げられる[2][3].受容体タンパク質は,

細胞外の様々なリガンドから送られるシグナルを,細胞内に伝達する役割を持つが,受容 体タンパク質の中でも最も多いのがGPCRであり,ヒトの細胞膜上におけるGPCRは約800 種類存在している[1][4].現在,市販薬剤の半数はGPCRと結合し,人体に悪影響を及ぼす シグナル伝達を防ぐため,GPCR は創薬の分野において注目されている[5].本研究では,

GPCR の中でも体内での炎症作用や発痛作用に関係するプロスタグランジン類の受容体を 用いて,リガンドとの結合予測を行った.

GPCR と結合する可能性のある化合物の種類は,1060 個を超える莫大な種類が存在して いる[6].このため,GPCRと化合物の組み合わせを考え,GPCRと結合できる化合物を実験 により一つずつ検証することは現実的でない.そこで,創薬の分野では GPCR と化合物の 結合が既知の組み合わせから,計算機を用いて GPCR と結合する化合物を予測する研究が 盛んに行われている[7][8][9][10][11][12].計算機を用いることで,GPCR と化合物の結合予 測を広範囲の化合物に適用すれば.新薬の候補化合物を絞り込むことができが.そのため には高い精度を持つ予測法が必要となる.

GPCRと化合物の結合予測において,両者の立体構造やGPCRを構成するアミノ酸を調 べ,結合を予測する研究が行われている[8][9][10][11][12].これらの研究は,GPCR と結合 する化合物のみを用いて結合を予測する研究[8][9],GPCR と化合物との原子間相互作用を シミュレーションし結合を予測する研究[10],GPCRのアミノ酸配列と化合物の性質を用い て結合を予測する研究[11][12]に分類できる.まず,荒川ら[8]と Ammar ら[9]による研究で は,GPCRと結合する化合物のみに着目している.しかし,GPCRと化合物の結合は両者が 持つ化学的性質により決定されるものである.そのため,化合物のみの性質を用いて結合 を予測することは GPCR が持つ性質を無視しているため不十分である.次に,藤崎ら[10]

の研究では,GPCRと化合物を構成する原子が引き起こす相互作用を計算することで結合を 予測している.原子同士の相互作用を計算するには,両者を構成する原子の 3 次元情報が 必要である.しかし,GPCRと化合物を構成する原子は一定の場所に留まっておらず,原子 がとりうる配置を特定することができない.したがって,GPCRと化合物の相互作用は正確 に算出することができない.続いて,奥野ら[11]と白石ら[12]による研究では,GPCR のア ミノ酸配列と化合物の化学的性質を用いて結合予測を行っている.GPCRと化合物の性質の 両方を用いており,さらに,GPCRと化合物を原子レベルに分解して結合を予測せずに,代 わりに,GPCRと化合物がもつ化学的性質を数値化することで結合予測を行っている.よっ

(6)

2

て,GPCRと化合物の正確な原子配置が不明でも結合予測が可能である.しかし,実験に用 いた GPCR の性質は結合に影響を及ぼす効果が低いものまで含まれてしまっている.効果 が低くなる原因は,GPCRの性質を抽出する際に,GPCRを構成するアミノ酸配列の全長を 利用しており,リガンド結合に直接関与しないアミノ酸を使用している点において改善の 余地がある

そこで,本研究ではGPCRの結合領域のアミノ酸配列と化合物の性質を用いて結合予測 を行う.さらに,従来の研究では GPCR と化合物の結合において強い影響を与える要素の 特定がなされていなかった.そこで,GPCRと化合物の結合において,結合に与える影響が 大きい特徴を抽出するアルゴリズムについて提案する.このアルゴリズムは,GPCRと化合 物の結合する際に時頻出する特徴と,結合しない場合に頻出する特徴をスコア付けするこ とで,結合に影響を与える特徴を抽出できる.これらの特徴を元にSVMを用いて結合を予 測する.実験ではGPCRと化合物の結合予測はAccuracy,AUC,F値の観点から評価する.

本論文の構成は以下の通りである.まず,第2章でタンパク質の立体構造とGPCRにつ いて述べ,第3章において関連研究について述べ,第4章で提案手法について述べる.第4 章では提案手法の実験と評価について述べる.最後に,第6章でまとめについて述べる.

(7)

3

2 章 タンパク質

本章では,タンパク質の基本的な知識について説明する.まず,2. 1 節にてタンパク質 の立体構造について説明する.続いて,2. 2節においてGPCRの構造や機能についての説明 をする.なお,ここでの説明は参考文献[1]を参考にしている.

2. 1 タンパク質の立体構造

タンパク質は,化学的性質が異なる20種類のアミノ酸で構成されている.タンパク質は,

アミノ酸が長く連なった鎖であり,各アミノ酸は隣のアミノ酸と結合し繋がっている.タ ンパク質はみな,固有のアミノ酸配列を持っており,タンパク質は数万種類存在している.

20種類のアミノ酸はヒトが体内で合成できるか,あるいは合成できず外部から摂取する 必要があるかということで,非必須アミノ酸と必須アミノ酸に分けることができる.また,

各アミノ酸には,それぞれ固有の構造が存在し側鎖と呼ばれる.側鎖の違いにより,アミ ノ酸が水に親和性がない疎水性アミノ酸と,親和性がある親水性アミノ酸に分けることが できる.疎水性アミノ酸と親水性アミノ酸の性質は以下の通りにまとめることができる.

なお,親水性のアミノ酸は3種類の性質がある.

 疎水性アミノ酸

 疎水性物質である脂質や疎水性アミノ酸同士とで結合することができる

 親水性アミノ酸

 正の電荷を持つ塩基性のアミノ酸

 負の電荷を持つ酸性アミノ酸

 非電化の極性アミノ酸

また,アミノ酸は他の物質から影響を受けることで,アミノ酸を構成する原子構造に変 化が生じ,別の原子が結合することもある.表 2-1に20種類のアミノ酸についてまとめた 表を示す.

(8)

4

表 2-1 20種類のアミノ酸

アミノ酸名 記号 側鎖の性質 必須アミノ酸・非必

須アミノ酸

アラニン A 疎水性 非必須アミノ酸

バリン V 疎水性 必須アミノ酸

ロイシン L 疎水性 必須アミノ酸

イソロイシン I 疎水性 必須アミノ酸

メチオニン M 疎水性 必須アミノ酸

フェニルアラニン F 疎水性 必須アミノ酸

チロシン Y 疎水性 非必須アミノ酸

トリプトファン W 疎水性 必須アミノ酸

グリシン G 疎水性 非必須アミノ酸

システイン C 疎水性 非必須アミノ酸

プロリン P 疎水性 非必須アミノ酸

アルギニン R 塩基性 非必須アミノ酸

リジン K 塩基性 必須アミノ酸

ヒスチジン H 塩基性 必須アミノ酸

アスパラギン酸 D 酸性 非必須アミノ酸

(9)

5

グルタミン E 酸性 非必須アミノ酸

アスパラギン酸 N 中性 非必須アミノ酸

トレオニン T 中性 必須アミノ酸

グルタミン Q 中性 非必須アミノ酸

セリン S 中性 非必須アミノ酸

2. 2 GPCR

GPCR は細胞の表面に存在し,他の細胞からのホルモンや神経伝達物質などの外界から のシグナル伝達のほとんどを仲介するタンパク質である.視覚,嗅覚,味覚は GPCR に依 存している.GPCRにシグナル伝達を伝えるシグナル分子は,構造も機能も様々で,匂いや 味の分子,光子,タンパク質,アミノ酸や脂肪酸も含まれる.また,同じ分子が複数のGPCR を活性化することができる.アドレナリンで活性化されるGPCR は少なくとも9種類,神 経伝達物質であるセロトニンは 14 種類の GPCR を活性化する.同じシグナルに反応する GPCRは,通常異なる種類の細胞で発現し,異なるシグナル伝達を仲介する.さらに,作用 構造が分かっている薬の半数は,GPCRが活性化するシグナル伝達経路を介して作用してい る.人体に存在する GPCR には,未だ結合する分子が解明されていないものも存在し,今 後新規薬剤の標的として注目を集めている.

2. 2. 1 GPCR の構造

GPCR を活性化するシグナル分子は化学的にも機能的にも多様であるが,GPCR 自体の 構造は全て似ている.図 2-1 に GPCR の立体構造の模式図を示す.GPCR は,細胞膜を 7 回貫通する構造を取っている.GPCR の細胞膜を貫通する部分は,αヘリックスと呼ばれ GPCRを構成するアミノ酸の鎖が,らせん状に繋がった立体構造を取っている.GPCRと結 合する分子がタンパク質である場合,GPCRを構成するアミノ酸のうち,細胞外で大きな立 体構造を取っている部分のアミノ酸が結合する.この際,細胞膜外に存在するアミノ酸だ けではなく,細胞膜を貫通している領域の一部も協調して結合する.一方,アドレナリン のような小分子がGPCRと結合する場合,GPCRの膜外に存在するアミノ酸領域は小型であ

(10)

6

る.よって,通常 GPCR が小分子と結合する部分のアミノ酸は細胞膜内に存在し,GPCR の細胞膜を貫通する部分のアミノ酸が数個集まることで,小分子との結合部分を構築して いる.

図 2-1 GPCRの立体構造([1]のFig.15-30をもとに作成)

2. 2. 2 GPCR の機能

図 2-2にGPCRが活性化することにより,標的タンパクが活性化される一連の模式図を 示す.GPCRは,受容体であるGPCRと離れた場所で細胞膜に結合している標的タンパクの 活性を調節する働きがある.この際,Gタンパクは,細胞の内側に付着しており,活性化し た GPCR のシグナルを細胞膜に付着している標的タンパクである酵素などにシグナルを伝 達する.

図 2-3にGPCRがGタンパクを活性化させる模式図を示す.Gタンパクは刺激を受けて いない状態では,GDP(Guanosine diphosphate)と呼ばれる分子が結合し不活性状態にある.

しかし,GPCRに細胞外シグナル分子が結合すると,GPCRの構造が変化しGPCRが活性化 する.そして,活性化したGPCRがGタンパクを活性化させる.G タンパクは,GPCRに より活性化されるとGDPを遊離し,代わりにGTP(Guanosine triphosphate)と呼ばれる分子を 結合する.

次に,図 2-2においてGタンパクが活性化すると,Gタンパクは標的タンパクを活性化 させる.標的タンパクには,細胞膜に存在する酵素がある.したがって,GPCRが細胞外か らのシグナルを受け取り,細胞内に存在する標的タンパクを活性化させることで,細胞外 から細胞内へシグナルを伝達している.

(11)

7

図 2-2 GPCRの活性化によるシグナル伝達の例([1]のFig.15-16を元に作成)

図 2-3 活性化GPCRによるGタンパクの活性化([1]のFig.15-32を元に作成)

(12)

8

2. 2. 3 GPCR の機能の例

GPCR がシグナル分子を受け取り活性化されることで,細胞内におけるシグナル伝達が 様々に機能することが分かる.図 2-4にGPCRの活性化により,タンパクキナーゼCを活 性化させる仕組みの模式図を示す.

まず,GPCR が細胞外からシグナル分子を受け取ることで活性化される.さらに,活性 化されたGPCRは,GタンパクであるGqタンパクがシグナル伝達を仲介することで標的タ ンパクであるホスホリパーゼC-β を活性化する.ホスホリパーゼC-β が作用する相手は,

ホスファチジルイノシトール 4,5-ビスリン酸(以下PI(4,5)P2)と呼ばれる細胞膜内側に存在 する物質である.活性化したホスホリパーゼは,PI(4,5)P2を分解してイノシトール1,4,5-ト リスリン酸(以下IP3)とジアシルグリセロールを生じ,シグナル伝達経路は2つに分かれる.

水溶性のIP3が細胞膜を離れて細胞質内に拡散される.IP3が小胞体に到達すると,小胞 体内から Ca2+が放出され,細胞内の Ca2+の濃度が上昇する.一方,PI(4,5)P2の分解により 生じたジアシルグリセロールは別の働きを示す.ジアシルグリセロールは細胞膜に埋め込 まれたままで,小分子細胞内仲介物質として働き主に以下の二つの役割を果たす.

1. アラキドン酸を遊離する

2. タンパクキナーゼCの活性化を行う

1 では,アラキドン酸自身もシグナルとして働き,脂質シグナル分子であるエイコサノ イドの合成にも使われる.エイコサノイドは,脊椎動物細胞のほとんどで合成され,疼痛 や炎症応答などに関わる.2では,前出のIP3によって細胞内のCa2+の濃度が上昇すると,

タンパクキナーゼが細胞膜の膜付近に移動する.さらに,タンパクキナーゼとジアシルグ リセロールが結合し,Ca2+やホスファジルセリンによりタンパクキナーゼCが活性化される.

(13)

9

図 2-4 GPCRよりタンパクキナーゼCを活性化させる仕組み([1]のFig.15-39を元に作成)

(14)

10

3 章 関連研究

本章では関連研究として,タンパク質と化合物の結合を予測する研究について説明する.

タンパク質と化合物の結合を予測する研究は大きく 2 つに大別することができる.まず,

3. 1節では,化合物のみを用いてタンパク質と化合物の結合を予測する研究について述べる.

続いて,3. 2節ではタンパク質と化合物を用いてタンパク質と化合物の結合を予測する研究 について述べる.

3. 1 化合物のみを用いてタンパク質と化合物の結合を予測す

る研究

3. 1. 1 分子構造重ね合わせによるファーマコフォアモデル構築

手法開発と PDE4 阻害剤への応用[8]

荒川ら[8]はタンパク質と結合できる化合物がとる立体構造を調べ,重ね合わせを行い,

化合物の結合に必要な立体構造を特定する手法を開発した.

分子構造重ね合わせ

実験では,分子の立体構造の重ね合わせを行う際に,Hopfield ニューラルネットワーク

[13](以下,HNN)を用いた.HNNは分子の立体構造を重ね合わせる計算量を減少させること

ができ,重ね合わせ手法が持つ計算量の多さを解決することができる[14][15].

分子構造の重ね合わせは,以下の基準となる構造をもとに行う.

 疎水性部位

 水素結合ドナー部位

 水素結合アクセプター部位

上記の3個の部位を総称してプロパティと呼ぶ.

実験では,同種のプロパティ同士が対応するようにし,プロパティ間の距離が最小になる ように対応付けを行った.

(15)

11 実験・評価

実験では,PDE4(Phosphodiesterase-4)と結合する化合物が共通して持つ立体構造の特徴を探 索した.PDE4は,喘息や慢性閉塞性肺疾患の治療薬ターゲットとしって広く研究が行われ ている.まず,PDE4と結合することが判明している化合物を6種類用意した.化合物の立 体構造は複数の形状を取るため,MOE[16]を用いて1つの化合物がとりうる全ての立体構造 を探索した.表 3-1に実験で用いた化合物の立体構造数をまとめたものを示す.

表 3-1 実験に用いた化合物の立体構造数([8]のTable2を基に作成)

化合物名 立体構造数

シロミラスト 600

フィラミナスト 296

メソプラム 70

ピクラミスト 388

ロフルミラスト 600

ロリプラム 203

次に,得られた立体構造の全ての組合せについて,HNN による分子構造の重ね合わせを 行う.化合物がもつ立体構造を重ね合わせることで,PDE4と結合する化合物が共通して持 つプロパティの探索をする.重ね合わせの結果,5個のプロパティが4個の化合物で共通し て確認され,7 個のプロパティが 3 個の化合物で共通して確認された.よって,12 個のプ ロパティがPDE4と結合する際に,必要なプロパティであると特定した.

実験により,決定されたプロパティはRizziら[17]の実験により決定されたプロパティと共 通するプロパティを選ぶことができた.また,実験により得られたプロパティは,PDE4と 結合する部位であることが確認できた.

荒川らの手法の問題点

荒川らの手法では,化合物のみの特徴を用いてタンパク質と化合物の結合を予測している.

実際には,タンパク質が持つ化学的性質が結合に対して影響を与えている.よって,タン パク質が結合に及ぼす影響を無視することは,タンパク質と化合物の結合の予測精度を低

(16)

12

下させる原因となる.また,化合物がとりうる立体構造は大量に存在するためすべての立 体構造を探索することができない問題がある.

3. 1. 2 フィードバック手法を利用した類似化合物探索

Ammarら[9]は,複数の化合物が持つ化学的性質を元にして,モデルとなる化合物を生成

する手法を提案した.

モデル化合物生成方法

モデル化合物の生成はターゲットとなる化合物 L0と化合物 L0と近縁の化合物M0~M4 を用いて生成する.モデル化合物生生成方法の概要図を図 3-1 に示す.図 3-1 に示される 数値は化合物が持つ化学的性質を数値化したものである.化合物Lave は,化合物 L0と化

合物M0~M4が持つ化学的性質の平均を計算することで算出できる.モデル化合物Lmodel

は化合物Laveの値を元にすることで決定することができる.この時,化合物M0~M4にお いて,30%以上0となる化学的性質の値はモデル化合物Lmodelにおいても0とする.

図 3-1 モデル化合物生成方法の概要図([9]のFig.1を基に作成)

以上手順を踏まえることで,化合物Lmodelは複数の化合物を代表した性質を持つ.

(17)

13 評価・実験

表 3-2の化合物8568個に対して,モデル化合物Lmodelを生成する実験を行う.モデル

化合物Lmodelは各グループに1つずつ生成する.また,比較手法にはベイジアンネットワ

ークを利用して各グループのモデル化合物を生成する手法とした.

実験では,各グループのモデル化合物Lmodelをクエリとし,化合物8568個に類似度検 索を行った場合に,上位5%にヒットした化合物がモデル化合物 Lmodel と同じクラスに属 している割合を評価した.この時の実験結果を表 3-3に示す.

表 3-2 実験に用いたデータセット([9]のTable2を基に作成)

クラス名 化合物数

NMDAレセプター作用薬 900

ムスカリン作用薬 1400

ニチノールサン抑制剤 505

ドーパミンヒドロオキシラーゼ抑制剤 106

アルドースレダクターゼ抑制剤 957

リバーストランスクリプターゼ抑制剤 700

アロマターゼ抑制剤 636

シクロオキシナーゼ抑制剤 636

ホスホリパーゼA2抑制剤 617

リポキシナーゼ抑制剤 2111

(18)

14

表 3-3 モデル化合物を元にした検索結果([9]のTable5を基に作成)

クラス名 ammarらの手法(%) 比較手法(%)

NMDAレセプター作用薬 33.9 27.4

ムスカリン作用薬 18.8 14.3

ニチノールサン抑制剤 28.2 18.1

ドーパミンヒドロオキシラーゼ抑制剤 47.4 33.0

アルドースレダクターゼ抑制剤 17.1 15.7

リバーストランスクリプターゼ抑制剤 11.7 11.4

アロマターゼ抑制剤 36.2 35.0

シクロオキシナーゼ抑制剤 18.6 15.7

ホスホリパーゼA2抑制剤 22.1 20.6

リポキシナーゼ抑制剤 16.4 16.6

平均値 25.1 20.8

表 3-3から,Ammarらによる手法に基づいて作成したモデル化合物をクエリとすること で,各クラスに属する化合物が従来手法に比べてより広範囲にヒットすることがみてとれ る.以上のように,Ammar らは化合物のグループを代表するモデル化合物を作成する手法 を提案した.

Ammarらの問題点

Ammar らの手法においても化合物だけでタンパク質と結合する化合物を予測している

点が問題である.また,Ammar らの手法では複数の近縁な化合物をもとにしてモデル化合 物を作成している.このため,モデル化合物をもとにして大量の候補化合物からモデル化 合物に類似した化合物群を抽出することはできる.しかし,モデル化合物が実際にタンパ ク質と結合するか実験できないので,モデル化合物が適当であるかに疑念が残る.

(19)

15

3. 2 タンパク質と化合物を用いてタンパク質と化合物の結合

を予測する研究

3. 2. 1 タンパク質と化合物の結合シミュレーションによる結合

の特徴解析[10]

藤崎ら[10]は,タンパク質と化合物の結合の安定性を計算することでタンパク質と化合 物が結合可能であるか否かを判別する研究を行った.

実験概要

藤崎らは,ドッキングシミュレーションと分子動力学法(以下 MD シミュレーション)に より,タンパク質と化合物が結合した際の結合の安定性を解析する研究を行った.タンパ ク質には,キサンチン酸化還元構造(以下XOR)を用いている.実験では,XORの機能を抑 えることが判明している化合物を用い,化合物と XOR との結合をシミュレーションした.

そして,結合のシミュレーションが正しく行われたか検証した.また,実験に用いた XOR は,哺乳類由来のbXOR(bovine xanthine oxidase)と細菌由来のRcXOR(rhodobacter capsulatus xanthine oxidase)の2種類を用いている.

ドッキングシミュレーション

ドッキングシミュレーションは,XORと化合物の立体構造を用いて両者の間に起こる相 互作用を計算する手法である.そして,計算結果から結合の可否が判断できる.シミュレ ーションでは,XOR と化合物の立体構造をもとに,結合の安定性を計算した.しかし,シ ミュレーションにより得られた結果は,実験事実とは異なる結果が得られた.ドッキング シュミレーションでは,タンパク質と化合物の立体構造が変化することを考慮していない.

よって,タンパク質と化合物の立体構造が一意的に決定されるため,実験事実と異なる結 果になった.さらに,タンパク質と化合物の結合は水中で起こるが,ドッキングシミュレ ーションでは,水の効果をシミュレーションに取り込めていないため,結果のずれを引き 起こした原因となった.よって,藤崎らは化合物とタンパク質の立体構造の動的な変化を 考慮できるMDシミュレーションを行った.

(20)

16 MDシミュレーション

MDシミュレーションは,XORと化合物を原子レベルでモデル化し,XORと化合物を構 成する原子間で生じる相互作用を解析し結合可能かを判断する手法である.MDシミュレー ションを行う際には,水分子が結合に与える影響を考慮している.これにより,XOR と化 合物の結合が水中で行われる時と近い状態でシミュレーションできる.実験では,XOR,

化合物,水を構成する原子を計10万原子で表現し,それぞれがどのように相互作用を及ぼ すかシミュレーションした.そして,2種類のbXORとRcXORが化合物と結合する位置に 化合物を配置し,結合が時間変化を追ってどのように形成されるか解析した.

bXOR と化合物の結合は,時間変化によらず常に結合を続ける結果となった.しかし,

RcXORは,10ナノ秒の時間スケールで結合が離れていく傾向があることが分かった.結果

から,RcXORの方が薬との結合が不安定であり薬効が少ないと判定できる.実際のシミュ レーションと使わない実験結果を比較すると,シミュレーションの実験と結果が一致する ことが分かった.MDシミュレーションでは,実験に用いる分子を原子レベルで解析するた め,bXORとRcXORの実験結果の違いについて解析することもできた.bXORは,化合物 と結合する部分の原子が一定であるのに対し,RcXORの場合は,激しく原子が運動してい ることが判明した.よって,bXORと化合物の結合の方がより安定して,化合物と結合する 結果となった.また,bXOR の結合部位の原子には,化合物と親和性の高い原子が存在し,

RcXORには存在していないこともシミュレーションの結果から明らかになった.よって,

MD シミュレーションにより,XOR と化合物の結合を原子レベルで解析することにより,

結合の安定性を解析すること可能であった.

藤崎らの問題点

藤崎らの手法では,タンパク質と化合物の結合を予測する際に,タンパク質と化合物が 構成する原子間で及ぼし合う相互作用をシミュレーションし結合の可否を予測する.さら に結合は水中で起こるため水分子が結合に及ぼす影響もシミュレーションに含めている.

実際の結合では,タンパク質と化合物,水を構成する原子は運動しており,結合に関係す るすべての原子を正確にシミュレーションすることはできない.また,結合に影響を与え る外部要因を全て把握することが困難であることが挙げられる.

(21)

17

3. 2. 2 SVM によるタンパク質の全アミノ酸配列と化合物を用

いた結合予測[11]

奥野ら[11]はSVMによりGPCRと結合可能な化合物を予測する研究を行った.SVMに より予測を行う際,GPCRの特徴量はアミノ酸の配列を用い,化合物の特徴量には化学的性 質を数値化したデータセットを用いた.

データセット

SVMによる予測を行うためのデータセットとして,GPCRDB[18]からGPCRと結合する 化合物の組み合わせ8,006例を収集した.このうち,実験に用いたGPCRは3,476個である.

さらに,GPCRとの結合を考える化合物は3,079個用いた.実験には,ヒト,ラット,マウ スのGPCRを用い,GPCRの情報は,GPCRDBからfastaファイルとして取得した.ここで,

fasta ファイルとは,GPCR を構成するアミノ酸配列情報を格納してあるファイルのことで

ある.また,GPCRと結合する化合物の情報を示すMDL MolファイルはDrug Bank[19],

IUPHAR Resepter database[20],Pub Med[21],PubChem[22],PDSP Ki database[23]に登録され ているファイルを用いて学習を行った.MDL Molファイルは,化合物が持つ化学的性質を 算出する時に必要な化合物の立体構造情報が記録されているファイルである.

特徴量

実験に用いる特徴量は,以下の2種類である.

 GPCRの特徴量

 化合物の特徴量

GPCR の特徴量は,GPCR を構成するアミノ酸配列において,アミノ酸を単位とする

2-gramでの出現頻度をとした.アミノ酸の種類は全部で20種類存在するため,2-gramの種

類数はアミノ酸の組み合わせから400種類の組み合わせとなる.

化合物の特徴量は,MDL Molファイルから化合物が持つ化学的性質を数値化した.ここ で,化合物の化学的性質を示す化学記述子は,929記述子である.計算した化学記述子の中 で,常に一定の値を示す記述子を取り除くと797記述子となった.さらに,GPCRと結合す る化合物が持つ729記述子において,各記述子同士の相関係数を計算し,相関係数が0.8以 上の相関を持つ記述子を削減した.

(22)

18 実験方法

奥野らは,学習アルゴリズムとしてSVMを用いて学習を行うことで,GPCRと化合物と の結合を判断した.まず,収集した GPCR と化合物が結合する組み合わせを特徴ベクトル として表現するために,GPCRのアミノ酸配列と化合物の化学的性質をもとに算出した特徴 量を組み合わせることで特徴ベクトルを決定した.次に,学習のためのデータセットは,

GPCRと化合物が結合する組み合わせである正例と,GPCRと化合物が結合しない組み合わ せである負例を作成し,それぞれのデータは,GPCRと化合物の特徴量を組み合わせた特徴 ベクトルにより構成される.作成したデータセットをもとに,SVMにより学習モデルが構 築される.そして,学習モデルが構築されることで,GPCRと未知の化合物の結合が成り立 つか否かを予測する実験を行った.

実験結果

実験結果の評価では,奥野らによる手法と,GPCR と化合物の結合予測の従来手法との 比較を行った.ここで,従来手法は,GPCRと結合する化合物と,未知の化合物との類似度 を考慮することで結合を予測する手法である.つまり,今回の実験においては化合物の特 徴量をのみを考慮することによって,GPCR と結合が可能かどうかを判断する方法である.

従来手法は,奥野らの研究で用いた化合物の797個の特徴量を用いて GPCRと結合する化 合物に共通する特徴をSVMにより学習し学習モデルを構築した.

また,SVMによる学習では,5分割交差検定法を用いた.5分割交差検定法とは,まず 全ての学習データセットが 5 等分の均等なサイズのサブセットに分割される.次に,それ ぞれの全サブセットについて,残りの 4 つのサブセットで学習して得られた分類器を用い て予測する.そして,この操作は,すべてのサブセットが一度だけ予測されるように繰り 返されて評価される.予測性能の尺度としては,以下の式で示される正確度であるAccuracy を用いた.正しく予測されたポジティブデータ数をTP,ネガティブデータ数をTN とし,

誤って予測したポジティブデータ数をFP,ネガティブデータ数をFNとする.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 (3.1)

奥野らの手法と従来手法の実験結果を表 3-4に示した.また,奥野らの手法と従来手法 の予測によるROC曲線を図 3-2に示した.横軸はFP,縦軸はTPを表す.なお,点線はラ ンダムに結合を予測した場合の結果を示している.奥野らの手法による実験において,学 習データ数,テストデータ数,GPCRと化合物の次元数を表 3-5にまとめる.

(23)

19

表 3-4 奥野らの手法と従来手法の比較結果([11]を基に作成)

奥野らの手法 従来手法

Accuracy 91.6 84.4

表 3-5 奥野らの手法による実験データのまとめ([11]を基に作成)

学習データ数 テストデータ数 GPCRの次元数 化合物の次元数

6,405 1,601 400 937

図 3-2 奥野らの手法と従来手法によるROC曲線([11]のFig.6より引用)

(24)

20 奥野らの問題点

奥野らの手法は,GPCRを構成する全アミノ酸をGPCRの特徴量として用いている.し かし,GPCRの全アミノ酸のうち,化合物と結合する部分のアミノ酸は決まっている.化合 物との結合部分であるアミノ酸が結合に与える影響は大きくなるが,結合部分から離れた 位置に存在するアミノ酸は結合に影響を与えない.よって,結合に関与しないアミノ酸を 特徴量として用いることは,GPCRと化合物の結合の予測精度を低下させる原因となる.

3. 2. 3 GPCR 中のαヘリックス構造と化合物の結合予測[12]

白石ら[12]はSVMにより,GPCR中のαヘリックス部分を用いることで,GPCRと化合 物の結合予測を行った.

データセット

実験に用いるGPCRと化合物はGVK Bioscience databaseから取得した.取得したGPCR と化合物のデータ数を表 3-6に示す.

表 3-6 GPCRと化合物のデータ数([12]を基に作成)

化合物のデータ数 GPCRのデータ数

628120 238

特徴量

実験に用いる特徴量は以下の2種類である.

 GPCRの特徴量

 化合物の特徴量

GPCRの特徴量はGPCR中のαヘリックス部分を構成するアミノ酸を用いて算出した.

αヘリックスは GPCR を構成するアミノ酸がらせん構造をとる部分である.また,αヘリ ックスはGPCR中において,化合物との結合部位周辺を構成しているアミノ酸である.1つ のアミノ酸の特徴量はZ-scale[24]と呼ばれる尺度を用いて,3つの観点を数値化した.

一方,化合物の特徴量は655個の化学的性質で表現した.

(25)

21 実験方法

実験は SVMにより GPCRの特徴量と化合物の特徴量を用いて行った.結合予測実験は 学習から予測のステップの一連の流れを20回繰り返して行い,Accuracyの平均値を評価し た.

実験結果

実験結果の評価は,白石らによる手法と,GPCR を構成する全アミノ酸配列と化合物を 用いて結合を予測する手法を比較手法として比較を行った.表 3-7 に白石らによる手法と 比較手法によるAccuracuyを示す.また,表 3-8に実験を行った際の学習データ数とテスト データ数を示す.

表 3-7 白石らによる手法と比較手法の予測結果([12]を基に作成)

白石らによる手法 比較手法

92.4% 90.2%

表 3-8 実験に用いたデータ数([12]を基に作成)

白石らによる手法 比較手法

2000 2000

白石らの問題点

白石らの手法は,化合物との結合部位周辺を構成するGPCRのアミノ酸を利用している.

このため,奥野らの手法より,GPCRの特徴量は結合に影響を与えやすいアミノ酸を用いて いることになる.しかし,αヘリックスは化合物との結合部位以外のアミノ酸も含む場合 があり,結合とは関係無いアミノ酸を含んでおり予測精度の低下を招いている可能性があ る.

(26)

22

3. 3 関連研究のまとめ

本節では,関連研究の研究目的と問題についてまとめる.

手法 研究目的 問題点

荒川らの手法[8] 化合物の立体構造をもとにタンパク質 と結合する化合物を予測する

 タンパク質が持つ化学的性質を無 視している

 化合物がとりうる全立体構造をカ バーできていない

Ammarらの手法[9]

化合物がもつ化学的性質を元にモデル 化合物を探索し,タンパク質と結合す る化合物を予測する

 タンパク質が持つ化学的性質を無 視している

 モデル化合物がタンパク質と結合 する化合物として妥当か不明であ る

藤崎らの手法[10]

化合物とタンパク質を構成する原子を 用いて結合をシミュレーションするこ とで化合物とタンパク質の結合を予測 する

 結合に関与する原子の運動を正確 にシミュレーションすることはで きない

 結合に影響を及ぼす要因を全てシ ミュレーションすることは困難で ある

奥野らの手法[11] GPCR の全アミノ酸配列と化合物の化 学的性質を用いて結合を予測する

 結合に関係のないアミノ酸が持つ 性質も用いてしまっている

白石らの手法[12]

GPCR 中のαヘリックス領域にあるア ミノ酸が持つ性質と化合物の化学的性 質を用いて両者の結合を予測する

 αヘリックス領域のアミノ酸は結 合と関係のないアミノ酸も含まれ ている

(27)

23

4 章 結合時・非結合時に特異な特徴量抽出手法

本章では,関連研究の問題を考慮しつつ,GPCRと化合物の結合予測を目的とした,GPCR と化合物の特徴量選択手法について論じる.まず,4. 1節において手法概要について述べる.

4. 2節以降では,提案手法の詳細について述べる.

4. 1 概要

既存研究の問題として,化合物が持つ性質のみを用いて結合を予測していることや,タ ンパク質が持つ性質を用いたとしても結合とは関係のない領域のタンパク質が持つ性質を 利用していること,タンパク質と化合物を構成する全原子の運動をシミュレーションする ことは困難なことが挙げられる.

そこで,本手法では,GPCR と化合物が持つ性質を利用することに加え,GPCR と化合 物が結合する場合としない場合に頻出する特異な特徴量をそれぞれ抽出することで,予測 精度向上を図る.GPCRの特徴量には,化合物との結合領域にあるアミノ酸が持つ性質を利 用した.これにより,結合に関係ない領域のアミノ酸が特徴量として用いられることを防 いだ.また,GPCRの特徴量にはアミノ酸が持つ性質を利用し,化合物の特徴量には化合物 を構成する部分構造を用いている.したがって,GPCRと化合物の全原子の運動をシミュレ ーションする必要がない.本手法は,特徴量抽出ステップと結合予測ステップの 2 段階に 分けることができる.提案手法の概要図を図 4-1に示す.

図 4-1 提案手法概要図

(28)

24

4. 2 GPCP の特徴量算出

GPCR の特徴量は化合物と結合する部分のアミノ酸を用いる.しかし,本手法に用いる GPCRには立体構造が不明なものも含まれる.このため,MAFFT[27]を用いて,立体構造が 判明しているGPCRのアミノ酸配列と比較を行うことで,すべてのGPCRの立体構造を決 定する.特定した立体構造を元に,化合物と結合する部分のアミノ酸を GPCR の特徴量と して算出する.今回は大安ら[25]によって構築されたPGD受容体,PGE受容体(EP2)のモデ ル構造を GPCR の構造として使用した.リガンド結合部位は,立体構造からのクレフト同

定ツールCASTp[26]によりレポートされるクレフトの内,プロスタグランジン類のカルボキ

シル基と相互作用することが知られている7番目のヘリックス上のリジン残基を含む部分 を結合部位として用いた.

実験では,GPCRの特徴量は全アミノ酸20種類とギャップを含めた計21種類の文字列 で表される.ここで,ギャップとは,アミノ酸配列どうしの比較をした時に,対応するア ミノ酸が存在しない場合に“-”で表される記号である.ギャップは,タンパク質を構成 するアミノ酸が進化の過程でアミノ酸の挿入や削除がなされるために生じる.提案手法に おいて,GPCRの特徴量は21種類の文字列を性質別に7つのグループに分けることで決定 した[1].以下にグループの詳細を示す.

表 4-1 アミノ酸を7つのグループに分類

各グループの性質 アミノ酸の種類

疎水性 L,I,M,V

芳香族 F,Y,W

親水性 S,P,T,A,G

負の電荷を有する・構造が類似している D,E,N,Q

正の電荷を有する R,K,H

ギャップ -

その他 C

(29)

25

4. 3 化合物の特徴量算出

化合物の特徴量は,化合物が持つ部分構造を元に決定した.化合物は複数の部分構造に より構成される.一般的に同種の部分構造をもつ化合物同士は互いに類似する生物活性を 持つとされており,化合物の性質は化合物が持つ部分構造に影響されている.図 4-2 に化 合物の例を示す.また,図 4-3 に化合物を構成する部分構造の例を示す.提案手法では,

CDK Descriptor Calculator[28]を用いて部分構造算出した.CDKは化合物が持つ部分構造を 1024のグループに分類する機能を持つ

図 4-2 化合物の例

図 4-3 部分構造の例

(30)

26

4. 4 スコア付けによる特徴量抽出

本節では,スコアを用いることで,GPCR と化合物が結合する場合としない場合におい て頻出する特徴量を抽出する方法を述べる.

4. 4. 1 スコア算出

スコア算出は,GPCR のアミノ酸と化合物の部分構造をもとにして算出する.また,ス コアの算出は,GPCRと化合物が結合する組合せと結合しない組合せでの2通り算出する.

スコア算出の手順を以下に示す.

1. GPCR と化合物が結合する組合せにおいて,GPCR のアミノ酸と化合物の部分構造 物が出現するパターンを調べる.

2. GPCR と化合物が結合しない組合せにおいて,GPCR のアミノ酸と化合物の部分構 造物が出現するパターンを調べる.

3. GPCR と化合物が結合する場合としない場合の両方において,頻出するアミノ酸と 部分構造の組合せを抽出する.

以上の手順1~3について詳細を説明する.

手順1,2において,GPCRのアミノ酸と化合物の部分構造が出現するパターンは,GPCR の特徴量と化合物の特徴量をもとに図 4-4 で示した行列を用いて求められる.図 4-4 は,

GPCRと化合物との結合する場合,もしくはしない場合の1組を表している.図 4-4におい て,第 1 列のアルファベットは結合領域を構成するアミノ酸の並び順を表し,欄外の部分 構造は化合物の特徴量として用いた化合物の部分構造を表している.GPCRの特徴量におい て,1つのアミノ酸は4. 2節で示したように,7つのグループに分類する.よって,図 4-4 の第2列は各アミノ酸が属するグループを1~7で表現し,第3列は各グループをバイナリ で表現している.第3列のi行目に関する情報を式(4.1)に示す.式(4.1)のSはGPCRの特徴 量をバイナリ表記した場合の桁数であり,図 4-4の行数を示す.

Ii= 1 or 0 (1 ≤ i ≤ S) (4.1)

一方,化合物の特徴量は図 4-4において第1行のバイナリで表す.そして,4. 3節で述 べた全種類の部分構造のうち,化合物が該当する部分構造を持つ場合には“1”とし,該当 する部分構造を持たない場合には“0”とした.第1行のj列目に関する情報を式(4.2)に示 す.ここで,CDKにより出力される化合物の部分構造数は,1024である.

(31)

27

Jj= 1 or 0 (1 ≤ j ≤ 1024) (4.2)

また,行列の各要素di,j(k)はGPCRの特徴量を表すバイナリと化合物の特徴量を表すバイ ナリをもとに決定する.ここで,図 4-4に示す行列の要素はdi,jで表される.そして,kは GPCRと化合物の組合せを示す.本稿において結合する組合せをc∈Cとし,結合しない組 合せをnc∈NCとした.この時,di,j(c)とdi,j(nc)はそれぞれ式(4.3),式(4.4)で示される.

d(i,j)(c) = {1 if Ii= Jj= 1 (c ∈ C, 1 ≤ i ≤ S, 1 ≤ j ≤ 1024)

0 if Ii≠ 1orJj≠ 1 (c ∈ C, 1 ≤ i ≤ S, 1 ≤ j ≤ 1024) (4.3)

d(i,j)(nc) = {1 if Ii= Jj= 1 (nc ∈ NC, 1 ≤ i ≤ S, 1 ≤ j ≤ 1024)

0 if Ii≠ 1orJj≠ 1 (nc ∈ NC, 1 ≤ i ≤ S, 1 ≤ j ≤ 1024) (4.4)

(32)

28

図 4-4 アミノ酸と化合物のアライメント概要図

さらに,結合するGPCRと化合物との組合せと,結合しないGPCRと化合物との組合せ での行列の値をそれぞれ合算する.つまり,c ∈ Cでの di,j(c)のスコアの合計と,nc ∈ NCで

のdi,j(nc)のスコアの合計を算出する.この手順を式(4.5)と式(4.6)に示す.ここで,GPCRと

化合物が結合する場合のdi,j(c)のスコアの合計を di,j(positive)とし,GPCR と化合物が結合しな い場合のdi,j(nc)のスコアの合計をdi,j(negative)とした.

di,j(positive)= ∑ di,j(c)

c∈C

(4.5)

di,j(negative)= ∑ di,j(nc)

nc∈NC

(4.6)

(33)

29

続いて,手順3では,d i,j(positive)とd i,j(negative)の差を算出しdi,j(final)とした.これにより,GPCR と化合物が結合する場合としない場合のそれぞれにおいて,頻出する特徴量の組合せを抽 出することができる.この操作を式(4.7)に示す.

di,j(final)= di,j(positive)− di,j(negative) (4.6)

4. 4. 2 特徴量抽出

SVMによる結合予測を行うために,4. 4. 1節の手法を利用して,GPCRの特徴量と化合 物の特徴量を決定する.4. 4. 1節において算出したdi,j(final)は,GPCRと化合物が結合する時 に,頻出する GPCR の特徴量と化合物の特徴量との組合せを大きな値で示す.一方,結合 しない場合に頻出するGPCRの特徴量と化合物の特徴量との組み合わせは,di,j(final)がより小 さな負の値で示される.したがって,結合予測のために用いる特徴量は,di,j(final)の値がより 大きい要素とより小さい要素に対応する GPCR の特徴量と化合物の特徴量を用いた.ここ で,GPCRの特徴量は図 4-4の第2列つまり,1~7のグループ番号で表す.そして,GPCR と化合物が結合する場合に頻出するGPCRの特徴量と化合物の特徴量は,di,j(final)の要素にお いて値が大きい要素から順に,対応するGPCRと化合物の特徴量を抽出した.また,GPCR と化合物が結合しない場合の特徴量は,di,j(final)の要素において値が小さい要素から順に,対 応するGPCRと化合物の特徴量を抽出した.

4. 5 SVM による結合予測

4. 4. 2節で決定された,GPCRと化合物の特徴量を元に,SVMによる学習,予測を行う.

GPCRと化合物からなる特徴ベクトルは,GPCRと化合物が結合する場合としない場合の二 値でラベル付けを行う.その後,ラベル付けされた特徴ベクトルで学習,予測を行う.

(34)

30

5 章 実験・評価

本節では,提案手法を用いたGPCRと化合物の結合予測による評価実験について述べる.

5. 1 データセット

本実験ではGPCRにはプロスタグランジン類の受容体を用いた.GPCR と化合物が結合 する組み合わせは,GLIDA[29]に登録されている情報を用いた.GLIDA には,GPCR のア ミノ酸配列を表すfastaファイルが登録されており,GPCRの特徴量はfastaファイルをもと に決定した.

実験で用いる化合物のデータは,GLIDAにGPCRと結合する化合物名が登録されている.

よって,化合物名をもとに,化合物を表現する一つの方法であるSDF ファイルを,化学物 質データベースPubChem[22]から取得した.化合物の特徴量は,SDFファイルを元に化合物 の化学的性質を計算するツールCDKを用いて算出した.実験に用いたデータは,GPCRと 化合物が結合する組合せとして1436組,またGPCRと結合しない組合せとして1436組と した.よってデータセットは計2872個の組合せにより構成されている.

5. 2 実験データ

5. 1 節で述べたデータセットを利用して,提案手法を用いた実験データと比較手法を用

いた実験データを作成した.提案手法を用いた実験データは,第 4 章で述べた方法に基づ き特徴量を決定し,実験データ名を7classとした.また,比較手法には3. 2. 2節と3. 2. 3 節で紹介した手法に基づき特徴量を決定し,それぞれの実験データ名を 2-glam,z-scale と した.表 5-1に,実験に利用する実験データ名についてまとめる.

表 5-1 実験データ名についてのまとめ

実験データ名 データセットに含まれる特徴量についての説明

7class 提案手法を利用して特徴量を決定

2-gram 奥野らの手法を利用して特徴量を決定(比較手法)

z-scale 白石らの手法を利用して特徴量を決定(比較手法)

(35)

31

続いて,実験データに含まれる特徴量について説明する.各実験データは,GPCR の特 徴量と化合物の特徴量を持っている.提案手法は,利用する GPCR と化合物の特徴量数を 変化させることが出来るため,実験データ7classは複数の特徴量数で実験データを作成した.

また,比較手法の特徴量は表 5-2に示す.

表 5-2 比較手法の特徴量数

実験データ名 化合物の特徴量数 GPCRの特徴量数

2-gram 218 400

z-scale 218 261

特徴量の次元削減

比較手法を利用した実験データは次元削減を行った場合の実験データも作成した.機械 学習では,特徴量数が多すぎると過学習を引き起こし,予測精度の低下につながる可能性 があるからである.次元削減は化合物の特徴量とGPCRの特徴量で別々に行う.

特徴量の次元削減は,化合物とGPCRの特徴量に対して別々に行う.化合物とGPCRの 特徴量において,互いに相関関係にある特徴量が含まれている.よって,相関関係にある 特徴量を削減するために,化合物とGPCRそれぞれの特徴量に対して相関係数を算出した.

そして,相関係数が0.8以上になる特徴量は一方の特徴量を削減し,化合物とGPCRそれぞ れの特徴量において,互いの特徴量の相関係数が0.8未満になるようにした.

よって,実験データの次元削減を行うことで,新たに3通りのデータセットを作成した.

以下に新しく作成した3通りの実験データについてまとめる.

1. 化合物の特徴量が0.8未満の相関関係になるように次元削減を行う 2. GPCRの特徴量が0.8未満の相関関係になるように次元削減を行う

3. 化合物の特徴量が0.8未満の相関関係となり,GPCRの特徴量が0.8未満の相関関係 になるように次元削減を行う

上記の3つの条件に基づいて次元削減を行った時の,それぞれのデータセットが持つ特 徴量数を表 5-3,表 5-4,表 5-5にまとめる.

(36)

32

表 5-3 化合物の特徴量のみを削減した場合

実験データ名 化合物の特徴量数 GPCRの特徴量数

2-gram 115 400

Z scale 115 570

表 5-4 GPCRの特徴量のみを削減した場合

実験データ名 化合物の特徴量数 GPCRの特徴量数

2-gram 230 90

Z scale 230 105

表 5-5 化合物とGPCRの特徴量を削減した場合

実験データ名 化合物の特徴量数 GPCRの特徴量数

2-gram 115 90

Z scale 115 105

(37)

33

5. 3 実験内容

実験はGPCRと化合物の組合せを結合する場合としない場合の二値で判定を行う.実験 は,第4章で述べた提案手法による実験と,3. 2. 2節と3. 2. 3節で述べた比較手法による実 験を行った.

5. 3. 1 提案手法を用いた実験

提案手法を用いた実験では,GPCR と化合物の予測精度が最高になる特徴量数を決定す るために,複数の特徴量数で GPCR と化合物の結合予測を行った.実験では 10-cross

validationを行うことでGPCRと化合物の結合予測を行った.ここで,実験に用いる化合物

とGPCRの特徴量を決定するためのスコアは,10-cross validationの学習データを用いるこ とで算出した.そして,算出したスコアをもとに,学習データとテストデータで用いる化 合物とGPCRの特徴量を算出した.実験の流れを以下に示す.

1. 10-cross validationの学習データを用いてスコア算出する 2. スコアを元に実験で用いる化合物とGPCRの特徴量を決定する

3. 2.で決定した特徴量を学習データとテストデータに利用する

4. SVMによる結合予測実験をする

なお,提案手法を用いた実験では,上記1.のスコア算出において以下の2通りに基づき 実験データを作成する.

 アミノ酸の配列順を考慮した場合

 アミノ酸の配列順を考慮しない場合

よって,提案手法を用いた実験では2通りの実験を行う.ここで,アミノ酸の配列順を 考慮した場合とは,図 4-4の通りである.また,アミノ酸の配列順を考慮しない場合とは,

1つのアミノ酸と化合物の部分構造1024個とのアライメントを行う場合である.

5. 3. 2 比較手法を用いた実験

比較手法を用いた実験では,表 5-2,表 5-3,表 5-4,表 5-5で示されるように,特徴量 の次元削減を行うことで,4種類の実験データを作成した.さらに,実験データを正規化し た場合と,正規化しない場合に分けて実験を行った.正規化は,実験に用いた実験データ において,各特徴量の項目の最大値と最小値をもとに行う.表 5-6に,実験1~実験4にお

(38)

34

いて化合物とGPCRが持つ特徴量の次元削減についてまとめる.

表 5-6 各実験の特徴量削減について

実験番号 化合物の特徴量削減 GPCRの特徴量削減

実験1 しない しない

実験2 する しない

実験3 しない する

実験4 する する

実験1~実験4において次元削減方法は5. 2節で説明した方法に従う.さらに,本実験 では,10 cross validation を行うことで結合予測実験した.そして,得られた予測結果を

Accuracy,AUC,F値を使って評価する

5. 4 評価方法

本実験では,評価方法としてAccuracy,AUC,F値をもとに評価を行った.正しく予測 されたポジティブデータ数を TP,ネガティブデータ数を TN,誤った予測をしたポジティ ブデータ数をFP,ネガティブデータ数をFNとする.TP,TN,FP,FNについて表 5-7に まとめる.

表 5-7 記号の説明

真の結果

正 負

予測結果

正 TP FP

負 FN TN

Accuracyは,以下で示される値である.

(39)

35 Accuracy = TP + TN

TP + FP + TN + FN (5.1)

AUCは,ROC 曲線が作る面積を表したものである.ROC曲線とは,縦軸にsensitivity,

横軸に1-specifityを取った曲線である.sensitivity,specifityは以下の通りに表される.

sensitivity = TP

TP + FN (5.2)

specifity = FP

FP + TN (5.3)

ROC曲線の縦軸は,真の結果が正である場合に,正しく正であると予測出来たものの割 合であり,横軸は真の結果が負である場合に,正しく予測できず正と予測されたものの割 合である.予測結果がすべて正しい場合には,曲線が作る面積は 1 となる.つまり,AUC の値は1になる.一方,ランダムな予測に対してのAUCの値は,0.5となる.

また,F値はprecisionとrecallを用いて表すことができる.precisionは,正と予測したデ ータのうち真の結果が正であるものの割合を表す.また,recallは真の結果が正であるもの のうち正であると予測された結果を示す.F値を用いることで,precisionとrecallの値がバ ランスよく高い値を示しているかを確認することができる.以下に,precision,recall,F value の定義を示す.

precision = TP

TP + FP (5.4)

recall = TP

TP + FN (5.5)

F value =2 × precision × recall

precision × recall (5.6)

(40)

36

5. 5 実験結果

本節では,5. 5. 1に提案手法を用いてGPCRと化合物との結合を予測した実験結果を示 す.また,0に比較手法を用いてGPCRと化合物との結合を予測した結果を示す.

5. 5. 1 提案手法を用いた実験結果

アミノ酸の配列順を考慮した場合としない場合において,提案手法を用いた実験結果を 示す.

アミノ酸の配列順を考慮する場合

アミノ酸の配列順を考慮してスコア付けを行い,GPCR と化合物の特徴量を抽出した時 の実験結果を表 5-8に示す.また,Accuracy,AUC,F値のグラフを図 5-1,図 5-2,図 5-3 に示す.ここで,Accuracy,AUC,F値は特徴量数が400と600の時に最も良い結果となっ た.

表 5-8 提案手法を用いた実験結果(アミノ酸の配列順を考慮しない場合) 特徴量数 Accuracy AUC F-score

4 89.1% 0.886 0.877

200 89.0% 0.904 0.876

400 100.0% 1.000 1.000

600 100.0% 1.000 1.000

2000 95.8% 0.973 0.956

4000 88.5% 0.860 0.870

8000 82.0% 0.759 0.780

20000 75.1% 0.608 0.668

40000 74.0% 0.581 0.648

(41)

37

図 5-1 特徴量数とAccuracyの関係

図 5-2 特徴量数とAUCの関係 70%

75%

80%

85%

90%

95%

100%

4 200 400 600 2000 4000 8000 20000 40000

Accuracy

特徴量数

0.500 0.550 0.600 0.650 0.700 0.750 0.800 0.850 0.900 0.950 1.000

4 200 400 600 2000 4000 8000 20000 40000

AUC

特徴量数

(42)

38

図 5-3 特徴量数とF値の関係 0.600

0.650 0.700 0.750 0.800 0.850 0.900 0.950 1.000

4 200 400 600 2000 4000 8000 20000 40000

F

特徴量数

(43)

39 アミノ酸の配列順を考慮しない場合

アミノ酸の配列順を考慮せずにスコア付けを用いて,GPCR と化合物の特徴量を抽出し た時の実験結果を表 5-9 に示す.また,Accuracy,AUC,F 値のグラフを図 5-4,図 5-5,

図 5-6に示す.ここで,Accuracy,AUC,F値は特徴量数が16の時に最も良い結果となっ た.

表 5-9 提案手法を用いた実験結果(アミノ酸の配列順を考慮)

特徴量数 Accuracy AUC F-score

4 89.1% 0.885 0.877

8 98.4% 0.984 0.984

12 98.7% 0.992 0.987

16 98.8% 0.994 0.987

20 97.9% 0.993 0.978

36 92.5% 0.915 0.918

40 91.2% 0.896 0.903

48 88.9% 0.860 0.875

60 86.6% 0.826 0.845

100 81.5% 0.743 0.772

200 75.9% 0.622 0.682

400 74.2% 0.583 0.651

2000 72.7% 0.548 0.624

(44)

40

図 5-4 特徴量数とAccuracyの関係

図 5-5 特徴量数とAUCの関係 70%

75%

80%

85%

90%

95%

100%

4 8 12 16 20 36 40 48 60 100 200 400 2000

Accuracy

特徴量数

0.500 0.550 0.600 0.650 0.700 0.750 0.800 0.850 0.900 0.950 1.000

4 8 12 16 20 36 40 48 60 100 200 400 2000

AUC

特徴量数

(45)

41

図 5-6 特徴量数とF値の関係

提案手法を用いた実験結果のまとめ

アミノ酸の配列順を考慮して実験した場合とアミノ酸の配列順を考慮せずに実験した場 合での実験結果について表 5-10 にまとめる.表 5-10 には,各実験での最高精度を記載し た.実験結果から,アミノ酸の配列順を考慮した場合は,考慮しない場合に比べてが予測 精度が高くなった.

表 5-10 提案手法による実験結果のまとめ

アミノ酸の配列順について 特徴量数 Accuracy AUC F

アミノ酸配列順を考慮する 400 100.0% 1.000 1.000

600 100.0% 1.000 1.000

アミノ酸配列順を考慮しない 16 98.8% 0.994 0.987 0.600

0.650 0.700 0.750 0.800 0.850 0.900 0.950 1.000

4 8 12 16 20 36 40 48 60 100 200 400 2000

F

特徴量数

(46)

42

5. 5. 2 比較手法を用いた実験結果

0で説明したように,比較手法を用いて4通りの実験を行った場合の化合物とGPCRの 結合を予測した結果を示す.また,実験結果は,化合物と GPCR の特徴量を正規化して結 合を予測した場合と,正規化せずに予測した場合での結果を示す.

実験1

実験1では,化合物とGPCRそれぞれの特徴量を削減せずに,結合を予測した実験結果 を示す.

表 5-11 特徴量を削減しない場合

実験データ名 Accuracy(%) AUC F

2-gram(正規化なし) 70.9 0.696 0.590

2-gram(正規化あり) 88.0 0.936 0.885

Z-scale(正規化なし) 70.3 0.697 0.577

Z-scale(正規化あり) 86.8 0.926 0.875

実験2

実験2では化合物の特徴量を削減して,GPCRの特徴量は削減せずに結合を予測する.

表 5-12 化合物の特徴量を削減した場合

実験データ名 Accuracy(%) AUC F

2-gram(正規化なし) 73.1 0.779 0.632

2-gram(正規化あり) 86.9 0.922 0.873

Z-scale(正規化なし) 72.3 0.796 0.620

Z-scale(正規化あり) 84.3 0.908 0.847

図  2-2  GPCR の活性化によるシグナル伝達の例([1]の Fig.15-16 を元に作成)
図  2-4  GPCR よりタンパクキナーゼ C を活性化させる仕組み([1]の Fig.15-39 を元に作成)

参照

関連したドキュメント

特に、その応用として、 Donaldson不変量とSeiberg-Witten不変量が等しいというWittenの予想を代数

4)線大地間 TNR が機器ケースにアースされている場合は、A に漏電遮断器を使用するか又は、C に TNR

必要量を1日分とし、浸水想定区域の居住者全員を対象とした場合は、54 トンの運搬量 であるが、対象を避難者の 1/4 とした場合(3/4

SST を活用し、ひとり ひとりの個 性に合 わせた   

となってしまうが故に︑

試料の表面線量当量率が<20μ Sv/hであることを試料採取時に確 認しているため当該項目に適合して

都調査において、稲わら等のバイオ燃焼については、検出された元素数が少なか

 講義後の時点において、性感染症に対する知識をもっと早く習得しておきたかったと思うか、その場