本節では,提案手法を用いたGPCRと化合物の結合予測による評価実験について述べる.
5. 1 データセット
本実験ではGPCRにはプロスタグランジン類の受容体を用いた.GPCR と化合物が結合 する組み合わせは,GLIDA[29]に登録されている情報を用いた.GLIDA には,GPCR のア ミノ酸配列を表すfastaファイルが登録されており,GPCRの特徴量はfastaファイルをもと に決定した.
実験で用いる化合物のデータは,GLIDAにGPCRと結合する化合物名が登録されている.
よって,化合物名をもとに,化合物を表現する一つの方法であるSDF ファイルを,化学物 質データベースPubChem[22]から取得した.化合物の特徴量は,SDFファイルを元に化合物 の化学的性質を計算するツールCDKを用いて算出した.実験に用いたデータは,GPCRと 化合物が結合する組合せとして1436組,またGPCRと結合しない組合せとして1436組と した.よってデータセットは計2872個の組合せにより構成されている.
5. 2 実験データ
5. 1 節で述べたデータセットを利用して,提案手法を用いた実験データと比較手法を用
いた実験データを作成した.提案手法を用いた実験データは,第 4 章で述べた方法に基づ き特徴量を決定し,実験データ名を7classとした.また,比較手法には3. 2. 2節と3. 2. 3 節で紹介した手法に基づき特徴量を決定し,それぞれの実験データ名を 2-glam,z-scale と した.表 5-1に,実験に利用する実験データ名についてまとめる.
表 5-1 実験データ名についてのまとめ
実験データ名 データセットに含まれる特徴量についての説明
7class 提案手法を利用して特徴量を決定
2-gram 奥野らの手法を利用して特徴量を決定(比較手法)
z-scale 白石らの手法を利用して特徴量を決定(比較手法)
31
続いて,実験データに含まれる特徴量について説明する.各実験データは,GPCR の特 徴量と化合物の特徴量を持っている.提案手法は,利用する GPCR と化合物の特徴量数を 変化させることが出来るため,実験データ7classは複数の特徴量数で実験データを作成した.
また,比較手法の特徴量は表 5-2に示す.
表 5-2 比較手法の特徴量数
実験データ名 化合物の特徴量数 GPCRの特徴量数
2-gram 218 400
z-scale 218 261
特徴量の次元削減
比較手法を利用した実験データは次元削減を行った場合の実験データも作成した.機械 学習では,特徴量数が多すぎると過学習を引き起こし,予測精度の低下につながる可能性 があるからである.次元削減は化合物の特徴量とGPCRの特徴量で別々に行う.
特徴量の次元削減は,化合物とGPCRの特徴量に対して別々に行う.化合物とGPCRの 特徴量において,互いに相関関係にある特徴量が含まれている.よって,相関関係にある 特徴量を削減するために,化合物とGPCRそれぞれの特徴量に対して相関係数を算出した.
そして,相関係数が0.8以上になる特徴量は一方の特徴量を削減し,化合物とGPCRそれぞ れの特徴量において,互いの特徴量の相関係数が0.8未満になるようにした.
よって,実験データの次元削減を行うことで,新たに3通りのデータセットを作成した.
以下に新しく作成した3通りの実験データについてまとめる.
1. 化合物の特徴量が0.8未満の相関関係になるように次元削減を行う 2. GPCRの特徴量が0.8未満の相関関係になるように次元削減を行う
3. 化合物の特徴量が0.8未満の相関関係となり,GPCRの特徴量が0.8未満の相関関係 になるように次元削減を行う
上記の3つの条件に基づいて次元削減を行った時の,それぞれのデータセットが持つ特 徴量数を表 5-3,表 5-4,表 5-5にまとめる.
32
表 5-3 化合物の特徴量のみを削減した場合
実験データ名 化合物の特徴量数 GPCRの特徴量数
2-gram 115 400
Z scale 115 570
表 5-4 GPCRの特徴量のみを削減した場合
実験データ名 化合物の特徴量数 GPCRの特徴量数
2-gram 230 90
Z scale 230 105
表 5-5 化合物とGPCRの特徴量を削減した場合
実験データ名 化合物の特徴量数 GPCRの特徴量数
2-gram 115 90
Z scale 115 105
33
5. 3 実験内容
実験はGPCRと化合物の組合せを結合する場合としない場合の二値で判定を行う.実験 は,第4章で述べた提案手法による実験と,3. 2. 2節と3. 2. 3節で述べた比較手法による実 験を行った.
5. 3. 1 提案手法を用いた実験
提案手法を用いた実験では,GPCR と化合物の予測精度が最高になる特徴量数を決定す るために,複数の特徴量数で GPCR と化合物の結合予測を行った.実験では 10-cross
validationを行うことでGPCRと化合物の結合予測を行った.ここで,実験に用いる化合物
とGPCRの特徴量を決定するためのスコアは,10-cross validationの学習データを用いるこ とで算出した.そして,算出したスコアをもとに,学習データとテストデータで用いる化 合物とGPCRの特徴量を算出した.実験の流れを以下に示す.
1. 10-cross validationの学習データを用いてスコア算出する 2. スコアを元に実験で用いる化合物とGPCRの特徴量を決定する
3. 2.で決定した特徴量を学習データとテストデータに利用する
4. SVMによる結合予測実験をする
なお,提案手法を用いた実験では,上記1.のスコア算出において以下の2通りに基づき 実験データを作成する.
アミノ酸の配列順を考慮した場合
アミノ酸の配列順を考慮しない場合
よって,提案手法を用いた実験では2通りの実験を行う.ここで,アミノ酸の配列順を 考慮した場合とは,図 4-4の通りである.また,アミノ酸の配列順を考慮しない場合とは,
1つのアミノ酸と化合物の部分構造1024個とのアライメントを行う場合である.
5. 3. 2 比較手法を用いた実験
比較手法を用いた実験では,表 5-2,表 5-3,表 5-4,表 5-5で示されるように,特徴量 の次元削減を行うことで,4種類の実験データを作成した.さらに,実験データを正規化し た場合と,正規化しない場合に分けて実験を行った.正規化は,実験に用いた実験データ において,各特徴量の項目の最大値と最小値をもとに行う.表 5-6に,実験1~実験4にお
34
いて化合物とGPCRが持つ特徴量の次元削減についてまとめる.
表 5-6 各実験の特徴量削減について
実験番号 化合物の特徴量削減 GPCRの特徴量削減
実験1 しない しない
実験2 する しない
実験3 しない する
実験4 する する
実験1~実験4において次元削減方法は5. 2節で説明した方法に従う.さらに,本実験 では,10 cross validation を行うことで結合予測実験した.そして,得られた予測結果を
Accuracy,AUC,F値を使って評価する
5. 4 評価方法
本実験では,評価方法としてAccuracy,AUC,F値をもとに評価を行った.正しく予測 されたポジティブデータ数を TP,ネガティブデータ数を TN,誤った予測をしたポジティ ブデータ数をFP,ネガティブデータ数をFNとする.TP,TN,FP,FNについて表 5-7に まとめる.
表 5-7 記号の説明
真の結果
正 負
予測結果
正 TP FP
負 FN TN
Accuracyは,以下で示される値である.
35 Accuracy = TP + TN
TP + FP + TN + FN (5.1)
AUCは,ROC 曲線が作る面積を表したものである.ROC曲線とは,縦軸にsensitivity,
横軸に1-specifityを取った曲線である.sensitivity,specifityは以下の通りに表される.
sensitivity = TP
TP + FN (5.2)
specifity = FP
FP + TN (5.3)
ROC曲線の縦軸は,真の結果が正である場合に,正しく正であると予測出来たものの割 合であり,横軸は真の結果が負である場合に,正しく予測できず正と予測されたものの割 合である.予測結果がすべて正しい場合には,曲線が作る面積は 1 となる.つまり,AUC の値は1になる.一方,ランダムな予測に対してのAUCの値は,0.5となる.
また,F値はprecisionとrecallを用いて表すことができる.precisionは,正と予測したデ ータのうち真の結果が正であるものの割合を表す.また,recallは真の結果が正であるもの のうち正であると予測された結果を示す.F値を用いることで,precisionとrecallの値がバ ランスよく高い値を示しているかを確認することができる.以下に,precision,recall,F value の定義を示す.
precision = TP
TP + FP (5.4)
recall = TP
TP + FN (5.5)
F value =2 × precision × recall
precision × recall (5.6)
36
5. 5 実験結果
本節では,5. 5. 1に提案手法を用いてGPCRと化合物との結合を予測した実験結果を示 す.また,0に比較手法を用いてGPCRと化合物との結合を予測した結果を示す.
5. 5. 1 提案手法を用いた実験結果
アミノ酸の配列順を考慮した場合としない場合において,提案手法を用いた実験結果を 示す.
アミノ酸の配列順を考慮する場合
アミノ酸の配列順を考慮してスコア付けを行い,GPCR と化合物の特徴量を抽出した時 の実験結果を表 5-8に示す.また,Accuracy,AUC,F値のグラフを図 5-1,図 5-2,図 5-3 に示す.ここで,Accuracy,AUC,F値は特徴量数が400と600の時に最も良い結果となっ た.
表 5-8 提案手法を用いた実験結果(アミノ酸の配列順を考慮しない場合) 特徴量数 Accuracy AUC F-score
4 89.1% 0.886 0.877
200 89.0% 0.904 0.876
400 100.0% 1.000 1.000
600 100.0% 1.000 1.000
2000 95.8% 0.973 0.956
4000 88.5% 0.860 0.870
8000 82.0% 0.759 0.780
20000 75.1% 0.608 0.668
40000 74.0% 0.581 0.648
37
図 5-1 特徴量数とAccuracyの関係
図 5-2 特徴量数とAUCの関係 70%
75%
80%
85%
90%
95%
100%
4 200 400 600 2000 4000 8000 20000 40000
Accuracy
特徴量数
0.500 0.550 0.600 0.650 0.700 0.750 0.800 0.850 0.900 0.950 1.000
4 200 400 600 2000 4000 8000 20000 40000
AUC
特徴量数
38
図 5-3 特徴量数とF値の関係 0.600
0.650 0.700 0.750 0.800 0.850 0.900 0.950 1.000
4 200 400 600 2000 4000 8000 20000 40000
F値
特徴量数
39 アミノ酸の配列順を考慮しない場合
アミノ酸の配列順を考慮せずにスコア付けを用いて,GPCR と化合物の特徴量を抽出し た時の実験結果を表 5-9 に示す.また,Accuracy,AUC,F 値のグラフを図 5-4,図 5-5,
図 5-6に示す.ここで,Accuracy,AUC,F値は特徴量数が16の時に最も良い結果となっ た.
表 5-9 提案手法を用いた実験結果(アミノ酸の配列順を考慮)
特徴量数 Accuracy AUC F-score
4 89.1% 0.885 0.877
8 98.4% 0.984 0.984
12 98.7% 0.992 0.987
16 98.8% 0.994 0.987
20 97.9% 0.993 0.978
36 92.5% 0.915 0.918
40 91.2% 0.896 0.903
48 88.9% 0.860 0.875
60 86.6% 0.826 0.845
100 81.5% 0.743 0.772
200 75.9% 0.622 0.682
400 74.2% 0.583 0.651
2000 72.7% 0.548 0.624