二次元分子表現と三次元分子表現を用いた
QSAR/QSPR モデルの予測能力の比較
(
1奈良先端大先端科学技術、
2奈良先端大
DSC、
3東大院工)
〇
1佐藤彰准・
1,2宮尾知幸・
1,2,3船津公人
*1.
緒言
定量的構造活性相関(QSAR) モデルと定量的物 性相関(QSPR)モデルは、化学構造から生物活性や 分子物性を定量的に予測する。 QSAR/QSPR モデ リングにおいては、分子表現(記述子)が重要で あるが、現在使用されているQSAR/QSPR モデル の多くは、化合物の二次元表現 (2D 記述子) に基 づく。これは、計算コストに加え、モデリングに おける立体配座の不確実性を考慮した結果と考 えられる。しかし、本質的に分子は三次元空間に 存在するため、分子の立体構造を考慮した分子表 現(3D 記述子)は活性や性質に関するより多くの 情報を有すると期待される。 3D 記述子の一つとして、様々な立体配座との重 なり(類似度)を定量化した記述子:shape feature profiles (SFPs)が存在する[1]。参照構造として様々 な分子構造の立体配座を用意し、計算対象の分子 構造をこれらの参照構造に重ね合わせる。分子の 重ね合わせは、Rapid Overlay of Chemical Structures (ROCS)[2]により、分子の形状、化学的特徴の一致 度が高くなるように行われる。参照構造への重な りの程度は、ROCS スコアにより定量化される。 定量化された数値のベクトルが記述子に相当す る。この分子表現は、Comparative Molecular Field Analysis (CoMFA) [3]のようにアナログ化合物へ の適用を仮定するものではなく、多様な化合物に 適用可能である。また、ChEMBL データベースを 利用した仮想スクリーニングにおける検証での 有効性は確認されている[4,5]。 本 研 究 で は 、 回 帰 モ デ ル を 対 象 と し た QSAR/QSPR モデリングに上記の3D 記述子を導 入する。加えて、学習データやテストデータの多 様性の観点から、3D 記述子の 2D 記述子に対する 優位性を議論する[6]。2.
データセットと手法
データセット 10 個の標的マクロ分子に対して活性を有する 化合物を ChEMBL24 から抽出し、検証用データ セットを構築した。本研究で使用したデータセッ トを表1 に示す。目的変数は阻害定数 pKiとした。 表1における#Cores は compound core relationship (CCR) method[7]を用いて抽出したユニークな分 子構造のコア数を示す。 検証用データセット構築方法 QSAR モデルの予測性能と訓練データの多様性 との関係を明らかにする目的で、標的マクロ分子 毎に、多様性が徐々に増加するように訓練データ を作成した(図1)。 表1検証用データセット データセットに含まれる化合物に共通するコ アを抽出し、コア間の類似度に基づき階層的クラ スタリングにより樹形図を作成した。この樹形図 を利用して、多様性が徐々に増すように、訓練デ ータセットの集合を作成した。 図1 訓練・検証用データセットの作成 機械学習モデル QSAR/QSPR モデル構築手法として、Support Vector Regression(SVR)を用いた。SVR のカーネル 関 数 と し て 、Radial Basis Function ( RBF ) と1A04
CHEMBL ID Code #CPDs #Cores pKi Max Min 220 A 266 55 11.35 1.02 237 B 1526 189 11.52 4.09 244 C 1436 154 11.4 3.59 245 D 372 70 10.5 -6.56 249 E 167 35 10.7 4.9 1862 F 496 33 10.73 4.7 1983 G 366 57 10.7 5.05 2954 H 381 56 9.89 3.53 3798 I 350 37 11.3 4.7 4860 J 171 39 9.15 3.27Tanimoto 類似度を用いた。SVR モデルは、in-house のスクリプトにより Scikit-Learn の NuSVR ラ イブラリを利用して構築した。ハイパーパラメー タは5-fold cross validation により最適化した。
2D 記述子
直 径 4 の Extended connectivity fingerprints (ECFP4) をモジューロ操作により 4096 ビットに 変 換 し た フ ィ ン ガ ー プ リ ン ト と 、Molecular Operating Environment (MOE) software で計算可能 な2D 記述子 130 種を使用した。 3D 記述子 SFPs は、参照化合物に対する構造の重なりに基 づく3D 分子表現である。構造は OpenEye 社の立 体配座生成プログラム OMEGA により生成する。 構造の重なりはROCS を用いて定量的に評価した。 参照化合物の立体配座は、OMEGA によって生成 された初期構造のセットから、MMFF94s 力場に 基づくエネルギーが最小化となる構造とした。参 照化合物に対する重なりは、TanimotoCombo スコ ア(分子の形状と化学的特徴)が最大化になるよ う に 決 定 し た 。 重 な り は 、ShapeTanimoto, ColorTanimoto, TanimotoCombo の 3 つを用いた。 ShapeTanimoto は 分 子 の 形 状 の 重 な り 、 ColorTanimoto は 化 学 的 特 徴 の 重 な り 、 TanimotoCombo は ShapeTanimoto と ColorTanimoto の 合 計 で あ る 。ShapeTanimoto, ColorTanimoto, TanimotoCombo そ れ ぞ れ を 用 い た SFP を SFP_shape、SFP_color、SFP_combo とする。 SFPs における参照化合物 3D 記述子を作成する際に使用する参照化合物 は、通常、訓練化合物が使用される。本研究では どのような化合物を参照化合物として使用すべ きかを検討するために、3 種の参照化合物セット を比較した。1:訓練化合物 (Active)、2:ZINC デ ー タ ベ ー ス か ら 抽 出 さ れ た ラ ン ダ ム 化 合 物 (Random)、3:特定のケモタイプを持つ化合物群と して、Code I に対して活性な化合物群 (Code I)で ある。 カーネル関数の改良 分子の形状(Shape)と化学的特徴(Color)の情 報を組み合わせる方法はいくつかある。その方法 として SFP_color と SFP_shape の積、2 つのカー ネル関数の重み付き和(式 1)と積(式 2)を行った。 𝑘𝑒𝑟𝑛𝑒𝑙(𝒙, 𝒚) = 𝑤 × 𝑅BF 𝒙 , 𝒚 + 1 − 𝑤 𝑅BF(𝒙 , 𝒚 ) (式 1) ここで wshape は ShapeTanimoto のカーネル関数の 重みであり,0 から 1 の間の値をとり,xshape と
xcolorはそれぞれSFP_shape と SFP_color を表す。
𝑘𝑒𝑟𝑛𝑒𝑙(𝒙, 𝒚) = 𝑤 × 𝑅BF 𝒙 , 𝒚 × 𝑅BF(𝒙 , 𝒚 ) (式 2) w はカーネル関数におけるスケーリング因子であ る。
3.
結果と考察
2D、3D 記述子の比較 樹形図を利用して構築した訓練データとテ ストデータを用いて、活性予測を数回試行した (図 2)。分子表現やターゲットに関わらず、訓 練データの多様性の高くなるほど予測性能の 高いモデルが得られることがわかった。また、 訓練データの多様性に関わらず、2D と 3D 記述 子の優劣はつけられなかった。例えば、ターゲ ットI では、ECFP4 が SFP を上回る点が見られ た。一方,ターゲットC,F では,ECFP4 や MOE よりも SFP_Combo の方が優れた予測性能を示 す点が見られた.しかし、訓練データとテスト データが共通するコアを持つ場合(図2の右端) には,ECFP4 が最も良い性能に収束しており, 3D 記述子を使用する必要がないことが示唆さ れた。しかし,ターゲットF の類似度が 0.5 と なる点のように、モデルの外挿が予測に必要と なるデータセットでは,ECFP4 や MOE よりも SFP の方が優れた性能を示した。 図 1 訓練データの多様性と予測精度 カーネルの検討 SFPs において、異なるカーネルを適用した場合のテストデータのRMSE 値を図 3 に示す。式 1 と 式2 で示された 2 つのカーネルは,訓練データの 多様性が増すと、他の手法と比較して予測精度が 悪 く な る こ と が わ か っ た 。ShapeTanimoto と ColorTanimoto の積(図 3 の SFP_Shape*SFP_Color) を用いた予測能力は、学習データの多様性が増す につれて向上した。さらに、訓練データの多様性 を最大化した場合には、SFP_Combo とほとんど同 じ予測性能に達した。しかし、どちらが優れてい るかという明確な傾向は見られなかった。予測性 能の優劣は、訓練データセットの多様性と予測対 象に依存しているように考える。合理的な性能の モデルを得るには,単純なSFP_Combo を RBF カ ーネル関数に適用すれば十分である。 図 3 SFPs のカーネル関数の比較 参照化合物の検討 SFP において異なる参照化合物を用いた場合 のモデルの予測精度を調べた。その結果を図 4 に示す。図4 (a)では、参照化合物としてラベル に記載の化合物群を”Active”に加えた結果を、 図4 (b)では、それぞれのラベルの参照化合物の みを用いた場合の結果を示す。例えば、図4 (a) の”Random”は、参照化合物としての”Active”に 加えて、ランダムに選択されたZINC 化合物を 用いたことを意味する。図4 (a)から、モデル性 能の向上(劣化)はターゲットに依存している ことがわかった。また、”Random”、“Code I” を”Active” に加えることは、予測精度の向上に は寄与しないことがわかる。一方で、これらの 化合物を加えることで、訓練データが多少変化 してもモデルの予測能力が急激に低下するこ とはなく、モデルの予測精度の分散が抑えられ た、安定した予測モデルが構築されていた。加 え て 、タ ーゲッ ト H については、”Code I” は ”Random” の場合よりもモデルの予測能力 が向上していることがわかった。それぞれの参 照化合物群単独で比較すると(図4 (b)) ”Active” が最も優れた予測精度を示した。以上の解析か ら、類似化合物(”Active”)と非類似化合物 (”Random”、または”Code I”)の両方が参照化 合物として必要であることが示唆された。 (a) (b) 図 4 予測精度に対する参照化合物の影響 SFP おける参照化合物がモデルの予測精度に 及ぼす影響を理解するために、pKiの予測誤差 が大きいテスト化合物(予測誤差の絶対値≧1.0) に着目し、各ターゲットに対して、予測に失敗 した化合物から参照化合物の最短距離をプロ
ットした(図5)。横軸および横軸は、軸ラベル (Active、Random、および Code I)で指定され た参照データセットに対する最近傍(NN)類似 度を表す。図 5 では、コード A、C、J の結果 を代表的なケースとして報告している。類似度 は、ECFP4 を用いた Tanimoto 類似度である。 図 5 の各点は、凡例に示されているように、3 つの参照化合物セットを用いたモデルのうち の 1 つで予測を失敗したテスト化合物を表し ている。例えば、赤い十字の点は、x 軸で表さ れるデータセットを使用した場合予測が失敗 したが、y 軸で示されるデータセットを使用し た場合、予測が成功した化合物である。SFP に おいて、参照化合物との類似性が重要であれば、 その赤十字点は対角線の上に位置すると考え られる。しかし、予測に失敗した化合物は、他 の参照セットよりも”Active” データセットに 類 似 し て い た 。”Random” デ ー タ セ ッ ト と ”Code I” データセットは、一般に、テスト化 合物と類似性はない。したがって、参照化合物 と予測に失敗した化合物との類似性には、明確 な関係はないと考える。 図 5 予測に失敗したテスト化合物と参照化 合物の類似性
4.
まとめ
本研究では、QSAR モデリングに 2D および 3D 記述子のどちらを用いるべきかという疑問に答 えようとした。2D および 3D 記述子を用いたモデ ルの精度と学習化合物の多様性との関係を検討 した結果、学習化合物の多様性の増加に伴い、2D および3D 記述子を用いたモデルの予測能力が増 加することが明らかになった。しかし、訓練化合 物の多様性とモデルの性能との間には明確な関 係は観察されず、支配的な記述子は対象や訓練化 合物の多様性レベルで一貫していなかった。した がって、2D および 3D 記述子を用いた QSAR モデ ルは、バリデーションデータを行い、モデル選択 により選択する必要があると考える。5.
参考文献
[1] Miyao T. et al., J. Comput. Aided Mol. Des. 33, 729–743(2019)
[2] Paul C. D. Hawkins et al., J. Med. Chem., 50, 74– 82(2007)
[3] Richard D.C. et al., J. Am. Chem. Soc., 110, 5959-5967(1988)
[4] Sato T. et al., J. Chem. Inf. Model, 52, 1015–1026 (2012)
[5] Hu B. et al., Molecules, 21, 1554 (2016)
[6] Sato A., et al., J. Comput. Aided Mol. Des. Submitted