二次元分子表現と三次元分子表現を用いたQSAR/QSPRモデルの予測能力の比較

(1)

*[email protected]

二次元分子表現と三次元分子表現を用いた

QSAR/QSPR モデルの予測能力の比較

(

1

_{奈良先端大先端科学技術、}

2

_{奈良先端大}

_DSC、

3

_{東大院工)}

〇

1

_{佐藤彰准・}

1,2

_{宮尾知幸・}

1,2,3

_船津公人

＊

1. 緒言

定量的構造活性相関(QSAR) モデルと定量的物性相関(QSPR)モデルは、化学構造から生物活性や分子物性を定量的に予測する。 QSAR/QSPR モデリングにおいては、分子表現（記述子）が重要であるが、現在使用されているQSAR/QSPR モデルの多くは、化合物の二次元表現 (2D 記述子) に基づく。これは、計算コストに加え、モデリングにおける立体配座の不確実性を考慮した結果と考えられる。しかし、本質的に分子は三次元空間に存在するため、分子の立体構造を考慮した分子表現（3D 記述子）は活性や性質に関するより多くの情報を有すると期待される。 3D 記述子の一つとして、様々な立体配座との重なり（類似度）を定量化した記述子：shape feature profiles (SFPs)が存在する[1]。参照構造として様々な分子構造の立体配座を用意し、計算対象の分子構造をこれらの参照構造に重ね合わせる。分子の重ね合わせは、Rapid Overlay of Chemical Structures (ROCS)[2]により、分子の形状、化学的特徴の一致度が高くなるように行われる。参照構造への重なりの程度は、ROCS スコアにより定量化される。定量化された数値のベクトルが記述子に相当する。この分子表現は、Comparative Molecular Field Analysis (CoMFA) [3]のようにアナログ化合物への適用を仮定するものではなく、多様な化合物に適用可能である。また、ChEMBL データベースを利用した仮想スクリーニングにおける検証での有効性は確認されている[4,5]。本研究では、回帰モデルを対象とした QSAR/QSPR モデリングに上記の３D 記述子を導入する。加えて、学習データやテストデータの多様性の観点から、3D 記述子の 2D 記述子に対する優位性を議論する[6]。

2. データセットと手法

データセット 10 個の標的マクロ分子に対して活性を有する化合物を ChEMBL24 から抽出し、検証用データセットを構築した。本研究で使用したデータセットを表1 に示す。目的変数は阻害定数 pKiとした。表１における#Cores は compound core relationship (CCR) method[7]を用いて抽出したユニークな分子構造のコア数を示す。検証用データセット構築方法 QSAR モデルの予測性能と訓練データの多様性との関係を明らかにする目的で、標的マクロ分子毎に、多様性が徐々に増加するように訓練データを作成した(図１)。表１検証用データセットデータセットに含まれる化合物に共通するコアを抽出し、コア間の類似度に基づき階層的クラスタリングにより樹形図を作成した。この樹形図を利用して、多様性が徐々に増すように、訓練データセットの集合を作成した。図１訓練・検証用データセットの作成機械学習モデル QSAR/QSPR モデル構築手法として、Support Vector Regression(SVR)を用いた。SVR のカーネル関数として、Radial Basis Function （ RBF ）と

1A04

CHEMBL ID Code #CPDs #Cores pKi Max Min 220 A 266 55 11.35 1.02 237 B 1526 189 11.52 4.09 244 C 1436 154 11.4 3.59 245 D 372 70 10.5 -6.56 249 E 167 35 10.7 4.9 1862 F 496 33 10.73 4.7 1983 G 366 57 10.7 5.05 2954 H 381 56 9.89 3.53 3798 I 350 37 11.3 4.7 4860 J 171 39 9.15 3.27

(2)

Tanimoto 類似度を用いた。SVR モデルは、in-house のスクリプトにより Scikit-Learn の NuSVR ライブラリを利用して構築した。ハイパーパラメータは5-fold cross validation により最適化した。

2D 記述子

直径 4 の Extended connectivity fingerprints (ECFP4) をモジューロ操作により 4096 ビットに変換したフィンガープリントと、Molecular Operating Environment (MOE) software で計算可能な2D 記述子 130 種を使用した。 3D 記述子 SFPs は、参照化合物に対する構造の重なりに基づく3D 分子表現である。構造は OpenEye 社の立体配座生成プログラム OMEGA により生成する。構造の重なりはROCS を用いて定量的に評価した。参照化合物の立体配座は、OMEGA によって生成された初期構造のセットから、MMFF94s 力場に基づくエネルギーが最小化となる構造とした。参照化合物に対する重なりは、TanimotoCombo スコア（分子の形状と化学的特徴）が最大化になるように決定した。重なりは、ShapeTanimoto, ColorTanimoto, TanimotoCombo の 3 つを用いた。 ShapeTanimoto は分子の形状の重なり、 ColorTanimoto は化学的特徴の重なり、 TanimotoCombo は ShapeTanimoto と ColorTanimoto の合計である。ShapeTanimoto, ColorTanimoto, TanimotoCombo それぞれを用いた SFP を SFP_shape、SFP_color、SFP_combo とする。 SFPs における参照化合物 3D 記述子を作成する際に使用する参照化合物は、通常、訓練化合物が使用される。本研究ではどのような化合物を参照化合物として使用すべきかを検討するために、3 種の参照化合物セットを比較した。1：訓練化合物 (Active)、2：ZINC データベースから抽出されたランダム化合物 (Random)、3：特定のケモタイプを持つ化合物群として、Code I に対して活性な化合物群 (Code I)である。カーネル関数の改良分子の形状（Shape）と化学的特徴（Color）の情報を組み合わせる方法はいくつかある。その方法として SFP_color と SFP_shape の積、2 つのカーネル関数の重み付き和(式 1)と積(式 2)を行った。 𝑘𝑒𝑟𝑛𝑒𝑙(𝒙, 𝒚) = 𝑤 × 𝑅BF 𝒙 , 𝒚 + 1 − 𝑤 𝑅BF(𝒙 , 𝒚 ) (式 1) ここで wshape は ShapeTanimoto のカーネル関数の重みであり，0 から 1 の間の値をとり，xshape と

xcolorはそれぞれSFP_shape と SFP_color を表す。

𝑘𝑒𝑟𝑛𝑒𝑙(𝒙, 𝒚) = 𝑤 × 𝑅BF 𝒙 , 𝒚 × 𝑅BF(𝒙 , 𝒚 ) (式 2) w はカーネル関数におけるスケーリング因子である。

3. 結果と考察

2D、3D 記述子の比較樹形図を利用して構築した訓練データとテストデータを用いて、活性予測を数回試行した（図 2）。分子表現やターゲットに関わらず、訓練データの多様性の高くなるほど予測性能の高いモデルが得られることがわかった。また、訓練データの多様性に関わらず、2D と 3D 記述子の優劣はつけられなかった。例えば、ターゲットI では、ECFP4 が SFP を上回る点が見られた。一方，ターゲットC，F では，ECFP4 や MOE よりも SFP_Combo の方が優れた予測性能を示す点が見られた．しかし、訓練データとテストデータが共通するコアを持つ場合（図２の右端）には，ECFP4 が最も良い性能に収束しており， 3D 記述子を使用する必要がないことが示唆された。しかし，ターゲットF の類似度が 0.5 となる点のように、モデルの外挿が予測に必要となるデータセットでは，ECFP4 や MOE よりも SFP の方が優れた性能を示した。図 1 訓練データの多様性と予測精度カーネルの検討 SFPs において、異なるカーネルを適用した場合

(3)

のテストデータのRMSE 値を図 3 に示す。式 1 と式2 で示された 2 つのカーネルは，訓練データの多様性が増すと、他の手法と比較して予測精度が悪くなることがわかった。ShapeTanimoto と ColorTanimoto の積（図 3 の SFP_Shape*SFP_Color）を用いた予測能力は、学習データの多様性が増すにつれて向上した。さらに、訓練データの多様性を最大化した場合には、SFP_Combo とほとんど同じ予測性能に達した。しかし、どちらが優れているかという明確な傾向は見られなかった。予測性能の優劣は、訓練データセットの多様性と予測対象に依存しているように考える。合理的な性能のモデルを得るには，単純なSFP_Combo を RBF カーネル関数に適用すれば十分である。図 3 SFPs のカーネル関数の比較参照化合物の検討 SFP において異なる参照化合物を用いた場合のモデルの予測精度を調べた。その結果を図 4 に示す。図4 (a)では、参照化合物としてラベルに記載の化合物群を”Active”に加えた結果を、図4 (b)では、それぞれのラベルの参照化合物のみを用いた場合の結果を示す。例えば、図4 (a) の”Random”は、参照化合物としての”Active”に加えて、ランダムに選択されたZINC 化合物を用いたことを意味する。図4 (a)から、モデル性能の向上（劣化）はターゲットに依存していることがわかった。また、”Random”、“Code I” を”Active” に加えることは、予測精度の向上には寄与しないことがわかる。一方で、これらの化合物を加えることで、訓練データが多少変化してもモデルの予測能力が急激に低下することはなく、モデルの予測精度の分散が抑えられた、安定した予測モデルが構築されていた。加えて、ターゲット H については、”Code I” は ”Random” の場合よりもモデルの予測能力が向上していることがわかった。それぞれの参照化合物群単独で比較すると（図4 (b)） ”Active” が最も優れた予測精度を示した。以上の解析から、類似化合物（”Active”）と非類似化合物（”Random”、または”Code I”）の両方が参照化合物として必要であることが示唆された。 (a) (b) 図 4 予測精度に対する参照化合物の影響 SFP おける参照化合物がモデルの予測精度に及ぼす影響を理解するために、pKiの予測誤差が大きいテスト化合物（予測誤差の絶対値≧1.0）に着目し、各ターゲットに対して、予測に失敗した化合物から参照化合物の最短距離をプロ

(4)

ットした（図5）。横軸および横軸は、軸ラベル（Active、Random、および Code I）で指定された参照データセットに対する最近傍（NN）類似度を表す。図 5 では、コード A、C、J の結果を代表的なケースとして報告している。類似度は、ECFP4 を用いた Tanimoto 類似度である。図 5 の各点は、凡例に示されているように、3 つの参照化合物セットを用いたモデルのうちの 1 つで予測を失敗したテスト化合物を表している。例えば、赤い十字の点は、x 軸で表されるデータセットを使用した場合予測が失敗したが、y 軸で示されるデータセットを使用した場合、予測が成功した化合物である。SFP において、参照化合物との類似性が重要であれば、その赤十字点は対角線の上に位置すると考えられる。しかし、予測に失敗した化合物は、他の参照セットよりも”Active” データセットに類似していた。”Random” データセットと ”Code I” データセットは、一般に、テスト化合物と類似性はない。したがって、参照化合物と予測に失敗した化合物との類似性には、明確な関係はないと考える。図 5 予測に失敗したテスト化合物と参照化合物の類似性

4. まとめ

本研究では、QSAR モデリングに 2D および 3D 記述子のどちらを用いるべきかという疑問に答えようとした。2D および 3D 記述子を用いたモデルの精度と学習化合物の多様性との関係を検討した結果、学習化合物の多様性の増加に伴い、2D および3D 記述子を用いたモデルの予測能力が増加することが明らかになった。しかし、訓練化合物の多様性とモデルの性能との間には明確な関係は観察されず、支配的な記述子は対象や訓練化合物の多様性レベルで一貫していなかった。したがって、2D および 3D 記述子を用いた QSAR モデルは、バリデーションデータを行い、モデル選択により選択する必要があると考える。

5. 参考文献

[1] Miyao T. et al., J. Comput. Aided Mol. Des. 33, 729–743(2019)

[2] Paul C. D. Hawkins et al., J. Med. Chem., 50, 74– 82(2007)

[3] Richard D.C. et al., J. Am. Chem. Soc., 110, 5959-5967(1988)

[4] Sato T. et al., J. Chem. Inf. Model, 52, 1015–1026 (2012)

[5] Hu B. et al., Molecules, 21, 1554 (2016)

[6] Sato A., et al., J. Comput. Aided Mol. Des. Submitted