分子グラフと化学構造記述子を組み合わせた
変異原性の
QSAR 解析
(明治薬大) 〇黒﨑宏太
*佐々木俊一 松坂恭成 植沢芳広
1. 緒言
化学物質の安全性対策において、化合物の特徴 量と生物活性との関係を統計的にモデリングす る 定 量 的 構 造 活 性 相 関(Quantitative Structure-Activity Relationships: QSAR)は、新たな生物学的 毒性試験を行う事なく既存のアッセイデータか ら未知の化合物の毒性を予測する代替的 in silico アプローチとして期待されている。 変異原性化合物は、物質それ自体あるいはその 代謝物がDNA に直接作用し、DNA 損傷を引き起 こした結果、ゲノム DNA に不可逆的かつ次世代 の細胞に伝達可能な突然変異をもたらす。体細胞 にこれらの事象が惹起された場合発がんを引き 起こし得るため、変異原性物質のスクリーニング は、規制毒性学において達成すべき最も重要な課 題の一つである。しかし、1 日あたり約 4,000 種類 のペースで増加しているCAS レジストリに対し、 労力、時間、コスト、実験動物倫理を考慮した個 別の毒性試験の実施は非現実的である。In silico ア プローチによる変異原性スクリーニングはこの 様な問題を解決する方策として重要であること から、その精度向上と限界点の把握が必要となる。 一般に、Ames 変異原性化学物質は電子求引性 を示す実証的事実が存在するため、化合物の変異 原性はQSAR によって化学的に予測可能であると 考 え ら れ る 。 International Conference on Harmonization (ICH) M7 ガイドラインでは、ヒト の健康評価に関する毒性試験に代えたQSAR モデ ルの使用が言及されている。従って、Ames 変異原 性を同定するQSAR モデルには、規制上の有用性 が期待されているとともに、変異原性物質を正し く同定するための高い予測能力が要求される。 しかし、QSAR モデルの予測性能を向上させる ための重要なボトルネックは、信頼性の高い情報 源からの大規模な実験データベースを構築する ことにある。近年、国立医薬品食品衛生研究所変 異遺伝部(DGM/NIHS)の取り組みによって、約 13,000 化合物に関する大規模な Ames 試験データ ベースが構築された。現在、当該変異原性データ ベースを用いたThe 2nd AMES/QSAR International Challenge Project[1]が進行中である。 本研究は、当該データベースに対する統計ベー ス手法(QSAR 手法)を用いた Ames 変異原性予測 モデルの構築及び検証を行うことで、当該データ ベースに対するQSAR モデルの新たな性能ベンチ マークを提示することを目的とした。 機械学習は、特定のアルゴリズムに基づいたパ ターン認識や推論を行なう手法である。Gradient Boosting Decision Tree (GBDT)や Neural Network (NN)など、複数の機械学習手法が多数の化合物に 対するQSAR モデル構築に用いられる。一般的に QSAR モデルは化学構造記述子に基づいて構築さ れる。一方近年、分子構造をグラフと見なし、分 子グラフからNN を用いた End to End 学習を行う こ と で グ ラ フ 構 造 上 の 特 徴 抽 出 を 行 う Graph Neural Network (GNN)が開発されている。この様 に、機械学習を用いたQSAR モデルに関する分子 構造の入力表現及びアルゴリズムは多様である。 本研究は、Stacking ensemble 法により、異なる 分類器及び分子構造の入力表現を組み合わせる ことで、予測精度を向上させることが出来ること に動機づけられている。第1 段階のモデルとして MOE 、 DRAGON 、 Mordred 記 述 子 を 用 い た XGBoost (XGB)、LightGBM (LGB)、NN モデル、 及び分子グラフを用いたGNN モデルを構築した。 第2段階では、ロジスティック回帰によってこれ らのモデルによるAmes 変異原性予測値を統合す るStacking ensemble 法を導入した。 S Cl N O H M o le cu le S Cl N O M o le cu la r Gra p h M o le cu la r De scrip to rsGrap h N eu ra l N e tw o r k Lig h tGBM , XGBo o st, N eu ra l N etw o rk
Pr ed ictio n s ……
Lo g istic R e g ressio n
P1 PP22 Pm
2. 手法
データセット
The 2nd AMES/QSAR International Challenge Project において提供されたデータセットを使用 した。本データセットには13,000 を超える化合物 のAmes 試験結果が分類タスクに応用可能な形式 で格納されている。我々は、全データセットの約 30%を外部検証セット(テストセット)として割り 付けた。残りの約70%のデータセットは予測モデ ルの構築及び内部検証(バリデーションセット)に 用いた。 分子の三次元化及び化学構造記述子の算出 化合物のコンフォーマーは、AMED 事業「創薬 支援インフォマティクスシステム構築」において 当研究室が開発したToxicity Predictor に実装され ている三次元化アルゴリズムによって生成した。 これを初期構造とし、MOE による MMFF 力場を 用いたエネルギー最小化計算を行うことで最適 な三次元構造とした。生成された三次元構造に基 づき、MOE、DORAGON、Mordred により化学構 造記述子をそれぞれ算出した。 モデリングスキーム 本研究にて採用した機械学習アルゴリズムは GBDT の 一 種 で あ る LightGBM (LGB) 及 び XGBoost (XGB)、Neural Network (NN)、分子グラフ に基づき End to End 学習を行う Graph Neural Network (GNN) の全 4 種である。モデリングスキ ームは主に3 つのフェーズに大別される。第 1 フ ェーズでは、機械学習モデルのハイパーパラメー タチューニングを手動あるいはベイズ最適化に よって実施した。第2 フェーズでは、5-fold cross validation (5-fold CV) を用いて各機械学習モデル の ト レ ー ニ ン グ を 行 う と 同 時 に 、Out-of-Fold (OOF) の予測確率及びテストセットの予測確率 をスタックした。第3 フェーズでは、スタックさ れた各モデルの予測確率を特徴量としたロジス ティック回帰によってStacking ensemble モデルを 作成した。 評価指標 構築されたモデルの予測性能は、ROC 曲線下面 積(ROC-AUC)、精度、感度、特異度、Balanced accuracy (BAC)、マシューズ相関係数(MCC)に基づ いて評価した。
3. 結果と考察
LGB, XGB, NN, GNN ともに ROC-AUC 値が 0.8 以上の良好な予測パフォーマンスを示すモデル を構築することに成功した。これらのモデルを Stacking ensemble 法にて統合した Stacking モデル (STK)では予測精度のさらなる向上が確認された。 この理由として、STK によって各モデル間の分子 表現およびアルゴリズムの特性が統合された点 が挙げられる。図1は、LGB, XGB, NN, GNN のそ れぞれのモデル、及びSTK による予測スコアをヒ ートマップにより可視化したものである。図1か ら、一部の偽陽性ドメインがSTK によって真陰性 に転じた可能性があることが分かる。この結果よ り、STK による精度改善は主に陰性的中率改善に 繋がる可能性が考えられる。一方でSTK によって も予測不可能なドメインが存在したが、このドメ インでは偽陽性の改善がなされなかった。 図1 各モデルにおける予測スコアの比較4. 緒言
新たな変異原性データベースに対する統計ベ ース手法の開発と予測精度の検証を行なった。本 研究のさらなる課題は、偽陽性領域を克服するこ とにある。QSAR モデルの表現力の向上は変異原 性予測精度の向上に寄与する可能性がある。特に 今回用いたGNN モデルは単純な構造の物であり、 他に多くの GNN 手法の提案がなされているだけ でなく、ニューラルネットワークに対する分子構 造の入力表現には分子画像、SMILES 文字列など 様々なアプローチが存在する。それらを用いるこ とでモデルの表現力を向上させることが可能だ と考えられる。 参考文献[1] Available online: http://www.nihs.go.jp/dgm/
2nd_amesqsar.html
[2] Tsubaki M, Tomii K, Sese J. Compound-protein interaction prediction with end-to-end learning of neural networks for graphs and sequences. Bioinformatics. 2019 Jan 15;35(2):309-318.
Pred icted sco re s
C o m p o u n d s Lab els ST K NN GN N XG B LG B 1 (A m es p o sitive) 0 (A m es n eg ative) 0 .8 7 6 0 .7 5 3 0 .6 2 9 0 .5 0 5 0 .3 8 1 0 .3 0 5 0 .2 2 9 0 .1 5 3 0 .0 7 6