分子グラフと化学構造記述子を組み合わせた変異原性のQSAR解析

(1)

*[email protected]

分子グラフと化学構造記述子を組み合わせた

変異原性の

QSAR 解析

(明治薬大) 〇黒﨑宏太

＊

_{佐々木俊一松坂恭成植沢芳広}

1. 緒言

化学物質の安全性対策において、化合物の特徴量と生物活性との関係を統計的にモデリングする定量的構造活性相関(Quantitative Structure-Activity Relationships: QSAR）は、新たな生物学的毒性試験を行う事なく既存のアッセイデータから未知の化合物の毒性を予測する代替的 in silico アプローチとして期待されている。変異原性化合物は、物質それ自体あるいはその代謝物がDNA に直接作用し、DNA 損傷を引き起こした結果、ゲノム DNA に不可逆的かつ次世代の細胞に伝達可能な突然変異をもたらす。体細胞にこれらの事象が惹起された場合発がんを引き起こし得るため、変異原性物質のスクリーニングは、規制毒性学において達成すべき最も重要な課題の一つである。しかし、1 日あたり約 4,000 種類のペースで増加しているCAS レジストリに対し、労力、時間、コスト、実験動物倫理を考慮した個別の毒性試験の実施は非現実的である。In silico アプローチによる変異原性スクリーニングはこの様な問題を解決する方策として重要であることから、その精度向上と限界点の把握が必要となる。一般に、Ames 変異原性化学物質は電子求引性を示す実証的事実が存在するため、化合物の変異原性はQSAR によって化学的に予測可能であると考えられる。 International Conference on Harmonization (ICH) M7 ガイドラインでは、ヒトの健康評価に関する毒性試験に代えたQSAR モデルの使用が言及されている。従って、Ames 変異原性を同定するQSAR モデルには、規制上の有用性が期待されているとともに、変異原性物質を正しく同定するための高い予測能力が要求される。しかし、QSAR モデルの予測性能を向上させるための重要なボトルネックは、信頼性の高い情報源からの大規模な実験データベースを構築することにある。近年、国立医薬品食品衛生研究所変異遺伝部（DGM/NIHS）の取り組みによって、約 13,000 化合物に関する大規模な Ames 試験データベースが構築された。現在、当該変異原性データベースを用いたThe 2nd AMES/QSAR International Challenge Project[1]_{が進行中である。} 本研究は、当該データベースに対する統計ベース手法(QSAR 手法)を用いた Ames 変異原性予測モデルの構築及び検証を行うことで、当該データベースに対するQSAR モデルの新たな性能ベンチマークを提示することを目的とした。機械学習は、特定のアルゴリズムに基づいたパターン認識や推論を行なう手法である。Gradient Boosting Decision Tree (GBDT)や Neural Network (NN)など、複数の機械学習手法が多数の化合物に対するQSAR モデル構築に用いられる。一般的に QSAR モデルは化学構造記述子に基づいて構築される。一方近年、分子構造をグラフと見なし、分子グラフからNN を用いた End to End 学習を行うことでグラフ構造上の特徴抽出を行う Graph Neural Network (GNN)が開発されている。この様に、機械学習を用いたQSAR モデルに関する分子構造の入力表現及びアルゴリズムは多様である。本研究は、Stacking ensemble 法により、異なる分類器及び分子構造の入力表現を組み合わせることで、予測精度を向上させることが出来ることに動機づけられている。第1 段階のモデルとして MOE 、 DRAGON 、 Mordred 記述子を用いた XGBoost (XGB)、LightGBM (LGB)、NN モデル、及び分子グラフを用いたGNN モデルを構築した。第２段階では、ロジスティック回帰によってこれらのモデルによるAmes 変異原性予測値を統合するStacking ensemble 法を導入した。 S Cl N O H M o le cu le S Cl N O M o le cu la r Gra p h M o le cu la r De scrip to rs

Grap h N eu ra l N e tw o r k Lig h tGBM , XGBo o st, N eu ra l N etw o rk

Pr ed ictio n s ……

Lo g istic R e g ressio n

P1 _PP22 Pm

(2)

2. 手法

データセット

The 2nd AMES/QSAR International Challenge Project において提供されたデータセットを使用した。本データセットには13,000 を超える化合物のAmes 試験結果が分類タスクに応用可能な形式で格納されている。我々は、全データセットの約 30%を外部検証セット(テストセット)として割り付けた。残りの約70%のデータセットは予測モデルの構築及び内部検証(バリデーションセット)に用いた。分子の三次元化及び化学構造記述子の算出化合物のコンフォーマーは、AMED 事業「創薬支援インフォマティクスシステム構築」において当研究室が開発したToxicity Predictor に実装されている三次元化アルゴリズムによって生成した。これを初期構造とし、MOE による MMFF 力場を用いたエネルギー最小化計算を行うことで最適な三次元構造とした。生成された三次元構造に基づき、MOE、DORAGON、Mordred により化学構造記述子をそれぞれ算出した。モデリングスキーム本研究にて採用した機械学習アルゴリズムは GBDT の一種である LightGBM (LGB) 及び XGBoost (XGB)、Neural Network (NN)、分子グラフに基づき End to End 学習を行う Graph Neural Network (GNN) の全 4 種である。モデリングスキームは主に3 つのフェーズに大別される。第 1 フェーズでは、機械学習モデルのハイパーパラメータチューニングを手動あるいはベイズ最適化によって実施した。第2 フェーズでは、5-fold cross validation (5-fold CV) を用いて各機械学習モデルのトレーニングを行うと同時に、Out-of-Fold (OOF) の予測確率及びテストセットの予測確率をスタックした。第3 フェーズでは、スタックされた各モデルの予測確率を特徴量としたロジスティック回帰によってStacking ensemble モデルを作成した。評価指標構築されたモデルの予測性能は、ROC 曲線下面積(ROC-AUC)、精度、感度、特異度、Balanced accuracy (BAC)、マシューズ相関係数(MCC)に基づいて評価した。

3. 結果と考察

LGB, XGB, NN, GNN ともに ROC-AUC 値が 0.8 以上の良好な予測パフォーマンスを示すモデルを構築することに成功した。これらのモデルを Stacking ensemble 法にて統合した Stacking モデル (STK)では予測精度のさらなる向上が確認された。この理由として、STK によって各モデル間の分子表現およびアルゴリズムの特性が統合された点が挙げられる。図１は、LGB, XGB, NN, GNN のそれぞれのモデル、及びSTK による予測スコアをヒートマップにより可視化したものである。図１から、一部の偽陽性ドメインがSTK によって真陰性に転じた可能性があることが分かる。この結果より、STK による精度改善は主に陰性的中率改善に繋がる可能性が考えられる。一方でSTK によっても予測不可能なドメインが存在したが、このドメインでは偽陽性の改善がなされなかった。図１各モデルにおける予測スコアの比較

4. 緒言

新たな変異原性データベースに対する統計ベース手法の開発と予測精度の検証を行なった。本研究のさらなる課題は、偽陽性領域を克服することにある。QSAR モデルの表現力の向上は変異原性予測精度の向上に寄与する可能性がある。特に今回用いたGNN モデルは単純な構造の物であり、他に多くの GNN 手法の提案がなされているだけでなく、ニューラルネットワークに対する分子構造の入力表現には分子画像、SMILES 文字列など様々なアプローチが存在する。それらを用いることでモデルの表現力を向上させることが可能だと考えられる。参考文献

[1] Available online: http://www.nihs.go.jp/dgm/

2nd_amesqsar.html

[2] Tsubaki M, Tomii K, Sese J. Compound-protein interaction prediction with end-to-end learning of neural networks for graphs and sequences. Bioinformatics. 2019 Jan 15;35(2):309-318.

Pred icted sco re s

C o m p o u n d s Lab els ST K NN GN N XG B LG B 1 (A m es p o sitive) 0 (A m es n eg ative) 0 .8 7 6 0 .7 5 3 0 .6 2 9 0 .5 0 5 0 .3 8 1 0 .3 0 5 0 .2 2 9 0 .1 5 3 0 .0 7 6

分子グラフと化学構造記述子を組み合わせた変異原性のQSAR解析