計算毒性学における人工知能、
そして進化する
「化学データサイエンス」への展開
株式会社 インシリコデータ 湯田 浩太郎 CBI学会2018年大会 フォーカストセッション FS-10■ ケモメトリックス(chemometrics): 計量化学(化学計量学)とは、数理科学、統計学、機械学習、 パターン認識、データマイニングなどの手法により、(広義の) 化学分野における諸問題を解決しようとする分野である ■ ケモインフォマティクス(cheminformatics): 化学情報学は、コンピュータと情報化技術を用いて化学領域の 問題に適用する方法論である ■ ケモデータサイエンス、化学データサイエンス
(chemodatascience, chemical datascience):
化学データサイエンスとは、化学分野の諸問題についてデータ サイエンス手法を適用して解決を目指す学問分野である
1.計算毒性学における人工知能の歴史
2.データサイエンスとIT技術進歩に伴う変化
①データサイエンスの構成技術
②コンピューターの進歩によるデータサイエンスの変化
③データサイエンスから「化学データサイエンス」へ
3.機械学習型人工知能適用上での解決すべき点
4.次世代型データ解析手法開発の必要性
①KY法の開発
②テーラーメードモデリングの開発
7.化学ビッグデータの構築上での問題点
8.まとめ
□ 講演討論内容
1.1 計算毒性学(安全性評価)分野での
二大適用技術
多変量解析
パターン認識
人工知能
化学(化合物)
1.計算毒性学における人工知能の歴史
□ 計算毒性学分野では人工知能が適用されてきた
ルールベース型人工知能
当初より現在まで人工知能が 適用され、実用システムや研究 システムが多数開発済み機械学習型人工知能
システムとしての実績はないが、 今後の展開が期待されている1.計算毒性学における人工知能の歴史
現在注目中
機械学習型
(ニューラルネットワーク)
人工知能
当初から現在まで
現在展開されている毒性予測関連システム
HazardExpert:
CompuDrug Ltd.RIPT: R
ule
I
nduction for
P
redictive
T
oxicology
DEREK: D
eductive
E
stimation of
R
isk from
E
xisting
K
nowledge:Lhasa Ltd.
◆代謝予測関連支援システム(人工知能) COMPACT,MetaSite,SPORCalc, XENO,MetabolExpert,META,Meteor BESS,CATABOL,UMBBD, PPS,META ◆生分解性予測関連支援システム(人工知能)□
機械学習型
人工知能の全体的歴史と主要トピックス □人工知能に注目させたトピックス:成功事例 □人工知能に注目させたトピックス:失敗事例 □人工知能の歴史 ◆過古の多変量解析/パターン認識と人工知能との関係 ◆現在における多変量解析/パターン認識と人工知能との関係□ 計算毒性学における人工知能
□ 成功事例
AlphaGo(アルファ碁)が人間に打ち勝って世界一になった 人間がコンピュータに勝てる最後の分野の神話が崩れた碁の学習アルゴリズムに深層学習を適用していた
人工知能に注目させたトピックス
■ 失敗事例
人工知能のチャットボット「Tay」がヘイト発言を乱発した Twitter等の内容からヘイト発言を学習してしまった 留意点:学習に使われた対局数が数千万という数に達している サンプル数が少ない場合は成果を期待しにくい□ 成功事例
AlphaGo(アルファ碁)が人間に打ち勝って世界一になった 人間がコンピュータに勝てる最後の分野の神話が崩れた碁の学習アルゴリズムに深層学習を適用していた
人工知能に注目させたトピックス
■ 失敗事例
人工知能のチャットボット「Tay」がヘイト発言を乱発したTwitter等の内容からヘイト発言を学習してしまった
留意点:人工知能における学習サンプルの重要性
学習内容により人工知能は大きく変化する
人工知能の歴史
人工知能言語 1958:LISP(List Processor) 1972:Prolog 1994:Python 多変量解析/パターン認識 ルールベース型人工知能 *第五世代コンピュータ(日本) 重回帰、パーセプトロン、PCA、 クラスタリング、他 機械学習発展・新アプローチ ニューラルネットワーク、 遺伝的アルゴリズム、ファジイ、 深層学習開発/展開新世代
人工知能
多変量解析/パターン認識
様々な データ解析手法 クラス分類 フィッティング マッピング クラスタリング 他既存のルール
人工知能
ルールベース型
多変量解析/パターン認識と人工知能は互いに独立している
過古の多変量解析/パターン認識と人工知能との関係現在
における多変量解析/パターン認識と 人工知能との関係多変量解析/パターン認識
様々な データ解析手法 クラス分類 フィッティング マッピング クラスタリング 他人工知能
多変量解析/パターン認識と人工知能は既存のルール
(特化型、汎用型)
発見された
新ルール
機械学習機械学習により繋がっている
ビッグデータ 深層学習 (DNN, CNN,RNN)◆畳み込みニューラルネットワーク: CNN(Convolutional Neural Network)
画像・動画認識やレコメンダシステム、自然言語処理等 ◆再帰型ニューラルネットワーク:
RNN(Recurrent Neural Network)
音声の波形、動画、文章等の時系列データを扱う ◆敵対的生成モデル:
GAN(Generative Adversarial Network)
自分で学習モデルを生成し、それを評価し修正することで、 自動学習するネットワークモデル
深層学習( deep learning)法
ルールベース型人工知能
■知識整理および適用型 □発見型および要因解析型機械学習型人工知能
ニューラルネットワーク
深層学習
二種類の人工知能
解決すべき問題点: ・目的解決に適したルール作成 ・ルール間の階層、衝突回避 ・エキスパートの存在必要 解決すべき問題点: ・データ解析上の問題点 過剰適合、偶然相関、クラス 分布、欠損データ、他 ・解析手法の特性/限界 ・解析結果の解釈化学分野での人工知能の歴史と種類
1.計算毒性学における人工知能の歴史
2.データサイエンスとIT技術進歩に伴う変化
①データサイエンスの構成技術
②コンピューターの進歩によるデータサイエンスの変化
③データサイエンスから「化学データサイエンス」へ
3.機械学習型人工知能適用上での解決すべき点
4.次世代型データ解析手法開発の必要性
①KY法の開発
②テーラーメードモデリングの開発
7.化学ビッグデータの構築上での問題点
8.まとめ
□ 講演討論内容
データベース
データ解析手法
解析目的
①データサイエンスの構成技術
多種多様の適用分野
2.データサイエンスとIT技術進歩に伴う変化
ビッグ
データベース
ビッグデータ対応
データ解析手法
解析目的
②コンピューターの進歩によるデータサイエンスの変化
多種多様の適用分野
人工知能
2.データサイエンスとIT技術進歩に伴う変化
化合物関連
データベース
ケモメトリックス
化学関連
解析目的
③データサイエンスから「化学データサイエンス」へ
化学関連の適用分野
化学関連
人工知能
2.データサイエンスとIT技術進歩に伴う変化
1.計算毒性学における人工知能の歴史
2.データサイエンスとIT技術進歩に伴う変化
①データサイエンスの構成技術
②コンピューターの進歩によるデータサイエンスの変化
③データサイエンスから「化学データサイエンス」へ
3.機械学習型人工知能適用上での解決すべき点
4.次世代型データ解析手法開発の必要性
①KY法の開発
②テーラーメードモデリングの開発
7.化学ビッグデータの構築上での問題点
8.まとめ
□ 講演討論内容
□ 機械学習(深層学習)実施上での問題点 ①サンプル数と量 ニューラルネットワークである限り、膨大な数のサンプルが必要 ②サンプルの品質と内容 サンプルは解析目的に従った情報を有する必要がある サンプルはデータの偏りのないことが望ましい *ネガデータサンプルだけの情報で、ポジを検討できない *間違った情報を学習させない⇒ヘイト発言をするロボット ③学習した事や獲得情報以外への適用困難 一秒後の状態認識できない⇒動く自動車の写真解析で一秒後を 予測できない⇒動くものと動かないものを認識する学習必要 ④ネットワーク構造が複雑なので、要因解析ができない *新たな研究や基本原理の解明が出来ない。 *理由がわからないと、結果の保証や適用限界が出来ない
AIを正しく適用し、
信頼性の高い結果を得るために
①サンプル数と量
②サンプルの品質と内容
□ Tox21 DATA Challengeで利用されたデータ
3.機械学習型人工知能適用上での
Applied Methods:
DNNs (Deep Neural Network), SVMs (Tanimoto kernel),
random forests (RF), elastic net (ElNet)
①サンプル数と量:約10,000サンプルデータ ②サンプルの品質と内容:品質と内容は保証済み
□ Tox21 DATA Challenge で総合優勝した グループが行ったデータ解析手法間の 比較結果(cross-validation)
上記条件下でDNNを実施し、従来のデータ解析手法と比較
3.機械学習型人工知能適用上での
解決すべき点
③学習した事や獲得情報以外への適用困難 一秒後の状態認識できない⇒動く自動車の写真解析で一秒後を 予測できない⇒動くものと動かないものを認識する学習必要 *サンプル数が十分であっても、学習で獲得できないものがある
3.機械学習型人工知能適用上での
解決すべき点
④ネットワーク構造が極めて複雑なので、要因解析ができない ・新たな研究や基本原理の解明が出来ない ・理由がわからないと、結果の保証や適用限界が出来ない *ニューラルネットワーク発表当時、構造-活性相関分野では この説明困難な事実が、大きな問題となった
3.機械学習型人工知能適用上での
解決すべき点
1.計算毒性学における人工知能の歴史
2.データサイエンスとIT技術進歩に伴う変化
①データサイエンスの構成技術
②コンピューターの進歩によるデータサイエンスの変化
③データサイエンスから「化学データサイエンス」へ
3.機械学習型人工知能適用上での解決すべき点
4.次世代型データ解析手法開発の必要性
①KY法の開発
②テーラーメードモデリングの開発
7.化学ビッグデータの構築上での問題点
8.まとめ
□ 講演討論内容
4.次世代型データ解析手法開発の必要性
データベース
少数データ
対応
データ解析手法
従来手法
ビッグ
データベース
ビッグデータ
対応
データ解析手法
KY法の展開
テーラーメード
モデリング
ICT, IoT,CPU の急速な進歩 従来のデータ 解析手法では 大量データの 扱いが困難Challenge for
classification and prediction
K-step Yard sampling methods
KY-methods
The most powerful and advanced data analysis method
The most difficult classification problem
6,965 sample of Ames test samples were,
Application test of “
K-step Yard sampling
”
□Samples
1. Ames test data
2. Sample population total :6,965
Mutagen; 2,932
Non-mutagen; 4,033
□Result of KY-method
1. Number of steps : 23 steps ; 22 (2 models) + 1 (1 model) 2.Classification ratio : 100 %
□Used system
ADMEWORKS / ModelBuilder V 3.0.22
□Used parameters (Initial condition)
Number of generated parameters : 838 Number of parameters for step 1 : 98
Application test by
normal and various D.A. methods
3. AdaBoost
Classification ratio : total; 77.24(6965), Mutagen;66.13(2932) Non-mutagen; 85.32(4033) Number of mis-classified : (1585) ( 993) ( 592)
1. Linear discriminant analysis with linear least-squares method
Classification ratio : total; 73.50(6965), Mutagen;73.02(2932), Non mutagen;73.84(4033) Number of mis-classified : (1846), ( 791) (1055) Prediction ratio (L100 out) 72.58% deviance(0.92%)
(L500 out) 73.32% deviance(0.18%)
2. SVM (Support Vector Machine with Kernel)
Classification ratio : total; 90.87(6965), Mutagen;86.83(2932) Non mutagen; 93.80(4033) Number of mis-classified : ( 636), ( 386) ( 250)
Prediction ratio (L500 out) 80.99% deviance(9.88%)
Classification result by the AdaBoost
Mis-classified
Classification ratio of total 6,965 compounds is 77.24%
Correctry-classified
Mis-classified
Classification result by the AdaBoost
Mis-classified
Figure, in the case of a successful complete (100%)
classification of all 6,965 Ames test compounds
Correctry-classified
Mis-classified
◇ KY(K-step Yard sampling)法
■ 二クラス分類KY法:Binary classification KY methods ・二モデルKY法; Two models BC KY method
・一モデルKY法; One model BC KY method ・モデルフリーKY法; Model free BC KY method
■ 重回帰(フィッティング)KY法:Regression KY methods ・判別関数付き重回帰KY法;BC regression KY method ・三ゾーン重回帰KY法;Three zone regression KY method ・モデルフリー重回帰KY法;Model free regression KY method □ クラスタリングKY法; Clustering KY methods
□ 主成分KY法; Principal component KY methods ◇ 現在開発中
・リバーシKY法:二クラス分類の簡略法
・ポピュレーションフリーKY法:ポピュレーション比率の悪い時に適用
◇ビッグデータ対応で、予測率を高める手法
■ 開発目標(1) 高い予測率の実現 ■ 開発目標(2) サンプル数がどんなに大きくなっても、 同じ操作性で、予測率がより安定する手法テーラーメード・モデリングの特徴
■ 開発目標(3) 分類率と予測率の乖離が少ない手法を目指す。4.次世代型データ解析手法開発の必要性
従来手法による予測アプローチ
(Prediction approach by traditional method) 特徴:総てのサンプルを対象とした予測モデルの構築
Features:Generate a prediction model which can handle all samples
サンプル1(Sample 1) サンプル2(Sample 2) サンプル3(Sample 3) サンプル・・・(Sample ・・・) サンプル・・・(Sample ・・・) サンプル(N-1)(Sample (N-1)) サンプルN(Sample N) 予測 モデル (Prediction Model) 予測結果 1 (Result 1) 予測結果2 (Result 2) 予測結果3 (Result 3) 予測結果・・・ (Result ・・・) 予測結果・・・ (Result・・・) 予測結果(N-1) (Result(N-1)) 予測結果 N (Result N)
利点 (Merit) : 少ない数の予測モデル作成で済む (Small number of prediction models are generated )
予測率向上に関する現時点での限界
■ 予測の一般的な実施形態 判別関数は高い汎用性を持つ、 このために予測の切れが 悪くなる。 複数サンプルの予測を保証。 この目的のために、余分な 情報を含み、オーバースペック。一つの判別関数で
多様性の高い複数サンプルの予測実施
メタン、エタンレベルの予測から、ステロイドやマクロライド等までの予測が要求される 予測に無理がある予測率向上のための発想の転換
少ない判別関数で多数のサンプルを予測 予測対象サンプル特異性の無い判別関数による予測サンプル特異性の高い
判別関数を構築
現状でのアプローチ 今回の提案によるアプローチ「テーラーメード・モデリング」
提案
発想転換「テーラーメード・モデリング」の究極の形
特徴:サンプル単位での予測モデルの構築
Features:Generate a prediction model which is designed for only 1 samples
サンプル1(Sample 1) サンプル2(Sample 2) サンプル3(Sample 3) サンプル・・・(Sample ・・・) サンプル・・・ (Sample ・・・) サンプル(N-1)(Sample (N-1)) サンプルN(Sample N) 予測結果1 (Result 1) 予測結果2 (Result 2) 予測結果3 (Result 3) 予測結果・・・ (Result ・・・) 予測結果 ・・・(Result・・・) 予測結果(N-1) (Result(N-1)) 予測結果N (Result N) 予測モデル1(Prediction model 1) 予測モデル2(Prediction model 2) 予測モデル3(Prediction model 3) 予測モデル・・(Prediction model・・) 予測モデル・・(Prediction model・・) 予測モデル(N-1)(Prediction model(N-1)) 予測モデル(N-1)(Prediction model(N-1))
サンプル母集団からの予測用サンプル取り出し
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ◆ ◆ ◆ ◆ ◆ ◆予測対象サンプル 類似サンプル群 サンプル母集団 類似サンプル空間 “似た化合物は似た活性を示す”予測用サンプルの取り出し、
テーラーメード予測
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ X X X X X X X X X X X X X X X X X X X X ◆ ○ ○ ○ ○ ○○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○○ ○ ○ ○ X X X X X X X X X X X X X X X X X X X X X X X X X X X X ◆ 取り出されたサブセットの サンプル空間再構成と、 テーラーメード予測の実施 予測対象サンプルを中心とし、 サンプル母集団からの 類似サンプル群の取り出し サンプル類似空間 サンプル分類空間「テーラーメード・モデリング」の特徴
長所: 1.予測率 基本原理から予測率の向上が期待される(要検証) 2.サンプル数の問題 個々のサンプル単位で予測モデルを構築する。 従って、サンプル数の多少にかかわらず限界に近く、高い予測率を得る 3.KY法との連携でより高い予測率が得られる 分類率で100%を実現するKY法との連携により、 テーラーメード・モデリング単体での実施よりも更に高い予測率を 達成する可能性がある 欠点: 1.分類/予測の実施に計算時間がかかる(スパコン主体?)1.計算毒性学における人工知能の歴史
2.データサイエンスとIT技術進歩に伴う変化
①データサイエンスの構成技術
②コンピューターの進歩によるデータサイエンスの変化
③データサイエンスから「化学データサイエンス」へ
3.機械学習型人工知能適用上での解決すべき点
4.次世代型データ解析手法開発の必要性
①KY法の開発
②テーラーメードモデリングの開発
5.化学ビッグデータ構築上での問題点
6.まとめ
□ 講演討論内容
5.化学ビッグデータ構築上での問題点
□ データベース中のサンプルについて
7.1 データベースに求められる一般的な事項 ①実験プロトコルが統一されているデータが必要 ②クラスサンプルポピュレーションに大きな偏りがないこと ③偏ったデータだけではデータ解析も人工知能学習も意味無し ④解析目的に必要な情報が含まれていること 7.2 データ解析手法の違いによる一般的な事項 ①比較的少数のサンプル群 通常の多変量解析/パターン認識手法を適用する時 ②大量のサンプル群 深層学習を実施する時①実験プロトコルが統一されているデータが必要
*実験プロトコルが異なるデータが多数存在し、データ解析や 機械学習の要求条件を満たしても実際の解析は意味が無いか 収束しなくなる 例:魚毒性関連データ ・文献数は多いが、大半は研究結果発表のため、魚の種類が 文献単位で異なっていることが多い ・文献からデータを集めてビッグデータ化しても使えないDBとなる□データベース中のサンプルについて
②クラスサンプルポピュレーションに大きな偏りがないこと
③偏ったデータは、データ解析も人工知能学習も意味無し
片一方のクラスデータだけで、対立クラスの予測はできない *ネガティブデータの学習でポジティブデータを予測できない□ Tox21で利用されたデータ
□ データベース中のサンプルについて
④解析目的に必要な情報が含まれていること
*適用分野と関係のないサンプルデータは使えない サンプル数を多くすれば良いというわけではない *解析目的に関係するようで関係のない情報がある場合 一般的にはノイズデータ、ノイズサンプルとなる ・サンプルデータそのものの場合は、データ解析実施前に 取り出し必要 ・解析目的に関係するが解析上ノイズとなるサンプル ⇒テーラーメードモデリング(後述)の実施 ・パラメーターに含まれている場合⇒特徴抽出の実施□ データベース中のサンプルについて
6.まとめ
□ データサイエンスの時代は確実にやってくる 情報やコンピューターハードウエアの進歩は止まない □ 新しいデータサイエンス時代に向けた対応が必要 新しいデータサイエンス時代では、データベースのスケール アップ、新規のデータ解析手法の展開に加えて人工知能等が 重要なコア技術となる □ 化学分野では、化学分野の様々な対応を解析目的とする 「化学データサイエンス」の展開が必要 創薬、機能性化合物デザイン、化合物安全性評価その他の 様々な分野で化合物とデジタルの接点が重要となっている □ 「化学データサイエンス」を基本とした基本技術の構成 ①化学ビッグデータベース、②ケモメトリックス、③化学人工知能、 個別の展開と同時に、化学分野全体を見つめた開発が必要 データ量が大きいので、再構築や再解析等は簡単にできない株式会社 インシリコデータ 湯田 浩太郎