スライド 1

(1)

計算毒性学における人工知能、

そして進化する

「化学データサイエンス」への展開

株式会社インシリコデータ湯田浩太郎ＣＢＩ学会２０１８年大会フォーカストセッション FS-10

(2)

■ ケモメトリックス(chemometrics)： 計量化学（化学計量学）とは、数理科学、統計学、機械学習、パターン認識、データマイニングなどの手法により、（広義の）化学分野における諸問題を解決しようとする分野である ■ ケモインフォマティクス(cheminformatics)： 化学情報学は、コンピュータと情報化技術を用いて化学領域の問題に適用する方法論である ■ ケモデータサイエンス、化学データサイエンス

(chemodatascience, chemical datascience)：

化学データサイエンスとは、化学分野の諸問題についてデータサイエンス手法を適用して解決を目指す学問分野である

(3)

１．計算毒性学における人工知能の歴史

２．データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

３．機械学習型人工知能適用上での解決すべき点

４．次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

７．化学ビッグデータの構築上での問題点

８．まとめ

□ 講演討論内容

(4)

１．１計算毒性学（安全性評価）分野での

二大適用技術

多変量解析

パターン認識

人工知能

化学（化合物）

１．計算毒性学における人工知能の歴史

(5)

□ 計算毒性学分野では人工知能が適用されてきた

ルールベース型人工知能

当初より現在まで人工知能が適用され、実用システムや研究システムが多数開発済み

機械学習型人工知能

システムとしての実績はないが、今後の展開が期待されている

１．計算毒性学における人工知能の歴史

現在注目中

機械学習型

（ニューラルネットワーク）

人工知能

当初から現在まで

(6)

現在展開されている毒性予測関連システム

HazardExpert:

CompuDrug Ltd.

RIPT: R

ule

I

nduction for

P

redictive

T

oxicology

DEREK: D

eductive

E

stimation of

R

isk from

E

xisting

K

nowledge：Lhasa Ltd.

◆代謝予測関連支援システム（人工知能）ＣＯＭＰＡＣＴ，ＭｅｔａＳｉｔｅ，ＳＰＯＲＣａｌｃ，ＸＥＮＯ，ＭｅｔａｂｏｌＥｘｐｅｒｔ，ＭＥＴＡ，ＭｅｔｅｏｒＢＥＳＳ，ＣＡＴＡＢＯＬ，ＵＭＢＢＤ，ＰＰＳ，ＭＥＴＡ ◆生分解性予測関連支援システム（人工知能）

(7)

□

機械学習型

人工知能の全体的歴史と主要トピックス □人工知能に注目させたトピックス：成功事例 □人工知能に注目させたトピックス：失敗事例 □人工知能の歴史 ◆過古_{の多変量解析/パターン認識と人工知能との関係} ◆現在_{における多変量解析/パターン認識と人工知能との関係}

□ 計算毒性学における人工知能

(8)

□ 成功事例

AlphaGo（アルファ碁）が人間に打ち勝って世界一になった 人間がコンピュータに勝てる最後の分野の神話が崩れた

碁の学習アルゴリズムに深層学習を適用していた

人工知能に注目させたトピックス

■ 失敗事例

人工知能のチャットボット「Tay」がヘイト発言を乱発した Twitter等の内容からヘイト発言を学習してしまった 留意点：学習に使われた対局数が数千万という数に達しているサンプル数が少ない場合は成果を期待しにくい

(9)

□ 成功事例

AlphaGo（アルファ碁）が人間に打ち勝って世界一になった 人間がコンピュータに勝てる最後の分野の神話が崩れた

碁の学習アルゴリズムに深層学習を適用していた

人工知能に注目させたトピックス

■ 失敗事例

人工知能のチャットボット「Tay」がヘイト発言を乱発した

Twitter等の内容からヘイト発言を学習してしまった

留意点：人工知能における学習サンプルの重要性

学習内容により人工知能は大きく変化する

(10)

人工知能の歴史

人工知能言語 1958:LISP(List Processor) 1972:Prolog 1994:Python 多変量解析/パターン認識 ルールベース型人工知能＊第五世代コンピュータ（日本）重回帰、パーセプトロン、ＰＣＡ、クラスタリング、他機械学習発展・新アプローチニューラルネットワーク、遺伝的アルゴリズム、ファジイ、深層学習開発／展開

新世代

人工知能

(11)

多変量解析/パターン認識

様々なデータ解析手法クラス分類フィッティングマッピングクラスタリング他

既存のルール

人工知能

ルールベース型

多変量解析/パターン認識と人工知能は

互いに独立している

過古_{の多変量解析/パターン認識と人工知能との関係}

(12)

現在

における多変量解析/パターン認識と 人工知能との関係

多変量解析/パターン認識

様々なデータ解析手法クラス分類フィッティングマッピングクラスタリング他

人工知能

多変量解析/パターン認識と人工知能は

既存のルール

（特化型、汎用型）

発見された

新ルール

機械学習

機械学習により繋がっている

ビッグデータ深層学習 (DNN, CNN,RNN)

(13)

◆畳み込みニューラルネットワーク：ＣＮＮ（Convolutional Neural Network）

画像・動画認識やレコメンダシステム、自然言語処理等 ◆再帰型ニューラルネットワーク：

RNN（Recurrent Neural Network）

音声の波形、動画、文章等の時系列データを扱う ◆敵対的生成モデル：

GAN（Generative Adversarial Network）

自分で学習モデルを生成し、それを評価し修正することで、自動学習するネットワークモデル

深層学習（ deep learning）法

(14)

ルールベース型人工知能

■知識整理および適用型 □発見型および要因解析型

機械学習型人工知能

ニューラルネットワーク

深層学習

二種類の人工知能

解決すべき問題点：・目的解決に適したルール作成・ルール間の階層、衝突回避・エキスパートの存在必要解決すべき問題点：・データ解析上の問題点過剰適合、偶然相関、クラス分布、欠損データ、他・解析手法の特性／限界・解析結果の解釈

化学分野での人工知能の歴史と種類

(15)

１．計算毒性学における人工知能の歴史

２．データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

３．機械学習型人工知能適用上での解決すべき点

４．次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

７．化学ビッグデータの構築上での問題点

８．まとめ

□ 講演討論内容

(16)

データベース

データ解析手法

解析目的

①データサイエンスの構成技術

多種多様の適用分野

２．データサイエンスとIT技術進歩に伴う変化

(17)

ビッグ

データベース

ビッグデータ対応

データ解析手法

解析目的

②コンピューターの進歩によるデータサイエンスの変化

多種多様の適用分野

人工知能

２．データサイエンスとIT技術進歩に伴う変化

(18)

化合物関連

データベース

ケモメトリックス

化学関連

解析目的

③データサイエンスから「化学データサイエンス」へ

化学関連の適用分野

化学関連

人工知能

２．データサイエンスとIT技術進歩に伴う変化

(19)

１．計算毒性学における人工知能の歴史

２．データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

３．機械学習型人工知能適用上での解決すべき点

４．次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

７．化学ビッグデータの構築上での問題点

８．まとめ

□ 講演討論内容

(20)

□ 機械学習（深層学習）実施上での問題点 ①サンプル数と量ニューラルネットワークである限り、膨大な数のサンプルが必要 ②サンプルの品質と内容サンプルは解析目的に従った情報を有する必要があるサンプルはデータの偏りのないことが望ましい＊ネガデータサンプルだけの情報で、ポジを検討できない＊間違った情報を学習させない⇒ヘイト発言をするロボット ③学習した事や獲得情報以外への適用困難一秒後の状態認識できない⇒動く自動車の写真解析で一秒後を予測できない⇒動くものと動かないものを認識する学習必要 ④ネットワーク構造が複雑なので、要因解析ができない＊新たな研究や基本原理の解明が出来ない。＊理由がわからないと、結果の保証や適用限界が出来ない

AIを正しく適用し、

信頼性の高い結果を得るために

(21)

①サンプル数と量

②サンプルの品質と内容

□ Tox21 DATA Challengeで利用されたデータ

３．機械学習型人工知能適用上での

(22)

Applied Methods:

DNNs (Deep Neural Network), SVMs (Tanimoto kernel),

random forests (RF), elastic net (ElNet)

①サンプル数と量：約１０，０００サンプルデータ ②サンプルの品質と内容：品質と内容は保証済み

□ Tox21 DATA Challenge で総合優勝したグループが行ったデータ解析手法間の比較結果（cross-validation)

上記条件下でDNNを実施し、従来のデータ解析手法と比較

３．機械学習型人工知能適用上での

解決すべき点

(23)

③学習した事や獲得情報以外への適用困難一秒後の状態認識できない⇒動く自動車の写真解析で一秒後を予測できない⇒動くものと動かないものを認識する学習必要＊サンプル数が十分であっても、学習で獲得できないものがある

３．機械学習型人工知能適用上での

解決すべき点

(24)

④ネットワーク構造が極めて複雑なので、要因解析ができない・新たな研究や基本原理の解明が出来ない・理由がわからないと、結果の保証や適用限界が出来ない＊ニューラルネットワーク発表当時、構造－活性相関分野ではこの説明困難な事実が、大きな問題となった

３．機械学習型人工知能適用上での

解決すべき点

(25)

１．計算毒性学における人工知能の歴史

２．データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

３．機械学習型人工知能適用上での解決すべき点

４．次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

７．化学ビッグデータの構築上での問題点

８．まとめ

□ 講演討論内容

(26)

４．次世代型データ解析手法開発の必要性

データベース

少数データ

対応

データ解析手法

従来手法

ビッグ

データベース

ビッグデータ

対応

データ解析手法

KY法の展開

テーラーメード

モデリング

ICT, IoT,CPU の急速な進歩従来のデータ解析手法では大量データの扱いが困難

(27)

Challenge for

classification and prediction

K-step Yard sampling methods

ＫＹ-methods

The most powerful and advanced data analysis method

The most difficult classification problem

6,965 sample of Ames test samples were,

(28)

Application test of “

K-step Yard sampling

”

□Samples

1. Ames test data

2. Sample population total :6,965

Mutagen; 2,932

Non-mutagen; 4,033

□Result of KY-method

1. Number of steps : 23 steps ; 22 (2 models) + 1 (1 model) 2.Classification ratio : 100 %

□Used system

ADMEWORKS / ModelBuilder V 3.0.22

□Used parameters (Initial condition)

Number of generated parameters : 838 Number of parameters for step 1 : 98

(29)

Application test by

normal and various D.A. methods

3. AdaBoost

Classification ratio : total; 77.24(6965), Mutagen;66.13(2932) Non-mutagen; 85.32(4033) Number of mis-classified : (1585) ( 993) ( 592)

1. Linear discriminant analysis with linear least-squares method

Classification ratio : total; 73.50(6965), Mutagen;73.02(2932), Non mutagen;73.84(4033) Number of mis-classified : (1846), ( 791) (1055) Prediction ratio (L100 out) 72.58% deviance(0.92%)

(L500 out) 73.32% deviance(0.18%)

2. SVM (Support Vector Machine with Kernel)

Classification ratio : total; 90.87(6965), Mutagen;86.83(2932) Non mutagen; 93.80(4033) Number of mis-classified : ( 636), ( 386) ( 250)

Prediction ratio (L500 out) 80.99% deviance(9.88%）

(30)

Classification result by the AdaBoost

Mis-classified

Classification ratio of total 6,965 compounds is 77.24%

Correctry-classified

Mis-classified

(31)

Classification result by the AdaBoost

Mis-classified

Figure, in the case of a successful complete (100%)

classification of all 6,965 Ames test compounds

Correctry-classified

Mis-classified

(32)

◇ KY（K-step Yard sampling)法

■ 二クラス分類ＫＹ法：Binary classification KY methods ・二モデルＫＹ法； Two models BC KY method

・一モデルＫＹ法； One model BC KY method ・モデルフリーＫＹ法； Model free BC KY method

■ 重回帰（フィッティング）ＫＹ法：Regression KY methods ・判別関数付き重回帰ＫＹ法；BC regression KY method ・三ゾーン重回帰ＫＹ法；Three zone regression KY method ・モデルフリー重回帰ＫＹ法；Model free regression KY method □ クラスタリングＫＹ法； Clustering KY methods

□ 主成分ＫＹ法； Principal component KY methods ◇ 現在開発中

・リバーシKY法：二クラス分類の簡略法

・ポピュレーションフリーKY法：ポピュレーション比率の悪い時に適用

(33)

◇ビッグデータ対応で、予測率を高める手法

■ 開発目標（１）高い予測率の実現 ■ 開発目標（２）サンプル数がどんなに大きくなっても、同じ操作性で、予測率がより安定する手法

テーラーメード・モデリングの特徴

■ 開発目標（３）分類率と予測率の乖離が少ない手法を目指す。

４．次世代型データ解析手法開発の必要性

(34)

従来手法による予測アプローチ

(Prediction approach by traditional method) 特徴：総てのサンプルを対象とした予測モデルの構築

Features:Generate a prediction model which can handle all samples

サンプル１(Sample 1) サンプル２(Sample 2) サンプル３(Sample 3) サンプル・・・(Sample ・・・) サンプル・・・(Sample ・・・) サンプル（Ｎ－１）(Sample (N-1)) サンプルＮ(Sample N) 予測モデル (Prediction Model) 予測結果１ (Result 1) 予測結果２ (Result 2) 予測結果３ (Result 3) 予測結果・・・ (Result ・・・) 予測結果・・・ (Result・・・) 予測結果(N-1) (Result(N-1)) 予測結果 N (Result N)

利点 (Merit) ：少ない数の予測モデル作成で済む（Small number of prediction models are generated ）

(35)

予測率向上に関する現時点での限界

■ 予測の一般的な実施形態判別関数は高い汎用性を持つ、このために予測の切れが悪くなる。複数サンプルの予測を保証。この目的のために、余分な情報を含み、オーバースペック。

一つの判別関数で

多様性の高い複数サンプルの予測実施

メタン、エタンレベルの予測から、ステロイドやマクロライド等までの予測が要求される予測に無理がある

(36)

予測率向上のための発想の転換

少ない判別関数で多数のサンプルを予測予測対象サンプル特異性の無い判別関数による予測

サンプル特異性の高い

判別関数を構築

現状でのアプローチ今回の提案によるアプローチ

「テーラーメード・モデリング」

提案

発想転換

(37)

「テーラーメード・モデリング」の究極の形

特徴：サンプル単位での予測モデルの構築

Features:Generate a prediction model which is designed for only 1 samples

サンプル１(Sample 1) サンプル２(Sample 2) サンプル３(Sample 3) サンプル・・・(Sample ・・・) サンプル・・・ (Sample ・・・) サンプル（Ｎ－１）(Sample (N-1)) サンプルＮ(Sample N) 予測結果１ (Result 1) 予測結果２ (Result 2) 予測結果３ (Result 3) 予測結果・・・ (Result ・・・) 予測結果・・・(Result・・・) 予測結果(N-1) (Result(N-1)) 予測結果N (Result N) 予測モデル１(Prediction model 1) 予測モデル2(Prediction model 2) 予測モデル３(Prediction model ３) 予測モデル・・(Prediction model・・) 予測モデル・・(Prediction model・・) 予測モデル(N-1)(Prediction model(N-1)) 予測モデル(N-1)(Prediction model(N-1))

(38)

サンプル母集団からの予測用サンプル取り出し

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ _○ _○ ＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸ ◆ ◆ ◆ ◆ ◆ ◆予測対象サンプル類似サンプル群サンプル母集団類似サンプル空間 “似た化合物は似た活性を示す”

(39)

予測用サンプルの取り出し、

テーラーメード予測

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸ ◆ ○ ○ ○ _○ ○_○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ _○ ○ ○ ○ ○ ○ ○○ ○ ○ ○ ＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸＸ ◆ 取り出されたサブセットのサンプル空間再構成と、テーラーメード予測の実施予測対象サンプルを中心とし、サンプル母集団からの類似サンプル群の取り出しサンプル類似空間サンプル分類空間

(40)

「テーラーメード・モデリング」の特徴

長所：１．予測率基本原理から予測率の向上が期待される（要検証）２．サンプル数の問題個々のサンプル単位で予測モデルを構築する。従って、サンプル数の多少にかかわらず限界に近く、高い予測率を得る３．ＫＹ法との連携でより高い予測率が得られる分類率で１００％を実現するＫＹ法との連携により、テーラーメード・モデリング単体での実施よりも更に高い予測率を達成する可能性がある欠点：１．分類／予測の実施に計算時間がかかる（スパコン主体？）

(41)

１．計算毒性学における人工知能の歴史

２．データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

３．機械学習型人工知能適用上での解決すべき点

４．次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

５．化学ビッグデータ構築上での問題点

６．まとめ

□ 講演討論内容

(42)

５．化学ビッグデータ構築上での問題点

□ データベース中のサンプルについて

７．１データベースに求められる一般的な事項 ①実験プロトコルが統一されているデータが必要 ②クラスサンプルポピュレーションに大きな偏りがないこと ③偏ったデータだけではデータ解析も人工知能学習も意味無し ④解析目的に必要な情報が含まれていること７．２データ解析手法の違いによる一般的な事項 ①比較的少数のサンプル群通常の多変量解析／パターン認識手法を適用する時 ②大量のサンプル群深層学習を実施する時

(43)

①実験プロトコルが統一されているデータが必要

＊実験プロトコルが異なるデータが多数存在し、データ解析や機械学習の要求条件を満たしても実際の解析は意味が無いか収束しなくなる例：魚毒性関連データ・文献数は多いが、大半は研究結果発表のため、魚の種類が文献単位で異なっていることが多い・文献からデータを集めてビッグデータ化しても使えないDBとなる

□データベース中のサンプルについて

(44)

②クラスサンプルポピュレーションに大きな偏りがないこと

③偏ったデータは、データ解析も人工知能学習も意味無し

片一方のクラスデータだけで、対立クラスの予測はできない＊ネガティブデータの学習でポジティブデータを予測できない

□ Tox21で利用されたデータ

□ データベース中のサンプルについて

(45)

④解析目的に必要な情報が含まれていること

＊適用分野と関係のないサンプルデータは使えないサンプル数を多くすれば良いというわけではない＊解析目的に関係するようで関係のない情報がある場合一般的にはノイズデータ、ノイズサンプルとなる・サンプルデータそのものの場合は、データ解析実施前に取り出し必要・解析目的に関係するが解析上ノイズとなるサンプル ⇒テーラーメードモデリング（後述）の実施・パラメーターに含まれている場合⇒特徴抽出の実施

□ データベース中のサンプルについて

(46)

６．まとめ

□ データサイエンスの時代は確実にやってくる情報やコンピューターハードウエアの進歩は止まない □ 新しいデータサイエンス時代に向けた対応が必要新しいデータサイエンス時代では、データベースのスケールアップ、新規のデータ解析手法の展開に加えて人工知能等が重要なコア技術となる □ 化学分野では、化学分野の様々な対応を解析目的とする「化学データサイエンス」の展開が必要創薬、機能性化合物デザイン、化合物安全性評価その他の様々な分野で化合物とデジタルの接点が重要となっている □ 「化学データサイエンス」を基本とした基本技術の構成 ①化学ビッグデータベース、②ケモメトリックス、③化学人工知能、個別の展開と同時に、化学分野全体を見つめた開発が必要データ量が大きいので、再構築や再解析等は簡単にできない

(47)

株式会社インシリコデータ湯田浩太郎

スライド 1

計算毒性学における人工知能、

そして進化する

「化学データサイエンス」への展開

１．計算毒性学における人工知能の歴史

２．データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

３．機械学習型人工知能適用上での解決すべき点

４．次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

７．化学ビッグデータの構築上での問題点

８．まとめ

□ 講演討論内容

１．１ 計算毒性学（安全性評価）分野での

二大適用技術

多変量解析

パターン認識

人工知能

化学（化合物）

１．計算毒性学における人工知能の歴史

□ 計算毒性学分野では人工知能が適用されてきた

ルールベース型人工知能

機械学習型人工知能

１．計算毒性学における人工知能の歴史

現在注目中

機械学習型

（ニューラルネットワーク）

人工知能

当初から現在まで

現在展開されている毒性予測関連システム

HazardExpert:

RIPT: R

ule

I

nduction for

P

redictive

T

oxicology

DEREK: D

eductive

E

stimation of

R

isk from

E

xisting

K

nowledge：Lhasa Ltd.

機械学習型

□ 計算毒性学における人工知能

□ 成功事例

碁の学習アルゴリズムに深層学習を適用していた

人工知能に注目させたトピックス

■ 失敗事例

□ 成功事例

碁の学習アルゴリズムに深層学習を適用していた

人工知能に注目させたトピックス

■ 失敗事例

Twitter等の内容からヘイト発言を学習してしまった

留意点：人工知能における学習サンプルの重要性

学習内容により人工知能は大きく変化する

人工知能の歴史

新世代

人工知能

多変量解析/パターン認識

既存のルール

人工知能

ルールベース型

互いに独立している

現在

多変量解析/パターン認識

人工知能

既存のルール

（特化型、汎用型）

発見された

新ルール

１．１計算毒性学（安全性評価）分野での