• 検索結果がありません。

スライド 1

N/A
N/A
Protected

Academic year: 2021

シェア "スライド 1"

Copied!
47
0
0

読み込み中.... (全文を見る)

全文

(1)

計算毒性学における人工知能、

そして進化する

「化学データサイエンス」への展開

株式会社 インシリコデータ 湯田 浩太郎 CBI学会2018年大会 フォーカストセッション FS-10

(2)

■ ケモメトリックス(chemometrics): 計量化学(化学計量学)とは、数理科学、統計学、機械学習、 パターン認識、データマイニングなどの手法により、(広義の) 化学分野における諸問題を解決しようとする分野である ■ ケモインフォマティクス(cheminformatics): 化学情報学は、コンピュータと情報化技術を用いて化学領域の 問題に適用する方法論である ■ ケモデータサイエンス、化学データサイエンス

(chemodatascience, chemical datascience):

化学データサイエンスとは、化学分野の諸問題についてデータ サイエンス手法を適用して解決を目指す学問分野である

(3)

1.計算毒性学における人工知能の歴史

2.データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

3.機械学習型人工知能適用上での解決すべき点

4.次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

7.化学ビッグデータの構築上での問題点

8.まとめ

□ 講演討論内容

(4)

1.1 計算毒性学(安全性評価)分野での

二大適用技術

多変量解析

パターン認識

人工知能

化学(化合物)

1.計算毒性学における人工知能の歴史

(5)

□ 計算毒性学分野では人工知能が適用されてきた

ルールベース型人工知能

当初より現在まで人工知能が 適用され、実用システムや研究 システムが多数開発済み

機械学習型人工知能

システムとしての実績はないが、 今後の展開が期待されている

1.計算毒性学における人工知能の歴史

現在注目中

機械学習型

(ニューラルネットワーク)

人工知能

当初から現在まで

(6)

現在展開されている毒性予測関連システム

HazardExpert:

CompuDrug Ltd.

RIPT: R

ule

I

nduction for

P

redictive

T

oxicology

DEREK: D

eductive

E

stimation of

R

isk from

E

xisting

K

nowledge:Lhasa Ltd.

◆代謝予測関連支援システム(人工知能) COMPACT,MetaSite,SPORCalc, XENO,MetabolExpert,META,Meteor BESS,CATABOL,UMBBD, PPS,META ◆生分解性予測関連支援システム(人工知能)

(7)

機械学習型

人工知能の全体的歴史と主要トピックス □人工知能に注目させたトピックス:成功事例 □人工知能に注目させたトピックス:失敗事例 □人工知能の歴史 ◆過古の多変量解析/パターン認識と人工知能との関係 ◆現在における多変量解析/パターン認識と人工知能との関係

□ 計算毒性学における人工知能

(8)

□ 成功事例

AlphaGo(アルファ碁)が人間に打ち勝って世界一になった 人間がコンピュータに勝てる最後の分野の神話が崩れた

碁の学習アルゴリズムに深層学習を適用していた

人工知能に注目させたトピックス

■ 失敗事例

人工知能のチャットボット「Tay」がヘイト発言を乱発した Twitter等の内容からヘイト発言を学習してしまった 留意点:学習に使われた対局数が数千万という数に達している サンプル数が少ない場合は成果を期待しにくい

(9)

□ 成功事例

AlphaGo(アルファ碁)が人間に打ち勝って世界一になった 人間がコンピュータに勝てる最後の分野の神話が崩れた

碁の学習アルゴリズムに深層学習を適用していた

人工知能に注目させたトピックス

■ 失敗事例

人工知能のチャットボット「Tay」がヘイト発言を乱発した

Twitter等の内容からヘイト発言を学習してしまった

留意点:人工知能における学習サンプルの重要性

学習内容により人工知能は大きく変化する

(10)

人工知能の歴史

人工知能言語 1958:LISP(List Processor) 1972:Prolog 1994:Python 多変量解析/パターン認識 ルールベース型人工知能 *第五世代コンピュータ(日本) 重回帰、パーセプトロン、PCA、 クラスタリング、他 機械学習発展・新アプローチ ニューラルネットワーク、 遺伝的アルゴリズム、ファジイ、 深層学習開発/展開

新世代

人工知能

(11)

多変量解析/パターン認識

様々な データ解析手法 クラス分類 フィッティング マッピング クラスタリング 他

既存のルール

人工知能

ルールベース型

多変量解析/パターン認識と人工知能は

互いに独立している

過古の多変量解析/パターン認識と人工知能との関係

(12)

現在

における多変量解析/パターン認識と 人工知能との関係

多変量解析/パターン認識

様々な データ解析手法 クラス分類 フィッティング マッピング クラスタリング 他

人工知能

多変量解析/パターン認識と人工知能は

既存のルール

(特化型、汎用型)

発見された

新ルール

機械学習

機械学習により繋がっている

ビッグデータ 深層学習 (DNN, CNN,RNN)

(13)

◆畳み込みニューラルネットワーク: CNN(Convolutional Neural Network)

画像・動画認識やレコメンダシステム、自然言語処理等 ◆再帰型ニューラルネットワーク:

RNN(Recurrent Neural Network)

音声の波形、動画、文章等の時系列データを扱う ◆敵対的生成モデル:

GAN(Generative Adversarial Network)

自分で学習モデルを生成し、それを評価し修正することで、 自動学習するネットワークモデル

深層学習( deep learning)法

(14)

ルールベース型人工知能

■知識整理および適用型 □発見型および要因解析型

機械学習型人工知能

ニューラルネットワーク

深層学習

二種類の人工知能

解決すべき問題点: ・目的解決に適したルール作成 ・ルール間の階層、衝突回避 ・エキスパートの存在必要 解決すべき問題点: ・データ解析上の問題点 過剰適合、偶然相関、クラス 分布、欠損データ、他 ・解析手法の特性/限界 ・解析結果の解釈

化学分野での人工知能の歴史と種類

(15)

1.計算毒性学における人工知能の歴史

2.データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

3.機械学習型人工知能適用上での解決すべき点

4.次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

7.化学ビッグデータの構築上での問題点

8.まとめ

□ 講演討論内容

(16)

データベース

データ解析手法

解析目的

①データサイエンスの構成技術

多種多様の適用分野

2.データサイエンスとIT技術進歩に伴う変化

(17)

ビッグ

データベース

ビッグデータ対応

データ解析手法

解析目的

②コンピューターの進歩によるデータサイエンスの変化

多種多様の適用分野

人工知能

2.データサイエンスとIT技術進歩に伴う変化

(18)

化合物関連

データベース

ケモメトリックス

化学関連

解析目的

③データサイエンスから「化学データサイエンス」へ

化学関連の適用分野

化学関連

人工知能

2.データサイエンスとIT技術進歩に伴う変化

(19)

1.計算毒性学における人工知能の歴史

2.データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

3.機械学習型人工知能適用上での解決すべき点

4.次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

7.化学ビッグデータの構築上での問題点

8.まとめ

□ 講演討論内容

(20)

□ 機械学習(深層学習)実施上での問題点 ①サンプル数と量 ニューラルネットワークである限り、膨大な数のサンプルが必要 ②サンプルの品質と内容 サンプルは解析目的に従った情報を有する必要がある サンプルはデータの偏りのないことが望ましい *ネガデータサンプルだけの情報で、ポジを検討できない *間違った情報を学習させない⇒ヘイト発言をするロボット ③学習した事や獲得情報以外への適用困難 一秒後の状態認識できない⇒動く自動車の写真解析で一秒後を 予測できない⇒動くものと動かないものを認識する学習必要 ④ネットワーク構造が複雑なので、要因解析ができない *新たな研究や基本原理の解明が出来ない。 *理由がわからないと、結果の保証や適用限界が出来ない

AIを正しく適用し、

信頼性の高い結果を得るために

(21)

①サンプル数と量

②サンプルの品質と内容

□ Tox21 DATA Challengeで利用されたデータ

3.機械学習型人工知能適用上での

(22)

Applied Methods:

DNNs (Deep Neural Network), SVMs (Tanimoto kernel),

random forests (RF), elastic net (ElNet)

①サンプル数と量:約10,000サンプルデータ ②サンプルの品質と内容:品質と内容は保証済み

□ Tox21 DATA Challenge で総合優勝した グループが行ったデータ解析手法間の 比較結果(cross-validation)

上記条件下でDNNを実施し、従来のデータ解析手法と比較

3.機械学習型人工知能適用上での

解決すべき点

(23)

③学習した事や獲得情報以外への適用困難 一秒後の状態認識できない⇒動く自動車の写真解析で一秒後を 予測できない⇒動くものと動かないものを認識する学習必要 *サンプル数が十分であっても、学習で獲得できないものがある

3.機械学習型人工知能適用上での

解決すべき点

(24)

④ネットワーク構造が極めて複雑なので、要因解析ができない ・新たな研究や基本原理の解明が出来ない ・理由がわからないと、結果の保証や適用限界が出来ない *ニューラルネットワーク発表当時、構造-活性相関分野では この説明困難な事実が、大きな問題となった

3.機械学習型人工知能適用上での

解決すべき点

(25)

1.計算毒性学における人工知能の歴史

2.データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

3.機械学習型人工知能適用上での解決すべき点

4.次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

7.化学ビッグデータの構築上での問題点

8.まとめ

□ 講演討論内容

(26)

4.次世代型データ解析手法開発の必要性

データベース

少数データ

対応

データ解析手法

従来手法

ビッグ

データベース

ビッグデータ

対応

データ解析手法

KY法の展開

テーラーメード

モデリング

ICT, IoT,CPU の急速な進歩 従来のデータ 解析手法では 大量データの 扱いが困難

(27)

Challenge for

classification and prediction

K-step Yard sampling methods

KY-methods

The most powerful and advanced data analysis method

The most difficult classification problem

6,965 sample of Ames test samples were,

(28)

Application test of “

K-step Yard sampling

□Samples

1. Ames test data

2. Sample population total :6,965

Mutagen; 2,932

Non-mutagen; 4,033

□Result of KY-method

1. Number of steps : 23 steps ; 22 (2 models) + 1 (1 model) 2.Classification ratio : 100 %

□Used system

ADMEWORKS / ModelBuilder V 3.0.22

□Used parameters (Initial condition)

Number of generated parameters : 838 Number of parameters for step 1 : 98

(29)

Application test by

normal and various D.A. methods

3. AdaBoost

Classification ratio : total; 77.24(6965), Mutagen;66.13(2932) Non-mutagen; 85.32(4033) Number of mis-classified : (1585) ( 993) ( 592)

1. Linear discriminant analysis with linear least-squares method

Classification ratio : total; 73.50(6965), Mutagen;73.02(2932), Non mutagen;73.84(4033) Number of mis-classified : (1846), ( 791) (1055) Prediction ratio (L100 out) 72.58% deviance(0.92%)

(L500 out) 73.32% deviance(0.18%)

2. SVM (Support Vector Machine with Kernel)

Classification ratio : total; 90.87(6965), Mutagen;86.83(2932) Non mutagen; 93.80(4033) Number of mis-classified : ( 636), ( 386) ( 250)

Prediction ratio (L500 out) 80.99% deviance(9.88%)

(30)

Classification result by the AdaBoost

Mis-classified

Classification ratio of total 6,965 compounds is 77.24%

Correctry-classified

Mis-classified

(31)

Classification result by the AdaBoost

Mis-classified

Figure, in the case of a successful complete (100%)

classification of all 6,965 Ames test compounds

Correctry-classified

Mis-classified

(32)

◇ KY(K-step Yard sampling)法

■ 二クラス分類KY法:Binary classification KY methods ・二モデルKY法; Two models BC KY method

・一モデルKY法; One model BC KY method ・モデルフリーKY法; Model free BC KY method

■ 重回帰(フィッティング)KY法:Regression KY methods ・判別関数付き重回帰KY法;BC regression KY method ・三ゾーン重回帰KY法;Three zone regression KY method ・モデルフリー重回帰KY法;Model free regression KY method □ クラスタリングKY法; Clustering KY methods

□ 主成分KY法; Principal component KY methods ◇ 現在開発中

・リバーシKY法:二クラス分類の簡略法

・ポピュレーションフリーKY法:ポピュレーション比率の悪い時に適用

(33)

◇ビッグデータ対応で、予測率を高める手法

■ 開発目標(1) 高い予測率の実現 ■ 開発目標(2) サンプル数がどんなに大きくなっても、 同じ操作性で、予測率がより安定する手法

テーラーメード・モデリングの特徴

■ 開発目標(3) 分類率と予測率の乖離が少ない手法を目指す。

4.次世代型データ解析手法開発の必要性

(34)

従来手法による予測アプローチ

(Prediction approach by traditional method) 特徴:総てのサンプルを対象とした予測モデルの構築

Features:Generate a prediction model which can handle all samples

サンプル1(Sample 1) サンプル2(Sample 2) サンプル3(Sample 3) サンプル・・・(Sample ・・・) サンプル・・・(Sample ・・・) サンプル(N-1)(Sample (N-1)) サンプルN(Sample N) 予測 モデル (Prediction Model) 予測結果 1 (Result 1) 予測結果2 (Result 2) 予測結果3 (Result 3) 予測結果・・・ (Result ・・・) 予測結果・・・ (Result・・・) 予測結果(N-1) (Result(N-1)) 予測結果 N (Result N)

利点 (Merit) : 少ない数の予測モデル作成で済む (Small number of prediction models are generated )

(35)

予測率向上に関する現時点での限界

■ 予測の一般的な実施形態 判別関数は高い汎用性を持つ、 このために予測の切れが 悪くなる。 複数サンプルの予測を保証。 この目的のために、余分な 情報を含み、オーバースペック。

一つの判別関数で

多様性の高い複数サンプルの予測実施

メタン、エタンレベルの予測から、ステロイドやマクロライド等までの予測が要求される 予測に無理がある

(36)

予測率向上のための発想の転換

少ない判別関数で多数のサンプルを予測 予測対象サンプル特異性の無い判別関数による予測

サンプル特異性の高い

判別関数を構築

現状でのアプローチ 今回の提案によるアプローチ

「テーラーメード・モデリング」

提案

発想転換

(37)

「テーラーメード・モデリング」の究極の形

特徴:サンプル単位での予測モデルの構築

Features:Generate a prediction model which is designed for only 1 samples

サンプル1(Sample 1) サンプル2(Sample 2) サンプル3(Sample 3) サンプル・・・(Sample ・・・) サンプル・・・ (Sample ・・・) サンプル(N-1)(Sample (N-1)) サンプルN(Sample N) 予測結果1 (Result 1) 予測結果2 (Result 2) 予測結果3 (Result 3) 予測結果・・・ (Result ・・・) 予測結果 ・・・(Result・・・) 予測結果(N-1) (Result(N-1)) 予測結果N (Result N) 予測モデル1(Prediction model 1) 予測モデル2(Prediction model 2) 予測モデル3(Prediction model 3) 予測モデル・・(Prediction model・・) 予測モデル・・(Prediction model・・) 予測モデル(N-1)(Prediction model(N-1)) 予測モデル(N-1)(Prediction model(N-1))

(38)

サンプル母集団からの予測用サンプル取り出し

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ◆ ◆ ◆ ◆ ◆ ◆予測対象サンプル 類似サンプル群 サンプル母集団 類似サンプル空間 “似た化合物は似た活性を示す”

(39)

予測用サンプルの取り出し、

テーラーメード予測

○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ X X X X X X X X X X X X X X X X X X X X ◆ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○○ ○ ○ ○ X X X X X X X X X X X X X X X X X X X X X X X X X X X X ◆ 取り出されたサブセットの サンプル空間再構成と、 テーラーメード予測の実施 予測対象サンプルを中心とし、 サンプル母集団からの 類似サンプル群の取り出し サンプル類似空間 サンプル分類空間

(40)

「テーラーメード・モデリング」の特徴

長所: 1.予測率 基本原理から予測率の向上が期待される(要検証) 2.サンプル数の問題 個々のサンプル単位で予測モデルを構築する。 従って、サンプル数の多少にかかわらず限界に近く、高い予測率を得る 3.KY法との連携でより高い予測率が得られる 分類率で100%を実現するKY法との連携により、 テーラーメード・モデリング単体での実施よりも更に高い予測率を 達成する可能性がある 欠点: 1.分類/予測の実施に計算時間がかかる(スパコン主体?)

(41)

1.計算毒性学における人工知能の歴史

2.データサイエンスとIT技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ

3.機械学習型人工知能適用上での解決すべき点

4.次世代型データ解析手法開発の必要性

①KY法の開発

②テーラーメードモデリングの開発

5.化学ビッグデータ構築上での問題点

6.まとめ

□ 講演討論内容

(42)

5.化学ビッグデータ構築上での問題点

□ データベース中のサンプルについて

7.1 データベースに求められる一般的な事項 ①実験プロトコルが統一されているデータが必要 ②クラスサンプルポピュレーションに大きな偏りがないこと ③偏ったデータだけではデータ解析も人工知能学習も意味無し ④解析目的に必要な情報が含まれていること 7.2 データ解析手法の違いによる一般的な事項 ①比較的少数のサンプル群 通常の多変量解析/パターン認識手法を適用する時 ②大量のサンプル群 深層学習を実施する時

(43)

①実験プロトコルが統一されているデータが必要

*実験プロトコルが異なるデータが多数存在し、データ解析や 機械学習の要求条件を満たしても実際の解析は意味が無いか 収束しなくなる 例:魚毒性関連データ ・文献数は多いが、大半は研究結果発表のため、魚の種類が 文献単位で異なっていることが多い ・文献からデータを集めてビッグデータ化しても使えないDBとなる

□データベース中のサンプルについて

(44)

②クラスサンプルポピュレーションに大きな偏りがないこと

③偏ったデータは、データ解析も人工知能学習も意味無し

片一方のクラスデータだけで、対立クラスの予測はできない *ネガティブデータの学習でポジティブデータを予測できない

□ Tox21で利用されたデータ

□ データベース中のサンプルについて

(45)

④解析目的に必要な情報が含まれていること

*適用分野と関係のないサンプルデータは使えない サンプル数を多くすれば良いというわけではない *解析目的に関係するようで関係のない情報がある場合 一般的にはノイズデータ、ノイズサンプルとなる ・サンプルデータそのものの場合は、データ解析実施前に 取り出し必要 ・解析目的に関係するが解析上ノイズとなるサンプル ⇒テーラーメードモデリング(後述)の実施 ・パラメーターに含まれている場合⇒特徴抽出の実施

□ データベース中のサンプルについて

(46)

6.まとめ

□ データサイエンスの時代は確実にやってくる 情報やコンピューターハードウエアの進歩は止まない □ 新しいデータサイエンス時代に向けた対応が必要 新しいデータサイエンス時代では、データベースのスケール アップ、新規のデータ解析手法の展開に加えて人工知能等が 重要なコア技術となる □ 化学分野では、化学分野の様々な対応を解析目的とする 「化学データサイエンス」の展開が必要 創薬、機能性化合物デザイン、化合物安全性評価その他の 様々な分野で化合物とデジタルの接点が重要となっている □ 「化学データサイエンス」を基本とした基本技術の構成 ①化学ビッグデータベース、②ケモメトリックス、③化学人工知能、 個別の展開と同時に、化学分野全体を見つめた開発が必要 データ量が大きいので、再構築や再解析等は簡単にできない

(47)

株式会社 インシリコデータ 湯田 浩太郎

参照

関連したドキュメント

「技術力」と「人間力」を兼ね備えた人材育成に注力し、専門知識や技術の教育によりファシリ

技師長 主任技師 技師A 技師B 技師C 技術員 技師長 主任技師 技師A 技師B 技師C 技術員 河川構造物設計 樋門設計

また、第1号技能実習から第2号技能実習への移行には技能検定基礎級又は技

近年の食品産業の発展に伴い、食品の製造加工技術の多様化、流通の広域化が進む中、乳製品等に

`XML' framework, and must deˆne the identity of the word over the name-space in the RDF (Resource Description Framework) ˆle corresponding to the datasheet. Once such the deˆnition

 工学の目的は社会における課題の解決で す。現代社会の課題は複雑化し、柔軟、再構

人間は科学技術を発達させ、より大きな力を獲得してきました。しかし、現代の科学技術によっても、自然の世界は人間にとって未知なことが

浦田( 2011