Mis-classified
Correctry-classified
Classification result by the AdaBoost
Mis-classified
Figure, in the case of a successful complete (100%) classification of all 6,965 Ames test compounds
Correctry-classified
Mis-classified
Correctry-classified
◇ KY ( K-step Yard sampling) 法
■ 二クラス分類KY法:
Binary classification KY methods
・二モデルKY法;
Two models BC KY method
・一モデルKY法;
One model BC KY method
・モデルフリーKY法;
Model free BC KY method
■ 重回帰(フィッティング)KY法:
Regression KY methods
・判別関数付き重回帰KY法;
BC regression KY method
・三ゾーン重回帰KY法;
Three zone regression KY method
・モデルフリー重回帰KY法;
Model free regression KY method
□ クラスタリングKY法;
Clustering KY methods
□ 主成分KY法;
Principal component KY methods
◇ 現在開発中
・リバーシ
KY
法:二クラス分類の簡略法・ポピュレーションフリー
KY
法:ポピュレーション比率の悪い時に適用◇ テーラーメードモデリング( Tailor made modeling )
◇ビッグデータ対応で、予測率を高める手法
■ 開発目標(1)
高い予測率の実現
■ 開発目標(2)
サンプル数がどんなに大きくなっても、
同じ操作性で、予測率がより安定する手法
テーラーメード・モデリングの特徴
■ 開発目標(3)
分類率と予測率の乖離が少ない手法を目指す。
4.次世代型データ解析手法開発の必要性
従来手法による予測アプローチ
(Prediction approach by traditional method)
特徴:総てのサンプルを対象とした予測モデルの構築
Features:Generate a prediction model which can handle all samples
サンプル1
(Sample 1)
サンプル2
(Sample 2)
サンプル3(Sample 3)
サンプル・・・(Sample ・・・)
サンプル・・・
(Sample
・・・)
サンプル(N-1)
(Sample (N-1))
サンプルN
(Sample N)
予測 モデル
(Prediction Model)
予測結果 1
(Result 1)
予測結果2
(Result 2)
予測結果3
(Result 3)
予測結果・・・
(Result ・・・)
予測結果・・・
(Result
・・・)
予測結果
(N-1) (Result(N-1))
予測結果
N (Result N)
利点
(Merit)
: 少ない数の予測モデル作成で済む (Small number of prediction models are generated
)高い汎用性
予測率向上に関する現時点での限界
■ 予測の一般的な実施形態
判別関数は高い汎用性を持つ、
このために予測の切れが 悪くなる。
複数サンプルの予測を保証。
この目的のために、余分な
情報を含み、オーバースペック。
一つの判別関数で
多様性の高い複数サンプルの予測実施
メタン、エタンレベルの予測から、ステロイドやマクロライド等までの予測が要求される 予測に無理がある
予測率向上のための発想の転換
少ない判別関数で多数のサンプルを予測
予測対象サンプル特異性の無い判別関数による予測
サンプル特異性の高い 判別関数を構築
現状でのアプローチ
今回の提案によるアプローチ
「テーラーメード・モデリング」
提案
発想転換
「テーラーメード・モデリング」の究極の形
特徴:サンプル単位での予測モデルの構築
Features:Generate a prediction model which is designed for only 1 samples
サンプル1(Sample 1)
サンプル2
(Sample 2)
サンプル3(Sample 3)
サンプル・・・(Sample ・・・)
サンプル・・・
(Sample
・・・)
サンプル(N-1)
(Sample (N-1))
サンプルN
(Sample N)
予測結果1
(Result 1)
予測結果2
(Result 2)
予測結果3
(Result 3)
予測結果・・・
(Result ・・・)
予測結果 ・・・
(Result
・・・)
予測結果
(N-1) (Result(N-1))
予測結果N (Result N) 予測モデル1
(Prediction model 1)
予測モデル
2(Prediction model 2)
予測モデル3(Prediction model
3)
予測モデル・・(Prediction model・・)
予測モデル・・
(Prediction model
・・)
予測モデル
(N-1)(Prediction model(N-1))
予測モデル(N-1)(Prediction model(N-1))
利点
(Merit)
: 予測率が大幅に向上する (High prediction ratio will be achieved
)サンプル母集団からの予測用サンプル取り出し
○
○
○
○
○
○
○
○ ○ ○
○ ○
○ ○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○ ○
○
○
○ ○
○
○ ○
○
○
○
○
○
○
○ ○ ○
○
○
○
○
○ ○
○
○
○ ○
○ ○
○
○
○
○○ ○
○
○
○ ○ ○ X X
X X
X
X X
X
X
X X
X X X
X X X
X
X X
X
X X
X
X X
X
X X
X
X X
X
X X
X
X
X
X
X
X X
X X
X
X X
X X
X
X X
X X
X X
X X
X
X X
X
X X
X X
X
X X
X X
X X
X X
X
X X X
X
X X X
X
X X
X
X
X X
◆
◆ ◆
◆
◆
◆予測対象サンプル 類似サンプル群
サンプル母集団 類似サンプル空間
“
似た化合物は似た活性を示す”予測用サンプルの取り出し、テーラーメード予測
○
○
○
○
○
○
○ ○
○ ○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
X X X
X
X X X
X X
X
X X X X
X
X X
X
X X
◆
○ ○
○○○○
○
○
○
○
○
○
○
○ ○
○
○ ○
○
○
○ ○
○ ○○
○ ○
○
X
X XX X
XX X
X X
X X X X
X
X X X X X X
X X X
X X X
X
◆
取り出されたサブセットの サンプル空間再構成と、
テーラーメード予測の実施
予測対象サンプルを中心とし、
サンプル母集団からの 類似サンプル群の取り出し
サンプル類似空間 サンプル分類空間
「テーラーメード・モデリング」の特徴
長所:
1.予測率
基本原理から予測率の向上が期待される(要検証)
2.サンプル数の問題
個々のサンプル単位で予測モデルを構築する。
従って、サンプル数の多少にかかわらず限界に近く、高い予測率を得る
3.KY法との連携でより高い予測率が得られる
分類率で100%を実現するKY法との連携により、
テーラーメード・モデリング単体での実施よりも更に高い予測率を 達成する可能性がある
欠点:
1.分類/予測の実施に計算時間がかかる(スパコン主体?)
1.計算毒性学における人工知能の歴史
2.データサイエンスと IT 技術進歩に伴う変化
①データサイエンスの構成技術
②コンピューターの進歩によるデータサイエンスの変化
③データサイエンスから「化学データサイエンス」へ 3.機械学習型人工知能適用上での解決すべき点 4.次世代型データ解析手法開発の必要性
① KY 法の開発
②テーラーメードモデリングの開発
5.化学ビッグデータ構築上での問題点 6.まとめ
□ 講演討論内容
5.化学ビッグデータ構築上での問題点
□ データベース中のサンプルについて
7.1 データベースに求められる一般的な事項
①実験プロトコルが統一されているデータが必要
②クラスサンプルポピュレーションに大きな偏りがないこと
③偏ったデータだけではデータ解析も人工知能学習も意味無し
④解析目的に必要な情報が含まれていること
7.2 データ解析手法の違いによる一般的な事項
①比較的少数のサンプル群
通常の多変量解析/パターン認識手法を適用する時
②大量のサンプル群
深層学習を実施する時
①実験プロトコルが統一されているデータが必要
*実験プロトコルが異なるデータが多数存在し、データ解析や 機械学習の要求条件を満たしても実際の解析は意味が無いか 収束しなくなる
例:魚毒性関連データ
・文献数は多いが、大半は研究結果発表のため、魚の種類が 文献単位で異なっていることが多い
・文献からデータを集めてビッグデータ化しても使えない
DB
となる□データベース中のサンプルについて
②クラスサンプルポピュレーションに大きな偏りがないこと
③偏ったデータは、データ解析も人工知能学習も意味無し
片一方のクラスデータだけで、対立クラスの予測はできない
*ネガティブデータの学習でポジティブデータを予測できない
□ Tox21 で利用されたデータ
□ データベース中のサンプルについて
④解析目的に必要な情報が含まれていること
*適用分野と関係のないサンプルデータは使えない サンプル数を多くすれば良いというわけではない
*解析目的に関係するようで関係のない情報がある場合 一般的にはノイズデータ、ノイズサンプルとなる
・サンプルデータそのものの場合は、データ解析実施前に 取り出し必要
・解析目的に関係するが解析上ノイズとなるサンプル
⇒テーラーメードモデリング(後述)の実施
・パラメーターに含まれている場合⇒特徴抽出の実施
□ データベース中のサンプルについて
6.まとめ
□ データサイエンスの時代は確実にやってくる
情報やコンピューターハードウエアの進歩は止まない
□ 新しいデータサイエンス時代に向けた対応が必要
新しいデータサイエンス時代では、データベースのスケール アップ、新規のデータ解析手法の展開に加えて人工知能等が 重要なコア技術となる
□ 化学分野では、化学分野の様々な対応を解析目的とする
「化学データサイエンス」の展開が必要
創薬、機能性化合物デザイン、化合物安全性評価その他の 様々な分野で化合物とデジタルの接点が重要となっている
□ 「化学データサイエンス」を基本とした基本技術の構成
①化学ビッグデータベース、②ケモメトリックス、③化学人工知能、
個別の展開と同時に、化学分野全体を見つめた開発が必要 データ量が大きいので、再構築や再解析等は簡単にできない