Correctry- Correctry-classified

In document スライド 1 (Page 30-47)

Mis-classified

Correctry-classified

Classification result by the AdaBoost

Mis-classified

Figure, in the case of a successful complete (100%) classification of all 6,965 Ames test compounds

Correctry-classified

Mis-classified

Correctry-classified

◇ KY ( K-step Yard sampling) 法

■ 二クラス分類KY法:

Binary classification KY methods

・二モデルKY法;

Two models BC KY method

・一モデルKY法;

One model BC KY method

・モデルフリーKY法;

Model free BC KY method

■ 重回帰(フィッティング)KY法:

Regression KY methods

・判別関数付き重回帰KY法;

BC regression KY method

・三ゾーン重回帰KY法;

Three zone regression KY method

・モデルフリー重回帰KY法;

Model free regression KY method

□ クラスタリングKY法;

Clustering KY methods

□ 主成分KY法;

Principal component KY methods

◇ 現在開発中

・リバーシ

KY

法:二クラス分類の簡略法

・ポピュレーションフリー

KY

法:ポピュレーション比率の悪い時に適用

◇ テーラーメードモデリング( Tailor made modeling )

◇ビッグデータ対応で、予測率を高める手法

■ 開発目標(1)

高い予測率の実現

■ 開発目標(2)

サンプル数がどんなに大きくなっても、

同じ操作性で、予測率がより安定する手法

テーラーメード・モデリングの特徴

■ 開発目標(3)

分類率と予測率の乖離が少ない手法を目指す。

4.次世代型データ解析手法開発の必要性

従来手法による予測アプローチ

(Prediction approach by traditional method)

特徴:総てのサンプルを対象とした予測モデルの構築

Features:Generate a prediction model which can handle all samples

サンプル1

(Sample 1)

サンプル2

(Sample 2)

サンプル3(Sample 3)

サンプル・・・(Sample ・・・)

サンプル・・・

(Sample

・・・

)

サンプル(N-1)

(Sample (N-1))

サンプルN

(Sample N)

予測 モデル

(Prediction Model)

予測結果 1

(Result 1)

予測結果2

(Result 2)

予測結果3

(Result 3)

予測結果・・・

(Result ・・・)

予測結果・・・

(Result

・・・

)

予測結果

(N-1) (Result(N-1))

予測結果

N (Result N)

利点

(Merit)

: 少ない数の予測モデル作成で済む (

Small number of prediction models are generated

高い汎用性

予測率向上に関する現時点での限界

■ 予測の一般的な実施形態

判別関数は高い汎用性を持つ、

このために予測の切れが 悪くなる。

複数サンプルの予測を保証。

この目的のために、余分な

情報を含み、オーバースペック。

一つの判別関数で

多様性の高い複数サンプルの予測実施

メタン、エタンレベルの予測から、ステロイドやマクロライド等までの予測が要求される 予測に無理がある

予測率向上のための発想の転換

少ない判別関数で多数のサンプルを予測

予測対象サンプル特異性の無い判別関数による予測

サンプル特異性の高い 判別関数を構築

現状でのアプローチ

今回の提案によるアプローチ

「テーラーメード・モデリング」

提案

発想転換

「テーラーメード・モデリング」の究極の形

特徴:サンプル単位での予測モデルの構築

Features:Generate a prediction model which is designed for only 1 samples

サンプル1(Sample 1)

サンプル2

(Sample 2)

サンプル3(Sample 3)

サンプル・・・(Sample ・・・)

サンプル・・・

(Sample

・・・

)

サンプル(N-1)

(Sample (N-1))

サンプルN

(Sample N)

予測結果1

(Result 1)

予測結果2

(Result 2)

予測結果3

(Result 3)

予測結果・・・

(Result ・・・)

予測結果 ・・・

(Result

・・・

)

予測結果

(N-1) (Result(N-1))

予測結果N (Result N) 予測モデル1

(Prediction model 1)

予測モデル

2(Prediction model 2)

予測モデル3

(Prediction model

)

予測モデル・・(Prediction model・・)

予測モデル・・

(Prediction model

・・

)

予測モデル

(N-1)(Prediction model(N-1))

予測モデル

(N-1)(Prediction model(N-1))

利点

(Merit)

: 予測率が大幅に向上する (

High prediction ratio will be achieved

サンプル母集団からの予測用サンプル取り出し

○ ○ ○

○ ○

○ ○

○ ○

○ ○

○ ○

○ ○ ○

○ ○

○ ○

○ ○

○○ ○

○ ○ ○ X X

X X

X X

X X

X X X

X X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X

X X X

X X X

X X

X X

◆ ◆

◆予測対象サンプル 類似サンプル群

サンプル母集団 類似サンプル空間

似た化合物は似た活性を示す”

予測用サンプルの取り出し、テーラーメード予測

○ ○

○ ○

X X X

X X X

X X

X X X X

X X

X X

○ ○

○○○○

○ ○

○ ○

○ ○

○ ○○

○ ○

X XX X

XX X

X X

X X X X

X X X X X X

X X X

X X X

取り出されたサブセットの サンプル空間再構成と、

テーラーメード予測の実施

予測対象サンプルを中心とし、

サンプル母集団からの 類似サンプル群の取り出し

サンプル類似空間 サンプル分類空間

「テーラーメード・モデリング」の特徴

長所:

1.予測率

基本原理から予測率の向上が期待される(要検証)

2.サンプル数の問題

個々のサンプル単位で予測モデルを構築する。

従って、サンプル数の多少にかかわらず限界に近く、高い予測率を得る

3.KY法との連携でより高い予測率が得られる

分類率で100%を実現するKY法との連携により、

テーラーメード・モデリング単体での実施よりも更に高い予測率を 達成する可能性がある

欠点:

1.分類/予測の実施に計算時間がかかる(スパコン主体?)

1.計算毒性学における人工知能の歴史

2.データサイエンスと IT 技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ 3.機械学習型人工知能適用上での解決すべき点 4.次世代型データ解析手法開発の必要性

① KY 法の開発

②テーラーメードモデリングの開発

5.化学ビッグデータ構築上での問題点 6.まとめ

□ 講演討論内容

5.化学ビッグデータ構築上での問題点

□ データベース中のサンプルについて

7.1 データベースに求められる一般的な事項

①実験プロトコルが統一されているデータが必要

②クラスサンプルポピュレーションに大きな偏りがないこと

③偏ったデータだけではデータ解析も人工知能学習も意味無し

④解析目的に必要な情報が含まれていること

7.2 データ解析手法の違いによる一般的な事項

①比較的少数のサンプル群

通常の多変量解析/パターン認識手法を適用する時

②大量のサンプル群

深層学習を実施する時

①実験プロトコルが統一されているデータが必要

*実験プロトコルが異なるデータが多数存在し、データ解析や 機械学習の要求条件を満たしても実際の解析は意味が無いか 収束しなくなる

例:魚毒性関連データ

・文献数は多いが、大半は研究結果発表のため、魚の種類が 文献単位で異なっていることが多い

・文献からデータを集めてビッグデータ化しても使えない

DB

となる

□データベース中のサンプルについて

②クラスサンプルポピュレーションに大きな偏りがないこと

③偏ったデータは、データ解析も人工知能学習も意味無し

片一方のクラスデータだけで、対立クラスの予測はできない

*ネガティブデータの学習でポジティブデータを予測できない

□ Tox21 で利用されたデータ

□ データベース中のサンプルについて

④解析目的に必要な情報が含まれていること

*適用分野と関係のないサンプルデータは使えない サンプル数を多くすれば良いというわけではない

*解析目的に関係するようで関係のない情報がある場合 一般的にはノイズデータ、ノイズサンプルとなる

・サンプルデータそのものの場合は、データ解析実施前に 取り出し必要

・解析目的に関係するが解析上ノイズとなるサンプル

⇒テーラーメードモデリング(後述)の実施

・パラメーターに含まれている場合⇒特徴抽出の実施

□ データベース中のサンプルについて

6.まとめ

□ データサイエンスの時代は確実にやってくる

情報やコンピューターハードウエアの進歩は止まない

□ 新しいデータサイエンス時代に向けた対応が必要

新しいデータサイエンス時代では、データベースのスケール アップ、新規のデータ解析手法の展開に加えて人工知能等が 重要なコア技術となる

□ 化学分野では、化学分野の様々な対応を解析目的とする

「化学データサイエンス」の展開が必要

創薬、機能性化合物デザイン、化合物安全性評価その他の 様々な分野で化合物とデジタルの接点が重要となっている

□ 「化学データサイエンス」を基本とした基本技術の構成

①化学ビッグデータベース、②ケモメトリックス、③化学人工知能、

個別の展開と同時に、化学分野全体を見つめた開発が必要 データ量が大きいので、再構築や再解析等は簡単にできない

In document スライド 1 (Page 30-47)

Related documents