Correctry- Correctry-classified

Mis-classified

Correctry-classified

Classification result by the AdaBoost

Mis-classified

Figure, in the case of a successful complete (100%) classification of all 6,965 Ames test compounds

Correctry-classified

Mis-classified

Correctry-classified

◇ KY （ K-step Yard sampling) 法

■ 二クラス分類ＫＹ法：

Binary classification KY methods

・二モデルＫＹ法；

Two models BC KY method

・一モデルＫＹ法；

One model BC KY method

・モデルフリーＫＹ法；

Model free BC KY method

■ 重回帰（フィッティング）ＫＹ法：

Regression KY methods

・判別関数付き重回帰ＫＹ法；

BC regression KY method

・三ゾーン重回帰ＫＹ法；

Three zone regression KY method

・モデルフリー重回帰ＫＹ法；

Model free regression KY method

□ クラスタリングＫＹ法；

Clustering KY methods

□ 主成分ＫＹ法；

Principal component KY methods

◇ 現在開発中

・リバーシ

KY

法：二クラス分類の簡略法

・ポピュレーションフリー

KY

法：ポピュレーション比率の悪い時に適用

◇ テーラーメードモデリング（ Tailor made modeling ）

◇ビッグデータ対応で、予測率を高める手法

■ 開発目標（１）

高い予測率の実現

■ 開発目標（２）

サンプル数がどんなに大きくなっても、

同じ操作性で、予測率がより安定する手法

テーラーメード・モデリングの特徴

■ 開発目標（３）

分類率と予測率の乖離が少ない手法を目指す。

４．次世代型データ解析手法開発の必要性

従来手法による予測アプローチ

(Prediction approach by traditional method)

特徴：総てのサンプルを対象とした予測モデルの構築

Features:Generate a prediction model which can handle all samples

サンプル１

(Sample 1)

サンプル２

(Sample 2)

サンプル３(Sample 3)

サンプル・・・(Sample ・・・)

サンプル・・・

(Sample

・・・

)

サンプル（Ｎ－１）

(Sample (N-1))

サンプルＮ

(Sample N)

予測モデル

(Prediction Model)

予測結果１

(Result 1)

予測結果２

(Result 2)

予測結果３

(Result 3)

予測結果・・・

(Result ・・・)

予測結果・・・

(Result

・・・

)

予測結果

(N-1) (Result(N-1))

予測結果

N (Result N)

利点

(Merit)

：少ない数の予測モデル作成で済む（

Small number of prediction models are generated

）

高い汎用性

予測率向上に関する現時点での限界

■ 予測の一般的な実施形態

判別関数は高い汎用性を持つ、

このために予測の切れが悪くなる。

複数サンプルの予測を保証。

この目的のために、余分な

情報を含み、オーバースペック。

一つの判別関数で

多様性の高い複数サンプルの予測実施

メタン、エタンレベルの予測から、ステロイドやマクロライド等までの予測が要求される予測に無理がある

予測率向上のための発想の転換

少ない判別関数で多数のサンプルを予測

予測対象サンプル特異性の無い判別関数による予測

サンプル特異性の高い判別関数を構築

現状でのアプローチ

今回の提案によるアプローチ

「テーラーメード・モデリング」

提案

発想転換

「テーラーメード・モデリング」の究極の形

特徴：サンプル単位での予測モデルの構築

Features:Generate a prediction model which is designed for only 1 samples

サンプル１(Sample 1)

サンプル２

(Sample 2)

サンプル３(Sample 3)

サンプル・・・(Sample ・・・)

サンプル・・・

(Sample

・・・

)

サンプル（Ｎ－１）

(Sample (N-1))

サンプルＮ

(Sample N)

予測結果１

(Result 1)

予測結果２

(Result 2)

予測結果３

(Result 3)

予測結果・・・

(Result ・・・)

予測結果・・・

(Result

・・・

)

予測結果

(N-1) (Result(N-1))

予測結果N (Result N) 予測モデル１

(Prediction model 1)

予測モデル

2(Prediction model 2)

予測モデル３

(Prediction model

３

)

予測モデル・・(Prediction model・・)

予測モデル・・

(Prediction model

・・

)

予測モデル

(N-1)(Prediction model(N-1))

予測モデル

(N-1)(Prediction model(N-1))

利点

(Merit)

：予測率が大幅に向上する（

High prediction ratio will be achieved

）

サンプル母集団からの予測用サンプル取り出し

○

○ ○ ○

○ ○

○

○ ○

○

○ ○

○

○ ○

○

○ ○ ○

○

○ ○

○

○ ○

○

○○ ○

○

○ ○ ○ ＸＸ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

ＸＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸＸ

Ｘ

ＸＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

◆

◆ ◆

◆

◆予測対象サンプル類似サンプル群

サンプル母集団類似サンプル空間

“

似た化合物は似た活性を示す”

予測用サンプルの取り出し、テーラーメード予測

○

○ ○

○

ＸＸＸ

Ｘ

ＸＸＸ

ＸＸ

Ｘ

ＸＸＸＸ

Ｘ

ＸＸ

Ｘ

ＸＸ

◆

○ ○

○○○○

○

○ ○

○

○ ○

○

○ ○

○ ○○

○ ○

○

Ｘ

ＸＸＸＸ

ＸＸＸ

ＸＸ

ＸＸＸＸ

Ｘ

ＸＸＸＸＸＸ

ＸＸＸ

Ｘ

◆

取り出されたサブセットのサンプル空間再構成と、

テーラーメード予測の実施

予測対象サンプルを中心とし、

サンプル母集団からの類似サンプル群の取り出し

サンプル類似空間サンプル分類空間

「テーラーメード・モデリング」の特徴

長所：

１．予測率

基本原理から予測率の向上が期待される（要検証）

２．サンプル数の問題

個々のサンプル単位で予測モデルを構築する。

従って、サンプル数の多少にかかわらず限界に近く、高い予測率を得る

３．ＫＹ法との連携でより高い予測率が得られる

分類率で１００％を実現するＫＹ法との連携により、

テーラーメード・モデリング単体での実施よりも更に高い予測率を達成する可能性がある

欠点：

１．分類／予測の実施に計算時間がかかる（スパコン主体？）

１．計算毒性学における人工知能の歴史

２．データサイエンスと IT 技術進歩に伴う変化

①データサイエンスの構成技術

②コンピューターの進歩によるデータサイエンスの変化

③データサイエンスから「化学データサイエンス」へ３．機械学習型人工知能適用上での解決すべき点４．次世代型データ解析手法開発の必要性

① KY 法の開発

②テーラーメードモデリングの開発

５．化学ビッグデータ構築上での問題点６．まとめ

□ 講演討論内容

５．化学ビッグデータ構築上での問題点

□ データベース中のサンプルについて

７．１データベースに求められる一般的な事項

①実験プロトコルが統一されているデータが必要

②クラスサンプルポピュレーションに大きな偏りがないこと

③偏ったデータだけではデータ解析も人工知能学習も意味無し

④解析目的に必要な情報が含まれていること

７．２データ解析手法の違いによる一般的な事項

①比較的少数のサンプル群

通常の多変量解析／パターン認識手法を適用する時

②大量のサンプル群

深層学習を実施する時

①実験プロトコルが統一されているデータが必要

＊実験プロトコルが異なるデータが多数存在し、データ解析や機械学習の要求条件を満たしても実際の解析は意味が無いか収束しなくなる

例：魚毒性関連データ

・文献数は多いが、大半は研究結果発表のため、魚の種類が文献単位で異なっていることが多い

・文献からデータを集めてビッグデータ化しても使えない

DB

となる

□データベース中のサンプルについて

②クラスサンプルポピュレーションに大きな偏りがないこと

③偏ったデータは、データ解析も人工知能学習も意味無し

片一方のクラスデータだけで、対立クラスの予測はできない

＊ネガティブデータの学習でポジティブデータを予測できない

□ Tox21 で利用されたデータ

□ データベース中のサンプルについて

④解析目的に必要な情報が含まれていること

＊適用分野と関係のないサンプルデータは使えないサンプル数を多くすれば良いというわけではない

＊解析目的に関係するようで関係のない情報がある場合一般的にはノイズデータ、ノイズサンプルとなる

・サンプルデータそのものの場合は、データ解析実施前に取り出し必要

・解析目的に関係するが解析上ノイズとなるサンプル

⇒テーラーメードモデリング（後述）の実施

・パラメーターに含まれている場合⇒特徴抽出の実施

□ データベース中のサンプルについて

６．まとめ

□ データサイエンスの時代は確実にやってくる

情報やコンピューターハードウエアの進歩は止まない

□ 新しいデータサイエンス時代に向けた対応が必要

新しいデータサイエンス時代では、データベースのスケールアップ、新規のデータ解析手法の展開に加えて人工知能等が重要なコア技術となる

□ 化学分野では、化学分野の様々な対応を解析目的とする

「化学データサイエンス」の展開が必要

創薬、機能性化合物デザイン、化合物安全性評価その他の様々な分野で化合物とデジタルの接点が重要となっている

□ 「化学データサイエンス」を基本とした基本技術の構成

①化学ビッグデータベース、②ケモメトリックス、③化学人工知能、

個別の展開と同時に、化学分野全体を見つめた開発が必要データ量が大きいので、再構築や再解析等は簡単にできない

ドキュメント内スライド 1 (ページ 30-47)

Correctry- Correctry-classified

Mis-classified

Correctry-classified

Classification result by the AdaBoost

Mis-classified

Figure, in the case of a successful complete (100%) classification of all 6,965 Ames test compounds

Correctry-classified

Mis-classified

Correctry-classified

◇ KY （ K-step Yard sampling) 法

Binary classification KY methods

Two models BC KY method

One model BC KY method

Model free BC KY method

Regression KY methods

BC regression KY method

Three zone regression KY method

Model free regression KY method

Clustering KY methods

Principal component KY methods

KY

KY

◇ テーラーメードモデリング（ Tailor made modeling ）

◇ビッグデータ対応で、予測率を高める手法

テーラーメード・モデリングの特徴

４．次世代型データ解析手法開発の必要性

従来手法による予測アプローチ

(Prediction approach by traditional method)

Features:Generate a prediction model which can handle all samples

(Sample 1)

(Sample 2)

(Sample

)

(Sample (N-1))

(Sample N)

(Prediction Model)

(Result 1)

(Result 2)

(Result 3)

(Result ・・・)

(Result

)

(N-1) (Result(N-1))

N (Result N)

(Merit)

Small number of prediction models are generated

予測率向上に関する現時点での限界

一つの判別関数で

多様性の高い複数サンプルの予測実施

予測率向上のための発想の転換

サンプル特異性の高い 判別関数を構築

「テーラーメード・モデリング」

提案

「テーラーメード・モデリング」の究極の形

Features:Generate a prediction model which is designed for only 1 samples

(Sample 2)

(Sample

)

(Sample (N-1))

(Sample N)

(Result 1)

(Result 2)

(Result 3)

(Result ・・・)

(Result

)

(N-1) (Result(N-1))

(Prediction model 1)

2(Prediction model 2)

(Prediction model

)

(Prediction model

)

(N-1)(Prediction model(N-1))

(N-1)(Prediction model(N-1))

(Merit)

High prediction ratio will be achieved

サンプル母集団からの予測用サンプル取り出し

◆ ◆

◆

サンプル特異性の高い判別関数を構築

③データサイエンスから「化学データサイエンス」へ３．機械学習型人工知能適用上での解決すべき点４．次世代型データ解析手法開発の必要性

５．化学ビッグデータ構築上での問題点６．まとめ