人工化合物を用いたディープラーニングによる変異原性の予測

(1)

人工化合物を用いたディープラーニングによる変異原性の予測

Prediction of Mutagenicity by Deep Learning

Pretrained with Artificial Chemical Compounds

桃田侑典

1 ∗

_{猪口明博}

1 Yusuke Momoda

1 Akihiro Inokuchi

1

1 _{関西学院大学大学院理工学研究科}

1 _{Graduate School of Science and Technology, Kwansei Gakuin University}

Abstract:

In this paper, we tackle a problem of predicting mutagenicities of chemical compounds using a

neural network. In learning of neural networks, a large amount of training data is indispensable, and

over-fitting often occurs when learning is done with small training data. In this paper, we attempt to solve these

drawbacks by pre-training with artificial chemical compounds. Our method using the artificial compounds

is based on transfer learning and it can obtain structural information for the compounds through pre-training

with the artificial compounds. The method achieved prediction accuracy of 86.01% using a real-world

dataset on the mutagenicity.

1 はじめに

がんによる死亡者数は年々増加しており，その原因

と治療法の研究が進められている．発がんの主な要因

は生活習慣であると考えられているが，一方で発がん

を誘発する化学物質の影響が指摘されている．

医薬品の開発など，細胞に作用し生物活性を発現す

る化学物質の探索の需要は大きい．発がん性のような遺

伝毒性や ADME（Absorption, Distribution, Metabolism,

Excretion）のような薬物動態など，作用機序が複雑で

よくわからない生物活性について，定量的構造活性相

関（Quantitative Structure Activity Relationship : QSAR）

として定量的に構造から活性を特徴付ける統計的技術

が研究されてきた [1]．主な生物活性として変異原性が

挙げられる．変異原性とは，化学物質が細胞あるいは

微生物の遺伝物質（DNA，染色体）の量，あるいは構

造の不可逆的な変化を誘発する性質のことである．変

異原性の見られる化合物には発がん性がある可能性が

高いとされており，変異原性を調べることは発がん性

の可能性のある物質を見つけ出すことに役立つと考え

られ，医薬品の変異原性試験が求められている．

近年注目されているデータ解析手法として，ディー

プラーニングが挙げられる．ディープラーニングは画像

認識や音声認識，人工知能などで従来の手法よりも高

い精度で目的変量を分類できると言われている．ディー

プラーニングという言葉はさまざまな意味を持ち，そ

∗

_{連絡先：関西学院大学理工学部情報科学科}

〒 669-1337 兵庫県三田市学園 2-1

E-mail: [email protected]

れぞれ形の異なったディープラーニングがある．本稿で

はパーセプトロンを起源としたニューラルネットワー

クという意味で用いるが，他にも制約ボルツマンマシ

ンを起源としたディープビリーフネットワークやディー

プボルツマンマシンとしての意味もある．

本研究では，分子構造の変異原活性をデータ解析で

分類する．また，変異原性のデータ MUTAG のデータ

形式は 188 個の化合物の分子構造（グラフデータ）に

対して変異原性の陰陽があり，それらはすべてニトロ

ベンゼンを含んでいる．

しかし，MUTAG のサンプル数が少ないため，ディー

プラーニングの学習中に過学習が起こる可能性があり，

適切に学習できないという課題がある．マルチタスク

ニューラルネットワーク [2] では，分類したい活性と

似た活性を持つ化合物のデータを入力として併用する

ことで精度を向上させた．本研究では，人工化合物を

用いた事前学習を行う手法を提案する．人工化合物の

データは存在しうる化合物の分子構造のみのものであ

り，変異原性の陰陽は持たない．この人工化合物デー

タを用い，目的変量の必要ないオートエンコーダによ

る事前学習を行う．

2 化合物の分類

1 節で変異原性を持つ化合物は発がん性を持つ可能

性があると述べた．現在，数百から数千の医薬品が研

究・開発されている．しかし，それらすべてに対して変

異原性を化学的な実験をにより検証すると，膨大な時

人工知能学会研究会資料

SIG-KBS-B801-02

(2)

+

1

2

D1ωφϫλόϩωαοϱ

E৿وԿ߻෼

1

2

5 +

図 1: N-ニトロソノルニコチンと新規化合物

間とコストがかかる．ここで，計算機によって短時間

かつ低コストで分析をすることが考えられる．変異原

性未知の化合物のグラフデータに対して，変異原性を

分類するので，グラフ分類問題である．類似する部分

構造を持つ化合物同士には共通の特性を持つ可能性が

高いという分子類似性を基に，分子構造から性質を分

類できると考えられる．例えば，図 1(a) の N-ニトロソ

ノルニコチンは，タバコなどに含まれていて，がんを

引き起こす原因があり，変異原性があると知られてい

る．ここで，図 1(b) のような新規化合物が発見された

として，変異原性があるかどうか調べたいとする．こ

の時，N-ニトロソノルニコチンと新規化合物は構造が

等しい大きな部分構造を含んでいるため，新規化合物

は変異原性があると分類できる．このように，化合物

の部分構造の有無を利用して変異原性を分類する．

3 問題定義

本稿ではグラフは g = (V, E, Σ, ℓ) と表す．ここで，

V は頂点集合，E は辺集合，Σ は頂点ラベルの集合で

ある．また，ℓ : V

∪ E → Σ はグラフの頂点にラベルを

割り当てる関数とする．頂点 v に隣接する頂点の集合

を N (v) =

{u | (v, u) ∈ E}，頂点集合 V

′

_{⊆ V の各頂}

点のラベルからなるラベル多重集合を L(V

′

) =

{ℓ(v) |

v

∈ V

′

} とする．

MUTAG データの化合物の分子構造は構造式で与え

られる．化合物の分子構造をグラフで表現するとき，頂

点は原子，辺は原子間の結合関係，頂点ラベルは原子

の種類，辺ラベルは原子間の結合関係の種類として表

す．結合関係の種類は単結合，二重結合，三重結合，芳

香族結合など化学結合の種類である．また，原子間の

順序関係はないため無向グラフである．

MUTAG データは表 1 のように表せる．表 1 の化合物

は模式的に表されており，変異原性は 1 が陽性，

−1 が

陰性である．MUTAG データ D は 188 個のサンプルか

らなり，それぞれのサンプルはグラフ g（構造式から変

表 1: 変異原性データ

グラフデータ g

変異原性 t

1 −1

−1

..

.

..

.

1 換されたもの）に対して変異原性の陰陽 t

∈ {+1, −1}

があるので，以下のように表現できる．

D =

{(g

1 , t

1 ), (g

2 , t

2 ),

· · · , (g

188 , t

188 )

}

(1)

本研究の目的は，未知のグラフ g を入力とし，変異原

性の陰陽 t を正確に分類し出力する関数 f を MUTAG

データから学習することである．

ˆ

t = f (g)

(2)

本研究では，関数 f の学習にニューラルネットワーク

を用いる．ニューラルネットワークに MUATG データ

D を入力として与えることで学習する．

しかし，ニューラルネットワークにおいて，グラフ

を直接入力として用いることができないため，グラフ

をベクトル化する必要がある．そのベクトルは，ある

部分構造を持てば，それに対応する次元の要素が１で，

それ以外は０である二値ベクトルとする．ベクトル化

の手法については次節で述べる．

変異原性をニューラルネットワークで学習する際に

以下の二つの課題がある．第一に，MUTAG は 188 個の

化合物しか含まれてなく，学習するために十分なデータ

が無いことである．第二に，データが少ないと，ニュー

ラルネットワークの学習中に過学習が起こる可能性が

あることである．

この 1 つ目の課題に対して，既存手法 [2] では，変異

原性以外の活性のある化合物を訓練用のデータとして

併用し，ニューラルネットワークで学習することで分類

精度が向上している．この手法はマルチタスクニュー

ラルネットワークと呼ばれる．また，2 つ目の課題に対

しては，オートエンコーダによる事前学習で回避でき

るという研究結果が多数挙げられており，既存手法 [2]

においても，それが用いられている．

(3)

̐

^`

̏

図 2: グラフのリラベルとベクトル化

4 グラフのベクトル化

あるグラフ g が与えられたとき，g の部分グラフは

g の頂点と辺の組み合わせであるので，部分グラフの

数は非常に多い．また，あるグラフが別のグラフの部

分グラフであるかをチェックする部分グラフ同型問題

は NP 完全 [3] である．そこで，本稿では， Weisfeiler

Lehman グラフ同型判定テスト [4] に基づき，グラフ g

をリラベルして g

′

に変換し，グラフを離散値の集合

L = L(V (g)) ∪ L(V (g

′

_{)) で表す．さらに，}

_{L に含まれ}

る要素によって，グラフを二値ベクトル化する．

Weisfeiler Lehman グラフ同型判定テストでは，グラ

フ g = (V, E, Σ, ℓ) の頂点 v

∈ V のラベルを，ℓ(v) と

N (v) のラベルの多重集合の組を得て，別のラベルに置

き換える．その具体例を図 2 に示す．図 2 のグラフ g の

各頂点は左図に示すラベルを保持している．まず，v

1 に対して，その隣接頂点集合

_{v

2 , v

3 } のラベル多重集

合

_{{2, 2} を得て，(1, {2, 2}) を別のラベル 3 に置き換え}

る．他の頂点も同様に置き換える．v

2 と v

3 のそれぞれ

から 1 ステップ以内で到達可能な頂点集合で誘導され

る部分グラフ（g の破線）は同型であるので，リラベ

ルすると，この 2 頂点は同じラベル 4 をもつ．この手

順からなる擬似コードを Algorithm 1 に示す．map は

∪

ℓ

∈Σ

{(ℓ, ℓ)} により初期化されているものとする．8 行

目は，リラベル後のグラフ g

′

において，v のラベルが

value となる写像が ℓ

′

に含まれることを表している．

図 2 の g をリラベルすることで，g を頂点ラベル集

合

_{L = {1, 2, 2, 3, 4, 4} で表す．L はグラフがラベル 1}

と 2 を持つこと，ラベル 1 と 2 からなる 2 頂点の連結

部分グラフをもつこと，ラベル 1 と 2 つの 2 からなる 3

頂点の連結部分グラフをもつことを表している．

_{L の}

各要素の有無により，このグラフをベクトル化する．

次に，グラフの集合をベクトル化するための擬似コー

ドを Algorithm 2 に示す．その入力は，グラフの集合 G

であり，出力はベクトルの集合

_{x

1 , x

2 ,

· · · , x

n

} であ

る．この中で，各グラフは h 回リラベルされる．

L

i

は

グラフ g

i

を複数回リラベルすることにより g

i

がもつ頂

点ラベルの集合，Σ

t

は t 回目のリラベルにより，G の

グラフがもつ頂点ラベルの集合である．また，sup

ℓ

は，

ラベル ℓ をもつグラフの数であり，9 行目において，ℓ

を持つグラフ数が 1 になったら，グラフのリラベルを

止める．Algorithm 2 の計算量は，G の平均頂点数を V

Algorithm 1: グラフのリラベル relabel

Data:

a graph g = (V, E, Σ, ℓ) and a map map

Result:

another graph g

′

= (V, E, Σ

′

, ℓ

′

)

1 g

′

← g;

2 for v

∈ V (g) do

3 key

← (ℓ(v), L(N(v)));

4 value

← map(key);

5 if value = null then

6 value

← |map| + 1;

7 map

← map ∪ {(key, value)};

8 Σ

′

← Σ

′

∪ {value};

9 ℓ

′

← ℓ

′

∪ {v → value};

10 return g

′

;

図 3: 辺ラベルの変換とグラフから列挙される部分構造

とすると，O(dhnV ) となる．G から列挙される部分グ

ラフが，ある頂点から t ステップ以内（0

≤ t ≤ h）で

到達可能な頂点集合により誘導される部分グラフに限

定される一方で，g

∈ G がその誘導部分グラフを含む

かどうかは頂点数に対して線形時間で計算できる．

以上の手法では，辺ラベルを扱うことができない．そ

こで，図 3 に示す変換法により，辺を頂点に変換し，頂

点のみがラベルをもつグラフに変換する．この変換方

法と上記のリラベルを組み合わせることにより，図 3(b)

の赤線で示されるような g の多様な部分構造（部分グ

ラフではない）を列挙することができ，この多様性に

より予測精度を向上できる可能性がある．

5 提案手法

本研究では，前述の 2 つの課題に対して，人工化合物

データによる事前学習を行うことで解決を図る．事前学

習に用いるオートエンコーダには変異原性の陰陽を表

わす変量が必要ないため，大量の人工化合物データによ

り事前学習をすることで，最適な初期重みの設定ができ

る．人工化合物の一例としては文献 [5] によって作られ

たものである．人工化合物は化合物の結合規則などから

自然界に存在しうる可能性が高いものが作られている．

この人工化合物データには変異原性に対するクラスラ

ベルがないが，人工化合物データは事前学習で用いる

のでクラスラベルは必要としない．既存手法 [2] にお

(4)

Algorithm 2: グラフ集合のベクトル化 vectorize

Data: G =

{g

1 , g

2 ,

· · · , g

n

} and h

Result: x

1 , x

2 ,

· · · , x

n

1 for i

∈ [1, n] do

2 L

i

← ∅;

3 for t

∈ [0, h] do

4 Σ

t

← ∅;

5 for g

i

∈ G do

6 L

i

← L

i

∪ {ℓ(v) | v ∈ V (g

i

)

};

7 Σ

t

← Σ

t

∪ {ℓ(v) | v ∈ V (g

i

)

};

8 g

i

← relabel(g

i

, map);

9 if

∀ℓ ∈ Σ

t

, sup

ℓ

≤ 1 then

10 break;

11 for i

∈ [1, n] do

12 x

i

← 0;

13 for ℓ

∈ L

i

do

14 x

iℓ

← 1;

15 return x

1 , x

2 ,

· · · , x

n

;

いて使われた化合物データは多くても数万個程度だが，

文献 [5] によって作られた人工化合物データは 1660 億

個もある．したがって，人工化合物を用いることは数の

点において有利だと言える．このようにして構成された

ニューラルネットワークは変異原性のデータ量が少なく

ても，過学習が起こらず，分類精度が向上すると考えら

れる．提案手法の擬似コードを Algorithm 3 に示す．入

力は人工化合物のグラフデータ G

art

，MUTAG のグラ

フデータ G

mutag

，ニューラルネットワークの各層のユ

ニット数 e

1 ,

· · · , e

l

，各グラフのリラベル回数 h である．

l はニューラルネットワークの層数である．まず，2 行目

で人工化合物と MUTAG のグラフデータをニューラル

ネットワークに適用できるようにベクトル形式に変換

する．ベクトル形式に変換された人工化合物と MUTAG

のデータをそれぞれ X

art

と X

mutag

に格納する．5 行目

から 9 行目でオートエンコーダによる事前学習を行う．

ae(e

j

, e

j+1

) は入力層と出力層のユニット数が e

j

で中

間層のユニット数が e

j+1

をであるオートエンコーダを

構築する関数であり，train(AE, X) はオートエンコー

ダ AE をデータ X で学習する関数，getW eight(AE)

はオートエンコーダ AE の入力層と中間層の間の重み

を抽出する関数である．af (W

j

, X

art

) は活性化関数の

関数であり，次のオートエンコーダの入力を計算する．

そして，l

− 1 個のオートエンコーダを学習した後，10

行目の関数 nn(W

1 ,

· · · , W

l

₋₁

) により l 層のニューラル

ネットワークを構築する．ここで，事前学習した l

− 1

個の重み W

j

をこのニューラルネットワークの重みの初

期値とする．最後に，11 行目で，関数 train（N N, X)

Algorithm 3: 提案手法の擬似コード

Data: G

art

=

{g

i

}

n

i=1

1 , G

mutag

=

{(g

i

, t

i

)

}

n

i=1

2 ,

(e

1 ,

· · · , e

l

) and h

1 G = G

art

∪ {g

i

|(g

i

, t

i

)

∈ G

mutag

};

2 {x

1 ,

· · · , x

n

1 , x

n

1 +1

,

· · · , x

n

1 +n

2 }

← vectorize(G, h);

3 X

art

← {x

1 ,

· · · , x

n

1 };

4 X

mutag

← {x

n

1 +1

,

· · · , x

n

1 +n

2 };

5 for j

∈ [1, l − 1] do

6 AE

j

← ae(e

j

, e

j+1

);

7 train(AE

j

, X

art

);

8 W

j

← getW eight(AE

j

);

9 X

art

← af(W

j

X

art

);

10 N N

← nn(W

₁

,

· · · , W

_l

₋₁

);

11 train(N N, X

mutag

);

00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000 000000000000000000000000

͙

00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000

͙

䞉䞉䞉

0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000 0000000000000000000

͙

ਕ޽Կ߻෼υʖν

ʤԱݺΉͲՆ೵ʥ

087$*υʖν

ʤԿ߻෼ʥ

೘ྙ

図 4: 提案手法の図説

によりニューラルネットワーク N N をデータ X で学

習する．以上のようにして学習された N N で，変異原

性未知の化合物の目的変量を予測する．

以上のような提案手法の図説を図 4 に示す．まず，人

工化合物データでニューラルネットワークの層の間の

数だけあるオートエンコーダを学習し，それらのオー

トエンコーダの第 1 層と第 2 層の間の重みをニューラル

ネットワークの初期重みとして適用する（

_{−→）．2 つ目}

以降のオートエンコーダの入力は一つ前のオートエン

コーダの中間層である（

_{99K）．そして，MUTAG デー}

タをニューラルネットワークに入力し，学習を行う．

変異原性のデータの持たない人工化合物による事前

学習は転移学習の考え方から意義がある．転移学習と

は，関連しているデータから，目的の問題にも利用で

きる情報を取り込んでより高い精度の規則を得ること

である．目的の問題である変異原性は化合物であるの

で，自然界に存在しうる化合物の人工化合物と関連が

ある．人工化合物を事前学習することで，化合物とは

どのような特徴をもつのかという情報が得られる可能

性がある．

(5)

表 2: 実験パラメータ

活性化関数

ReLU 関数

各層のユニット数 (NN)

1

4 ,

1

3 ,

1

2 （ずつ減らす）

バッチサイズ bs

N N

（NN)

5, 10, 20, 30

エポック数 ep

N N

（NN)

5, 10, 20, 30

人工化合物の数

49498

バッチサイズ bs

AE

（AE)

100, 200, 300, 400

エポック数 ep

AE

（AE)

5, 10, 20, 30

6 評価実験

6.1 実験設定

ディープラーニングのフレームワークは chainer(3.5.0)

を用いた．また，Python のバーションは 3.5.5 である．事

前学習に用いる人工化合物は GDB-13 (http://gdb.unibe.

ch/downloads/) を用いた．これに含まれる化合物は C

（炭素），N（窒素），O（酸素），Cl（塩素），S（硫黄），

H（水素）からなる．また，最大の原子数は 13（この 13

の中に水素は含まれていない）．このデータに含まれ

ていた人工化合物は 303,999,096 個であるが，MUTAG

はニトロベンゼンを含む化合物であるので，約 304 万

化合物からニトロベンゼンを含む 49,498 個の化合物を

選択した．この約 5 万個の化合物から，h = 10 として，

特徴量を抽出した．特徴量の抽出に要した計算時間は

約 10 秒である．

ニューラルネットワークの学習におけるハイパーパ

ラメータの説明をする．ニューラルネットワークの学

習におけるハイパーパラメータは活性化関数，ニュー

ラルネットワークの層数，各層のユニット数，バッチサ

イズ，エポック数，事前学習に用いる人工化合物の数，

オートエンコーダのバッチサイズ，エポック数が挙げ

られる．活性化関数には ReLU 関数を用いた．ニュー

ラルネットワークの層数は 3，4，5 層の場合，各層のユ

ニット数は前の層の

1

4 ずつ，

1

3 ずつ，

1

2 ずつ減らしてい

く場合，バッチサイズは 5，10，20，30 の場合，エポッ

ク数は 5，10，20，30 の場合ですべての組み合わせで

実験を行った．オートエンコーダの数，各層のユニット

数はニューラルネットワークに従う．オートエンコーダ

のバッチサイズは 100，200，300，400，エポック数は

5，10，20，30 の組み合わせで実験を行った．以上の設

定を表 2 にまとめる．NN はニューラルネットワーク，

AE はオートエンコーダの略記である．bs

AE

，ep

AE

は

オートエンコーダのバッチサイズ，エポック数であり，

bs

N N

，ep

N N

はニューラルネットワークのバッチサイ

ズ，エポック数である．

実験で設定したニューラルネットワークとオートエ

ンコーダの図説を図 5 に示す．図 5 はニューラルネッ

00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 00000000000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 00000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000

Ϥωρφ਼

ݺ

⋮

00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 00000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000 0000000000000000000000000000000

図 5: 実験設定の図説

トワーク 5 層，オートエンコーダ 4 つの場合である．

6.2 実験結果

前節で説明した設定で実験した結果を示す．人工化

合物を用いた事前学習を行い，ニューラルネットワー

クの学習をした場合，ニューラルネットワークの層数

は 4，各層のユニット数は

1

4 ずつ減らす場合，バッチ

サイズは 20，エポック数は 5，オートエンコーダの数

や各層のユニット数はニューラルネットワークに従い，

バッチサイズは 400，エポック数は 20 のときに最大の

正答率 86.01%となった．

また，先述の最大の正答率を収めたニューラルネット

ワークの設定で，事前学習を行わない場合での正答率

を調べた．このニューラルネットワークの学習には人工

化合物は用いられていない．その結果は正答率 83.53%

となり，約 2.5%の向上が見られた．

以上の実験結果を表 3 から表 10 に示す．bs はバッチ

サイズ，ep はエポック数の略記である．表 3 は各層数と

きの正答率の表である．表 4 は各層のユニット数の減ら

し方の表である．表 3，4 において，最大正答率，平均

正答率は 4 層，

1

4 ずつ減らすときである．それゆえ，表

5 から表 10 は 4 層，

1 ₄

ずつ減らすときの正答率である．

例えば，表 5 は層数は 4 層，層のユニット数の減らし方

は

1

4 ずつ減らすとき，オートエンコーダのバッチサイ

ズ bs

AE

= 300，エポック数 ep

AE

= 10 のとき，ニュー

ラルネットワークのバッチサイズ bs

N N

= 5, 10, 20, 30，

エポック数 ep

N N

= 5, 10, 20, 30 のすべての組み合わせ

の正答率の表である．各表で最大の正答率を太字で記

し，すべての中で最大の正答率は下線を引いた．

人工化合物を用いた事前学習を行ったニューラルネッ

トワーク (手法 A) と事前学習を行わずに作ったニュー

ラルネットワーク (手法 B) の正答率を比べると，人工

(6)

表 3: 各層数の正答率 (単位: %)

層数

最大正答率

平均正答率

3

85.55

84.44

4

86.01

85.11

5

85.42

83.00 表 4: 各層のユニット数の減らし方の正答率 (単位: %)

各層のユニット数の

減らし方

最大正答率

平均正答率

1

4 ずつ

86.01

84.84

1

3 ずつ

85.79

84.79

1

2 ずつ

85.90

84.82 表 5: bs

AE

= 300, ep

AE

= 10 のときの正答率

(単位 : %)

PPP

_PPP

PP

P

bs

N N

ep

N N

5

10

20

30

5

83.24

83.45

83.19

83.45

10

83.98

82.97

83.08

83.03

20

85.47

82.55

82.87

83.24

30

85.79

83.82

83.08

82.76 表 6: bs

AE

= 300, ep

AE

= 20 のときの正答率

(単位 : %)

PPP

_PPP

PP

P

bs

N N

ep

N N

5

10

20

30

5

83.40

83.24

84.89

85.48

10

83.09

83.72

83.19

84.89

20

83.46

83.62

84.15

83.99

30

83.51

83.24

84.10

84.31 表 7: bs

AE

= 300, ep

AE

= 30 のときの正答率

(単位 : %)

PPP

_PPP

PP

P

bs

N N

ep

N N

5

10

20

30

5

83.19

83.09

85.27

85.43

10

83.62

82.50

82.93

83.99

20

83.03

83.09

83.40

83.14

30

83.14

83.09

83.19

83.14 表 8: bs

AE

= 400, ep

AE

= 10 のときの正答率

(単位 : %)

PPP

_PPP

PP

P

bs

N N

ep

N N

5

10

20

30

5

83.22

83.40

84.97

84.84

10

83.43

83.19

83.88

84.36

20

83.51

83.32

83.67

84.02

30

83.51

83.56

83.88

83.94 表 9: bs

AE

= 400, ep

AE

= 20 のときの正答率

(単位 : %)

PPP

_PPP

PP

P

bs

N N

ep

N N

5

10

20

30

5

84.44

83.99

86.01

85.74

10

83.14

83.22

83.75

84.41

20

83.86

83.16

83.43

83.27

30

83.64

83.35

83.43

83.30 表 10: bs

AE

= 400, ep

AE

= 30 のときの正答率

(単位 : %)

PPP

_PPP

PP

P

bs

N N

ep

N N

5

10

20

30

5

83.09

83.40

84.97

85.45

10

83.35

82.95

83.27

84.04

20

83.48

83.24

83.27

83.09

30

83.38

83.30

83.40

83.43

(7)

表 11: マクネマー検定を行うための情報

手法 B

合計

正しい

正しくない

手法 A

正しい

154

8

162 正しくない

0

26

26 合計

154

34

188 化合物を用いた事前学習を行うことで約 2.5%の正答率

の向上が見られた．この差が有意であるかを調べるた

めに，マクネマー検定を用いる．マクネマー検定を行

うため必要な情報を表 11 にまとめる．手法 A，B どち

らも正しく分類できたサンプルは 154 個，手法 A で正

しく分類できたが，手法 B では正しく分類できなかっ

たサンプルは 8 個，手法 A で正しく分類できなかった

が，手法 B で正しく分類できたサンプルは 0 個，手法

A，B どちらも正しく分類できなかったサンプルは 26

個であった．この結果は 6.2 節の最大正答率を収めた

設定で再度実験を行い調査した．

マクネマー検定を行った結果は，検定統計量 χ

2

0 =

6.13，有意確率 P = 0.01329 となった．有意水準 5%

以上で有意差があるといえる．

7 まとめ

本研究では，変異原性の陰陽を化合物の分子構造か

ら分類することを目的とした．そのための手法として，

本研究では，ニューラルネットワークを用いるが変異

原性のデータが少なく，過学習が起こるという課題が

あった．これらの二つの解決策として人工化合物を用

いた事前学習を行う手法を提案した．

まず，化合物の分類をニューラルネットワークで行う

ために，グラフ構造の化合物をベクトル形式にする必

要があり，その手法を述べた．次に，変異原性をニュー

ラルネットワークで分類した既存手法であるマルチタ

スクニューラルネットワークを紹介した．そして，既

存手法とは違った方法で課題点の解決を目指す手法を

提案した．その提案手法は，人工化合物を用いた事前

学習を行う手法である．また，提案手法のアルゴリズ

ムの図説と擬似コードを示した．次に，提案手法で実

験を行う上での各パラメータの設定を説明し，実際に

実験を行った結果を示した．そして，人工化合物を用

いた事前学習を行った場合と事前学習を行わなかった

場合でマクネマー検定をすると，有意水準 5% 以上で

有意差があることが分かった．

参考文献

[1] 瀧川一学．「深化する機械学習―技術の進展と

その応用」総合特集号多数のグラフからの統計

的機械学習．システム/制御/情報, Vol.60, No.3,

pp. 107–112, 2016.

[2] G. E. Dahl, N. Jaitly, and R. Salakhutdinov.

Multi-task Neural Networks for QSAR Predictions. arXiv

preprint arXiv:1406.1231, 2014.

[3] M. R. Garey and D. S. Johnson. Computers and

In-tractability, A Guide to the Theory of NP

Complete-ness. W.H. Freeman and Company, New York, 1979

[4] B. Weisfeiler and A. A. Lehman. A Reduction of A

Graph to A Canonical form and An Algebra Arising

during This Reduction. Nauchno-Technicheskaya

In-formatsia, Ser. 2, 9, 1968.

[5] L. Ruddigkeit, R. van Deursen, L. C. Blum, and J.

L. Reymond. Enumeration of 166 Billion Organic

Small Molecules in the Chemical Universe Database

GDB-17, J. Chem. Inf. Model., 52(11), pp. 2864–

2875, 2012.

人工化合物を用いたディープラーニングによる変異原性の予測