重み優先探索と機械学習アルゴリズムによるDNAアセンブルの精度向上: 沖縄地域学リポジトリ

(1)

Title

重み優先探索と機械学習アルゴリズムによるDNAアセン

_{ブルの精度向上}

Author(s)

大城, 絢子; 岡崎, 威生; 名嘉村, 盛和; 安富祖, 仁

Citation

沖縄大学マルチメディア教育研究センター紀要 = The

Bulletin of Multimedia Education and Research Center,

University of Okinawa(12): 7-15

Issue Date

2012-08-31

URL

http://hdl.handle.net/20.500.12001/10261

(2)

m~fJ:)t~~ e:t~;f!t~$~7

Jv:f

lJ

:XL~~

d:

G

.

DNA

7t/7JvO)*~~~l:

Accuracy improvement for DNA assembly with weight first

search and machine learning algorithm

::ktfiX

*Tij-=f+

t

/!Rdlli~

&X;j::+z

/

1:;~11·

f&f

D

+2

/3'C'i't.ll

{

-

+

1

Ayako

OHSHIRQ

+

t /

Takeo

OKAZAKI

+z

/

Morikazu NAKAMURA

+z

/

Hitoshi AFUSO

+t

+

I

]:)1t:f.:j(*~flltfJI:!I

~~Jf~f-'1-Graduate School

of

Engineering

of Science, University of

the Ryukyus

+2J:At:f1*~I~M'~·Iw¥~I~~4

Department

of

Inf

ormat

i

on

Engineering, University

of

the Ryukyus

iV.>~*~

:Jzt!t1i: :/-7

/-lj-0) ~~H::

J:

'J,

~JJ.Jf:Z

'J

@2:§

!J

*

~m

<

G

:M!::J

!J9!1

fJI:!

~1'T

'5

::.

c

'l.\

DNA

@2:§!J

0) ~J*9!1fJI:! i61PJ~~r~ tc~: -::J

t::.o

~0)-trc ~ 7.

7 t /

-:iJv0)3B1:i61lJ!l~11f t~tJ:

o,

IE~itJ:@c:J!J*lli-EliJ<~~~~H~tJ:

9 c

~)

-5

F"9~

i611:

G

t::.o

::<t:W~Tf-;t, @2:JUFa90)m1j[*t~~ § tAa15-~1'T v), 511~

G

tda15-@2:§

IJi6

> G

~~-::J

tda15-@2:§

!J

~ Jf:Z

'J

~~'2-, *a-ElO)Il~;:o~T~HfiR ~~9:~tt::.=Fr~~1~~

G,

7 t /

:iJvO)'i·i~~~~ffilli LJ::.~ ::<t:~-cf-;t~O)fll!f~ cPX:.*t~ ".:Jv)T¥~1599o

Abstract

With development

of second generation technology,

it has become

possib

l

e

to

speedily get

massive

short-read seQuences.

On the

ot

h

er

hand,

s

h

ort

-r

ead seQuences occur

misassembly

and

this

problem

.

makes DNA

assemb

l

y

difficult.

We proposed assembly procedures that included

discriminant

m

e

thod

and

lower limit for

weight

first

search

algorithm. We had a

eva

lu

ation of assemb

l

y performance.

In this manuscript,

we

report

on conclusion about summary and conclusion

.

(3)

-1．研究背景生命'情報工学の分野において、複数の遺伝子配列データを比較し相同性を発見する事で、遺伝子の構造や機能を推定する研究が盛んに行われている。そのためには、正しい配列データの獲得が前提となる。図1:生命情報工学における配列解析配列データはDNAシークエンシングを行うことで獲得される。DNAシークエンシングとは、塩基配列の読み取りを行うことであり、遺伝情報を解析するための基本手段となっている。 D N A シークエンシングを行うために、シークエンサーが用いられている。シークエンサーが出力した断片配列を結合し、配列データを生成する。断片配列を結合する過程をDNAアセンブルとよぶ。従来型に比べ、次世代シークエンサーでは読み取り長を短くし並列処理を行うことで高速処理が可能になった。その一方で、出力される断片配列が非常に短いため、アセンブルが非常に困難になるという問題が生じた。正しく配列結合を行うということは正しい全配列データの復元を行う上で最も大切な条件である。

2．一般的なDNAアセンブルにおける問題点とその改善のための目的

シークエンサーが一度に読み取れる長さには限界があるため、DNA全配列をシークエンサーに読み取らせるのは不可能である。そこで一般的には、DNA細胞を、PCR[1]と呼ばれる複製法により複製しシークエンサーの読み取りが可能な長さになるまで細断片化する。細断片化された配列はシークエンサーによって読み取られ、断片配列として獲得される。元配列を複製して細断片化された断片配列同士には重複部分が存在する。アセンブルでは断片配列同士を、重複情報をもとに有向グラフにより表現し配列同士を結合する。 0シークエンサから獲得した断片配列を用意する。 1断片配列をそれぞれノードとする。ノード間に十分な重複部分があればエッジを与え、隣接有向グラフを作成する。 − 8 −

(4)

2グラフ内で経路探索を行い経路を決定する。 3決定した経路に従い結合配列を生成し出力とする。＜入力＞シークエンサーから得られた断片配列配列それぞれをノー

画面圃師画面

A ¥ ¥ ドと見な

雷J回向配叩

ノード間(断片間)に＠噸f随p部分があれば

凶

リンクされたノード同士は ■接していると見なし、”グラフを生錘する．

圏

棲

グ

"

陰

塁

隣接行列としても表現される．

P

恥A 脇 A ◆ R8 跡棚 a’ , む 0 勘瞳 4 ⑱ 8 苧 8 割 p ＃ 3 8 ，厩＊ 9 ｡シークエンスを生成する

心

<出カジ図2:DNAアセンブルの流れ次世代シークエンサーの読み取り可能な長さが短いことより、ステップ2の経路を決定し配列結合を行うといった段階において、図3のように結合ミスによるミスアセンブルの発生が顕著になった。そこで本稿では、結合精度を向上するアセンブル法について提案し評価をおこなった。

回国日GTC

‘圃同嗣圃’

ACCQT同一一∼ご

Ilal侯I侯InlT_{A C C G T C} A C C G T C A C G A − T C A A

↓一= 一

jACCGTCAa￨

どちらが正しいかわからない図3:Short-read結合の困難さ − 9 −

(5)

3．重み優先経路探索を用いたアセンブル法

断片配列同士の結合部分長は、結合信頼性の高さに影響している。隣接グラフ内で信頼性の高い経路探索

を行うために、図4のように重み、つまり断片配列同士の重複部分長の値が大きくなるように探索を行う。

ｌｌｌＩＩＩ

凶

一一一 . − − − − 1 1 − ． − 1 − 一一一一一一図4:エッジに重みを与えた重み優先探索【重み優先探索によるアセンブル法】 0シークエンサから獲得した断片配列を用意する。 1断片配列をノードとし、ノード間に重複部分があればエッジを与える。エッジを1本経由することを1ス

テップとし、全てのノード間の距離を格納した距離行列とノード自身の次に訪問が可能なノードを格納し

た経路行列、訪問済みノードを記憶する行列を用意する。 2探索を開始する。ステップをlずつ増やし、重みが大きくなるよう経路を選択し全てのノードに関しての距離行列、経路行列、訪問済み行列を更新する。

3訪問可能になったノードを経由する方が重みが大きくなる場合は経路行列に新たにノードを追加し、距離

行列には、新たな経路による重みを格納する。その際には訪問情報を格納した行列も更新する。 4ステップ数を増やして2の手続きを繰り返し、ステップ数がノード数の半分に達したら探索を終了する。 5経由したノードと結合部分長、配列長の情報を保存し、経路にしたがって結合配列を生成し出力とする。重み優先探索によるアセンブル法に従い出力された結合配列の精度を評価するために、結合配列が元の

配列に含まれている（正結合配列）か否（誤結合配列）かを確認した。精度確認用断片配列データには酵

母菌配列データの一部（長さ2380base)を50-70baseに断片化したものを利用した。酵母菌の塩基配列

データは生物の中でも配列長が短く、配列解析の研究で最も利用されているデータである。配列データは

RIKEN[2]のデータベースサイトから獲得した。

出力された結合配列726本のうち正結合配列が311本、誤結合配列が415本であり、重複部分長が最大

であることが必ずしも配列結合が正確であるとは限らないことを確認した。誤結合を防ぐには、結合の際に

結合部分長の下限値を設けることが有効だと考えられる。さらに結合配列に対して正誤判別が可能なルール

を、正結合配列（正例)、誤結合配列（負例）の特徴を学習することで獲得し、重み優先探索アルゴリズムから生成される結合配列に適用する。判別ルールが「正結合」と判別した結合配列のみ出力とすることで、正結合配列のみ獲得することができる。本研究では学習データを以下のように生成し、判別ルールを獲得した。 1 0 -一 A C C G ” 4 p 凸郎 D a B L ■ ■ CGAC TCACGA ACCGTG “ 2 ●曽申凸凸令qe4も凸■ ● もり弓 G b a CGAC 町 q P O ■ ■ 啓一 T r ■ ■ ■ ■ ■ ■ ■ ■ ■ ｳ ■ 画 3 T℃':ga 2 己 0 晶 C ■ 卓 & ■ I U ■ ｡ ■ ■ 4 ｡申 ■ ● 4 ■ G 守口｡ ■ 生 ■ ■ ■ ■ ■ ､ ■ 早 ■ ● ■ ＆ ■ ■ ■ ■ ｳ㈲固守 q b やﾏ ● 邑心 ■ 坤旬 ○ 寺 ■ ■ 弓や ◆ 険白 ● ● 『｡白け僧寺令守

(6)

学習データの生成方法 1.ターゲット配列に生物種が類似した既知の配列を用意する。 2 次世代シークエンサーにならい、複製して配列を断片化する。 3断片配列から重み優先探索によるアセンブル法による結合配列を生成し､正例(元の配列に含まれている)、負例（元の配列に含まれていない）に分類する。 4 各結合配列の持つ、配列長や重複長とそれらの合成関数をパラメータとして設ける。 5.正例、負例とパラメータ値の情報を含んだ学習データを機械学習させ、判別ルールを獲得する。学習能力の高い判別ルールを獲得するために、結合配列の「重複部分長｣、「結合配列長｣、「重複部分長× 結合配列長｣、「重複部分長／結合配列長｣、「log(重複部分長)｣、「log結合配列長)」をパラメータとして学習させ判別ルールを獲得した。また高性能の判別ルールを獲得するために、本研究では複数のSupportVectorMachine[3]について学習能力の比較を行い、最も学習能力の高い（正例、負例を正しく学習し識別できる）機械学習アルゴリズムを提案手法に適用した。比較候補としてPolynomialkernelSVM、GaussiankernelSVM，Linearkernel SVM、HyperbolictangentSVMを列挙した。判別ルールがどれほど正例と負例を正しく識別できたかを、表lのように整理する。有効無効正しい結合

C/C:正しい結合に対して有効と判定した配列数

C/W:正しい結合に対して無効と判定した配列数

誤った結合

_{W/C:誤った結合に対して有効と判定した配列数}

_{W/W:誤った結合に対して無効と判定した配列数}

判別ルールによって出力される本数表1:識別結果フォーム c/c、w/wは正しく判定された結果になるので、これらをデータの総数で割った数を学習の精度とした。 {C/C}+{W/W}

学

習

網

膜

"

{

c

/

c

}

-

i

-

{

c

/

w

]

+

n

v

/

c

}

-

i

-

m

/

w

]

学習能力の比較結果重み優先探索によるアセンブル法に従い、既知であるサンプル配列を用いて、学習データに対して各 SVMalgorithmの学習精度比較評価をおこなった。比較の際には、正例61本、負例58本を検証用データに用いた。表2より、PolynomialkernelSVMやHyperbolictangentSVMに比べてGaussiankernelSVMや PolynomialkernelSVMは正例を多く残し、負例を多く取り除くことができている。 1 1

(7)

-PolynomialkernelSVM 有効無効学習精度正しい結・合 59 2 98.3％誤った結合 0 58 LinearkernelSVM 有効無効学習精度正しい結合 54 7 92.4％誤った結合 2 56 GaussiankernelSVM 正し↓ ÷ へロロ誤った結合有効 58 0 lp 無効学習精度 3 97.4％ 58 1 HyperbolictangentSVM 有効無効学習精度正しい結合 51 10 91.6％誤った結合 0 58

表2:各SVMalgorithmについての学習精度比較

次にこれらのSVMがどれほどの識別能力を持つのかを、学習データとは異なる配列から生成したオープンデータを利用して検証した。データには、DNAデータベースから獲得した別の酵母菌（長さ2325base，複製回数7回、断片配列本数600本）を用いた。各機械学習アルゴリズムの識別精度を以下に示す。 " PolviioinialkernelSVM 有効無効学習糖度正しい結合 344 2 99.5％誤った結合 1 345 LinearkernelSVM 有効無効学習精度正しい結合 344 2 98.4％誤った結合 9 337 GaussiankernelSVM 有効無効学習糖度正しい結合 345 1 ”､7％誤った結合 1 345 HyperbolictangentSVM 有効無効学習精度正しい結合 328 18 96.9％誤った結合 3 343 表3:各SVMalgorithmについての判別精度比較学習用のデータとオープンデータどちらについても、GaussiankernelSVMがほぼ正確に正例と負例を判別できていることから、本研究の機械学習アルゴリズムとして採択した。以上より、判別ルールと結合下限値適用による重み優先探索法を提案した。【判別ルールと結合下限値適用による重み優先探索法】 0シークエンサから獲得した断片配列を用意する。 1断片配列をノードに格納し、設定した下限値以上の重複を持つノード同士の重み情報のみ格納した隣接グラフを生成する。 2重み付き隣接グラフに対し重み優先探索を行い、決定した経路に従い結合配列を生成する。 3ターゲットである断片配列の種が類似した既知配列に対し重み優先探索を行い、学習データを生成する。 4学習データに機械学習を適用し判別ルールを獲得する。 5ターゲットの断片配列に対し重み優先探索を行い生成した結合配列から判別ルールにより選別された複数の結合配列を出力結果とする。 − 1 2 −

(8)

出力

｜出力I

図5:判別ルールと結合下限値通用による重み優先探索法アセンブルの流れ

4．提案アセンブル法に対する検証実験

本研究では配列間の重複長に着目し結合を行い、獲得した結合配列から誤った結合配列を取り除き、結合の際に下限値を設けたアセンブル手法を提案した。提案手法においての機械学習の効果、下限値設定の影響について、断片配列データを用いて評価した。出力配列中の正しい結合の割合も確認する必要があるので次式により与えた。 {C/C} 学習による出力中の判別精度＝ [C/C}+{WC] データ量、つまり断片配列数の変化による出力結果の違いをみるために本実験では、断片配列数を300, 900本と本数を変えて実験を行い、出力結果の違いを考察した。結合下限値は3，5，7，11と変化させて検証した。本実験では酵母菌（長さ2400base)の塩基配列データを用いた。配列データは機械学習アルゴリズムの学習能力の比較を行う際に用いた酵母菌データを獲得したRIKENのデータベースサイトから獲得することが可能である。本稿では断片配列本数を300，900本で入力した際の結果について表4−6に掲載する。重み優先探索法と提案した判別ルールと結合下限値適用による重み優先探索法の、出力された正結合配列について比較した。ここで、出力された全ての結合配列が元の配列をどの程度正しく復元しているかを評価する「被覆率」も検討指標に加えた。出力を制約することによる被覆率の変化も観察した。断片配列数3卯本断片配列数900本結果被覆率結果被覆率正結合 311（428％）正結合 1109(4“％）誤結合 ₄₁₅₍₅₇_.₂_％_） 98.9％誤結合 1182(52%) 99.5％合計 726 合計 229(）表4:重み優先探索法による判別精度 − 1 3 −

(9)

下限値結果有効無効計判別精度出力中の判別精度被覆率正結合 310 1 311 0 誤結合 4 411 415 ”.3％ 98．7％ 98.9％出力 314 正結合 306 3 309 3 _誤結合 6 55 ti1 97.5％ 98％ 98.9％出力 312 正結合 309 7 316 5 _{誤結合} 4 11 15 96.6％ 98.7％ 98今99％出力 313 正結合 309 9 318 7 誤結合 0 2 2 97.1% 1Ⅸ)％ 92.7％出力 309 正結合 310 8 318 11 誤結合 0 0 0 97.4％ 100％ ”､7％出力 310

表5:判別ルールと結合下限値適用による重み優先探索法による判別精度(断片配列数300本）

下限値結果有効無効計判別精度出力中の判別精度被覆率正結合 1105 4 1109 0 誤結合 5 1177 1182 99.6％ 99.5％ 99.5％出力 1110 2291 正結合 1100 3 1103 3 _誤結合 6 51 57 99.2％ 99"4％ ”.4％出力 1106 1160 正結合 1111 6 1117 5 誤結合 7 6 13 98.8％ 99.3％ 99.4％出力 1118 113(）正結合 1140 6 1146 7 _誤結合 1 0 1 99.3％ ” ％ ”､4％出力 1141 1147 正結合 1138 6 1144 11 誤結合 0 ）〔 0 99％ 1 0 0 ％ ′ 99.4％出力 1138 1144

表6:判別ルールと結合下限値適用による重み優先探索法による判別精度(断片配列数900本）

1 4

(10)

-結果より以下のことがわかった。･断片配列数が少ない時(300本）下限値を過度に上げると、被覆率は下がるが、正しい結合配列が獲得されやすくなる。よって、機械学習アルゴリズムと最適な結合下限値を組み合わせることで、精度の高い配列が得られる。･断片配列数が多い時(900本)、配列数が十分にあるので、結合下限値を過度に上げても被覆率は下がらない。よって配列本数が十分に多い時は、機械学習を行わなくても下限値を高く設定することで結合精度の高い配列が得られる。 5 ．まとめ正確なDNA配列を実現させるため、本研究では、配列間の重複長に着目し結合を行い、獲得した結合配列から誤った結合配列を取り除き、結合の際に下限値を設けた手法を提案した。以下に本研究の成果を述べる。・判別ルールと結合下限値適用による重み優先探索法出力結果を比較することで、機械学習の効果が確認できた。・断片配列本数が十分でない場合、学習の効果は出るが、結合下限値を高く設けると、被覆率が下がってしまう。よって断片配列数が少ないときは、下限値を高く設定せずに機械学習を実行する方が被覆率を下げずにすむということがわかった。一方で断片配列数が十分である場合、結合下限値を高めに設定しても被覆率は下がらない。よって断片配列数が多いときは下限値を高めに設定することで機械学習をする必要が無くなるということがわかった。以上から、実際にヒトゲノムなどの大量の配列データのアセンブルを考慮すると、元配列が長く十分な断片配列が獲得するのが困難であることから、次世代シークエンサーから獲得された断片配列を用いて全配列復

元に向けたDNAアセンブルを行う際には、判別ルールと低結合下限値を組み合わせたアセンブル手法を用

いることが有効であるという知見を得た。

参考文献

[1]油谷幸代「こんなにわかってきたゲノムの世界」技術評論社2009 [2]RIKENBRCDNABANK(ja),http://dna.brc・riken.jp/ja/ [3]人工知能学会「サポートベクターマシン」オーム社平成22年 [4]DanielR.ZerbinoandEwanBirney:AlgorithmsfordenovoshortreadassemblyusingdeBruijn graphs,GenomeResearch,vol.18,pp.821-829,(2008) [5]Dijkstra,E.W.(1959).Anoteontwoproblemsinconnectionwithgraphs.InNumerishe Mathematik,1(1959) [6]Gormen,ThomasH;Leiserson,CharlesE.,Rivest,RonaldL.:TheFloyd-Warshallalgorithm, pp.558-565MITPressandMcGraw-Hill.(1990) 1 5