生命情報解析で活躍する機械学習

(1)

c

オペレーションズ・リサーチ

生命情報解析で活躍する機械学習

瀬々潤

生命情報学と機械学習の結びつきは長い．1990年代から配列解析には隠れマルコフモデルが，疾患予測にはクラス分類手法やクラスタリングが積極的に利用されてきた．ところが，2000年代後半に登場した

DNA

配列を超並列で読み取る高速シーケンサの急速な発展により，生命情報学は未曾有の大規模データ時代に突入し，データの量，質ともに向上著しいうえ，データの多様化も進んでいる．本稿では，高速シーケンサによってどのようなデータが生まれてきているかを，そして，そのデータ解析の現状について概観を述べた後，

これらのデータ解析に用いられている機械学習や最適化手法を紹介する．

キーワード：高速シーケンサ，遺伝子発現，発現制御，

1

塩基置換，データ融合

1.

序論

バイオインフォマティクス（生命情報学）は，生命科学にまつわる情報を扱う分野である．ヒトの体は約

60

兆個に上る細胞から構成され，各細胞はタンパク質が組み合わさることで形作られている．タンパク質の情報は，各細胞に含まれるゲノムに刻み込まれており，

ゲノムは

4

種類の塩基，アデニン

(A)

，チミン

(T)

，グアニン

(G)

，シトシン

(C)

が鎖状に連なった化学物質である（図

1

）．ヒトでは約

30

億の塩基が連なっている．生命情報学は，このゲノムの塩基配列から疾患情報に至るまでの多様な情報を，また，ヒトだけでなく動物，植物，細菌などの微生物まで多彩な種の生命に関連する情報を広く扱う分野である．

生命情報学では機械学習が頻繁に応用され，活用されてきた．

2005

年頃までの機械学習の活用は

Larra˜ naga

ら

[22]

の論文が詳しいが，生命情報を取り巻く状況は

2000

年代後半から大きく変化している．特に，高速シーケンサ（次世代シーケンサ，超並列シーケンサなど異なる呼び方がされるが，いずれも同一のものを指している）の登場によるデータの量と質の変化が大きく，その言葉の生まれる前からビックデータの時代を迎えていた．本論文では，この高速シーケンサによって生まれた変化がどのようなものであるかを紹介したうえで，現在の機械学習の応用例を示していく．

1.1

高速シーケンサの登場

2003

年

4

月のヒトゲノム解読

[16]

によって，ヒト一人のゲノム配列が解読された．これはゲノム配列解

せせじゅん

東京工業大学大学院情報理工学研究科

〒

152–8550

東京都目黒区大岡山

2–12–1 W8–60

図

1

ゲノム情報の流れ

析の終焉ではなく，ゲノム配列利用のスタート地点に立ったことを意味している．ヒトゲノム計画は日，米，

英，仏，独，中を始めとする国際コンソーシアムを組織し，十年以上の時間をかけて一人のゲノムを読むものであった．それに対し，米国国立衛生研究所（

NIH

）が

2004

年からサポートを開始した「

1000

ドルゲノム計画」では，

1000

ドルで一人のゲノム情報をすべて読める技術を目指した．この流れに呼応してゲノム配列を読むために必要なコストは急速に下落した．ヒト一人分のゲノムを読むためにかかる費用は

2003

年初めでは

5

千万ドルであったが，

2011

年

11

月時点で

1

万ドルを切り，約

8

年で

5,000

分の

1

の価格に下落している．同時にシーケンサが配列を読む速度向上も著しい（表

1

）．さらに現時点で，配列解読方式が異なるシーケンサが複数存在し，それぞれの特色を出しつつ発展しているため，ゲノムを読む技術は，しばらくの間はより安価に，より高速になる可能性が高い．

1.2

アルゴリズムから機械学習へ

高速シーケンサが出力する大量の配列情報を解析するため，さまざまな計算機科学の技術が必要となった．

まず，一度高速シーケンサを動かすと数百

GB

のシー

(2)

表

1 DNA

シーケンサの発展．コストと量の比較．

年ヒト一人分を一度の実験で読める読むコストシーケンス量

2003

年

5,000

万ドル

5

万塩基

2011

年

1

万ドル

6,000

億塩基

コストは DNA Sequencing Costs (http://www.genome.gov/sequencingcosts/), 2012年1月25日分より抜粋．シーケンス量はABI 社およびIllumina社の資料より．

ケンスデータ（塩基配列および配列の精度情報）が出力される．この情報を整理して蓄積するだけでも必ずしも容易なことではない．現在，この大規模データの転送手段としてインターネット経由ではなくポータブルハードディスクを物理的に郵送することも少なくない．次に，解析に必要なアルゴリズムの開発である．ゲノム解析において典型的なタスクにアラインメントとアセンブルがある（図

2

）．アラインメントは読んだ配列のうち，既存の配列中に一致するものが存在するか否か検索する問題であり，最も有名なソフトウエアに

BLAST[2]

がある．

BLAST

の高速化は従来から問題であったため，

BLAT[20]

を始めとするアラインメントソフトウエアが開発されていた．速度が遅い問題は高速シーケンサの登場で，より重要な問題となりアラインメントの高速化が行われた．特にアラインメントするべき配列の長さが短い（

100

塩基未満程度）こと

から，

BLAST

同様に動的計画法を用いる方法ではな

く，

Burrows-Wheeler

変換

[9]

を用いるもの

[21, 25]

に変化していった．一方，アセンブルはシーケンサで得られた配列をつなぎあわせ，一本の染色体にまとめ上げるタスクである．旧世代シーケンサの時代には，類似部分をつなぎあわせる

Overlap-Layout-Consensus

法

[6, 15]

が用いられていたが，高速シーケンサに対しては連続する

k -

塩基間の接続をグラフ構造で表す

de Bruijn graphs

のアプローチ

[14, 31, 41]

が主として用いられている．

これらのアルゴリズム開発により，高速シーケンサ

を利用したゲノム配列解析の基盤技術が確立された．

次に高速シーケンサによって変化した実験手法の一例を挙げ，その後，新たな実験手法の登場にともなって必要となっている機械学習技術を述べる．

2.

遺伝子発現量計測法の変化

高速シーケンサは，高速かつ安価に

DNA

配列を読む機械だが，このシーケンサを利用した新たな実験が生まれている．ここでは一例として，遺伝子発現量観測を示す．

ヒトのゲノム上には

25,000

程度の遺伝子領域が存在し，これらの遺伝子を利用して，我々の生命活動が営まれている．これら遺伝子配列はすべての細胞において同一であるが，その一方で我々の体には，脳，胃，

皮膚のように形も機能も異なる細胞が存在する．これらの違いを生む主な要因が遺伝子の使われ方である．

25,000

の遺伝子は，言わば辞書中の単語であって，細胞を新聞記事と仮定すると，記事中には使われる単語も使われない単語も存在する．同様に，各細胞では使われる遺伝子が異なり，遺伝子が使われるには

DNA

の配列が

mRNA

に転写される必要がある．遺伝子が転写されることを，「発現」と呼ぶ．遺伝子の発現制御ははオン・オフの

2

値ではなく，時と場合によって，

転写量が変化する連続量である．文章中に利用される頻出単語が存在するように，頻繁に転写される遺伝子が存在する．このような遺伝子を「発現量が高い」と言う．

例えば，図

3(A)

，

(B)

ではゲノム上の遺伝子

1

と

2

から異なる量の

mRNA

が発現している．二つの遺伝子の発現比率は細胞によって異なるし，同一細胞でも時間によって動的に変化する．

mRNA

の量の違いは翻訳されてできるタンパク質の量の違いにつながり，ひいては細胞を構成する要素の変化となるため，

mRNA

量を観測することで，細胞の状態を知ることが可能である．

図

2

アラインメントとアセンブル．二つの配列の間に引かれた縦線は，配列が一致していることを表している．

(3)

図

3 RNA-seq

法による遺伝子発現量の定量化

図

4

リシーケンシングの模式図と問題点

ヒト全遺伝子の発現量を計測する手法としてマイクロアレイ

[23]

が利用されてきた．マイクロアレイは基板上に全遺伝子に関する

1

本鎖

DNA

配列を合成しておき，そこに

mRNA

を蛍光した細胞抽出液を流す．

1

本鎖

DNA

は相補配列を発見して結合する性質があり，結合したか否か，また，結合した量を蛍光の強さを計測することで定量化する手法である．マイクロアレイで観測されたデータの解析には多数の機械学習手法が応用されてきた

[12, 40]

．

この定量化手法は，現在高速シーケンサを利用した手法である

RNA-seq[13, 26, 30]

に取って代わられようとしている（図

3

）．

RNA-seq

では，細胞から

mRNA

を抽出し，この

mRNA

を断片化したうえで高速シーケンサで読む（図

3(C)

）．一度断片化する理由は，現在のシーケンサでは一度に読める長さが短く，遺伝子の全長を読むことができないためである．読んだ配列が，どの遺伝子由来であったのかを調べるため，ゲノム（もしくは既知の遺伝子配列）にアラインメントし

（図

3(D)

），各遺伝子から得られた配列数を計数することで遺伝子の発現量を調べる手法である（図

3(E)

）．

RNA-seq

によって，マイクロアレイに比べ，実験に

価格の下落が起こると同時に，定量性が増加しており，

今後は

RNA-seq

が多く使われるだろう．

ところが，

RNA-seq

では，遺伝子全体から配列が均一に採取されるわけではない（図

3(F)

）．これは計測手法の問題だけでなく，遺伝子が発現する際に起こる発現の開始点にゆらぎが含まれていたり，選択的スプライシングと呼ばれる必ずしも遺伝子全体が発現するわけではない現象など生物学的な要因も含まれる．この問題に対応するため，選択的スプライシングをモデル化し，解析する手法

[18, 32]

が開発されている．また，マイクロアレイの解析で問題だった実験間の結果比較に関しても

RNA-seq

に合わせた手法が必要となっており，データの定量性確保に向けたモデル化と最適化研究が進行している

[37]

．

(4)

3.

リシーケンシングの曖昧性解消

高速シーケンサの主要用途として挙げられるものにリシーケンシング（

re-sequencing

）がある．リシーケンシングとは，ヒトなどの既にゲノム配列が決定した種に対し，再度ゲノム配列をシーケンサで読み，個体間の微細なゲノム配列の違い（変異．置換だけでなく欠失や挿入も含む）を調べることである．この違いと疾患との間に関連性が見られるならば，ゲノム配列の違いが疾患に関連する可能性が高く，疾患が予測できる可能性がある．また，同じ症状であっても人によって薬剤効果が異なる場合があり，ゲノム情報から薬剤効果を予測できる可能性がある

[28]

．

リシーケンシングでは高速シーケンサで読まれた各リードから変異の位置を特定することが重要である．

図

4(A)

に個人のゲノム配列をリシーケンシングした模式図を示す．参照する配列に対しシーケンス結果をアラインメントすると特定の位置に参照ゲノムとは異なる配列が発見できる．もし，変異の位置の特定を間違った場合は，疾病に関連して検査すべき位置を間違えることとなり，対象の疾病が見つからない可能性が起こる．図

4(B)

では，参照ゲノムに対して

4

本のシーケンスをアラインメントした結果，複数箇所に変異が入り，かつ，すべてのシーケンスに共通した変異が見られない．この結果は，個々の配列をアラインメントする場合には最適な解と考えられるが，一人のゲノム配列から得られたシーケンスであることから，機械がシーケンスの読み取りに失敗している場合を除き，存在し得ない解答である．（本来ヒトは

2

倍体であり，両親から受け継いだ

2

本の異なる配列を有しているが，

説明を簡単にするため

1

種類のみの配列を有している状態を考える．）

このアラインメント結果に対し，すべてが同一の変異（置換，挿入，欠失）を起こしていると仮定すると，

補正後の結果に示すような解答が考えられ，参照ゲノムに比べて調べた個体が

4

塩基の欠失を起こしていることがわかる．このように個々のアラインメントでは最適でなくとも，複数のアラインメント結果から全体として最適な解答を得られる手法として，変異に確率分布を設定し

Bayes Gausian Mixture Model

で定式化して解く手法

MSA[11]

が提案されている．また，高速シーケンサのリードは，旧世代のシーケンサに比べ読み取りミスが少し多い傾向があり，エラーも十分に考慮する必要がある点も，この問題を難しくしている．

リシーケンシングで見つかった変異と疾患などの個体の特徴量を関連付ける

Genome Wide Association Study (GWAS)

が盛んに研究されている．単一の変異と特徴量の相関分析が多いが，複数の変異の組み合わせによって説明できる特徴量の高速な抽出に関する研究

[1]

も今後の課題である．

4.

遺伝子発現制御の推定

2

章で遺伝子発現観測の手法として

RNA-seq

を導入し，遺伝子は状況に応じて発現が変化することを説明した．発現が状況に応じて機敏に変化できるよう，ゲノム配列中には発現を制御するスイッチに相当する部分配列が存在する．このスイッチを押すタンパク質は転写因子と呼ばれ，特定の転写因子が

DNA

上の特定の位置に結合することで遺伝子が発現する．この転写場所を高速シーケンサを用いて調べる方法として，

ChIP-seq

（免疫沈降シーケンシング法）がある（図

5(A)

）．転写因子が

DNA

に結合した状態で，

DNA

を断片化し，

その後，転写因子と

DNA

の複合体のみを抽出した後，

DNA

を分離し，その

DNA

を読む方法である．

読んだ配列は転写因子が結合している場所からのみ得られることが期待されるが，実際には，転写因子の結合がそれほど強固でない場合や，実験的なノイズなど多様な要因により山形の分布を重ね合わせたものと

図

5 ChIP-seq

実験の概観と問題点

(5)

図

6 ChIP-seq

と

RNA-seq

の関係

なる（図

5(B)

）．この結果から，実際に転写因子の結合部位を予測するために，ガウス分布の重ね合わせによる推定

[8]

や

Hidden Markov Model

による推定

[39]

など異なるアプローチによる推定が行われている．また，これらの手法で要求される膨大なパラメータの最適化は現在も課題となっている

[29]

．

5.

異なるデータの融合

上記のように，現在の生命科学では異なるデータが大規模に得られている．その一方で今までの知識を統合したデータベースの整備も進んでおり，これらのデータと知識を融合することで新たな発見へと結びつける手法の開発が盛んに行われている．

データ間の融合では，前述の遺伝子発現，

ChIP-seq

，

GWAS

などのデータの融合が盛んである．例えば

ChIP-seq

は遺伝子の発現の制御を調査する実験であり，遺伝子発現はその結果として現れるものと考えられるため，因果関係の発見が期待される（図

5

）．これらの情報を組み合わせることにより，どのスイッチ，

あるいはスイッチの組み合わせが，どの場面で利用されているのかを調査する研究が行われている

[24]

．

大量のデータが生まれることで，遺伝子の機能がより詳細にわかってきている．遺伝子機能は単なるラベルではなく，

Gene Ontology Consortium

によって非循環有向グラフ（

DAG

）形式に表して整理されている

[7]

．従来の遺伝子機能や局在（存在場所）予測では機能がマルチラベル（重複を許したラベル）として扱われ，マルチラベルの予測問題として解かれたり

[10]

，機能と発現の相関が計算されて

[34]

いたが，機能間の

DAG

構造を活かして機能を予測する問題として解かれる試みも行われている

[4, 5]

．

生物学的に重要なことは，単なる遺伝子の機能予測ではなく観測結果から細胞中で何が起きているかを読み取る技術の開発である．細胞の中は，タンパク質同士や化合物が互いにシグナルのやり取りを繰り返すことで活動している．どのようなシグナルのやり取りが起こりうるかの細胞内地図として，

Kyoto Encyclopedia Genes and Genomes (KEGG) [19]

，

Reactome.org [17, 27]

，

BIND [3]

などが構築されている（それぞれ生物学的・

化学的に扱っている階層が異なるが，ここでは一緒くたに扱った）．またこれらを統合する商用製品として

IPA (http://www.ingenuity.com/index.html)

などさまざまな地図が書かれている．これらの地図には時間や空間情報がないため，遺伝子発現の情報を統合することで，細胞内のシグナルを解明する研究も盛んである

[33, 35, 36]

．

6.

今後の展開—モデル生物以外への拡張

高速シーケンサの登場で変化したものは，ヒトの研究だけではない．現在まで，ゲノム配列を読むこと自身が非常に高価であったため，ゲノムが解読された種は，ヒト，マウス，ショウジョウバエ，線虫，シロイヌナズナ，酵母など実験で頻繁に用いられるモデル生物と呼ばれるものに限定されていた．これに対し高速シーケンサによって大量の

DNA

シーケンスが読めるようになったことでモデル生物以外の種のゲノム配列も比較的容易に決定できるようになり，モデル生物同様の解析が可能となった．今後，種間の比較解析による新規発見が期待されている．

また，腸内細菌や土壌細菌など細菌を大量に観測する手法はメタゲノムと呼ばれ進展が著しい

[38]

．現段階では，存在する種の傾向を知ることが主眼であるが，

徐々に問題が定式化され，例えば腸内細菌の配列情報

（量的形質を含む配列情報）から疾患状態を知るような予測問題へと定式化が行われるだろう．

謝辞本稿は，

2011

年

11

月に行われた第

14

回情報論的機械学習理論ワークショップ（

IBIS2011

）で行った企画セッション「次世代

DNA

シーケンサ技術が求める知的情報処理」内の講演「次世代シーケンサ解析で新たに求められる機械学習」を基に構成したものです．本企画に携わった皆様に，深く感謝いたします．

参考文献

[1] P. Achlioptas, B. Sch¨ olkopf, and K. Borgwardt.

Two-locus association mapping in subquadratic time.

In Proceedings of the 17th ACM SIGKDD Interna- tional Conference on Knowledge Discovery and Data Mining, pp. 726–734, 2011.

[2] S. F. Altschul, W. GISH, W. Miller, E. W. Myers, and D. J. Lipman. Basic local alignment search tool.

Journal of Molecular Biology, 215 (3):403–410, 1990.

[3] G. D. Bader, D. Betel, and C. W. V. Hogue. BIND:

the Biomolecular Interaction Network Database. Nu- cleic Acids Research, 31 (1):248–250, 2003.

[4] Z. Barutcuoglu, R. E. Schapire, and O. G. Troyan-

skaya. Hierarchical multi-label prediction of gene func-

tion. Bioinformatics, 22 (7):830–836, 2006.

(6)

[5] W. Bi and J. Kwok. Multi-label classiﬁcation on tree-and dag-structured hierarchies. In Proceedings of the 28th International Conference on Machine Learn- ing, pp. 17–24, 2011.

[6] J. K. Bonﬁeld, K. F. Smith, and R. Staden. A new DNA sequence assembly program. Nucleic Acids Re- search, 23 (24):4992–4999, 1995.

[7] D. Botstein, J. M. Cherry, M. Ashburner, C. A. Ball, J. A. Blake, H. Butler, A. P. Davis, K. Dolinski, S. S. Dwight, J. T. Eppig, M. A. Harris, D. P. Hill, L. Issel-Tarver, A. Kasarskis, S. Lewis, J. C. Matese, J. E. Richardson, M. Ringwald, G. M. Rubin, and G. Sherlock. Gene Ontology: tool for the uniﬁcation of biology. Nat. Genet., 25 (1):25–29, 2000.

[8] A. P. Boyle, J. Guinney, G. E. Crawford, and T. S. Furey. F-Seq: a feature density estimator for high-throughput sequence tags. Bioinformatics, 24 (21):2537–2538, 2008.

[9] M. Burrows and D. J. Wheeler. A block-sorting loss- less data compression algorithm. Digital Equipment Corporation, 1994.

[10] J. Cheng, C. Hatzis, H. Hayashi, M.-A. Krogel, S. Morishita, D. Page, and J. Sese. KDD Cup 2001 report. SIGKDD Explorations Newsletter, 3 (2):47–64, 2002.

[11] M. A. DePristo, E. Banks, R. Poplin, K. V. Garimella, J. R. Maguire, C. Hartl, A. A. Philippakis, G. del An- gel, M. A. Rivas, M. Hanna, A. McKenna, T. J. Fen- nell, A. M. Kernytsky, A. Y. Sivachenko, K. Cibulskis, S. B. Gabriel, D. Altshuler, and M. J. Daly. A frame- work for variation discovery and genotyping using next-generation DNA sequencing data. Nat. Genet., 43 (5): 491–498, 2011.

[12] T. S. Furey, N. Cristianini, N. Duﬀy, D. W. Bed- narski, M. Schummer, and D. Haussler. Support vector machine classiﬁcation and validation of cancer tissue samples using microarray expression data. Bioinfor- matics, 16 (10):906–914, 2000.

[13] M. Garber, M. G. Grabherr, M. Guttman, and C. Trapnell. Computational methods for transcrip- tome annotation and quantiﬁcation using RNA-seq.

Nature Methods, 8 (6):469–477, 2011.

[14] M. G. Grabherr, B. J. Haas, M. Yassour, J. Z. Levin, D. A. Thompson, I. Amit, X. Adico- nis, L. Fan, R. Raychowdhury, Q. Zeng, Z. Chen, E. Mauceli, N. Hacohen, A. Gnirke, N. Rhind, F. di Palma, B. W. Birren, C. Nusbaum, K. Lindblad- Toh, N. Friedman, and A. Regev. Full-length tran- scriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology, 29 (7):

644–652, 2011.

[15] X. Huang and A. Madan. CAP3: A DNA sequence assembly program. Genome Research, 9 (9):868–877, 1999.

[16] International Human Genome Sequencing Consor- tium. Finishing the euchromatic sequence of the hu- man genome. Nature, 431 (7011): 931–945, 2004.

[17] B. Jassal, S. Jupe, M. Caudy, E. Birney, L. Stein, H. Hermjakob, and P. D’Eustachio. The systematic annotation of the three main GPCR families in Reac- tome. Database : the Journal of Biological Databases and Curation, 2010: baq018, 2010.

[18] H. Jiang and W. H. Wong. Statistical inferences

for isoform expression in RNA-Seq. Bioinformatics, 25 (8): 1026–1032, 2009.

[19] M. Kanehisa and S. Goto. KEGG: Kyoto Encyclo- pedia of Genes and Genomes. Nucleic Acids Research, 28 (1): 27–30, 2000.

[20] W. J. Kent. BLAT–the BLAST-like alignment tool.

Genome Research, 12 (4): 656–664, 2002.

[21] B. Langmead, C. Trapnell, M. Pop, and S. L. Salzberg. Ultrafast and memory-eﬃcient align- ment of short DNA sequences to the human genome.

Genome Biology, 10 (3): R25, 2009.

[22] P. Larra˜ naga, B. Calvo, R. Santana, C. Bielza, J. Galdiano, I. Inza, J. A. Lozano, R. Arma˜ nanzas, G. Santaf´ e, A. P´ erez, and V. Robles. Machine learning in bioinformatics. Briefings in Bioinformatics, 7 (1):

86–112, 2006.

[23] D. A. Lashkari, J. L. DeRisi, J. H. McCusker, A. F. Namath, C. Gentile, S. Y. Hwang, P. O. Brown, and R. W. Davis. Yeast microarrays for genome wide parallel genetic and gene expression analysis. Proc.

Natl. Acad. Sci., 94 (24):13057–13062, 1997.

[24] B.-K. Lee, A. A. Bhinge, A. Battenhouse, R. M. McDaniell, Z. Liu, L. Song, Y. Ni, E. Bir- ney, J. D. Lieb, T. S. Furey, G. E. Crawford, and V. R. Iyer. Cell-type speciﬁc and combinatorial usage of diverse transcription factors revealed by genome- wide binding studies in multiple human cells. Genome Research, 22 (1): 9–24, 2012.

[25] H. Li and R. Durbin. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinfor- matics, 25(14): 1754, 2009.

[26] J. C. Marioni, C. E. Mason, S. M. Mane, M. Stephens, and Y. Gilad. RNA-seq: an assess- ment of technical reproducibility and comparison with gene expression arrays. Genome Research, 18 (9):

1509–1517, 2008.

[27] L. Matthews, G. Gopinath, M. Gillespie, M. Caudy, D. Croft, B. de Bono, P. Garapati, J. Hemish, H. Her- mjakob, B. Jassal, A. Kanapin, S. Lewis, S. Mahajan, B. May, E. Schmidt, I. Vastrik, G. Wu, E. Birney, L. Stein, and P. D’Eustachio. Reactome knowledge- base of human biological pathways and processes. Nu- cleic Acids Research, 37 (Database issue): D619–622, 2009.

[28] M. I. McCarthy, G. R. Abecasis, L. R. Cardon, D. B. Goldstein, J. Little, J. P. A. Ioannidis, and J. N. Hirschhorn. Genome-wide association studies for complex traits: consensus, uncertainty and challenges.

Nature Reviews Genetics, 9 (5):356–369, 2008.

[29] M. Micsinai, F. Parisi, F. Strino, P. Asp, B. D. Dyn- lacht, and Y. Kluger. Picking ChIP-seq peak detectors for analyzing chromatin modiﬁcation experiments. Nu- cleic Acids Research, 40 (9):e70.

[30] A. Mortazavi, B. A. Williams, K. Mccue, L. Scha- eﬀer, and B. Wold. Mapping and quantifying mam- malian transcriptomes by RNA-Seq. Nature Methods, 5 (7): 621–628, 2008.

[31] P. A. Pevzner, H. Tang, and M. S. Waterman. An Eulerian path approach to DNA fragment assembly.

Proc. Natl. Acad. Sci., 98 (17):9748–9753, 2001.

[32] H. Richard, M. H. Schulz, M. Sultan, A. Nurn-

berger, S. Schrinner, D. Balzereit, E. Dagand,

A. Rasche, H. Lehrach, M. Vingron, S. A. Haas,

(7)

and M. L. Yaspo. Prediction of alternative isoforms from exon expression levels in RNA-Seq experiments.

Nucleic Acids Research, 38 (10): e112–e112, 2010.

[33] J. Sese, M. Seki, and M. Fukuzaki. Proceedings of the 19th ACM International Conference on Infor- mation and Knowledge Management—CIKM ’10. In the 19th ACM International Conference, pages 1681–

1684, 2010.

[34] T. Suzuki, M. Sugiyama, T. Kanamori, and J. Sese.

Mutual information estimation reveals global associa- tions between stimuli and biological processes. BMC Bioinformatics, 10 (Suppl. 1): S52, 2009.

[35] I. Ulitsky, A. Maron-Katz, S. Shavit, D. Sagir, C. Linhart, R. Elkon, A. Tanay, R. Sharan, and Y. S. R. Shamir. Expander: from expression microar- rays to networks and functions. Nature Protocols, 5 :303–322, 2010.

[36] I. Ulitsky and R. Shamir. Identifying functional modules using expression proﬁles and conﬁdence- scored protein interactions. Bioinformatics, 25 (9):

1158, 2009.

[37] L. Wang, Z. Feng, X. Wang, X. Wang, and

X. Zhang. DEGseq: an R package for identifying diﬀerentially expressed genes from RNA-seq data.

Bioinformatics, 26 (1): 136–138, 2009.

[38] J. C. Wooley, A. Godzik, and I. Friedberg. A primer on metagenomics. PLoS Computational Biology, 6 (2):

e1000667, 2010.

[39] H. Xu, C.-L. Wei, F. Lin, and W.-K. Sung. An HMM approach to genome-wide identification of differ- ential histone modification sites from ChIP-seq data.

Bioinformatics, 24 (20): 2344–2349, 2008.

[40] Q.-H. Ye, L.-X. Qin, M. Forgues, P. He, J. W. Kim, A. C. Peng, R. Simon, Y. Li, A. I. Robles, Y. Chen, Z.-C. Ma, Z.-Q. Wu, S.-L. Ye, Y.-K. Liu, Z.-Y. Tang, and X. W. Wang. Predicting hepatitis B virus-positive metastatic hepatocellular carcinomas using gene ex- pression proﬁling and supervised machine learning.