c
オペレーションズ・リサーチ生命情報解析で活躍する機械学習
瀬々 潤
生命情報学と機械学習の結びつきは長い.1990年代から配列解析には隠れマルコフモデルが,疾患予測に はクラス分類手法やクラスタリングが積極的に利用されてきた.ところが,2000年代後半に登場した
DNA
配列を超並列で読み取る高速シーケンサの急速な発展により,生命情報学は未曾有の大規模データ時代に突 入し,データの量,質ともに向上著しいうえ,データの多様化も進んでいる.本稿では,高速シーケンサに よってどのようなデータが生まれてきているかを,そして,そのデータ解析の現状について概観を述べた後,これらのデータ解析に用いられている機械学習や最適化手法を紹介する.
キーワード:高速シーケンサ,遺伝子発現,発現制御,
1
塩基置換,データ融合1.
序論バイオインフォマティクス(生命情報学)は,生命 科学にまつわる情報を扱う分野である.ヒトの体は約
60
兆個に上る細胞から構成され,各細胞はタンパク質 が組み合わさることで形作られている.タンパク質の 情報は,各細胞に含まれるゲノムに刻み込まれており,ゲノムは
4
種類の塩基,アデニン(A)
,チミン(T)
,グ アニン(G)
,シトシン(C)
が鎖状に連なった化学物質 である(図1
).ヒトでは約30
億の塩基が連なってい る.生命情報学は,このゲノムの塩基配列から疾患情 報に至るまでの多様な情報を,また,ヒトだけでなく 動物,植物,細菌などの微生物まで多彩な種の生命に 関連する情報を広く扱う分野である.生命情報学では機械学習が頻繁に応用され,活用され てきた.
2005
年頃までの機械学習の活用はLarra˜ naga
ら[22]
の論文が詳しいが,生命情報を取り巻く状況 は2000
年代後半から大きく変化している.特に,高速 シーケンサ(次世代シーケンサ,超並列シーケンサな ど異なる呼び方がされるが,いずれも同一のものを指 している)の登場によるデータの量と質の変化が大き く,その言葉の生まれる前からビックデータの時代を 迎えていた.本論文では,この高速シーケンサによっ て生まれた変化がどのようなものであるかを紹介した うえで,現在の機械学習の応用例を示していく.1.1
高速シーケンサの登場2003
年4
月のヒトゲノム解読[16]
によって,ヒト 一人のゲノム配列が解読された.これはゲノム配列解せせ じゅん
東京工業大学 大学院情報理工学研究科
〒
152–8550
東京都目黒区大岡山2–12–1 W8–60
図
1
ゲノム情報の流れ析の終焉ではなく,ゲノム配列利用のスタート地点に 立ったことを意味している.ヒトゲノム計画は日,米,
英,仏,独,中を始めとする国際コンソーシアムを組 織し,十年以上の時間をかけて一人のゲノムを読むも のであった.それに対し,米国国立衛生研究所(
NIH
) が2004
年からサポートを開始した「1000
ドルゲノム 計画」では,1000
ドルで一人のゲノム情報をすべて読 める技術を目指した.この流れに呼応してゲノム配列 を読むために必要なコストは急速に下落した.ヒト一 人分のゲノムを読むためにかかる費用は2003
年初め では5
千万ドルであったが,2011
年11
月時点で1
万 ドルを切り,約8
年で5,000
分の1
の価格に下落して いる.同時にシーケンサが配列を読む速度向上も著し い(表1
).さらに現時点で,配列解読方式が異なる シーケンサが複数存在し,それぞれの特色を出しつつ 発展しているため,ゲノムを読む技術は,しばらくの 間はより安価に,より高速になる可能性が高い.1.2
アルゴリズムから機械学習へ高速シーケンサが出力する大量の配列情報を解析す るため,さまざまな計算機科学の技術が必要となった.
まず,一度高速シーケンサを動かすと数百
GB
のシー表
1 DNA
シーケンサの発展.コストと量の比較.年 ヒト一人分を 一度の実験で読める 読むコスト シーケンス量
2003
年5,000
万ドル5
万塩基2011
年1
万ドル6,000
億塩基コ ス ト は DNA Sequencing Costs (http://www.genome.gov/sequencingcosts/), 2012年1月25日分より抜粋.シーケンス量はABI 社およびIllumina社の資料より.
ケンスデータ(塩基配列および配列の精度情報)が出 力される.この情報を整理して蓄積するだけでも必ず しも容易なことではない.現在,この大規模データの 転送手段としてインターネット経由ではなくポータブ ルハードディスクを物理的に郵送することも少なくな い.次に,解析に必要なアルゴリズムの開発である.ゲ ノム解析において典型的なタスクにアラインメントと アセンブルがある(図
2
).アラインメントは読んだ配 列のうち,既存の配列中に一致するものが存在するか 否か検索する問題であり,最も有名なソフトウエアにBLAST[2]
がある.BLAST
の高速化は従来から問題 であったため,BLAT[20]
を始めとするアラインメン トソフトウエアが開発されていた.速度が遅い問題は 高速シーケンサの登場で,より重要な問題となりアラ インメントの高速化が行われた.特にアラインメント するべき配列の長さが短い(100
塩基未満程度)ことから,
BLAST
同様に動的計画法を用いる方法ではなく,
Burrows-Wheeler
変換[9]
を用いるもの[21, 25]
に変化していった.一方,アセンブルはシーケンサで得 られた配列をつなぎあわせ,一本の染色体にまとめ上 げるタスクである.旧世代シーケンサの時代には,類 似部分をつなぎあわせる
Overlap-Layout-Consensus
法[6, 15]
が用いられていたが,高速シーケンサに対 しては連続するk -
塩基間の接続をグラフ構造で表すde Bruijn graphs
のアプローチ[14, 31, 41]
が主とし て用いられている.これらのアルゴリズム開発により,高速シーケンサ
を利用したゲノム配列解析の基盤技術が確立された.
次に高速シーケンサによって変化した実験手法の一例 を挙げ,その後,新たな実験手法の登場にともなって 必要となっている機械学習技術を述べる.
2.
遺伝子発現量計測法の変化高速シーケンサは,高速かつ安価に
DNA
配列を読 む機械だが,このシーケンサを利用した新たな実験が 生まれている.ここでは一例として,遺伝子発現量観 測を示す.ヒトのゲノム上には
25,000
程度の遺伝子領域が存 在し,これらの遺伝子を利用して,我々の生命活動が 営まれている.これら遺伝子配列はすべての細胞にお いて同一であるが,その一方で我々の体には,脳,胃,皮膚のように形も機能も異なる細胞が存在する.これ らの違いを生む主な要因が遺伝子の使われ方である.
25,000
の遺伝子は,言わば辞書中の単語であって,細 胞を新聞記事と仮定すると,記事中には使われる単語 も使われない単語も存在する.同様に,各細胞では使 われる遺伝子が異なり,遺伝子が使われるにはDNA
の配列がmRNA
に転写される必要がある.遺伝子が 転写されることを,「発現」と呼ぶ.遺伝子の発現制 御ははオン・オフの2
値ではなく,時と場合によって,転写量が変化する連続量である.文章中に利用される 頻出単語が存在するように,頻繁に転写される遺伝子 が存在する.このような遺伝子を「発現量が高い」と 言う.
例えば,図
3(A)
,(B)
ではゲノム上の遺伝子1
と2
から異なる量のmRNA
が発現している.二つの遺伝 子の発現比率は細胞によって異なるし,同一細胞でも 時間によって動的に変化する.mRNA
の量の違いは翻 訳されてできるタンパク質の量の違いにつながり,ひ いては細胞を構成する要素の変化となるため,mRNA
量を観測することで,細胞の状態を知ることが可能で ある.図
2
アラインメントとアセンブル.二つの配列の間に引かれた縦線は,配列が一致していることを表している.図
3 RNA-seq
法による遺伝子発現量の定量化図
4
リシーケンシングの模式図と問題点ヒト全遺伝子の発現量を計測する手法としてマイク ロアレイ
[23]
が利用されてきた.マイクロアレイは 基板上に全遺伝子に関する1
本鎖DNA
配列を合成し ておき,そこにmRNA
を蛍光した細胞抽出液を流す.1
本鎖DNA
は相補配列を発見して結合する性質があ り,結合したか否か,また,結合した量を蛍光の強さ を計測することで定量化する手法である.マイクロア レイで観測されたデータの解析には多数の機械学習手 法が応用されてきた[12, 40]
.この定量化手法は,現在高速シーケンサを利用した手 法である
RNA-seq[13, 26, 30]
に取って代わられよう としている(図3
).RNA-seq
では,細胞からmRNA
を抽出し,このmRNA
を断片化したうえで高速シー ケンサで読む(図3(C)
).一度断片化する理由は,現 在のシーケンサでは一度に読める長さが短く,遺伝子 の全長を読むことができないためである.読んだ配列 が,どの遺伝子由来であったのかを調べるため,ゲノ ム(もしくは既知の遺伝子配列)にアラインメントし(図
3(D)
),各遺伝子から得られた配列数を計数する ことで遺伝子の発現量を調べる手法である(図3(E)
).RNA-seq
によって,マイクロアレイに比べ,実験に価格の下落が起こると同時に,定量性が増加しており,
今後は
RNA-seq
が多く使われるだろう.ところが,
RNA-seq
では,遺伝子全体から配列が均 一に採取されるわけではない(図3(F)
).これは計測 手法の問題だけでなく,遺伝子が発現する際に起こる 発現の開始点にゆらぎが含まれていたり,選択的スプ ライシングと呼ばれる必ずしも遺伝子全体が発現する わけではない現象など生物学的な要因も含まれる.こ の問題に対応するため,選択的スプライシングをモデ ル化し,解析する手法[18, 32]
が開発されている.ま た,マイクロアレイの解析で問題だった実験間の結果 比較に関してもRNA-seq
に合わせた手法が必要となっ ており,データの定量性確保に向けたモデル化と最適 化研究が進行している[37]
.3.
リシーケンシングの曖昧性解消高速シーケンサの主要用途として挙げられるものに リシーケンシング(
re-sequencing
)がある.リシーケ ンシングとは,ヒトなどの既にゲノム配列が決定した 種に対し,再度ゲノム配列をシーケンサで読み,個体 間の微細なゲノム配列の違い(変異.置換だけでなく 欠失や挿入も含む)を調べることである.この違いと 疾患との間に関連性が見られるならば,ゲノム配列の 違いが疾患に関連する可能性が高く,疾患が予測でき る可能性がある.また,同じ症状であっても人によっ て薬剤効果が異なる場合があり,ゲノム情報から薬剤 効果を予測できる可能性がある[28]
.リシーケンシングでは高速シーケンサで読まれた各 リードから変異の位置を特定することが重要である.
図
4(A)
に個人のゲノム配列をリシーケンシングした 模式図を示す.参照する配列に対しシーケンス結果を アラインメントすると特定の位置に参照ゲノムとは異 なる配列が発見できる.もし,変異の位置の特定を間 違った場合は,疾病に関連して検査すべき位置を間違 えることとなり,対象の疾病が見つからない可能性が 起こる.図4(B)
では,参照ゲノムに対して4
本のシー ケンスをアラインメントした結果,複数箇所に変異が 入り,かつ,すべてのシーケンスに共通した変異が見 られない.この結果は,個々の配列をアラインメント する場合には最適な解と考えられるが,一人のゲノム 配列から得られたシーケンスであることから,機械が シーケンスの読み取りに失敗している場合を除き,存 在し得ない解答である.(本来ヒトは2
倍体であり,両 親から受け継いだ2
本の異なる配列を有しているが,説明を簡単にするため
1
種類のみの配列を有している 状態を考える.)このアラインメント結果に対し,すべてが同一の変 異(置換,挿入,欠失)を起こしていると仮定すると,
補正後の結果に示すような解答が考えられ,参照ゲノ ムに比べて調べた個体が
4
塩基の欠失を起こしている ことがわかる.このように個々のアラインメントでは 最適でなくとも,複数のアラインメント結果から全体 として最適な解答を得られる手法として,変異に確率 分布を設定しBayes Gausian Mixture Model
で定式 化して解く手法MSA[11]
が提案されている.また,高 速シーケンサのリードは,旧世代のシーケンサに比べ 読み取りミスが少し多い傾向があり,エラーも十分に 考慮する必要がある点も,この問題を難しくしている.リシーケンシングで見つかった変異と疾患などの個 体の特徴量を関連付ける
Genome Wide Association Study (GWAS)
が盛んに研究されている.単一の変異 と特徴量の相関分析が多いが,複数の変異の組み合わ せによって説明できる特徴量の高速な抽出に関する研 究[1]
も今後の課題である.4.
遺伝子発現制御の推定2
章で遺伝子発現観測の手法としてRNA-seq
を導入 し,遺伝子は状況に応じて発現が変化することを説明 した.発現が状況に応じて機敏に変化できるよう,ゲノ ム配列中には発現を制御するスイッチに相当する部分 配列が存在する.このスイッチを押すタンパク質は転写 因子と呼ばれ,特定の転写因子がDNA
上の特定の位 置に結合することで遺伝子が発現する.この転写場所を 高速シーケンサを用いて調べる方法として,ChIP-seq
(免疫沈降シーケンシング法)がある(図
5(A)
).転 写因子がDNA
に結合した状態で,DNA
を断片化し,その後,転写因子と
DNA
の複合体のみを抽出した後,DNA
を分離し,そのDNA
を読む方法である.読んだ配列は転写因子が結合している場所からのみ 得られることが期待されるが,実際には,転写因子の 結合がそれほど強固でない場合や,実験的なノイズな ど多様な要因により山形の分布を重ね合わせたものと
図
5 ChIP-seq
実験の概観と問題点図
6 ChIP-seq
とRNA-seq
の関係なる(図
5(B)
).この結果から,実際に転写因子の結合 部位を予測するために,ガウス分布の重ね合わせによ る推定[8]
やHidden Markov Model
による推定[39]
など異なるアプローチによる推定が行われている.ま た,これらの手法で要求される膨大なパラメータの最 適化は現在も課題となっている
[29]
.5.
異なるデータの融合上記のように,現在の生命科学では異なるデータが 大規模に得られている.その一方で今までの知識を統 合したデータベースの整備も進んでおり,これらのデー タと知識を融合することで新たな発見へと結びつける 手法の開発が盛んに行われている.
データ間の融合では,前述の遺伝子発現,
ChIP-seq
,GWAS
などのデータの融合が盛んである.例えばChIP-seq
は遺伝子の発現の制御を調査する実験であ り,遺伝子発現はその結果として現れるものと考えら れるため,因果関係の発見が期待される(図5
).こ れらの情報を組み合わせることにより,どのスイッチ,あるいはスイッチの組み合わせが,どの場面で利用さ れているのかを調査する研究が行われている
[24]
.大量のデータが生まれることで,遺伝子の機能がよ り詳細にわかってきている.遺伝子機能は単なるラベ ルではなく,
Gene Ontology Consortium
によって非 循環有向グラフ(DAG
)形式に表して整理されている[7]
.従来の遺伝子機能や局在(存在場所)予測では機 能がマルチラベル(重複を許したラベル)として扱わ れ,マルチラベルの予測問題として解かれたり[10]
, 機能と発現の相関が計算されて[34]
いたが,機能間のDAG
構造を活かして機能を予測する問題として解か れる試みも行われている[4, 5]
.生物学的に重要なことは,単なる遺伝子の機能予測で はなく観測結果から細胞中で何が起きているかを読み 取る技術の開発である.細胞の中は,タンパク質同士や 化合物が互いにシグナルのやり取りを繰り返すことで活 動している.どのようなシグナルのやり取りが起こりう るかの細胞内地図として,
Kyoto Encyclopedia Genes and Genomes (KEGG) [19]
,Reactome.org [17, 27]
,BIND [3]
などが構築されている(それぞれ生物学的・化学的に扱っている階層が異なるが,ここでは一緒く たに扱った).またこれらを統合する商用製品として
IPA (http://www.ingenuity.com/index.html)
など さまざまな地図が書かれている.これらの地図には時 間や空間情報がないため,遺伝子発現の情報を統合す ることで,細胞内のシグナルを解明する研究も盛んで ある[33, 35, 36]
.6.
今後の展開—モデル生物以外への拡張高速シーケンサの登場で変化したものは,ヒトの研 究だけではない.現在まで,ゲノム配列を読むこと自 身が非常に高価であったため,ゲノムが解読された種 は,ヒト,マウス,ショウジョウバエ,線虫,シロイ ヌナズナ,酵母など実験で頻繁に用いられるモデル生 物と呼ばれるものに限定されていた.これに対し高速 シーケンサによって大量の
DNA
シーケンスが読める ようになったことでモデル生物以外の種のゲノム配列 も比較的容易に決定できるようになり,モデル生物同 様の解析が可能となった.今後,種間の比較解析によ る新規発見が期待されている.また,腸内細菌や土壌細菌など細菌を大量に観測す る手法はメタゲノムと呼ばれ進展が著しい
[38]
.現段 階では,存在する種の傾向を知ることが主眼であるが,徐々に問題が定式化され,例えば腸内細菌の配列情報
(量的形質を含む配列情報)から疾患状態を知るような 予測問題へと定式化が行われるだろう.
謝辞 本稿は,
2011
年11
月に行われた第14
回情報 論的機械学習理論ワークショップ(IBIS2011
)で行っ た企画セッション「次世代DNA
シーケンサ技術が求 める知的情報処理」内の講演「次世代シーケンサ解析 で新たに求められる機械学習」を基に構成したもので す.本企画に携わった皆様に,深く感謝いたします.参考文献