図31: 集計の対象となったChIP-seqデータ データ量
実験数 1,081
サンプル数 2,943 入力FASTQの総量 4.45TB ここではデモンストレーションとして、
EN-CODE Project よりA549およびK562 細胞
のChIP-seqデータを解析した際の計算コスト
について述べる。1ヶ月間に計算したデータを 表31に示す。なお、集計が1ヶ月単位なのは AWSの請求が月毎であったためであり、解析 のスループットについては常時1,000vCPUコ ア以上の計算資源を活用できたため、実際の計
算は数日で完了している。また、インスタンスはアイドル状態の計算資源をおおよそ通常価格の6 割程度で使用できるスポットインスタンスをできるだけ使うよう設定した。また、AWSではS3 へのデータの保存・データのAWS外へのダウンロードに容量に応じた費用が掛かるが、1回のダ ウンロードに必要なコストはS3で保存する場合のおよそ3.5ヶ月分であり、長期的な観点では研 究室で管理しているオンプレミスのファイルサーバーで管理する方がコストが安いとの判断から、
解析が完了したデータはできるだけ早くダウンロードしS3上のファイルは削除するようにした。
なお、AWS内へのデータのアップロードは課金されない。
図32: データセットに対するAWSの計算コス ト
これに対して計算費用とその内訳は図32の ようになった。Storageは入力および解析デー タの保存に使用される金額であり、処理する データ量に対しておおよそ不変である。従っ て大規模解析において金銭的コストを占めるの はコンピューティングの費用とデータのダウン ロードに掛かる費用である。今回はこれらを合 算すると約2,461米ドルであった。ENCODE の各実験はサンプルか少なくともduplicateに なるようデザインされており、実験数・サンプ ル数と比較すると、1実験当たり約2ドル、1 サンプル当たり約 1ドルという概算を得るこ とができた。公開されているヒトChIP-seq実 験を5万件とすると、費用は約 5万ドルとな る。AWSでは大規模な並列化が可能であり計
算に必要な実時間が短期間で済むこと、計算機の管理コストやランニングコストが不要であるこ とを考慮すると、オンプレミスで計算環境を整備するよりも十分実用的であると言える。
24 ChIP-seq データベースの設計と実装
実験データの大規模な解析ができたとしても1人の研究者が個々の解析結果全てを検討するの は困難であり、解析結果はそれを必要としている研究者がリーチできるよう公開しなければなら ない。特にChIP-seqのデータは多くの要素が協調的に関与する転写制御を対象にしていること も多く、1つの実験データにたどり着くための検索機能だけでなく、複数のデータの関係性を明ら かにし、データの観察者が新たな生物学的発見をできるよう促す必要がある。これらの需要を満 たすために本研究では、
• 実験データごとの解析結果の可視化
• 遺伝子周辺領域における解析結果の可視化
• 実験データ間の大域的な類似度の可視化
という3つの機能を軸としてデータベースの開発を行った。本章ではこれまでの成果を元に得 られたデータを可視化する公共ChIP-seqデータベース、C4S(Comprehensive Collection and Comparison for ChIP-Seq)DBの設計、実装と使用例について記述する。
執筆段階で、C4S DBはテストバージョンをhttps://test.c4s.siteにて公開している。将 来的にはhttps://c4s.siteで公開される予定である。
図33: C4S DBのデータベーススキーマ
24.1 Web アプリケーションフレームワークとデータベーススキーマ
データベースの実装にはDjangoを用いた。DjangoはPythonで実装されたWebアプリケー ションフレームワークであり大規模なWebアプリケーションにも対応している。データを格納す るリレーショナルデータベースは複数の管理システムに対応しているが、本研究ではPostgreSQL を採用した。PostgreSQLは範囲型をサポートしており、遺伝子領域やピークの範囲など領域に 対応するデータを効率よく格納、検索することができるためである。
C4S DBのデータベーススキーマを図33に示す。C4S DBは内部的には主に3つのDjangoア プリケーションから構成されている。GENCODE82の遺伝子アノテーションを格納するgenes、
メタデータと解析結果を格納するviewer、解析結果のうち1実験に対応するConcordantなピー クを格納するpeaksである。