大規模解析の実施と計算コストの評価 - ChIP-seqデータベースの構築による遺伝子転写制御機構の解明

図31: ^{集計の対象となった}ChIP-seq^データデータ量

実験数 1,081

サンプル数 2,943 入力FASTQの総量 4.45TB ここではデモンストレーションとして、

EN-CODE Project ^よりA549^およびK562 ^細胞

のChIP-seqデータを解析した際の計算コスト

について述べる。1ヶ月間に計算したデータを表31^{に示す。なお、集計が}1^{ヶ月単位なのは} AWSの請求が月毎であったためであり、解析のスループットについては常時1,000vCPU^コア以上の計算資源を活用できたため、実際の計

算は数日で完了している。また、インスタンスはアイドル状態の計算資源をおおよそ通常価格の6 割程度で使用できるスポットインスタンスをできるだけ使うよう設定した。また、AWS^ではS3 へのデータの保存・データのAWS外へのダウンロードに容量に応じた費用が掛かるが、1^回のダウンロードに必要なコストはS3で保存する場合のおよそ3.5ヶ月分であり、長期的な観点では研究室で管理しているオンプレミスのファイルサーバーで管理する方がコストが安いとの判断から、

解析が完了したデータはできるだけ早くダウンロードしS3上のファイルは削除するようにした。

なお、AWS内へのデータのアップロードは課金されない。

図32: ^{データセットに対する}AWS^{の計算コス} ト

これに対して計算費用とその内訳は図32^のようになった。Storage^{は入力および解析デー} タの保存に使用される金額であり、処理するデータ量に対しておおよそ不変である。従って大規模解析において金銭的コストを占めるのはコンピューティングの費用とデータのダウンロードに掛かる費用である。今回はこれらを合算すると約2,461^{米ドルであった。}ENCODE の各実験はサンプルか少なくともduplicate^になるようデザインされており、実験数・サンプル数と比較すると、1^{実験当たり約}2^ドル、1 サンプル当たり約 1ドルという概算を得ることができた。公開されているヒトChIP-seq^実験を5万件とすると、費用は約 5万ドルとなる。AWSでは大規模な並列化が可能であり計

算に必要な実時間が短期間で済むこと、計算機の管理コストやランニングコストが不要であることを考慮すると、オンプレミスで計算環境を整備するよりも十分実用的であると言える。

24 ChIP-seq データベースの設計と実装

実験データの大規模な解析ができたとしても1人の研究者が個々の解析結果全てを検討するのは困難であり、解析結果はそれを必要としている研究者がリーチできるよう公開しなければならない。特にChIP-seqのデータは多くの要素が協調的に関与する転写制御を対象にしていることも多く、1つの実験データにたどり着くための検索機能だけでなく、複数のデータの関係性を明らかにし、データの観察者が新たな生物学的発見をできるよう促す必要がある。これらの需要を満たすために本研究では、

• 実験データごとの解析結果の可視化

• 遺伝子周辺領域における解析結果の可視化

• 実験データ間の大域的な類似度の可視化

という3つの機能を軸としてデータベースの開発を行った。本章ではこれまでの成果を元に得られたデータを可視化する公共ChIP-seq^{データベース、}C4S^（Comprehensive Collection and Comparison for ChIP-Seq^）DBの設計、実装と使用例について記述する。

執筆段階で、C4S DB^{はテストバージョンを}https://test.c4s.site^{にて公開している。将} 来的にはhttps://c4s.siteで公開される予定である。

図33: C4S DBのデータベーススキーマ

24.1 Web アプリケーションフレームワークとデータベーススキーマ

データベースの実装にはDjango^{を用いた。}Django^はPython^{で実装された}Web^{アプリケー} ションフレームワークであり大規模なWebアプリケーションにも対応している。データを格納するリレーショナルデータベースは複数の管理システムに対応しているが、本研究ではPostgreSQL を採用した。PostgreSQLは範囲型をサポートしており、遺伝子領域やピークの範囲など領域に対応するデータを効率よく格納、検索することができるためである。

C4S DBのデータベーススキーマを図33^に示す。C4S DB^{は内部的には主に}3^つのDjango^アプリケーションから構成されている。GENCODE⁸²の遺伝子アノテーションを格納するgenes^、

メタデータと解析結果を格納するviewer^{、解析結果のうち}1^{実験に対応する}Concordant^なピークを格納するpeaks^である。

ドキュメント内 ChIP-seqデータベースの構築による遺伝子転写制御機構の解明 (ページ 80-83)