がんゲノムに係る事例 ‐ 米国国立がん研究所 NCI
58
がんゲノムに係る事例 ‐ 米国国立がん研究所 NCI
<AWSを選んだ理由>
全ゲノムPanCancer解析(PCAWG)研究は、
ICGCからの全ゲノム中の変異の共通パター ンを同定する国際的な共同研究である。
1,100以上のユニークなICGCドナーに対応 する2,400以上の⼀貫して分析されたゲノム が、Amazon S3でICGCデータ共有ポリシー の対象となる資格を持つ研究者に⾃由に利⽤
できるようになった。これらのデータには、
参照ゲノムアラインメント、SNVおよび indelコール、コピー数、および構造変異 コールが含まれる。このデータセットは、よ り多くの癌患者からのデータを追加すること によって拡張することが期待されている。
<AWSの利点>
世界最⼤の癌ゲノムデータコレクションを、
クラウド内で、研究者に提供することによっ て、協⼒体制が強化され、がん患者の新しい 治療法の開発が加速される。
AWSクラウドでの運⽤によって、研究者は、
ストレージコストやダウンロード時間を気に することなく、オンデマンドでデータを分析 できるようになった。
がんゲノム知識データベース構築とゲノムデータ⼤規模解析への貢献
がんゲノムに係る事例 ‐ 米国国立がん研究所様 NCI
60
がんゲノム知識データベース構築とゲノムデータ⼤規模解析への貢献
<AWSを選んだ理由>
ICGCは、ICGCデータを分析するための低コストでスケーラブルなコ ンピューティングソリューション(Amazon EC2)を導⼊するために AWSと提携した。
<AWSの利点>
全ゲノムPanCancer(PCAWG)研究で作成された⽣データ、ゲノム アラインメント、関連するメタデータ、ならびにICGCプロジェクトに 提出されたデータ、European Genome Archive(EGA)は、定期的 に収集され段階的にAmazon S3にアップロードされている。
※リポジトリのデータコンテンツの最新の要約が右側に提供されてい る。
※ユーザーガイドには、AW S上のICGCデータにアクセスして分析⽅
法の⼿順が段階的に説明されている。
がんゲノムに係る事例 ‐ 米国国立がん研究所 NCI
がんゲノム知識データベース構築とゲノムデータ⼤規模解析への貢献
コンプライアンス
AW S上のICGCデータデータおよび関連する検索およびアクセスツールは、ICGCデータコーディ ネーションセンター(DCC)によって管理されている。
読取りレベルのデータは管理された層にあり、 このデータにアクセス するために必要な解読キー を取得するためには、ICGCデータアクセスコンプライアンスオフィス(DACO)への申請が必要 になる。
ワークフロー
PCAWGプロジェクトでは、BWA-Memを⽤いたアライメントのための標準化されたゲノム全体の ワークフローが作成されている。
サンガー研究所、ブロード研究所、DKFZ /EMBLなどは、ユーザーが同じワークフローを使⽤して データ分析できるようにする「ランチャー」AMIを介して、研究コミュニティにデータを提供して いる。 現在、BWAアラインメントワークフローをサポートしているため、ユーザーはデータを AWS S3にロードしたり、多数のVMを同時に起動したりして、データを並⾏して分析し、その結
がんゲノムに係る事例 ‐ 米国 Edico genome
62
超⾼速解析
ヒト全ゲノムデータ解 析について、25分で 従来の30倍のカバレッ ジを達成した。
データストレージ
FASTQデータやBAMファイ ルをリアルタイム圧縮して ストレージ容量を410倍 抑えることができた。
コスト削減
80-100台分の従来のコン ピューティングインスタ ンを、1台のインスタン スに置き換えた。
⾼精度なアルゴリズム開発 FDAの6Precision metrix 中5つのmetrixを達成する
⾼精度なゲノム解析アプリ ケーションを開発できた。