• 検索結果がありません。

がんゲノム知識データベース構築とゲノムデータ⼤規模解析への貢献

がんゲノムに係る事例 ‐ 米国国立がん研究所 NCI

58

がんゲノムに係る事例 ‐ 米国国立がん研究所 NCI

<AWSを選んだ理由>

全ゲノムPanCancer解析(PCAWG)研究は、

ICGCからの全ゲノム中の変異の共通パター ンを同定する国際的な共同研究である。

1,100以上のユニークなICGCドナーに対応 する2,400以上の⼀貫して分析されたゲノム が、Amazon S3でICGCデータ共有ポリシー の対象となる資格を持つ研究者に⾃由に利⽤

できるようになった。これらのデータには、

参照ゲノムアラインメント、SNVおよび indelコール、コピー数、および構造変異 コールが含まれる。このデータセットは、よ り多くの癌患者からのデータを追加すること によって拡張することが期待されている。

<AWSの利点>

世界最⼤の癌ゲノムデータコレクションを、

クラウド内で、研究者に提供することによっ て、協⼒体制が強化され、がん患者の新しい 治療法の開発が加速される。

AWSクラウドでの運⽤によって、研究者は、

ストレージコストやダウンロード時間を気に することなく、オンデマンドでデータを分析 できるようになった。

がんゲノム知識データベース構築とゲノムデータ⼤規模解析への貢献

がんゲノムに係る事例 ‐ 米国国立がん研究所様 NCI

60

がんゲノム知識データベース構築とゲノムデータ⼤規模解析への貢献

<AWSを選んだ理由>

ICGCは、ICGCデータを分析するための低コストでスケーラブルなコ ンピューティングソリューション(Amazon EC2)を導⼊するために AWSと提携した。

<AWSの利点>

全ゲノムPanCancer(PCAWG)研究で作成された⽣データ、ゲノム アラインメント、関連するメタデータ、ならびにICGCプロジェクトに 提出されたデータ、European Genome Archive(EGA)は、定期的 に収集され段階的にAmazon S3にアップロードされている。

※リポジトリのデータコンテンツの最新の要約が右側に提供されてい る。

※ユーザーガイドには、AW S上のICGCデータにアクセスして分析⽅

法の⼿順が段階的に説明されている。

がんゲノムに係る事例 ‐ 米国国立がん研究所 NCI

がんゲノム知識データベース構築とゲノムデータ⼤規模解析への貢献

コンプライアンス

AW S上のICGCデータデータおよび関連する検索およびアクセスツールは、ICGCデータコーディ ネーションセンター(DCC)によって管理されている。

読取りレベルのデータは管理された層にあり、 このデータにアクセス するために必要な解読キー を取得するためには、ICGCデータアクセスコンプライアンスオフィス(DACO)への申請が必要 になる。

ワークフロー

PCAWGプロジェクトでは、BWA-Memを⽤いたアライメントのための標準化されたゲノム全体の ワークフローが作成されている。

サンガー研究所、ブロード研究所、DKFZ /EMBLなどは、ユーザーが同じワークフローを使⽤して データ分析できるようにする「ランチャー」AMIを介して、研究コミュニティにデータを提供して いる。 現在、BWAアラインメントワークフローをサポートしているため、ユーザーはデータを AWS S3にロードしたり、多数のVMを同時に起動したりして、データを並⾏して分析し、その結

がんゲノムに係る事例 ‐ 米国 Edico genome

62

超⾼速解析

ヒト全ゲノムデータ解 析について、25分で 従来の30倍のカバレッ ジを達成した。

データストレージ

FASTQデータやBAMファイ ルをリアルタイム圧縮して ストレージ容量を4­10倍 抑えることができた。

コスト削減

80-100台分の従来のコン ピューティングインスタ ンを、1台のインスタン スに置き換えた。

⾼精度なアルゴリズム開発 FDAの6Precision metrix 中5つのmetrixを達成する

⾼精度なゲノム解析アプリ ケーションを開発できた。

関連したドキュメント