アノテーション・フィルタリング用パイプラインと
クリニカルレポートの作成
フィルジェン株式会社 バイオサイエンス部
(biosupport@filgen.jp)
クリニカルシーケンス解析パイプライン
1. リファレンスゲノム配列への
アライメント/マッピング
2. 変異の検出
3. アノテーション付けとフィルタ
リング
4. レポートの作成
データを外部サーバーにアップロードせず、ローカルコンピュータ
のみで解析を行う。
検出された変異データをまとめ、疾患情報と関連付けた
レポートを作成できる。
シンプルな操作性で、高度な専門知識がなくても使用できる。
臨床現場で活用する場合は・・・
シンプルな操作で、変異データのアノテーショ
ン付け、フィルタリング、データの解釈が可能
ワークフローを用いたユーザー独自の解析パ
イプラインを作成可能
各種公共データベース、ユーザー独自定義
データベースによるアノテーション付け
• dbSNP • ClinVar • COSMIC • 1000 Genome • NHLBI 6500 Exomes• SIFT and PolyPhen ...など
家族内サンプルを用いたトリオ解析、
がん-正常サンプルの解析に対応
各種グラフ表示機能
• LD(連鎖不平衡)プロット • 数値データプロット • BAMファイルプロット(ゲノムブラウザー) • アレル配列プロット ...などVarSeq
®
製品ラインナップ
OncoMD-Access
VSPipeline
VSReport
• がん関連変異データベース • 変異データへのアノテーション 付けに利用 • 臨床試験やFDA承認薬の情 報などを含む • コマンドライン解析用ツール • 複数サンプルデータのバッチ処 理に利用 • VarSeq®で作成したワークフ ローを実行可能 • ユーザー独自で構築したバイ オインフォマティクス解析パイプ ラインに組み込んでの使用が 可能 • レポート作成モジュール • フィルタリングを行った変異デー タから、疾患レポートを作成 • 変異と疾患との関連付けには 、OMIMデータベースの情報を 利用 • 遺伝子パネルを用いた解析結 果のサマリーに有用
フィルタリングワークフロー
変異データテーブル ゲノムブラウザー
クラウドコンピューティングを利用せず、ローカルマシンで解析を実行。
シンプルなインターフェースを搭載し、直観的な操作で解析が可能。
VCFファイル
アノテーションデータはGolden Helix社のサーバー から、データベース管理ツールを使ってダウンロード。 各アノテーションデータは、Golden Helix社によって データの精査、メンテナンスが行われている。 データは生物種ごとに分類されており、解析に使用 する生物のデータをダウンロード可能。
アノテーションデータのダウンロード
• AceViewGenes • CCDS Genes • COSMIC Genes • CpG Islands • Ensembl Genes • GenBank Genes • NCBI Genes • OMIM Genes • RefSeq Genes
• 1kG Phase3 – CNVs and Large Variants 5 • 1kG Phase3 – Variant Frequencies 5 • 1kG Pilot All – Low Coverage Sites • ClinVar
• ClinVar CNVs and Large Variants
• ClinVitae
• dbNSFP Functional Predictions • dbscSNV Splice Altering Predictions • dbSNP
• dbSNP Common • DGV Variants
• ExAC VEP Annotations • GWAS Catalog
• NHLBI ESP6500SI-V2 Exomes Variant • SIFT Prediction for SNVs
• PolyPhen2
• Pfam Domain Genes • UniProt Variants
...etc
Annotation例
初期変異データ数
フィルタリング結果の変
異データ数
各フィルタリング項目の
条件をクリアしたデータ
数
フィルタリング項目
フィルタリングワークフローでは、フィルタリング項目が表示。
フィルタリング項目は自由に追加・並べ替えが可能。
フィルタリング条件を柔軟に変更し、変更結果がリアルタイムで反映される。
フィルタリングワークフロー
トリオ解析ワークフロー例
Table画面では変異のテーブルデータが表示。
テーブルデータには様々なアノテーションを追加することが可能
変異データテーブル
Annotation
Detail画面では各変異の詳細情報や、カテゴリー分類のヒストグラムを確認
Linkage Disequilibrium(連鎖不平衡)プロット 数値データプロット
解析手順
1. 解析サンプルのVCFファイルをインポート 2. アノテーション付加のデータベースを選択 3. フィルタリング条件の設定 4. 解析結果の変異データの詳細を確認解析結果画面
がん研究にフォーカスした、ヒューマンキュレーションのナレッジデータベース VarSeq®からアクセスし、アノテーション 付けに使用可能 変異や遺伝子の、関連する臨床試験 やFDA承認薬、さらに薬物ターゲットなど の情報を含む
OncoMD-Access
解析作業のオートメーション化に利用
作成したワークフローのコマンドプログラムをロー
ドし、複数サンプルデータのバッチ処理が可能
OMIMデータベースの情報に基づき、変異 または遺伝子の臨床情報とリンクしたレ ポートを作成 レポートには、サンプル情報や実験情報な ども記載し、カスタマイズも可能
VSReport
無償で利用できる、専用のビューワーソフ
トを使用し、解析結果の共有や視覚化が 可能
HGVDデータベースの活用
VarSeq®では、独自フォーマットの変異データファイルのインポートにも対応し、 HGVD (http://www.genome.med.kyoto-u.ac.jp/SnpDB/index.html) などの日本人 変異データの利用が可能。 インポートした日本人変異データは、アノテーション付けやフィルタリングに利用し、サンプル変異データ から、日本人集団内で低頻度に存在する変異のみを抽出することが可能。 フィルタリングを行う際は、HGVDデータ内の変異データのサンプル数やリード深度情報も活用し、信 頼性の低い変異を除外することが可能。日本人変異データの準備
例1: がん関連変異の検出 HGVDデータ中に高頻度で存在する変異を除去し、日本人集団内に低頻 度で存在する変異のみのデータとしたうえで、がん関連データベースCOSMIC に登録されている変異を抽出する。 HGVD • 100サンプル以上かつリード深度30以上の データを除去する。 COSMIC • データベース内に含まれるデータのみを抽出 する。
ワークフロー例
例2: 病原性をもつと予測される変異の検出 日本人集団内に低頻度で存在する変異のみのデータとしたうえで、タンパク 質アミノ配列に変化を及ぼす変異、さらにそれらの中から病原性をもつと推定 される変異をピックアップする。 非同義変異 • タンパク質アミノ酸配列に変化を及ぼす変異 のみを抽出する。 PolyPhen2 • 生体に有害と判定された変異のみを抽出す る。
ワークフロー例
例3:
トリオ解析によるde Novo mutationの検出
日本人集団内に低頻度で存在する変異のみのデータとしたうえで、父親、母 親、子供のデータでトリオ解析を実行する。 トリオ解析 父親、母親、子供のデータを読み込み、アリルが 両親では変異なしのホモ、子供ではヘテロのデータ を抽出する。
ワークフロー例
•
Illumina TruSight Myeloid Sequencing Panel
– Three replicates at different percentages of Horizon Dx known somatic
mutations with NA12877 (increase in dilution from 10%, 25% and 50%)
•
Comprehensive coverage of 54 genes designed to target exons of key
tumor suppressor genes and frequently cited oncogenes mutated
frequently in myeloid malignancies
•
BAM and VCF files for each replicate are available
•
Targeted regions are available in a BED file
•
High Coverage, average read depth over the targeted regions
– For the three replicate the average read depth is 2043 reads
患者、サンプル、実験情報
パネルに含まれる遺伝子
検出された変異や遺伝子 の臨床情報