アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

(1)

アノテーション・フィルタリング用パイプラインと

クリニカルレポートの作成

フィルジェン株式会社バイオサイエンス部

([email protected])

(2)

クリニカルシーケンス解析パイプライン

1. リファレンスゲノム配列への

アライメント／マッピング

2. 変異の検出

3. アノテーション付けとフィルタ

リング

4. レポートの作成

(3)

 データを外部サーバーにアップロードせず、ローカルコンピュータ

のみで解析を行う。

 検出された変異データをまとめ、疾患情報と関連付けた

レポートを作成できる。

 シンプルな操作性で、高度な専門知識がなくても使用できる。

臨床現場で活用する場合は・・・

(4)

 シンプルな操作で、変異データのアノテーショ

ン付け、フィルタリング、データの解釈が可能

 ワークフローを用いたユーザー独自の解析パ

イプラインを作成可能

 各種公共データベース、ユーザー独自定義

データベースによるアノテーション付け

• dbSNP • ClinVar • COSMIC • 1000 Genome • NHLBI 6500 Exomes

• SIFT and PolyPhen ...など

 家族内サンプルを用いたトリオ解析、

がん-正常サンプルの解析に対応

 各種グラフ表示機能

• LD（連鎖不平衡）プロット • 数値データプロット • BAMファイルプロット（ゲノムブラウザー） • アレル配列プロット ...など

VarSeq

®

(5)

製品ラインナップ

OncoMD-Access

VSPipeline

VSReport

• がん関連変異データベース • 変異データへのアノテーション付けに利用 • 臨床試験やFDA承認薬の情報などを含む • コマンドライン解析用ツール • 複数サンプルデータのバッチ処理に利用 • VarSeq®_{で作成したワークフ} ローを実行可能 • ユーザー独自で構築したバイオインフォマティクス解析パイプラインに組み込んでの使用が可能 • レポート作成モジュール • フィルタリングを行った変異データから、疾患レポートを作成 • 変異と疾患との関連付けには、OMIMデータベースの情報を利用 • 遺伝子パネルを用いた解析結果のサマリーに有用

(6)

フィルタリングワークフロー

変異データテーブル ゲノムブラウザー

 クラウドコンピューティングを利用せず、ローカルマシンで解析を実行。

 シンプルなインターフェースを搭載し、直観的な操作で解析が可能。

(7)

VCFファイル

(8)

 アノテーションデータはGolden Helix社のサーバーから、データベース管理ツールを使ってダウンロード。  各アノテーションデータは、Golden Helix社によってデータの精査、メンテナンスが行われている。  データは生物種ごとに分類されており、解析に使用する生物のデータをダウンロード可能。

アノテーションデータのダウンロード

(9)

• AceViewGenes • CCDS Genes • COSMIC Genes • CpG Islands • Ensembl Genes • GenBank Genes • NCBI Genes • OMIM Genes • RefSeq Genes

• 1kG Phase3 – CNVs and Large Variants 5 • 1kG Phase3 – Variant Frequencies 5 • 1kG Pilot All – Low Coverage Sites • ClinVar

• ClinVar CNVs and Large Variants

• ClinVitae

• dbNSFP Functional Predictions • dbscSNV Splice Altering Predictions • dbSNP

• dbSNP Common • DGV Variants

• ExAC VEP Annotations • GWAS Catalog

• NHLBI ESP6500SI-V2 Exomes Variant • SIFT Prediction for SNVs

• PolyPhen2

• Pfam Domain Genes • UniProt Variants

...etc

Annotation例

(10)

初期変異データ数

フィルタリング結果の変

異データ数

各フィルタリング項目の

条件をクリアしたデータ

数

フィルタリング項目

 フィルタリングワークフローでは、フィルタリング項目が表示。

 フィルタリング項目は自由に追加・並べ替えが可能。

 フィルタリング条件を柔軟に変更し、変更結果がリアルタイムで反映される。

フィルタリングワークフロー

(11)

トリオ解析ワークフロー例

(12)

 Table画面では変異のテーブルデータが表示。

 テーブルデータには様々なアノテーションを追加することが可能

変異データテーブル

(13)

Annotation

(14)

 Detail画面では各変異の詳細情報や、カテゴリー分類のヒストグラムを確認

(15)

 Linkage Disequilibrium（連鎖不平衡）プロット  数値データプロット

(16)

解析手順

1. 解析サンプルのVCFファイルをインポート 2. アノテーション付加のデータベースを選択 3. フィルタリング条件の設定 4. 解析結果の変異データの詳細を確認

解析結果画面

(17)

 がん研究にフォーカスした、ヒューマンキュレーションのナレッジデータベース  VarSeq®からアクセスし、アノテーション付けに使用可能  変異や遺伝子の、関連する臨床試験やFDA承認薬、さらに薬物ターゲットなどの情報を含む

OncoMD-Access

(18)

 解析作業のオートメーション化に利用

 作成したワークフローのコマンドプログラムをロー

ドし、複数サンプルデータのバッチ処理が可能

(19)

 OMIMデータベースの情報に基づき、変異または遺伝子の臨床情報とリンクしたレポートを作成  レポートには、サンプル情報や実験情報なども記載し、カスタマイズも可能

VSReport

(20)

 無償で利用できる、専用のビューワーソフ

トを使用し、解析結果の共有や視覚化が可能

(21)

(22)

HGVDデータベースの活用

 VarSeq®では、独自フォーマットの変異データファイルのインポートにも対応し、 HGVD (http://www.genome.med.kyoto-u.ac.jp/SnpDB/index.html) などの日本人変異データの利用が可能。  インポートした日本人変異データは、アノテーション付けやフィルタリングに利用し、サンプル変異データから、日本人集団内で低頻度に存在する変異のみを抽出することが可能。  フィルタリングを行う際は、HGVDデータ内の変異データのサンプル数やリード深度情報も活用し、信頼性の低い変異を除外することが可能。

日本人変異データの準備

(23)

(24)

例1： がん関連変異の検出  HGVDデータ中に高頻度で存在する変異を除去し、日本人集団内に低頻度で存在する変異のみのデータとしたうえで、がん関連データベースCOSMIC に登録されている変異を抽出する。 HGVD • 100サンプル以上かつリード深度30以上のデータを除去する。 COSMIC • データベース内に含まれるデータのみを抽出する。

ワークフロー例

(25)

例2： 病原性をもつと予測される変異の検出  日本人集団内に低頻度で存在する変異のみのデータとしたうえで、タンパク質アミノ配列に変化を及ぼす変異、さらにそれらの中から病原性をもつと推定される変異をピックアップする。 非同義変異 • タンパク質アミノ酸配列に変化を及ぼす変異のみを抽出する。 PolyPhen2 • 生体に有害と判定された変異のみを抽出する。

ワークフロー例

(26)

例3：

トリオ解析によるde Novo mutationの検出

 日本人集団内に低頻度で存在する変異のみのデータとしたうえで、父親、母親、子供のデータでトリオ解析を実行する。 トリオ解析  父親、母親、子供のデータを読み込み、アリルが両親では変異なしのホモ、子供ではヘテロのデータを抽出する。

ワークフロー例

(27)

• Illumina TruSight Myeloid Sequencing Panel

– Three replicates at different percentages of Horizon Dx known somatic

mutations with NA12877 (increase in dilution from 10%, 25% and 50%)

• Comprehensive coverage of 54 genes designed to target exons of key

tumor suppressor genes and frequently cited oncogenes mutated

frequently in myeloid malignancies

• BAM and VCF files for each replicate are available

• Targeted regions are available in a BED file

• High Coverage, average read depth over the targeted regions

– For the three replicate the average read depth is 2043 reads

(28)

患者、サンプル、実験情報

パネルに含まれる遺伝子

検出された変異や遺伝子の臨床情報

(29)

お問い合わせ先：フィルジェン株式会社

TEL 052-624-4388 (9:00～17：00）

FAX 052-624-4389

ソフトウェアの詳細は、以下の弊社Webサイトをご覧ください。

VarSeq

®

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成