NGSデータを用いたレアバリアント解析
-バリアントを集約し、単一ユニットとして解析
マイクロアレイに基づくGWAS研究はコモンバリアント(MAF ≧ 0.05)を対象としてきた。
NGSテクノロジーにより、レアバリアント(MAF < 0.01)も解析対象とすることが可能となった。
レアバリアントに対する関連解析は通常のGWASアプローチでは困難。
レアバリアント関連解析
Combined Multivariate and Collapsing Method (CMC method)
Kernel-Based Adaptive Collapsing Method (KBAC method)
Optimized Sequence Kernel Association Test (SKAT-O)
Numeric Association Test
レアバリアント関連解析
SVSによるアプローチ
レアバリアント関連解析例
• Spreadsheetの編集
前準備
• Read Depth (DP), Genotype Quality (GQ)に基づくフィルタリン グ
• SIFT, Polyphe-2, Mutation Tasterに基づくアノテーション&フィ ルタリング(non-synonymous variantsの抽出)
クオリティコントロール
アノテーション&フィルタリング
• CMC Methodによる解析
使用するデータ
(クオリティコントロール済み):
NGSデータ数: 697例
検索対象となる変異の数: 約12,750
レアバリアント関連解析
Edit This Spreadsheet:
Spreadsheet中のデータの変換(例: Case/Control ->1/0)や、行・列のヘッダー名の変更、セルの編集などが可能。
編集箇所は赤色で表示。
Spreadsheetの編集: Spreadsheet Editor
Spreadsheetの編集はEdit This Spreadsheetから実行。
クオリティコントロール:
Set Genotype to No-Call based on Additional SpreadsheetsSet Genotype to No-Call based on Additional Spreadsheets:
Read Depth(DP), Genotype Quality (GQ)の低いデータをmissing valueに設定。
クオリティコントロール:
Set Genotype to No-Call based on Additional Spreadsheets 各種パラメーター画面で閾値を設定。
Join or Merge Spreadsheets:
2つのスプレッドシートを統合することが可能。
追加先のスプレッドシートからJoin or Merge Spreadsheetsを選択し、追加したいスプレッドシートを指定する。
Spreadsheetの統合: Join or Merge Spreadsheets
アノテーション&フィルタリング: Annotate and Filter Variants
Annotate and Filter Variants:
アノテーショントラックに基づくフィルタリングをおこなう。
選択するアノテーショントラックにより様々なフィルタリングが可能(図ではdbNSFPを指定)。
アノテーション&フィルタリング: dbNSFP annotation track
Annotate and Filter Variants:
dbNFSPトラックにより各種mutationの評価やconservation scoreの評価が可能。
各種パラメーター設定時にフィルタリングも設定可能(後からフィルタリングも出来ます)。
dbNFSP:
• SIFT
• PolyPhen2
• MutationTaster
• Mutation Assesor
• FATHMM
• PhastCons Score
• PhyloP Score
...など
フィルタリング : Activate or Inactivate Based on Second Spreadsheet
フィルタリング結果のスプレッドシートなどを基に、他のシートのデータサンプルのフィルタリングをおこなうことが可能。
Activate or Inactivate Based on Second Spreadsheetツールを使用。
Variant Binning by Frequency Source:
MAFの閾値を設定してバリアントをbinningする。
アノテーション情報の利用はMAFの計算に不充分なサンプル数でもレアバリアントの検出を可能にする。
レアバリアント関連解析: CMC method
各バリアントの割り当てられたMAF Binの番号やreference集団にお けるMAFなどがリストアップされる。
レアバリアント関連解析: CMC method
CMC Method:
CMC with Hotelling T Squared Test: 従属変数が2進数(上図)
CMC with Regression: 従属変数が量的数値(共変数の補正も実施)
解析パラメーターでbinningしたバリアントデータを指定。
レアバリアント関連解析: CMC method
染色体番号や遺伝子名、p-valueなどがテーブルデータとして表示。
レアバリアント関連解析結果: CMC method
-log10 P-valueを基にPlot Variable in GenomeBrowseでプロットを作成できる。
P-valueをプロットすることで、マーカーの染色体上での位置を把握できる。
任意の領域を拡大表示することも可能。
レアバリアント関連解析: ビジュアライゼーション(GenomeBrowse)
テーブルアイコン(図中赤丸)をクリックするとテーブルデータが表示される(図中緑枠)。
SNP関連解析: ビジュアライゼーション(GenomeBrowse)
Plot中の任意の領域を拡大し、リファレンス遺伝子上のどの位置にマーカーがあるかを確認できる。
任意のマーカーを選択するとConsoleにその情報が表示される(図中青枠)。
SNP関連解析: ビジュアライゼーション(GenomeBrowse)
PBAT: 家系データに基づく各種解析を可能にするアドオン
各種家系データフォーマットのインポート (PED, TPED, BED, FBAT, Pedigree, and FBAT Phenotype files)
Family-based association tests (FBAT)の実行
Family-based SNP Association
SVS機能拡張用アドオン: PBAT
SVSは今回ご紹介した以外にも多数の機能を搭載しています。
ご興味のある方は以下のウェブサイトをご覧ください。
Filgen:
http://www.filgen.jp /Product /Bioscience4/goldenhelix/index.html
Golden Helix:
http://www.goldenhelix.com /index.html