Golden Helix企業概要
アメリカのモンタナ州にて1998年に設立
遺伝子解析のリーダー的企業
遺伝子解析ソフトウェアおよび解析サービスを提供
世界中に数百の大学・政府研究機関などのクライアントを保有
• Harvard School of Public
Health
• Affymetrix Gene Chip
Compatible
• Illumina iConnect Charter
Partner
• Agilent
• Glaxo Smith Kline
• GeneGo
SNP & Variation Suite (SVS)
Core Features
Applications
SVS: マイクロアレイや次世代シークエンス(NGS)データから遺伝学的解析をするソフトウェア。
Genotype Analysis
DNA sequence analysis
CNV Analysis
RNA-seq differential expression
Family Based Association
パワフルなデータマネジメント
豊富なビジュアライゼーション機能
強力な統計解析機能
柔軟性
研究
Human genome
Plant DNA
Animal DNA
医療
疾患の診断や最適な治
療オプションの決定におけ
る、ゲノム情報の利用
教育
遺伝学的解析に要する、
「コンピューターサイエン
ス」知識の負担を軽減
ベーチェット症候群に関連する遺伝子の統計解析にSVSが利用されている。
• Kirino, Y et al. (2013) Targeted resequencing implicates the familial Mediterranean fever gene MEFV and
Vitis vinifera L.における遺伝子関連解析にSVSが使用されている。
• Emanuelli, F et al. (2010) A candidate gene association study on muscat flavor in grapevine (Vitis
SNP & Variation Suite 8
基本機能-D) Golden Helix社テクニカルサポートの連絡先 E) 使用しているライセンス情報 F) 利用できる機能情報 A) プロジェクトやチュートリアルへのリンク B) アノテーションやマーカーマップの管理、Helpメニューへのアクセス C) 最新のアップデートやバグなどのサポート情報
SVS起動画面:
Welcome Screen
A
B
C
A) Project Navigator Window: プロジェクト上でインポートしたデータや解析した データが表示される
B) Node Change Log: 実行した操作のログ情報 C) User Notes: プロジェクトやデータに関するメモを入力
Affyetrix (CHP, CEL, CNT, CNCHP, CYCHP, etc) Illumina (DSF, Final Report, Matrix Text File, etc) Family Pedigree (FBAT Pedigree/ Phenotype, etc) Agilent Files
NimbleGen Data Summary Files Variant Call Format (VCF) Files Complete Genomics Var Files PED/TPED/BED
Text
Third Party (e.g. .xlsx, .xls. .csv, .sts, .dta) Public Data
HapMap
Impute2 GWAS Files MACH Output
Golden Helix DSF
…and more
各プラットフォームに最適化されたインポートウィザードを搭載
データはSpreadsheet形式で表示
Marker Map情報は緑色のタブで表示
Spread Sheetの編集
柔軟性のあるデータ編集機能
エクセル形式で編集可能
カテゴリーデータのバイナリデータへ
の変換
行・列の複製や追加、入れ替え、
数値や名前の編集
セルの編集
変更点は赤色で表示
複数のSpreadsheetを統合:
Joining or Merging Spreadsheets
Appending Spreadsheets
各生物種のゲノムアセンブリ(ゲノミックビルド)の取得や管理をおこなう専用のツールを搭載。 リストから任意のデータを選択してダウンロード。
各生物種のリファレンスデータやアノテーショントラックの取得や管理をおこなう専用のツールを搭載。 リストから任意のデータを選択してダウンロード。
Informationから生物種やデータタイプ、取得するリンク先などを確認できる。
• Anopheles gambiea PEST • Heterocephalus glaber • Anopheles S Pimperena • Homo Sapiens
• Arabidopsis thaliana • Leishmania infantum JPCMS
• Bos taurus • Macaca mulatta
• Brassica rapa • Mus musculus
• Caenorhabitis elegans • Mycobacterium tuberculosis H37Rv • Canis familiaris • Nomascus leucogenys
• Capra hircus • Oncorhynchus mykiss • Capsicum annuum • Oryza sativa
• Carica papaya • Prunus persica • Citrullus lanatus • Rattus norvegicus • Cricetulus griseus • Setaria italica
• Danio rerio • Solanum lycopersicum • Drosophila melanogaster • Solanum tuberosum • Equus caballus • Sorghum bicolor
• Eucalyptus grandis • Staphylococcus aureus N315
• Felis catus • Staphylococcus aureus USA 300 FPR3757
• Glycine max • Sus scrofa
• Gossypium raimondii • Vicugna pacos
• Gullus gullus • Zea mays
※上記リスト以外にも、パブリックデータベースから取得した生物種のカスタムアノテーションを作成することも可能。
ゲノムアセンブリ/ リファレンス/ アノテーショントラック
マイクロアレイのマーカーマップ情報の取得や管理をおこなう専用のツールを搭載。
リストから任意のデータを選択してダウンロード(Golden Helix社のサーバーレポジトリより取得)。 テキストファイルから作成することも可能。
クオリティコントロール
•
Call rateやMAF, Hardy-Weinberg Equilibrium (HWE)の検証
•Identity by Descent (IBD)の検証
•
Population StratificationやBatch effectの検証
•
Read Depth (DP)やGenotype Quality (GQ), Allelic Depth (AD)の検証
•多重検定の補正 (Bonferoniなど)
•外れ値の検証
•LDの刈り込み
•メンデルエラーの検証
•Inbreeding Coefficientの検証
•Fixation Index Fstの検証
...などクオリティコントロール
複数の遺伝学モデル、統計検定法、多重比較法に対応し、PCA補正も可能。 マンハッタンプロットを簡単に作成可能。
CNV解析が可能。
CNV領域を高精度に検出するCNAM Optimal Segmentingを搭載。 複数の統計検定法、多重比較法をサポート。
複数の連鎖不平衡解析ツールを搭載。
ハプロタイプ頻度の推定や関連解析、ハプロタイプブロックの検出が可能。
複数の検定法、多重比較法に対応。
解析アプリケーション:
遺伝子発現差解析(DESeq)
RNA-seqなどのハイスループットシークエンスデータからの遺伝子発現解析が可能。 遺伝子発現の統計解析にはDESeqを採用。
マイクロアレイデータやNGSデータでは数十万~数百万単位の変異データが取得可能
SVSは膨大な変異データにアノテーション付やフィルタリングを実行するツールを多数搭載
解析アプリケーション:
Variantのアノテーション付・フィルタリング
Variantのアノテーション付・フィルタリング機能
•遺伝子のexon内/外にあるバリアントのフィルタリング
•パブリックデータベース (dbSNPなど)に登録されているバリアントのフィルタリング
•
SIFTやPolyphen2, Mutation tasterなどによるスコアリング・フィルタリング
•
PhastConsやPhlyop2などのスコアリング・フィルタリング
•
NS Functional Prediction (dbNSFP)によるアノテーション付・フィルタリング
SVSのレアバリアント関連解析ではCombined Multivariate and Collapsing Method (CMC method)や
Kernel-Based Adaptive Collapsing Method (KBAC method)によるアプローチが可能。
複数の検定法、多重比較法に対応。
Genotype menu:
Genotype Statistics by Marker Genotype Filtering by Marker Genotype Statistics by Sample Quality Assurance Menu:
• Identity by Descent Estimation • Fixation Index Fst
• Fixation Index Fst (by Marker) • GBLUP Genomic Relation Matrix • Filter Sample by Call Rates • LD Pruning
• SNP Density
• Mendelian Error Check • Inbreeding Coefficients LD Reports Menu
Genotype Principal Component Analysis PBAT Family-Based QA
PBAT Genotype Analysis Genotype Association Tests Haplotype Association Tests Haplotype Block Detection Runs of Homozygosity
Compute Genomic BLUP (GBLUP) Mixed Linear Model Analysis
DNA-Seq menu:
Set Genotypes to No-Call based on
Additional Spreadsheets
Filter based on VCF Quality Metrics Calculate Alt Read Ratio
Annotate and Filter Variants
Activate Variants by Sample Genotypes Filter Variants in Reference Sample
Spreadsheet
Subset Informative Genotype by Category Variant Binning by Frequency source
Variant Classification
Classify by Inheritance Pattern Find de Novo Candidate Variants Score Variants by Recessive Model
Score Compound Heterozygous Regions Score Variants by dominant Model
Collapsing Methods: • Count Variants per Gene
• CMC with Hotelling T Squared Tests • CMC with Regression
• KBAC with Permutation Testing • KBAC with Regression
Numeric menu:
Numeric Principal Component Analysis Numeric Association Tests
Numeric Regression Analysis CNV QA Menu:
• Derivative Log Ratio Spread • Percentile Based Winsorizing • Wave Detection/ Correction CNAM Optimal Segmenting CNAM Output Analysis Statistics (per Column) Statistics (per Row)
Multidimensional Outlier Detection Fishers Exact Test for Binary Predictors
RNA-Seq menu:
Activate Genes by Minimum Read Threshold Normalization and Log Transformation
DESeq Analysis
Dendrograms and Heatmaps
解析アプリケーション要約
Genotype menu: SNPやハプロタイプの関連解析 DNA-Seq menu: バリアントの評価やレアバリアント解析 Numeric menu: CNV解析や回帰分析、主成分分析など
各種数量統計解析
RNA-Seq menu: RNA-seqデータによる遺伝子発現変動
解析
最新のSVSはビジュアライゼーション用ツールであったGenomeBrowseを内蔵。
GenomeBrowseは各種パブリックデータベースとリンク。
…and more
ハプロタイプブロックやボルケノプロット、ヒストグラム、スキャタープロット、ヒートマップなど多数サポート。
プロット作成例
Demonstration
-バリアントを集約し、単一ユニットとして解析
マイクロアレイに基づくGWAS研究はコモンバリアント(MAF ≧ 0.05)を対象としてきた。
NGSテクノロジーにより、レアバリアント(MAF < 0.01)も解析対象とすることが可能となった。
レアバリアントに対する関連解析は通常のGWASアプローチでは困難。
Combined Multivariate and Collapsing Method (CMC method)
Kernel-Based Adaptive Collapsing Method (KBAC method)
Optimized Sequence Kernel Association Test (SKAT-O)
Numeric Association Test
レアバリアント関連解析
レアバリアント関連解析例
• Spreadsheetの編集
前準備
• Read Depth (DP), Genotype Quality (GQ)に基づくフィルタリン グ
• SIFT, Polyphe-2, Mutation Tasterに基づくアノテーション&フィ ルタリング(non-synonymous variantsの抽出)
クオリティコントロール
アノテーション&フィルタリング
• CMC Methodによる解析使用するデータ
(クオリティコントロール済み):
NGSデータ数: 697例
検索対象となる変異の数: 約12,750
レアバリアント関連解析
Edit This Spreadsheet:
Spreadsheet中のデータの変換(例: Case/Control ->1/0)や、行・列のヘッダー名の変更、セルの編集などが可能。 編集箇所は赤色で表示。
Spreadsheetの編集:
Spreadsheet Editor
Spreadsheetの編集はEdit This
クオリティコントロール:
Set Genotype to No-Call based on Additional SpreadsheetsSet Genotype to No-Call based on Additional Spreadsheets:
クオリティコントロール:
Set Genotype to No-Call based on Additional SpreadsheetsJoin or Merge Spreadsheets:
2つのスプレッドシートを統合することが可能。
追加先のスプレッドシートからJoin or Merge Spreadsheetsを選択し、追加したいスプレッドシートを指定する。
アノテーション&フィルタリング:
Annotate and Filter Variants
Annotate and Filter Variants:
アノテーショントラックに基づくフィルタリングをおこなう。
アノテーション&フィルタリング:
dbNSFP annotation track
Annotate and Filter Variants:
dbNFSPトラックにより各種mutationの評価やconservation scoreの評価が可能。 各種パラメーター設定時にフィルタリングも設定可能(後からフィルタリングも出来ます)。 dbNFSP: • SIFT • PolyPhen2 • MutationTaster • Mutation Assesor • FATHMM • PhastCons Score • PhyloP Score ...など
フィルタリング
:
Activate or Inactivate Based on Second Spreadsheet
フィルタリング結果のスプレッドシートなどを基に、他のシートのデータサンプルのフィルタリングをおこなうことが可能。 Activate or Inactivate Based on Second Spreadsheetツールを使用。
Variant Binning by Frequency Source:
MAFの閾値を設定してバリアントをbinningする。
アノテーション情報の利用はMAFの計算に不充分なサンプル数でもレアバリアントの検出を可能にする。
各バリアントの割り当てられたMAF Binの番号やreference集団にお
けるMAFなどがリストアップされる。
CMC Method:
CMC with Hotelling T Squared Test: 従属変数が2進数(上図)
CMC with Regression: 従属変数が量的数値(共変数の補正も実施) 解析パラメーターでbinningしたバリアントデータを指定。
染色体番号や遺伝子名、p-valueなどがテーブルデータとして表示。
-log10 P-valueを基にPlot Variable in GenomeBrowseでプロットを作成できる。 P-valueをプロットすることで、マーカーの染色体上での位置を把握できる。
任意の領域を拡大表示することも可能。
テーブルアイコン(図中赤丸)をクリックするとテーブルデータが表示される(図中緑枠)。
Plot中の任意の領域を拡大し、リファレンス遺伝子上のどの位置にマーカーがあるかを確認できる。 任意のマーカーを選択するとConsoleにその情報が表示される(図中青枠)。
PBAT: 家系データに基づく各種解析を可能にするアドオン
各種家系データフォーマットのインポート (PED, TPED, BED, FBAT, Pedigree, and FBAT Phenotype files) Family-based association tests (FBAT)の実行
Family-based SNP Association
SVSは今回ご紹介した以外にも多数の機能を搭載しています。
ご興味のある方は以下のウェブサイトをご覧ください。
Filgen:
http://www.filgen.jp /Product /Bioscience4/goldenhelix/index.html
Golden Helix:
http://www.goldenhelix.com /index.html