Golden Helix企業概要
アメリカのモンタナ州にて1998年に設立
遺伝子解析のリーダー的企業
遺伝子解析ソフトウェアおよび解析サービスを提供
世界中に数百の大学・政府研究機関などのクライアントを保有
• Harvard School of Public
Health
• Affymetrix Gene Chip
Compatible
• Illumina iConnect Charter
Partner
• Agilent
• Glaxo Smith Kline
• GeneGo
Core Features
Applications
SVS: マイクロアレイや次世代シークエンス(NGS)データから遺伝学的解析をするソフトウェア。
SNP & Variation Suite (SVS)
Genotype Analysis
DNA sequence analysis
CNV Analysis
RNA-seq differential expression
Family Based Association
GenomeBrowse
パワフルなデータマネジメント
豊富なビジュアライゼーション機能
強力な統計解析機能
柔軟性
操作性
研究
Human genome
Plant DNA
Animal DNA
医療
疾患の診断や最適な治
療オプションの決定におけ
る、ゲノム情報の利用
教育
遺伝学的解析に要する、
「コンピューターサイエン
ス」知識の負担を軽減
ベーチェット症候群に関連する遺伝子の統計解析にSVSが利用されている。
• Kirino, Y et al. (2013) Targeted resequencing implicates the familial Mediterranean fever gene MEFV and the toll-like receptor 4 gene TLR4 in Behçet disease. PNAS, doi:10.1073/pnas.1306352110.
Vitis vinifera L.における遺伝子関連解析にSVSが使用されている。
• Emanuelli, F et al. (2010) A candidate gene association study on muscat flavor in grapevine (Vitis vinifera L.). BMC Plant Biology, 10:241, doi:10.1186/1471-2229-10-241.
SNP & Variation Suite 8
基本機能-D) Golden Helix社テクニカルサポートの連絡先 E) 使用しているライセンス情報 F) 利用できる機能情報 A) プロジェクトやチュートリアルへのリンク B) アノテーションやマーカーマップの管理、Helpメニューへのアクセス C) 最新のアップデートやバグなどのサポート情報
SVS起動画面:
Welcome Screen
A
B
C
A) Project Navigator Window: インポートデータや解析データが表示 B) Node Change Log: 実行した操作のログ情報
C) User Notes: プロジェクトやデータに関するメモを入力
Project画面:
Project Navigator
Affyetrix (CHP, CEL, CNT, CNCHP, CYCHP, etc)
Illumina (DSF, Final Report, Matrix Text File, etc)
Family Pedigree (FBAT Pedigree/ Phenotype, etc)
Agilent Files
NimbleGen Data Summary Files
Variant Call Format (VCF) Files
Complete Genomics Var Files
PED/TPED/BED
Text
Third Party
Public Data
HapMap
Impute2 GWAS Files
MACH Output
Golden Helix DSF
…and more
各データフォーマットに最適化されたインポートウィザードを搭載
データはSpreadsheet形式で表示
Marker Map情報は緑色のタブで表示
柔軟性のあるデータ編集機能
エクセル形式で編集可能
カテゴリーデータのバイナリデータへ
の変換
行・列の複製や追加、入れ替え、
数値や名前の編集
変更点は赤色で表示
Spread Sheetの編集
複数のSpreadsheetを統合:
Joining or Merging Spreadsheets
Appending Spreadsheets
各生物種のゲノムアセンブリ(ゲノミックビルド)の取得や管理をおこなう専用のツールを搭載。 リストから任意のデータを選択してダウンロード。
各生物種のリファレンスデータやアノテーショントラックの取得や管理をおこなう専用のツールを搭載。 リストから任意のデータを選択してダウンロード。
Informationから生物種やデータタイプ、取得するリンク先などを確認できる。
• Anopheles gambiea PEST • Heterocephalus glaber
• Anopheles S Pimperena • Homo Sapiens
• Arabidopsis thaliana • Leishmania infantum JPCMS
• Bos taurus • Macaca mulatta
• Brassica rapa • Mus musculus
• Caenorhabitis elegans • Mycobacterium tuberculosis H37Rv
• Canis familiaris • Nomascus leucogenys
• Capra hircus • Oncorhynchus mykiss
• Capsicum annuum • Oryza sativa
• Carica papaya • Prunus persica
• Citrullus lanatus • Rattus norvegicus
• Cricetulus griseus • Setaria italica
• Danio rerio • Solanum lycopersicum
• Drosophila melanogaster • Solanum tuberosum
• Equus caballus • Sorghum bicolor
• Eucalyptus grandis • Staphylococcus aureus N315
• Felis catus • Staphylococcus aureus USA 300 FPR3757
• Glycine max • Sus scrofa
• Gossypium raimondii • Vicugna pacos
• Gullus gullus • Zea mays
※上記リスト以外にも、パブリックデータベースから取得した生物種のカスタムアノテーションを作成することも可能。
ゲノムアセンブリ/ リファレンス/ アノテーショントラック
クオリティコントロール
•
Call rateやMAF, Hardy Weinberg平衡(HWE)によるフィルタリング
•
Identity by Descent (IBD)の検証
•
Population StratificationやBatch effectの検証
•
Read Depth (DP)やGenotype Quality (GQ), Allelic Depth (AD)によるフィルタリング
•
多重検定の補正 (Bonferoni, FDR)
•
外れ値の検証
...など
複数の遺伝学モデル、統計検定法、多重比較法に対応し、PCA補正も可能。 マンハッタンプロットを簡単に作成可能。
インタラクティブなビジュアライゼーション機能により、多面的なデータ検証が可能。
サンプル間でのCNVの比較や統計解析が可能。
CNV領域を高精度に検出するCNAM Optimal Segmentingを搭載。
複数の連鎖不平衡解析ツールを搭載。
ハプロタイプ頻度の推定や関連解析、ハプロタイプブロックの検出が可能。 複数の検定法、多重比較法に対応。
解析アプリケーション:
遺伝子発現差解析(DESeq)
RNA-seqなどのハイスループットシークエンスデータからの遺伝子発現解析が可能。 遺伝子発現の統計解析にはDESeqを採用。
マイクロアレイデータやNGSデータでは数十万~数百万単位の変異データが取得可能
SVSは膨大な変異データにアノテーション付やフィルタリングを実行するツールを多数搭載
解析アプリケーション:
Variantのアノテーション付・フィルタリング
Variantのアノテーション付・フィルタリング機能
•遺伝子のexon内/外にあるバリアントのフィルタリング
•パブリックデータベース (dbSNPなど)に登録されているバリアントのフィルタリング
•
SIFTやPolyphen2, Mutation tasterなどによるスコアリング・フィルタリング
•
PhastConsやPhlyop2などのスコアリング・フィルタリング
•
NS Functional Prediction (dbNSFP)によるアノテーション付・フィルタリング
SVSのレアバリアント関連解析ではCombined Multivariate and Collapsing Method (CMC method)や
Kernel-Based Adaptive Collapsing Method (KBAC method)によるアプローチが可能。
複数の検定法、多重比較法に対応。
Genotype menu:
Genotype Statistics by Marker Genotype Filtering by Marker Genotype Statistics by Sample Quality Assurance Menu:
• Identity by Descent Estimation • Fixation Index Fst
• Fixation Index Fst (by Marker) • GBLUP Genomic Relation Matrix • Filter Sample by Call Rates • LD Pruning
• SNP Density
• Mendelian Error Check • Inbreeding Coefficients
LD Reports Menu
Genotype Principal Component Analysis PBAT Family-Based QA
PBAT Genotype Analysis Genotype Association Tests Haplotype Association Tests Haplotype Block Detection Runs of Homozygosity
Compute Genomic BLUP (GBLUP) Mixed Linear Model Analysis
DNA-Seq menu:
Set Genotypes to No-Call based on Additional Spreadsheets
Filter based on VCF Quality Metrics Calculate Alt Read Ratio
Annotate and Filter Variants
Activate Variants by Sample Genotypes Filter Variants in Reference Sample
Spreadsheet
Subset Informative Genotype by Category Variant Binning by Frequency source
Variant Classification
Classify by Inheritance Pattern Find de Novo Candidate Variants Score Variants by Recessive Model
Score Compound Heterozygous Regions Score Variants by dominant Model
Collapsing Methods:
• Count Variants per Gene
• CMC with Hotelling T Squared Tests • CMC with Regression
• KBAC with Permutation Testing • KBAC with Regression
Numeric menu:
Numeric Principal Component Analysis Numeric Association Tests
Numeric Regression Analysis CNV QA Menu:
• Derivative Log Ratio Spread • Percentile Based Winsorizing • Wave Detection/ Correction
CNAM Optimal Segmenting CNAM Output Analysis Statistics (per Column) Statistics (per Row)
Multidimensional Outlier Detection Fishers Exact Test for Binary Predictors
RNA-Seq menu:
Activate Genes by Minimum Read Threshold Normalization and Log Transformation
DESeq Analysis
Dendrograms and Heatmaps
解析アプリケーション要約
Genotype menu: SNPやハプロタイプの関連解析 DNA-Seq menu: バリアントの評価やレアバリアント解析 Numeric menu: CNV関連解析や回帰分析、主成分分
析など各種数値的統計解析
RNA-Seq menu: RNA-seqデータによる遺伝子発現変動
解析
最新のSVSはGenomeBrowseを内蔵し、強力なビジュアライゼーションを実現。
SVSのプロットは各種パブリックデータベースとリンクし、詳細な情報を得ることが出来る。
…and more
ハプロタイプブロックやボルケノプロット、ヒストグラム、スキャタープロット、ヒートマップなど
多数プロット可能。
Demonstration
-
ゲノム上のSNPsを網羅的に検証し、特定の形質と関連性のあるSNPを探索する。
これまでに盛んに研究がなされ、多数の疾患感受性遺伝子が同定されている。
*The National Human Genome Research Institute, Published GWA Reportsより一部改編 図. GWAS論文件数の推移*
データの前処理(クオリティコントロール)が多段階からなる:
数十万、数百万単位のマーカーを扱うことから、僅かなエラーでもバイアスとなり得る。
多重比較や集団の構造化の問題:
解析が多段階の検定からなるため、偽陽性が生じてしまう。
民族性などに相関する多型が、特定の形質と相関していると誤って解釈されてしまう。
Genome Wide Association Study
1. クオリティコントロール
•
SNP Call Rateの検証
•IBDの検証
•
集団階層化の検証
•
SNPの検証 (Call rate, MAF, HWE)
使用するデータ
(GEO*に登録されているAffymetrix 500K arrayデータ, 565例)
ADS(自閉症スペクトラム)患者: 282例
健常者: 283例
解析対象SNP数: 499,264
*GEO: Gene Expression Omnibus
マイクロアレイや次世代シークエンスデータなどによるゲノム情報を登録したパブリックデータベース
2. SNP関連解析
•遺伝学モデル
•統計検定
•多重検定の補正
•PCA補正
SVSによるシームレスな解析
SNP-GWAS解析例
Genotype Statistics by Sample:
SNPのCall Rateが低いサンプルはDNAの品質および濃度に問題があると考えられる。 Genotype Statistics Sampleで各サンプルのSNP Call Rateを計算して検証する。
Genotype Statistics SampleでCall Rateの他にもコールされたジェノタイプやHeterozygosity Rateなどを算出。 SNP Call Rateが93%~97%未満が一般的な指標として用いられ、未満だったサンプルは解析から除外される。 Activate by Thresholdにより閾値に基づくフィルタリングが可能: フィルタリングされたサンプルは灰色に表示される。 フィルタリングしたサンプルのサブセットを作成可能。 Heterozygosity Rateを基に、レポート上の性別情報と染色体情報から推定される性別情報の一致・不一致も検 証し、フィルタリングをおこなうことも可能。
クオリティコントロール:
各サンプルのSNP call rate検証
Identity by Descent Estimation: ジェノタイプ関連解析では各サンプルが独立であることが基本とされている(サンプル間に血縁関係などがあるとバイ アスの原因となる可能性がある)。 検証の指標としてIdentity by descent(IBD)が推定される。 IBD推定値によりサンプル間のコンタミやサンプルのデュプリケーションも検証される。
クオリティコントロール:
IBDの検証
IBD推定値は0~1の数字で表される。 一般的に推定値が0.1875よりも大きい値 を示すペアのうち、一方が除外される。 図はIBD推定値をプロットしたグラフ(IBD 推定値が1に近い程、赤色に表示されるよう に設定)。 同一サンプルの組合せは1になるが、それ以 外で1に近い値を示す場合、サンプル間のコ ンタミや家族関係にあることが示唆される。 サンプル間のコンタミや血縁関係にあることが 疑われる
クオリティコントロール:
IBDの検証
Genotype Principal Component Analysis: 集団間の相違に起因するSNPの有意差が, ある形質の有無との関連性に起因していると誤って解釈されることがある (集団階層化の問題) 集団の階層化の問題の検証に主成分分析(PCA)が利用される。 計算する主成分数や標準化法などを設定可能。
クオリティコントロール:
集団階層化の検証
サンプル 白人 アジア人 アフリカ人 PCAで算出した固有値をプロットすることで、視覚的に集団の階層化を検証できる。 図ではリファレンスとしてHapMapデータ(白人、アジア人、アフリカ人)を含めたPCAをプロットしている。 サンプル集団は白人種やアジア系およびアフリカ系の3集団から構成されていることを示唆している。
クオリティコントロール:
集団階層化の検証
Genotype Filtering by Marker:
ジェノタイピングの不十分もしくはエラーの疑われるSNPを検証する。
標準的な操作として, Call Rate, MAF, HWEが評価され、Call RateやMAFの低いSNP, HWEから大きく逸脱する
SNPを除外する
一般的には以下の閾値が設定される。
– Call Rate < 0.95, MAF < 0.01 ~ 0.05, HWE < 0.001 ~ 5.7 x 10-7
Additive Model
(Cochran- Armitage trend test)
Dominant Model
((Pearson) Chi-Squared test))
Recessive Model
((Pearson) Chi-Sqared test)
Full Data
図 . 関 連 解 析 の 遺 伝 学 モ デ ル お よ び 検 定 手 法 例 ( D : メ ジャ ー アレル , d : マ イナ ー アレル , a ~ f : ジェ ノ タ イ プ数 ) 遺伝学モデルにはAdditive, Dominant, Recessive Modelがある。 Additive ModelではDD, Dd, ddを分けて取り扱うのに対し , DominantおよびRecessive ModelではDdをDDやddと一緒にし, 2グ ループとして取り扱う。計算方法としてAdditive Modelでトレンドテスト, DominantやRecessive Modelではカイ二乗検定が用いられる。 ジェノタイプ関連解析に用いられる遺伝学モデル・計算方法。
SNP関連解析:
集団間で有意差のあるSNPの同定
Genotype Association TestによりSNP関連解析を実行
SVSでは各種遺伝学モデル・検定手法に対応
遺伝学モデル・テスト • Additive model • Dominant model • Recessive model • Basic allelic test • Genotypic test検定手法
• Correlation/ Trend test
• Cochran-Armitage Trend test • (Pearson) Chi-Squared
…and more
P-P/ Q-Q plot用データの作成 PCAによる補正の設定
Genotype Association Test:
選択した遺伝学モデル・検定方法に基づいてp-valueが計算される。
P-P/ Q-Q plotオプションを設定しておくと、それらのプロットも作成可能。
Plot Variable in GenomeBrowseによりManhattan plotを作成できる。 図では6番染色体上に有意なSNPが多くみられる。
テーブルアイコン(図中赤丸)をクリックするとテーブルデータが表示される(図中緑枠)。
Plot中の任意の領域を拡大し、リファレンス遺伝子上のどの位置にSNPがあるかを確認できる。
任意のSNPを選択するとConsoleにその情報とパブリックデータベースとのリンクが表示される(図中青枠)。 テーブル中の任意のデータをクリックしてプロット上の当該箇所にジャンプすることも可能。
PBAT: 家系データに基づく各種解析を可能にするアドオン
各種家系データフォーマットのインポート (PED, TPED, BED, FBAT, Pedigree, and FBAT Phenotype files) Family-based association tests (FBAT)の実行
Family-based SNP Association Family-based CNV Association
SVSは今回ご紹介した以外にも多数の機能を搭載しています。
ご興味のある方は以下のウェブサイトをご覧ください。
Filgen:
http://www.filgen.jp /Product /Bioscience4/goldenhelix/index.html
Golden Helix:
http://www.goldenhelix.com /index.html