PowerPoint プレゼンテーション

(1)

SNP & Variation Suite 8

~ GWAS解析編 ~

フィルジェン株式会社バイオサイエンス部

([email protected])

(2)

Golden Helix企業概要



アメリカのモンタナ州にて1998年に設立



遺伝子解析のリーダー的企業



遺伝子解析ソフトウェアおよび解析サービスを提供



世界中に数百の大学・政府研究機関などのクライアントを保有

• Harvard School of Public

Health

• Affymetrix Gene Chip

Compatible

• Illumina iConnect Charter

Partner

• Agilent

• Glaxo Smith Kline

• GeneGo

(3)

Core Features

Applications

SVS: マイクロアレイや次世代シークエンス(NGS)データから遺伝学的解析をするソフトウェア。

SNP & Variation Suite (SVS)



Genotype Analysis



DNA sequence analysis



CNV Analysis



RNA-seq differential expression



Family Based Association



GenomeBrowse



パワフルなデータマネジメント



豊富なビジュアライゼーション機能



強力な統計解析機能



柔軟性



操作性

(4)

研究



Human genome



Plant DNA



Animal DNA

医療



疾患の診断や最適な治

療オプションの決定におけ

る、ゲノム情報の利用

教育



遺伝学的解析に要する、

「コンピューターサイエン

ス」知識の負担を軽減

(5)



ベーチェット症候群に関連する遺伝子の統計解析にSVSが利用されている。

• Kirino, Y et al. (2013) Targeted resequencing implicates the familial Mediterranean fever gene MEFV and the toll-like receptor 4 gene TLR4 in Behçet disease. PNAS, doi:10.1073/pnas.1306352110.

(6)



Vitis vinifera L.における遺伝子関連解析にSVSが使用されている。

• Emanuelli, F et al. (2010) A candidate gene association study on muscat flavor in grapevine (Vitis vinifera L.). BMC Plant Biology, 10:241, doi:10.1186/1471-2229-10-241.

(7)

(8)

SNP & Variation Suite 8

(9)

基本機能-D) Golden Helix社テクニカルサポートの連絡先 E) 使用しているライセンス情報 F) 利用できる機能情報 A) プロジェクトやチュートリアルへのリンク B) アノテーションやマーカーマップの管理、Helpメニューへのアクセス C) 最新のアップデートやバグなどのサポート情報

SVS起動画面:

Welcome Screen

(10)

A

B

C

A) Project Navigator Window: インポートデータや解析データが表示 B) Node Change Log: 実行した操作のログ情報

C) User Notes: プロジェクトやデータに関するメモを入力

Project画面:

Project Navigator

(11)



Affyetrix (CHP, CEL, CNT, CNCHP, CYCHP, etc)



Illumina (DSF, Final Report, Matrix Text File, etc)



Family Pedigree (FBAT Pedigree/ Phenotype, etc)



Agilent Files



NimbleGen Data Summary Files



Variant Call Format (VCF) Files



Complete Genomics Var Files



PED/TPED/BED



Text



Third Party



Public Data



HapMap



Impute2 GWAS Files



MACH Output



Golden Helix DSF

…and more

各データフォーマットに最適化されたインポートウィザードを搭載

(12)



データはSpreadsheet形式で表示



Marker Map情報は緑色のタブで表示

(13)

柔軟性のあるデータ編集機能



エクセル形式で編集可能



カテゴリーデータのバイナリデータへ

の変換



行・列の複製や追加、入れ替え、

数値や名前の編集



変更点は赤色で表示

Spread Sheetの編集

(14)

複数のSpreadsheetを統合:



Joining or Merging Spreadsheets



Appending Spreadsheets

(15)

 各生物種のゲノムアセンブリ(ゲノミックビルド)の取得や管理をおこなう専用のツールを搭載。  リストから任意のデータを選択してダウンロード。

(16)

 各生物種のリファレンスデータやアノテーショントラックの取得や管理をおこなう専用のツールを搭載。  リストから任意のデータを選択してダウンロード。

 Informationから生物種やデータタイプ、取得するリンク先などを確認できる。

(17)

• Anopheles gambiea PEST • Heterocephalus glaber

• Anopheles S Pimperena • Homo Sapiens

• Arabidopsis thaliana • Leishmania infantum JPCMS

• Bos taurus • Macaca mulatta

• Brassica rapa • Mus musculus

• Caenorhabitis elegans • Mycobacterium tuberculosis H37Rv

• Canis familiaris • Nomascus leucogenys

• Capra hircus • Oncorhynchus mykiss

• Capsicum annuum • Oryza sativa

• Carica papaya • Prunus persica

• Citrullus lanatus • Rattus norvegicus

• Cricetulus griseus • Setaria italica

• Danio rerio • Solanum lycopersicum

• Drosophila melanogaster • Solanum tuberosum

• Equus caballus • Sorghum bicolor

• Eucalyptus grandis • Staphylococcus aureus N315

• Felis catus • Staphylococcus aureus USA 300 FPR3757

• Glycine max • Sus scrofa

• Gossypium raimondii • Vicugna pacos

• Gullus gullus • Zea mays

※上記リスト以外にも、パブリックデータベースから取得した生物種のカスタムアノテーションを作成することも可能。

ゲノムアセンブリ/ リファレンス/ アノテーショントラック

(18)

クオリティコントロール

•

Call rateやMAF, Hardy Weinberg平衡(HWE)によるフィルタリング

•

Identity by Descent (IBD)の検証

•

Population StratificationやBatch effectの検証

•

Read Depth (DP)やGenotype Quality (GQ), Allelic Depth (AD)によるフィルタリング

•

多重検定の補正 (Bonferoni, FDR)

•

外れ値の検証

...など

(19)

 複数の遺伝学モデル、統計検定法、多重比較法に対応し、PCA補正も可能。  マンハッタンプロットを簡単に作成可能。

 インタラクティブなビジュアライゼーション機能により、多面的なデータ検証が可能。

(20)

 サンプル間でのCNVの比較や統計解析が可能。

 CNV領域を高精度に検出するCNAM Optimal Segmentingを搭載。

(21)

 複数の連鎖不平衡解析ツールを搭載。

 ハプロタイプ頻度の推定や関連解析、ハプロタイプブロックの検出が可能。  複数の検定法、多重比較法に対応。

(22)

解析アプリケーション:

遺伝子発現差解析(DESeq)

 RNA-seqなどのハイスループットシークエンスデータからの遺伝子発現解析が可能。  遺伝子発現の統計解析にはDESeqを採用。

(23)



マイクロアレイデータやNGSデータでは数十万~数百万単位の変異データが取得可能



SVSは膨大な変異データにアノテーション付やフィルタリングを実行するツールを多数搭載

解析アプリケーション:

Variantのアノテーション付・フィルタリング

Variantのアノテーション付・フィルタリング機能

•

遺伝子のexon内/外にあるバリアントのフィルタリング

•

パブリックデータベース (dbSNPなど)に登録されているバリアントのフィルタリング

•

SIFTやPolyphen2, Mutation tasterなどによるスコアリング・フィルタリング

•

PhastConsやPhlyop2などのスコアリング・フィルタリング

•

NS Functional Prediction (dbNSFP)によるアノテーション付・フィルタリング

(24)

 SVSのレアバリアント関連解析ではCombined Multivariate and Collapsing Method (CMC method)や

Kernel-Based Adaptive Collapsing Method (KBAC method)によるアプローチが可能。

 複数の検定法、多重比較法に対応。

(25)

Genotype menu:

 Genotype Statistics by Marker  Genotype Filtering by Marker  Genotype Statistics by Sample  Quality Assurance Menu:

• Identity by Descent Estimation • Fixation Index Fst

• Fixation Index Fst (by Marker) • GBLUP Genomic Relation Matrix • Filter Sample by Call Rates • LD Pruning

• SNP Density

• Mendelian Error Check • Inbreeding Coefficients

 LD Reports Menu

 Genotype Principal Component Analysis  PBAT Family-Based QA

 PBAT Genotype Analysis  Genotype Association Tests  Haplotype Association Tests  Haplotype Block Detection  Runs of Homozygosity

 Compute Genomic BLUP (GBLUP)  Mixed Linear Model Analysis

DNA-Seq menu:

 Set Genotypes to No-Call based on Additional Spreadsheets

 Filter based on VCF Quality Metrics  Calculate Alt Read Ratio

 Annotate and Filter Variants

 Activate Variants by Sample Genotypes  Filter Variants in Reference Sample

Spreadsheet

 Subset Informative Genotype by Category  Variant Binning by Frequency source

 Variant Classification

 Classify by Inheritance Pattern  Find de Novo Candidate Variants  Score Variants by Recessive Model

 Score Compound Heterozygous Regions  Score Variants by dominant Model

 Collapsing Methods:

• Count Variants per Gene

• CMC with Hotelling T Squared Tests • CMC with Regression

• KBAC with Permutation Testing • KBAC with Regression

(26)

Numeric menu:

 Numeric Principal Component Analysis  Numeric Association Tests

 Numeric Regression Analysis  CNV QA Menu:

• Derivative Log Ratio Spread • Percentile Based Winsorizing • Wave Detection/ Correction

 CNAM Optimal Segmenting  CNAM Output Analysis  Statistics (per Column)  Statistics (per Row)

 Multidimensional Outlier Detection  Fishers Exact Test for Binary Predictors

RNA-Seq menu:

 Activate Genes by Minimum Read Threshold  Normalization and Log Transformation

 DESeq Analysis

 Dendrograms and Heatmaps

解析アプリケーション要約

 Genotype menu: SNPやハプロタイプの関連解析  DNA-Seq menu: バリアントの評価やレアバリアント解析  Numeric menu: CNV関連解析や回帰分析、主成分分

析など各種数値的統計解析

 RNA-Seq menu: RNA-seqデータによる遺伝子発現変動

解析

(27)



SVSのプロットは各種パブリックデータベースとリンクし、詳細な情報を得ることが出来る。

…and more

(28)



ハプロタイプブロックやボルケノプロット、ヒストグラム、スキャタープロット、ヒートマップなど

多数プロット可能。

(29)

Demonstration

(30)

-

ゲノム上のSNPsを網羅的に検証し、特定の形質と関連性のあるSNPを探索する。



これまでに盛んに研究がなされ、多数の疾患感受性遺伝子が同定されている。

*The National Human Genome Research Institute, Published GWA Reportsより一部改編図. GWAS論文件数の推移*

(31)

データの前処理(クオリティコントロール)が多段階からなる:



数十万、数百万単位のマーカーを扱うことから、僅かなエラーでもバイアスとなり得る。

多重比較や集団の構造化の問題:



解析が多段階の検定からなるため、偽陽性が生じてしまう。



民族性などに相関する多型が、特定の形質と相関していると誤って解釈されてしまう。

Genome Wide Association Study

(32)

1. クオリティコントロール

•

SNP Call Rateの検証

•

IBDの検証

•

集団階層化の検証

•

SNPの検証 (Call rate, MAF, HWE)

使用するデータ

(GEO*に登録されているAffymetrix 500K arrayデータ, 565例)



ADS(自閉症スペクトラム)患者: 282例



健常者: 283例



解析対象SNP数: 499,264

*GEO: Gene Expression Omnibus

マイクロアレイや次世代シークエンスデータなどによるゲノム情報を登録したパブリックデータベース

2. SNP関連解析

•

遺伝学モデル

•

統計検定

•

多重検定の補正

•

PCA補正

SVSによるシームレスな解析

SNP-GWAS解析例

(33)

Genotype Statistics by Sample:

 SNPのCall Rateが低いサンプルはDNAの品質および濃度に問題があると考えられる。  Genotype Statistics Sampleで各サンプルのSNP Call Rateを計算して検証する。

(34)

 Genotype Statistics SampleでCall Rateの他にもコールされたジェノタイプやHeterozygosity Rateなどを算出。  SNP Call Rateが93%~97%未満が一般的な指標として用いられ、未満だったサンプルは解析から除外される。  Activate by Thresholdにより閾値に基づくフィルタリングが可能: フィルタリングされたサンプルは灰色に表示される。  フィルタリングしたサンプルのサブセットを作成可能。  Heterozygosity Rateを基に、レポート上の性別情報と染色体情報から推定される性別情報の一致・不一致も検証し、フィルタリングをおこなうことも可能。

クオリティコントロール:

各サンプルのSNP call rate検証

(35)

Identity by Descent Estimation:  ジェノタイプ関連解析では各サンプルが独立であることが基本とされている（サンプル間に血縁関係などがあるとバイアスの原因となる可能性がある）。  検証の指標としてIdentity by descent(IBD)が推定される。  IBD推定値によりサンプル間のコンタミやサンプルのデュプリケーションも検証される。

クオリティコントロール:

IBDの検証

(36)

 IBD推定値は0~1の数字で表される。  一般的に推定値が0.1875よりも大きい値を示すペアのうち、一方が除外される。  図はIBD推定値をプロットしたグラフ（IBD 推定値が1に近い程、赤色に表示されるように設定）。  同一サンプルの組合せは1になるが、それ以外で1に近い値を示す場合、サンプル間のコンタミや家族関係にあることが示唆される。サンプル間のコンタミや血縁関係にあることが疑われる

クオリティコントロール:

IBDの検証

(37)

Genotype Principal Component Analysis:  集団間の相違に起因するSNPの有意差が, ある形質の有無との関連性に起因していると誤って解釈されることがある (集団階層化の問題)  集団の階層化の問題の検証に主成分分析(PCA)が利用される。  計算する主成分数や標準化法などを設定可能。

クオリティコントロール:

集団階層化の検証

(38)

サンプル 白人 アジア人 アフリカ人  PCAで算出した固有値をプロットすることで、視覚的に集団の階層化を検証できる。  図ではリファレンスとしてHapMapデータ(白人、アジア人、アフリカ人)を含めたPCAをプロットしている。  サンプル集団は白人種やアジア系およびアフリカ系の3集団から構成されていることを示唆している。

クオリティコントロール:

集団階層化の検証

(39)

Genotype Filtering by Marker:

 ジェノタイピングの不十分もしくはエラーの疑われるSNPを検証する。

 標準的な操作として, Call Rate, MAF, HWEが評価され、Call RateやMAFの低いSNP, HWEから大きく逸脱する

SNPを除外する

 一般的には以下の閾値が設定される。

– Call Rate < 0.95, MAF < 0.01 ~ 0.05, HWE < 0.001 ~ 5.7 x 10-7

(40)

Additive Model

(Cochran- Armitage trend test)

Dominant Model

((Pearson) Chi-Squared test))

Recessive Model

((Pearson) Chi-Sqared test)

Full Data

図 . 関連解析の遺伝学モデルおよび検定手法例 ( D : メジャーアレル , d : マイナーアレル , a ~ f : ジェノタイプ数 ) 遺伝学モデルにはAdditive, Dominant, Recessive Modelがある。 Additive ModelではDD, Dd, ddを分けて取り扱うのに対し , DominantおよびRecessive ModelではDdをDDやddと一緒にし, 2グループとして取り扱う。計算方法としてAdditive Modelでトレンドテスト, DominantやRecessive Modelではカイ二乗検定が用いられる。 

ジェノタイプ関連解析に用いられる遺伝学モデル・計算方法。

SNP関連解析:

集団間で有意差のあるSNPの同定

(41)



Genotype Association TestによりSNP関連解析を実行



SVSでは各種遺伝学モデル・検定手法に対応

遺伝学モデル・テスト • Additive model • Dominant model • Recessive model • Basic allelic test • Genotypic test

検定手法

• Correlation/ Trend test

• Cochran-Armitage Trend test • (Pearson) Chi-Squared

…and more

P-P/ Q-Q plot用データの作成 PCAによる補正の設定

(42)

Genotype Association Test:



選択した遺伝学モデル・検定方法に基づいてp-valueが計算される。



P-P/ Q-Q plotオプションを設定しておくと、それらのプロットも作成可能。

(43)

 Plot Variable in GenomeBrowseによりManhattan plotを作成できる。  図では6番染色体上に有意なSNPが多くみられる。

 テーブルアイコン(図中赤丸)をクリックするとテーブルデータが表示される(図中緑枠)。

(44)

 Plot中の任意の領域を拡大し、リファレンス遺伝子上のどの位置にSNPがあるかを確認できる。

 任意のSNPを選択するとConsoleにその情報とパブリックデータベースとのリンクが表示される(図中青枠)。  テーブル中の任意のデータをクリックしてプロット上の当該箇所にジャンプすることも可能。

(45)

PBAT: 家系データに基づく各種解析を可能にするアドオン

 各種家系データフォーマットのインポート (PED, TPED, BED, FBAT, Pedigree, and FBAT Phenotype files)  Family-based association tests (FBAT)の実行

 Family-based SNP Association  Family-based CNV Association

(46)

SVSは今回ご紹介した以外にも多数の機能を搭載しています。

ご興味のある方は以下のウェブサイトをご覧ください。

Filgen:

http://www.filgen.jp /Product /Bioscience4/goldenhelix/index.html

Golden Helix:

http://www.goldenhelix.com /index.html



Email:

[email protected]



PowerPoint プレゼンテーション

SNP & Variation Suite 8

~ GWAS解析編 ~

フィルジェン株式会社 バイオサイエンス部

([email protected])

Golden Helix企業概要

アメリカのモンタナ州にて1998年に設立

遺伝子解析のリーダー的企業

遺伝子解析ソフトウェアおよび解析サービスを提供

世界中に数百の大学・政府研究機関などのクライアントを保有

• Harvard School of Public

Health

• Affymetrix Gene Chip

Compatible

• Illumina iConnect Charter

Partner

• Agilent

• Glaxo Smith Kline

• GeneGo

Core Features

Applications

SVS: マイクロアレイや次世代シークエンス(NGS)データから遺伝学的解析をするソフトウェア。

SNP & Variation Suite (SVS)

Genotype Analysis

DNA sequence analysis

CNV Analysis

RNA-seq differential expression

Family Based Association

GenomeBrowse

パワフルなデータマネジメント

豊富なビジュアライゼーション機能

強力な統計解析機能

柔軟性

操作性

研究

Human genome

Plant DNA

Animal DNA

医療

疾患の診断や最適な治

療オプションの決定におけ

る、ゲノム情報の利用

教育

遺伝学的解析に要する、

「コンピューターサイエン

ス」知識の負担を軽減

ベーチェット症候群に関連する遺伝子の統計解析にSVSが利用されている。

Vitis vinifera L.における遺伝子関連解析にSVSが使用されている。

SNP & Variation Suite 8

SVS起動画面:

Welcome Screen

A

B

C

Project画面:

Project Navigator

Affyetrix (CHP, CEL, CNT, CNCHP, CYCHP, etc)

Illumina (DSF, Final Report, Matrix Text File, etc)

Family Pedigree (FBAT Pedigree/ Phenotype, etc)

Agilent Files

NimbleGen Data Summary Files

Variant Call Format (VCF) Files

Complete Genomics Var Files

PED/TPED/BED

Text

Third Party

Public Data

HapMap

Impute2 GWAS Files

MACH Output

Golden Helix DSF

…and more

各データフォーマットに最適化されたインポートウィザードを搭載

データはSpreadsheet形式で表示

Marker Map情報は緑色のタブで表示

柔軟性のあるデータ編集機能

エクセル形式で編集可能

カテゴリーデータのバイナリデータへ

の変換

行・列の複製や追加、入れ替え、

フィルジェン株式会社バイオサイエンス部