Demonstration
2. SNP関連解析
•
遺伝学モデル
•
統計検定
•
多重検定の補正
•
PCA補正
SVSによるシームレスな解析
SNP-GWAS解析例
Genotype Statistics by Sample:
SNPのCall Rateが低いサンプルはDNAの品質および濃度に問題があると考えられる。
Genotype Statistics Sampleで各サンプルのSNP Call Rateを計算して検証する。
クオリティコントロール: SNP call rateの検証
Genotype Statistics SampleでCall Rateの他にもコールされたジェノタイプやHeterozygosity Rateなどを算出。
SNP Call Rateが93%~97%未満が一般的な指標として用いられ、未満だったサンプルは解析から除外される。
Activate by Thresholdにより閾値に基づくフィルタリングが可能: フィルタリングされたサンプルは灰色に表示される。
フィルタリングしたサンプルのサブセットを作成可能。
Heterozygosity Rateを基に、レポート上の性別情報と染色体情報から推定される性別情報の一致・不一致も検 証し、フィルタリングをおこなうことも可能。
クオリティコントロール: 各サンプルのSNP call rate検証
Identity by Descent Estimation:
ジェノタイプ関連解析では各サンプルが独立であることが基本とされている(サンプル間に血縁関係などがあるとバイ アスの原因となる可能性がある)。
検証の指標としてIdentity by descent(IBD)が推定される。
IBD推定値によりサンプル間のコンタミやサンプルのデュプリケーションも検証される。
クオリティコントロール: IBDの検証
IBD推定値は0~1の数字で表される。
一般的に推定値が0.1875よりも大きい値 を示すペアのうち、一方が除外される。
図はIBD推定値をプロットしたグラフ(IBD 推定値が1に近い程、赤色に表示されるよう に設定)。
同一サンプルの組合せは1になるが、それ以 外で1に近い値を示す場合、サンプル間のコ ンタミや家族関係にあることが示唆される。
サンプル間のコンタミや血縁関係にあることが 疑われる
クオリティコントロール: IBDの検証
Genotype Principal Component Analysis:
集団間の相違に起因するSNPの有意差が, ある形質の有無との関連性に起因していると誤って解釈されることがある (集団階層化の問題)
集団の階層化の問題の検証に主成分分析(PCA)が利用される。
計算する主成分数や標準化法などを設定可能。
クオリティコントロール: 集団階層化の検証
サンプル 白人
アジア人 アフリカ人
PCAで算出した固有値をプロットすることで、視覚的に集団の階層化を検証できる。
図ではリファレンスとしてHapMapデータ(白人、アジア人、アフリカ人)を含めたPCAをプロットしている。
サンプル集団は白人種やアジア系およびアフリカ系の3集団から構成されていることを示唆している。
クオリティコントロール: 集団階層化の検証
Genotype Filtering by Marker:
ジェノタイピングの不十分もしくはエラーの疑われるSNPを検証する。
標準的な操作として, Call Rate, MAF, HWEが評価され、Call RateやMAFの低いSNP, HWEから大きく逸脱する SNPを除外する
一般的には以下の閾値が設定される。
– Call Rate < 0.95, MAF < 0.01 ~ 0.05, HWE < 0.001 ~ 5.7 x 10-7
クオリティコントロール: SNPの検証(Call rate, MAF, HWE)
Additive Model
(Cochran- Armitage trend test)
Dominant Model
((Pearson) Chi-Squared test))
Recessive Model
((Pearson) Chi-Sqared test)
Full Data
図 . 関 連 解 析 の 遺 伝 学 モ デ ル お よ び 検 定 手 法 例 ( D : メ ジャ ー アレル , d : マ イナ ー アレル , a ~ f : ジェ ノ タ イ プ数 ) 遺伝学モデルにはAdditive, Dominant, Recessive Modelがある。Additive ModelではDD, Dd, ddを分けて取り扱うのに対し , DominantおよびRecessive ModelではDdをDDやddと一緒にし, 2グ ループとして取り扱う。計算方法としてAdditive Modelでトレンドテスト, DominantやRecessive Modelではカイ二乗検定が用いられる。
ジェノタイプ関連解析に用いられる遺伝学モデル・計算方法。
SNP関連解析: 集団間で有意差のあるSNPの同定
Genotype Association TestによりSNP関連解析を実行
SVSでは各種遺伝学モデル・検定手法に対応
遺伝学モデル・テスト
• Additive model
• Dominant model
• Recessive model
• Basic allelic test
• Genotypic test 検定手法
• Correlation/ Trend test
• Cochran-Armitage Trend test
• (Pearson) Chi-Squared
…and more
P-P/ Q-Q plot用データの作成 PCAによる補正の設定
SNP関連解析: Genotype Association Test
Genotype Association Test: