ゲノムワイドSNP-SNP相互作用解析
東北大学 東北メディカル・メガバンク 植木優夫
2
Gene-Gene interaction
Models for Gene-Gene interaction
Allelic interaction model
Further topics
Contents
Gene-Gene interaction
SNP-GWASにより同定された疾患感受性SNPのほ
とんどは効果サイズが小さい
オッズ比は1.1-1.5 (Park et al. 2011 PNAS)
検出には多くのサンプルが必要
独立サンプルでの再現性の問題
説明できない遺伝率
CDCV (Common Disease Common Variant) 仮説 に基づく
SNP (common variant)は集団頻度5%以上の高頻
Gene-Gene interaction
失われた遺伝率(Manolio et al. 2009 Nature)は
以下の成分によって隠されている?
1. 遺伝子x遺伝子相互作用
2. 遺伝子x環境相互作用
3. レアバリアント (MAF<0.5%)
6
Risch (1990 AJHG)はありふれた疾患への相互作用の寄 与を示唆する:
血縁度の減少に伴う再発リスク比の減少は よりも急激 データに適合
自然選択により有害アリルは直ちに集団から取り除
かれる(Kimura & Crow 1979)
Hemani et al. (2013 PLoS Genet)は,エピスタシス
相互作用の自然選択を仮定した進化シミュレーション を行い,加法的遺伝分散が低レベルで維持されること を示した これまでに得られた相加的遺伝分散は,実際には非 相加的遺伝分散による寄与であった可能性がある 多くの研究者は遺伝子-遺伝子相互作用の重要性を 認めている
エピスタシスの進化的挙動
8
Gene-Gene interaction
相互作用効果のモデル(2つのSNPs,loci 1 and 2)
乾癬におけるERAP1とHLA-C (Strange et al. 2010
Nat Genet)
主効果: OR = ~1.3 (ERAP1, P<1e-9), ~4.7 (HLA-C,
P<1e-213)
交互作用P値 = 7e-6
強直性脊椎炎におけるERAP1とHLA-B27 (Evans et
al. 2011 Nat Genet)
主効果: OR = ~1.3 (ERAP1 , P<1e-12), ~40.8 (HLA-B27,
P<1e-200)
交互作用P値 = 7e-6
一型糖尿病におけるHLA領域内の非相加的効果
(Barrett et al. 2009 Nat Genet, OR=5.5)
いずれも強い主効果
10
Interaction between ERAP1 and HLA-C
(Strange et al. 2010 Nat Genet)
標準的なSNP-SNP相互作用モデル
2つのカテゴリ変数(各3カテゴリ)間の交互作用項を
含む分散分析モデル
通常の交互作用項の有意性検定
自由度4の尤度比検定
12
標準的なSNP-SNP相互作用モデル
飽和モデルの利用は検出力を低下させる 加法-加法モデルが最もよく用いられる 優性-優性モデル,劣性-劣性モデルという可能性も モデルの選定誤りは偽陽性を招く L個のSNPがあるとき,合計のペア数はL(L-1)/2 例えばL=350,000であれば,61,249,825,000個のペアがで きる 網羅的に検索 2値形質(罹患の有無等)を対象にしたロジスティック 回帰モデルは,前向き研究だけでなくケース・コント ロール研究にも利用可能(Anderson 1972
Biometrika, Prentice & Pyke 1979 Biometrika)だ が・ ・ ・
数値最適化に伴う高い計算コスト
結果を格納するデータストレージ
ゲノムワイド関連解析で得られたp値が小さいSNPに ついてのみ相互作用を検討 検定数の削減 => 計算速度の向上,有意水準の緩和 主効果をもたない相互作用を見落とす危険性 => 全探索 14 Use only
フィルタリング
飽和モデルでのロジスティック回帰 尤度比検定統計量2(Lf - L0)を全探索 Lfは数値最適化が不要,陽に書ける L0は数値最適化が必要,陽に書けない L0に必要な最尤推定量をKirkwood Superposition Approximation (KSA)を用いて陽に書ける量で近似 => L0>LKSA ある閾値tを超える2(Lf - L0)を見つけるため,2(Lf - LKSA)がtを超えるかどうか調べる t<2(Lf - L0)< 2(Lf - LKSA)より 2(Lf - LKSA)>tとなったペアについてだけ2(Lf - L0)>tを 調べて,計算コストとデータストレージの問題を解決
16 2(Lf - L0)>tの閾値tは自由度4のカイ2乗分布の分位 点 多数の仮説を相手にするため,多重検定補正が必要 L個のSNPがあると,合計のペア数はL(L-1)/2 例えばL=350,000であれば,61,249,825,000個のペ ア 多重検定をボンフェローニ補正で行う場合,5%有意 水準での検定は,各検定の有意水準をP<8 x 10-13に おくことになる
17 BOOSTではひとまず2(Lf - LKSA)>30を用いてフィルタ リングを行う [閾値30に対応する有意水準は4.9 x 10-6] BOOSTは全探索を可能とした最初の論文 問題: 相互作用モデルによっては自由度4の検定は検出力 が低下する可能性 相互作用検定間の独立性は成立しそうにない 分割表がスパースになるケースも多い
18 2つのSNPは連鎖不平衡になく,さらにHardy-Weinberg平衡を仮定し,各MAFをp,qとおけば,一 般集団での遺伝子型の頻度は 例えばp=q=10%とすれば 遺伝子型aa/bbをもつ人の割合は0.01%,つまり平均 一人観察するのに1万サンプル必要
分割表はしばしばスパースとなる
bb
bB
BB
aa
p
2q
22p
2(1-q)q
p
2(1-q)
2aA
2(1-p)pq
24(1-p)p(1-q)q 2(1-p)p(1-q)
2AA
(1-p)
2q
22(1-p)
2(1-q)q
(1-p)
2(1-q)
2 欠測データもしばしばある (BOOSTの作者に問い合わせると,BOOSTは欠測 データを扱えず,メジャーホモ接合でimputeせよという こと) まだBOOSTを使いnovelな相互作用を発見できた結 果はないようである
20
SNP-GWASと同様,リスクアリル数によって罹患リス
クが増加するモデルが自然
Han et al. (2012 JASA)は係数に単調制約を入れた
isotonic回帰を用いた検定を提案した
遺伝学の対象は,ヒト単位よりもむしろアリル単位
ヒトは2倍体生物であり,2つのアリルをもつ
2座位のSNPがそれぞれa/A,b/Bアリルからなるとき
の回帰モデル(アリルが与えられたもとでの条件付) (Wu et al. 2010 PLoS Genet)
アリル間の相互作用モデル
b
B
a
A
i22 ケースコントロール研究デザインでは ここでPは以下の期待頻度
アリル間の相互作用モデル
case
control
b
B
b
B
a
A
case ab P , control aB control Ab control ab conrol AB case aB case Ab case ab case AB P P P P P P P P i , , , , , , , , log log case aB P , case Ab P , PAB,case control ab P , control Ab P , control aB P , control AB P ,23
Wu et al. (2010 PLoS Genet)は期待頻度Pを推定
(疑似)ハプロタイプ頻度で置き換え,帰無仮説「i=0」 を検定する以下の統計量Tを提案した
Prabhu & Pe‘er (2012 Genome Res)はこの統計量を用い
て高速な相互作用探索法を提案した
アリル間の相互作用モデル
s, individual control of # : s, individual case of # : , ˆ 1 ˆ 1 ˆ 1 ˆ 1 2 1 ˆ 1 ˆ 1 ˆ 1 ˆ 1 2 1 ˆ , ˆ ˆ ˆ ˆ log ˆ ˆ ˆ ˆ log ˆ , ˆ ˆ , , , , , , , , , , , , , , , , 2 control aB control Ab control ab control AB control case aB case Ab case ab case AB case control aB control Ab control ab conrol AB case aB case Ab case ab case AB n n P P P P n P P P P n v P P P P P P P P i v i T 24 Wu et al.はTの分散項(分母)に,帰無仮説「i=0」の下 で計算される漸近分散を用いている 1倍体標本が得られている場合にのみ成立 ヒトのような2倍体標本では不成立
アリル間の相互作用モデル
control aB control Ab control ab control AB control case aB case Ab case ab case AB case control aB control Ab control ab conrol AB case aB case Ab case ab case AB P P P P n P P P P n v P P P P P P P P i v i T , , , , , , , , , , , , , , , , 2 ˆ 1 ˆ 1 ˆ 1 ˆ 1 2 1 ˆ 1 ˆ 1 ˆ 1 ˆ 1 2 1 ˆ , ˆ ˆ ˆ ˆ log ˆ ˆ ˆ ˆ log ˆ , ˆ ˆ 2倍体においては,最尤推定等(EMアルゴリズム)を 用いて(疑似)ハプロタイプ頻度を得る必要がある
Wu et al. (2010 PLoS Genet)の漸近分散はこのバラ
ツキを考慮していない control aB control Ab control ab control AB control case aB case Ab case ab case AB case control aB control Ab control ab conrol AB case aB case Ab case ab case AB P P P P n P P P P n v P P P P P P P P i v i T , , , , , , , , , , , , , , , , 2 ˆ 1 ˆ 1 ˆ 1 ˆ 1 2 1 ˆ 1 ˆ 1 ˆ 1 ˆ 1 2 1 ˆ , ˆ ˆ ˆ ˆ log ˆ ˆ ˆ ˆ log ˆ , ˆ ˆ
アリル間の相互作用モデル
Ueki & Cordell (2012 PLoS Genet)ではBrown (1975 Theor Pop Biol)の結果を援用し,頻度Pを最 尤推定した場合の漸近分散を導き,Wu et al.のTを修 正した 修正の効果 LD(連鎖不平衡)の無い場合,最尤推定することにより漸 近分散は2倍に上昇 『Wu et al.のTを使うと偽陽性(つまり相互作用がない のにあると判定される)が生じる』 26
アリル間の相互作用モデル
アリルの相互作用モデルを考慮することは遺伝学の
文脈からは自然
PLINK –fast-epistasis (Purcell et al. 2007 AJHG)が
計算する統計量は,アリルをカウントした2×2分割表 に対するWu et al.統計量と同じ形
しかし分割表の頻度は多項分布でないため,--fast-epistasisの漸近分散に修正が必要
Ueki & Cordell (2012 PLoS Genet)は分散項を修正
した
27
2倍体(父系×母系)でのWu et al.検定は,以下のモ デルにおけるパラメータiに関する検定と解釈できる ab aB Ab AB ab aB Ab AB 2 ) ( 2 ) ( 2 ) ( 2 i 2 2 i 2 2 i 2 2 2 2 i 2 2 2 i 2 2 i 2 2 i 2
アリル間の相互作用モデル
Wu et al.モデルの遺伝子型が与えられたもとでの条 件付分布 aa aA AA bb bB BB 2 ) ( 2 ) ( 2 ) ( 2 i 2 2 i 2 2 i 2 2 ) | (
logitP affected AaBb
aB Ab AB ab aB Ab AB ab HWE P P P P P P P P i aB Ab P ab AB P aB Ab P aB Ab affected P ab AB P ab AB affected P AaBb affected P ) 2 ( logit ) 2 ( logit ) , ( ) , ( ) , ( ) , | ( ) , ( ) , | ( ) | ( 1 -1 -
アリル間の相互作用モデル
30
Joint Effects統計量 (Ueki & Cordell 2012)
Wu et al.のアリル間相互作用モデルにおける主効果
は加法的にパラメトライズされている
遺伝子型の主効果には様々な形式が考えられる
主効果が優性,劣性の場合に偽陽性(偽相互作用)
Ueki & Cordell (2012)で新たに提案したJoint
Effects統計量
後ろ向きサンプリングに伴う主効果の影響を除去
ひとつのパラメータで相互作用効果をパラメトライ
ズし,Wu et al.統計量と互換性を持たせた
4つのオッズ比の重みつき平均
重みは漸近分散を最小化するように決定 のときは以下の量で代替する aa aA AA bb a b c bB d e f BB g h i ) 1 2 log( log log 2 log ˆ 4 3 2 1 bdae cd af bg ah cg ai w w w w 2 1
hi ef 2 1 log eJoint Effects統計量 (Ueki & Cordell 2012)
主効果パラメータを一般化して導入
Ueki & Cordellの相互作用モデル
aa aA AA bb bB BB 2 2 2 2 2 i 2 2 2 1 2 1 2 i 1 2 2 i 2 1 2 ) | (
logitP affected AaBb
aB Ab AB ab aB Ab AB ab HWE P P P P P P P P i aB Ab P ab AB P aB Ab P aB Ab affected P ab AB P ab AB affected P AaBb affected P 2 2 2 ) 2 ( logit 2 ) 2 ( logit ) , ( ) , ( ) , ( ) , | ( ) , ( ) , | ( ) | ( 1 1 1 1 1 1
ケース群の遺伝子型分布
(ロジスティック回帰モデルを乗法的モデルにより近似) aa aA AA bb bB BB K P f a 0 ab2 / ) | (AaBb affected P e K P P g f b 0 12 ab Ab / c f0g2PAb2 /K K P P h f d 0 12 ab aB / K P h f g 0 2 aB2 / hf0g1h22PaBPAB / K K P P h g f f 0 2 12 Ab AB / K P h g f i 2 0 2 2 AB2 / ) ( , 2 2 ) ( ) , ( ) , | ( ) , ( ) , | ( ) | ( 1 1 0 affected P K K P P P P h g f affected P aB Ab P aB Ab affected P ab AB P ab AB affected P affected AaBb P aB Ab AB ab HWE aB Ab AB ab P P P P bd ae cd af bg ah cg ai
2
1
以上のケース群,コントロール群の近似を用いたものが
Ueki & Cordell (2012)のJoint Effects検定
相互作用がなければ(ω=1),ケースとコントロール でそれぞれ計算したλの値に差は生じない 相互作用があれば(ω≠1)差が生じる 任意の主効果の形状を許す
コントロール群の遺伝子型分布
(一般集団分布に近似可) aa aA AA bb bB BB 2 ab P a aB Ab AB abP P P P e 2 2 Ab abP P b 2 c PAb2 aB abP P d 2 2 aB P g h 2PaBPAB AB AbP P f 2 2 AB P i aB Ab AB ab P P P P bd ae cd af bg ah cg ai
2
1
Ma et al. (2013 PLoS Genet)はSNPを遺伝子単位 でグループ化し,遺伝子間の相互作用を調べる手法 を提案した
SNP単位の関連解析を遺伝子単位に集約する手
法GATES(Li et al. 2011 AJHG) を応用したもの
Lewinger et al. (2013 Genet Epidemiol)は2段階の
検定を用いて,厳しい有意水準を緩和しようと試みた SNP間の相関でスクリーニング 検定間の独立性を利用(Dai et al. 2012 Biomerika) 36
その他の手法
Ritchie et al. (2001 AJHG)は,遺伝子型データの高
次の相互作用の分割表を高 低リスクカテゴリにまとめ
るMultifactor Dimensionality Reduction法(MDR)を
提案
クロスバリデーションを用いて効果の真偽を確認する
最近まで,相互作用の検出に用いられてきた手法で
あるが,計算量が高くゲノムワイドの適用は困難
Ueki & Tamiya (2012 BMC Bioinf)は変数選択を利
用するMDRと同種の手法を提案
Van Lishout et al. (2013 BMC Bioinf)は 値をパー
ミュテーションテストから有効に求める方法を提案
38 遺伝子-遺伝子相互作用解析では,これまで再現性の あった結果はほとんど得られていない 遺伝子-環境相互作用も同様
今後さらなる研究が必要
おわりに
My special thanks to
Prof. Heather Cordell (Newcastle University, UK)
Prof. Gen Tamiya (Tohoku University, Japan)