QTL解析 iwatawiki

(1)

R QTL 解析

ュ

2017.11.17

岩田洋佳

本ュ _R 用い _QTL 解析行う方法い明

定例利用

定多環境試験例解析行う記ウン

遺伝子型：

http://www.genenetwork.org/genotypes/SXM.geno

表現型：

http://wheat.pw.usda.gov/ggpages/SxM/phenotypes.html

表現型様々ウンここ収量 yield ウン

利用

定こッ品種 Steptoe×Morex 交配得 150 倍加半数

体 doubled haploid DH 系統含い遺伝子型 7 染色体

全体布 ₂₁₈ 含収量 ₁₆ 環境計測さ単

収量 t/ha 含い

定利用 _R ッ

定 QTL 解析 qtl ッ GS 予測 qtl ッ kernlab ッ用い

い R ッン簡単ウンン可能あ

定入力準備

ウン R 込こ形式

作成

定遺伝子型入力以手順作成

定ウン区 Excel 表計算ソ開く

定 ₂₈ 行目ッ情報削除

ウ定削除後残選択表計算ソ行列

入え転置貼付け

定入力初 ₃ 行＜＜染色体番号＜染色体

(2)

置順並い必要あそこ 2 行目先頭行写

定 Locus id 変更 Chr cM 除く空白

定系統 _SM### ₁ 〜 ₁₅₀ 数変更

定測示 − NA 一括変換

定作業行 CSV 形式ここ geno.csv 保

定表現型入力作成 R qtl ッ各列系統各行形質環

境対応形式入力準備必要あい列系統 _id

示列含い必要あこ系統 id 遺伝子型そ一致必要

あッ入力数

定以 _R 用いこ述う形式入力作成こ

こ実行前作業表現型

ここ yield.dat 含い変更

く必要あ実行 _yield.csv 付け出力さ

こ引続行う解析置い表現型入力

定 QTL 解析実行

定ここ R qtlAnalysis.R 手順 QTL 解析行う以

qtlAnalysis.R ^{内容} ^順 ^明 ^{行く} qtl ^ッ ^込

# read phenotype data

data <- scan("yield.dat", what = character())

n.env <- as.numeric(data[3]) # get the number of environments n.line <- as.numeric(data[4]) # get the number of lines yield <- matrix(NA, n.line, n.env) # prepare a data matrix for(i in 1:n.env) { # repeat n.env times

start <- 4 + (n.line + 1) * (i - 1) + 2 # start of the i-th env data end <- start + n.line - 1 # end of the i-th env data yield[, i] <- as.numeric(data[start:end]) # should convert to numeric }

yield <- cbind(1:n.line, yield) # add a data id column

colnames(yield) <- c("id", paste("Env", 1:n.env, sep = "")) # add names to columns write.csv(yield, "yield.csv", quote = F, row.names = F) # output data to a csv file

require(qtl) # R package for QTL mapping

(3)

準備入力込

実記通入力正く込こい F2 集団

認識さこ _qtl ッ _DH 集団直接扱うこいこ起因

そこ遺伝子型入力 B い H 直こ戻交

雑 back-cross BC 集団込実際作業 Excel 表計算

ソ用い _geno.csv 開 _B _H 一括置換 geno_bc.csv ^保

BC ^集団 ^保 ^さ ^込 ^染色体 ^置 ^全く ^遺伝

子あ jittermap 関数こ遺伝子間小さ隙間くさ

種々 plot 関数使連鎖地図測値表現型表示

R 図 PDF 直接出力ン実行連鎖地図等

描 PDF 出力さ

# Read an input file

cross <- read.cross(format = "csvs", genfile = "geno.csv", phefile = "yield.csv")

# again, read the input file

cross <- read.cross(format = "csvs", genfile = "geno_bc.csv", phefile = "yield.csv")

# add a small distance between markers at the same position cross <- jittermap(cross)

plot.map(cross) # show the linkage map plot.missing(cross) # show missing data

plot.pheno(cross) # show a histogram of phenotype. With this command, just id is shown plot.pheno(cross, pheno.col = 2) # show phenotype data in the second column

# data from the 1st environment is shown

# output to a pdf file

pdf("cross_summary.pdf") # set the name of pdf file plot.map(cross)

plot.missing(cross) for(i in 2:nphe(cross)) {

plot.pheno(cross, pheno.col = i) }

dev.off() # should close the file at the end

(4)

QTL 解析染色体等間隔置 pseudo marker

け遺伝子型確率計算くここ 2 cM 間隔 pseudo marker 配置

単純ンッン simple interval mapping SIM ^行う ^ここ

16 環境計測さ収量う 16 番目 env.id = 16 解析こ R

qtl ッいく方法ンッン行うこここ

EM ^基 ^く方法 em Haley and Knott ^回帰 ^基 ^く方法 hk ^測

遺伝子型 QTL 遺伝子型補完行う方法 imp 3 試 qtl ッ含

scanone いう関数用い SIM 行う

3 ^方法 ^結果 ^ほ ^あ Fig. 1 ^こ ^こ ^高密

配置さい間在 QTL 計算方法違う計算

3 手法違い出考えそここ以降計算 3 手法中

計算速速い _hk 用い解析行う

# calculate the probabilities of genotypes at equal-spaced potisions on the map interval <- 2 # 2 cM intervals

cross <- calc.genoprob(cross, step = interval)

# preparation for the imputation method. it takes some time cross <- sim.geno(cross, step = interval, n.draws = 1000)

# determine environment env.id <- 16

# interval mapping with the EM-algorithm

out.em <- scanone(cross, pheno.col = env.id + 1, method = "em") plot(out.em)

# large QTL are detected on the 2nd and 3rd chromosome

# interval mapping with the Haley and Knott regression

out.hk <- scanone(cross, pheno.col = env.id + 1, method = "hk") plot(out.hk)

# interval mapping with the imputation method

out.imp <- scanone(cross, pheno.col = env.id + 1, method = "imp") plot(out.imp)

par(mfrow = c(3,1)) # plot 3 figures simultaneously to make comparison plot(out.em, main = "EM-algorithm")

plot(out.hk, main = "Haley and Knott regression") plot(out.imp, main = "Imputation method")

# difference between methods is quite small

par(mfrow = c(1,1)) # reset the number of figures plotted simultaneously to 1

(5)

Fig. 1. 3 異手法単純ンッン結果 SIM 横軸第〜７染

色体置縦軸 _LOD 値大いほそ場所 _QTL あ可能性高いこ

手法間違いほ見い

LOD ^値 ^大 ^さ ^基 QTL ^検出 ^い値 ^決 ^い値

決前 QTL 表示 LOD 値断さ QTL

表示さい値決並べえ検 permutation test 行う並べ

え検表現型無作並びえ _QTL 解析繰返行う無作並

びえこ遺伝子型表現型対応関係撹乱さ本来

い QTL 関情報消失う逆見並びえ行検

出さう _LOD 値偽物 _QTL 偽陽性起因考えこ

0 5 10 15

EM-algorithm

Chromosome

lod

1 2 ³ 4 ⁵ ⁶ 7

0 5 10 15

Haley and Knott regression

Chromosome

lod

1 2 ³ 4 ⁵ ⁶ 7

0 5 10 15

Imputation method

Chromosome

lod

1 2 ³ 4 ⁵ ⁶ 7

(6)

う基並びえ毎 QTL 解析行い染色体全域中 LOD 大

値記録こ複数回例え 1,000 回繰返こ QTL 無

い場合 _LOD 値布経験的帰無布求い値例えこう得

経験的帰無布 5% 等設例え 5％設 QTL 無い

誤偽 QTL 検出う確率ノ全体 5% う設さこう

求い値 _LOD 値う意求こ場合

2 QTL 領域検出さ Fig. 2

Fig. 2. 単純ンッン SIM 結果線並べえ検求 LOD

値 _LOD 値線あ置 _QTL 在考え領域

0 5 10 15

Chromosome

lod

1 2 ³ 4 ⁵ ⁶ 7

# show the list of QTL detected by the hk regression summary(out.hk)

# perform a permutation test to get a threshold for LOD score to detemine QTL regions operm.hk <- scanone(cross, pheno.col = env.id + 1, method = "hk", n.perm = 1000)

# show the threshold obtained from the permtation test summary(operm.hk, alpha = 0.05)

# with this threshold, it is expected to detect non-QTL as QTL at the 5% probability

# show the QTL result figure with the threshold plot(out.em)

abline(h = summary(operm.hk, alpha = 0.05))

# close up one chromosome chr.id <- c(2,3)

plot(out.em, chr = chr.id)

abline(h = summary(operm.hk, alpha = 0.05))

# show the list of QTL detected with the threshold summary(out.hk, perms = operm.hk, alpha = 0.05)

(7)

検出さ QTL 効果推行う makeqtl 関数検出さ QTL 置

遺伝子型抜出そ独立変数明変数表現型従属変数被明

変数回帰述い値従う ₂ _QTL 検出さ _{Fig. 3} こ

QTL 効果誤差比べそ大さあ大く無く回帰析け F 検結果

意い

Fig. 3. 単純ンッン SIM 検出さ 2 QTL

200

150

100

50

0 Chromosome

L o ca ti o n (cM)

1 2 ³ 4 ⁵ ⁶ 7

Genetic map

Q1

Q2

# estimate QTL effects

temp <- summary(out.hk, perms = operm.hk, alpha = 0.05) # output the list of significant QTL qtl <- makeqtl(cross, chr = temp$chr, pos = temp$pos, what = "prob")

res <- fitqtl(cross, qtl = qtl, get.ests = T, method = "hk")

# show the result

plot(qtl) # plot the location(s) of QTL

summary(res) # summary of fitting significant QTL

# QTL effects are not so strong, and the result of F-test for QTL are not significant...

(8)

ンッンッン composite interval mapping CIM 行

う CIM 共変量数ここ 7 設解析窓大さそ窓中

共変量配置いここ ₅ 設指解析行う必要あ _SIM

CIM 結果図示比較前者比べ後者 QTL 置解像高いこ

Fig. 4 こ CIM 共変量用いこ注目い場所以外置い

QTL ^影響 ^込 ^こ ^そ ^引 ^起こ ^変動 ^押さえ込 ^こ ^注

目い場所あ QTL 明瞭捉えうこ

SIM 様並べえ検行決い値用意 QTL 検出さ

いここ時間節約並びえ ₁₀ 回繰返いい実際

100 回繰返必要あ

# perform the composite interval mapping with the Haley and Knott regression n.covar <- 7

window.size <- 5

outcim.hk <- cim(cross, pheno.col = env.id + 1, method = "hk", n.marcovar = n.covar, window = window.size)

# compare the results between SIM and CIM par(mfrow = c(2,1))

plot(out.hk, main = "Simple Interval Mapping") plot(outcim.hk, main = "Composite Interval Mapping") add.cim.covar(outcim.hk, col = "green")

par(mfrow = c(1,1))

# The resolution of CIM is much higher than SIM

# determine the threshold for QTL detection

opermcim.hk <- cim(cross, pheno.col = env.id + 1, method = "hk", n.marcovar = n.covar, window = window.size, n.perm = 10)

# With larger number of permutations, you can get a more accurate result.

# show the threshold obtained from the permutation test summary(opermcim.hk, alpha = 0.05)

# show the list of QTL detected with the threshold summary(outcim.hk, perms = opermcim.hk, alpha = 0.05)

# no QTL is significant...

(9)

Fig. 4. 単純ンッン SIM ンッンッン CIM

比較 _CIM _QTL 置推さ

後単純ンッン用い複数 QTL 間交互作用検出

行うここ ₂ _QTL 間 _scantwo 関数索並びえ

検結果第 2 第 3 染色体 QTL 間意あいう結果得

2 QTL 時検出場合述並べえ検い値決こ

本並べえ検得い値基く第 ₂ び第 ₃ 染

色体間意検出さ

0

5

10

15

Simple Interval Mapping

Chromosome

lo d

1 2 ³ 4 ⁵ ⁶ 7

0

5

10

15

20

25

Composite Interval Mapping

Chromosome

lo d

1 2 ³ 4 ⁵ ⁶ 7

(10)

以 R 用い QTL 解析方法関明終わあここ 2 番目環境

い解析行異環境計測さ結果う変化

う _env.id いう変数 ₂ 以外値解析繰返実行解

析設例え CIM 際共変量数や窓変化さこ得

結果変化示少変更解析行い

い発見あう

# scan two QTL interactions (epistasis)

out2.hk <- scantwo(cross, pheno.col = env.id + 1, method = "hk")

# show the result of the scanning plot(out2.hk)

## perform a permutation test to get a threshold for LOD score to determine epistasis operm2.hk <- scantwo(cross, method="hk", n.perm=100)

# show the threshold obtained from the permtation test summary(operm2.hk, alpha = 0.05)

# show the list of epistasis detected with the threshold summary(out2.hk, perms = operm2.hk, alpha = 0.05)

# one epistasis between the 2nd and 3rd chromosomes is significant

(11)

応用編１レポート課題

遺伝子連鎖地図

1. ^#76 ^表 ^基 ^い ^遺伝子 ^A-B ^間 ^い ^対数尤 ^組換え価 ^r ^関数

ln L ( r ) 書そ _r 尤推量求さい式基

遺伝子 _{A-C, B-C} 間い組換え価求さい

2. A-B, A-C, B-C 間 Haldane 地図距離 Kosambi 地図距離ンン単

求さい log 計算 google 例え ln(0.3) 検索

0.3 ^自然対数 ^計算

3. ^遺伝子 ^{A B C} ^順 ^並 ^い ^考え ^妥当 ^う

QTL 解析

4. ^#58 ^示 ^F2 ^集団 ^離 ^考え ^遺伝子 ^{A, B} ^間 ^地図距離

3cM あ A 2cM 置 B 1cM 置置 QTL い

遺伝子型 _aaBb 個体 _i _QTL 遺伝子型 _{QQ, Qq, qq} 確率 _p

_iQQ,

_p

_iQq,

p

iqq

求さいここ値各地図距離対応組換え価用

いさい _r

AB

= 0.029 地図距離 3cM , r

AQ

=0.020 地図距離 2cM , r

BQ

=0.010 地

図距離 _1cM

5. ^問 ⁴ ^個体 ⁱ ^{マーカー遺伝子型が} ^aaBb ^い ^表現型値 ^y

ⁱ

^1.2 ^あ

今 #59 示 _µ =0.0, a =1.0, d =0.5, ^σ

²

=0.5 あ場合

い考え場合個体 _i _QTL 遺伝子型 _{QQ, Qq, qq} 表現型 _y

_i

_1.2 確率

#60 求さい

QTL 解析の実習

6. ^授業 ¹⁶ ^環境 ^計測さ ^収量 ^う ¹⁶ ^番目 ^{env.id =16} ^い ^解析

16 番目環境似環境似いい環境い QTL 解析

行いそ結果比較う

環境間収量類似性環境間相関係数決う

環境間相関関係 cor(cross$pheno)定求こ

Env16 ^正 ^相関 ^大 ^い環境 ^相関 0 ^近い環境 ^負 ^相関 ^大 ^い ^負

値 0 隔い環境 3 環境い QTL 解析行いそ結果比

較う

収量類似性 _QTL 解析結果う関係あう

(12)

QTL解析 iwatawiki

R QTL 解析

ュ

2017.11.17

岩田洋佳

本 ュ R 用い QTL 解析 行う方法 い 明

定 例 利用

定 多環境試験 例 解析 行う 記 ウン

遺伝子型 ：

http://www.genenetwork.org/genotypes/SXM.geno

表現型 ：

http://wheat.pw.usda.gov/ggpages/SxM/phenotypes.html

表現型 様々 ウン ここ 収量 yield ウン

利用

定 こ ッ 品種 Steptoe×Morex 交配 得 150 倍加半数

体 doubled haploid DH 系統 含 い 遺伝子型 7 染色体

全体 布 218 含 収量 16 環境 計測さ 単

収量 t/ha 含 い

定 利用 R ッ

定 QTL 解析 qtl ッ GS 予測 qtl ッ kernlab ッ 用い

い R ッ ン 簡単 ウン ン 可能 あ

定 入力 準備

ウン R 込 こ 形式

作成

定 遺伝子型入力 以 手順 作成

定 ウン 区 Excel 表計算ソ 開く

定 28 行目 ッ 情報 削除

ウ 定 削除 後 残 選択 表計算ソ 行 列

入 え 転置 貼付け

定 入力 初 3 行 ＜ ＜染色体番号 ＜染色体

置 順 並 い 必要 あ そこ 2 行目 先頭行 写

定 Locus id 変更 Chr cM 除く 空白

定 系統 SM### 1 〜 150 数 変更

定 測 示 − NA 一括変換

定 作業 行 CSV 形式 ここ geno.csv 保

定 表現型入力 作成 R qtl ッ 各列 系統 各行 形質 環

境 対応 形式 入力 準備 必要 あ い 列 系統 id

示 列 含 い 必要 あ こ 系統 id 遺伝子型 そ 一致 必要

あ ッ 入力 数

定 以 R 用い こ 述 う 形式 入力 作成 こ

こ 実 行 前 作 業 表 現 型

こ こ yield.dat 含 い 変 更

く必要 あ 実行 yield.csv 付け 出力さ

こ 引 続 行う解析 置い 表現型入力

定 QTL 解析 実行

定 こ こ R qtlAnalysis.R 手 順 QTL 解 析 行 う 以

qtlAnalysis.R 内 容 順 明 行 く qtl ッ 込

準備 入力 込

実 記 通 入力 正 く 込 こ い F2 集団

認識さ こ qtl ッ DH 集団 直接扱うこ いこ 起因

そこ 遺伝子型入力 B い H 直 こ 戻 交

雑 back-cross BC 集団 込 実際 作業 Excel 表計算

ソ 用い geno.csv 開 B H 一括置換 geno_bc.csv 保

BC 集団 保 さ 込 染色体 置 全く 遺伝

子 あ jittermap 関数 こ 遺伝子 間 小さ 隙間 く さ

種々 plot 関数 使 連鎖地図 測値 表現型 表示

R 図 PDF 直接出力 ン 実行 連鎖地図等

描 PDF 出力さ

QTL 解析 染色体 等間隔 置 pseudo marker

け 遺伝子型 確率 計算 く ここ 2 cM 間隔 pseudo marker 配置

単純 ン ッ ン simple interval mapping SIM 行う ここ

16 環境 計測さ 収量 う 16 番目 env.id = 16 解析 こ R

qtl ッ いく 方法 ン ッ ン 行うこ ここ

EM 基 く方法 em Haley and Knott 回帰 基 く方法 hk 測

遺伝子型 QTL 遺伝子型 補完 行う方法 imp 3 試 qtl ッ 含

scanone いう関数 用い SIM 行う

3 方法 結果 ほ あ Fig. 1 こ こ 高密

配置さ い 間 在 QTL 計算方法 違う 計算

3 手法 違い 出 考え そこ こ 以降 計算 3 手法 中

計算速 速い hk 用い 解析 行う

Fig. 1. 3 異 手法 単純 ン ッ ン 結果 SIM 横軸 第 〜７染

色体 置 縦軸 LOD 値 大 いほ そ 場所 QTL あ 可能性 高い こ

手法間 違い ほ 見 い

LOD 値 大 さ 基 QTL 検出 い値 決 い値

決 前 QTL 表示 LOD 値 断さ QTL

表示さ い値 決 並べ え検 permutation test 行う 並べ

え検 表現型 無作 並び え QTL 解析 繰 返 行う 無作 並

び え こ 遺 伝 子 型 表 現 型 対 応 関 係 撹 乱 さ 本 来

い QTL 関 情報 消失 う 逆 見 並び え 行 検

出さ う LOD 値 偽物 QTL 偽陽性 起因 考え こ

本ュ _R 用い _QTL 解析行う方法い明

定例利用

定多環境試験例解析行う記ウン

遺伝子型：

表現型：

表現型様々ウンここ収量 yield ウン

定こッ品種 Steptoe×Morex 交配得 150 倍加半数

体 doubled haploid DH 系統含い遺伝子型 7 染色体

全体布 ₂₁₈ 含収量 ₁₆ 環境計測さ単

収量 t/ha 含い

定利用 _R ッ

定 QTL 解析 qtl ッ GS 予測 qtl ッ kernlab ッ用い

い R ッン簡単ウンン可能あ

定入力準備

ウン R 込こ形式

定遺伝子型入力以手順作成

定ウン区 Excel 表計算ソ開く

定 ₂₈ 行目ッ情報削除

ウ定削除後残選択表計算ソ行列

入え転置貼付け

定入力初 ₃ 行＜＜染色体番号＜染色体

置順並い必要あそこ 2 行目先頭行写

定 Locus id 変更 Chr cM 除く空白

定系統 _SM### ₁ 〜 ₁₅₀ 数変更

定測示 − NA 一括変換

定作業行 CSV 形式ここ geno.csv 保

定表現型入力作成 R qtl ッ各列系統各行形質環

境対応形式入力準備必要あい列系統 _id

示列含い必要あこ系統 id 遺伝子型そ一致必要

あッ入力数

定以 _R 用いこ述う形式入力作成こ

こ実行前作業表現型

ここ yield.dat 含い変更

く必要あ実行 _yield.csv 付け出力さ

こ引続行う解析置い表現型入力

定 QTL 解析実行

定ここ R qtlAnalysis.R 手順 QTL 解析行う以

qtlAnalysis.R ^{内容} ^順 ^明 ^{行く} qtl ^ッ ^込

準備入力込

実記通入力正く込こい F2 集団

認識さこ _qtl ッ _DH 集団直接扱うこいこ起因

そこ遺伝子型入力 B い H 直こ戻交

雑 back-cross BC 集団込実際作業 Excel 表計算

ソ用い _geno.csv 開 _B _H 一括置換 geno_bc.csv ^保

BC ^集団 ^保 ^さ ^込 ^染色体 ^置 ^全く ^遺伝

子あ jittermap 関数こ遺伝子間小さ隙間くさ

種々 plot 関数使連鎖地図測値表現型表示

R 図 PDF 直接出力ン実行連鎖地図等

QTL 解析染色体等間隔置 pseudo marker

け遺伝子型確率計算くここ 2 cM 間隔 pseudo marker 配置

単純ンッン simple interval mapping SIM ^行う ^ここ

16 環境計測さ収量う 16 番目 env.id = 16 解析こ R

qtl ッいく方法ンッン行うこここ

EM ^基 ^く方法 em Haley and Knott ^回帰 ^基 ^く方法 hk ^測

遺伝子型 QTL 遺伝子型補完行う方法 imp 3 試 qtl ッ含

scanone いう関数用い SIM 行う

3 ^方法 ^結果 ^ほ ^あ Fig. 1 ^こ ^こ ^高密

配置さい間在 QTL 計算方法違う計算

3 手法違い出考えそここ以降計算 3 手法中

計算速速い _hk 用い解析行う

Fig. 1. 3 異手法単純ンッン結果 SIM 横軸第〜７染

色体置縦軸 _LOD 値大いほそ場所 _QTL あ可能性高いこ

手法間違いほ見い

LOD ^値 ^大 ^さ ^基 QTL ^検出 ^い値 ^決 ^い値

決前 QTL 表示 LOD 値断さ QTL

表示さい値決並べえ検 permutation test 行う並べ

え検表現型無作並びえ _QTL 解析繰返行う無作並

びえこ遺伝子型表現型対応関係撹乱さ本来

い QTL 関情報消失う逆見並びえ行検

出さう _LOD 値偽物 _QTL 偽陽性起因考えこ

う基並びえ毎 QTL 解析行い染色体全域中 LOD 大

値記録こ複数回例え 1,000 回繰返こ QTL 無

い場合 _LOD 値布経験的帰無布求い値例えこう得

経験的帰無布 5% 等設例え 5％設 QTL 無い

誤偽 QTL 検出う確率ノ全体 5% う設さこう

求い値 _LOD 値う意求こ場合

2 QTL 領域検出さ Fig. 2

Fig. 2. 単純ンッン SIM 結果線並べえ検求 LOD

値 _LOD 値線あ置 _QTL 在考え領域

検出さ QTL 効果推行う makeqtl 関数検出さ QTL 置