Feb 22 2012 1
R ン 解析
~NGS 来塩基配列 自在 解析 ~
東京大学大学院農学生命科学研究科
ン 教育研究 ッ
門 幸二& う '
http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp
Contents
multi-fasta 形式 情報抽出
比較 ン 解析&二群間比較'
各種R ッ
分布& ソン分布 負 二 分布'
edgeR ッ 使 &technical replicates'
MA-plot
倍率変化 理
edgeR ッ 使 &biological replicates'
NGS ッ 行う
任意 R ッ ン 方
ン 間 ン 基本中 基本
Feb 22 2012 3
R 起動
ク ップ あ 20111221 ォ ダ中 ァイ を解析
作業 &= ' 変更
Feb 22 2012 5
getwd() 打 込 確認
参考
Feb 22 2012 7
multi-fasta 形式 情報抽出 1
一連 コマン 群をコ ーし
R Console画面上 ー
multi-fasta 形式 情報抽出 1
出力 ァイ 名 し 指定したも hoge.txt
20111221 ォ ダ中 作成
Feb 22 2012 9
練習
20111221 中 あ practice1.txt 中 記述 変更
Trinity.fasta 対 様 解析 行
い 結果 hoge1.txt 出力
multi-fasta 形式 情報抽出 2
配列 GC含量を計算したい
Feb 22 2012 11
練習
20111221 中 あ practice2.txt 中 記述 変更
Trinity.fasta 対 様 解析 行
い 結果 hoge2.txt 出力
multi-fasta 形式 情報抽出 3
Trinity.fasta 対し 600bp以上 も み抽出し みよう
Feb 22 2012 13
multi-fasta 形式 情報抽出 4
FPKM値:配列長補正 み 発現量 相当 値
Trinity 新しいバー ョン FPKM値を出力し く ったよう …
multi-fasta 形式 情報抽出 4
Trinity.fasta
FPKM値をも サンプ 内 転写物間 発現 大小を議論可能
サンプ 間 比較 使え い いわ い
利用可能 R ッ
15
DEGseq (Wang et al., Bioinformatics, 26: 136-138, 2010)
ワソン分布&variance = mean' 仮定 い ば 過少評価
edgeR (Robinson et al., Bioinformatics, 26: 139-140, 2010)
正規化法8TMM法
負 二 分布&variance > mean' 仮定 mean 用い 現実
ば 表現
DESeq (Anders and Huber, Genome Biol., 11: R106, 2010)
正規化法8RLE法(relative log expression)
edgeR 拡張& い い'
baySeq (Hardcastle and Kelly, BMC Bioinformatics, 11:422, 2010)
正規化法8RPM ( ぶ )
配列 長 情報 与え ン あ
ッ 中 占 DEG 割合&PDEG' 一意 返
NBPSeq (Di et al., SAGMB, 10:24, 2011)
Feb 22 2012
入力8生 ン 遺伝子発現行列
出力8遺伝子 発現変動 度合い&p値 '
生 ン ?!
基本的 ッ ン & bowtie ' 用い 場合
遺伝子1 遺伝子2 遺伝子3 遺伝子4
遺伝子1 遺伝子2 遺伝子3 遺伝子4
T1 ン RNA-Seq
mapping
count ン 配列8 ノ
count ン 配列8 ン
理想的 実験 ン&二群間比較'
ン A vs. B 比較& Kidney vs. Liver 9腎臓 vs. 肝臓'
生 ン &整数値'
Feb 22 2012 17
A18あ 生物 腎臓
A28 生物種 別個体 腎臓
A38 生物種 別個体 腎臓
…
B18あ 生物 肝臓
B28 生物種 別個体 肝臓
…
Biological replicates
生物学的 ば &個体間 違い' 考慮 べ
分布 話
例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 & 一部'
kidney&腎臓' liver&肝臓'
Technical replicates
ン 内 技術的 ば &例8 ン間 違い' 度合い 調べ
あ う 二群間比較 発現変動遺
伝子 程度あ い 数 関 議論 無意味
解析例8 ?!数&50% ' 発現変動遺伝子 検出
理 8Biological variation > Technical variation
分布 話
例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 & 一部'
Feb 22 2012 19
kidney&腎臓'
RPM 正規化
8 . 1,804,977 7027
000 , 000 , 685 1 , 2
1
分布 話
例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 & 一部'
kidney&腎臓'
adjusted R-squared: 0.897
y = a + bx y = x
Technical replicates 8
&遺伝子 'VARIANCE MEAN
明可能 あ
VARIANCE ≒ MEAN ソン分布 従う
分布 話
例題8Cumbie et al., PLoS ONE, 6: e25279, 2011 & 一部'
Feb 22 2012 21
Arabidopsis& '
adjusted R-squared: 0.815
y = a + bx y = x
Biological replicates 8
VARIANCE > MEAN 負 二 &NB'分布 従う
NB 適用可能
生物 ン&http://biosciencedbc.jp/taxonomy_icon/taxonomy_icon.cgi'
沢山 方法 存在 う ?
DEGseq (Wang et al., Bioinformatics, 26: 136-138, 2010)
ワソン分布&variance = mean' 仮定 い ば 過少評価
edgeR (Robinson et al., Bioinformatics, 26: 139-140, 2010)
正規化法8TMM法
負 二 分布&variance > mean' 仮定
DESeq (Anders and Huber, Genome Biol., 11: R106, 2010)
正規化法8RLE法(relative log expression)
edgeR 拡張& い い'
baySeq (Hardcastle and Kelly, BMC Bioinformatics, 11:422, 2010)
正規化法8RPM ( ぶ )
配列 長 情報 与え ン あ
ッ 中 占 DEG 割合&PDEG' 一意 返
NBPSeq (Di et al., SAGMB, 10:24, 2011)
Ans. Variance Mean 関係 表現 手段 沢山あ
) 1
(
VAR
) 1
(
VAR
) 1
(
VAR 1
VAR
edgeR 使
例題8Marioni et al., Genome Res., 18: 1509-1517, 2008
Feb 22 2012 23
kidney&腎臓' liver&肝臓'
8SupplementaryTable2_changed.txt 内容8A群 最初 5列 B群 残 5列
解析結果 hoge2.txt いう 前 出力 い
edgeR 使
8SupplementaryTable2_changed.txt 内容8A群 最初 5列 B群 残 5列
edgeR 使
Feb 22 2012 25
R上 !
& ッ 出 い け ば
hoge2.txt いう い '
edgeR 使
一番右側 数値 False Discovery Rate (FDR) 列&O列' 昇 ソ ば任意 閾値 満 遺伝子数 わ
19,785個 FDR < 0.01 満 21,291 FDR < 0.05
edgeR 使
Feb 22 2012 27
Top-ranked gene 生 ン 眺 確 発現変動 (Kidney << Liver) い 分
edgeR 使
M-A plot 描画&FDR < 0.01 満 赤色 表示'
hoge2.png
edgeR 使
M-A plot 描画&2倍以上発現変動 い 赤色 表示'
Feb 22 2012 29
hoge2.png
11787個&全遺伝子数 う 約37% 2倍以上発現変動 い ' 方
倍率変化 理
例題8Marioni et al., Genome Res., 18: 1509-1517, 2008
kidney&腎臓' liver&肝臓'
A B
発現変動遺伝子 い 二群間比較
倍率変化 理
例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 & 一部'
(A1, A2) vs. (A3, A4) 二群間比較結果
Feb 22 2012 31
edgeR FDR < 0.01 満 0個 &edgeR '2倍以上発現変動 い 3814個
低発現領域 log比 大 く 現象 う く 化 重要
○ ×
Rcode_edgeR_tech_rep_fdr001.txt Rcode_edgeR_tech_rep_fc2.txt
Top 400
Top 2000
低い ← 全体的 発現 → 高い
感 ンキン 重要
Feb 22 2012 33
adjusted R-squared: 0.897
y = a + bx y = x
adjusted R-squared: 0.774
RPM正規化 RPKM正規化
長 補正 仮定 分布 大 く …
Biological replicates 3 vs. 3 ン
例題8Cumbie et al., PLoS ONE, 6: e25279, 2011 Arabidopsis
data_arab.txt
26,221 genes
” AT4G32850” 重複 存在 い 19520行目 予 除去 い
A群 B群
edgeR default 手 (edgeR/default) 実行
Feb 22 2012 35
edgeR default 手 (edgeR/default) 実行
A群 高発現 B群 高発現
Feb 22 2012 37
い! 文句 言わ 自分 ン
R上 ば任意 ッ ン
ン 間 ン 重要
Feb 22 2012 39
ン 間 ン 重要
中 発現変動遺伝子 あ う う
ン 結果 眺 け わ
& R '
NGS 得 FASTQ形式 込 論文 く出
く quality score分布 GC含量 計算結果 得
&de novo transcriptome assembly 得 'multi-fasta形式 各種解析 可能
配列長 ン N50 計算
比較 ン 解析用 R ッ 充実 い
但 入力 注意 必要
ン 間比較8生 ン
ン 内比較8長 補正 行 &RPKM FPKM '
分布 考え 重要 &発現変動遺伝子数 議論 い場合'
technical replicates biological replicates
R ッ 用い ば発現変動遺伝子 検出 描画 簡単
二倍&倍率変化' ○○
Feb 22 2012 41
&R '塩基配列解析 用い … べく自力 解析
3/9 門 担当部分 詳細 話 予定
Feb 22 2012 43
東大生以外 方 受講可能 &来年度 '