• 検索結果がありません。

発表スライドのPDF Lecture 2 Rでつなぐ次世代オミックス情報統合解析研究会

N/A
N/A
Protected

Academic year: 2018

シェア "発表スライドのPDF Lecture 2 Rでつなぐ次世代オミックス情報統合解析研究会"

Copied!
43
0
0

読み込み中.... (全文を見る)

全文

(1)

Feb 22 2012 1

R 解析

NGS 来塩基配列 自在 解析 ~

東京大学大学院農学生命科学研究科

ン 教育研究 ッ

門 幸二& う '

http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp

(2)

Contents

multi-fasta 形式 情報抽出

比較 解析&二群間比較'

各種R

分布& ソン分布 分布'

edgeR 使 technical replicates

MA-plot

倍率変化

edgeR 使 biological replicates

NGS 行う

任意 R

基本中 基本

(3)

Feb 22 2012 3

R 起動

ク ップ あ 20111221 ォ ダ中 ァイ を解析

(4)

作業 &= ' 変更

(5)

Feb 22 2012 5

getwd() 確認

(6)

参考

(7)

Feb 22 2012 7

multi-fasta 形式 情報抽出 1

一連 コマン 群をコ ーし

R Console画面上

(8)

multi-fasta 形式 情報抽出 1

出力 ァイ 名 し 指定したも hoge.txt

20111221 ダ中 作成

(9)

Feb 22 2012 9

練習

20111221 practice1.txt 記述 変更

Trinity.fasta 解析

い 結果 hoge1.txt 出力

(10)

multi-fasta 形式 情報抽出 2

配列 GC含量を計算したい

(11)

Feb 22 2012 11

練習

20111221 practice2.txt 記述 変更

Trinity.fasta 解析

い 結果 hoge2.txt 出力

(12)

multi-fasta 形式 情報抽出 3

Trinity.fasta 対し 600bp以上 み抽出し みよう

(13)

Feb 22 2012 13

multi-fasta 形式 情報抽出 4

FPKM値:配列長補正 発現量 相当

Trinity 新しいバー ョン FPKM値を出力し ったよう

(14)

multi-fasta 形式 情報抽出 4

Trinity.fasta

FPKM値をも サンプ 転写物間 発現 大小を議論可能

サンプ 間 比較 使え い いわ い

(15)

利用可能 R

15

DEGseq (Wang et al., Bioinformatics, 26: 136-138, 2010)

ワソン分布&variance = mean 仮定 過少評価

edgeR (Robinson et al., Bioinformatics, 26: 139-140, 2010)

正規化法8TMM

分布&variance > mean 仮定 mean 用い 現実

表現

DESeq (Anders and Huber, Genome Biol., 11: R106, 2010)

正規化法8RLE(relative log expression)

edgeR 拡張& い'

baySeq (Hardcastle and Kelly, BMC Bioinformatics, 11:422, 2010)

正規化法8RPM ( )

配列 情報 与え

DEG 割合&PDEG 一意

NBPSeq (Di et al., SAGMB, 10:24, 2011)

Feb 22 2012

入力8生 遺伝子発現行列

出力8遺伝子 発現変動 度合い&p

(16)

生 ン ?!

基本的 bowtie 用い 場合

遺伝子1 遺伝子2 遺伝子3 遺伝子4

遺伝子1 遺伝子2 遺伝子3 遺伝子4

T1 RNA-Seq

mapping

count 配列8

count 配列8

(17)

理想的 実験 ン&二群間比較'

A vs. B 比較& Kidney vs. Liver 9腎臓 vs. 肝臓'

&整数値'

Feb 22 2012 17

A18あ 生物 腎臓

A2 生物種 別個体 腎臓

A3 生物種 別個体 腎臓

B18あ 生物 肝臓

B2 生物種 別個体 肝臓

Biological replicates

生物学的 &個体間 違い' 考慮

(18)

分布 話

例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 一部'

kidney&腎臓' liver&肝臓'

Technical replicates

技術的 &例8 ン間 違い' 度合い 調べ

二群間比較 発現変動遺

伝子 程度あ 議論 無意味

解析例8 ?!数&50% 発現変動遺伝子 検出

Biological variation > Technical variation

(19)

分布 話

例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 一部'

Feb 22 2012 19

kidney&腎臓'

RPM 正規化

8 . 1,804,977 7027

000 , 000 , 685 1 , 2

1

(20)

分布 話

例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 一部'

kidney&腎臓'

adjusted R-squared: 0.897

y = a + bx y = x

Technical replicates

&遺伝子 VARIANCE MEAN

明可能

VARIANCE MEAN ソン分布 従う

(21)

分布 話

例題8Cumbie et al., PLoS ONE, 6: e25279, 2011 一部'

Feb 22 2012 21

Arabidopsis

adjusted R-squared: 0.815

y = a + bx y = x

Biological replicates

VARIANCE > MEAN NB'分布 従う

NB 適用可能

生物 ン&http://biosciencedbc.jp/taxonomy_icon/taxonomy_icon.cgi

(22)

沢山 方法 存在 う ?

DEGseq (Wang et al., Bioinformatics, 26: 136-138, 2010)

ワソン分布&variance = mean 仮定 過少評価

edgeR (Robinson et al., Bioinformatics, 26: 139-140, 2010)

正規化法8TMM

分布&variance > mean 仮定

DESeq (Anders and Huber, Genome Biol., 11: R106, 2010)

正規化法8RLE(relative log expression)

edgeR 拡張& い'

baySeq (Hardcastle and Kelly, BMC Bioinformatics, 11:422, 2010)

正規化法8RPM ( )

配列 情報 与え

DEG 割合&PDEG 一意

NBPSeq (Di et al., SAGMB, 10:24, 2011)

Ans. Variance Mean 関係 表現 手段 沢山あ

) 1

(

VAR 

) 1

(

VAR

) 1

(

VAR 1

VAR

(23)

edgeR 使

例題8Marioni et al., Genome Res., 18: 1509-1517, 2008

Feb 22 2012 23

kidney&腎臓' liver&肝臓'

SupplementaryTable2_changed.txt 内容8A 最初 5 B 5

解析結果 hoge2.txt いう 出力

(24)

edgeR 使

SupplementaryTable2_changed.txt 内容8A 最初 5 B 5

(25)

edgeR 使

Feb 22 2012 25

R

hoge2.txt いう

(26)

edgeR 使

一番右側 数値 False Discovery Rate (FDR) 列&O列' ば任意 閾値 遺伝子数

19,785 FDR < 0.01 21,291 FDR < 0.05

(27)

edgeR 使

Feb 22 2012 27

Top-ranked gene 発現変動 (Kidney << Liver)

(28)

edgeR 使

M-A plot 描画&FDR < 0.01 赤色 表示'

hoge2.png

(29)

edgeR 使

M-A plot 描画&2倍以上発現変動 赤色 表示'

Feb 22 2012 29

hoge2.png

11787個&全遺伝子数 37% 2倍以上発現変動

(30)

倍率変化 理

例題8Marioni et al., Genome Res., 18: 1509-1517, 2008

kidney&腎臓' liver&肝臓'

A B

発現変動遺伝子 二群間比較

(31)

倍率変化 理

例題8Marioni et al., Genome Res., 18: 1509-1517, 2008 一部'

(A1, A2) vs. (A3, A4) 二群間比較結果

Feb 22 2012 31

edgeR FDR < 0.01 0 edgeR 2倍以上発現変動 3814

低発現領域 log 現象 重要

×

Rcode_edgeR_tech_rep_fdr001.txt Rcode_edgeR_tech_rep_fc2.txt

(32)

Top 400

Top 2000

低い 全体的 発現 高い

ンキン 重要

(33)

Feb 22 2012 33

adjusted R-squared: 0.897

y = a + bx y = x

adjusted R-squared: 0.774

RPM正規化 RPKM正規化

補正 仮定 分布

(34)

Biological replicates 3 vs. 3

例題8Cumbie et al., PLoS ONE, 6: e25279, 2011 Arabidopsis

data_arab.txt

26,221 genes

” AT4G32850” 重複 存在 19520行目 除去

A B

(35)

edgeR default (edgeR/default) 実行

Feb 22 2012 35

(36)

edgeR default (edgeR/default) 実行

A 高発現 B 高発現

(37)

Feb 22 2012 37

い! 文句 言わ 自分 ン

(38)

R ば任意

(39)

ン 間 ン 重要

Feb 22 2012 39

(40)

ン 間 ン 重要

中 発現変動遺伝子 あ う う

ン 結果 眺 け わ

(41)

R

NGS FASTQ形式 論文 く出

く quality score分布 GC含量 計算結果

de novo transcriptome assembly multi-fasta形式 各種解析 可能

配列長 N50 計算

比較 解析用 R 充実

入力 注意 必要

間比較8生

内比較8長 補正 RPKM FPKM

分布 考え 重要 &発現変動遺伝子数 議論 い場合'

technical replicates biological replicates

R 用い ば発現変動遺伝子 検出 描画 簡単

二倍&倍率変化' ○○

Feb 22 2012 41

R '塩基配列解析 用い べく自力 解析

(42)

3/9 担当部分 詳細 予定

(43)

Feb 22 2012 43

東大生以外 受講可能 &来年度

参照

関連したドキュメント

文献資料リポジトリとの連携および横断検索の 実現である.複数の機関に分散している多様な

北陸 3 県の実験動物研究者,技術者,実験動物取り扱い企業の情報交換の場として年 2〜3 回開

データベースには,1900 年以降に発生した 2 万 2 千件以上の世界中の大規模災 害の情報がある

「1 つでも、2 つでも、世界を変えるような 事柄について考えましょう。素晴らしいアイデ

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB

ヒット数が 10 以上の場合は、ヒットした中からシステムがランダムに 10 問抽出して 出題します。8.

島出土の更新世人骨の 3 次元形態解析やミトコンドリア DNA

2 サービスの質の向上をめ ざし、苦情解決の仕組み の見える化と、苦情等に 対しての原因究明と再発