• 検索結果がありません。

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

N/A
N/A
Protected

Academic year: 2021

シェア "ゲノム情報解析基礎 ~ Rで塩基配列解析 ~"

Copied!
80
0
0

読み込み中.... (全文を見る)

全文

(1)

Jun12 2014 1

(Rで)塩基配列解析の利用法:

GC含量計算から発現変動解析まで

東京大学・大学院農学生命科学研究科

アグリバイオインフォマティクス教育研究プログラム

門田幸二(かどた こうじ)

[email protected]

http://www.iu.a.u-tokyo.ac.jp/~kadota/

実習は、デスクトップ上にある hogeフォルダの中身が以下 の状態を想定して行います ネット接続できないヒトも、 ダブルクリックでローカルに r_seq.htmlを起動可能です

(2)

2

Jun12 2014

参考ウェブページ

(Rで)塩基配列解析 の利用法の紹介

(3)

3

Jun12 2014

(4)

自己紹介

2002年3月

 東京大学・大学院農学生命科学研究科・応用生命工学専攻 博士課程修了  学位論文:「cDNAマイクロアレイを用いた遺伝子発現解析手法の開発」 (指導教官:清水謙多郎教授) 

2002/4/1~

 産総研・生命情報科学研究センター(CBRC) 産総研特別研究員  マイクロアレイ解析手法開発 

2003/11/1~

 放医研・先端遺伝子発現研究センター 研究員  一次元電気泳動波形解析手法開発 

2005/2/16~

 東京大学・大学院農学生命科学研究科・アグリバイオインフォマティクスプログラム  マイクロアレイ解析手法開発  RNA-seqデータ解析手法開発 4 Jun12 2014 (トランスクリプトーム解析周辺の)手法開発系のヒトです

(5)

5

Jun12 2014

(6)

Contents

Rでゲノム解析

シロイヌナズナゲノムのGC含量計算

multi-FASTAファイルの読み込み

関数やオプションの利用法

パッケージの説明

Rでトランスクリプトーム解析

シロイヌナズナのRNA-seqデータを一通り解析

公共DBからの生データ取得

マッピングおよびカウントデータ取得

サンプル間クラスタリング

発現変動遺伝子(DEG)検出

6 Jun12 2014

(7)

植物グローバルなので

例:シロイヌナズナ(Arabidopsis thaliana)

ゲノム配列決定(chr1-5, chrC, chrM)

1番染色体:Theologis et al., Nature, 408: 816-820, 2000

2番染色体:Lin et al., Nature, 402: 761-768, 1999

3番染色体:Salanoubat et al., Nature, 408: 820-822, 2000

 …

トランスクリプトーム配列(cDNA配列)決定

アノテーション:Seki et al., Science, 296: 141-145, 2002

 …

まとめサイト

 The Arabidopsis Information Resource (TAIR)

Lamesch et al., Nucleic Acids Res., 40: D1202-1210, 2012

 http://www.arabidopsis.org/

7

Jun12 2014

(8)

アノテーションファイル?!

8 Jun12 2014 TAIR10のゲノム配列ファイ ル(TAIR10_chr_all.fas)はこ こからダウンロードしました

(9)

アノテーションファイル?!

9 Jun12 2014 TAIRウェブインターフェース から取得する際のイメージ

参考

(10)

10 Jun12 2014 TAIR10のゲノム配列ファ イル(TAIR10_chr_all.fas) はこんな感じです

参考

(11)

11

Jun12 2014

multi-FASTAファイル?!

「>のヘッダ行、塩基またはアミノ酸配列」 が複数(multi)個からなるファイルのこと

(12)

Rで配列長とGC含量計算

12 Jun12 2014 最新のゲノム配列を読み込ん でGC含量を計算することがで きます。“TAIR10_chr_all.fas はhogeフォルダ中にあり

(13)

13

Jun12 2014

Rの起動

(14)

作業ディレクトリの変更

14 Jun12 2014

この部分は ひとそれぞれ 「Windows(C:)」となっている 場合もあるが、気にしない

(15)

getwd() と打ち込んで確認

15

(16)

基本はコピペ

16 Jun12 2014 ①一連のコマンド群をコピーして ②R Console画面上でペースト 2013年7月以降のリニューアル で、コードのコピーがやりずらく なっています。CTRLとALTキー を押しながらコードの枠内で左ク リックすると、全選択できます。

(17)

実行結果

17 Jun12 2014 実行前のhogeフォルダ 実行後のhogeフォルダ 出力: hoge4.txt

(18)

18 Jun12 2014

ありがちなミス1

作業ディレクトリの変更を忘れ ているため、入力ファイルの読 み込み段階でエラーとなる

(19)

19

Jun12 2014

ありがちなミス2

必要な入力ファイルが作業 ディレクトリ中に存在しない…

(20)

20 Jun12 2014

ありがちなミス3

出力予定のファイル名と同じものを別 のプログラムで開いているため最後の write.table関数のところでエラーが出る

(21)

21 Jun12 2014

ありがちなミス4

実行スクリプトをコピーする際、最後の行のところで改行 を含ませずにR Console画面上でペーストしたため、最後 のコマンドが実行されない(出力ファイルが生成されない)

(22)

Rで配列長とGC含量計算

22

Jun12 2014

出力: hoge4.txt 原著論文中の数値

(23)

詳細を説明

23 Jun12 2014 出力: hoge4.txt 入力と出力ファイル名 を指定しているところ

(24)

詳細を説明

24 Jun12 2014 GC含量計算をしたいときにはBiostringsと いうパッケージを読み込む必要がありま す。この作業を行っておかないと、例えば、 multi-FASTAファイルを読み込むための readDNAStringSet関数を利用できません。

(25)

詳細を説明

25 Jun12 2014 readDNAStringSet関数を用いて… ①in_fで指定した入力ファイルを ②fasta形式で読み込んだ結果を ③fastaというオブジェクト名で格納 しています

(26)

詳細を説明

26 Jun12 2014 fastaオブジェクトは確かに multi-FASTAファイル中の情 報を適切に読み込めている

(27)

27

Jun12 2014

(28)

色についての説明

28

Jun12 2014

単に確認しているだけな ので灰色になっている

(29)

浮かんでくる疑問

29 Jun12 2014 FASTA形式以外にどん な形式を読み込めるの だろう?FASTQ形式は 読み込めるの? DNA配列以外にど んな配列を読み込 めるのだろう?アミノ 酸配列は?

(30)

30 Jun12 2014

関数の使用法について

・「?関数名」で使用法を記したウェブページが開く ・ページの下のほうに、(大抵の場合)使用例が掲載されている ・使用法既知の関数のマニュアルをいくつか読んで、慣れておく

(31)

31 Jun12 2014

関数の使用法について

・FASTQファイルは読み込めそうだ ・readAAStringSet関数を用いれば アミノ酸配列を読み込めそうだ

(32)

32

Jun12 2014

関数の使用法について

(33)

33 Jun12 2014

FASTQ形式ファイル読み込み

readDNAStringSet関数を用いた読み 込み時に、オプションを変更することで FASTQ形式ファイルに対応している

(34)

GC含量計算の詳細を説明

34 Jun12 2014 alphabetFrequency関数を実行し て塩基ごとの出現回数をカウン トした結果をhogeに格納している dim関数は行列hogeの行数と列 数を表示。つまりhogeは7行×18 列から構成されているということ

(35)

GC含量計算の詳細を説明

35 Jun12 2014 A, C, G, T, およびN(A/C/G/T)の出現回数が 多いのは当たり前。それ以外は、M(A/C), R(A/G), W(A/T), S(C/G), …といった具合です。

(36)

GC含量計算の詳細を説明

36 Jun12 2014 入力のシロイヌナズナゲノム配列ファイル (TAIR10_chr_all.fas)中を検索すると、確か にWなどのACGTN以外の文字が存在します

(37)

GC含量計算の詳細を説明

37 Jun12 2014 出力: hoge4.txt 行列hogeに対して、rowSums関 数を用いて行ごとのカウント数の 総和を計算すると、染色体ごとの 配列長と一致するのは当然です

(38)

GC含量計算の詳細を説明

38

Jun12 2014

CGまたはACGTのサブセットを抽 出してからrowSums関数を実行

(39)

GC含量計算の詳細を説明

39

(40)

パッケージ説明

40 Jun12 2014 パッケージを個別にイ ンストールする場合 使い方の解説記事 はPDFのところをク リック。例えば…

(41)

41

Jun12 2014

Biostringsパッケージ中の関数を使いこなせると、他 の自然言語処理系プログラミング言語(perlやruby)を 改めて勉強しなくても必要な解析の多くを実行可能

(42)

原著論文引用はお願いします

42 Jun12 2014 (Rで)塩基配列解析のこと は見なかったことにしても、 用いたRパッケージや元と なるプログラムの原著論 文は引用してください by KDT39 「(Rで)塩基配列解析」を利用した 証拠もないしアクセスログもとって ないので引用や謝辞は必要なし

(43)

Contents

Rでゲノム解析

シロイヌナズナゲノムのGC含量計算

multi-FASTAファイルの読み込み

関数やオプションの利用法

パッケージの説明

Rでトランスクリプトーム解析

シロイヌナズナのRNA-seqデータを一通り解析

公共DBからの生データ取得

マッピングおよびカウントデータ取得

サンプル間クラスタリング

発現変動遺伝子(DEG)検出

43 Jun12 2014

(44)

トランスクリプトーム解析

44

シロイヌナズナのRNA-seqデータを一通りRで解析

2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014

Huang et al., Development, 139: 2161-2169, 2012

生データ取得から発現変 動解析までをRのみで実行

(45)

トランスクリプトーム解析

45

シロイヌナズナのRNA-seqデータを一通りRで解析

2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014 Step1:生データをダウンロード(す るために必要なID情報を取得)

(46)

トランスクリプトーム解析

46

シロイヌナズナのRNA-seqデータを一通りRで解析

2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014 生データをダウンロードするた めに必要なIDはSRP011435だ ということを知る

(47)

トランスクリプトーム解析

47 Jun12 2014 SRP011435を入力として、R上で FASTQファイルをダウンロード 可能(東大有線LANで数時間) 実習ではやらないで!!!

(48)

原著論文引用はお願いします

48 Jun12 2014 CTRLとALTキーを押しながら コードの枠内で左クリックすると 全選択できるので積極的に活用

(49)

Step1:生データのダウンロード中…

49

Jun12 2014

ここでは作業ディレクトリとして、デスク トップ上のSRP011435を指定している

(50)

Step1:生データのダウンロード終了後

50 Jun12 2014 

シロイヌナズナのRNA-seqデータを一通りRで解析

2群間比較用:4 DEX-treated vs. 4 mock-treated

IDとサンプル属性(ラベル) との対応関係を知りたい

(51)

トランスクリプトーム解析

51

シロイヌナズナのRNA-seqデータを一通りRで解析

2群間比較用:4 DEX-treated vs. 4 mock-treated

Jun12 2014 hoge2実行結果を眺める ことで対応付けが可能

(52)

ダウンロード終了後

52

Jun12 2014

シロイヌナズナのRNA-seqデータを一通りRで解析

2群間比較用:4 DEX-treated vs. 4 mock-treated

ここまでで、Step1生デー タのダウンロードが完了

(53)

Step2:マッピングおよびカウントデータ取得

53

マッピングに必要な情報

FASTQファイル:8個の*.fastq.gz

リストファイル:

srp011435_samplename.txt

リファレンスゲノム:

TAIR10_chr_all.fas

カウントデータ取得に必要な情報

遺伝子アノテーションファイル:

TAIR10_GFF3_genes.gff

Jun12 2014 遺伝子ごとに、どの染色体 のどの座標上に存在するの かなどの情報を含むタブ区 切りテキストファイル

(54)

Step2:マッピングおよびカウントデータ取得

54  マッピングに必要な情報  リストファイル:srp011435_samplename.txt(通常はテキストエディタで自作)  リファレンスゲノム:TAIR10_chr_all.fas(TAIRからダウンロード)  カウントデータ取得に必要な情報  遺伝子アノテーションファイル:TAIR10_GFF3_genes.gff(TAIRからダウンロード) Jun12 2014 必要なファイルを作業 ディレクトリに保存

(55)

アノテーションファイル?!

55 Jun12 2014 TAIR10のアノテーションファイ ル(TAIR10_GFF3_genes.gff) はここからダウンロードしました

参考

(56)

56 Jun12 2014 TAIRウェブインターフェース からアノテーションファイル (TAIR10_GFF3_genes.gff)を 取得する際のイメージ

参考

(57)

Step2:マッピングおよびカウントデータ取得

57 Jun12 2014 Step2が二つ存在するが、リファ レンスとしてRパッケージ BSgenome.Athaliana.TAIR.TAIR9 ではなくTAIR10_chr_all.fasを利 用するほうで説明します。

(58)

58

Jun12 2014

最初に、description行の記 述をChr1やChr2に変更した

(59)

description行の記述を揃えるのは基本

59  遺伝子アノテーションファイル:TAIR10_GFF3_genes.gff Jun12 2014 遺伝子アノテーションファイ ル中の1列目の表記法と同じ にするのが基本

(60)

Step2:マッピングおよびカウントデータ取得

60

Jun12 2014

コード実行後、確かに

(61)

Step2:マッピングおよびカウントデータ取得

61 Jun12 2014 CTRLとALTキーを押しながらコー ドの枠内で左クリックすると全選択 できるので積極的に活用。7時間 程度かかるので実行しないで!!

(62)

Step2:マッピングおよびカウントデータ取得

62

Jun12 2014

私はカウントデータを入力として その後の各種解析を行います

(63)

Step2:マッピングおよびカウントデータ取得

63

マッピングに必要な情報

FASTQファイル:8個の*.fastq.gz

リストファイル:

srp011435_samplename.txt

リファレンスゲノム:

TAIR10_chr_all.fas

カウントデータ取得に必要な情報

遺伝子アノテーションファイル:

TAIR10_GFF3_genes.gff

Jun12 2014 カウントデータファイル:srp011435_count_bowtie_2.txt リストファイル中に記載 した任意のサンプル名 がカウントデータファイ ルのヘッダー行となる ゲノム上の遺伝子座標情報ファイル を読み込んでいるから遺伝子ごとの カウントデータを取得可能なんです

(64)

トランスクリプトーム解析

64

シロイヌナズナのRNA-seqデータを一通りRで解析

2群間比較用:4 DEX-treated vs. 4 mock-treated

生データ(FASTQファイル)のID:GSE36469

Jun12 2014

Huang et al., Development, 139: 2161-2169, 2012

ここまでで、生データ取得から カウントデータ生成まで終了

(65)

トランスクリプトーム解析

65

実験デザイン再確認

2群間比較用:4 DEX-treated vs. 4 mock-treated

Jun12 2014

Huang et al., Development, 139: 2161-2169, 2012

個体数は2群合わせて4個体 群ごとに用いた個体数 (biological replicates)は2 個体ごとに用いた反復数 (technical replicates)は2 生物アイコン(http://biosciencedbc.jp/taxonomy_icon/taxonomy_icon.cgi)

(66)

Step3:サンプル間クラスタリング

66 Jun12 2014 CTRLとALTキーを押しながら コードの枠内で左クリックすると 全選択できるので積極的に活用。

(67)

Step3:サンプル間クラスタリング実行結果

67 Jun12 2014 出力:srp011435_count_cluster.png 400 500

(68)

Step4:発現変動遺伝子(DEG)同定の前に

68

Jun12 2014

Technical replicatesデータ のマージを行います

(69)

Step4:発現変動遺伝子(DEG)同定の前に

69 Jun12 2014 入力:srp011435_count_bowtie_2.txt 出力:srp011435_count_bowtie_3.txt Technical replicatesデータ のマージを行います

(70)

Step4:発現変動遺伝子(DEG)同定

70 Jun12 2014 入力:srp011435_count_bowtie_3.txt G1群 G2群

(71)

71

Jun12 2014

出力:srp011435_MAplot_bowtie.png

390

(72)

出力ファイルの説明

72 Jun12 2014 正規化後のデータ M-A plotのA値とM値 p-valueとその順位 q-value FDR閾値判定結果。 q-value < 0.05 を満たすDEGが1、non-DEGが0。

(73)

原著論文引用はお願いします

73 Jun12 2014 (Rで)塩基配列解析のこと は見なかったことにしても、 用いたRパッケージや元と なるプログラムの原著論 文は引用してください by KDT39 「(Rで)塩基配列解析」を利用した 証拠もないしアクセスログもとって ないので引用や謝辞は必要なし

(74)

まとめ

Rでゲノム解析

シロイヌナズナゲノムのGC含量計算

multi-FASTAファイルの読み込み

関数やオプションの利用法

パッケージの説明

Rでトランスクリプトーム解析

シロイヌナズナのRNA-seqデータを一通り解析

公共DBからの生データ取得

マッピングおよびカウントデータ取得

サンプル間クラスタリング

発現変動遺伝子(DEG)検出

74 Jun12 2014

Rでいろいろできます

(75)

スライドPDFはウェブから取得可能です

75

(76)

今後の予定

76

(77)

NGS速習コース開催(9/1~12@東大農)

77

(78)

78

謝辞

共同研究者

清水 謙多郎 先生(東京大学・大学院農学生命科学研究科)

西山 智明 先生(金沢大学・学際科学実験センター)

孫 建強 氏(東京大学・大学院農学生命科学研究科・大学院生)

グラント

基盤研究(C)(H24-26年度):「シークエンスに基づく比較トランスクリプトーム

解析のためのガイドライン構築」(代表)

新学術領域研究(研究領域提案型)(H22年度-):「非モデル生物におけるゲノ

ム解析法の確立」(分担;研究代表者:西山智明)

挿絵やTCCのロゴなど

Jun12 2014 (有能な秘書の)三浦 文さま作 (妻の)門田 雅世さま作

(79)

M-A plot

79

2群間比較用

横軸が全体的な発現レベル、縦軸がlog比からなるプロット

名前の由来は、おそらく対数の世界での縦軸が引き算(Minus)、横軸が平均(Average)

Jun12 2014 A = (log2G2 + log2G1)/2 1 2 3 4 5 M = lo g 2 G2 -lo g 2 G1 0 -1 -2 1 2 低発現 ← 全体的に → 高発現 G1群 > G2群 G1群 < G2群 G1群 = G2群 G1群で高発現 G2群で高発現

Dudoit et al., Stat. Sinica, 12: 111-139, 2002

DEGが存在しないデータのM-A plotを眺めることで、縦軸の閾値の みに相当する倍率変化を用いたDEG同定の危険性が分かります

(80)

多重比較問題:FDRって何?

80

p-value (false positive rate; FPR)

本当は

DEG

ではないにもかかわらず

DEG

と判定してしまう確率

全遺伝子に占めるnon-DEGの割合(分母は遺伝子総数)

例:10,000個のnon-DEGからなる遺伝子をp-value <

0.05

で検定すると、

10,000×

0.05

= 500個程度のnon-DEGを間違って

DEG

と判定することに相当

 実際のDEG検出結果が900個だった場合:500個は偽物で400個は本物と判断  実際のDEG検出結果が510個だった場合:500個は偽物で10個は本物と判断  実際のDEG検出結果が500個以下の場合:全て偽物と判断

q-value (false discovery rate: FDR)

DEG

と判定した中に含まれるnon-DEGの割合

DEG

中に占めるnon-DEGの割合(分母は

DEG

と判定された数)

non-DEGの期待値を計算できれば、p値でも上位x個でもDEGと判定する手段は

なんでもよい。以下は10,000遺伝子の検定結果でのFDR計算例

p < 0.001を満たすDEG数が100個の場合:FDR = 10,000×0.001/100 = 0.1  p < 0.01を満たすDEG数が400個の場合:FDR = 10,000×0.01/400 = 0.25  p < 0.05を満たすDEG数が926個の場合:FDR = 10,000×0.05/926 = 0.54 Jun12 2014

参照

関連したドキュメント

基準の電力は,原則として次のいずれかを基準として決定するも

○今村委員 分かりました。.

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB

2 次元 FEM 解析モデルを添図 2-1 に示す。なお,2 次元 FEM 解析モデルには,地震 観測時点の建屋の質量状態を反映させる。.

大村 その場合に、なぜ成り立たなくなったのか ということ、つまりあの図式でいうと基本的には S1 という 場

基準の電力は,原則として次のいずれかを基準として各時間帯別

自分ではおかしいと思って も、「自分の体は汚れてい るのではないか」「ひどい ことを周りの人にしたので

本検討では,2.2 で示した地震応答解析モデルを用いて,基準地震動 Ss による地震応答 解析を実施し,