• 検索結果がありません。

RNA-seq

N/A
N/A
Protected

Academic year: 2021

シェア "RNA-seq"

Copied!
36
0
0

読み込み中.... (全文を見る)

全文

(1)

1

(2)

RNA-seq解析フロー

2

• RNA-seq

発現差解析

RNA-seq

インポート

クオリティチェック

この資料では、RNA-seqからの説明となりますが、インポート、クオリティ チェックについては、サポート資料のページより内容をご確認いただけます。

(3)

データ

• 発現解析用デモデータは、以下よりダウンロードいただけます。ES細胞

(ESC)と神経前駆細胞(NPC)の発現解析を小さなデモデータで行えます。

3

http://download.clcbio.com/testdata/MouseChr7dataset.zip

ダウンロード後、解凍せずにImport>Standard Import からイン ポートください。右図のようなファイルがインポートされます。

(4)

RPKM

• RPKM: Reads Per Killobases per Million

– 長さが異なるトランスクリプト、実験で使われたリードの総数による違

いについて正規化するための方法。

• C: マップされたリードの総数

• N: リードの総数(Million)

• L: トランスクリプトの長さ(kbase)

4

LN

C

RPKM

(5)

RPKM

• 例:

5

Gene 1: 300bp

10 reads

Gene 2: 400bp

13 reads

Gene 3: 500bp

15 reads

Gene 1: 300bp

6 reads

Gene 2: 400bp

10 reads

Gene 3: 500bp

13 reads

Sample A

Total reads:

6M

Sample B

Total reads:

4M

RPKM=10/(0.3*6)

=5.55

RPKM=13/(0.4*6)

=5.42

RPKM=15/(0.5*6)

=5.0

RPKM=6/(0.3*4)

=5.0

RPKM=10/(0.4*4)

=6.25

RPKM=13/(0.5*4)

=6.5

(6)

RNA-seq

6

Navigation Areaから使用するリードデータを選択。

Toolboxから Transcript Analysis > seq Analysis >

RNA-Seq Analysis を選択、ダブルクリック。

(7)

RNA-seq

7

Reference

 Genome annotated with genes and transcripts: ゲノムに遺伝子とトランスクリプト(mRNA)がアノ テーションとして付いている場合

 Gnome annotated with genes only:

ゲノムに遺伝子のみのアノテーションが付いて いる場合

 One reference sequence per transcript: 参照配列のみの場合(ESTなど)

Reference sequence, Gene track, mRNA trackはそれ ぞれ使用する、ゲノム配列、遺伝子、mRNAを選択。 Mapping

 Map to gene region only (fast): 遺伝子の領域の みにマッピングする場合

 Also map to inter-genic regions:遺伝子ー遺伝子 間についてもマッピングさせる場合

(8)

RNA-seq

8

 Maximum number of mismatches: (Short read パラメータ)

リード中に最大何個までのミスマッチを許容するか。

 Length fraction: (Long read パラメータ)マッチする際に考 慮するリードの長さの割合。

 Similarity fraction: (Long read パラメータ) Length fraction で指定した長さのうち、一致するべき割合。

 Use color space:カラースペースを使用する場合

 Auto-detect paired distances:自動でペアの距離を推定さ せる場合

 Strand specific:センス・アンチセンス鎖特異的にマップさ せたい場合のオプション

 Maximum number of hits for a read:1つのリードがマッチ する最大の数。この数以上の箇所にマップされたリードは、 マップされません。

(9)

RNA-seq

9

 Expression level:

 Count paired reads as two: ペアを2リードとカウント したい場合

 Expression value:発現量に何を指定するか

 Calculate RPKM for gene without transcripts: アノ テーションとしてmRNAがなく、遺伝子のみの場合。 この場合、遺伝子の全長でRPKMを計算します。

(10)

RNA-seq

10

 Create report:レポートの作成

 Create fusion gene table:融合遺伝子の可能性のあるテー ブルの作成(ペアエンド利用時のみ有効なオプション)

 Minimum read count fusion gene table:融合遺伝子 の可能性があるとする最小の遺伝子

(11)

RNA-seq:結果

11

ファイル名 (GE) : Gene Expression トラック

ファイル名 (TE) : Transcript Expression トラック

ファイル名 (Reads) : マッピングトラック

ファイル名 (single),(paired): マップされなかったリード

ファイル名 report: レポート

(12)

RNA-seq:結果

12

Gene Expression トラック

(13)

RNA-seq

13

Transcript Expression トラック

(14)

RNA-seq

14

マッピング トラック

(15)

RNA-seq

15

レポート

利用したデータのサマリーや、1つの遺伝子に対するトランスクリプトの 数などの統計情報が含まれています。

(16)

RNA-seq

16

(17)

結果を組み合わせたビュー

17

Toolbox > Track tools > Create track list を選択し、ゲノム、遺伝子、

mRNA、マッピング(Reads)データ、NPCのGEデータを選択します。

(18)

結果を組み合わせたビュー

18

GEトラックの赤枠部分をクリックすると、テーブルが現れます。たとえば

Sox6遺伝子などを選択すると、該当箇所の詳細が確認できます。

(19)

RNA-seq

• バッチで処理をしてみましょう!

19  最初のウィザードでBatchのボタンにチェックを入れ、 バッチ処理を行いたいフォルダを選択します。  フォルダ内の該当するデータがリス トに現れます。含めたいもの、含め たくないものは、”Only use elements containing”,”Exclude elements containing”に文字列を入 れることで、選択・排除可能です。

(20)

20

(21)

発現解析

• RNA-seqの結果を使から、「ES細胞と神経前駆細胞での違

いを調べる」という事を行います。

• 7.0から新しく搭載されたEdgeRについて使い方を説明します。

21

群内のレプリケート

Gaussian Test

T-test

2群

必須

ANOVA

3群以上

必須

Proportional

Test

Kal’s test

2群

不要

Bagglaley’s test 2群

必須

Empirical

Analysis of DGE

2群

必須

(22)

Expression Analysis

• RNA-seqのデータはMicroarrayの

ように発現差の解析を行うことが

可能です。

• そのためには、まずRNA-seqの

データをExperimentという形へ変

更し、その後、発現解析ツールを

使って解析を行います。

22

(23)

Set Up Experiment

23

Navigation Areaから使用するRNA-seqデータを選択。

Toolboxから Set Up Experiment を選択、ダブルクリック。

(24)

Set Up Experiment

24

Two-group comparison: 2群比較

Unpaired/Paired:2つの群のサンプ

ルに対応があるかどうか。(同じ固

体で違う条件など)

Multi-group comparison:多群比較

Use existing expression values from

samples: RNA-seqで指定した発現量を

そのままつかう場合。

Set new expression value: 別の発現量

を使う場合。

(25)

Set Up Experiment

25

(26)

Set Up Experiment

(27)

Expression Analysis:EDGE

27

Navigation Areaから使用するExperimentデータを選択。

Toolboxから On Gaussian Data を選択、ダブルクリック。

(28)

Expression Analysis: EDGE

28

Exact test comparisons

すべての組み合わせ

指定したものをコントロールとする

場合

Add corrected p-value: p値の補正

ボンフェローニ

FDR

Total count filter cutoff: 発現量があるとする

ための最小のカウント数

Tagwise dispersions:タグごと(Set Up

Experimentを遺伝子レベルで作成した場合

は、遺伝子ごと)のばらつきを計算させるか。

通常はチェックをいれたままにしておいてくだ

さい。

(29)

Expression Analysis: 結果

(30)

Expression Analysis: 結果

30

黒い▼ボタンをクリック

(31)

Expression Analysis: 結果

31

FDR < 0.001, Fold Changeの絶対値2以上 でフィルターをかけてみま

しょう。

(32)

32

(33)

33

(34)

P値の補正

検定を繰り返すと、指定した閾値よりも実際は高いエラーを含むことになります。

たとえば、p < 0.05 となる遺伝子のリストを得たい場合、3つの遺伝子について検

定を行った場合、これは検定の繰り返しとなり、実際には1-(1-0.05)^3 = 0.14 と

いうエラーを含んだ結果となるのです。

Bonfferroni 法ではくりかえしの検定数で閾値を割ることで、繰り返しを考慮した閾

値を設定します。上記の例では、 0.05 / 3 とした閾値で検定します。

しかし、遺伝子数が膨大になると、閾値が非常に小さくなり、どの遺伝子も検定で

棄却できず、リストが作成できなくなり、現実的ではありません。

ボンフェローに法の閾値で棄却されたリストと言うのは、False Positiveを全く含ま

ないリストとなります。これを少し緩くし、ある程度のエラーを含むことを覚悟した

上でのリストを得ようとする方法が次のFDRになります。

34

(35)

P値の補正

FDR

• P値を小さい順に並べます。

𝑝

1

< 𝑝

2

< 𝑝

3

< ⋯ < 𝑝

𝑖

< ⋯ < 𝑝

𝑚

𝛼 を検定で棄却したい値とします。

𝑖 = 𝑚として

𝐼𝑓 𝑝

𝑖

< 𝛼

𝑚

𝑖

(1) を計算する。

• if not set 𝑖 = 𝑚 − 1 then calculate (1)

(36)

P-value correction

FDR

• Say 𝑝

1

< 𝑝

2

< 𝑝

3

< ⋯ < 𝑝

𝑖

< ⋯ < 𝑝

𝑚

and

𝛼 is threshold.

𝑖 = 𝑚

𝐼𝑓 𝑝

𝑖

< 𝛼

𝑖

𝑚

1 を満たすならば、 𝑘 = 𝑖

• (1)式が満たされない場合 𝑖 = 𝑚 − 1 として (1)を再度計算

• 𝑝

1

, ⋯ , 𝑝

𝑘

に対応する仮説を棄却する。

36

参照

関連したドキュメント

Week 3 Listening Test Part 2, Question-Response (Textbook, Unit 9) Week 4 Listening Test Part 2, Question-Response (Textbook, Unit 9) Week 5 Listening Test Part 5,

[r]

Key Words : foundation structure, timber pile, site loading test of pile, cavity distribution survey, shaking table test, liquefaction..

青色域までの波長域拡大は,GaN 基板の利用し,ELOG によって欠陥密度を低減化すること で達成された.しかしながら,波長 470

T Taiwan General Scholastic Ability Test (GSAT) or Department Required Test Thailand Ordinary National Educational Test(O-net), General Aptitude Test. (GAT), Professional

T Taiwan General Scholastic Ability Test (GSAT) or Department Required Test Thailand Ordinary National Educational Test(O-net), General Aptitude Test. (GAT), Professional

It is evident from the results that all the measures of association considered in this study and their test procedures provide almost similar results, but the generalized linear

The orthogonality test using S t−1 (Table 14), M ER t−2 (Table 15), P P I t−1 (Table 16), IP I t−2 (Table 17) and all the variables (Table 18) shows that we cannot reject the