RNA-seq

(1)

1

(2)

RNA-seq解析フロー

2

• RNA-seq

発現差解析

RNA-seq

インポート

クオリティチェック

この資料では、RNA-seqからの説明となりますが、インポート、クオリティチェックについては、サポート資料のページより内容をご確認いただけます。

(3)

データ

• 発現解析用デモデータは、以下よりダウンロードいただけます。ES細胞

（ESC）と神経前駆細胞（NPC）の発現解析を小さなデモデータで行えます。

3

http://download.clcbio.com/testdata/MouseChr7dataset.zip

ダウンロード後、解凍せずにImport>Standard Import からインポートください。右図のようなファイルがインポートされます。

(4)

RPKM

• RPKM: Reads Per Killobases per Million

– 長さが異なるトランスクリプト、実験で使われたリードの総数による違

いについて正規化するための方法。

• C: マップされたリードの総数

• N: リードの総数(Million)

• L: トランスクリプトの長さ（kbase）

4

LN

C

RPKM



(5)

RPKM

• 例：

5

Gene 1: 300bp

10 reads

Gene 2: 400bp

13 reads

Gene 3: 500bp

15 reads

Gene 1: 300bp

6 reads

Gene 2: 400bp

10 reads

Gene 3: 500bp

13 reads

Sample A

Total reads:

6M

Sample B

Total reads:

4M

RPKM=10/(0.3*6)

=5.55

RPKM=13/(0.4*6)

_=5.42

RPKM=15/(0.5*6)

_=5.0

RPKM=6/(0.3*4)

=5.0

RPKM=10/(0.4*4)

_=6.25

RPKM=13/(0.5*4)

_=6.5

(6)

RNA-seq

6



Navigation Areaから使用するリードデータを選択。



Toolboxから Transcript Analysis > seq Analysis >

RNA-Seq Analysis を選択、ダブルクリック。

(7)

RNA-seq

7

Reference

 Genome annotated with genes and transcripts：ゲノムに遺伝子とトランスクリプト（mRNA）がアノテーションとして付いている場合

 Gnome annotated with genes only：

ゲノムに遺伝子のみのアノテーションが付いている場合

 One reference sequence per transcript：参照配列のみの場合（ESTなど）

Reference sequence, Gene track, mRNA trackはそれぞれ使用する、ゲノム配列、遺伝子、mRNAを選択。 Mapping

 Map to gene region only (fast): 遺伝子の領域のみにマッピングする場合

 Also map to inter-genic regions：遺伝子ー遺伝子間についてもマッピングさせる場合

(8)

RNA-seq

8

 Maximum number of mismatches： (Short read パラメータ)

リード中に最大何個までのミスマッチを許容するか。

 Length fraction: (Long read パラメータ)マッチする際に考慮するリードの長さの割合。

 Similarity fraction: (Long read パラメータ) Length fraction で指定した長さのうち、一致するべき割合。

 Use color space：カラースペースを使用する場合

 Auto-detect paired distances：自動でペアの距離を推定させる場合

 Strand specific：センス・アンチセンス鎖特異的にマップさせたい場合のオプション

 Maximum number of hits for a read：１つのリードがマッチする最大の数。この数以上の箇所にマップされたリードは、マップされません。

(9)

RNA-seq

9

 Expression level:

 Count paired reads as two: ペアを2リードとカウントしたい場合

 Expression value：発現量に何を指定するか

 Calculate RPKM for gene without transcripts: アノテーションとしてmRNAがなく、遺伝子のみの場合。この場合、遺伝子の全長でRPKMを計算します。

(10)

RNA-seq

10

 Create report：レポートの作成

 Create fusion gene table：融合遺伝子の可能性のあるテーブルの作成（ペアエンド利用時のみ有効なオプション）

 Minimum read count fusion gene table：融合遺伝子の可能性があるとする最小の遺伝子

(11)

RNA-seq：結果

11



ファイル名 (GE) : Gene Expression トラック



ファイル名 (TE) : Transcript Expression トラック



ファイル名 (Reads) : マッピングトラック



ファイル名（single）,(paired): マップされなかったリード



ファイル名 report: レポート

(12)

RNA-seq：結果

12

Gene Expression トラック

(13)

RNA-seq

13

Transcript Expression トラック

(14)

RNA-seq

14

マッピングトラック

(15)

RNA-seq

15

レポート

利用したデータのサマリーや、1つの遺伝子に対するトランスクリプトの数などの統計情報が含まれています。

(16)

RNA-seq

16

(17)

結果を組み合わせたビュー

17

Toolbox > Track tools > Create track list を選択し、ゲノム、遺伝子、

mRNA、マッピング（Reads）データ、NPCのGEデータを選択します。

(18)

結果を組み合わせたビュー

18

GEトラックの赤枠部分をクリックすると、テーブルが現れます。たとえば

Sox6遺伝子などを選択すると、該当箇所の詳細が確認できます。

(19)

RNA-seq

• バッチで処理をしてみましょう！

19  最初のウィザードでBatchのボタンにチェックを入れ、バッチ処理を行いたいフォルダを選択します。  フォルダ内の該当するデータがリストに現れます。含めたいもの、含めたくないものは、”Only use elements containing”,”Exclude elements containing”に文字列を入れることで、選択・排除可能です。

(20)

20

(21)

発現解析

• RNA-seqの結果を使から、「ES細胞と神経前駆細胞での違

いを調べる」という事を行います。

• 7.0から新しく搭載されたEdgeRについて使い方を説明します。

21

群

群内のレプリケート

Gaussian Test

T-test

2群

必須

ANOVA

3群以上

必須

Proportional

Test

Kal’s test

2群

不要

Bagglaley’s test 2群

必須

Empirical

Analysis of DGE

2群

必須

(22)

Expression Analysis

• RNA-seqのデータはMicroarrayの

ように発現差の解析を行うことが

可能です。

• そのためには、まずRNA-seqの

データをExperimentという形へ変

更し、その後、発現解析ツールを

使って解析を行います。

22

(23)

Set Up Experiment

23



Navigation Areaから使用するRNA-seqデータを選択。



Toolboxから Set Up Experiment を選択、ダブルクリック。

(24)

Set Up Experiment

24



Two-group comparison: 2群比較



Unpaired/Paired:2つの群のサンプ

ルに対応があるかどうか。（同じ固

体で違う条件など）



Multi-group comparison:多群比較



Use existing expression values from

samples: RNA-seqで指定した発現量を

そのままつかう場合。



Set new expression value: 別の発現量

を使う場合。

(25)

Set Up Experiment

25

(26)

Set Up Experiment

(27)

Expression Analysis：EDGE

27



Navigation Areaから使用するExperimentデータを選択。



Toolboxから On Gaussian Data を選択、ダブルクリック。

(28)

Expression Analysis: EDGE

28



Exact test comparisons



すべての組み合わせ



指定したものをコントロールとする

場合



Add corrected p-value: p値の補正



ボンフェローニ



FDR



Total count filter cutoff: 発現量があるとする

ための最小のカウント数



Tagwise dispersions：タグごと（Set Up

Experimentを遺伝子レベルで作成した場合

は、遺伝子ごと）のばらつきを計算させるか。

通常はチェックをいれたままにしておいてくだ

さい。

(29)

Expression Analysis: 結果

(30)

Expression Analysis: 結果

30



黒い▼ボタンをクリック

(31)

Expression Analysis: 結果

31



FDR < 0.001, Fold Changeの絶対値2以上でフィルターをかけてみま

しょう。

(32)

32

(33)

33

(34)

P値の補正

• 検定を繰り返すと、指定した閾値よりも実際は高いエラーを含むことになります。

たとえば、p < 0.05 となる遺伝子のリストを得たい場合、3つの遺伝子について検

定を行った場合、これは検定の繰り返しとなり、実際には1-(1-0.05)^3 = 0.14 と

いうエラーを含んだ結果となるのです。

• Bonfferroni 法ではくりかえしの検定数で閾値を割ることで、繰り返しを考慮した閾

値を設定します。上記の例では、 0.05 / ３とした閾値で検定します。

• しかし、遺伝子数が膨大になると、閾値が非常に小さくなり、どの遺伝子も検定で

棄却できず、リストが作成できなくなり、現実的ではありません。

• ボンフェローに法の閾値で棄却されたリストと言うのは、False Positiveを全く含ま

ないリストとなります。これを少し緩くし、ある程度のエラーを含むことを覚悟した

上でのリストを得ようとする方法が次のFDRになります。

34

(35)

P値の補正

FDR

• P値を小さい順に並べます。

𝑝

₁

< 𝑝

₂

< 𝑝

₃

< ⋯ < 𝑝

_𝑖

< ⋯ < 𝑝

_𝑚

• 𝛼 を検定で棄却したい値とします。

• 𝑖 = 𝑚として

• 𝐼𝑓 𝑝

_𝑖

< 𝛼

_𝑚

𝑖

(1) を計算する。

• if not set 𝑖 = 𝑚 − 1 then calculate (1)

(36)

RNA-seq

RNA-seq解析フロー

• RNA-seq

発現差解析

RNA-seq

インポート

クオリティチェック

データ

• 発現解析用デモデータは、以下よりダウンロードいただけます。ES細胞

（ESC）と神経前駆細胞（NPC）の発現解析を小さなデモデータで行えます。

http://download.clcbio.com/testdata/MouseChr7dataset.zip

RPKM

• RPKM: Reads Per Killobases per Million

– 長さが異なるトランスクリプト、実験で使われたリードの総数による違

いについて正規化するための方法。

• C: マップされたリードの総数

• N: リードの総数(Million)

• L: トランスクリプトの長さ（kbase）

LN

C

RPKM



RPKM

• 例：

Gene 1: 300bp

10 reads

Gene 2: 400bp

13 reads

Gene 3: 500bp

15 reads

Gene 1: 300bp

6 reads

Gene 2: 400bp

10 reads

Gene 3: 500bp

13 reads

Sample A

Total reads:

6M

Sample B

Total reads:

4M

RPKM=10/(0.3*6)

=5.55

RPKM=13/(0.4*6)

=5.42

RPKM=15/(0.5*6)

=5.0

RPKM=6/(0.3*4)

=5.0

RPKM=10/(0.4*4)

=6.25

RPKM=13/(0.5*4)

=6.5

RNA-seq



Navigation Areaから使用するリードデータを選択。



Toolboxから Transcript Analysis > seq Analysis >

RNA-Seq Analysis を選択、ダブルクリック。

RNA-seq

RNA-seq

RNA-seq

RNA-seq

RNA-seq：結果



ファイル名 (GE) : Gene Expression トラック



ファイル名 (TE) : Transcript Expression トラック



ファイル名 (Reads) : マッピングトラック



ファイル名 （single）,(paired): マップされなかったリード



ファイル名 report: レポート

RNA-seq：結果

Gene Expression トラック

RNA-seq

Transcript Expression トラック

RNA-seq

_=5.42

_=5.0

_=6.25

_=6.5

ファイル名（single）,(paired): マップされなかったリード

マッピングトラック