1
RNA-seq解析フロー
2• RNA-seq
発現差解析
RNA-seq
インポート
クオリティチェック
この資料では、RNA-seqからの説明となりますが、インポート、クオリティ チェックについては、サポート資料のページより内容をご確認いただけます。データ
• 発現解析用デモデータは、以下よりダウンロードいただけます。ES細胞
(ESC)と神経前駆細胞(NPC)の発現解析を小さなデモデータで行えます。
3http://download.clcbio.com/testdata/MouseChr7dataset.zip
ダウンロード後、解凍せずにImport>Standard Import からイン ポートください。右図のようなファイルがインポートされます。RPKM
• RPKM: Reads Per Killobases per Million
– 長さが異なるトランスクリプト、実験で使われたリードの総数による違
いについて正規化するための方法。
• C: マップされたリードの総数
• N: リードの総数(Million)
• L: トランスクリプトの長さ(kbase)
4LN
C
RPKM
RPKM
• 例:
5Gene 1: 300bp
10 reads
Gene 2: 400bp
13 reads
Gene 3: 500bp
15 reads
Gene 1: 300bp
6 reads
Gene 2: 400bp
10 reads
Gene 3: 500bp
13 reads
Sample A
Total reads:
6M
Sample B
Total reads:
4M
RPKM=10/(0.3*6)
=5.55
RPKM=13/(0.4*6)
=5.42
RPKM=15/(0.5*6)
=5.0
RPKM=6/(0.3*4)
=5.0
RPKM=10/(0.4*4)
=6.25
RPKM=13/(0.5*4)
=6.5
RNA-seq
6
Navigation Areaから使用するリードデータを選択。
Toolboxから Transcript Analysis > seq Analysis >
RNA-Seq Analysis を選択、ダブルクリック。
RNA-seq
7
Reference
Genome annotated with genes and transcripts: ゲノムに遺伝子とトランスクリプト(mRNA)がアノ テーションとして付いている場合
Gnome annotated with genes only:
ゲノムに遺伝子のみのアノテーションが付いて いる場合
One reference sequence per transcript: 参照配列のみの場合(ESTなど)
Reference sequence, Gene track, mRNA trackはそれ ぞれ使用する、ゲノム配列、遺伝子、mRNAを選択。 Mapping
Map to gene region only (fast): 遺伝子の領域の みにマッピングする場合
Also map to inter-genic regions:遺伝子ー遺伝子 間についてもマッピングさせる場合
RNA-seq
8
Maximum number of mismatches: (Short read パラメータ)
リード中に最大何個までのミスマッチを許容するか。
Length fraction: (Long read パラメータ)マッチする際に考 慮するリードの長さの割合。
Similarity fraction: (Long read パラメータ) Length fraction で指定した長さのうち、一致するべき割合。
Use color space:カラースペースを使用する場合
Auto-detect paired distances:自動でペアの距離を推定さ せる場合
Strand specific:センス・アンチセンス鎖特異的にマップさ せたい場合のオプション
Maximum number of hits for a read:1つのリードがマッチ する最大の数。この数以上の箇所にマップされたリードは、 マップされません。
RNA-seq
9
Expression level:
Count paired reads as two: ペアを2リードとカウント したい場合
Expression value:発現量に何を指定するか
Calculate RPKM for gene without transcripts: アノ テーションとしてmRNAがなく、遺伝子のみの場合。 この場合、遺伝子の全長でRPKMを計算します。
RNA-seq
10
Create report:レポートの作成
Create fusion gene table:融合遺伝子の可能性のあるテー ブルの作成(ペアエンド利用時のみ有効なオプション)
Minimum read count fusion gene table:融合遺伝子 の可能性があるとする最小の遺伝子
RNA-seq:結果
11
ファイル名 (GE) : Gene Expression トラック
ファイル名 (TE) : Transcript Expression トラック
ファイル名 (Reads) : マッピングトラック
ファイル名 (single),(paired): マップされなかったリード
ファイル名 report: レポート
RNA-seq:結果
12
Gene Expression トラック
RNA-seq
13
Transcript Expression トラック
RNA-seq
14
マッピング トラック
RNA-seq
15
レポート
利用したデータのサマリーや、1つの遺伝子に対するトランスクリプトの 数などの統計情報が含まれています。
RNA-seq
16
結果を組み合わせたビュー
17
Toolbox > Track tools > Create track list を選択し、ゲノム、遺伝子、
mRNA、マッピング(Reads)データ、NPCのGEデータを選択します。
結果を組み合わせたビュー
18
GEトラックの赤枠部分をクリックすると、テーブルが現れます。たとえば
Sox6遺伝子などを選択すると、該当箇所の詳細が確認できます。
RNA-seq
• バッチで処理をしてみましょう!
19 最初のウィザードでBatchのボタンにチェックを入れ、 バッチ処理を行いたいフォルダを選択します。 フォルダ内の該当するデータがリス トに現れます。含めたいもの、含め たくないものは、”Only use elements containing”,”Exclude elements containing”に文字列を入 れることで、選択・排除可能です。20
発現解析
• RNA-seqの結果を使から、「ES細胞と神経前駆細胞での違
いを調べる」という事を行います。
• 7.0から新しく搭載されたEdgeRについて使い方を説明します。
21群
群内のレプリケート
Gaussian Test
T-test
2群
必須
ANOVA
3群以上
必須
Proportional
Test
Kal’s test
2群
不要
Bagglaley’s test 2群
必須
Empirical
Analysis of DGE
2群
必須
Expression Analysis
• RNA-seqのデータはMicroarrayの
ように発現差の解析を行うことが
可能です。
• そのためには、まずRNA-seqの
データをExperimentという形へ変
更し、その後、発現解析ツールを
使って解析を行います。
22Set Up Experiment
23
Navigation Areaから使用するRNA-seqデータを選択。
Toolboxから Set Up Experiment を選択、ダブルクリック。
Set Up Experiment
24
Two-group comparison: 2群比較
Unpaired/Paired:2つの群のサンプ
ルに対応があるかどうか。(同じ固
体で違う条件など)
Multi-group comparison:多群比較
Use existing expression values from
samples: RNA-seqで指定した発現量を
そのままつかう場合。
Set new expression value: 別の発現量
を使う場合。
Set Up Experiment
25
Set Up Experiment
Expression Analysis:EDGE
27
Navigation Areaから使用するExperimentデータを選択。
Toolboxから On Gaussian Data を選択、ダブルクリック。
Expression Analysis: EDGE
28
Exact test comparisons
すべての組み合わせ
指定したものをコントロールとする
場合
Add corrected p-value: p値の補正
ボンフェローニ
FDR
Total count filter cutoff: 発現量があるとする
ための最小のカウント数
Tagwise dispersions:タグごと(Set Up
Experimentを遺伝子レベルで作成した場合
は、遺伝子ごと)のばらつきを計算させるか。
通常はチェックをいれたままにしておいてくだ
さい。
Expression Analysis: 結果
Expression Analysis: 結果
30
黒い▼ボタンをクリック
Expression Analysis: 結果
31
FDR < 0.001, Fold Changeの絶対値2以上 でフィルターをかけてみま
しょう。
32
33