CLC Genomics Workbench
ウェブトレーニングセミナー: 遺伝子発現解析編
12
th
Feb., 2016
フィルジェン株式会社 バイオサイエンス部
[email protected]
遺伝子発現解析概要
Case
RNA-Seq
Analysis
インポート
Trim SequencesControl
Set Up Experiment
Empirical Analysis of DGE
RNA-Seq
Analysis
インポート
Trim SequencesRNA-Seq
Analysis
インポート
Trim SequencesRNA-Seq
Analysis
インポート
Trim Sequences本日のセミナーにおける解析の流れ及び使用するツール名
(図中赤枠部分)
クオリティーコントロール
遺伝子発現量の算出
サ ン プ ル 間 比 較
有 意 差 検 定
RNA-Seq Analysis概要
RNA-Seq Analysisツールにより、RNA-Seqデータから遺伝子発現データを取得します。
本ツールでは、RNA-Seqのリードを遺伝子(Geneトラック)や転写産物(mRNAトラック)にマップし、
その数をカウントすることで発現量が計算されます。
Read:
図1. RNA-Seq Analysisツールによる遺伝子発現解析のイメージ
※。
※詳細はマニュアルをご覧ください:http://www.clcsupport.com/clcgenomicsworkbench/current/index.php?manual=RNA_Seq_analysis.htmlマッピング原理
CLC Genomics Workbenchにおいて、マッピングは2つのステップを経ます。
1. ローカルアライメント: リファレンス配列と似ている場所を探す
2. フィルタリング: 参照配列との類似性から、維持するリードを決定する
Reference Readsマッピング原理
アライメントにおいて、リードはリファレンスとの一致・不一致(match/mismatch)や挿入・欠失(insertion/deletion)の数に基づいてスコ
アリングされ、最も高いスコアを示す箇所にマップされます。
リファレンスと一致する塩基につき1点が加算され、mismatchやinsertion/deletionの数だけ、そのペナルティコストが引かれていきます。
リード配列(20 bp)が全て一致した場合: 1x20 = 20 1塩基ミスマッチがあった場合: 1x19 – 2x1 = 17 2塩基Insertionがあった場合: 1x20 – 3x2 = 14ローカル アライメントのスコアリング例 (Linear gap)
Mismatch cost Insertion cost Deletion cost : 2 : 3 : 3マッピング原理
フィルタリングにより、アライメントされたリードの内、いずれを後の解析のために残すかが決定されます。
フィルタリングには、LengthとSimilarityの2つのFractionが影響します。
Length Fractionではフィルタリング時に考慮する長さに関係し、Similarity FractionではLength Fractionで指定した長さにおける
類似性の程度に関与します。
リード長: 100 bp Length Fractionが0.8(デフォルト値): 100 bp x 0.8 = 80 bp Similarity Fractionが0.8(デフォルト値): 80 bp x 0.8 = 64 bpリード長が100bpの時、デフォルト設定では64塩基がリファレンスと完全に一致していればリードは維持される。
フィルタリング例
遺伝子発現量の計算
RNA-Seq Analysisでは遺伝子の発現量として、以下から指定します:
リファレンスにマップされたリード数
リード数をRPKM法で正規化した値
※Empirical Analysis of DGEツールで有意差検定をする場合、リード数(Counts)を指定します。
Total exon reads: 各遺伝子のエクソンにマップされた総リード数
Mapped reads(one million): マップされた総リード数を100万で割った値 ※マップされた総リード数を100万になるように補正しています。
Exon length (kb): 遺伝子の全エクソンの長さを足して1000で割った値
※Exonが長い程マップされるリード数が多くなるので、その長さで割ることで補正しています。
RNA-Seq Analysis
RNA-Seq Analysis
3.Reference sequenceなどを設定し、オプションを任意で選択してNextをクリック。
Genome annotated with genes and transcripts:
GeneおよびmRNAアノテーショントラックが利用可能な場合に選択。 ※ サンプルが真核生物であれば、通常こちらを選択します。
Genome annotated with genes only:
Geneアノテーショントラックのみが利用可能な場合に選択。 ※ サンプルが原核生物の場合、通常こちらを選択します。 One reference sequence per transcript:
GeneやmRNAアノテーショントラックが利用できない場合に選択。
※ 配列が複数ある場合、各配列は1転写産物として扱われ、それらの発現量が 計算されます。
※ RNA-SeqデータのDe Novo Assembly産物の場合などで利用されます。 Map to gene region only (fast):
Geneアノテーショントラックの領域に対してのみマッピング。 Also map to inter-genic regions:
遺伝子間領域にもマッピング。
RNA-Seq Analysis
4.Mapping optionの各項目を任意で設定し、Nextをクリック。
Mismatch cost: • リードの塩基がリファレンスと一致しない場合のペナルティコスト。 • デフォルトでは2に設定されています。 Insertion cost: • リード配列にinsertionがあった場合のペナルティコスト。 • デフォルトでは3に設定されています。 Deletion cost: • リード配列にdeletionがあった場合のペナルティコスト。 • デフォルトでは3に設定されています。 Length fraction: • フィルタリング時に考慮する長さの割合。 • デフォルトでは0.8に設定されています。 Similarity fraction: • フィルタリング時に考慮される長さの範囲における、類似の割合。 • デフォルトでは0.8に設定されています。RNA-Seq Analysis
4.Mapping optionの各項目を任意で設定し、Nextをクリック。
Global alignment:
• チェックが外れている場合、Local alignmentを実行。 • デフォルトではチェックが外れています。
Color space alignment:
• カラースペースデータであり、カラーによるエラー補正をする場合にチェックを入れます。 • デフォルトではチェックが入っています。
Color error cost: • カラーのエラーコスト。
• デフォルトでは3に設定されています。 Auto-detect paired distances:
• チェックが入っている場合、自動でペアの距離が決定されます。 • デフォルトではチェックされています。 Strand specific: • マッピング時における、リファレンス配列に対する向きを指定します。 ‐ Both: リファレンス配列のフォワード・リバース鎖の両方にマッピング ‐ Forward: リファレンス配列のフォワード鎖にのみマッピング ‐ Reverse: リファレンス配列のリバース鎖にのみマッピング • デフォルトではBothが選択されています。
Maximum number of hits for a read:
• リファレンスに対し、指定した値以上の箇所にリードが一致した場合、そのリードは マップされません。
RNA-Seq Analysis
Count paired as two:
• ペアと認識されているforward-reverseリードは1としてカウントされますが、チェッ クを入れると2としてカウントします。 • デフォルトではチェックされていません。 Expression value: • 発現量としてリードのカウント数にするか、RPKM値にするか選択。 • デフォルトではTotal countsが選択されています。
Calculate RPKM for genes without transcripts:
• mRNAアノテーショントラックが利用できず、Geneアノテーショントラックのみの場合、 チェックを入れることで、遺伝子の全長でRPKMを計算します。
• デフォルトではチェックされていません。
RNA-Seq Analysis
6.Output optionsを任意で設定し、解析結果を保存する場合はSaveを選択してNextをクリック。
7.Save location for new elements画面で出力先を指定し、Finishをクリック。
Create report:
• RNA-Seq解析のレポートを作成。 • デフォルトではチェックされています。 Create fusion gene table:
• チェックを入れると、融合遺伝子の候補テーブルを作成。 • デフォルトではチェックされていません。
※ペアリードデータのときのみ選択可能となります。 Minimum read count fusion gene table: • 融合遺伝子候補の支持に必要な最低リード数。 • デフォルトでは5が設定されています。
Create list of unmapped reads:
• マッピングされなかったリードの配列リストを作成。 • デフォルトではチェックされていません。
RNA-Seq Analysis
RNA-Seq Analysisツールでは以下のデータが取得されます。
• (GE): Gene Expressionトラック
• (TE): Transcript Expressionトラック
• (Reads): マッピング(リード)トラック
• un-mapped reads(single, paired): マップされなかったリードのリスト
※Output optionsでCreate list of unmapped readsにチェックを入れると作成されます。
• Report: RNA-Seq解析のレポート
RNA-Seq Analysis
RNA-Seq Analysis
RNA-Seq Analysis
GeneおよびTranscript Expressionトラックはデフォルトではテーブル形式で表示されます。
トラックアイコンをクリックすることで、トラック形式に表示を切り替えることが出来ます。
RNA-Seq Analysis
Create Track List
トラックリストを作成することで、マッピングトラックやGEトラックなどを一緒に表示させることが出来ます。
トラックリストを作成するには、各トラックに表示されるCreate Track Listボタンをクリックします。
ToolboxにあるCreate Track Listツールでも、トラックリストを作成できます。
Track List
Track List
Set Up Experiment
1.ToolboxからTranscriptomics Analysis > Set Up Experimentを選択、ダブルクリック。
2.Select at least two samples of the same type画面で、発現データを選択。
RNA-Seq解析やSmall RNA解析で作成した発現データを選択。 ※マイクロアレイデータも選択可能。
Set Up Experiment
3.Define experiment typeのオプションを解析目的に合うように設定し、Nextをクリック。
Two-group comparison: • 2グループ間比較をおこなう場合、こちらを選択します。 • デフォルトではこちらが選択されています。 Multiple-group comparison: • 多グループ間比較をおこなう場合、こちらを選択します。 • こちらを選択した場合、グループ数をNumber of groupに設定します。 Unpaired/ Paired: • 比較するデータが、独立する個体から取得された場合はUnpaired、同じ個体か ら取得された場合はPairedを選択します。 ※ 例えば、同一個体から取得された疾患部と正常部サンプルのペアを比較する場 合、Pairedを選択します。 • デフォルトではUnpairedが選択されています。
Use existing expression values from samples:
• RNA-Seq AnalysisやSmall RNA Analysis実行時に指定したExpression valueに基づいて計算します。
• デフォルトではこちらが選択されています。 Set new expression value:
Set Up Experiment
4.Assign group namesで各グループに名前を入力し、Nextをクリック。
5.各サンプルのGroup列を右クリックし、どのグループに属するか指定してNextをクリック。
Set Up Experiment
6.Output optionsを設定し、Nextをクリック 。
Set Up Experiment
Set Up Experimentを実行すると、Experimentalデータ( )が作成されます。
Fold Change計算方法
Set Up Experimentの発現差(Fold Change)は、以下のように計算されます。
発現量: Group 1 < Group 2
発現量: Group 1 > Group 2
Fold Change =
Group 1
Group 2
Fold Change =
Group 2
Group 1
X (-1)
例①, 発現量: Group 1 =10, Group 2 =50
Fold Change =
Group 1
Group 2
X (-1)
10
50
=
= 5
例②, 発現量: Group 1 =50, Group 2 =10
Fold Change =
Group 2
Group 1
10
50
=
-
= -5
例①のように、発現値がGroup2の方がGroup1より高い場
合、Group2をGroup1で割った値がFold changeとなります。
この例では50/10で5倍変動となります。
例②では発現値がGroup1の方がGroup2により高く、この場
合はGroup1をGroup2で割った値に(-1)をかけた値がFold
changeとなります。
この例では50/10x(-1)で-5倍変動となります。
Fold Change計算例
有意差検定
: Statistical Analysis
CLC Genomics Workbenchには、3種類の統計解析用ツールが用意されています。
ツールによって、扱う発現データの種類が異なります。
Empirical Analysis of DGEで扱う発現データは、カウントデータである必要があります。
群
群内レプリケート
Empirical Analysis of DGE
2群
必須
On Proportions
Kal’s test
2群
不要
Bagglaley’s test
2群
必須
On Gaussian Data T-test
2群
必須
ANOVA
3群以上
必須
Empirical Analysis of DGE
Empirical Analysis of DGE
3.Common dispersionの各項目を任意で設定し、Nextをクリック。
4.Exact test parametersを任意で設定し、Nextをクリック。
Total count filter cut off:
• 設定した値に満たない発現のタグ(遺伝子)はばらつきの計算から除外されます。 • デフォルトでは5.0に設定されています。 Tagwise dispersions: • タグ(遺伝子)ごとにばらつきを計算させる場合、チェックを入れます。 ※通常はチェックを入れたままにしてください。 All pairs: • グループの全組合せで、解析を実行します。 • デフォルトではこちらが選択されています。 Against references: • 特定のグループをコントロールとした組合せで、解析を実行します。 • コントロールとするグループは、Reference nameから選択します。 Bonferroni corrected: • チェックを入れると、Bonferroni法で補正したP値も計算されます。 • デフォルトではチェックされていませんが、入れることをお勧めします。 FDR corrected: • チェックを入れると、FDR法で補正したP値も計算されます。 • デフォルトではチェックされていませんが、入れることをお勧めします。
Empirical Analysis of DGE
5.Output optionsを設定し、Nextをクリック 。
Empirical Analysis of DGE
Empirical Analysis of DGEを実行すると、Experimentの右列に、新しくデータが追加されます。
追加された列において、各P値や再計算されたFold changeを確認することが出来ます。
データのフィルタリング
① クリック
②条件設定:
• 「+」ボタンで条件を追加、「×」ボタンで条件を削除
• Filterボタンでフィルタリングの実行
フィルタリングには、テーブルにあるフィルター機能を使用します。
データのフィルタリング
: Fold Changeが2倍より大きい遺伝子の抽出
条件に一致した遺伝子数
Fold changeを選択
abs value >を選択
2を入力
※
上記の例ではEmpirical Analysis of DGEで再計算されたFold changeに基づいてフィルタリングしています。
データのフィルタリング
: Fold Changeが2倍より大きく、P値が0.05未満の遺伝子の抽出
※