• 検索結果がありません。

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

N/A
N/A
Protected

Academic year: 2021

シェア "シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会"

Copied!
35
0
0

読み込み中.... (全文を見る)

全文

(1)

シーケンサー利用技術講習会

第10回 サンプルQC、RNAseqライブ

ラリー作製/データ解析実習講習会

理化学研究所

ライフサイエンス技術基盤研究センター

ゲノムネットワーク解析支援施設

田上 道平

(2)

次世代シーケンサー

Sequencer

File Format

Output(Max)

Read length

Illumina

Hiseq2500

Fastq

600 Gb

100 bp

Life tech SOLiD

csfasta,qual

100 Gb

50 bp

(3)
(4)

Fastq data

@HWI-ST1394:58:H0B70ADXX:2:1101:4041:2089 1:N:0: TAAATGGTAGGGAAAGAGTGTAGGGAAAGAGTGTAAGGAATAGCGTCGTGTTGGGTAAGAGTGAAAGGGGTGTGGCTTTTAGTCATAGCTGTTTCCTGCTG + CCCFFFFDHHHHBEIIBE3AAFHHDCCEHGH??CGHGIGHIGFGIDGF7@FFFHICCHHCE.=?E@CDFC99>@BBABCCCC@CDEECCCC+>>CCCCCCC @HWI-ST1394:58:H0B70ADXX:2:1101:4204:2099 1:N:0: ATTTTTTGTGGATGTATAGTTTATTTGTTGTGTTGGATTTGTTAGGATTTTAAGTTTTTTGAGTATAATAGAGTTTAAAGATAAAAAGATTATTTTTTGTA + CCCFFFFFFHHHHJGHIIIIIJGIJJJJJJHHHIJJGIIJJIJIJJGIJJJJJJHIJJJJJGHHHHHHFFFFFCDEEEEEEEDDDDDDDDDDDEEEDDD?4

@Header

TAAATGG…. (シーケンスで読まれた配列)

+

CCCFFFF… (クオリティースコア)

(5)

Quality Check for fastq data

• ソフトウェア

– FastQC

• http://www.bioinformatics.babraham.ac.uk/projects/fa

stqc/

– FASTX

• http://hannonlab.cshl.edu/fastx_toolkit/commandline.

html#fastx_barcode_splitter_usage

(6)

FastQC

• 1枚のHTMLに複数の結果が、まとめられ出

力される

(7)

FASTX

• 各項目ごとに、解析を行う

• Galaxyに入っている場合が多い

(8)

ときどきある質問

• Indexやバーコードなどの、特徴的な配列の

サイクルのクオリティーが、下がる事がある。

– Illumina シーケンサーは、同じサイクルで、同じ塩

基を多数読むと、エラー率が高くなる。

(9)

RNA-Seq 解析について

• アダプター Trimming (必要なら)

• rRNA filtering

• マッピング

• 定量化

• 比較解析

(10)

rRNA filtering について

• ライブラリー作成時に、取り除けなかった

rRNAのリードを除去する。

– rRNA配列に対して、Mappingを行い、Unmapped

のリードを取りだす。

• samtools view –f 4 *.bam

Mouse rRNA Reference : BK000964.1

http://www.ncbi.nlm.nih.gov/nuccore/BK000964

Human rRNA Reference : U13369.1

(11)
(12)

ライブラリー作成時にrRNAが良く取り

除けた例と,悪い結果の例

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 mapped reads unmapped reads rRNA reads

(13)

悪い例の結果が出た場合

• ライブラリー作成、マニュアル、プロトコルを見

直す

(14)

アダプター Trimming

• ソフトウェア

– FASTX “fastx_clipper”

• http://hannonlab.cshl.edu/fastx_toolkit/commandline.

html#fastx_clipper_usage

– Cutadapt

• http://code.google.com/p/cutadapt/

豆知識 : CASAVA1.8以降では –Q33 オプションで実行する。

(15)

アダプター Trimming (例)

(16)

Mapping for RNA-Seq

• TopHat2

(17)

Mapping の違い

Bwa

(18)
(19)

定量 (マップされたリードの数から、

normalize して値を算出)

Gene A Gene B Gene C

Gene Mapped Read

count exon size

Total mapped read

count RPM (read per Million)

RPKM(RP M per kilo exon) A 400 1000 10,000,000 40 (=400*1,000,000/10,00 0,000) 40 B 200 500 20 40 C 200 400 20 50 … … … …

(20)

cufflinks

• Cufflinks

– http://cufflinks.cbcb.umd.edu/

アノテーション情報とマッピング結果より、FPKM を

算出。

(21)

定量、比較の問題

• RPKM(FPKM)は、遺伝子(exon size)の大きさ

や、高発現遺伝子の影響により、結果がばら

つく。

– TMM ( Trimmed Mean of M-values) による正規

(22)

Rによる比較解析

• DESeq

• edgeR

• …

(23)

Rによる解析

• 良いところ

– Normalize、正規化、比較解析まで、パッケージ化さ

れている

– 正規化される事により、バイアスの少ない結果が出

• 少しめんどくさいところ

– Rの使い方を覚える

– BAMから、タグカウントの情報を作成する。

• Samtools 、HTSeqなどを使用する

(24)

RNA-Seq 解析例

登録データ サンプル Library - Sequence

SRR064437 正常ヒト胸腺由来cDNAの RNA-seqデータ

Non directional RNA-Seq Paired End Sequence

SRR064286

ヒトMCF-7 breast cancer cell line由来のRNA-seq

データ

Non directional RNA-Seq Paired End Sequence

SRA : http://www.ncbi.nlm.nih.gov/Traces/sra/

(25)

RNA-Seq 解析例 (workflow)

Quality

Check for

fastq

data

Trimming

low

quality

data

rRNA

filtering

Tophat

mapping

Tag

counts

DESeq

(26)
(27)

Summary for mapping

0 5,000,000 10,000,000 SRR064437 SRR064286 mapped unmapped unmatch rRNA

(28)

Tag count (HTSeq)

• Mapping 結果のBAMを samtools で、SAMファイ

ルに変換

– samtools sort SRR064437.bam SRR064437_sorted

– samtools view SRR064437_sorted.bam > SRR064437_sorted.sam

• HTSeqにより、タグカウント

– htseq-count SRR064437_sorted.sam gencode.v18.annotation.gtf > SRR064437_tag-count.txt

• HTSeq

– http://www-huber.embl.de/users/anders/HTSeq/doc/index.html

• 使用したアノテーションファイル

– “gencode.v18.annotation.gtf”

(29)

Tag countの結果 (HTSeq)

1カラム目 : EnsID

2カラム目 : 正常ヒトのタグカウント

(30)

DESeq output

pValue でソートして、”正常ヒト”に対して、 “breast cancer ” で、Up-regulated された 遺伝子 Up-regulated TOP1 : DSCAM-AS1 TOP2 : TFF1 TOP3 : BRIP1 …

(31)

TFF1

Deficiency in trefoil factor 1 (TFF1) increases tumorigenicity of human breast cancer cells and mammary tumor

development in TFF1-knockout mice

(32)

IGV genome viewer

breast cancer~ の Mapping結果

正常ヒト~ の Mapping結果

(33)

おまけ

• Moirai

– 面倒な作業を効率化

– GUIでの操作

– クラスターサーバへの対応

– オリジナルワークフロー作成可能

– Galaxyと、ちがうの?

– もうそろそろ、公開されるはず…

(34)

RNA-Seq Tools

http://en.wikipedia.org/wiki/List_of_RNA-Seq_bioinformatics_tools

(35)

参照

関連したドキュメント

また、第1号技能実習から第2号技能実習への移行には技能検定基礎級又は技

検証の実施(第 3 章).. 東京都環境局

(近隣の建物等の扱い) (算定ガイドライン

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

米大統領選で再選を決めた民 主党のバラク・オバマ大統領 は、7日未明、地元の中西部 イリノイ州シカゴで支持者を

そして会場は世界的にも有名な「東京国際フォーラ

平成 31 年度アウトドアリーダー養成講習会 後援 秋田県キャンプ協会 キャンプインストラクター養成講習会 後援. (公財)日本教育科学研究所