• 検索結果がありません。

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

N/A
N/A
Protected

Academic year: 2021

シェア "Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq"

Copied!
72
0
0

読み込み中.... (全文を見る)

全文

(1)

NGSデータ解析プラットフォームMaser

2013/10/17イルミナウェビナー

国立遺伝学研究所 生命情報研究センター

遺伝情報分析研究室(セルイノ ベーション)

(2)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(3)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(4)

文部科学省 革新的細胞解析研究プログラム

セルイノベーションとは

セルイノベーションプログラムのページ http://www.cell-innovation.org/ 先導研究諸機関 プログラム外の 研究者・技術者 データ解析拠点 (国立遺伝学研究所 生命情報研究センター) 代表研究者 池尾一穂 シーケンス拠点 (理化学研究所 CLST) Maser他 外部提供サービス 大量配列 データ転送 共同研究 解析環境・公開ノウハウの提供 • 解析支援依頼 • 独自開発解析技術の  技術移転 • シーケンス依頼 • 独自開発プロトコルの  技術移転

(5)

解析全体像のイメージ

This image is modified from Nature Methods 6, S2 - S5 (2009)

Photo is from morgueFile http://www.morguefile.com/archive/display/187379

De novo Genome Sequencing

Genome

Resequencing RNA-seq ChIP-seq Bisulfite-seq

配列データ プログラミング スキルや バイオDBの ノウハウ ツールマニュアル や論文のMethod バイオインフォ マティシャン

(6)

解析全体像のイメージ

De novo Genome Sequencing

Genome

Resequencing RNA-seq ChIP-seq Bisulfite-seq

配列データ

This image is modified from Nature Methods 6, S2 - S5 (2009)

(7)

パイプライン種別と使い分け

入力データ 入力データ 中間データ 中間データ 最終結果 最終結果 フルコースパイプライン: 全自動のパイプライン 単品パイプライン: 機能ごとに一連の処理をまとめたパイプライン群 入門者にはお勧め! 途中でツールを乗り換えたり 多くの入力データに 対応するなど柔軟で 広範囲をカバーできます!

(8)

公開大量配列データ登録状況

(1)

http://cell-innovation.nig.ac.jp/public/contents/ 公開中!! 公開大量配列データ(SRA)の登録数推移 縦:データ登録件数[万件](SRR単位) 横:登録年度 2013/10月集計

(9)

0 5 10 15 20 25 30 W XS W G S AMPL IC O N R N A-Se q C hI P-Se q C LO N E Bi su lfi te -Se q D N ase -H yp erse EST / F L-cD N A Me D IP-Se q / デ ー タ 登録件数 [万件 ] x 10000 メタゲノム 微生物 高等植物 その他高等動物 マウス

公開大量配列データ登録状況

(2)

公開大量データ(SRA)のクロス集計 縦(上):データ登録件数[万件](SRR単位) 縦(下):データ登録割合[%] 横(上下共通):実験(NGSアプリケーション)種別 色分け(上下共通):生物種別 2013/10月集計 ゲノムシーケンス 全エキソーム http://cell-innovation.nig.ac.jp/cgi-bin/pub_stat/pub_stat31.cgi 公開中!! 0% 20% 40% 60% 80% 100% 登録件数の割合

(10)

0 5 10 15 20 25 30 W XS W G S AMPL IC O N R N A-Se q C hI P-Se q C LO N E Bi su lfi te -Se q D N ase -H yp erse EST / F L-cD N A Me D IP-Se q / デ ー タ 登録件数 [万件 ] x 10000 メタゲノム 微生物 高等植物 その他高等動物 マウス ゲノムシーケンス 全エキソーム

解析メニューの対応

RNA-Seq ChIP-seq BS-seq Genome Resequencing CAGE De novo Genome Sequencing Metagenome 未分類含め公開300パイプライン!

(11)

• 新規転写物探索+サンプル発現比較 • de novo転写物アセンブル+比較 • 既知遺伝子群間比較(高精度/高速簡易) • Fusion遺伝子探索 • 転写因子用シャープピーク検出 • ヒストン等様ブロードピーク検出 • 結合予測部位からのモチーフ抽出  と既知モチーフとの比較 • サンプル間で差のあるピーク検出 • ChIP-Seq QC • マッピングとメチル化状況の可視化 • サンプル間比較と近傍遺伝子  アノテーション付加 • 16s rRNA 分類 • 全ゲノム分類 • 小規模ゲノム用アセンブル • アセンブル後のアノテーション付加 • SNV, ショートInDel検出 • 1000人ゲノム等情報による絞り込み。 • トリオ解析 • CNV/染色体構造異常検出 • 発現差のあるプロモータ特異的  モチーフ検出 Metagenome CAGE Bisulfite-seq RNA-seq ChIP-seq Genome Resequencing

De novo Genome Sequencing

前 半 藤 井 担 当 後 半 吉 武 担 当

解析メニューのダイジェスト

(12)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(13)

解析全体の流れ

(1)

利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード こちらのメールアドレスまで 利用申請して下さい。 Push 利用の登録 Maserにログイン Push 詳細説明はこちら  http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000001 こちらにアクセス

(14)

解析全体の流れ

(2)

入力します。 利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000002 プロジェクト(作業領域) の新規作成

(15)

解析全体の流れ

(3)

利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード データのアップロード (または公開データ取込) 入力します。 データの種類を 選択します。 アップロードファイルを 選択します。 大きいデータ用 小さいデータ用 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000002

(16)

解析全体の流れ

(4)

利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 解析の実行 詳細説明はこちら  http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 パイプライン選択 データ選択 データの選択 解析ボタン押下 実行ボタン押下 オプション入力

(17)

解析全体の流れ

(5)

利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 解析の実行 詳細説明はこちら  http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 データの選択 解析ボタン押下 パイプライン選択 データ選択 オプション入力 実行ボタン押下 パイプライン選択 選択データに応じた 解析メニューが 出ます。 入力データ 最終結果 フルコースパイプライン 入力データ 中間データ最終結果 単品パイプライン

(18)

解析全体の流れ

(6)

利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 解析の実行 詳細説明はこちら  http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 データの選択 解析ボタン押下 パイプライン選択 データ選択 途中略 必要に応じて データを再選択 オプション入力 実行ボタン押下

(19)

解析全体の流れ

(7)

利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 詳細説明はこちら  http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 結果の閲覧・ ダウンロード

(20)

結果の閲覧

比較関連のプロット

検定結果表(簡易フィルタ付)

実行されたコマンド

Data from ENCODE project

MCF-7_cell_longPolyA(SRX084666), GM12878_cell_longPolyA(SRX082565), K562_cell_longPolyA(SRX084683)

(21)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(22)

RNA-Seqとは

ゲノムへのマッピング 転写物アセンブリ

RNA-Seqでは

•  遺伝子や転写物の発現量を定量

•  新規転写物や、新規スプライシングバリアントの探索

などを行うことができます。

以下の

2系統があります。

•  ゲノムへのマッピングベースの解析

(ゲノム整備生物用)

•  転写物アセンブリを最初に行う解析

(ゲノム未整備生物向)

(23)

RNA-Seqパイプラインラインナップ

• De novo転写物

 アセンブリから開始し、

 既知ゲノム情報不要の

Trinity-bowtie-

eXpressの解析フロー

• 新規遺伝子構造予測等に人気のある

 TopHat-Cufflinksの解析フロー

• 多サンプル群間比較で人気のある

 TopHat-HTSeq-DESeqの解析フロー

ゲノム未整備生物用

ゲノム整備生物用

(24)

Genome Explorerで

RNA-seqを可視化する利点

Sample A

Sample B

既知遺伝子情報

UCSC Genome Browserの例

Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)

• 順逆が混ざらず、 逆鎖制御配列などの存在に気付きやすい。

• 軽快

• わざわざデータロードしなくても一連の解析課程でロードされる。

Genome Explorerの例 Sample A (順鎖) 同   (逆鎖) 既知遺伝子情報(順鎖) 同     (逆鎖) Sample B (順鎖) 同   (逆鎖)

Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)

(25)

新規遺伝子構造予測・転写物探索用

TopHat-Cufflinksのフロー

配列A (Fastq) 配列B (Fastq) マッピング (TopHat) マッピング (TopHat) マッピング 結果A (BAM) マッピング 結果B (BAM) 予測遺伝子 構造A (GTF) 予測遺伝子 構造B (GTF) マージ後 遺伝子構造 (GTF) 予測遺伝子 構造A (GTF) 予測遺伝子 構造B (GTF) 比較結果 (cuffdiff output)

Nat Protoc. 2012 Mar 1;7(3):562-78

遺伝子構造予測 (Cufflinks) 遺伝子構造予測 (Cufflinks) 発現比較 (Cuffdiff) 遺伝子構造集約 (Cuffmerge)

(26)

TopHat-Cufflinksの処理概要(1)

既知遺伝子 SampleA マッピング結果 SampleA 構造予測結果 SampleB マッピング結果 SampleB 構造予測結果 Splicing junctionをまたいだリード Splicing junctionをまたいだリード SambleAとBの マージ結果 計8種 計2種 計3種 計9種

Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)

(27)

Cuffdiffの結果の見方

Cuffdiff Isoform単位の結果 Cuffdiff 遺伝子単位の結果

有意差あり

Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)

(28)

ゲノム未決定生物用発現解析

Trinity-Bowtie-eXpress

配列A (Fastq) 配列B (Fastq) マッピング (Bowtie) マッピング (Bowtie) マッピング 結果A (BAM) マッピング 結果B (BAM) アセンブル 転写物 コンティグ (Fasta) 発現比較 (eXpress) 近縁生物 情報付加 (Blast) レポート (tsv) 遺伝子A 遺伝子B サンプルA TC(15), FPKM(5.0) TC(10), FPKM(5.0) サンプルB TC( 0), FPKM(0) TC(16), FPKM(8.0)

(29)

Trinity-Bowtie-eXpressの結果

発現比較+相同性アノテーション RevigoによるGO解析結果 Contig ID サンプルA 発現量 相同遺伝子 アノテーション GO アノテーション

Data from Array Express

http://www.ebi.ac.uk/arrayexpress/ ERR030872 HCT20152 thyroid ERR030885 HCT20142 kidney ERR030875 HCT20149 leukocyte ERR030874 HCT20150 ovary ERR030886 HCT20143 heart サンプルB 発現量

(30)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(31)

ChIP-Seqとは

•  転写因子やヒストン、メチル化DNA等に対する

 免疫沈降

(IP)処理を通して、それら結合サイト

 周辺のゲノム

DNA断片を濃縮し、

 次世代シーケンサーで配列決定することで、

 もとの結合サイトの検出を行う手法です。

断片化

Input DNA IP DNA

IP

染色体

(32)

ChIPパイプラインの位置づけと特徴

パイプラインの特徴

• 転写因子等シャープなピークと、

 ヒストン等ブロードなピークの

 両方に対応

• 予測結合領域周辺のモチーフ

 探索と既知モチーフとの

 類似性検出を実施

• ChIP独自のQCにENCODE

 プロジェクトでも使用された

QC指標を計算

マッピング (Bowtie) 配列 データ (Fastq) ピーク 領域 (BED) マッピング 結果 (BAM) モチーフ抽出 モチーフ検索 ピークコーラ (MACS) レポート (html) ChIP-QC (phantompeakqualtools) レポート (html) 今回は紹介なし

(33)

ChIPピークの実例とピーク検出概要

Data of Genome Browser view on the right figures ChIP-Seq data from ENCODE project FOXA1_GSM1010826(exp=SL2666,input=SL2665), GSM1010725(input=SL2665) IP 順鎖 IP 逆鎖 Input 順鎖 Input 逆鎖 純鎖 逆鎖 結合領域を中心に順鎖と逆鎖 それぞれで、位置の異なるアライメント された配列断片の山ができる。

This image is modified from the Nat Rev Genet. 2009 Oct;10(10):669-80

MACS2による予測結合部位 ピークコール:マップされたピークの相対位置や 高さなどの情報をもとに、結合領域を予測。 マッピング (Bowtie) 配列 データ (Fastq) ピーク 領域 (BED) マッピング 結果 (BAM) モチーフ抽出 モチーフ検索 ピークコーラ (MACS) レポート (html) 配列 データ (Fastq) マッピング (Bowtie) マッピング 結果 (BAM) ピーク 領域 (BED) ピークコーラ (MACS)

(34)

モチーフ予測とモチーフ検索

aacagagtgttcca aacagcatgttcta aacacaatgttctc aacagaatgttcta : 予測結合領域の ゲノム塩基配列 切り出し >m1_c1_nACAnnnTGTwCyn >m2_c1_nTGTTTryTTwn >m3_c1_nACACAGn >m4_c2_nTGTTCTb マッピング (Bowtie) 配列 データ (Fastq) ピーク 領域 (BED) マッピング 結果 (BAM) モチーフ探索 モチーフ検索 ピークコーラ (MACS) レポート (html) モチーフ抽出 (GADEM) 既知モチーフDB (JASPAR) に検索(MotIV) ピーク 領域 (BED) モチーフ抽出 モチーフ検索 レポート (html)

(35)

ChIP-Seqピーク検出までのプロセスの選択肢

Bowtie1/2 短鎖 配列 データ (Fastq) ピーク 領域 (BED) SICER PeakSeq 配列 データ (Csfasta +qual) マッピ ング 結果 (BAM) MACS BWA Bowtie (colorspace) SISSRs ZINBA TMAP 長鎖 配列 データ (Fastq) Motif finding Bowtie MACS Motif finding

中間データ出力

フルコースパイプライン

(36)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(37)

BS-seq(Bisulfite-seq)とは

ATG

C

ATGC

ATG

C

ATGC

ATG

C

ATG

C

ATGCATGC

m m m m Bisulfite 処理

ATG

C

ATG

T

ATG

C

ATG

T

ATG

C

ATG

C

ATG

T

ATG

T

m m m m

GACCATGCATGCCAGA

GACCATGCATGCCAGA

ATGCATG

T

ATGCATG

T

ATGCATGC

ATG

T

ATG

T

シーケンシング とマッピング メチル化率75% メチル化率25%

メチル化シトシン

(Cm)を含む塩基配列を

Bisulfite(重亜硫酸)処理すると、メチル化されて

いないシトシン

(C)のみチミン(T)に化学変化する

性質を利用しゲノム

DNA中のメチル化シトシンの

箇所を塩基レベルで特定する手法。

(38)

ゲノムに対するマッピング

ビューワのデモ画面へのリンク http://goo.gl/Vm3Zv1 条件A:iPS誘導ヒト脂肪細胞(ADS-iPSC)と 条件B:ヒト脂肪細胞株(ADS)で メチル化状況に顕著な違いのある CpGアイランド領域を弊所ゲノムブラウザ (GenomeExplorer)で1塩基レベル表示。 Color legend CG_ Methyl CG_ CHG Methyl CHG CHH Methyl CHH Mismatch

InDels Match bases

Gの前のCのみ顕著に メチル化されている。

Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS(SRX026833) ADS-iPSC(SRX026835)

条件A

(39)

Bisulfite-Seqパイプライン概要

配列A (Fastq) マッピング 結果A (独自) 配列B (Fastq) マッピング 結果B (独自) メチル化 非メチル化 カウントA メチル化 非メチル化 カウントB メチル化 非メチル化 カウント マージ後 領域情報 i.e)既知CpG アイランド, 既知プロモータ, 固定長bin, メチル化 非メチル化 カウント マージ後 マッピング (BMap) or (Bismark) マッピング (BMap) or (Bismark) メチル化 塩基コール (専用ツール) メチル化 塩基コール (専用ツール) マージ (独自) 比較結果 領域内 カウント集約 (独自) サンプル比較 (FET)

特徴

• CG/CHG/CHH区別し解析

• 全ゲノム

(50x)

レベルのデータ量に対応

• PBAT法に強いBMap

マッパー対応

※BMapは東京大学伊藤隆司先生グループの三浦史仁博士開発プログラム

(40)

検定結果リストの見方

近傍遺伝子の情報 ゲノムブラウザへのリンク 総当たり検定結果 既知CpGアイランドのID ゲノム上の座標

(41)

GenomeExplorerのCコンテキスト切替

Color legend CG_ Methyl CG_ CHG Methyl CHG CHH Methyl CHH Mismatch

InDels Match bases

CGメチルのみ、サンプル間に 顕著な違い

切り替えパネル

条件A

(42)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(43)

Genome Resequencing

•  ゲノム情報が分かっている生物で、再度ゲノム

シーケンスを行い、個体ごとにゲノムの変化を

調べる手法

解析手法 解析フロー詳細図

•  疾患の原因となるSNV,

INDEL検索

•  コピー数変異(CNV)検索

•  構造多型(SV)検索

(44)

BWA, GATK and snpEff + GE

Genome Resequencingパイプライン

代表的なツールを用いた

SNV, INDEL解析用パイプライン

•  アミノ酸置換が生じる変異の絞込み

•  1000ゲノムプロジェクトの情報を用い、高頻度で出現

する変異の除去

•  PolyPhen2, PROVEANによる変異の有害度による

絞込みが可能

マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) 変異 リスト (TSV) アノテーション (snpEff + その他)

(45)

BWA, GATK and snpEff + GEの実行手順

(46)

BWA, GATK and snpEff + GEの実行結果

マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) アノテーション 変異 リスト (TSV) アノテーション (snpEff + その他) 検体 a / 家系 ID 1 検体 b / 家系 ID 2 検体 c / 家系 ID 2 検体 d / 家系 ID 4 検体 e / 家系 ID 4 検体 f / 家系 ID 5 検体 g / 家系 ID 5 検体 k / 家系 ID 6 検体 l / 家系 ID 6 検体 h / 家系 ID 5 検体 i/ 家系 ID 5 検体 ID 4 / 家系 ID 3 検体 j / 家系 ID 6

(47)

マッピング結果の閲覧

マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) 変異の有無を生データから確認できる。 挿入(Ins.)、欠失(Del.)も表示可能。 変異 リスト (TSV) アノテーション (snpEff + その他) 挿入(Ins.)、欠失(Del.)も表示可能。

•  変異の有無を生データから確認できる

(48)

変異リストについて

マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) 変異 リスト (TSV) 1000ゲノム中 の頻度(%) 遺伝子名 アミノ酸に 生じる変異 PROVEANスコア (deleterious = “有害”) PolyPhen2スコア (damaging = “有害”) 個人ごとの変異の有無 変異なし:「0/0」 ヘテロ変異:「0/1」 ホモ変異:「1/1」 アノテーション (snpEff + その他)

(49)

家系情報の確認

検体 a / 家系 ID1 検体 b / 家系 ID2 検体 c / 家系 ID2 検体 d / 家系 ID4 検体 e / 家系 ID4 検体 f / 家系 ID5 検体 g / 家系 ID5 検体 k / 家系 ID6 検体 l / 家系 ID6 検体 h / 家系 ID5 検体 i / 家系 ID5 検体 m / 家系 ID3 検体 j / 家系 ID6 マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM)

•  共有する変異の数を

スコア化し、血縁関係

を推定。

変異 リスト (TXT) アノテーション (snpEff + その他) その他

(50)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(51)

De novo Genome Sequencing

•  ゲノム情報が未知の生物で、新規にゲノム配列を

決定する手法

解析手法

•  ゲノムアセンブル

•  遺伝子領域予測

•  ncRNA予測

•  遺伝子アノテーション

•  モチーフ・ドメイン検索

•  反復配列除去

•  進化系統樹作成

解析フロー詳細図

(52)

各種アセンブラー

De novo Genome Sequencingパイプライン

各種シーケンサー用に下記のアセンブラーを整備

•  Illumina ・・・ SOAPdenovo, Ray

•  454, IonPGM ・・・ Newbler (準備中)

•  PacBio ・・・ Sprai

サーバのメモリー制限上、ゲノムサイズとしては

100Mbase程度まで。

配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析

(53)

アセンブル+

annotation after assembling

の実行結果

配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析

(54)

K-mer分布によるゲノムサイズの推定

配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 クオリティ チェック (PNG) K-merカバレッジ K-me r密度 10 50 100 500 1000 5000 10000 10 1,000 100,000 10,000,000

およそ

800倍のカバレッジに

ピークが存在している例

全リード中の合計塩基

数とピークの位置から、

ゲノムサイズを推定可能

大腸菌(ERX026224)の例

(55)

アノテーション結果

配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 遺伝子 カタログ (TSV)

Augustusによる遺伝子領域の予測や、Uniprot, NCBI NT

に対して

Blastを行った結果が得られる。

コンティグの基本情報 (長さ、GC%、カバレッジ、配列) Uniprotアノテーション結果 GO情報 NCBI NTアノテーション結果 生物種情報 (種名、ドメイン名)

(56)

共生生物などの混入確認

大腸菌のゲノム

が分離されて見

える。

餌として与えた大

腸菌が混入か?

線虫のゲノムアセンブル (SRX026594)の例 log10(カバレッジ) GC% 線虫のゲノム

コンティグごとにカバレッジ

(リードの厚み)とGC含量を計算

し、プロットすることで、生物ごとにコンティグが分離される。

配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 その他

(57)

PSMCモデルによる集団サイズの推定

Ef fe ct ive p op ul at io n si ze (x1 0 4 ) 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 104 105 106 107 配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 その他 過去 現在 年

1~6万年前、アフリカを

出て世界中に分散した

集団内で、極端に人口

が減少したとを示す例

ヒト(NA18943:日本人)の例

(58)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(59)

•  環境サンプルから直接抽出したDNAをNGSで

シーケンスし、環境中に含まれる生物のゲノム

情報を取得する手法

解析手法

下記の配列を調べることに

よる生物種同定

•  16S, 18S rRNA

•  ミトコンドリア

•  全ゲノム

Metagenome

解析フロー詳細図 Nature. 2012 Sep 13;489(7415):250-6.

(60)

Metagenomeパイプライン

•  16S rDNA → SILVAデータベースで検索

•  Whole metagenome → NCBI NTデータベースで

検索

配列 データ (Fastq) Blast 結果 (TXT) 生物種同定 (Megan) アノテーション (Blast) 生物種の リスト (TSV)

blastn for NT database

MEGAN

(MEtaGenome ANalyzer) テュービンゲン大学

(61)

Metagenome解析結果

•  Meganの出力として、パイチャート

などのグラフィカルな図や、

生物種のリストが得られる

配列 データ (Fastq) Blast 結果 (TXT) 生物種同定 (Megan) アノテーション (Blast) 生物種の リスト (TSV) SRR061688 SRR061718 SRR061704

(62)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(63)

解析手法

CAGE

•  トランスクリプトの5 末端の塩基配列を網羅的に

決定することにより、転写開始点

(TSS)を網羅する

手法

•  新規転写開始点の探索

•  遺伝子ごとの発現量比較

•  異なる転写開始点を持つトラ

ンスクリプトごとの発現量比較

•  転写開始点周辺のモチーフ検

解析フロー詳細図 Gキャップ mRNA 5’末端の塩基配列

(64)

•  理研のFANTOMプロジェクトで開発されたCAGEの解

析パイプラインを本システムに移植

•  Illuminaを用いたCAGE解析に対応

•  トランスクリプトの発現量比較に加え、発現を制御する

シスエレメントの探索が可能

nAnT-iCAGE

CAGEパイプライン

配列 データ (Fastq) マッピング 結果 (BAM) 発現量比較 マッピング モチーフ探索

IDR paraclu ver3.1

発現変動 リスト (HTML) TSS 周辺の 転写因子 (HTML)

(65)

マッピング結果の閲覧

•  転写開始点の切り

替えを確認できる

配列 データ (Fastq) マッピング 結果 (BAM) 発現量比較 マッピング 発現変動リスト モチーフ探索 (HTML) TSS 周辺の 転写因子 (HTML) (+)方向 A5 49 細胞 (ー) 方向 (+) 方向 G m1 28 78 細胞 (ー) 方向 (+)方向 (ー) 方向 リファレ ンス

(66)

CAGEによる発現量比較結果

•  二群間比較を行い、発現量が変動した転写開始点

の情報を一覧表示

配列 データ (Fastq) マッピング 結果 (BAM) 発現量比較 マッピング 発現変動リスト モチーフ探索 (HTML) TSS 周辺の 転写因子 (HTML) 転写開始点の場所 (染色体上の位置、方向) 二群間の 発現量比 二群間で有意に変動 しているかの検定結果 遺伝子名

(67)

転写量を調整しているシスエレメント

•  二群の発現量の差を決定づけると推測される、転写

開始点近傍のシスエレメントを網羅的に探索し、統計

的検定を行う

配列 データ (Fastq) マッピング 結果 (BAM) 発現量比較 マッピング 発現変動リスト モチーフ探索 (HTML) TSS 周辺の 転写因子 (HTML) モチーフ探索

(68)

転写開始点近傍のモチーフ検索

•  発現調整に寄与するシスエレメント一覧

配列 データ (Fastq) マッピング 結果 (BAM) 発現量比較 マッピング 発現変動リスト モチーフ探索 (HTML) TSS 周辺の 転写因子 (HTML)

(69)

CAGEのシーケンスについて

(70)

目次

Maser概要

使い方

RNA-seq

ChIP-seq

BS-seq

Genome

Resequencing

De novo Genome

Sequencing

Metagenome

CAGE

おわりに

(71)

利用者へのお願い

以下の場合は

まで遠慮無くご連絡ください

      

•  使い方に困った場合

•  まだ登録されていない解析手法を是非とも使

いたい場合

•  自分の解析手法をMaserに登録して自動化

したい場合

(72)

謝辞

•  NGS現場の会主催勉強会で得た知見なども活用させていただいております。

同会参加の皆様に感謝致します。

東京大学 東京大学 東北大学 東京医療センター セルイノベーション シーケンス拠点 青野亮 張昊 西野譲 三須定彦 門間則和 山本圭介 渡邊久美子 理化学研究所 セルイノベーション データ解析拠点 長嶋剛史先生 理化学研究所・ライフ サイエンス技術基盤研 究センターの諸先生方 伊藤隆司先生 三浦史仁先生 白髭克彦先生中戸隆一郎先生 朴 聖俊 先生 二階堂愛先生 岩田岳先生 赤堀正和先生 九州大学 東京大学 佐野坂司先生 谷上賢瑞先生

参照

関連したドキュメント

計算で求めた理論値と比較検討した。その結果をFig・3‑12に示す。図中の実線は

ヘテロ二量体型 DnaJ を精製するために、 DnaJ 発現ベクターを構築した。コシャペロン 活性を欠失させるアミノ酸置換(H33Q または

 尿路結石症のうち小児期に発生するものは比較的少

以上のことから,心情の発現の機能を「創造的感性」による宗獅勺感情の表現であると

Wach 加群のモジュライを考えることでクリスタリン表現の局所普遍変形環を構 成し, 最後に一章の計算結果を用いて, 中間重みクリスタリン表現の局所普遍変形

ことで商店の経営は何とか維持されていた。つ まり、飯塚地区の中心商店街に本格的な冬の時 代が訪れるのは、石炭六法が失効し、大店法が

工場設備の計測装置(燃料ガス発熱量計)と表示装置(新たに設置した燃料ガス 発熱量計)における燃料ガス発熱量を比較した結果を図 4-2-1-5 に示す。図

廃棄物の排出量 A 社会 交通量(工事車両) B [ 評価基準 ]GR ツールにて算出 ( 一部、定性的に評価 )