NGSデータ解析プラットフォームMaser
2013/10/17イルミナウェビナー
国立遺伝学研究所 生命情報研究センター
遺伝情報分析研究室(セルイノ ベーション)
目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
文部科学省 革新的細胞解析研究プログラム
セルイノベーションとは
セルイノベーションプログラムのページ http://www.cell-innovation.org/ 先導研究諸機関 プログラム外の 研究者・技術者 データ解析拠点 (国立遺伝学研究所 生命情報研究センター) 代表研究者 池尾一穂 シーケンス拠点 (理化学研究所 CLST) Maser他 外部提供サービス 大量配列 データ転送 共同研究 解析環境・公開ノウハウの提供 • 解析支援依頼 • 独自開発解析技術の 技術移転 • シーケンス依頼 • 独自開発プロトコルの 技術移転解析全体像のイメージ
This image is modified from Nature Methods 6, S2 - S5 (2009)
Photo is from morgueFile http://www.morguefile.com/archive/display/187379
De novo Genome Sequencing
Genome
Resequencing RNA-seq ChIP-seq Bisulfite-seq
配列データ プログラミング スキルや バイオDBの ノウハウ ツールマニュアル や論文のMethod バイオインフォ マティシャン
解析全体像のイメージ
De novo Genome Sequencing
Genome
Resequencing RNA-seq ChIP-seq Bisulfite-seq
配列データ
This image is modified from Nature Methods 6, S2 - S5 (2009)
パイプライン種別と使い分け
入力データ 入力データ 中間データ 中間データ 最終結果 最終結果 フルコースパイプライン: 全自動のパイプライン 単品パイプライン: 機能ごとに一連の処理をまとめたパイプライン群 入門者にはお勧め! 途中でツールを乗り換えたり 多くの入力データに 対応するなど柔軟で 広範囲をカバーできます!公開大量配列データ登録状況
(1)
http://cell-innovation.nig.ac.jp/public/contents/ 公開中!! 公開大量配列データ(SRA)の登録数推移 縦:データ登録件数[万件](SRR単位) 横:登録年度 2013/10月集計0 5 10 15 20 25 30 W XS W G S AMPL IC O N R N A-Se q C hI P-Se q C LO N E Bi su lfi te -Se q D N ase -H yp erse EST / F L-cD N A Me D IP-Se q / デ ー タ 登録件数 [万件 ] x 10000 メタゲノム 微生物 高等植物 その他高等動物 マウス
公開大量配列データ登録状況
(2)
公開大量データ(SRA)のクロス集計 縦(上):データ登録件数[万件](SRR単位) 縦(下):データ登録割合[%] 横(上下共通):実験(NGSアプリケーション)種別 色分け(上下共通):生物種別 2013/10月集計 ゲノムシーケンス 全エキソーム http://cell-innovation.nig.ac.jp/cgi-bin/pub_stat/pub_stat31.cgi 公開中!! 0% 20% 40% 60% 80% 100% 登録件数の割合0 5 10 15 20 25 30 W XS W G S AMPL IC O N R N A-Se q C hI P-Se q C LO N E Bi su lfi te -Se q D N ase -H yp erse EST / F L-cD N A Me D IP-Se q / デ ー タ 登録件数 [万件 ] x 10000 メタゲノム 微生物 高等植物 その他高等動物 マウス ゲノムシーケンス 全エキソーム
解析メニューの対応
RNA-Seq ChIP-seq BS-seq Genome Resequencing CAGE De novo Genome Sequencing Metagenome 未分類含め公開300パイプライン!• 新規転写物探索+サンプル発現比較 • de novo転写物アセンブル+比較 • 既知遺伝子群間比較(高精度/高速簡易) • Fusion遺伝子探索 • 転写因子用シャープピーク検出 • ヒストン等様ブロードピーク検出 • 結合予測部位からのモチーフ抽出 と既知モチーフとの比較 • サンプル間で差のあるピーク検出 • ChIP-Seq QC • マッピングとメチル化状況の可視化 • サンプル間比較と近傍遺伝子 アノテーション付加 • 16s rRNA 分類 • 全ゲノム分類 • 小規模ゲノム用アセンブル • アセンブル後のアノテーション付加 • SNV, ショートInDel検出 • 1000人ゲノム等情報による絞り込み。 • トリオ解析 • CNV/染色体構造異常検出 • 発現差のあるプロモータ特異的 モチーフ検出 Metagenome CAGE Bisulfite-seq RNA-seq ChIP-seq Genome Resequencing
De novo Genome Sequencing
前 半 藤 井 担 当 後 半 吉 武 担 当
解析メニューのダイジェスト
目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
解析全体の流れ
(1)
利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード こちらのメールアドレスまで 利用申請して下さい。 Push 利用の登録 Maserにログイン Push 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000001 こちらにアクセス解析全体の流れ
(2)
入力します。 利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000002 プロジェクト(作業領域) の新規作成解析全体の流れ
(3)
利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード データのアップロード (または公開データ取込) 入力します。 データの種類を 選択します。 アップロードファイルを 選択します。 大きいデータ用 小さいデータ用 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000002解析全体の流れ
(4)
利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 解析の実行 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 パイプライン選択 データ選択 データの選択 解析ボタン押下 実行ボタン押下 オプション入力解析全体の流れ
(5)
利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 解析の実行 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 データの選択 解析ボタン押下 パイプライン選択 データ選択 オプション入力 実行ボタン押下 パイプライン選択 選択データに応じた 解析メニューが 出ます。 入力データ 最終結果 フルコースパイプライン 入力データ 中間データ最終結果 単品パイプライン解析全体の流れ
(6)
利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 解析の実行 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 データの選択 解析ボタン押下 パイプライン選択 データ選択 途中略 必要に応じて データを再選択 オプション入力 実行ボタン押下解析全体の流れ
(7)
利用の登録 プロジェクト(作業領域) の新規作成 Maserにログイン データのアップロード (または公開データ取込) 解析の実行 結果の閲覧・ ダウンロード 詳細説明はこちら http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=MAM0000003 結果の閲覧・ ダウンロード結果の閲覧
比較関連のプロット
検定結果表(簡易フィルタ付)
実行されたコマンド
Data from ENCODE project
MCF-7_cell_longPolyA(SRX084666), GM12878_cell_longPolyA(SRX082565), K562_cell_longPolyA(SRX084683)
目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
RNA-Seqとは
ゲノムへのマッピング 転写物アセンブリRNA-Seqでは
• 遺伝子や転写物の発現量を定量
• 新規転写物や、新規スプライシングバリアントの探索
などを行うことができます。
以下の
2系統があります。
• ゲノムへのマッピングベースの解析
(ゲノム整備生物用)
• 転写物アセンブリを最初に行う解析
(ゲノム未整備生物向)
RNA-Seqパイプラインラインナップ
• De novo転写物
アセンブリから開始し、
既知ゲノム情報不要の
Trinity-bowtie-
eXpressの解析フロー
• 新規遺伝子構造予測等に人気のある
TopHat-Cufflinksの解析フロー
• 多サンプル群間比較で人気のある
TopHat-HTSeq-DESeqの解析フロー
ゲノム未整備生物用
ゲノム整備生物用
Genome Explorerで
RNA-seqを可視化する利点
Sample A
Sample B
既知遺伝子情報
UCSC Genome Browserの例
Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)
• 順逆が混ざらず、 逆鎖制御配列などの存在に気付きやすい。
• 軽快
• わざわざデータロードしなくても一連の解析課程でロードされる。
Genome Explorerの例 Sample A (順鎖) 同 (逆鎖) 既知遺伝子情報(順鎖) 同 (逆鎖) Sample B (順鎖) 同 (逆鎖)Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)
新規遺伝子構造予測・転写物探索用
TopHat-Cufflinksのフロー
配列A (Fastq) 配列B (Fastq) マッピング (TopHat) マッピング (TopHat) マッピング 結果A (BAM) マッピング 結果B (BAM) 予測遺伝子 構造A (GTF) 予測遺伝子 構造B (GTF) マージ後 遺伝子構造 (GTF) 予測遺伝子 構造A (GTF) 予測遺伝子 構造B (GTF) 比較結果 (cuffdiff output)Nat Protoc. 2012 Mar 1;7(3):562-78
遺伝子構造予測 (Cufflinks) 遺伝子構造予測 (Cufflinks) 発現比較 (Cuffdiff) 遺伝子構造集約 (Cuffmerge)
TopHat-Cufflinksの処理概要(1)
既知遺伝子 SampleA マッピング結果 SampleA 構造予測結果 SampleB マッピング結果 SampleB 構造予測結果 Splicing junctionをまたいだリード Splicing junctionをまたいだリード SambleAとBの マージ結果 計8種 計2種 計3種 計9種Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)
Cuffdiffの結果の見方
Cuffdiff Isoform単位の結果 Cuffdiff 遺伝子単位の結果
有意差あり
Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS-iPSC(SRR094759) ADS(SRR094669)
ゲノム未決定生物用発現解析
Trinity-Bowtie-eXpress
配列A (Fastq) 配列B (Fastq) マッピング (Bowtie) マッピング (Bowtie) マッピング 結果A (BAM) マッピング 結果B (BAM) アセンブル 転写物 コンティグ (Fasta) 発現比較 (eXpress) 近縁生物 情報付加 (Blast) レポート (tsv) 遺伝子A 遺伝子B サンプルA TC(15), FPKM(5.0) TC(10), FPKM(5.0) サンプルB TC( 0), FPKM(0) TC(16), FPKM(8.0)Trinity-Bowtie-eXpressの結果
発現比較+相同性アノテーション RevigoによるGO解析結果 Contig ID サンプルA 発現量 相同遺伝子 アノテーション GO アノテーションData from Array Express
http://www.ebi.ac.uk/arrayexpress/ ERR030872 HCT20152 thyroid ERR030885 HCT20142 kidney ERR030875 HCT20149 leukocyte ERR030874 HCT20150 ovary ERR030886 HCT20143 heart サンプルB 発現量
目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
ChIP-Seqとは
• 転写因子やヒストン、メチル化DNA等に対する
免疫沈降
(IP)処理を通して、それら結合サイト
周辺のゲノム
DNA断片を濃縮し、
次世代シーケンサーで配列決定することで、
もとの結合サイトの検出を行う手法です。
断片化Input DNA IP DNA
IP
染色体
ChIPパイプラインの位置づけと特徴
パイプラインの特徴
• 転写因子等シャープなピークと、
ヒストン等ブロードなピークの
両方に対応
• 予測結合領域周辺のモチーフ
探索と既知モチーフとの
類似性検出を実施
• ChIP独自のQCにENCODE
プロジェクトでも使用された
QC指標を計算
マッピング (Bowtie) 配列 データ (Fastq) ピーク 領域 (BED) マッピング 結果 (BAM) モチーフ抽出 モチーフ検索 ピークコーラ (MACS) レポート (html) ChIP-QC (phantompeakqualtools) レポート (html) 今回は紹介なしChIPピークの実例とピーク検出概要
Data of Genome Browser view on the right figures ChIP-Seq data from ENCODE project FOXA1_GSM1010826(exp=SL2666,input=SL2665), GSM1010725(input=SL2665) IP 順鎖 IP 逆鎖 Input 順鎖 Input 逆鎖 純鎖 逆鎖 結合領域を中心に順鎖と逆鎖 それぞれで、位置の異なるアライメント された配列断片の山ができる。
This image is modified from the Nat Rev Genet. 2009 Oct;10(10):669-80
MACS2による予測結合部位 ピークコール:マップされたピークの相対位置や 高さなどの情報をもとに、結合領域を予測。 マッピング (Bowtie) 配列 データ (Fastq) ピーク 領域 (BED) マッピング 結果 (BAM) モチーフ抽出 モチーフ検索 ピークコーラ (MACS) レポート (html) 配列 データ (Fastq) マッピング (Bowtie) マッピング 結果 (BAM) ピーク 領域 (BED) ピークコーラ (MACS)
モチーフ予測とモチーフ検索
aacagagtgttcca aacagcatgttcta aacacaatgttctc aacagaatgttcta : 予測結合領域の ゲノム塩基配列 切り出し >m1_c1_nACAnnnTGTwCyn >m2_c1_nTGTTTryTTwn >m3_c1_nACACAGn >m4_c2_nTGTTCTb マッピング (Bowtie) 配列 データ (Fastq) ピーク 領域 (BED) マッピング 結果 (BAM) モチーフ探索 モチーフ検索 ピークコーラ (MACS) レポート (html) モチーフ抽出 (GADEM) 既知モチーフDB (JASPAR) に検索(MotIV) ピーク 領域 (BED) モチーフ抽出 モチーフ検索 レポート (html)ChIP-Seqピーク検出までのプロセスの選択肢
Bowtie1/2 短鎖 配列 データ (Fastq) ピーク 領域 (BED) SICER PeakSeq 配列 データ (Csfasta +qual) マッピ ング 結果 (BAM) MACS BWA Bowtie (colorspace) SISSRs ZINBA TMAP 長鎖 配列 データ (Fastq) Motif finding Bowtie MACS Motif finding中間データ出力
フルコースパイプライン
目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
BS-seq(Bisulfite-seq)とは
ATG
C
ATGC
ATG
C
ATGC
ATG
C
ATG
C
ATGCATGC
m m m m Bisulfite 処理ATG
C
ATG
T
ATG
C
ATG
T
ATG
C
ATG
C
ATG
T
ATG
T
m m m m
GACCATGCATGCCAGA
GACCATGCATGCCAGA
ATGCATG
T
ATGCATG
T
ATGCATGC
ATG
T
ATG
T
シーケンシング とマッピング メチル化率75% メチル化率25%
メチル化シトシン
(Cm)を含む塩基配列を
Bisulfite(重亜硫酸)処理すると、メチル化されて
いないシトシン
(C)のみチミン(T)に化学変化する
性質を利用しゲノム
DNA中のメチル化シトシンの
箇所を塩基レベルで特定する手法。
ゲノムに対するマッピング
ビューワのデモ画面へのリンク http://goo.gl/Vm3Zv1 条件A:iPS誘導ヒト脂肪細胞(ADS-iPSC)と 条件B:ヒト脂肪細胞株(ADS)で メチル化状況に顕著な違いのある CpGアイランド領域を弊所ゲノムブラウザ (GenomeExplorer)で1塩基レベル表示。 Color legend CG_ Methyl CG_ CHG Methyl CHG CHH Methyl CHH MismatchInDels Match bases
Gの前のCのみ顕著に メチル化されている。
Data is from Nature. 2011 Mar 3;471(7336):68-73 ADS(SRX026833) ADS-iPSC(SRX026835)
条件A
Bisulfite-Seqパイプライン概要
配列A (Fastq) マッピング 結果A (独自) 配列B (Fastq) マッピング 結果B (独自) メチル化 非メチル化 カウントA メチル化 非メチル化 カウントB メチル化 非メチル化 カウント マージ後 領域情報 i.e)既知CpG アイランド, 既知プロモータ, 固定長bin, メチル化 非メチル化 カウント マージ後 マッピング (BMap) or (Bismark) マッピング (BMap) or (Bismark) メチル化 塩基コール (専用ツール) メチル化 塩基コール (専用ツール) マージ (独自) 比較結果 領域内 カウント集約 (独自) サンプル比較 (FET)特徴
• CG/CHG/CHH区別し解析
• 全ゲノム
(50x)レベルのデータ量に対応
• PBAT法に強いBMap
※マッパー対応
※BMapは東京大学伊藤隆司先生グループの三浦史仁博士開発プログラム検定結果リストの見方
近傍遺伝子の情報 ゲノムブラウザへのリンク 総当たり検定結果 既知CpGアイランドのID ゲノム上の座標GenomeExplorerのCコンテキスト切替
Color legend CG_ Methyl CG_ CHG Methyl CHG CHH Methyl CHH MismatchInDels Match bases
CGメチルのみ、サンプル間に 顕著な違い
切り替えパネル
条件A
目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
Genome Resequencing
• ゲノム情報が分かっている生物で、再度ゲノム
シーケンスを行い、個体ごとにゲノムの変化を
調べる手法
解析手法 解析フロー詳細図• 疾患の原因となるSNV,
INDEL検索
• コピー数変異(CNV)検索
• 構造多型(SV)検索
BWA, GATK and snpEff + GE
Genome Resequencingパイプライン
代表的なツールを用いた
SNV, INDEL解析用パイプライン
• アミノ酸置換が生じる変異の絞込み
• 1000ゲノムプロジェクトの情報を用い、高頻度で出現
する変異の除去
• PolyPhen2, PROVEANによる変異の有害度による
絞込みが可能
マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) 変異 リスト (TSV) アノテーション (snpEff + その他)BWA, GATK and snpEff + GEの実行手順
BWA, GATK and snpEff + GEの実行結果
マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) アノテーション 変異 リスト (TSV) アノテーション (snpEff + その他) 検体 a / 家系 ID 1 検体 b / 家系 ID 2 検体 c / 家系 ID 2 検体 d / 家系 ID 4 検体 e / 家系 ID 4 検体 f / 家系 ID 5 検体 g / 家系 ID 5 検体 k / 家系 ID 6 検体 l / 家系 ID 6 検体 h / 家系 ID 5 検体 i/ 家系 ID 5 検体 ID 4 / 家系 ID 3 検体 j / 家系 ID 6マッピング結果の閲覧
マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) 変異の有無を生データから確認できる。 挿入(Ins.)、欠失(Del.)も表示可能。 変異 リスト (TSV) アノテーション (snpEff + その他) 挿入(Ins.)、欠失(Del.)も表示可能。• 変異の有無を生データから確認できる
変異リストについて
マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM) 変異 リスト (TSV) 1000ゲノム中 の頻度(%) 遺伝子名 アミノ酸に 生じる変異 PROVEANスコア (deleterious = “有害”) PolyPhen2スコア (damaging = “有害”) 個人ごとの変異の有無 変異なし:「0/0」 ヘテロ変異:「0/1」 ホモ変異:「1/1」 アノテーション (snpEff + その他)家系情報の確認
検体 a / 家系 ID1 検体 b / 家系 ID2 検体 c / 家系 ID2 検体 d / 家系 ID4 検体 e / 家系 ID4 検体 f / 家系 ID5 検体 g / 家系 ID5 検体 k / 家系 ID6 検体 l / 家系 ID6 検体 h / 家系 ID5 検体 i / 家系 ID5 検体 m / 家系 ID3 検体 j / 家系 ID6 マッピング (BWA) 配列 データ (Fastq) 変異抽出 (GATK) 変異 リスト (VCF) マッピング 結果 (BAM)• 共有する変異の数を
スコア化し、血縁関係
を推定。
変異 リスト (TXT) アノテーション (snpEff + その他) その他目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
De novo Genome Sequencing
• ゲノム情報が未知の生物で、新規にゲノム配列を
決定する手法
解析手法• ゲノムアセンブル
• 遺伝子領域予測
• ncRNA予測
• 遺伝子アノテーション
• モチーフ・ドメイン検索
• 反復配列除去
• 進化系統樹作成
解析フロー詳細図各種アセンブラー
De novo Genome Sequencingパイプライン
各種シーケンサー用に下記のアセンブラーを整備
• Illumina ・・・ SOAPdenovo, Ray
• 454, IonPGM ・・・ Newbler (準備中)
• PacBio ・・・ Sprai
サーバのメモリー制限上、ゲノムサイズとしては
100Mbase程度まで。
配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析アセンブル+
annotation after assembling
の実行結果
配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析K-mer分布によるゲノムサイズの推定
配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 クオリティ チェック (PNG) K-merカバレッジ K-me r密度 10 50 100 500 1000 5000 10000 10 1,000 100,000 10,000,000およそ
800倍のカバレッジに
ピークが存在している例
全リード中の合計塩基
数とピークの位置から、
ゲノムサイズを推定可能
大腸菌(ERX026224)の例アノテーション結果
配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 遺伝子 カタログ (TSV)Augustusによる遺伝子領域の予測や、Uniprot, NCBI NT
に対して
Blastを行った結果が得られる。
コンティグの基本情報 (長さ、GC%、カバレッジ、配列) Uniprotアノテーション結果 GO情報 NCBI NTアノテーション結果 生物種情報 (種名、ドメイン名)共生生物などの混入確認
大腸菌のゲノム
が分離されて見
える。
餌として与えた大
腸菌が混入か?
線虫のゲノムアセンブル (SRX026594)の例 log10(カバレッジ) GC% 線虫のゲノムコンティグごとにカバレッジ
(リードの厚み)とGC含量を計算
し、プロットすることで、生物ごとにコンティグが分離される。
配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 その他PSMCモデルによる集団サイズの推定
Ef fe ct ive p op ul at io n si ze (x1 0 4 ) 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 104 105 106 107 配列 データ (Fastq) コンティグ 配列 (Fasta) 遺伝子 カタログ (TSV) アノテーション (Blastなど) アセンブル 進化 系統樹 (JPEG) 系統解析 その他 過去 現在 年約
1~6万年前、アフリカを
出て世界中に分散した
集団内で、極端に人口
が減少したとを示す例
ヒト(NA18943:日本人)の例目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
• 環境サンプルから直接抽出したDNAをNGSで
シーケンスし、環境中に含まれる生物のゲノム
情報を取得する手法
解析手法下記の配列を調べることに
よる生物種同定
• 16S, 18S rRNA
• ミトコンドリア
• 全ゲノム
Metagenome
解析フロー詳細図 Nature. 2012 Sep 13;489(7415):250-6.Metagenomeパイプライン
• 16S rDNA → SILVAデータベースで検索
• Whole metagenome → NCBI NTデータベースで
検索
配列 データ (Fastq) Blast 結果 (TXT) 生物種同定 (Megan) アノテーション (Blast) 生物種の リスト (TSV)blastn for NT database
MEGAN
(MEtaGenome ANalyzer) テュービンゲン大学
Metagenome解析結果
• Meganの出力として、パイチャート
などのグラフィカルな図や、
生物種のリストが得られる
配列 データ (Fastq) Blast 結果 (TXT) 生物種同定 (Megan) アノテーション (Blast) 生物種の リスト (TSV) SRR061688 SRR061718 SRR061704目次
Maser概要
使い方
RNA-seq
ChIP-seq
BS-seq
Genome
Resequencing
De novo Genome
Sequencing
Metagenome
CAGE
おわりに
解析手法
CAGE
• トランスクリプトの5 末端の塩基配列を網羅的に
決定することにより、転写開始点
(TSS)を網羅する
手法
• 新規転写開始点の探索
• 遺伝子ごとの発現量比較
• 異なる転写開始点を持つトラ
ンスクリプトごとの発現量比較
• 転写開始点周辺のモチーフ検
索
解析フロー詳細図 Gキャップ mRNA 5’末端の塩基配列• 理研のFANTOMプロジェクトで開発されたCAGEの解
析パイプラインを本システムに移植
• Illuminaを用いたCAGE解析に対応
• トランスクリプトの発現量比較に加え、発現を制御する
シスエレメントの探索が可能
nAnT-iCAGE
CAGEパイプライン
配列 データ (Fastq) マッピング 結果 (BAM) 発現量比較 マッピング モチーフ探索IDR paraclu ver3.1
発現変動 リスト (HTML) TSS 周辺の 転写因子 (HTML)