生物学者のための
マイクロアレイと次世代シークエンス
データ解析の実際
2011年11月15日
帝京大学
東京医科歯科大学大学院疾患生命科学研究部ゲノム構造制御
田中裕二郎
chromatinstructure.wordpress.com
なぜ次世代シークエンス(NGS)か
1. ヒストンメチル基転移酵素ASH1
2. ストレス応答の転写制御因子ネットワーク
マイクロアレイとNGSのデータ解析
1. 遺伝子発現プロファイリング
a. マイクロアレイ・データから興味ある遺伝子を探索する
b. RNA‐seq
2. ChIP解析
a. ChIP‐on‐chip
b. ChIP‐seq
trxGに属するASH1の分子機能
SET Bromo PHD BAH
histone chaperone homology region
2958
ASH1: discs absent, small, or homeotic‐1
Shearn, A. et al. Imaginal disc abnormalities in lethal
mutants of Drosophila. PNAS 68, 2594, 1971.
Beisel, C. et al. Histone methylation by the Drosophila
epigenetic transcriptional regulator Ash1. Nature 419, 857,
2002.
Methylation of H3 K4, K9, H4 K20
Byrd, K.N. and Shearn, A. ASH1, a Drosophila trithorax group
protein, is required for methylation of lysine 4 residues on
histone H3. PNAS 100, 11535, 2003.
Methylation of H3 K4
Global reduction of methyl‐K4 in
ash1‐/‐ embryos
哺乳類の31のSETドメインメチル基転移酵素
pre‐SET domain post‐SET domain Target SETD7 SETD8 ‐ ‐ ‐ ‐ H3K4 H4K20 EZH1 EZH2 + + ‐ ‐ H3K27 H3K27 SETDB1 + + H3K9 SUV39H1 SUV39H2 SETMAR G9a GLP + + + + + + + + + + H3K9 H3K9 ND H3K9 H3K9 ASH1 NSD1 NSD2 NSD3 SET2 + + + + ‐ + + + + + H3K36 H3K36 H3K36 H3K36 H3K36 MLL1 MLL4 MLL2 MLL3 SET1A SET1B ‐ ‐ ‐ ‐ ‐ ‐ + + + + + + H3K4 H3K4 H3K4 H3K4 H3K4 H3K4 MLL5 KIAA1757 ‐ ‐ + + ND ND Smyd1 Smyd2 Smyd3 Smyd4 Smyd5 + + + ‐ ‐ + + + + + ND H3K36 H3K4 ND ND1. Dual function of histone H3 lysine 36 methyltransferase ASH1 in regulation of Hox gene expression. Tanaka Y, Kawahashi K, Katagiri Z, Nakayama Y, Mahajan M, Kioussis D. PLoS ONE, 2011 (in press) 2. Regulation of early T cell development by the PHD finger of histone lysine methyltransferase ASH1. Tanaka Y, Nakayama Y, Taniguchi M, Kioussis D. Biochem Biophys Res Commun 18:588‐594, 2008. 3. Trithorax‐group protein ASH1 methylates histone H3 lysine 36. Tanaka Y, Katagiri Z, Kawahashi K, Kioussis D, Kitajima S. Gene 397:161‐168, 2007.
ASH1
K4me3
K27me3
K36me3
Control
ASH1のゲノム標的を知りたい
ChIP‐seq解析
ストレス反応に於けるゲノムスケールでの転写応答
プラットフォーム
マイクロアレイ
NGS
•
ChIP‐on‐chip
• エクソンアレイ
•
ChIP‐seq
•
RNA‐seq
蛍光画像解析
配列情報解析
発現レベルまたはピークの一覧
パスウェイ解析、GO、GSEA、モチーフ解析
データ処理
遺伝子リスト
パターンの相似性または違いで分類
基本はデータの整形
ほとんどExcelでやってしまいます
z ばらつきを補正する
z 使えるデータを選別する
マイクロアレイの種類
GeneChip (Affymetrix)
Agilent Array
z Human Genome U133 Plus 2.0 Array(約47,000の転写産物/ 約54,000のプローブセット) z Mouse Genome 430 2.0 Array(約34,000の確認されたマウ ス遺伝子を含む) z SurePrint G3 Human Gene Expression 8x60K(27,958のEntrez Gene RNAを含む、34,127の転写産物および7,419のlincRNA) z Whole Human Genome 4x44K v2(27,958のEntrez Gene RNAを 含む、34,127の転写産物) z SurePrint G3 Mouse Gene Expression 8x60K(39,430 Entrez Gene RNAおよび16,251のlincRNA) z Whole Mouse Genome 4x44K v2(39,430 Entrez Gene RNA) 新試薬「Low Input Quick Amp Labeling Kit(LIQA)」により、 少ないtotal RNA(数十ng)からの解析が可能 アレイ間の差が小さいことが特長 設計、ハイブリ条件を最適化することで、5ケタのダイナ ミックレンジ 1種類の遺伝子に対して11~20種類の25merのプローブを 設計することで信頼性の高いデータ SurePrintテクノロジーで印刷された60 merの高品質カスタム オリゴアレイプローブ total RNA 2 μg以上(100~500 ng/μl) total RNA 1 μg以上(100~500 ng/μl)Agilent Array
Low Input Quick Amp Labeling Kit (1カラー用)24反応分
¥198,000
8x15Kアレイフォーマット用消耗品(ガスケットスライド)
¥20,000
RNA Spike In Kit(1カラー用)
¥67,000
SurePrint G3 Human/Mouse GEマイクロアレイキット 8x60K x 3枚
¥513,000
Gene Expression Hybridization Kit
¥22,400
Gene Expression Wash Pack
¥32,000
アレイ間の補正
1. 遺伝子名の順に並び替える
Excel>データ>並べ替え
2. House Keeping遺伝子のデータを集める
3. House Keeping遺伝子の倍率の平均で割る
4. 補正したシグナル値の順に並び替える
Excel>データ>並べ替え
5. 度数分布を描く
Excel>データ>データ分析>ヒストグラム
6. 発現していない遺伝子を分ける
(ratioの分母にしない)
ばらつきの原因は プローブの作成効率 ハイブリ条件 GeneSpringの補正法は percentile median housekeeping genesde Jonge HJ et al. PLoS One. 2007 Sep 19;2(9):e898.
Log2(normalized signals)
F
re
q
uency
Log2(normalized signals)
F
re
q
発現データから興味ある遺伝子を見つける
発現パターンの違いに着目
Fold Change
p値の評価によっていろいろ(多重比較の補正)
発現パターンの類似性に着目
クラスター分析
階層的クラスター vs. 非階層的クラスター
遺伝子間の(非類似度)の尺度
クラスター同士を結合する基準
RNA-seqのメリット
z ダイナミックレンジが広い
z 高感度
z 正確
• 相似配列や変異の識別
• マイクロアレイではバイアスが避けられない
•
alleleの識別
z 1bp単位の解像度
z 事前の知識や仮説が必要ないこと
z 生物学的に意味のある情報(splicing, editing, UTR)
z ハイスループット
z 安い(?)
RNA-seqデータ解析ツール
Broad Institute GenePattern
•
TopHat (Bowtie)
参照ゲノムへのアラインメント
•
Cufflinks
発現量の計算
遺伝子リストから機能を見つける
Gene Ontology
GO
パスウェイ解析 (KEGG, BioCarta)
DAVID
遺伝子セット発現解析
GSEA
転写因子モチーフ・スキャン
TRANSFAC Pro
JASPAR
MAPPER
ChIP-seq実験
1. Covaris 超音波破砕
2. ChIP‐seq Sample Prep Kit
ライブラリー作成
GA‐L 22 8 83 16482 16048 0 1 TGCATAAAGTGCTTCCACCCACATCTCACTGGTCCAAATCTAGTCATGTGGCCACAATTAACTACAAGGAAGGT gghhfhhhgfhhhhhhehghbgdfefgchdba`dc_]a_eabaad^^aa_aad_a¥¥a_^acaaa_G¥_[U¥[U chr8.fa 118054696 R 74 346 Y