百万年前
millions of years ago
中生代 Mesozoic Cenozoic新生代 古生代 Paleozoic 900 800 700 600 500 400 300 200 100 0 新原生代 Neoproterozoic クリオジェニアン Cryogenian エディアカラ紀Ediacaran カンブリア紀 ビス紀オルドル紀シル デボン紀 石炭紀 ペルム紀 三畳紀 ジュラ紀 白亜紀 パレオジンネオジン 尾索動物、被嚢類ひのうるい Urochordata 頭索動物 Cephalochordata 脊索動物 Chordata ナメクジウオ ホヤ 脊椎動物 Verterata ヤツメウナギ 無顎口上網 Agnatha 軟骨魚類Chondrichthyes 顎口上網 がっこうじょうこう Gnathostomata サメ, エイ 硬骨魚類 Osteichthyes 条鰭綱 じょうきこう Actinopterygii 多鰭目 全骨類Holostei ポリプテレス チョウザメ, ガー, ボウフィン 真骨魚類 Teleostei ゼブラフィッシュ メダカ ミドリフグ トラフグ 肉鰭綱 にくきこう Sarcopterygii シーラカンス, 肺魚 肺魚類 Dipnoi 四肢動物類 Tetrapoda 有羊膜類 ゆうようまくるい Amniota 両生類 Amphibia カエル 爬虫綱 Reptilia 鳥綱Aves トカゲ目Squamata ワニ目Crocodilia カメ目 Testudinata トカゲ, ヘビ ニワトリ ワニ カメ 哺乳綱 Mammalia 犬 マウス、ラット ヒト, チンパンジ
大規模ゲノムアセンブリの状況
アメリカ Atlas (Baylor College)
2.3億 ミツバチ 2006 / 10 アメリカ Arachne (MIT) 34億 オポッサム 2007 / 5
Atlas (Baylor College) 8億
ウニ 2006 / 11
アメリカ Atlas(Baylor), P-CAP(Wash U), Celera
29億 アカゲザル 2007 / 4 日本 clone by clone 農業生物資源研究所 3.9億 イネ 2005 / 8 アメリカ Jazz (JGI) 16億 アフリカツメガエル 2008 / ? アセンブリ方式 総塩基数 種 論文発表 アメリカ Jazz (JGI) 6億? ナメクジウオ 2008 / ? イギリス Phesion (Sanger Ctr.) 16億 ゼブラフィッシュ 2008 / ? 日本 Ramen (東大) 国立遺伝学研究所 7億 メダカ 2007 / 6 アメリカ Arachne (MIT) 24億 ドッグ 2005 / 12 アメリカ PCAP, Arachne 29億 チンパンジ 2005 / 9 アメリカ PCAP (Wash. U.)
10億 チキン 2004 / 12 フランス, アメリカ Arachne (MIT) 3.4億 ミドリフグ 2004 / 10 アメリカ Atlas (Baylor College) + clone by clone
25億 ラット
2004 / 4
中国 RePS (Beijing Genomics)
日本 Ramen (東大) 農業生物資源研究所 5億 カイコ(染色体地図なし) 2004 / 2 アメリカ Arachne (MIT) + clone by clone
25億 マウス 2002 / 12 アメリカ Jazz (JGI) 3.6億 トラフグ(染色体地図なし) 2002 / 7 中国 RePS (Beijing Genomics)
4.7億 イネ(染色体地図なし) 2002 / 4 アメリカ Celera 国際チーム clone-by-clone 29億 ヒト 2001 / 2
大規模なゲノムシークエンシングセンター
米国
• Joint Genome Institute, US Dept. of Energy
• Whitehead Institute / MIT Center for Genome Research
• Washington University Genome Sequencing Center
• Baylor College of Medicine
英国
• Wellcome Trust Sanger Institute
日本
• 国立遺伝学研究所
• 理化学研究所 ゲノム科学総合研究センター
• かずさ DNA 研究所
シークエンシング技術の高速化
ヒトゲノムプロジェクト $2.7 billion, 17年
2004年の段階 哺乳類ゲノム (3G塩基) の解読 $10-50 million
NIHファンド “$1000 genome project” Feb.2004
2005年夏から驚異的な高速化
0.012 – 0.02 億/ 日
2304/
日
500 – 800 nt
ABI 3730xl
0.3 – 0.75 億/実験
300,000/実験
100 – 250 nt
454
10 – 20 億/実験
40,000,000/実験
25 – 50 nt
SOLEXA
総塩基数
収集可能タグ数*
配列(リード)長
*SOLEXAは1回の実験に 3-4 日, 454 は 7-8 時間 註 SOLEXA の方式は illumina の HP を参照してください 新型シークエンサーの応用例 • あたらしいSNP・挿入・削除の発見 • 免疫沈降法と組み合わせた エピゲノム解析および転写因子結合部位解析 • 遺伝子発現のプロファイリングT G C T T G A C T G A T C A Single-stranded DNA T G A T Primer Polymerase A C G T A C A G T G T T C A A dNTP ddATP A C G T A A A Sanger Method (1975) ddNTP (deoxy triphosphate) ddNTP(dideoxy triphosphate) adenosine cytosine guanosine tyrosine
Template DNA T G C T T G A C T G A T C A T G A T C A ・ ・ ・ T G C T T G A C T G A T C A T G A T C A G T C T G C T T G A C T G A T C A T G A T C A G T C A A A T G C T T G A C T G A T C A T G A T C A G T C A A C G A ddATP ddCTP ddGTP ddTTP C A G T C A A G C A agarosegel electrophoresis
A G C T C G C C T G A T C A Template DNA T G A T A G C T C G C C T G A T C A T G A T C A G C T C G C C T G A T C A T G A T C A A G C T C G C C T G A T C A T G A T C A G A G C T C G C C T G A T C A T G A T C A G G ・ ・ ・ G C A G C C A G G C G A G C T
a) Multiple copies of genome
b) Sheared random fragments by fast water flow
c) Size fractionated fragments
Circular vectors Linear vectors Genomic DNA Fragments Circular vectors Digestion Ligation Transfection E. Coli with a vector
d) Reads
c) Size fractionated fragments
e) Contigs
Original Reads
Assembly
1:CCTATGCTAGTCA 2:CGACTGACTAGCAT 3:GCTAGTCAGTCGATCTACC 4:ACCGGTAGATCGACTG 1:CCTATGCTAGTCA 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 4:CAGTCGATCTACCGGTDouble Stranded Reads
1:CCTATGCTAGTCA 1:TGACTAGCATAGG 2:CGACTGACTAGCAT 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 3:GGTAGATCGACTGACTAGC 4:ACCGGTAGATCGACTG 4:CAGTCGATCTACCGGT 1:CCTATGCTAGTCA 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 4:CAGTCGATCTACCGGT 4:ACCGGTAGATCGACTG 3:GGTAGATCGACTGACTAGC 2:CGACTGACTAGCAT 1:TGACTAGCATAGG
Contig 生成の詳細
Genome size G = 3*109. Given a random collection of N fragments of size L = 600.
Sequence coverage = NL / G, e.g., = 10 if N = 5* 107.
Join two fragments that share Lθ nucleotides (θ = 0.1).
1,966,204 1,546,383 912,151 478,260 235,089 110,936 50,895 22,873 10,119 4,421 1,526 1,940 3,289 6,273 12,761 27,043 58,945 131,158 296,471 678,526 1,000 10,000 100,000 1,000,000 10,000,000 1 2 3 4 5 6 7 8 9 10 Sequence coverage E xpect ed num ber o f c o n tig s 1,000 10,000 100,000 1,000,000 Av er a ge co nt ig leng th
Expected number of contigs Average contig length
stopper fragment fragment
L(1-θ
)
fragment
No fragments appear at any of the first L(1-
θ
) base pairs.
N/G: Probability that some fragments appear at an arbitrary position.
A contig stops at the “stopper” fragment.
Probability of having a stopper fragment:
1) Overlap 2) Layout 3) Consensus CCTATG-TAGTCAGTCG ATGCTAGTCAG GCTAGTCGGTCGATCTACC CAGTCGATCTGCCGGT GTCAGTC-ATCTAC-GGTTAGCATTGC Consensus CCTATGCTAGTCAGTCGATCTACCGGTTAGCATTGC U1 R U2 R U3
Contig 生成の困難な点
Overlap
Non-Overlap
dangling 塩基が一致
A R B
C R D
A R D
C R B
Which is the correct layout? Are A and B linked?
Correct
A B
Route A Route B Misjoin by better alignment scores Route A Route B matepair Revision by matepair Contig 生成エラーの検出: mate-pair 情報の利用2
A
R
B
C
R
D
Base read1 2 3
4 5
Small repeat sequences
A
R’
B
C
R
D
Base read 1
2
A repeat R and a truncated repeat R’,
e.g. incompletely retro-transposed elements
Do not align 1 2 Conflict ! 安全をみて Contig を これ以上伸ばさない Contig 生成エラーの検出: 矛盾の検出