Microsoft PowerPoint - open_bio-datamining-morishita-assembly

(1)

(2)

百万年前

millions of years ago

中生代 Mesozoic _Cenozoic新生代古生代 Paleozoic 900 800 700 600 500 400 300 200 100 0 新原生代 Neoproterozoic クリオジェニアン Cryogenian エディアカラ紀_Ediacaran カンブ_リア紀 _ビス紀オルド_ル紀シルデボン_紀石炭_紀ペルム_紀三畳_紀ジュラ_紀白亜_紀パレオ_ジンネオ_ジン尾索動物、被嚢類ひのうるい Urochordata 頭索動物 Cephalochordata 脊索動物 Chordata ナメクジウオホヤ脊椎動物 Verterata ヤツメウナギ無顎口上網 Agnatha 軟骨魚類Chondrichthyes 顎口上網がっこうじょうこう Gnathostomata サメ, エイ硬骨魚類 Osteichthyes 条鰭綱じょうきこう Actinopterygii 多鰭目全骨類Holostei ポリプテレスチョウザメ, ガー, ボウフィン真骨魚類 Teleostei ゼブラフィッシュメダカミドリフグトラフグ肉鰭綱にくきこう Sarcopterygii シーラカンス, 肺魚肺魚類 Dipnoi 四肢動物類 Tetrapoda 有羊膜類ゆうようまくるい Amniota 両生類 Amphibia カエル爬虫綱 Reptilia 鳥綱Aves トカゲ目Squamata ワニ目Crocodilia カメ目 Testudinata トカゲ, ヘビニワトリワニカメ哺乳綱 Mammalia 犬マウス、ラットヒト, チンパンジ

(3)

大規模ゲノムアセンブリの状況

アメリカ Atlas (Baylor College)

2.3億ミツバチ 2006 / 10 アメリカ Arachne (MIT) 34億オポッサム 2007 / 5

Atlas (Baylor College) 8億

ウニ 2006 / 11

アメリカ Atlas(Baylor), P-CAP(Wash U), Celera

29億アカゲザル 2007 / 4 日本 clone by clone 農業生物資源研究所 3.9億イネ 2005 / 8 アメリカ Jazz (JGI) 16億アフリカツメガエル 2008 / ? アセンブリ方式総塩基数種論文発表アメリカ Jazz (JGI) 6億? ナメクジウオ 2008 / ? イギリス Phesion (Sanger Ctr.) 16億ゼブラフィッシュ 2008 / ? 日本 Ramen (東大) 国立遺伝学研究所 7億メダカ 2007 / 6 アメリカ Arachne (MIT) 24億ドッグ 2005 / 12 アメリカ PCAP, Arachne 29億チンパンジ 2005 / 9 アメリカ PCAP (Wash. U.)

10億チキン 2004 / 12 フランス, アメリカ Arachne (MIT) 3.4億ミドリフグ 2004 / 10 アメリカ Atlas (Baylor College) + clone by clone

25億ラット

2004 / 4

中国 RePS (Beijing Genomics)

日本 Ramen (東大) 農業生物資源研究所 5億カイコ(染色体地図なし) 2004 / 2 アメリカ Arachne (MIT) + clone by clone

25億マウス 2002 / 12 アメリカ Jazz (JGI) 3.6億トラフグ(染色体地図なし) 2002 / 7 中国 RePS (Beijing Genomics)

4.7億イネ(染色体地図なし) 2002 / 4 アメリカ Celera 国際チーム clone-by-clone 29億ヒト 2001 / 2

(4)

大規模なゲノムシークエンシングセンター

米国

• Joint Genome Institute, US Dept. of Energy

• Whitehead Institute / MIT Center for Genome Research

• Washington University Genome Sequencing Center

• Baylor College of Medicine

英国

• Wellcome Trust Sanger Institute

日本

• 国立遺伝学研究所

• 理化学研究所ゲノム科学総合研究センター

• かずさ DNA 研究所

(5)

シークエンシング技術の高速化

ヒトゲノムプロジェクト $2.7 billion, 17年

2004年の段階哺乳類ゲノム (3G塩基) の解読 $10-50 million

NIHファンド “$1000 genome project” Feb.2004

2005年夏から驚異的な高速化

0.012 – 0.02 億/ 日

2304/

日

500 – 800 nt

ABI 3730xl

0.3 – 0.75 億/実験

300,000/実験

100 – 250 nt

454 10 – 20 億/実験

40,000,000/実験

25 – 50 nt

SOLEXA

総塩基数

収集可能タグ数*

配列（リード）長

*SOLEXAは１回の実験に 3-4 日, 454 は 7-8 時間註 SOLEXA の方式は illumina の HP を参照してください新型シークエンサーの応用例 • あたらしいSNP･挿入・削除の発見 • 免疫沈降法と組み合わせたエピゲノム解析および転写因子結合部位解析 • 遺伝子発現のプロファイリング

(6)

T G C T T G A C T G A T C A Single-stranded DNA T G A T Primer Polymerase A C G T A C A G T G T T C A A dNTP ddATP A C G T A A A Sanger Method (1975) ddNTP (deoxy triphosphate) ddNTP(dideoxy triphosphate) adenosine cytosine guanosine tyrosine

(7)

Template DNA T G C T T G A C T G A T C A T G A T C A ・・・ T G C T T G A C T G A T C A T G A T C A G T C T G C T T G A C T G A T C A T G A T C A G T C A A A T G C T T G A C T G A T C A T G A T C A G T C A A _C _G _A ddATP ddCTP ddGTP ddTTP C A G T C A A G C A agarosegel electrophoresis

(8)

A G C T C G C C T G A T C A Template DNA T G A T A G C T C G C C T G A T C A T G A T C A G C T C G C C T G A T C A T G A T C A A G C T C G C C T G A T C A T G A T C A G A G C T C G C C T G A T C A T G A T C A G G ・・・ G C A G C C A G G C G A G C T

(9)

(10)

a) Multiple copies of genome

b) Sheared random fragments by fast water flow

c) Size fractionated fragments

(11)

Circular vectors Linear vectors Genomic DNA Fragments Circular vectors Digestion Ligation Transfection E. Coli with a vector

(12)

d) Reads

c) Size fractionated fragments

e) Contigs

(13)

Original Reads

Assembly

1:CCTATGCTAGTCA 2:CGACTGACTAGCAT 3:GCTAGTCAGTCGATCTACC 4:ACCGGTAGATCGACTG 1:CCTATGCTAGTCA 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 4:CAGTCGATCTACCGGT

Double Stranded Reads

1:CCTATGCTAGTCA 1:TGACTAGCATAGG 2:CGACTGACTAGCAT 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 3:GGTAGATCGACTGACTAGC 4:ACCGGTAGATCGACTG 4:CAGTCGATCTACCGGT 1:CCTATGCTAGTCA 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 4:CAGTCGATCTACCGGT 4:ACCGGTAGATCGACTG 3:GGTAGATCGACTGACTAGC 2:CGACTGACTAGCAT 1:TGACTAGCATAGG

Contig 生成の詳細

(14)

Genome size G = 3*109_{. Given a random collection of N fragments of size L = 600.}

Sequence coverage = NL / G, e.g., = 10 if N = 5* 107_.

Join two fragments that share Lθ nucleotides (θ = 0.1).

1,966,204 1,546,383 912,151 478,260 235,089 110,936 50,895 22,873 10,119 4,421 1,526 1,940 3,289 6,273 12,761 27,043 58,945 131,158 296,471 678,526 1,000 10,000 100,000 1,000,000 10,000,000 1 2 3 4 5 6 7 8 9 10 Sequence coverage E xpect ed num ber o f c o n tig s 1,000 10,000 100,000 1,000,000 Av er a ge co nt ig leng th

Expected number of contigs Average contig length

(15)

stopper fragment fragment

L(1-θ

)

fragment

No fragments appear at any of the first L(1-

θ

) base pairs.

N/G: Probability that some fragments appear at an arbitrary position.

A contig stops at the “stopper” fragment.

Probability of having a stopper fragment:

(16)

1) Overlap 2) Layout 3) Consensus CCTATG-TAGTCAGTCG ATGCTAGTCAG GCTAGTCGGTCGATCTACC CAGTCGATCTGCCGGT GTCAGTC-ATCTAC-GGTTAGCATTGC Consensus CCTATGCTAGTCAGTCGATCTACCGGTTAGCATTGC U1 R U2 R U3

Contig 生成の困難な点

(17)

Overlap

Non-Overlap

dangling 塩基が一致

(18)

A R B

C R D

A R D

C R B

Which is the correct layout? Are A and B linked?

Correct

A B

(19)

Route A Route B Misjoin by better alignment scores Route A Route B matepair Revision by matepair Contig 生成エラーの検出： mate-pair 情報の利用２

(20)

A

R

B

C

R

D

Base read1 2 ₃

4 5

Small repeat sequences

A

R’

B

C

R

D

Base read ₁

2

A repeat R and a truncated repeat R’,

e.g. incompletely retro-transposed elements

Do not align 1 2 Conflict ! 安全をみて Contig をこれ以上伸ばさない Contig 生成エラーの検出：矛盾の検出

(21)

e) Contigs

f) Scaffolds(Super contigs)

(22)

Mate-pair を使った scaffold の構築

2,000±α% (plasmid) 10,000±α% (plasmid) scaffold scaffold 35,000±α% (fosmid) または 150,000±α% (BAC)

(23)

どのぐらいの量の mate-pair 情報が必要か？

10 ~ 20

130 ~ 200 kb

ＢＡＣ

10 40 kb

フォスミド

10~20

5 ~ 10 kb

プラスミド

ゲノムカバー率

mate-pair 間の平均長 (L)

クローンのタイプ

* ゲノムカバー率＝ L × (mate-pair の個数) / ゲノムサイズ

Microsoft PowerPoint - open_bio-datamining-morishita-assembly

大規模ゲノムアセンブリの状況

大規模なゲノムシークエンシングセンター

米国

• Joint Genome Institute, US Dept. of Energy

• Whitehead Institute / MIT Center for Genome Research

• Washington University Genome Sequencing Center

• Baylor College of Medicine

英国

• Wellcome Trust Sanger Institute

日本

• 国立遺伝学研究所

• 理化学研究所 ゲノム科学総合研究センター

• かずさ DNA 研究所

シークエンシング技術の高速化

ヒトゲノムプロジェクト $2.7 billion, 17年

2004年の段階 哺乳類ゲノム (3G塩基) の解読 $10-50 million

NIHファンド “$1000 genome project” Feb.2004

2005年夏から驚異的な高速化

0.012 – 0.02 億/ 日

2304/

日

500 – 800 nt

ABI 3730xl

0.3 – 0.75 億/実験

300,000/実験

100 – 250 nt

454

10 – 20 億/実験

40,000,000/実験

25 – 50 nt

SOLEXA

総塩基数

収集可能タグ数*

配列（リード）長

a) Multiple copies of genome

b) Sheared random fragments by fast water flow

c) Size fractionated fragments

d) Reads

c) Size fractionated fragments

e) Contigs

Original Reads

Assembly

Double Stranded Reads

Contig 生成の詳細

L(1-θ

)

No fragments appear at any of the first L(1-

θ

) base pairs.

N/G: Probability that some fragments appear at an arbitrary position.

A contig stops at the “stopper” fragment.

Probability of having a stopper fragment:

Contig 生成の困難な点

Overlap

Non-Overlap

Correct

A

R

B

C

R

D

A

R’

B

C

R

D

e) Contigs

f) Scaffolds(Super contigs)

Mate-pair を使った scaffold の構築

どのぐらいの量の mate-pair 情報が必要か？

10 ~ 20

130 ~ 200 kb

ＢＡＣ

10

40 kb

フォスミド

10~20

• 理化学研究所ゲノム科学総合研究センター

2004年の段階哺乳類ゲノム (3G塩基) の解読 $10-50 million