• 検索結果がありません。

Microsoft PowerPoint - open_bio-datamining-morishita-assembly

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - open_bio-datamining-morishita-assembly"

Copied!
23
0
0

読み込み中.... (全文を見る)

全文

(1)
(2)

百万年前

millions of years ago

中生代 Mesozoic Cenozoic新生代 古生代 Paleozoic 900 800 700 600 500 400 300 200 100 0 新原生代 Neoproterozoic クリオジェニアン Cryogenian エディアカラ紀Ediacaran カンブリア紀 ビス紀オルドル紀シル デボン 石炭 ペルム 三畳 ジュラ 白亜 パレオジンネオジン 尾索動物、被嚢類ひのうるい Urochordata 頭索動物 Cephalochordata 脊索動物 Chordata ナメクジウオ ホヤ 脊椎動物 Verterata ヤツメウナギ 無顎口上網 Agnatha 軟骨魚類Chondrichthyes 顎口上網 がっこうじょうこう Gnathostomata サメ, エイ 硬骨魚類 Osteichthyes 条鰭綱 じょうきこう Actinopterygii 多鰭目 全骨類Holostei ポリプテレス チョウザメ, ガー, ボウフィン 真骨魚類 Teleostei ゼブラフィッシュ メダカ ミドリフグ トラフグ 肉鰭綱 にくきこう Sarcopterygii シーラカンス, 肺魚 肺魚類 Dipnoi 四肢動物類 Tetrapoda 有羊膜類 ゆうようまくるい Amniota 両生類 Amphibia カエル 爬虫綱 Reptilia 鳥綱Aves トカゲ目Squamata ワニ目Crocodilia カメ目 Testudinata トカゲ, ヘビ ニワトリ ワニ カメ 哺乳綱 Mammalia 犬 マウス、ラット ヒト, チンパンジ

(3)

大規模ゲノムアセンブリの状況

アメリカ Atlas (Baylor College)

2.3億 ミツバチ 2006 / 10 アメリカ Arachne (MIT) 34億 オポッサム 2007 / 5

Atlas (Baylor College) 8億

ウニ 2006 / 11

アメリカ Atlas(Baylor), P-CAP(Wash U), Celera

29億 アカゲザル 2007 / 4 日本 clone by clone 農業生物資源研究所 3.9億 イネ 2005 / 8 アメリカ Jazz (JGI) 16億 アフリカツメガエル 2008 / ? アセンブリ方式 総塩基数 種 論文発表 アメリカ Jazz (JGI) 6億? ナメクジウオ 2008 / ? イギリス Phesion (Sanger Ctr.) 16億 ゼブラフィッシュ 2008 / ? 日本 Ramen (東大) 国立遺伝学研究所 7億 メダカ 2007 / 6 アメリカ Arachne (MIT) 24億 ドッグ 2005 / 12 アメリカ PCAP, Arachne 29億 チンパンジ 2005 / 9 アメリカ PCAP (Wash. U.)

10億 チキン 2004 / 12 フランス, アメリカ Arachne (MIT) 3.4億 ミドリフグ 2004 / 10 アメリカ Atlas (Baylor College) + clone by clone

25億 ラット

2004 / 4

中国 RePS (Beijing Genomics)

日本 Ramen (東大) 農業生物資源研究所 5億 カイコ(染色体地図なし) 2004 / 2 アメリカ Arachne (MIT) + clone by clone

25億 マウス 2002 / 12 アメリカ Jazz (JGI) 3.6億 トラフグ(染色体地図なし) 2002 / 7 中国 RePS (Beijing Genomics)

4.7億 イネ(染色体地図なし) 2002 / 4 アメリカ Celera 国際チーム clone-by-clone 29億 ヒト 2001 / 2

(4)

大規模なゲノムシークエンシングセンター

米国

• Joint Genome Institute, US Dept. of Energy

• Whitehead Institute / MIT Center for Genome Research

• Washington University Genome Sequencing Center

• Baylor College of Medicine

英国

• Wellcome Trust Sanger Institute

日本

• 国立遺伝学研究所

• 理化学研究所 ゲノム科学総合研究センター

• かずさ DNA 研究所

(5)

シークエンシング技術の高速化

„

ヒトゲノムプロジェクト $2.7 billion, 17年

„

2004年の段階 哺乳類ゲノム (3G塩基) の解読 $10-50 million

„

NIHファンド “$1000 genome project” Feb.2004

„

2005年夏から驚異的な高速化

0.012 – 0.02 億/ 日

2304/

500 – 800 nt

ABI 3730xl

0.3 – 0.75 億/実験

300,000/実験

100 – 250 nt

454

10 – 20 億/実験

40,000,000/実験

25 – 50 nt

SOLEXA

総塩基数

収集可能タグ数*

配列(リード)長

*SOLEXAは1回の実験に 3-4 日, 454 は 7-8 時間 註 SOLEXA の方式は illumina の HP を参照してください 新型シークエンサーの応用例 • あたらしいSNP・挿入・削除の発見 • 免疫沈降法と組み合わせた エピゲノム解析および転写因子結合部位解析 • 遺伝子発現のプロファイリング

(6)

T G C T T G A C T G A T C A Single-stranded DNA T G A T Primer Polymerase A C G T A C A G T G T T C A A dNTP ddATP A C G T A A A Sanger Method (1975) ddNTP (deoxy triphosphate) ddNTP(dideoxy triphosphate) adenosine cytosine guanosine tyrosine

(7)

Template DNA T G C T T G A C T G A T C A T G A T C A ・ ・ ・ T G C T T G A C T G A T C A T G A T C A G T C T G C T T G A C T G A T C A T G A T C A G T C A A A T G C T T G A C T G A T C A T G A T C A G T C A A C G A ddATP ddCTP ddGTP ddTTP C A G T C A A G C A agarosegel electrophoresis

(8)

A G C T C G C C T G A T C A Template DNA T G A T A G C T C G C C T G A T C A T G A T C A G C T C G C C T G A T C A T G A T C A A G C T C G C C T G A T C A T G A T C A G A G C T C G C C T G A T C A T G A T C A G G ・ ・ ・ G C A G C C A G G C G A G C T

(9)
(10)

a) Multiple copies of genome

b) Sheared random fragments by fast water flow

c) Size fractionated fragments

(11)

Circular vectors Linear vectors Genomic DNA Fragments Circular vectors Digestion Ligation Transfection E. Coli with a vector

(12)

d) Reads

c) Size fractionated fragments

e) Contigs

(13)

Original Reads

Assembly

1:CCTATGCTAGTCA 2:CGACTGACTAGCAT 3:GCTAGTCAGTCGATCTACC 4:ACCGGTAGATCGACTG 1:CCTATGCTAGTCA 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 4:CAGTCGATCTACCGGT

Double Stranded Reads

1:CCTATGCTAGTCA 1:TGACTAGCATAGG 2:CGACTGACTAGCAT 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 3:GGTAGATCGACTGACTAGC 4:ACCGGTAGATCGACTG 4:CAGTCGATCTACCGGT 1:CCTATGCTAGTCA 2:ATGCTAGTCAGTCG 3:GCTAGTCAGTCGATCTACC 4:CAGTCGATCTACCGGT 4:ACCGGTAGATCGACTG 3:GGTAGATCGACTGACTAGC 2:CGACTGACTAGCAT 1:TGACTAGCATAGG

Contig 生成の詳細

(14)

Genome size G = 3*109. Given a random collection of N fragments of size L = 600.

Sequence coverage = NL / G, e.g., = 10 if N = 5* 107.

Join two fragments that share Lθ nucleotides (θ = 0.1).

1,966,204 1,546,383 912,151 478,260 235,089 110,936 50,895 22,873 10,119 4,421 1,526 1,940 3,289 6,273 12,761 27,043 58,945 131,158 296,471 678,526 1,000 10,000 100,000 1,000,000 10,000,000 1 2 3 4 5 6 7 8 9 10 Sequence coverage E xpect ed num ber o f c o n tig s 1,000 10,000 100,000 1,000,000 Av er a ge co nt ig leng th

Expected number of contigs Average contig length

(15)

stopper fragment fragment

L(1-θ

)

fragment

No fragments appear at any of the first L(1-

θ

) base pairs.

N/G: Probability that some fragments appear at an arbitrary position.

A contig stops at the “stopper” fragment.

Probability of having a stopper fragment:

(16)

1) Overlap 2) Layout 3) Consensus CCTATG-TAGTCAGTCG ATGCTAGTCAG GCTAGTCGGTCGATCTACC CAGTCGATCTGCCGGT GTCAGTC-ATCTAC-GGTTAGCATTGC Consensus CCTATGCTAGTCAGTCGATCTACCGGTTAGCATTGC U1 R U2 R U3

Contig 生成の困難な点

(17)

Overlap

Non-Overlap

dangling 塩基が一致

(18)

A R B

C R D

A R D

C R B

Which is the correct layout? Are A and B linked?

Correct

A B

(19)

Route A Route B Misjoin by better alignment scores Route A Route B matepair Revision by matepair Contig 生成エラーの検出: mate-pair 情報の利用2

(20)

A

R

B

C

R

D

Base read1 2 3

4 5

Small repeat sequences

A

R’

B

C

R

D

Base read 1

2

A repeat R and a truncated repeat R’,

e.g. incompletely retro-transposed elements

Do not align 1 2 Conflict ! 安全をみて Contig を これ以上伸ばさない Contig 生成エラーの検出: 矛盾の検出

(21)

e) Contigs

f) Scaffolds(Super contigs)

(22)

Mate-pair を使った scaffold の構築

2,000±α% (plasmid) 10,000±α% (plasmid) scaffold scaffold 35,000±α% (fosmid) または 150,000±α% (BAC)

(23)

どのぐらいの量の mate-pair 情報が必要か?

10 ~ 20

130 ~ 200 kb

BAC

10

40 kb

フォスミド

10~20

5 ~ 10 kb

プラスミド

ゲノムカバー率

mate-pair 間の平均長 (L)

クローンのタイプ

* ゲノムカバー率= L × (mate-pair の個数) / ゲノムサイズ

ゲノムの完成度を測る指標は?

Scaffold N50値: 50%以上の塩基がN50値以上の長さの

scaffold に含まれる。少なくとも1M塩基以上、5M以上が望ましい。

染色体被覆率:染色体の塩基のうち scaffold に含まれることが

判明している割合。90% 以上が望ましい。

参照

関連したドキュメント

1号機 2号機 3号機 4号機 5号機

会長企画シンポジウム 3-1 「JSCO 2022 “Frontier” 1」下部消化管癌 会長企画シンポジウム 3-2「JSCO 2022 “Frontier” 2」婦人科癌

1着馬の父 2着馬の父 3着馬の父 1着馬の母父 2着馬の母父

12月 1月 2月 3月 4月 5月 6月 2Q 3Q 4Q 1Q 2Q 3Q 4Q 新設ピッ.

1-2.タービン建屋 2-2.3号炉原子炉建屋内緊急時対策所 1-3.コントロール建屋 2-3.格納容器圧力逃がし装置

画像 ノッチ ノッチ間隔 推定値 1 1〜2 約15cm. 1〜2 約15cm 2〜3 約15cm

1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月.

処理 カラム(2塔) 吸着材1 吸着材4 吸着材2 吸着材4 吸着材3. 吸着材3