201503統合DB講習会＠農工大.key

(1)

!

AJACS52＠農工大

DDBJ/スパコン/ゲノム注釈

国立遺伝学研究所

大量遺伝情報研究室

中村保一

(2)

自己紹介

使い倒し系バイオインフォマティスト

!

植物とか微生物のゲノム解析＋DB屋

@yaskaz

a.k.a. catlover, ikasumipapa,

猫教授

The Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the flowering plant Arabidopsis

thaliana. Nature, 408, 796-815.!

!

シロイヌナズナの 1/4! (27 Mb, 6200 genes) の解析 http://genome.kazusa.or.jp/ cyanobase/

!

光合成細菌のゲノム解析＋データベース。Social Bookmark による遺伝子注釈系

(3)

1990年!

(4)

ゼニゴケミト

コンドリア!

(5)

(6)

古典的配列決定 (dideoxy法) の原理

• Polymerase Chain Reaction

• http://www.youtube.com/watch?

v=QaWLJVGEFi8

!

• Sanger Sequencing (dideoxy method)

• http://www.youtube.com/watch?

v=oYpllbI0qF8

• http://www.youtube.com/watch?

(7)

【tips】

統合TVも便利だけど

他にもYouTubeで

実験系原理探すと

(8)

digitizer

CCGCCCCTAGTGGCGATCGCCAGGGAACAAACCGCTGGCCGGGGGCAATGGGGTCGGACT TGGCAGTCTCCTCCGGGGGGATTGTACCTATCTCTGTGGTTAGCCACTGATTTACCAATC AGTTATGGTCCCCATCTAGTTCTATGGAGTGCCTGGGGCATTGCCCACGCGCTGATTCAG CACGGTATTCCAGTGCAAGTTAAATGGCCCAATGACCTGTTATTGAAGGGGAAAAAATTA GCTGGCATTAAAACCGAAAGCAAAATCAATGGGAACAGAATCACCGCCGCCATCATTGGG GTGGGCATTAACTGGACTAACCCAGTACCAGCCACTGGCATTGCCCTAGGGCCCTTTTGT GAAGCGGAATCAATCCAGAGTATCAACAGTCTGACGGATTTAGCTGAAATTACCCTGGCG GGGCTCACCCTTGGTTGGCATCGTTACCAAAGAGAAGGCATTGCAGGCATTTTGGTAGAT TATCTCCAATTATTTGCCCATCGGGGCCGGGAAATTAGCCTAACCCAGGGAGTTGGCATA

イニシエの basecalling

(9)

(10)

院生７人!

がかりで!

まる２年

(11)

1996 Synechocystis sp. PCC 6803!

2000 Arabidopsis thaliana!

2000 Mesorhizobium loti!

2001 Anabaena (Nostoc) sp. PCC 7120!

2002 Bradyrhizobium japonicum!

2002 Thermosynechococcus elongatus BP-1!

2003 Gloeobacter violaceus PCC 7421!

2007 Microcystis aeruginosa NIES-843!

2008 Lotus japonicus!

2012 Bradyrhizobium sp. S23321!

2012 Solanum lycopersicum!

2012 Eucalyptus globulus!

2012 Hevea brasiliensis (Para rubber tree)!

2014 Klebsormidium flaccidum (an algae) !

2014 !Weissella oryzae SG25T!

2014 !Lactobacillus oryzae SG293T!

2014 !Lactobacillus hokkaidonensis LOOC260T!

!

Marchantia polymorpha (a liverwort)!

!

Citrus sinensis!

!

Schizosaccharomyces japonicus!

Cyanobacteria!

Rhizobia!

Plants!

Others

(12)

a rubber tree, Hevea brasiliensis!

1.4 Gb genome!

52.7 k scaffolds / N50: 120 kb

a liverwort, Marchantia polymorpha!

220 Mb genome!

4.4 k scaffolds / N50: 1.3 Mb

a citrus tree, Citrus unshiu!

360 Mb genome!

21.1 k scaffolds / N50: 385 kb

Our on-going genome projects

(13)

(14)

(15)

• 全世界で解読された塩基配列情報を

• 査定して受入れ

• データベースに蓄積し

• 公開して共有する

塩基配列データバンクとはこのような事業

データベース

(16)

国際塩基配列データベース (INSDC) の一員

• 米国: GenBank (NCBI)

• 欧州: ENA (EBI)

(17)

DDBJ (from Release note 92)

Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata,

Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata,

Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai,

Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura

!

ENA (from Release note 115)

Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson, Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu,

Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister, Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester, Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane

!

GenBank (from Release note 195)

Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent

Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko, Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright, Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya

Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena

Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman

(18)

INSDCに多くの配列が登録された生物種

DDBJに登録されている生物種 Top 100の

ワードクラウド（数が多いほど大きい字で

表示）

Images created by the Wordle.net web application are licensed under a Creative Commons Attribution 3.0 United States License.

ヒト

トウモロコシ

_マウス

ラット

ブタ

(19)

(20)

(21)

(22)

生物学の!

情報爆発

(23)

(24)

(25)

「環境」シーケンス

• 特定の環境からサンプリングした生物相のDNA

を、培養することなく全解析することができる

• MetaGenomics

Metagenomics is the study of metagenomes,

genetic material recovered directly from

environmental samples. The broad ﬁeld

may also be referred to as environmental

genomics, ecogenomics or community

(26)

現在進行中の配列決定プロジェクト

https://gold.jgi-psf.org/

(27)

NGS!

_!

［次世代］Next-Generation Sequencer!

⇩!

(28)

新型シーケンサーの特徴：

高速・大量

イルミナ HiSeq 2500 / 2000

一解析で6000億塩基 (600ギガベース)

ヒト一人のDNAがおよそ30億塩基対なので

一解析でざっくり200人分ゲノムが取得できる

http://www.illuminakk.co.jp/systems/hiseq_systems.ilmn より引用

(29)

従来のシーケンサーと新型シーケンサー

従来法

新型

DNAの細分化 DNAの細分化試験管のなかで末尾にタグを付加大腸菌の中でDNAを増やす固体の基盤上に貼付け、DNAをスポットとして増幅試験管のなかで複製していく DNA分子の大きさで分別し蛍光の色で配列を読み取る基盤上でDNAを複製していき、各段階の塩基毎の蛍光を撮影する反応が途中で停止する

(30)

新型シーケンサはなぜ高速？→「集積度」

• 従来法は溶液やゲル中での反応と分離

• 固体担体を用いて超高密度化を可能にした

マイクロプレート

24 16 =

384 穴

イルミナ社 GA フローセル

数千万

スポット

(31)

(32)

DRA!

_!

(33)

新世代シークエンサから出力される配列や

アライメントデータを登録・公開

DDBJ Sequence Read Archive (DRA)

ERA!

2008

年開始

SRA!

2007

年開始

International Nucleotide Sequence Databank Collaboration

DRA!

(34)

SRA growth (NCBI)

http://trace.ncbi.nlm.nih.gov/Traces/sra

公開分!

(35)

登録関係情報

http://trace.ddbj.nig.ac.jp/dra/

データ取得

解析パイプライン

DRAウェブサイト [DRA] で検索

データ検索

(36)

公開データの DRA Search での検索

公開データは EBI SRA / NCBI SRA と共有されています

生物名 etc での絞り込み

検索結果リスト

ダウンロード

(37)

NGS s + SC s in Biology

“medium”

2TB memory

x 10

“fat”

10TB memory

(SGI UV)

(38)

遺伝研スーパー

コンピュータ

(39)

(40)

遺伝研スーパーコンピュータサイト top

http://sc.ddbj.nig.ac.jp/

(41)

(42)

遺伝研スーパーコンピュータ（概要）

5.5 PB

MAID

大容量省電力HDD

7 PB

Lustre

高速HDD

“medium”

2TB memory

x 10

台

“thin”

64GB memory

x 554

台

“fat”

10TB memory

(SGI UV) 1

台

CC-PD from OpenClipart

(43)

(44)

http://trace.ddbj.nig.ac.jp/dra/

解析パイプライン

解析パイプラインも提供してます

(45)

DRA pipeline: ソフトウェア

解析用ソフトウェアを

よく用いられる

用意。クリックだけで

(46)

DRA pipeline: 比較対象

_{解析比較対象となる}

イネ、マウスなど

(47)

DDBJ パイプライン、体験してみましょう

http://p.ddbj.nig.ac.jp

ゲストとして

処理に使うNGSの配列ファイルの用意

アップロード!

されている配列

(49)

処理に使うNGSの配列ファイルの用意

FTP

で手元から!

アップロード可能

(50)

処理に使うNGSの配列ファイルの用意

公開データを!

インポート可能

(51)

今回はupload済のエントリから

納豆菌の!

公開データが!

インポート済

(52)

velvet

で!

アセンブル!

しましょう

(53)

(54)

オプションのパラメータを選べます

特になければ!

そのまま次へ

(55)

終了したらメイルが来ます

連絡先いれたら!

実行可能

でも今は!

押さないで！

(56)

「RUN を押した」と思ってください

処理状況は!

こちらから

(57)

アセンブル結果の!

基本情報

(58)

Mappingの例 (DRAsearch+pipeline)

シロイヌナズナ!

alternative splicing

(59)

(60)

p.ddbj.nig.ac.jp を開き、さっきのIDを入力

でも今は!

押さないで！

(61)

(62)

(63)

(64)

(65)

(66)

(67)

終了したらメイルが来ます

連絡先いれたら!

実行可能

でも今は!

押さないで！

(68)

「RUN を押した」と思ってください

処理状況は!

こちらから

(69)

(70)

第31回日本植物細胞分子生物学会大会（札幌） 2013.9.11

パラゴムノキ

Hevea brasiliensis

ゲノム塩基配列解析

中村保一

1

_{、長崎英樹}

1

_{、谷澤靖洋}

1

_、

稲見圭悟

2

_{、森徹平}

2

_{、渡辺訓江}

2

1

_{国立遺伝学研究所、}

2

_{ブリヂストン・中央研究所}

(71)

(72)

背景：天然ゴムを産出する植物

天然ゴム（Natural Rubber：NR）

合成ゴム：石油を原料として合成するゴム

!

2000種以上の植物がゴムを産出するが、工業用途で栽培され

ているのはパラゴムノキのみ

インドゴムノキ (イチジク属クワ科）ベンジャミンゴム（イチジク属クワ科）グアユール（キク科）ロシアタンポポ（キク科）

(73)

背景：パラゴムノキの分類と歴史

パラゴムノキのブラジル産原種（インドネシアゴム研究所）パラゴムノキの花 科：トウダイグサ科（Euphorbiaceae）パラゴム属の熱帯木本植物! 学名： Hevea brasiliensis! 和名：パラゴムノキ − パラ：原産地ブラジル北部の地名（パラ州）に由来する! 英名： Para rubber tree!

!

栽培の歴史!

!

1870年代英国人がブラジルから英国へ持ち出し、その後植民地で栽培!

1900年代∼ 東南アジア、アフリカにおいて Michelin, Firestone, Goodyear のプランテー! ション始まる

(74)

・植林後 5 ∼ 25 年の間、2, 3 日に 1 度、早朝からタッピング

・1 回のタッピングで 100 - 300 ml のラテックス回収

・最盛期は 10 ∼ 18 年（ゴム採取量：平均 3.0 - 4.0 kg/tree/year）

・廃材は家具、建具あるいは燃料として再利用される

背景：パラゴムノキのタッピング

ラテックスの回収植林後 25 年収穫が終わった木の伐採ラテックス採取（タッピング）幹の周囲 1/4-1/2 を左から右に45度の角度で切付ゴムノキで作った長机・椅子

ゴム成分はパラゴムノキの樹液（=ラテックス）中に 30％∼ 40％含有

(75)

アセンブルの最適化（１）

イルミナ社の超並列型シーケンサ HiSeq2000 により取得された、パラゴ

ムノキPB260株ゲノム由来の27億本のペアエンドリードと10億本のメイト

ペアリードの、最適なアセンブル方法を求めた。最もよい結果を得たアセ

ンブラは、ヘテロ性の高いゲノムに対応できる手法を適用した Platanus（東

工大・伊藤研開発）であった。

AllPathsLG

SOAPdenovo

Platanus

アセンブル全長 (nt)

399,725,173 1,759,465,307

1,363,826,042

スキャフォールド (本)

46,850

108,574

75,028

N50 (nt)

20,988

50,277

83,244

※ 1000 nt 以上のスキャフォールドを集計対象

!

・AllpathsLG：リードに対してRepeatMaskerを実行してからアセンブル（リピート領域を除き、負荷を軽減するため）メモリ使用量が大きく全リードを入力することはできなかったので、投入リード数を制限した試行 (PairEnd : 700 Mreads, MatePair : 600 Mreads)

・SOAPdenovo：複数の Kmer 選択によるアセンブル最適化後の結果・Platanus：デフォルト条件で実行

(76)

ゲノム塩基配列再現性の検証

この概要配列のゲノムのカバー率を調べるため、22,646 本の cDNA 塩基

配列 Li et al. (BMC Genomics 2012, 13: 192) を BLAT により概要配列にマッ

ピングしたところ、パラゴムノキのゲノム上で遺伝子が豊富な領域の

88.8% をカバーしていると推測された。

(77)

アセンブルの最適化（２）

Scaﬀolding tool Opera* を使用し、Platanus で作成した PB260株のスキャ

フォールドを再処理し、スキャフォールドの高品質化を図った。

!

* Song Gao, Wing-Kin Sung, and Niranjan Nagarajan. (2011) Opera: Reconstructing Optimal Genomic Scaffolds with High-Throughput Paired-End Sequences. Journal of Computational Biology,

18(11): 1681-1691. doi:10.1089/cmb.2011.0170.

Platanus

Opera

全長 (nt)

1,363,826,042

1,496,410,288

スキャフォールド (本)

75,028

52,712

最長スキャフォールド (nt)

918,526

1,248,878

N50 (nt)

83,244

120,621

不明塩基 (N) の割合

15.70%

20.90%

※ 1000 nt 以上のスキャフォールドを集計対象

(78)

PB260株配列への他４品種のリードマッピング

同種異株である GT1, AVROS2037, RRIM921, RRIM600 のリード配列の

PB260株スキャフォールドへのマッピングを行い、その結果をもとにそれ

ぞれの株とPB260株間のSNPsの検出を行った。

リード数（ペア）マップ率カバー率深度ホモSNPs候補ヘテロSNPs候補 GT1 246,103,836 84% 94.7% 24.8 1,718,169 2,106,622 RRIM921 327,521,157 88.6% 96.7% 41.4 1,972,458 4,776,597 AVROS2307 304,265,359 85.6% 94.6% 40.6 1,970,606 2,616,656 RRIM600 236,546,937 86.8% 92.6% 32.7 1,777,313 2,208,894 ※ 1000 nt 以上のスキャフォールドを集計対象

!

・QV Filter により読取精度の低い塩基をリードから除いた。・RepeatMasker で scaﬀold 中の反復配列を検出し、その中に含まれる SNP を除外・マッピングソフトウェア BWA を用い、マッピングを行った。BWA はデフォルト条件で実行・BWA の結果から SAMtoolsを用いて、変異候補を検出し、VCFファイル中のFQ値が -40 以下となるSNPをホモ、-40 を越えるSNPをヘテロとしてカウント。FQ値は経験則に基づく

(79)

パラゴム三品種間の CDS 中の共通 SNPs 予測

345,230

267,032

336,223

324,855

GT1

AVROS2037

RRIM921

GT1 1,770,563 AVROS2037 2,039,278 RRIM921 2,047,584 GT1∩AVROS2037 670,085 AVROS2037∩RRIM921 661,078 RRIM921∩GT1 591,887