• 検索結果がありません。

201503統合DB講習会@農工大.key

N/A
N/A
Protected

Academic year: 2021

シェア "201503統合DB講習会@農工大.key"

Copied!
81
0
0

読み込み中.... (全文を見る)

全文

(1)

!

AJACS52@農工大

DDBJ/スパコン/ゲノム注釈

国立遺伝学研究所

大量遺伝情報研究室

中村保一

(2)

自己紹介

使い倒し系バイオインフォマティスト

!

!

植物とか微生物のゲノム解析+DB屋

@yaskaz

a.k.a. catlover, ikasumipapa,

猫教授

The Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the flowering plant Arabidopsis

thaliana. Nature, 408, 796-815.!

!

シロイヌナズナの 1/4! (27 Mb, 6200 genes) の解析 http://genome.kazusa.or.jp/ cyanobase/

!

光合成細菌のゲノム解析+データ ベース。Social Bookmark によ る遺伝子注釈系

(3)

1990年!

(4)

ゼニゴケミト

コンドリア!

(5)
(6)

古典的配列決定 (dideoxy法) の原理

Polymerase Chain Reaction

http://www.youtube.com/watch?

v=QaWLJVGEFi8

!

Sanger Sequencing (dideoxy method)

http://www.youtube.com/watch?

v=oYpllbI0qF8

http://www.youtube.com/watch?

(7)

【tips】

統合TVも便利だけど

他にもYouTubeで

実験系原理探すと

(8)

digitizer

CCGCCCCTAGTGGCGATCGCCAGGGAACAAACCGCTGGCCGGGGGCAATGGGGTCGGACT TGGCAGTCTCCTCCGGGGGGATTGTACCTATCTCTGTGGTTAGCCACTGATTTACCAATC AGTTATGGTCCCCATCTAGTTCTATGGAGTGCCTGGGGCATTGCCCACGCGCTGATTCAG CACGGTATTCCAGTGCAAGTTAAATGGCCCAATGACCTGTTATTGAAGGGGAAAAAATTA GCTGGCATTAAAACCGAAAGCAAAATCAATGGGAACAGAATCACCGCCGCCATCATTGGG GTGGGCATTAACTGGACTAACCCAGTACCAGCCACTGGCATTGCCCTAGGGCCCTTTTGT GAAGCGGAATCAATCCAGAGTATCAACAGTCTGACGGATTTAGCTGAAATTACCCTGGCG GGGCTCACCCTTGGTTGGCATCGTTACCAAAGAGAAGGCATTGCAGGCATTTTGGTAGAT TATCTCCAATTATTTGCCCATCGGGGCCGGGAAATTAGCCTAACCCAGGGAGTTGGCATA

イニシエの basecalling

(9)
(10)

院生7人!

がかりで!

まる2年

(11)

1996 Synechocystis sp. PCC 6803!

2000 Arabidopsis thaliana!

2000 Mesorhizobium loti!

2001 Anabaena (Nostoc) sp. PCC 7120!

2002 Bradyrhizobium japonicum!

2002 Thermosynechococcus elongatus BP-1!

2003 Gloeobacter violaceus PCC 7421!

2007 Microcystis aeruginosa NIES-843!

2008 Lotus japonicus!

2012 Bradyrhizobium sp. S23321!

2012 Solanum lycopersicum!

2012 Eucalyptus globulus!

2012 Hevea brasiliensis (Para rubber tree)!

2014 Klebsormidium flaccidum (an algae) !

2014 !Weissella oryzae SG25T!

2014 !Lactobacillus oryzae SG293T!

2014 !Lactobacillus hokkaidonensis LOOC260T!

!

Marchantia polymorpha (a liverwort)!

!

Citrus sinensis!

!

Schizosaccharomyces japonicus!

Cyanobacteria!

Rhizobia!

Plants!

Others

(12)

a rubber tree, Hevea brasiliensis!

1.4 Gb genome!

52.7 k scaffolds / N50: 120 kb

a liverwort, Marchantia polymorpha!

220 Mb genome!

4.4 k scaffolds / N50: 1.3 Mb

a citrus tree, Citrus unshiu!

360 Mb genome!

21.1 k scaffolds / N50: 385 kb

Our on-going genome projects

(13)
(14)
(15)

全世界で解読された塩基配列情報を

査定して受入れ

データベースに蓄積し

公開して共有する

塩基配列データバンクとはこのような事業

データベース

(16)

国際塩基配列データベース (INSDC) の一員

米国: GenBank (NCBI)

欧州: ENA (EBI)

(17)

DDBJ (from Release note 92)

Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata,

Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata,

Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai,

Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura

!

ENA (from Release note 115)

Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson, Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu,

Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister, Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester, Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane

!

GenBank (from Release note 195)

Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent

Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko, Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright, Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya

Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena

Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman

(18)

INSDCに多くの配列が登録された生物種

DDBJに登録されている生物種 Top 100の

ワードクラウド(数が多いほど大きい字で

表示)

Images created by the Wordle.net web application are licensed under a Creative Commons Attribution 3.0 United States License.

ヒト

トウモロコシ

マウス

ラット

ブタ

(19)
(20)
(21)
(22)

生物学の!

情報爆発

(23)
(24)
(25)

「環境」シーケンス

特定の環境からサンプリングした生物相のDNA

を、培養することなく全解析することができる

MetaGenomics

Metagenomics is the study of metagenomes,

genetic material recovered directly from

environmental samples. The broad field

may also be referred to as environmental

genomics, ecogenomics or community

(26)

現在進行中の配列決定プロジェクト

https://gold.jgi-psf.org/

(27)

NGS!

!

[次世代]Next-Generation Sequencer!

⇩!

(28)

新型シーケンサーの特徴:

高速・大量

イルミナ HiSeq 2500 / 2000

一解析で6000億塩基 (600ギガベース)

ヒト一人のDNAがおよそ30億塩基対なので

一解析でざっくり200人分ゲノムが取得できる

http://www.illuminakk.co.jp/systems/hiseq_systems.ilmn より引用

(29)

従来のシーケンサーと新型シーケンサー

従来法

新型

DNAの細分化 DNAの細分化 試験管のなかで末尾にタグを付加 大腸菌の中でDNAを増やす 固体の基盤上に貼付け、DNAをス ポットとして増幅 試験管のなかで複製していく DNA分子の大きさで分別し蛍光の 色で配列を読み取る 基盤上でDNAを複製していき、各 段階の塩基毎の蛍光を撮影する 反応が途中 で停止する

(30)

新型シーケンサはなぜ高速?→「集積度」

従来法は溶液やゲル中での反応と分離

固体担体を用いて超高密度化を可能にした

マイクロプレート

24 16 =

384

イルミナ社 GA フローセル

数千万

スポット

(31)
(32)

DRA!

!

(33)

新世代シークエンサから出力される配列や

アライメントデータを登録・公開

DDBJ Sequence Read Archive (DRA)

ERA!

2008

年開始

SRA!

2007

年開始

International Nucleotide Sequence Databank Collaboration

DRA!

(34)

SRA growth (NCBI)

http://trace.ncbi.nlm.nih.gov/Traces/sra

公開分!

(35)

登録関係情報

http://trace.ddbj.nig.ac.jp/dra/

データ取得

解析パイプライン

DRAウェブサイト [DRA] で検索

データ検索

(36)

公開データの DRA Search での検索

公開データは EBI SRA / NCBI SRA と共有されています

生物名 etc での絞り込み

検索結果リスト

ダウンロード

(37)

NGS s + SC s in Biology

“medium”

2TB memory

x 10

“fat”

10TB memory

(SGI UV)

(38)

遺伝研スーパー

コンピュータ

(39)
(40)

遺伝研スーパーコンピュータサイト top

http://sc.ddbj.nig.ac.jp/

(41)
(42)

遺伝研スーパーコンピュータ(概要)

5.5 PB

MAID

大容量省電力HDD

7 PB

Lustre

高速HDD

“medium”

2TB memory

x 10

“thin”

64GB memory

x 554

“fat”

10TB memory

(SGI UV) 1

CC-PD from OpenClipart

(43)
(44)

http://trace.ddbj.nig.ac.jp/dra/

解析パイプライン

解析パイプラインも提供してます

(45)

DRA pipeline: ソフトウェア

解析用ソフトウェアを

よく用いられる

用意。クリックだけで

(46)

DRA pipeline: 比較対象

解析比較対象となる

イネ、マウスなど

(47)

DDBJ パイプライン、体験してみましょう

http://p.ddbj.nig.ac.jp

ゲストとして

ログイン

(48)

処理に使うNGSの配列ファイルの用意

アップロード!

されている配列

(49)

処理に使うNGSの配列ファイルの用意

FTP

で手元から!

アップロード可能

(50)

処理に使うNGSの配列ファイルの用意

公開データを!

インポート可能

(51)

今回はupload済のエントリから

納豆菌の!

公開データが!

インポート済

(52)

velvet

で!

アセンブル!

しましょう

(53)
(54)

オプションのパラメータを選べます

特になければ!

そのまま次へ

(55)

終了したらメイルが来ます

連絡先いれたら!

実行可能

でも今は!

押さないで!

(56)

「RUN を押した」と思ってください

処理状況は!

こちらから

(57)

アセンブル結果の!

基本情報

(58)

Mappingの例 (DRAsearch+pipeline)

シロイヌナズナ!

alternative splicing

(59)
(60)

p.ddbj.nig.ac.jp を開き、さっきのIDを入力

でも今は!

押さないで!

(61)
(62)
(63)
(64)
(65)
(66)
(67)

終了したらメイルが来ます

連絡先いれたら!

実行可能

でも今は!

押さないで!

(68)

「RUN を押した」と思ってください

処理状況は!

こちらから

(69)
(70)

第31回日本植物細胞分子生物学会大会(札幌) 2013.9.11

パラゴムノキ

 Hevea brasiliensis 

ゲノム塩基配列解析

中村 保一

1

、長崎 英樹

1

、谷澤 靖洋

1

稲見 圭悟

2

、森 徹平

2

、渡辺 訓江

2

1

国立遺伝学研究所、

2

ブリヂストン・中央研究所

(71)
(72)

背景:天然ゴムを産出する植物

天然ゴム (Natural Rubber:NR)

合成ゴム:石油を原料として合成するゴム

!

!

!

!

!

!

!

!

2000種以上の植物がゴムを産出するが、工業用途で栽培され

ているのはパラゴムノキのみ

インドゴムノキ (イチジク属クワ科) ベンジャミンゴム (イチジク属クワ科) グアユール (キク科) ロシアタンポポ (キク科)

(73)

背景:パラゴムノキの分類と歴史

パラゴムノキのブラジル産原種 (インドネシアゴム研究所) パラゴムノキの花  科:  トウダイグサ科(Euphorbiaceae)パラゴム属の熱帯木本植物! 学名: Hevea brasiliensis! 和名: パラゴムノキ − パラ:原産地ブラジル北部の地名(パラ州)に由来する! 英名: Para rubber tree!

!

栽培の歴史!

!

1870年代  英国人がブラジルから英国へ持ち出し、その後植民地で栽培!

1900年代∼ 東南アジア、アフリカにおいて Michelin, Firestone, Goodyear のプランテー! ション始まる

(74)

・植林後 5 ∼ 25 年の間、2, 3 日に 1 度、早朝からタッピング

・1 回のタッピングで 100 - 300 ml のラテックス回収

・最盛期は 10 ∼ 18 年(ゴム採取量:平均 3.0 - 4.0 kg/tree/year)

・廃材は家具、建具あるいは燃料として再利用される

背景:パラゴムノキのタッピング

ラテックスの回収 植林後 25 年 収穫が終わった木の 伐採 ラテックス採取 (タッピング) 幹の周囲 1/4-1/2 を左から 右に45度 の角度で 切付 ゴムノキで作っ た長机・椅子

ゴム成分はパラゴムノキの樹液(=ラテックス)中に 30%∼ 40% 含有

(75)

アセンブルの最適化(1)

イルミナ社の超並列型シーケンサ HiSeq2000 により取得された、パラゴ

ムノキPB260株ゲノム由来の27億本のペアエンドリードと10億本のメイト

ペアリードの、最適なアセンブル方法を求めた。最もよい結果を得たアセ

ンブラは、ヘテロ性の高いゲノムに対応できる手法を適用した Platanus(東

工大・伊藤研開発)であった。

AllPathsLG

SOAPdenovo

Platanus

アセンブル全長 (nt)

399,725,173 1,759,465,307

1,363,826,042

スキャフォールド (本)

46,850

108,574

75,028

N50 (nt)

20,988

50,277

83,244

※ 1000 nt 以上のスキャフォールドを集計対象

!

・AllpathsLG:リードに対してRepeatMaskerを実行してからアセンブル(リピート領域を除き、 負荷を軽減するため)メモリ使用量が大きく全リードを入力することはできなかったので、 投入リード数を制限した試行 (PairEnd : 700 Mreads, MatePair : 600 Mreads)

・SOAPdenovo:複数の Kmer 選択によるアセンブル最適化後の結果 ・Platanus:デフォルト条件で実行

(76)

ゲノム塩基配列再現性の検証

この概要配列のゲノムのカバー率を調べるため、22,646 本の cDNA 塩基

配列 Li et al. (BMC Genomics 2012, 13: 192) を BLAT により概要配列にマッ

ピングしたところ、パラゴムノキのゲノム上で遺伝子が豊富な領域の

88.8% をカバーしていると推測された。

(77)

アセンブルの最適化(2)

Scaffolding tool Opera* を使用し、Platanus で作成した PB260株のスキャ

フォールドを再処理し、スキャフォールドの高品質化を図った。

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

* Song Gao, Wing-Kin Sung, and Niranjan Nagarajan. (2011) Opera: Reconstructing Optimal Genomic Scaffolds with High-Throughput Paired-End Sequences. Journal of Computational Biology,

18(11): 1681-1691. doi:10.1089/cmb.2011.0170.

Platanus

Opera

全長 (nt)

1,363,826,042

1,496,410,288

スキャフォールド (本)

75,028

52,712

最長スキャフォールド (nt)

918,526

1,248,878

N50 (nt)

83,244

120,621

不明塩基 (N) の割合

15.70%

20.90%

※ 1000 nt 以上のスキャフォールドを集計対象

(78)

PB260株配列への他4品種のリードマッピング

同種異株である GT1, AVROS2037, RRIM921, RRIM600 のリード配列の

PB260株スキャフォールドへのマッピングを行い、その結果をもとにそれ

ぞれの株とPB260株間のSNPsの検出を行った。

リード数 (ペア) マップ率 カバー 率 深度 ホモSNPs候補 ヘテロSNPs候補 GT1 246,103,836 84% 94.7% 24.8 1,718,169 2,106,622 RRIM921 327,521,157 88.6% 96.7% 41.4 1,972,458 4,776,597 AVROS2307 304,265,359 85.6% 94.6% 40.6 1,970,606 2,616,656 RRIM600 236,546,937 86.8% 92.6% 32.7 1,777,313 2,208,894 ※ 1000 nt 以上のスキャフォールドを集計対象

!

・QV Filter により読取精度の低い塩基をリードから除いた。 ・RepeatMasker で scaffold 中の反復配列を検出し、その中に含まれる SNP を除外 ・マッピングソフトウェア BWA を用い、マッピングを行った。BWA はデフォルト条件で実行 ・BWA の結果から SAMtoolsを用いて、変異候補を検出し、VCFファイル中のFQ値が -40 以下 となるSNPをホモ、-40 を越えるSNPをヘテロとしてカウント。FQ値は経験則に基づく

(79)

パラゴム三品種間の CDS 中の共通 SNPs 予測

345,230

267,032

336,223

324,855

GT1

AVROS2037

RRIM921

GT1 1,770,563 AVROS2037 2,039,278 RRIM921 2,047,584 GT1∩AVROS2037 670,085 AVROS2037∩RRIM921 661,078 RRIM921∩GT1 591,887

パラゴムノキ遺伝子cDNAとPB260株ス

キャフォールドとの相同性検索を行い、

その結果をもとに遺伝子領域中に含まれ

ると予想される SNPs を検出し株間比較

を実施した。

(80)

パラゴムノキゲノムの決定により

推定 14 億塩基対からなるパラゴムノキのゲノ

ム構造の解明とデータベース化により、遺伝基

盤情報をもとにしたDNAマーカーの作成など

の分子育種研究を推進

生産性が高く、高品質のラテックスを産出する

パラゴムノキを選抜する技術の開発

耐病性・環境ストレス耐性に優れた品種の開発

などの応用研究の展開に資する予定である

(81)

「バイオインフォマティクス人材養成カリキュラ

ム NGS 速習コース」で検索

企画・スケジュール

http://events.biosciencedbc.jp/training/

ajacs47

動画・資料

http://biosciencedbc.jp/human/human-resources/workshop#NGS_sokusyu_2014

少々長いのですが(二週間のコース)突っ込んで

勉強するには、こちらも役立つと思います

BI人材養成カリキュラムNGS速習コース

参照

関連したドキュメント

In Section 4 we apply this general setting to a Clark-Ocone formula stated with a deriva- tion operator on the Poisson space, and consider several examples, including

Adaptive image approximation by linear splines over locally optimal Delaunay triangulations.. IEEE Signal Processing Letters

私が点訳講習会(市主催)を受け点友会に入会したのが昭和 57

estimator f defined in (2.2) for any initial measure of X 0 which admits a strictly positive density. Moreover, we can also apply the central limit theorem to f and I n to study

・厚⽣労働⼤⾂が定める分析調査者講習を受講し、修了考査に合格した者

6 Baker, CC and McCafferty, DB (2005) “Accident database review of human element concerns: What do the results mean for classification?” Proc. Michael Barnett, et al.,

日本の伝統文化 (総合学習、 道徳、 図工) … 10件 環境 (総合学習、 家庭科) ……… 8件 昔の道具 (3年生社会科) ……… 5件.

24日 札幌市立大学講義 上田会長 26日 打合せ会議 上田会長ほか 28日 総会・学会会場打合せ 事務局 5月9日