!
AJACS52@農工大
DDBJ/スパコン/ゲノム注釈
国立遺伝学研究所
大量遺伝情報研究室
中村保一
自己紹介
使い倒し系バイオインフォマティスト
!
!
植物とか微生物のゲノム解析+DB屋
@yaskaz
a.k.a. catlover, ikasumipapa,
猫教授
The Arabidopsis Genome Initiative (2000) Analysis of the genome sequence of the flowering plant Arabidopsis
thaliana. Nature, 408, 796-815.!
!
シロイヌナズナの 1/4! (27 Mb, 6200 genes) の解析 http://genome.kazusa.or.jp/ cyanobase/!
光合成細菌のゲノム解析+データ ベース。Social Bookmark によ る遺伝子注釈系1990年!
ゼニゴケミト
コンドリア!
古典的配列決定 (dideoxy法) の原理
•
Polymerase Chain Reaction
•
http://www.youtube.com/watch?
v=QaWLJVGEFi8
!
•
Sanger Sequencing (dideoxy method)
•
http://www.youtube.com/watch?
v=oYpllbI0qF8
•
http://www.youtube.com/watch?
【tips】
統合TVも便利だけど
他にもYouTubeで
実験系原理探すと
digitizer
CCGCCCCTAGTGGCGATCGCCAGGGAACAAACCGCTGGCCGGGGGCAATGGGGTCGGACT TGGCAGTCTCCTCCGGGGGGATTGTACCTATCTCTGTGGTTAGCCACTGATTTACCAATC AGTTATGGTCCCCATCTAGTTCTATGGAGTGCCTGGGGCATTGCCCACGCGCTGATTCAG CACGGTATTCCAGTGCAAGTTAAATGGCCCAATGACCTGTTATTGAAGGGGAAAAAATTA GCTGGCATTAAAACCGAAAGCAAAATCAATGGGAACAGAATCACCGCCGCCATCATTGGG GTGGGCATTAACTGGACTAACCCAGTACCAGCCACTGGCATTGCCCTAGGGCCCTTTTGT GAAGCGGAATCAATCCAGAGTATCAACAGTCTGACGGATTTAGCTGAAATTACCCTGGCG GGGCTCACCCTTGGTTGGCATCGTTACCAAAGAGAAGGCATTGCAGGCATTTTGGTAGAT TATCTCCAATTATTTGCCCATCGGGGCCGGGAAATTAGCCTAACCCAGGGAGTTGGCATAイニシエの basecalling
院生7人!
がかりで!
まる2年
1996 Synechocystis sp. PCC 6803!
2000 Arabidopsis thaliana!
2000 Mesorhizobium loti!
2001 Anabaena (Nostoc) sp. PCC 7120!
2002 Bradyrhizobium japonicum!
2002 Thermosynechococcus elongatus BP-1!
2003 Gloeobacter violaceus PCC 7421!
2007 Microcystis aeruginosa NIES-843!
2008 Lotus japonicus!
2012 Bradyrhizobium sp. S23321!
2012 Solanum lycopersicum!
2012 Eucalyptus globulus!
2012 Hevea brasiliensis (Para rubber tree)!
2014 Klebsormidium flaccidum (an algae) !
2014 !Weissella oryzae SG25T!
2014 !Lactobacillus oryzae SG293T!
2014 !Lactobacillus hokkaidonensis LOOC260T!
!
Marchantia polymorpha (a liverwort)!
!
Citrus sinensis!
!
Schizosaccharomyces japonicus!
Cyanobacteria!
Rhizobia!
Plants!
Others
a rubber tree, Hevea brasiliensis!
1.4 Gb genome!
52.7 k scaffolds / N50: 120 kb
a liverwort, Marchantia polymorpha!
220 Mb genome!
4.4 k scaffolds / N50: 1.3 Mb
a citrus tree, Citrus unshiu!
360 Mb genome!
21.1 k scaffolds / N50: 385 kb
Our on-going genome projects
•
全世界で解読された塩基配列情報を
•
査定して受入れ
•
データベースに蓄積し
•
公開して共有する
塩基配列データバンクとはこのような事業
データベース
国際塩基配列データベース (INSDC) の一員
•
米国: GenBank (NCBI)
•
欧州: ENA (EBI)
DDBJ (from Release note 92)
Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Fumie Hirata, Naofumi Ishikawa, Toshikazu Katsumata,
Chiharu Kawagoe, Shingo Kawahara, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Kimiko Mimura, Takeshi Moriyama, Yoshihisa Munakata, Naoko Murakata,
Keiichi Nagai, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Yukie Shinyama, Rie Sugita, Kimiko Suzuki, Daisuke Takagi, Daisuke Takai,
Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Shigeru Yatsuzuka, Emi Yokoyama, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura
!
ENA (from Release note 115)
Blaise Alako, Clara Amid, Lawrence Bower, Ana Cerdeno-Taraga, Iain Cleland, Richard Gibson, Neil Goodgame, Petra ten Hoopen, Mikyung Jang, Simon Kay, Rasko Leinonen, Xin Liu,
Arnaud Oisel, Rodrigo Lopez, Hamish McWilliam, Nima Pakseresht, Sheila Plaister, Rajesh Radhakrishnan, Kethy Reddy, Stephane Riviere, Marc Rossello, Nicole Silvester, Dmitriy Smirnov, Ana Luisa Toribio, Daniel Vaughan, Vadim Zalunin and Guy Cochrane
!
GenBank (from Release note 195)
Mark Cavanaugh, Ilene Mizrachi, Yiming Bao, Michael Baxter, Lori Black, Larissa Brown, Vincent
Calhoun, Larry Chlumsky, Karen Clark, Jianli Dai, Michel Eschenbrenner, Irene Fang, Michael Fetchko, Linda Frisse, Andrea Gocke, Anjanette Johnston, Mark Landree, Jason Lowry, Suzanne Mate, Richard McVeigh, DeAnne Olsen Cravaritis, Leigh Riley, Susan Schafer, Beverly Underwood, Melissa Wright, Linda Yankie, Serge Bazhin, Evgueni Belyi, Colleen Bollin, Mark Cavanaugh, Yoon Choi, Ilya
Dondoshansky, J. Bradley Holmes, WonHee Jang, Jonathan Kans, Leonid Khotomliansky, Michael Kimelman, Michael Kornbluh, Jim Ostell, Denis Sinyakov, Karl Sirotkin, Vladimir Soussov, Elena
Starchenko, Hanzhen Sun, Tatiana Tatusova, Lukas Wagner, Eugene Yaschenko, Sergey Zhdanov, Slava Khotomliansky, Igor Lozitskiy, Craig Oakley, Eugene Semenov, Ben Slade, Constantin Vasilyev, Peter Cooper, Hanguan Liu, Wayne Matten, Scott McGinnis, Rana Morris, Steve Pechous, Monica Romiti, Eric Sayers, Tao Tao, Majda Valjavec-Gratian and David Lipman
INSDCに多くの配列が登録された生物種
DDBJに登録されている生物種 Top 100の
ワードクラウド(数が多いほど大きい字で
表示)
Images created by the Wordle.net web application are licensed under a Creative Commons Attribution 3.0 United States License.
ヒト
トウモロコシ
マウス
ラット
ブタ
生物学の!
情報爆発
「環境」シーケンス
•
特定の環境からサンプリングした生物相のDNA
を、培養することなく全解析することができる
•
MetaGenomics
Metagenomics is the study of metagenomes,
genetic material recovered directly from
environmental samples. The broad field
may also be referred to as environmental
genomics, ecogenomics or community
現在進行中の配列決定プロジェクト
https://gold.jgi-psf.org/
NGS!
!
[次世代]Next-Generation Sequencer!
⇩!
新型シーケンサーの特徴:
高速・大量
イルミナ HiSeq 2500 / 2000
一解析で6000億塩基 (600ギガベース)
ヒト一人のDNAがおよそ30億塩基対なので
一解析でざっくり200人分ゲノムが取得できる
http://www.illuminakk.co.jp/systems/hiseq_systems.ilmn より引用従来のシーケンサーと新型シーケンサー
従来法
新型
DNAの細分化 DNAの細分化 試験管のなかで末尾にタグを付加 大腸菌の中でDNAを増やす 固体の基盤上に貼付け、DNAをス ポットとして増幅 試験管のなかで複製していく DNA分子の大きさで分別し蛍光の 色で配列を読み取る 基盤上でDNAを複製していき、各 段階の塩基毎の蛍光を撮影する 反応が途中 で停止する新型シーケンサはなぜ高速?→「集積度」
•
従来法は溶液やゲル中での反応と分離
•
固体担体を用いて超高密度化を可能にした
マイクロプレート
24 16 =
384
穴
イルミナ社 GA フローセル
数千万
スポット
DRA!
!
新世代シークエンサから出力される配列や
アライメントデータを登録・公開
DDBJ Sequence Read Archive (DRA)
ERA!
2008
年開始
SRA!
2007
年開始
International Nucleotide Sequence Databank Collaboration
DRA!
SRA growth (NCBI)
http://trace.ncbi.nlm.nih.gov/Traces/sra
公開分!
登録関係情報
http://trace.ddbj.nig.ac.jp/dra/
データ取得
解析パイプライン
DRAウェブサイト [DRA] で検索
データ検索
公開データの DRA Search での検索
公開データは EBI SRA / NCBI SRA と共有されています
生物名 etc での絞り込み
検索結果リスト
ダウンロード
NGS s + SC s in Biology
“medium”
2TB memory
x 10
“fat”
10TB memory
(SGI UV)
遺伝研スーパー
コンピュータ
遺伝研スーパーコンピュータサイト top
http://sc.ddbj.nig.ac.jp/
遺伝研スーパーコンピュータ(概要)
5.5 PB
MAID
大容量省電力HDD
7 PB
Lustre
高速HDD
“medium”
2TB memory
x 10
台
“thin”
64GB memory
x 554
台
“fat”
10TB memory
(SGI UV) 1
台
CC-PD from OpenCliparthttp://trace.ddbj.nig.ac.jp/dra/
解析パイプライン
解析パイプラインも提供してます
DRA pipeline: ソフトウェア
解析用ソフトウェアを
よく用いられる
用意。クリックだけで
DRA pipeline: 比較対象
解析比較対象となる
イネ、マウスなど
DDBJ パイプライン、体験してみましょう
http://p.ddbj.nig.ac.jp
ゲストとして
ログイン
処理に使うNGSの配列ファイルの用意
アップロード!
されている配列
処理に使うNGSの配列ファイルの用意
FTP
で手元から!
アップロード可能
処理に使うNGSの配列ファイルの用意
公開データを!
インポート可能
今回はupload済のエントリから
納豆菌の!
公開データが!
インポート済
velvet
で!
アセンブル!
しましょう
オプションのパラメータを選べます
特になければ!
そのまま次へ
終了したらメイルが来ます
連絡先いれたら!
実行可能
でも今は!
押さないで!
「RUN を押した」と思ってください
処理状況は!
こちらから
アセンブル結果の!
基本情報
Mappingの例 (DRAsearch+pipeline)
シロイヌナズナ!
alternative splicing
p.ddbj.nig.ac.jp を開き、さっきのIDを入力
でも今は!
押さないで!
終了したらメイルが来ます
連絡先いれたら!
実行可能
でも今は!
押さないで!
「RUN を押した」と思ってください
処理状況は!
こちらから
第31回日本植物細胞分子生物学会大会(札幌) 2013.9.11
パラゴムノキ
Hevea brasiliensis
ゲノム塩基配列解析
中村 保一
1、長崎 英樹
1、谷澤 靖洋
1、
稲見 圭悟
2、森 徹平
2、渡辺 訓江
21
国立遺伝学研究所、
2ブリヂストン・中央研究所
背景:天然ゴムを産出する植物
天然ゴム (Natural Rubber:NR)
合成ゴム:石油を原料として合成するゴム
!
!
!
!
!
!
!
!
2000種以上の植物がゴムを産出するが、工業用途で栽培され
ているのはパラゴムノキのみ
インドゴムノキ (イチジク属クワ科) ベンジャミンゴム (イチジク属クワ科) グアユール (キク科) ロシアタンポポ (キク科)背景:パラゴムノキの分類と歴史
パラゴムノキのブラジル産原種 (インドネシアゴム研究所) パラゴムノキの花 科: トウダイグサ科(Euphorbiaceae)パラゴム属の熱帯木本植物! 学名: Hevea brasiliensis! 和名: パラゴムノキ − パラ:原産地ブラジル北部の地名(パラ州)に由来する! 英名: Para rubber tree!!
栽培の歴史!
!
1870年代 英国人がブラジルから英国へ持ち出し、その後植民地で栽培!
1900年代∼ 東南アジア、アフリカにおいて Michelin, Firestone, Goodyear のプランテー! ション始まる
・植林後 5 ∼ 25 年の間、2, 3 日に 1 度、早朝からタッピング
・1 回のタッピングで 100 - 300 ml のラテックス回収
・最盛期は 10 ∼ 18 年(ゴム採取量:平均 3.0 - 4.0 kg/tree/year)
・廃材は家具、建具あるいは燃料として再利用される
背景:パラゴムノキのタッピング
ラテックスの回収 植林後 25 年 収穫が終わった木の 伐採 ラテックス採取 (タッピング) 幹の周囲 1/4-1/2 を左から 右に45度 の角度で 切付 ゴムノキで作っ た長机・椅子ゴム成分はパラゴムノキの樹液(=ラテックス)中に 30%∼ 40% 含有
アセンブルの最適化(1)
イルミナ社の超並列型シーケンサ HiSeq2000 により取得された、パラゴ
ムノキPB260株ゲノム由来の27億本のペアエンドリードと10億本のメイト
ペアリードの、最適なアセンブル方法を求めた。最もよい結果を得たアセ
ンブラは、ヘテロ性の高いゲノムに対応できる手法を適用した Platanus(東
工大・伊藤研開発)であった。
AllPathsLG
SOAPdenovo
Platanus
アセンブル全長 (nt)
399,725,173 1,759,465,307
1,363,826,042
スキャフォールド (本)
46,850
108,574
75,028
N50 (nt)
20,988
50,277
83,244
※ 1000 nt 以上のスキャフォールドを集計対象!
・AllpathsLG:リードに対してRepeatMaskerを実行してからアセンブル(リピート領域を除き、 負荷を軽減するため)メモリ使用量が大きく全リードを入力することはできなかったので、 投入リード数を制限した試行 (PairEnd : 700 Mreads, MatePair : 600 Mreads)・SOAPdenovo:複数の Kmer 選択によるアセンブル最適化後の結果 ・Platanus:デフォルト条件で実行
ゲノム塩基配列再現性の検証
この概要配列のゲノムのカバー率を調べるため、22,646 本の cDNA 塩基
配列 Li et al. (BMC Genomics 2012, 13: 192) を BLAT により概要配列にマッ
ピングしたところ、パラゴムノキのゲノム上で遺伝子が豊富な領域の
88.8% をカバーしていると推測された。
アセンブルの最適化(2)
Scaffolding tool Opera* を使用し、Platanus で作成した PB260株のスキャ
フォールドを再処理し、スキャフォールドの高品質化を図った。
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
* Song Gao, Wing-Kin Sung, and Niranjan Nagarajan. (2011) Opera: Reconstructing Optimal Genomic Scaffolds with High-Throughput Paired-End Sequences. Journal of Computational Biology,
18(11): 1681-1691. doi:10.1089/cmb.2011.0170.