ゲノム配列の登録～大量登録システム(MSS) ～

(1)

大量登録システム(MSS) の紹介：

大規模アセンブル配列の登録

国立遺伝学研究所 DDBJセンター

日本DNAデータバンクアノテータ

大城戸利久

DDBJ へのデータ登録 --- 3 DDBJ 大量登録システムとは--- 4 MSSにおける登録作業の流れ --- 5 MSSを利用の前に --- 6-7 MSS申し込みフォーム--- 8 登録のために必要なファイル--- 9 アノテーションファイル --- 10 サンプルアノテーションファイル --- 11 塩基配列ファイル --- 12 登録ファイルのチェックツール (UME) --- 13 ゲノムデータの登録受付パターン --- 14 NGS由来ゲノム配列の登録 – complete, WGS, CON- ---15 アノテーションファイルの具体例 --- 16 微生物のcompleteゲノム配列の登録例 --- 16 WGSエントリのアノテーション --- 17 CONエントリの登録必要なファイル --- 18 AGPファイルの入力例 --- 19 ゲノム登録に必要なファイル一覧 --- 20 BioProject Database --- 21 Locus_tagの使用例 --- 22 BioProject の申請 (1) --- 23 BioProject の申請 (2) --- 24 複数のデータベースに跨る塩基配列の登録の流れ--- 25 A) NGS由来ゲノム配列の登録手続きの流れ--- 26 B) NGS由来TSAの登録手続きの流れ--- 27 ゲノムエントリの公開データ例--- 28 登録の申し込みと問い合わせ --- 29 参考資料 --- 30

I. TSA (Transcriptome Shotgun Assembly)データの登録 --- 31

NGS由来TSAの概略 --- -- 32

TSAの登録に必要なファイル --- --- 33

TSAエントリの登録例 --- 34

(2)

登録データの種類とデータベース(DB)の選択 DDBJは，現在3種類の塩基配列 archive データベースを運営しています．各々のDBは米国，欧州と協調体制の下，国際的な共同体 (INSDC) を構成しています．各々のDB に登録・公開された塩基配列データは，共同体メンバーの各データバンクへ送付され，3極間でデータを共有しています．配列の性状や産生方法によって，データの登録先が異なりますので，事前に内容をご確認の上，該当するDBにデータを登録してください． DDBJ (DDBJ/EMBL-Bank/GenBank): 塩基配列登録システム (小規模) ; 大量登録システム :(大規模)

 DDBJ Sequence Read Archive (DRA/ERA/SRA): NGS由来のraw reads data

 DDBJ Trace Archive (DTA): Sanger法由来のraw reads data

DDBJ BioProject Database (プロジェクト情報；大規模塩基配列登録向け) 事前に登録予定の配列が以下のどれに該当するのか確認し，登録先を選択して下さい

Nucleotide sequences

A. 塩基配列の登録塩基配列登録システム(Web)：小規模登録向き MSS (大量登録)：多数エントリ，ゲノム，転写物

Raw reads data

Accession 番号発行 Sanger法由来次世代シーケンサー (NGS)由来 Accession 番号発行 • 大規模塩基配列の登録者向け全長ゲノム規模（WGS，complete），大規模転写物配列の登録 • 登録者，文献，grant，配列の由来リソース情報大規模塩基配列の登録では，各DBのエントリを相互に参照 Accession 番号発行 B. プロジェクトの登録

DDBJ MSS (大量登録システム)とは

1. 特徴

• 定型化したテキストファイルの利用による登録

• データ転送が簡便（Eメールや一般的な転送プロトコール利用）

• 大規模データの登録向き

2. 受付対象のデータ

I. エントリ数(登録する配列の数)が多い

• 例: 大規模転写物（EST, HTC, TSA） , ゲノム断片（GSS, HTG)，特定の

遺伝子や領域（16S rRNA, ITS-rRNA，ミトコンドリア由来COXI など），

• １エントリあたり，多数(概ね30以上)のBiological Featureを有

する

• 例: オルガネラゲノム，プラスミド全長など

II. 配列が長大 (概ね 500 kbp 以上)

• 例: 全ゲノム規模データ，長大な領域(遺伝子クラスター)など

III. 塩基配列登録システムが対応していない登録

• 例： WGS，CONなど

(3)

MSS における登録作業の流れ

http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html

登録者

_DDBJ

登録完了７．データの公開・公開待ち１．登録依頼申し込みフォーム３．査定作業：仮登録アノテーションの基本的方針を提案登録者に修正内容を連絡５．査定作業：本登録登録者に修正内容を連絡２．仮登録登録ファイルの作成 *データの一部 (数エントリ分程度) 配列ファイルアノテーションファイル返信：手順書，ツールの紹介４．本登録登録ファイルの作成 * 全データ分配列ファイルアノテーションファイル６．アクセッション番号発行コンタクトパーソンに通知

MSS を利用の前に (1)

DDBJのトップページ (

http://www.ddbj.nig.ac.jp/

)からの移動

②；「データ登録」のページデータを受け付けるデータベースの一覧が表示されます ①；「DDBJのトップページ」

「登録」をクリック

Mass Submission System

(MSS) をクリック

(4)

MSSの利用の前に (2)

http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html

③；「 Mass Submission System (MSS) とは」

MSS の登録の流れ，登録に必要なファイル

等についての説明が記載されていますので，

ご利用の前に必ずお読みください

MSS 申し込みフォーム

入力事項

1. MSS利用経験の有無

2. コンタクトパーソン

– 氏名，email，FAX番号，

所属，URL

3. 登録担当者

（コンタクト

パーソンと同じ場合，省力化）

4. 登録の概要

–

登録件数，公開予定

日，Sequence

technology，データの

種別，生物学的特徴

5. 補足情報

http://www.ddbj.nig.ac.jp/sub/masssub-j.html

② ① ④-⑤ ③

(5)

登録のために必要なファイル

 MSSの登録には，基本的に２種類のファイルをご用意下さい

．

1. 塩基配列ファイル

–

FASTA形式でエントリ毎に塩基配列を入力．

2. アノテーションファイル

–

登録者，所属，連絡先，文献，塩基配列上の生物学的特徴

（Feature/Qualifierの情報）等を記述．タブ区切りテキストファイル

両ファイルは規定書式のテキストファイルです．スクリプト，表計算

ソフト，テキストエディタ等を使用し，登録者側で作成します．

 データのタイプや必要に応じて以下のファイルをご用意下さい．

3. Quality scoreファイル

–

各塩基配列(base call)に対するquality scoreを表示したファイル

4. AGPファイル

–

CON(高次配列)エントリを構築するために，パーツとなる配列エ

ントリ(primary entry)の引用情報（引用領域、配列の向き）と gap

の種類と長さを記載

アノテーションファイル

Entry，Feature，Location，Qualifier，Value

の５つのカラムから構成

１件目のエントリ２件目のエントリエントリ名はそれぞれにユニークで，配列ファイルの記載順序と一致させます COMMON エントリ全エントリに共通する情報は COMMON エントリにまとめて記載することができます・登録者（SUBMITTER）・REFERENCE ・公開予定日(DATE) など

(6)

サンプルアノテーションファイル

1. データの種類の例

 タンパク質コード(CDS)領域

 リボソーマル RNA

 ITS領域

 マイクロサテライトマーカー

 ミトコンドリアゲノム配列

 環境サンプル

 EST (Expressed Sequence Tag)

• PDF形式（解説付き）

• タブ区切りテキスト形式

→ ひな型にしてアノテーションファイルの作成が可能

2. サンプルファイルの形式

MSS サイト内で，サンプルアノテーションファイルを提供しています

>ENT01 ggacaggctgccgcaggagccaggccgggagcaggtggtggaagacagacctgtaggtgg aagaggcttcgggggagccggagaactgggccagaccccacaggtgcaggctgccctgtc tgcgcttcagtcgtgggcgaagcctgaggaaaaagagagagaggctcaaggaagagagga accgcactccagcctgggcgacagagtgagactccatctcaaaaaaaaaaaaaaaaaa // >ENT02 ctcacacagatgctgcgcacaccagtggttgtaacaatgccgtttgcctccttcaggtct gaagcctgaggtgcgctcgtggtcagtgaagagggcaaaaagagagagaggctcaaagga tagtcattcatataaatttgaacacacctgctgtgcctagacaagtgtctttctgtaaga gctgtaactctgagatgtgctaaataaaccctctttctcaaaaaaaaaaaaaaaa //

塩基配列ファイル

２件目の塩基配列１件目の塩基配列終端子終端子１件目のエントリ名２件目のエントリ名 * エントリ名: エントリ毎にユニークな文字列（半角英数字32文字以内） 例) clone 名，isolate 名などの使用が一般的です アノテーションファイルのエントリ名と一致させてください．エントリ名に対してアクセッ ション番号を発行. 終端子はエントリの終わりとしての認識記号．入力時の注意 * 途中にスペース，空行が入らないようにしてください * ベクター，リンカー，アダプターなどの人工配列は必ず除去してください * 配列末端の “n” は除去してください(特殊なケースを除く)

エントリ名

は行頭の「>」に続けて入力します

(7)

登録ファイルのチェックツール (UME)

構文チェックツール

Parser

を使用し，ファイルのフォーマットチェックを行ってください

UME の主な機能

DDBJ 大量登録用ツール

・UME (Utilities for MSS Error check)

・Parser for unix, transChecker for unix ・・・ Unix (Solaris)

*UME には，塩基配列とアノテーション，並びにAGP ファイルを作成する機能は実装されていません．データチェック機能(Check タブ) 1) 構文チェックツールParserの機能構文とフォーマットを検証 2) transChecker の機能 アミノ酸翻訳の可否とその配列を検証 (登録データが CDS feature を含む場合) 3) FFconv の機能 擬似的なフラットファイルを作成 4) CONエントリの配列の構築 AGPファイルとピースエントリの配列ファイルを用いて構築登録用ファイルの整形(Process タブ) Cleaner の機能 余分な制御コードやスペースを削除３．Execute で実行２．タブを選択１．アノテーションファイルと配列ファイルを指定

ゲノムデータの登録の受付パターン

1. Taxonomic Division（complete genome sequence）

–

Complete genome; シーケンシングgapのない

Finishing した配列

–

CDS，tRNA，rRNA等のアノテーションが必須．locus_tagの使用

2. WGS (Whole Genome Shotgun)

–

原則，冗長なraw read sequencesではなく，種々(de novo assembly，

mapping base assembly 等)の方法によってつなぎ合わせたシーケン

シングgapのないcontig(overlapping reads) 配列．

Finishing の途上

–

CDS等のアノテーションの記載が可能．未記載も可能

3. CON division

–

シーケンシングgap を用いた断片配列の連結構造．scaffolds/supercontigs

(assembled contigs separated by gaps) や，より上位の連結構造は，scaffold

CON，または，chromosome CON エントリとして登録を受付

–

WGSエントリ(又はCONエントリ）をピース (primary; 引用) エントリとして用い，

シーケンシングgapを挿入したより長い(高次)配列

(8)

NGS由来ゲノム配列の登録 – complete, WGS，CON–

Raw reads DNA seq (DRAに登録)

MSS で登録受付；WGS, CON

コンティグ (WGS) スーパーコンティグ (CON) assembly _gap assembly _gap assembly _gap assembly _gap assembly _gap assembly _gap Complete ゲノム配列 _{Finishing 配列：主にバクテリアゲノム．}_{アノテーション必須}

MSSで登録受付

アノテーションファイルの具体例

微生物のcomplete ゲノム配列の登録

Entry Feature Location Qualifier Value

COMMON SUBMITTER contact Hanako Mishima

ENT01 source 1..5683123 strain NM-1 mol_type genomic DNA organism Microcystis aeruginosa

note strain coidentity: NBRC 101784

TOPOLOGY circular

CDS 1..1719 gene dnaA

product chromosomal replication initiator protein DnaA

codon_start 1

transl_table 11

locus_tag MLP_00010

tRNA 22859..22935 product tRNA-Ile

locus_tag MLP_t0010

anticodon (pos:408966..408968,aa:Asp) ncRNA 1377043..1377118 ncRNA_class autocatalytically_spliced_intron

locus_tag MLP_ncr0010 （中略） /locus_tag は，当該ゲノムの登録に おいて割り当てられたprefixを使用し， CDS，tRNA，rRNA，ncRNA など遺伝子関連の feature配下に記載します登録配列全体の形状が環状で，最初と最後の塩基が連続する場合に記載

(9)

WGSエントリのアノテーションファイル

• エントリ名に該当する箇所にメタ文字を使用して記載可能

• contig名以外が，すべて同じ内容の場合，COMMONフィールド

にアノテーションを記載することが可能(全件分の入力は不要)

CONエントリの登録に必要なファイル

1. アノテーションファイル

– エントリの共通情報，生物学的特徴を記載．

2. 塩基配列ファイル（任意）

– FASTA形式でエントリ毎に配列を入力．

3. AGPファイル

– AGP ファイルには，CON エントリを構築する際のピー

スエントリの順序，種類，方向等が記載されます．

– gapの位置や長さを含め，このファイルの情報に基づ

いてCONエントリの配列は構築されます．

– 公開フラットファイル上に表示されます．

(10)

AGPファイルの入力例

• AGP ファイルには，CON エントリを構築する際のピース

エントリの順序，種類，方向，gap情報が記載されます

• AGP ファイルのフォーマットを，"UME" (Utilities for MSS

Error check)でチェックすることが可能です

ゲノム登録に必要なファイル一覧

ファイルの

種類

通常

(complete)

WGS

CON

アノテー

ション

必須

塩基配列

_必須

_任意

Quality

score

不要

任意

不要

AGP

_不要

_必須

* 例外となるケースもあり

(11)

BioProject Database

• ゲノム規模，大規模転写物配列の登録の際に必要とされるProject IDやゲノム

配列のアノテーションに付加されます

locus_tag

prefixの申請を行います

• 複数のデータベースに跨って登録される塩基配列データを関連付けます

• 動画マニュアルも掲載していますので、ご利用の前に閲覧して下さい

• データはINSDC間で交換し，共有されます

• 公開データ（フラットファイル）上にも表記される

DDBJ MSS

登録先のデータベースが異なっても，Project IDを用いてデータを結びつける • locus_tag/qualifier 1. アノテーションや配列の更新時に，遺伝子関連 Feature のtrackingを目的に割り当てられる一意なtag．「prefix+数字など」で表記． 表示例: ABC_00001 （ABCがprefixに該当） 2. INSDC では prefix を一元的に管理し，公開する

/ｌocus_tag の使用例

• AP009256 Bifidobacterium adolescentis ATCC 15703 ゲノム配列

Feature

Location

locus_tag

product

CDS

1..1500

BAD_0001

chromosomal replication

initiator protein DnaA

CDS

1997..3121

BAD_0002

DNA polymerase III， b

subunit DnaN

CDS

2080238..2082265

BAD_1630

ribonuclease P protein

component

CDS

complement(2089193..2089375)

BAD_1631

50S ribosomal protein

L34

rRNA

complement(1549800..1549916)

BAD_r0001

5SrRNA

rRNA

complement(1550263..1553185)

BAD_r0002

23S rRNA

rRNA

complement(2060993..2062526)

BAD_r0015

16S rRNA

tRNA

complement(13060..13132)

BAD_t0001

tRNA-Ala

tRNA

complement(13134..13206)

BAD_t0002

tRNA-Ala

tRNA

2069586..2069662

BAD_t0054

tRNA-Thr

該当featureにIDを割り当てる

(12)

BioProjectの申請 (1)

• D-way経由でProject IDの登録をできます

• ログインIDを取得後，Web経由で申請します

新規のログイン

IDの取得

D-wayへログイン

BioProjectの申請 (2)

(1) (2)

配列のタイプや実験

配列の由来生物

情報を入力

(4)

grant，文献等を入力

登録者（所属先）や外部

リンク先などを入力

(13)

複数のデータベースに跨る塩基配列

の登録の流れ

大規模塩基配列エントリでは，複数のデータベー

スに登録し、それぞれアクセッション番号の取得を

求められる場合があります．ここでは代表的な例

についてフローチャートを示します

A) NGS由来全長規模のゲノム配列

B) NGS由来トランスクリプトーム（TSAデータ）

A) NGS由来ゲノム配列の登録手続きの流れ

④ DRA (Raw readsを登録) • アクセッション番号発行 D-way ログイン登録の手順 -以下の手続きが必要です-① BioProject IDの取得 ② overlapping assemblyをDDBJ-MSSで登録

③ discontiguous contig (CON) をDDBJ-MSSで登録 (オプション) ④ DRAへraw reads dataを登録 (オプション)

① BioProject DB (Project IDの取得) • BioProject IDの発行 • locus_tag prefixの取得（オプション） ③ DDBJ-MSS CONの登録 • アクセッション番号発行 • 高次配列の登録 • アクセッション番号発行 • WGS, complete genome ② DDBJ-MSS Overlapping assemblyを登録 BioSample (リソース情報を登録) 準備中

(14)

B) NGS由来TSAの登録手続きの流れ

① BioProject DB (Project IDの取得) • アクセッション番号発行 D-way ログイン登録の手順 -以下の手続きが必要です-① BioProject IDの取得

② DRAへraw reads dataを登録 ③ TSAをDDBJ-MSSで登録 ② DRA (Raw readsを登録) • BioProject IDの発行 ③ DDBJ-MSS TSAを登録 • アクセッション番号発行 BioSample (リソース情報を登録) 準備中

ゲノムエントリの公開データの例

• 複数のデータベースに跨ってデータ（DDBJ MSS, BioProject,

DRA）を登録．

• WGSの公開データには，BioProject IDとDRA (raw reads

data) のアクセッション番号を表示

BioProject ID

DRA (raw reads; Run Data)の

アクセッション番号

WGSエントリのアクセッション番号

Latimeria chalumnae (シーラカンス)のドラフトゲノムWGS

（overlapping assembly）の公開データ

(15)

登録の申し込みと問い合わせ

• 登録の申し込みは下記のウェッブページよ

り行って下さい．

大量登録システム(MSS)利用申し込み

http://www.ddbj.nig.ac.jp/sub/masssub-j.html

• ご不明な点がございましたら，下記のアドレ

ス宛てにメールを送信して下さい．

[email protected]

参考資料

I. TSA (Transcriptome Shotgun

Assembly)データの登録

(16)

I. TSA (Transcriptome Shotgun Assembly)データの登録

TSA (Transcirptome Shotgun Assembly)とは

• EST アセンブルに相当する配列データは，正しくアセンブルされて

おらず自然界に存在していない転写物配列を含んでいる可能性が

ありますが，近年，その需要が高まってきました．

• アセンブルされた mRNA 配列データを，

Transcriptome Shotgun

Assembly (TSA)

division で受付ています．

• TSAエントリを登録するためには，その登録に先立ってアセンブリ

の元となる１次転写産物 (primary transcripts) の配列データ(プライ

マリーエントリ)が

DDBJ/EMBL-Bank/GenBank

の

EST

division，

DDBJ

Trace Archive

，

DDBJ Sequence Read Archive (DRA)

の何れかに登録

されている必要があります．

• （注意）；プライマリーエントリが TSA 登録者と異なる登録者に帰属

する配列データである場合は， TPA (Third Party Annotation)として

扱います．

コンティグ(TSA1) コンティグ(TSA2) コンティグ(TSA3) コンティグ(TSA4)

NGS由来TSAの概略

Raw reads DNA seq (DRA)

DDBJ MSSで登録受付

cDNA1 cDNA2 cDNA3 cDNA4

(17)

TSAの登録に必要なファイル

1. アノテーションファイル

– 次世代シーケンサー由来のraw readsがprimary

（引用）エントリの場合，CONTIG行での引用情報

は不要

– Sanger法由来のESTがprimaryエントリの場合に

は，引用エントリの情報(引用エントリのアクセッ

ション番号，引用領域，配列の向き)が必要

– CDS等のフィーチャの入力が可能

2. 配列ファイル

-FASTA形式-TSAエントリの登録例

Entry Feature Location Qualifier Value

（中略）

FA0001 source 1..800 organism Homo sapiens mol_type mRNA tissue_type liver

note contig: contigFA0001

CDS 73..669 gene GAPD

product glyceraldehyde-3-phosphate _{dehydrogenase}

codon_start 1

FA0002 source 1..1200 organism Homo sapiens mol_type mRNA tissue_type liver mol_type mRNA

note contig: contigFA0002 COMMON DIVISION division TSA

KEYWORD keyword TSA

keyword Transcriptome Shotgun Assembly

DBLINK project 43210

sequence read archive DRR999999

Keywordとdivisionを入力

Project IDとDRAエントリを入力

(18)

Quality score

Quality scoreの例

>ZZ000001.1 Phrap Quality (Length:959, Min:3, Max:66)

35 35 31 31 29 32 31 29 29 29 29 29 34 34 40 34 40 34 33 33 37 37 37 45 39 44 46 43 37 36 40 36 43 39 44 39 39 41 46 40 40 40 50 50 45 45 53 51 41 44 48 48 47 47 47 44 49 49 49 49 43 48 45 53 50 50 50 50 50 51 44 47 48 43 46 45 47 48 48 49 52 52 60 53 59 59 59 59 59 59 62 66 65 65 66 63 62 63 66 64 62 61 61 65 64 (中略) 45 53 51 47 48 48 49 52 52 52 49 48 50 50 51 55 46 45 47 48 55 35 35 40 37 37 38 36 36 35 35 35 22 22 13 10 10 16 19 14 12 3 //

ゲノム配列の登録 ～大量登録システム(MSS) ～

大量登録システム(MSS) の紹介：

大規模アセンブル配列の登録

国立遺伝学研究所 DDBJセンター

日本DNAデータバンク アノテータ

大城戸 利久

目 次

Nucleotide sequences

Raw reads data

DDBJ MSS (大量登録システム)とは

1. 特徴

•

定型化したテキストファイルの利用による登録

•

データ転送が簡便（Eメールや一般的な転送プロトコール利用）

•

大規模データの登録向き

2. 受付対象のデータ

I.

エントリ数(登録する配列の数)が多い

• 例: 大規模転写物（EST, HTC, TSA） , ゲノム断片（GSS, HTG)，特定の

遺伝子や領域（16S rRNA, ITS-rRNA，ミトコンドリア由来COXI など），

• １エントリあたり，多数(概ね30以上)のBiological Featureを有

する

• 例: オルガネラゲノム，プラスミド全長など

II. 配列が長大 (概ね 500 kbp 以上)

• 例: 全ゲノム規模データ，長大な領域(遺伝子クラスター)など

III. 塩基配列登録システムが対応していない登録

• 例： WGS，CONなど

MSS における登録作業の流れ

登録者

DDBJ

MSS を利用の前に (1)

DDBJのトップページ (

http://www.ddbj.nig.ac.jp/

)からの移動

「登録」をクリック

Mass Submission System

(MSS) をクリック

MSSの利用の前に (2)

http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html

③； 「 Mass Submission System (MSS) とは」

MSS の登録の流れ，登録に必要なファイル

等についての説明が記載されていますので，

ご利用の前に必ずお読みください

MSS 申し込みフォーム

入力事項

1. MSS利用経験の有無

2. コンタクトパーソン

– 氏名，email，FAX番号，

所属，URL

3. 登録担当者

（コンタクト

パーソンと同じ場合，省力化）

4. 登録の概要

–

登録件数，公開予定

日，Sequence

technology，データの

種別，生物学的特徴

5. 補足情報

http://www.ddbj.nig.ac.jp/sub/masssub-j.html

登録のために必要なファイル

 MSSの登録には，基本的に２種類のファイルをご用意下さい

．

1.

塩基配列ファイル

–

FASTA形式でエントリ毎に塩基配列を入力．

2.

アノテーションファイル

–

登録者，所属，連絡先， 文献， 塩基配列上の生物学的特徴

（Feature/Qualifierの情報）等を記述．タブ区切りテキストファイル

両ファイルは規定書式のテキストファイルです．スクリプト，表計算

ソフト， テキストエディタ等を使用し，登録者側で作成します．

 データのタイプや必要に応じて以下のファイルをご用意下さい．

3. Quality scoreファイル

–

各塩基配列(base call)に対するquality scoreを表示したファイル

ゲノム配列の登録～大量登録システム(MSS) ～

日本DNAデータバンクアノテータ

大城戸利久

目次

_DDBJ

③；「 Mass Submission System (MSS) とは」

登録者，所属，連絡先，文献，塩基配列上の生物学的特徴

ソフト，テキストエディタ等を使用し，登録者側で作成します．

→ ひな型にしてアノテーションファイルの作成が可能

原則，冗長なraw read sequencesではなく，種々(de novo assembly，

– エントリの共通情報，生物学的特徴を記載．