大量登録システム(MSS) の紹介:
大規模アセンブル配列の登録
国立遺伝学研究所 DDBJセンター
日本DNAデータバンク アノテータ
大城戸 利久
目 次
DDBJ へのデータ登録 --- 3 DDBJ 大量登録システムとは--- 4 MSSにおける登録作業の流れ --- 5 MSSを利用の前に --- 6-7 MSS申し込みフォーム--- 8 登録のために必要なファイル--- 9 アノテーションファイル --- 10 サンプルアノテーションファイル --- 11 塩基配列ファイル --- 12 登録ファイルのチェックツール (UME) --- 13 ゲノムデータの登録受付パターン --- 14 NGS由来ゲノム配列の登録 – complete, WGS, CON- ---15 アノテーションファイルの具体例 --- 16 微生物のcompleteゲノム配列の登録例 --- 16 WGSエントリのアノテーション --- 17 CONエントリの登録必要なファイル --- 18 AGPファイルの入力例 --- 19 ゲノム登録に必要なファイル一覧 --- 20 BioProject Database --- 21 Locus_tagの使用例 --- 22 BioProject の申請 (1) --- 23 BioProject の申請 (2) --- 24 複数のデータベースに跨る塩基配列の登録の流れ--- 25 A) NGS由来ゲノム配列の登録手続きの流れ--- 26 B) NGS由来TSAの登録手続きの流れ--- 27 ゲノムエントリの公開データ例--- 28 登録の申し込みと問い合わせ --- 29 参考資料 --- 30I. TSA (Transcriptome Shotgun Assembly)データの登録 --- 31
NGS由来TSAの概略 --- -- 32
TSAの登録に必要なファイル --- --- 33
TSAエントリの登録例 --- 34
登録データの種類とデータベース(DB)の選択 DDBJは,現在3種類の塩基配列 archive データベースを運営しています.各々のDBは米国,欧州と協調体制 の下,国際的な共同体 (INSDC) を構成しています.各々のDB に登録・公開された塩基配列データは,共同体 メンバーの各データバンクへ送付され,3極間でデータを共有しています.配列の性状や産生方法によって, データの登録先が異なりますので,事前に内容をご確認の上,該当するDBにデータを登録してください. DDBJ (DDBJ/EMBL-Bank/GenBank): 塩基配列登録システム (小規模) ; 大量登録システム :(大規模)
DDBJ Sequence Read Archive (DRA/ERA/SRA): NGS由来のraw reads data
DDBJ Trace Archive (DTA): Sanger法由来のraw reads data
DDBJ BioProject Database (プロジェクト情報;大規模塩基配列登録向け) 事前に登録予定の配列が以下のどれに該当するのか確認し,登録先を選択して下さい
Nucleotide sequences
A. 塩基配列の登録 塩基配列登録システム(Web): 小規模登録向き MSS (大量登録):多数エントリ,ゲノム, 転写物Raw reads data
Accession 番号発行 Sanger法由来 次世代シーケンサー (NGS)由来 Accession 番号発行 • 大規模塩基配列の登録者向け 全長ゲノム規模(WGS,complete),大規模転写物配列の登録 • 登録者,文献,grant,配列の由来リソース情報 大規模塩基配列の登録では, 各DBのエントリを相互に参照 Accession 番号発行 B. プロジェクトの登録
DDBJ MSS (大量登録システム)とは
1. 特徴
•
定型化したテキストファイルの利用による登録
•
データ転送が簡便(Eメールや一般的な転送プロトコール利用)
•
大規模データの登録向き
2. 受付対象のデータ
I.
エントリ数(登録する配列の数)が多い
• 例: 大規模転写物(EST, HTC, TSA) , ゲノム断片(GSS, HTG),特定の
遺伝子や領域(16S rRNA, ITS-rRNA,ミトコンドリア由来COXI など),
• 1エントリあたり,多数(概ね30以上)のBiological Featureを有
する
• 例: オルガネラゲノム,プラスミド全長など
II. 配列が長大 (概ね 500 kbp 以上)
• 例: 全ゲノム規模データ,長大な領域(遺伝子クラスター)など
III. 塩基配列登録システムが対応していない登録
• 例: WGS,CONなど
MSS における登録作業の流れ
http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html登録者
DDBJ
登録完了 7.データの公開・公開待ち 1.登録依頼 申し込みフォーム 3.査定作業:仮登録 アノテーションの基本的方針を提案 登録者に修正内容を連絡 5.査定作業:本登録 登録者に修正内容を連絡 2.仮登録 登録ファイルの作成 *データの一部 (数エントリ分程度) 配列ファイル アノテーションファイル 返信:手順書,ツールの紹介 4.本登録 登録ファイルの作成 * 全データ分 配列ファイル アノテーションファイル 6.アクセッション番号発行 コンタクトパーソンに通知MSS を利用の前に (1)
DDBJのトップページ (
http://www.ddbj.nig.ac.jp/
)からの移動
②; 「データ登録」のページ データを受け付けるデータ ベースの一覧が表示されます ①; 「DDBJのトップページ」「登録」をクリック
Mass Submission System
(MSS) をクリック
MSSの利用の前に (2)
http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html
③; 「 Mass Submission System (MSS) とは」
MSS の登録の流れ,登録に必要なファイル
等についての説明が記載されていますので,
ご利用の前に必ずお読みください
MSS 申し込みフォーム
入力事項
1. MSS利用経験の有無
2. コンタクトパーソン
– 氏名,email,FAX番号,
所属,URL
3. 登録担当者
(コンタクト
パーソンと同じ場合,省力化)
4. 登録の概要
–
登録件数,公開予定
日,Sequence
technology,データの
種別,生物学的特徴
5. 補足情報
http://www.ddbj.nig.ac.jp/sub/masssub-j.html
② ① ④-⑤ ③登録のために必要なファイル
MSSの登録には,基本的に2種類のファイルをご用意下さい
.
1.
塩基配列ファイル
–
FASTA形式でエントリ毎に塩基配列を入力.
2.
アノテーションファイル
–
登録者,所属,連絡先, 文献, 塩基配列上の生物学的特徴
(Feature/Qualifierの情報)等を記述.タブ区切りテキストファイル
両ファイルは規定書式のテキストファイルです.スクリプト,表計算
ソフト, テキストエディタ等を使用し,登録者側で作成します.
データのタイプや必要に応じて以下のファイルをご用意下さい.
3. Quality scoreファイル
–
各塩基配列(base call)に対するquality scoreを表示したファイル
4. AGPファイル
–
CON(高次配列)エントリを構築するために,パーツとなる配列エ
ントリ(primary entry)の引用情報(引用領域、配列の向き)と gap
の種類と長さを記載
アノテーションファイル
Entry,Feature,Location,Qualifier,Value
の5つのカラムから構成
1件目の エントリ 2件目の エントリ エントリ名はそれぞれに ユニークで,配列ファイルの 記載順序と一致させます COMMON エントリ 全エントリに共通する情報は COMMON エントリにまとめて 記載することができます ・登録者(SUBMITTER) ・REFERENCE ・公開予定日(DATE) などサンプルアノテーションファイル
1. データの種類の例
タンパク質コード(CDS)領域
リボソーマル RNA
ITS領域
マイクロサテライトマーカー
ミトコンドリアゲノム配列
環境サンプル
EST (Expressed Sequence Tag)
• PDF形式(解説付き)
• タブ区切りテキスト形式
→ ひな型にして アノテーションファイルの作成が可能
2. サンプルファイルの形式
MSS サイト内で,サンプルアノテーションファイルを提供しています
>ENT01 ggacaggctgccgcaggagccaggccgggagcaggtggtggaagacagacctgtaggtgg aagaggcttcgggggagccggagaactgggccagaccccacaggtgcaggctgccctgtc tgcgcttcagtcgtgggcgaagcctgaggaaaaagagagagaggctcaaggaagagagga accgcactccagcctgggcgacagagtgagactccatctcaaaaaaaaaaaaaaaaaa // >ENT02 ctcacacagatgctgcgcacaccagtggttgtaacaatgccgtttgcctccttcaggtct gaagcctgaggtgcgctcgtggtcagtgaagagggcaaaaagagagagaggctcaaagga tagtcattcatataaatttgaacacacctgctgtgcctagacaagtgtctttctgtaaga gctgtaactctgagatgtgctaaataaaccctctttctcaaaaaaaaaaaaaaaa //塩基配列ファイル
2件目の 塩基配列 1件目の 塩基配列 終端子 終端子 1件目のエントリ名 2件目のエントリ名 * エントリ名: エントリ毎にユニークな文字列(半角英数字32文字以内) 例) clone 名,isolate 名 などの使用が一般的 です アノテーションファイルのエントリ名と一致させてください.エントリ名に対してアクセッ ション番号を発行. 終端子はエントリの終わりとしての認識記号. 入力時の注意 * 途中にスペース,空行が入らないようにしてください * ベクター,リンカー,アダプターなどの人工配列は必ず除去してください * 配列末端の “n” は 除去してください(特殊なケースを除く)エントリ名
は行頭の「>」に続けて入力します
登録ファイルのチェックツール (UME)
構文チェックツール
Parser
を使用し,ファイルのフォーマットチェックを行ってください
UME の主な機能
DDBJ 大量登録用ツール
・UME (Utilities for MSS Error check)
・Parser for unix, transChecker for unix ・・・ Unix (Solaris)
*UME には,塩基配列とアノテーション,並びにAGP ファイルを作成する機能は実装されていません. データチェック機能(Check タブ) 1) 構文チェックツールParserの機能 構文とフォーマットを検証 2) transChecker の機能 アミノ酸翻訳の可否とその配列を検証 (登録データが CDS feature を含む場合) 3) FFconv の機能 擬似的なフラットファイルを作成 4) CONエントリの配列の構築 AGPファイルとピースエントリの配列ファイ ルを用いて構築 登録用ファイルの整形(Process タブ) Cleaner の機能 余分な制御コードやスペースを削除 3.Execute で実行 2.タブを選択 1.アノテーションファイル と配列ファイルを指定
最新版を使用して下さい
ゲノムデータの登録の受付パターン
1. Taxonomic Division(complete genome sequence)
–
Complete genome; シーケンシングgapのない
Finishing した配列
–
CDS,tRNA,rRNA等のアノテーションが必須.locus_tagの使用
2. WGS (Whole Genome Shotgun)
–
原則,冗長なraw read sequencesではなく, 種々(de novo assembly,
mapping base assembly 等)の方法によってつなぎ合わせたシーケン
シングgapのないcontig(overlapping reads) 配列.
Finishing の途上
–
CDS等のアノテーションの記載が可能.未記載も可能
3. CON division
–
シーケンシングgap を用いた断片配列の連結構造.scaffolds/supercontigs
(assembled contigs separated by gaps) や,より上位の連結構造は,scaffold
CON,または,chromosome CON エントリとして登録を受付
–
WGSエントリ(又はCONエントリ)をピース (primary; 引用) エントリとして用い,
シーケンシングgapを挿入したより長い(高次)配列
NGS由来ゲノム配列の登録 – complete, WGS,CON–
Raw reads DNA seq (DRAに登録)MSS で登録受付;WGS, CON
コンティグ (WGS) スーパー コンティグ (CON) assembly _gap assembly _gap assembly _gap assembly _gap assembly _gap assembly _gap Complete ゲノム配列 Finishing 配列 : 主にバクテリアゲノム.アノテーション必須MSSで登録受付
アノテーションファイルの具体例
微生物のcomplete ゲノム配列の登録
Entry Feature Location Qualifier Value
COMMON SUBMITTER contact Hanako Mishima
ENT01 source 1..5683123 strain NM-1 mol_type genomic DNA organism Microcystis aeruginosa
note strain coidentity: NBRC 101784
TOPOLOGY circular
CDS 1..1719 gene dnaA
product chromosomal replication initiator protein DnaA
codon_start 1
transl_table 11
locus_tag MLP_00010
tRNA 22859..22935 product tRNA-Ile
locus_tag MLP_t0010
anticodon (pos:408966..408968,aa:Asp) ncRNA 1377043..1377118 ncRNA_class autocatalytically_spliced_intron
locus_tag MLP_ncr0010 (中略) /locus_tag は,当該ゲノムの登録に おいて割り当てられたprefixを使用し, CDS,tRNA,rRNA,ncRNA など遺伝子 関連の feature配下 に記載します 登録配列全体の形状が環状で,最初と 最後の塩基が連続する場合に記載
WGSエントリのアノテーションファイル
• エントリ名に該当する箇所にメタ文字を使用して記載可能
• contig名以外が,すべて同じ内容の場合,COMMONフィールド
にアノテーションを記載することが可能(全件分の入力は不要)
CONエントリの登録に必要なファイル
1. アノテーションファイル
– エントリの共通情報, 生物学的特徴を記載.
2. 塩基配列ファイル(任意)
– FASTA形式でエントリ毎に配列を入力.
3. AGPファイル
– AGP ファイルには,CON エントリを構築する際のピー
スエントリの順序,種類,方向等が記載されます.
– gapの位置や長さを含め,このファイルの情報に基づ
いてCONエントリの配列は構築されます.
– 公開フラットファイル上に表示されます.
AGPファイルの入力例
• AGP ファイルには,CON エントリを構築する際のピース
エントリの順序,種類,方向,gap情報が記載されます
• AGP ファイルのフォーマットを,"UME" (Utilities for MSS
Error check)でチェックすることが可能です
ゲノム登録に必要なファイル一覧
ファイルの
種類
通常
(complete)
WGS
CON
アノテー
ション
必須
必須
必須
塩基配列
必須
必須
任意
Quality
score
不要
任意
不要
AGP
不要
不要
必須
* 例外となるケースもありBioProject Database
• ゲノム規模,大規模転写物配列の登録の際に必要とされるProject IDやゲノム
配列のアノテーションに付加されます
locus_tag
prefixの申請を行います
• 複数のデータベースに跨って登録される塩基配列データを関連付けます
• 動画マニュアルも掲載していますので、ご利用の前に閲覧して下さい
• データはINSDC間で交換し,共有されます
• 公開データ(フラットファイル)上にも表記される
DDBJ MSS
登録先のデータベースが 異なっても,Project IDを用 いてデータを結びつける • locus_tag/qualifier 1. アノテーションや配列の更新時に,遺伝子関連 Feature のtrackingを目的に 割り当てられる 一意なtag.「prefix+数字など」で表記. 表示例: ABC_00001 (ABCがprefixに該当) 2. INSDC では prefix を一元的に管理し,公開する/locus_tag の使用例
• AP009256 Bifidobacterium adolescentis ATCC 15703 ゲノム配列
Feature
Location
locus_tag
product
CDS
1..1500
BAD_0001
chromosomal replication
initiator protein DnaA
CDS
1997..3121
BAD_0002
DNA polymerase III, b
subunit DnaN
CDS
2080238..2082265
BAD_1630
ribonuclease P protein
component
CDS
complement(2089193..2089375)
BAD_1631
50S ribosomal protein
L34
rRNA
complement(1549800..1549916)
BAD_r0001
5SrRNA
rRNA
complement(1550263..1553185)
BAD_r0002
23S rRNA
rRNA
complement(2060993..2062526)
BAD_r0015
16S rRNA
tRNA
complement(13060..13132)
BAD_t0001
tRNA-Ala
tRNA
complement(13134..13206)
BAD_t0002
tRNA-Ala
tRNA
2069586..2069662
BAD_t0054
tRNA-Thr
該当featureにIDを 割り当てる
BioProjectの申請 (1)
• D-way経由でProject IDの登録をできます
• ログインIDを取得後,Web経由で申請します
新規のログイン
IDの取得
D-wayへログイン
BioProjectの申請 (2)
(1) (2)配列のタイプや実験
関連などを入力
(3)配列の由来生物
情報を入力
(4)grant,文献等を入力
登録者(所属先)や外部
リンク先などを入力
複数のデータベースに跨る塩基配列
の登録の流れ
大規模塩基配列エントリでは,複数のデータベー
スに登録し、それぞれアクセッション番号の取得を
求められる場合があります.ここでは代表的な例
についてフローチャートを示します
A) NGS由来全長規模のゲノム配列
B) NGS由来トランスクリプトーム(TSAデータ)
A) NGS由来ゲノム配列の登録手続きの流れ
④ DRA (Raw readsを登録) • アクセッション番号発行 D-way ログイン 登録の手順 -以下の手続きが必要です-① BioProject IDの取得 ② overlapping assemblyをDDBJ-MSSで登録③ discontiguous contig (CON) をDDBJ-MSSで登録 (オプション) ④ DRAへraw reads dataを登録 (オプション)
① BioProject DB (Project IDの取得) • BioProject IDの発行 • locus_tag prefixの取得(オプション) ③ DDBJ-MSS CONの登録 • アクセッション番号発行 • 高次配列の登録 • アクセッション番号発行 • WGS, complete genome ② DDBJ-MSS Overlapping assemblyを登録 BioSample (リソース情報を登録) 準備中
B) NGS由来TSAの登録手続きの流れ
① BioProject DB (Project IDの取得) • アクセッション番号発行 D-way ログイン 登録の手順 -以下の手続きが必要です-① BioProject IDの取得② DRAへraw reads dataを登録 ③ TSAをDDBJ-MSSで登録 ② DRA (Raw readsを登録) • BioProject IDの発行 ③ DDBJ-MSS TSAを登録 • アクセッション番号発行 BioSample (リソース情報を登録) 準備中
ゲノムエントリの公開データの例
• 複数のデータベースに跨ってデータ(DDBJ MSS, BioProject,
DRA)を登録.
• WGSの公開データには,BioProject IDとDRA (raw reads
data) のアクセッション番号を表示
BioProject ID
DRA (raw reads; Run Data)の
アクセッション番号
WGSエントリのアクセッション番号
Latimeria chalumnae (シーラカンス)のドラフトゲノムWGS
(overlapping assembly)の公開データ
登録の申し込みと問い合わせ
• 登録の申し込みは下記のウェッブページよ
り行って下さい.
大量登録システム(MSS)利用申し込み
http://www.ddbj.nig.ac.jp/sub/masssub-j.html
• ご不明な点がございましたら,下記のアドレ
ス宛てにメールを送信して下さい.
[email protected]
参考資料
I. TSA (Transcriptome Shotgun
Assembly)データの登録
I. TSA (Transcriptome Shotgun Assembly)データの登録
TSA (Transcirptome Shotgun Assembly)とは
• EST アセンブルに相当する配列データは, 正しくアセンブルされて
おらず自然界に存在していない転写物配列を含んでいる可能性が
ありますが, 近年, その需要が高まってきました.
• アセンブルされた mRNA 配列データを,
Transcriptome Shotgun
Assembly (TSA)
division で受付ています.
• TSAエントリ を登録するためには, その登録に先立ってアセンブリ
の元となる1次転写産物 (primary transcripts) の配列データ(プライ
マリーエントリ)が
DDBJ/EMBL-Bank/GenBank
の
EST
division,
DDBJ
Trace Archive
,
DDBJ Sequence Read Archive (DRA)
の何れかに登録
されている必要があります.
• (注意);プライマリーエントリが TSA 登録者と異なる登録者に帰属
する配列データである場合は, TPA (Third Party Annotation)として
扱います.
コンティグ(TSA1) コンティグ(TSA2) コンティグ(TSA3) コンティグ(TSA4)NGS由来TSAの概略
Raw reads DNA seq (DRA)DDBJ MSSで登録受付
cDNA1 cDNA2 cDNA3 cDNA4TSAの登録に必要なファイル
1. アノテーションファイル
– 次世代シーケンサー由来のraw readsがprimary
(引用)エントリの場合,CONTIG行での引用情報
は不要
– Sanger法由来のESTがprimaryエントリの場合に
は,引用エントリの情報(引用エントリのアクセッ
ション番号,引用領域,配列の向き)が必要
– CDS等のフィーチャの入力が可能
2. 配列ファイル
-FASTA形式-TSAエントリの登録例
Entry Feature Location Qualifier Value(中略)
FA0001 source 1..800 organism Homo sapiens mol_type mRNA tissue_type liver
note contig: contigFA0001
CDS 73..669 gene GAPD
product glyceraldehyde-3-phosphate dehydrogenase
codon_start 1
FA0002 source 1..1200 organism Homo sapiens mol_type mRNA tissue_type liver mol_type mRNA
note contig: contigFA0002 COMMON DIVISION division TSA
KEYWORD keyword TSA
keyword Transcriptome Shotgun Assembly
DBLINK project 43210
sequence read archive DRR999999
Keywordとdivisionを入力
Project IDとDRAエントリを入力
Quality score
Quality scoreの例
>ZZ000001.1 Phrap Quality (Length:959, Min:3, Max:66)
35 35 31 31 29 32 31 29 29 29 29 29 34 34 40 34 40 34 33 33 37 37 37 45 39 44 46 43 37 36 40 36 43 39 44 39 39 41 46 40 40 40 50 50 45 45 53 51 41 44 48 48 47 47 47 44 49 49 49 49 43 48 45 53 50 50 50 50 50 51 44 47 48 43 46 45 47 48 48 49 52 52 60 53 59 59 59 59 59 59 62 66 65 65 66 63 62 63 66 64 62 61 61 65 64 (中略) 45 53 51 47 48 48 49 52 52 52 49 48 50 50 51 55 46 45 47 48 55 35 35 40 37 37 38 36 36 35 35 35 22 22 13 10 10 16 19 14 12 3 //