• 検索結果がありません。

国立遺伝学研究所におけるDNAデータバンク:DDBJ

N/A
N/A
Protected

Academic year: 2021

シェア "国立遺伝学研究所におけるDNAデータバンク:DDBJ"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

Introduction of the DNA Data Bank of Japan (DDBJ)

あ ら ま し

Abstract

The DNA Data Bank of Japan (DDBJ) was established at the Genetic Code Research Center of the National Institute of Genetics in 1986 to promote DNA sequence registration and research activities. The DDBJ, together with the GenBank of the US and the European EMBL, forms the international base sequence database. The Genetic Code Research Center was established in 1984 and was changed to the Center for Information Biology in 1995. Then, in April 2001, the center was changed again to The Center for Information Biology and DNA Data Bank of Japan (CIB/DDBJ). The DDBJ is a public research center and is the main international and public data bank in Japan. Because of its primary position, the DDBJ will play a very important role in the future development of bioinformatics in Japan. The supercomputer system at the National Institute of Genetics is designated as a cooperative facility of Japan. Its HPC system, which includes a VPP5000, is open to external researchers, and the DNA data registration, analysis, and search services of the DDBJ are made available worldwide. Fujitsu has helped the DDBJ to introduce, construct, and operate this supercomputer system and has supplied system engineers to develop and operate the DDBJ services. This paper introduces the DDBJ system and services of the National Institute of Genetics and describes its future development.

日本DNAデータバンク(DDBJ:DNA Data Bank of Japan)は,1986年に国立遺伝学

研究所の遺伝情報研究センター内に設立され,DNA配列の登録,研究活動を始めた。DDBJ

は活動開始時から米国のGenBank,欧州のEMBLとの3者で協力しながら,今日の国際塩基

配列データベースを構築してきた。

1984年設置された遺伝情報研究センターは1995年に生命情報研究センターとなり,2001

年4月には生命情報・DDBJ研究センターと改称され,DDBJの名前が公的センターの名前と

して取り入れられた。これは日本を代表する国際的な公的データバンクとしての位置付が明

確にされたものであり,今後のDDBJのデータバンクとしての活動が日本のバイオインフォ

マティクスの飛躍的発展のかぎを握っていると言える。

また,国立遺伝学研究所のスーパーコンピュータシステムは国の共同利用機関に指定され

ており,VPP5000をはじめとするHPCシステムの利用を所外に公開するとともに,DDBJ

のDNAデータ登録,解析,検索サービスを全世界に向けて提供している。富士通は,この

スーパーコンピュータシステムの導入から構築,運用までの業務を支援しており,また,

DDBJのサービスの開発運用についてSE支援を行っている。

本稿ではこの国立遺伝学研究所のDDBJとサービスの概要と今後の展開について紹介

する。

山口政仁(やまぐち まさひと) ライフサイエンス推進室 所属 現在,国立遺伝学研究所のスーパー コンピュータシステム,DDBJ運用 業務のサポートに従事。

(2)

354 FUJITSU.53, 5, (09,2002) P353-358:09-02青校.doc 354/6 最終印刷日時:02/09/28 12:32

ま え が き

 国際プロジェクトとして推進されてきた人の全塩基配 列を決めるヒトゲノムプロジェクトは,30億塩基から 成るヒトゲノムのドラフト配列を2001年2月に公表した。 この配列情報はDDBJ/EMBL/GenBankの国際塩基配列 データベースに登録された。このヒトゲノム配列の公開 を契機にバイオインフォマティクス研究は,ゲノム上の 遺伝子の決定や,遺伝子から創生される蛋白質の機能解 析,ヒトの遺伝子の違いを調べる多型解析などのポスト ゲノムシーケンシングに研究はシフトしてきたと言える。 遺伝子情報の原点は配列情報であり,現在DNAデータ バンクには1,700万エントリ,200億塩基対以上の配列 情報が登録されており,年率1.5から2倍の膨大な勢いで 増加している。この配列情報を登録・維持し,全世界の 研究者に公開していく重大な任務を背負っているのが国 立遺伝学研究所生命情報・DDBJ研究センターである。  本稿では,このDDBJの概要,サービスの概要,今後 の取組みについて紹介する(1)-(3)

DDBJの概要

 DDBJとはDNA Data Bank of Japanの略称であり, 欧州のEBI/EMBLおよび米国のNCBI/GenBankととも に密接な連携の下「国際塩基配列データベース」を構築 している三大国際DNAデータバンクの一つで,静岡県 三島市にある国立遺伝学研究所の生命情報・DDBJ研究 センター(Center for Information Biology and DNA Data Bank of Japan:CIB-DDBJ)が運営している。  DDBJの主な活動は以下のとおりである。 ・国際塩基配列データベースの共同構築と運用 ・様々な生命情報データベースの運営 ・塩基配列データベースのオンライン利用の管理・運営 ・解析ソフトウェアの開発 ・印刷物発行や講習会開催などの利用者サービス ・国立遺伝学研究所コンピュータシステムの管理・運営  CIB-DDBJは,発展しつつある生命情報学の日本に おける研究拠点として,1995年4月に設立された生命情 報研究センター(CIB)を,2001年4月に改組してでき たセンターである。今日の生物学の研究では,コン ピュータが実験器具と同等に必要になってきており,と くに,大変なスピードで蓄積しつつあるDNA配列デー タなどの生命情報の処理や解析にはコンピュータ科学・ 技術が必須であり,これが生命情報学(バイオインフォ マティクス)を誕生させ,発展させている原動力となっ ている。  CIB-DDBJは,コンピュータを使った生命情報の解 析・処理のための環境と人材を整備しつつ,国内外にお ける生命情報学の分野で主要な役割を果たすことを目的 とした活動を行っている組織である。DDBJはCIBが行 う事業の一つとして運営されていたが,2001年4月にセ ンターが改組されてからは,国立遺伝学研究所の公式な 組織として活動を行っている。DDBJの沿革と国際協力 への取組みを図-1に示す。  生命科学の目覚しい発展の基盤として,DNA塩基配 列から得られる知識は欠かすことのできないものとなっ ている。日本においてもDNA塩基配列データを収集・ 1980.8 EMBLデータライブラリー(欧州)設立,日本へ国際協力 の要請 1982.8 EMBL,GenBank(米国)が国際協力事業 日本の参加を要請 1983.8 DNAデータバンク運営委員会設置 1984.4 大学共同利用機関に改組した国立遺伝学研究所に遺 伝情報研究センター設置 1985.4 遺伝情報研究センターに遺伝情報分析研究室設置 1986.1 DNAデータ研究利用委員会設置 1987.1 遺伝情報研究センター棟竣工 7 DDBJリリースの配布開始 9 DDBJオンライン利用開始 1992.1 DDBJリリースにEMBL/GenBankデータを加える 1993.1 DDBJリリースを年4回配布へ 1994.10 遺伝情報研究センターに遺伝子機能研究室新設 1995.4 遺伝情報研究センターに大量遺伝情報研究室・分子分 類研究室新設 新設の2研究室と遺伝情報分析研究室・遺伝子機能研 究室からなる生命情報研究センター設置 1998.3 生命情報研究センター棟竣工 1999.4 国立遺伝学研究所にて国際実務者会議・国際諮問委員 会開催 2001.4 生命情報研究センターの名称が生命情報・DDBJ研究 センターに改称 図-1 DDBJの沿革と国際協力

(3)

評価・提供するデータバンク活動で国際的に貢献するた め,1983年に試験的なデータ入力が始まった。翌年国 立遺伝学研究所に遺伝情報研究センターが設置されたの に伴い,その中でDDBJが活動を始めた。現在はCIB-DDBJ体制の下,前述のような活動を行っている。 DDBJは「DDBJ/EMBL/GenBank国際塩基配列データ バンク」の一つとして欧州・米国のデータバンクと密接 な連携の下に「DDBJデータベース」の構築を進めてい る。三大国際DNAデータバンクによる国際協調の結果, 日本の研究者はデータの登録をDDBJを通じて行うこと ができるようになっている。DDBJへのデータの登録の ほとんどは,インターネット上でWebを利用し,DDBJ のデータ登録システム“SAKURA”を利用して行われ ている。データは生物学の専門知識を持つDDBJ要員の 査定を受け「DDBJデータベース」に登録され,公開さ れている。また,公開と同時にEMBL,GenBankへ送 られる。DDBJ,EMBL,GenBankの間で毎日データ を交換することにより,最大1日のずれはあるが3者で 同時に,質・量ともに同じデータを提供している。  「DDBJ/EMBL/GenBank国際塩基配列データベー ス」(図-2)を運用する3者の実務者が年1回一堂に会し て,データベース上の問題点,情報項目の追加,削除に ついての会議を開催している。

国際塩基配列データベース

 「DDBJ/EMBL/GenBank国際塩基配列データベー ス」とは,全世界の研究者が実験によって決定した DNA ( ま た は RNA ) の 塩 基 配 列 デ ー タ を 「DDBJ/EMBL/GenBank国際DNAデータバンク」のそ れぞれが定めたデータ構築規範に沿って収集・編集し, それを3者間で交換し合うことで国際的な共同構築が行 われているデータベースである。DDBJ/EMBL/GenBank 国際塩基配列データベースは,研究者から直接送付され たDNA塩基配列データと配列付加情報(アノテーショ ン情報)から構成され,DNAデータベースは,データ の単位である「エントリ」の集合として構成されている。 それぞれのエントリは,塩基配列のほか,配列を決定し た研究者,関連文献,生物種,遺伝子の機能・特性に関 する情報(配列付加情報)を含んでいる。また,日本の 特許庁,欧州の欧州特許局,米国の米国特許局が処理し た特許DNAデータも含んでいる。塩基配列データは, 久遠の時間をかけて生物が進化してきたことを直接示す 記録であり,これらが人類共通の財産であるという認識 のもとに,各データバンクでは,研究者が自由に利用で きるようにオンラインでデータを公開している。  現在全世界で登録されている配列情報のエントリは 1,700万件を超え,塩基対としては200億を超えている。 ここ数年,年1.5∼2.0倍のスピードで登録データが増え ており,塩基配列情報の爆発を危惧する声も出始めてい る。データベース収集件数の推移を図-3に示す。

ゲノムデータとDDBJ

 米欧日の公的研究機関が共同で進めていた「ヒトゲノ 図-2 DDBJ/EMBL/GenBank国際塩基配列データベース Fig.2-DDBJ/EMBL/GenBank International Nucleotide

Sequence Database. エントリ数 0 200 400 600 800 1,000 1,200 1,400 1,600 1,800 2,000 93 94 95 96 97 98 99 00 01 02 年 1.5~2.0倍の伸び 1994 1996 1998 2000 2002 (西暦) (万件) 図-3 国際塩基配列データベース件数の推移 Fig.3-International Nucleotide Sequence Database Growth.

(4)

356 FUJITSU.53, 5, (09,2002) P353-358:09-02青校.doc 356/6 最終印刷日時:02/09/28 12:32 ム計画」をはじめ,国内では理化学研究所のマウスゲノ ムプロジェクト,かずさDNA研究所のアラビドプシス ゲノムプロジェクトなどのゲノムプロジェクトチームが 決定したデータについてもDBJ/EMBL/GenBank国際 塩基配列データベースに登録されている。このうち国内 のゲノムプロジェクトデータはDDBJに登録され,世界 の研究者に向けて公開している。このほかにショウジョ ウバエ,線虫,酵母,ウィルスや様々なバクテリア,古 細菌など次々とゲノムデータが公開されている。登録塩 基数の多い生物種上位15種について図-4に紹介する。

DDBJが提供しているサービス

 DDBJはインターネットを通して様々なサービスを提 供している。日本DNAデータバンク(DDBJ)のホー ムページ(top)を図-5に示す。  DDBJで提供しているサービスの概要について紹介 する。 (1) 塩基配列の登録  DNA-データ登録システム“SAKURA”を通して研 究者は塩基配列データおよび配列付加情報(アノテー ション情報)を登録する。一度に大量のエントリを登録 する場合は別途大量登録システムが用意されている。  登録されたデータには世界でユニークな登録番号(ア クセッション番号)が付与され,公開される。 (2) データベース検索サービス  登録されたエントリ情報を検索するシステムや遺伝子 情報独特の相同性を考慮した塩基配列,アミノ酸配列の 多重整列に利用される検索システム(相同性検索システ ム)としてFASTA,BLAST,SSEARCHのサービスを 提供しており,月間10万件以上の検索が実行されてい る。また,配列付加情報を検索するサービスとしてSRS (Sequence Retrieval System)がある。DDBJでも最近 の XML に よ る 標 準 化 を 目 指 し た デ ー タ 形 式 と し て DDBJ-XMLのサービスも開始している。 (3) データ解析サービス  検索した配列データを用いて配列の多重整列や生物の 進化過程を解析する系統樹の作成ができる機能をサービ スしている。  大規模な解析をサービスするためスーパーコンピュー タVPP5000やPRIMEPOWER2000が導入され,強力な 計算パワーを提供している。DDBJで稼働しているシス テム構成図を図-6に示す。 (4) ゲノム解析サービス  ヒトゲノムの全ゲノムが公開され,それぞれの染色体 ごとに各遺伝子の位置やそれぞれの機能が明らかになっ てきている。また,微生物をはじめ多数の生物に関する 全遺伝子配列が決定され公開されてきている。これらの 情報を常にウォッチし,公開された情報を収集蓄積した デ ー タ ベ ー ス と し て GIB ( Genome Information Broker)のサービスを提供している(図-7)。 (5) 蛋白質のDBおよび構造解析サービス  PDB(蛋白質データベース)の検索サービスや蛋白 質の二次構造予測,立体構造予測などのシミュレーショ ンについてもDDBJのサービス機能として提供している。 図-5 DDBJのホームページ(Top)(4) Fig.5-Top page of DDBJ website.

Homo sapiens (ヒト) Mus musculus (マウス) Rattus norvegicus (ラット)

Drosophila melanogaster (キイロショウジョウバエ) Arabidopsis thaliana (シロイロナズナ)

Oryza sativa (japonica cultivar-group) (イネ) Caenorhabditis elegans (エレバンス線虫) Oryza sativa (イネ) Brassica oleracea (キャベツ) Tetraodon nigroviridis (ミドリフグ) Pan troglodytes (チンパンジー) Danio rerio (ゼブラフィッシュ) Zea mays (トウモロコシ) Bos taurus (ウシ) Glycine max (ダイズ) 図-4 登録塩基数の多い生物種上位15種 Fig.4-Top 15 organisms according to the total number of

(5)

DDBJ Webサービス

 DDBJの検索や解析は研究者がブラウザや電子メール を利用してサービスを提供しており,それぞれのサービ スは独立した形で利用できるようになっている。しかし, 最近では配列の検索,それを用いた解析,あるいは検索 結果からほかの情報の取得要求は多様性を増してきてい る。そこで,DDBJではXML技術とWebサービス技術 を利用したサービス“XML Central of DDBJ”プロ ジェクトを立ち上げ,サービス機能の充実化に取り組ん でいる。XML Central of DDBJのシステムイメージを 図-8に示す。  このプロジェクトでサービスしている機能を次に示す。 (1) Getentry機能  DDBJ,PIR,SwissProt,PDB,PRFからアクセッ ション番号やProteinIDなどを指定したエントリ取得 サービス (2) BLAST  BLASTの実行および実行結果からのポジション情報 抽出機能のサービス (3) FASTA  FASTA実行サービス (4) CLUSTALW  CLUSTALW実行サービス (5) SRS  20種類以上の公共DBに対するキーワード検索,エン トリ取得サービス (6) TxSearch  Taxonomy Databaseの検索,詳細情報取得サービス (7) DDBJ  DDBJに特化したエントリ取得サービスであり,ロ ケーション情報から関連Featureや配列情報,配列付加 情報の詳細内容の取得をサービス (8) サービスの簡易実行機能  DDBJが提供しているWebサービスの機能を試用した り,実行結果の内容などを確認するための簡易実行 サービス  利用者はこれらのサービス機能を一連で呼び出すクラ イアントプログラムを開発することにより,複合的な DDBJのシステムを利用できるようになる。  富士通は,DDBJ設立当初より,これまで紹介してき たDDBJの各種サービスを提供するためのコンピュータ, 図-6 DDBJのスーパーコンピュータシステム構成 Fig.6-Supercomputer systems of DDBJ. 図-7 GIBサービスの一例

Fig.7-A sample of GIB (Genome Information Broker) services.

図-8 XML Central of DDBJのシステムイメージ Fig.8-System image of XML Central of DDBJ.

(6)

358 FUJITSU.53, 5, (09,2002) P353-358:09-02青校.doc 358/6 最終印刷日時:02/09/28 12:32 ネットワークシステムの構築・運用,サービスソフト ウェアの開発を支援してきており,また,DDBJ業務運 用についても支援を行うことにより,全世界のバイオ研 究者を支援している。

む  す  び

 バイオインフォマティクスの根幹であるゲノム配列の 国際登録機関としてDDBJは今後も登録,検索,解析な どの各サービスにおいて操作性,機能を充実化していく ため,いろいろな取組みを始めている。現在登録できる 配列情報の長さには制限が加えられているが,この制限 の撤廃,また,これまで登録・修正できるのは登録者の みであったが,第3者が登録情報を修正したり配列付加 情報を追加したりする第3者アノテーション(オープン アノテーション)への対応に対してもサービスの開始を 予定している。  DDBJが提供するバイオインフォマティクス関連情報 は全世界の研究者が利用するため,情報を有効かつ広範 囲に流通させるためには標準化が必須であり,DDBJも この標準化活動に取り組み始めている。われわれ富士通 のシステムエンジニアの役割もますます重要度が増して きている。  年2倍の膨大なデータ量伸張への対応,サービスの充 実化当に対して,先端技術を先取りし,世界に誇れる DDBJとなるよう支援していきたい。 参 考 文 献 (1) 国 立 遺伝学 研究 所  生 命 情報 ・ DDBJ 研究 セン タ ー 「DDBJ 日本DNA データバンクの紹介」 (2) 国 立 遺伝学 研究 所  生 命 情報 ・ DDBJ 研究 セン タ ー 「DDBJ/CIB レポート」 (3) 国 立 遺伝学 研究 所  生 命 情報 ・ DDBJ 研究 セン タ ー 「DDBJオフラインニュース」 (4) DDBJホームページ URL http://www.ddbj.nig.ac.jp

参照

関連したドキュメント

Northern blot analysis using 5’ portion of the chicken DDB1 cDNA as a probe detected a single transcript of ~ 4.3 kb in chicken DT40 cells as well as in human HeLa cells

Keywords: homology representation, permutation module, Andre permutations, simsun permutation, tangent and Genocchi

Standard domino tableaux have already been considered by many authors [33], [6], [34], [8], [1], but, to the best of our knowledge, the expression of the

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Kilbas; Conditions of the existence of a classical solution of a Cauchy type problem for the diffusion equation with the Riemann-Liouville partial derivative, Differential Equations,

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.

J-STAGEの運営はJSTと発行機関である学協会等