• 検索結果がありません。

14. 遺伝子情報の大容量化を支える計算機ネットワーク

この分野では研究データの大容量化が加速度的に進んでいるとのことですが。

中村氏:その大きな要因となっているのが、塩基配列の決定に利用するシーケンサーの飛躍的な性能向上です。

特に次世代シーケンサーと呼ばれる最新の装置では、以前の装置より 4 〜 5 桁も性能が上がっています。これ に伴って、アーカイブに登録されるデータの容量も増える一方です。しかも、INSD では、DDBJ、GenBank、EMBL の三極で全て同じデータを持つようにしていますから、各機関同士でコピーするデータも相当な容量に上ります。

なお、遺伝研ではスパコンを利用した計算機サービスも提供していますが、こちらに求められる能力もどんどん高 くなっていますね。

研究を支える ICT インフラにも相当な負荷が掛かりそうですね。現在はどのような環境を構築されているの ですか。

小笠原氏:まずスパコンについては、次世代シーケンサーへの対応を図るために、今回の調達からアーキテクチャ を見直して業務ソフトウェアも全面的に書き換えました。その結果演算性能も大幅に強化され、旧スパコンの理論 ピーク演算性能 20TFLOPS に対して現在は 169TFLOPS を達成。中間増強後は 366TFLOPS にまで向上する 予定です。ストレージについても同様で、ディスク0.65PB/テープ 0.75PB だった旧スパコンに対し、現在は計算用 2PB /アーカイブ用 3PB の容量を確保。中間増強後はそれぞれ 7PB、5.5PB に拡張される予定です。

 システム面での特徴としては、とにかく I/O 負荷が重いという点が挙げられますね。多い時には一日 50 万件も のデータが登録されますし、データベースのインデックスを作るのも結構厳しい。そこで並列分散ファイルシステム の Lustre を使うなど、I/O 処理の高速化にはかなり気を遣っています。ちなみに計算機ノードとしては、10TB の メモリを搭載した Fat node が 1 ノード、2TB のメモリを搭載した Medium node が 2 ノード、その他に 64GB の メモリを搭載した Thin node が 352 ノード稼動しています。

NIG SuperComputer

ネットワークについてはどうでしょう。

小笠原氏:DDBJ には約 1100 名近い研究者の方々がユーザーとして登録されており、毎日のように塩基配列デー タのアップロードやスパコンを利用した解析作業を行われています。また、その他に GenBank や EMBL とのデー タ交換も行いますので、研究所内のトラフィックよりも外部とのトラフィックの方が格段に多い状況です。DDBJ の 情報やスパコンの計算機資源は日本の DNA 研究を支える重要な基盤ですから、ネットワークにも高い性能と信 頼性が要求されます。その点、SINET がこの部分をしっかりと支えてくれていますので、研究者の方々にも安定的 なサービスを提供できています。現在は常時 3 〜 4Gbps の帯域を利用していますが、ネットワークに関する不満は 感じないですね。

ネットワーク図(2012 年時)

最後に今後の展開について伺えますか。

中村氏:DDBJ としては、今後も大量の塩基配列データの確実なアーカイブや、計算機資源の提供が重要な ミッションとなります。とはいえ、何度も触れている通り、データの大容量化やシーケンサー/計算機の高性能化は とどまる気配を見せません。ネットワークの帯域もあればあるだけ使いたいような状況ですので、SINET の今後 の発展にも大いに期待しています。

ありがとうございました。

15. 衛星データの受信・処理・アーカイブおよびデータ配布

関連したドキュメント