Microsoft Word - htsst-axies2013_backup.doc

(1)

Extreme Big Data 時代に向けた

TSUBAME スーパーコンピュータでの取り組み

佐藤仁, 松岡聡東京工業大学学術国際情報センター [email protected] 概要：2010 年 11 月より、東京工業大学学術国際情報センターでは、スーパーコンピュータ「TSUBAME2」の運用を行ってきた。近年、様々な分野で、大規模なデータ処理の需要が高まってきており、TSUBAME2 上でも、例外ではなく、実験器や観測器、あるいは、スーパーコンピュータ上のシミュレーションから生成された大量のデータに対する分析処理への対応の要求が非常に大きくなってきている。本稿では、TSUBAME2 上での大規模データ処理に関する活動の一部を紹介し、将来のスーパーコンピュータ上での大規模データ処理にむけた活動について述べる。

1 はじめに

近年、情報技術の発達により、人類の取り扱うデータ量が爆発的に増加している。例えば、Google 社では1 日に 20 PB 以上のデータに対してクラスタ計算機を用いた並列分散処理を行っていると報告されている。科学技術計算の分野においてもこの傾向は当てはまり、高エネルギー物理学、生物学、天文学などの分野においても大規模なデータに対して並列分散処理を行う試みが広く行われている。東京工業大学(東工大) 学術国際情報センター(GSIC)では、2010 年 11 月よりスーパーコンピュータ「TSUBAME2」の運用を行ってきた。このTSUBAME2 も、例外ではなく、実験器や観測器、あるいは、スーパーコンピュータ上のシミュレーションから生成された大量のデータに対する分析処理への対応の要求が非常に大きい。本稿では、TSUBAME2 上での大規模データ処理に関する活動の一部を紹介する。まず、 TSUBAME2 の大規模データ処理を支えるアーキテクチャの構成の現状を示し、ひとつの事例として、どのようにストレージ構成が変遷してきたかを示めす。また、TSUBAME2 上で動作する大規模データ処理関連のソフトウェアについて紹介し、最後に、将来のスーパーコンピュータ上での大規模データ処理にむけた活動について述べる。

2 TSUBAME2 の構成

2010 年 11 月、東工大 GSIC では、スーパーコンピュータ「TSUBAME2.0」[1]の運用を開始した。さらに、2013 年 9 月、これまで TSUBAME2.0 に搭載されていたNVIDIA M2050 GPU アクセラレータをNVIDIA Tesla K20X へと置き換え、既存のTSUBAME2.0 をアップグレードし、理論ピーク性能 5.76PFlops(倍精度)、17.1PFlops(単精度)の TSUBAME2.5 の運用を開始した。図 1に、現在の TSUBAME2 の全体の構成について示す。 2013 年 9 月現在、TSUBAME2 は、1422 台の計算ノードからなり、総メインメモリ容量は 80TB を超える。また、各計算ノードにはSSD が搭載され、総容量は190TB 以上となっている。これらの計算ノードは、フルバイセクション構成の QDR Infiniband ネットワークにより相互に接続され、さらに、7PB 超の HDD によるストレージ領域や 4PB のテープライブラリ領域とも接続されており、大規模データ処理にも適した構成となっている。この章では、まず、2013 年 9 月現在の TSUBAME2 (version 2.5)の構成に触れ、その後、TSUBAME2 上での大規模データ処理を支えるストレージの構成の詳細について述べる。

(2)

x5

GSIC:NVIDIA Tesla S1070GPU PCI –E gen2 x16 x2slot/node

図 1 TSUBAME2 の全体構成 2.1 計算ノード TSUBAME2 の計算ノードは、1408 台の Thin ノード、24 台の Medium ノード、10 台の Fat ノードと呼ばれる計算ノード群からなる。これらの計算ノードの違いは主には搭載されるメモリ容量の違いからなる。これらの全ての計算ノード上で、 OS として、標準的な Linux である、64bit 対応の x86 ベースの SuSE Linux Enterprise Server 11 が動作している。従って、標準的なデスクトップ PC やサーバで動作する多くのオープンソースソフトウェアは特別な改変をすることなく動作させることが可能である。

Thin ノードは HP ProLiant SL390s G7 からなり、CPU として Intel Xeon X5670 2.93GHz (6 core)を 2 socket、GPU アクセラレータとして NVIDIA Tesla K20X を 3 つ搭載する。メインメモリとして計54GB (一部 96GB)の DDR3 メモリを搭載し、また、60GB (一部 120GB)の SSD 2 台をRAID0 によりローカルストレージを構成する。また、40Gbps の QDR Inifniband の HCA (Host Channel Adaptor)を 2 つ持ち、各計算ノードやストレージへ接続されている。

一方、Medium ノードと Fat ノードはともに HP ProLiant DL580 DL からなり、CPU として Intel Xeon X7550 2.0GHz (8 core)を 4 socket、 GPU アクセラレータとして NVIDIA Tesla S1070 (Medium ノードでは一部 NextIO vCORE Express 2070 を搭載) を備える。Medium ノードでは計128GB、Fat ノードでは DDR3 メモリを計 512GB(一部 256GB)搭載するが、ローカルストレージは Medium ノード、Fat ノードとも 128GB のSSD4 台を RAID0 として構成する。この他に、 40 Gbps の QDR Infiniband の HCA を 1 つ持ち、他の計算ノードやストレージへ接続されている。 2.2 ネットワーク 各計算ノードとストレージとの間は、QDR Infiniband のインターコネクトにより接続される。このインターコネクトは、2 段のスイッチからなるファットツリー・フルバイセクション構成で Dual rail により各 rail がファットツリーを構成する。エッジスイッチとして36 ポートの Voltaire GridDirector 4036 を 185 台(うち、6 台は Voltaire GridDirector 4036e)を持ち、各エッジスイッチのポートのうち、18 ポートは上流のコアスイッチに接続され、残りの18 ポートは下流のノードに接続される。コアスイッチは 324 ポートの GridDirector 4700 で、各 rail につき 6 台、計 12 台存在する。各ノードは 2 本の 40Gbps QDR InfiniBand によりエッジスイッチに接続され、2 本は Dual rail のそれぞれに接続される。各ストレージは、5 台の Voltaire GridDirector 4036 からなるエッジスイッチに接続され、これらのエッジスイッチは Dual rail の片方の各コアスイッチと 2 本の QDR InfiniBand によりファットツリーで接続される。 2.2 ストレージ TSUBAME2.5 のストレージは、1.2 PB のホーム領域と 6PB の並列ファイルシステム領域から構成される。ホーム領域は、1 台の DDN SFA 10000 ストレージシステムを、FC8 ネットワークを介して、 4 台の HP ProLiant DL 380 G6 サーバと 2 台の BlueArc Mercury 100 サーバに接続した構成となっている。ホーム領域は、QDR Infiniband

や10Gbps Ethernet 経由で NFS, CIFS, iSCSI

などでアクセスされ、TSUBAME2.5 上の/home 領域の提供や、教育、事務などの学内向けの様々なストレージサービスの用途に使用している。並列ファイルシステム領域は、TSUBAME1.0 の運用経験を基にI/O のスケーラビリティと信頼性を実現するために分割された複数の Lustre[2]、及び、GPFS[3]からなる並列ファイルシステムで構成される。総計で 30 台の HP ProLiant DL 360 G6 サーバに、DDN SFA 10000 をバックエンドのストレージシステムと

(3)

して、それぞれをQDR Infiniband を介してネットワークに接続した構成となっている。並列ファイルシステム領域の構成は、TSUBAME2 の運用が進むにつれ、利用状況に応じて再構成を行い変遷しているため、この点の詳細については、次章で詳しく述べる。これらのホーム領域、及び、並列ファイルシステム領域のストレージは、計 4 PB の Sun SL8500 のテープライブラリに接続され、適時バックアップされる。また、テープライブラリは、階層型ファイルシステムの基盤レイヤとしての利用もされている。これらのストレージ構成に加えて、 TSUBAME2.5 では、各計算ノードが 120-240GB の SSD をローカルストレージとして持ち、アプリケーションの一時ファイル生成やチェックポイントなどのような細粒度な I/O のために使用される。また、東工大GSIC では、2012 年 9 月末より、 TSUBAME2 の「革新的ハイパフォーマンス・コンピューティング・インフラ(HPCI)」の共用運用を開始した。HPCI では、現在、広域でのデータ共有環境の整備が進められており、理化学研究所計算科学研究機構、及び、東京大学情報基盤センターに設置されたストレージシステムを広域分散ファイルシステム「Gfarm」[4]で連携し、「HPCI 共用ストレージ」を構築している。東工大GSIC においても、この HPCI 共用ストレージの資源の一部として利用するために 600TB のストレージ(DDN SFA 12000)の導入を進めており、広域分散環境での大規模データの高度な利用の推進や、次世代のスーパーコンピュータのための大規模データ共有手法の検討を進めている。

3 TSUABME2 のストレージ構成の変遷

前節でも述べたとおり、TSUBAME2 のストレージの構成は、これまで利用状況により変遷してきた。この章では、TSUBAME2 のストレージの構成が、どのような理由によりどのように変更してきたか、について具体的に述べる。 3.1 TSUBAME2 稼働直後のストレージ構成 2010 年 11 月、TSUBAME2 の稼働直後の並列ファイルシステム領域のストレージ構成(2010 年 11 月〜 2011 年 3 月 ) を図 2 に示す。 MDS$x10 OSS$x20 Thin$Nodes Medium/Fat$Nodes Inﬁniband$QDR$Network$for$MPI

“Global$Work$Space”$#1 “Global$Work$Space”$#2 “Global$Work$Space”$#3 “Scratch”$$ “cNFS/Clusterd$Samba$w/$GPFS”$$ “NFS/CIFS/iSCSI$by$BlueARC”$$ Inﬁniband$QDR$Network$for$LNET$and$Other$Services

図 2 TSUBAME2 のストレージ構成 (2010 年 11 月-2011 年 3 月)

この地点では、全ての並列ファイルシステム領域は、/work0, /work1, /work9, /gscr の 4 つの Lustre ファイルシステムとして構成されていた。これは、TSUBAME1 の運用経験から、分割して複数のファイルシステムを構成したほうが、I/O のスケーラビリティと信頼性を実現しやすいと判断したためである。このうち、/wor0 は、 TSUBAME2 のユーザへの MPI-IO などの並列 I/O を伴うアプリケーション用のデータ領域、 /gscr は、Gaussian など、大量の中間ファイルの生成やスクラッチ I/O を伴うアプリケーション用の領域としての使用を意図した。また、/work1 は TSUBAME1 からの移行用のデータの保存領域として利用し、/work9 は未使用とした。図 3に、各 /work0、/work1, /gscr と同一の Lustre ファイルシステムの構成とその上での I/O スループット性能の結果について示す。Lustre ファイルシステムは、プロセスからの並列 I/O に高い性能を示すことが伺える。 Client'#1 Client'#2 Client'#3 Client'#4 Client'#5 Client'#6 Client'#7 Client'#8 IB'QDR'Network SFA 10k 600 Slots Data 560x 2TB SATA 7200 rpm 図 3 Lustre の構成と I/O スループット性能 3.2 階層型ファイルシステムの導入 TSUBAME1 の運用において、運用の末期である2009 年、2010 年は、ストレージの利用率が常

(4)

に80%〜90%となり、容量不足に陥り、運用に深刻な支障をきたしていた。このような背景により、 2010 年 3 月、Sun SL8500 のテープドライブを導入し、この慢性的なストレージ容量不足状態を劇的に改善して、効率的なストレージ利用の促進を図った。一方、このテープライブラリの導入は、主に、バックアップ用途を意図しており、TSUBAME2 のユーザからは利用しづらいものであった。しかし、数十〜数百テラバイト、ないし、ペタバイト規模の大容量のストレージを必要とするアプリケーションユーザの要求が年々増加しており、ユーザ自身によるストレージ領域の不要データのテープライブラリ領域へバックアップや、必要データのテープライブラリからストレージ領域へリストア、などの要望が高まり、既存のインフラでは対応できないことが問題となった。そこで、上記のような問題を解消するために、テープライブラリと連携して階層的なデータ管理機能を持つストレージシステムの導入を進め、 HSM(Hierarchical Storage Management)機能を持つGPFS 並列ファイルシステムの配備を行った。図 4がその構成図である。4 台の HP ProLiant DL 380 G6 と 4 台の HP ProLiant DL 360 G6 が NSD サーバとして動作し、2 台の DDN SFA 10000 ストレージシステムとQDR Infiniband を介して接続され、ストレージ機能を提供する。DDN SFA 10000 内は、System Pool と TSM (Tivoli Storage Manager) Pool と２つのパーティッションに分割して構成される。System Pool は GPFS による実際のファイルの格納のための領域として機能し、 GPFS の機能である ILM(Information Lifecycle Management)機能により定期的にアクセス頻度の少ないファイルをTSM Pool へファイルを転送する。TSM Pool は、TSM によりテープライブラリへファイルをバックアップ、ないし、リストアするためのバッファ領域として機能する。これらの機能が協調動作することにより、ユーザからは透過的に利用できる階層的なファイルシステムを構成する。 GPFS%#0% 785.05TB% Inode 1%Bil. GPFS%#1% 785.05TB% Inode 1%Bil. System%Pool TSM%Pool GPFS%HSM%Client%

TSM%Client GPFS%HSM%Client%TSM%Client

TSM%Server TSM%Server 図 4 階層型ファイルシステムの構成図 5 に GPFS ファイルシステムの構成とその上でのI/O スループット性能を示す。Lustre と比較して、若干性能が低いものの、複数プロセスからの大量の逐次アクセス性能では Lustre よりも良好な結果を得ていることが伺える。図 5 GPFS の構成と I/O スループット性能図 6にGPFS 直後の TSUBAME2 のストレージの全体構成を示す。Lustre 領域はこれまでと同様、 /work0、/work1, /gscr との 3 つの Lustre ファイルシステムとして構成された。Lustre 領域と GPFS 領域の使い分けは、Lustre が従来の並列 I/O を伴うもの、GPFS はテープライブラリと連動して動作するため、大量のデータを伴うビッグデータ向けのアプリケーションのものを意図した。 MDS$x10 OSS$x20

“Global$Work$Space”$#1 “Global$Work$Space”$#2 “Global$Work$Space”$#3 “Scratch”$$ “cNFS/Clusterd$Samba$w/$GPFS”$$ “NFS/CIFS/iSCSI$by$BlueARC”$$ Inﬁniband$QDR$Network$for$LNET$and$Other$Services 図 6 TSUBAME2 のストレージ構成 (2011 年 4 月〜2012 年 3 月) 3.1 大規模ストレージの耐故障性 2011 年度末から、TSUBAME2 の利用が進み、ストレージへのアクセス集中による I/O スループ

(5)

ットの低下や、ストレージの故障などが頻発するようになった。ハードウェアの故障としては、HDD 故障やストレージコントローラの故障が圧倒的に多かった。しかし、これらの故障は、大抵の場合、コンポーネントの交換により対応可能であり、交換も運用中に可能であるため、ユーザへの影響はほとんど見られなかった。一方、ソフトウェアの故障に関しては、Lustre やGPFS など、フェイルオーバなど耐故障機能をサポートしているものの、ユーザへ多大な影響を与えた。例えば、Lustre においては、ソフトウェアのバグによるOSS や MDS のハングアップ、対象としているストレージ領域がinvisible になるなどの事象が発生し、ストレージサーバが過負荷状態になり、I/O スループットが著しく低下した。 GPFS では、ネットワーク故障の影響により、 GPFS のメタデータに不整合が発生した。前者の事象は、ストレージアクセスに対して、サーバ数が少なすぎることが問題であり、後者に関しては、ストレージのネットワークを共用しているがために問題が発生したため、サーバ増加と分離されたストレージネットワークの構築を行った。図 7 が全体構成である。TSUBAME1 の経験よりこれまで少数のファイルシステムを複数構築し運用を行ってきたが、近年、Lustre のソフトウェアの性能、や安定性の向上により大規模環境での運用でも問題ないと判断したため、このような構成変更を行った。これらの改良以降、TSUBAME2 のストレージは安定的に稼働している。 GPFS with HSM

Infiniband QDR Network for LNET and Other Services

10GbE × 2 QDR IB (4x) × 16 GPFS#1GPFS#2 GPFS#3GPFS#4 FC SFA10k #6 HOME System application HOME iSCSI “cNFS/Clusterd Samba w/ GPFS” “NFS/CIFS/ iSCSI by BlueARC” Lustre /work0 /work1 /gscr0 Lustre 3.6 PB SFA10k #5 SFA10k #4 SFA10k #3 /data0 /data1 SFA10k #1 SFA10k #2 /hpci0 2.4 PB HDD + 4PB Tape SFA12k #1

Gfarm for HPCI

600TB QDR IB (4x) × 16 QDR IB (4x) × 20 QDR IB (4x) × 20 QDR IB (4x) × 4 図 7 TSUBAME2 のストレージ構成 (2013 年 9 月現在)

3 データインテンシブミドルウェアの

整備状況

TSUBAME2 では、大規模データ処理向けのソフトウェアに関しても整備を進めている。ここでは、それらのいくつかの事例について紹介する。 3.1 並列ワークフロー 一般的なスーパーコンピュータでは、他のジョブの影響を受けることなく計算資源を効率良く利用するために、バッチジョブスケジューラを介してジョブ実行を行っている。TSUBAME2 でも、 PBS Pro を用いている。一方、科学技術計算では、同種のジョブを、パラメータを変えて大量に実行するパラメータサーベイ型のアレイジョブや、依存関係のあるジョブを多数実行するようなワークフロー型のジョブなど、複雑なジョブの実行を要求するものが非常に多い。このようなジョブに対応するために、TSUBAME2 では GXP make などワークフローツールの整備を進めている。 GXP make[5]は、東京大学を中心に開発が進められている並列ワークフローシステムである。 make は、プログラムのコンパイル、リンクの際にソースファイル間の依存関係を自動的に解決し、目的のファイルを生成することを支援するユーティリティである。make と並列分散シェルである GXP[6]の組み合わせにより、依存関係のあるジョブのワークフローとしての実行を可能にしている。もともと、GXP はグリッド環境のような広域並列環境での利用を指向していたが、バッチジョブスケジューラでの利用にも対応し、TSUBAME 上の PBS Pro への利用も可能になっている。また、 TSUBAME では、一部、PBS Pro をカスタマイズしたコマンドを使用しているが、これらへの対応も行っている。また、TSUBAME2 では、GXP をワークフロー型のジョブだけでなく、パラメータサーベイ型のジョブへも対応を進めている。元来、バッチジョブスケジューラであるPBS Pro でもパラメータサーベイ型のアレイジョブの実行が可能であるが、 TSUBAME2 では、大量のアレイジョブを大規模に実行した場合、スケジュールのための時間、オーバーヘッドが著しく増大するという問題が発生した。GXP make ではこのようなオーバーヘッドが少ないため、これらの事象に対応するために

(6)

GXP make を基盤に PBS Pro のアレイジョブ実行の際のコマンド群と類似したコマンドを提供している。 3.2 MapReduce MapReduce は、近年注目されている、大規模データに対する並列分散処理を行うためのプログラミングモデルであり、分散したkey-value のペアデータに対して統一的な操作を並列で適用し，データへのアクセスの局所性を考慮したスケーラブルなデータ処理を実現する。データ処理のプロセスをMap，Shuffle，Reduce の 3 つのフェーズに分解し、Map フェーズで入力データとなる key-value ペアから中間データとなる key-value ペアを生成し、Suffle フェーズで同じ key に対してvalue のリストを生成し、Reduce で中間データをShuffle することにより得られた key と value のリストから最終出力となるkey-value のペアデータを生成するというものである。典型的な例では、ウェブのデータ解析などの処理に適用され、数千台規模の大規模なクラスタ計算機において、ノード数に応じたスケーラビリティを得ている。また、様々な機械学習アルゴリズムへMapReduce を適用して有効を示した事例をはじめ、機械学習ライブラリであるAache Mahout やグラフマイニングシステムのPEGASUS などの MapReduce アプリケーションのエコシステムも構築されつつある。 TSUBAME2 においても、ユーザからの大規模データ処理への要望は高く、MapReduce 処理の代表的なオープンソース実装である Hadoop[7]を実行したいというものも挙がっている。そこで、我々は、Hadoop を TSUBAME2 での実行に適するように改良した Tsudoop[8]と呼ばれるツールを開発している。TSUBAME2 は、バッチジョブスケジューラである PBS Pro が動作しているため Hadoop との連携動作が必要であったり、ストレージもLustre, GPFS、計算ノードのローカルストレージのSSD など、典型的な Hadoop の実行環境とは若干異なる部分があったりし、また、GPU アクセラレータのHadoop からの活用法も明らかでない。 Tsudoop は、TSUBAME2.0 上のジョブスケジューラであるPBS Pro や、Lustre などの並列ファイルシステム、ノード上の複数のSSD からなるローカルストレージなどの既存のシステムと協調動作して、オンデマンドで TSUBAME2.0 に Hadoop 環境を構築し、ユーザの MapReduce アプリケーションを実行する。実行の終了後は、自動的に Hadoop 環境の破棄を行う。図 8 は、 Tsudoop の概要図である。また、GPU アクセラレータの活用に関しても、GPU アクセラレータ上で Map タスクを動作させ、自動的に CPU と GPU アクセラレータ間で Map タスクのハイブリッドスケジューリングを行う手法の開発などを進めて

いる。

File%Systems%(HDFS,%Lustre,%etc.)

ﬁle

node node node node

Task+ Tracker

node Job+ Tracker

Job Job Job Job

PBS%Pro%

Task+

Tracker TrackerTask+ TrackerTask+

①+run+tsudoop4sub+by+user+ ②+acquire+compu:ng+nodes++ +++++++by+using+PBS+Pro+ ③+invoke+JobTracker+and+TaskTrackers+ +++++++(op:onally++NameNode+and+DataNode)+ client+ ④+submit++a+MapReduce+job+to+the+JobTracker++ ⑤+run+Map Reduce+tasks+on+the+TaskTracker+nodes+++ ⑥ I/O+to+FSs+(HDFS,+Lustre,+etc.)+++ ⑦ kill+JobTracker+and+TaskTrackers,++ +++++++++(op:onally+NameNode+and+DataNode).+

file file file file file

図 8 TSUDOOP の構成

4 おわりに〜将来に向けて

現状の「ビッグデータ」は、データ量が高々数百ギガバイト～ペタバイト級であり、その用途は「顧客の全体的な購買動向を調査、その為時系列的に伝票のデータマイニングを行う」等で、数台～数百台の安価なクラスタやクラウド上の HDD にファイルとして分散し、処理はリニアスキャンや、RDB からのインデクシングアルゴリズムの拡張で済む場合が多い。その理由は(1)データが企業内に閉じている「サイロ化」のため、データ量・種別とも少ない、(2)ビッグデータの黎明期で、そのようなデータの

(7)

「制限」によりアプリのバラエティが少なく機能要求が低い、(3) ビッグデータに供されるハードウェアやシステムソフトウェアの性能が低く、(1)-(2)の自己抑制が働く、という悪循環が考えられる。実際、Google は 2008 年に「ペタバイトソート(実際は高々10 テラ要素)」をサーバ 4800 台・ HDD4 万 8 千器で 6 時間にて達成し、2011 年にはサーバ8000 台で 33 分に短縮した。その資源量は世界のトップ 10 スパコンに匹敵するが、ソート速度は高々55 億要素/秒であり、ペタバイト級のメモリを持つトップスパコンなら 100 倍～500 倍の速度が得られることを予測できる。非定型ビッグデータ処理の下地のグラフ処理も、処理速度の世界ランキングの Graph500 (http://www.graph500.org) は全てスパコンが占め、IDC・クラウドの影はない。この理由は本質的で、「真の」ビッグデータ処理は、本質的にハード的にメモリ・ネットワーク・I/O バンド幅を要求し、かつそれらを生かすシステムソフトウェアを要求するが、Google, Amazon, MS Azure 等の現状のビッグデータに供されるハードウェアやシステムソフトウェアはIDC・クラウドのweb やビジネスホスティングからの転用であり、超高性能 I/O 性能を達成するのが困難だからである。例えば、IDC の典型的なネットワークは各ノードの 1GbE がラック単位(20-40 ノード)で縮退した 10GbE に集約され、上位層はさらに縮退される。それ故、(近年は多少改善されつつも)IDC の 10 万ノード級ネットワークのバイセクションバンド幅は高々数テラビット/秒・ end-to-end のレーテンシはサブミリセカンドが典型である。一方スパコン東工大 TSUBAME2.0 は 1400 ノードにもかかわらず 220 テラビット/秒のバイセクションバンド幅を持ち、レーテンシは僅か2 マイクロ秒で、高性能システムソフトウェアでその性能が維持されている。I/O も、IDC・クラウドでは仮想化等の多大なオーバーヘッドで低性能化しており、 GFS(Google File System)等のクラウドのファイルシステムでは、容量は数十万台で数百ペタバイト級だが、I/O 性能は低い。このようなIDC・クラウドの処理環境でも、現状の小規模レベルの「ビッグデータ」ならば当面問題ない。しかし、ビッグデータは先の量的・質的進化とともに急速に変容する事が予測され、Intel 等も同様の指摘をしている。特にオープンアクセスの一般化によるデータの公共化と、同時に、センサ及びユビキタスネットワークの進化でIoT(Internet of Things)が本格化により、ビッグデータは「一見相関がない、エクサ～ゼータ～ヨッタバイト/年にも及ぶ、一見無関係な様々な超大量の継続的な多次元・マルチ解像度のデータストリームから意味のある情報を抽出し、単なる解析だけでなくシミュレーションとリアルタイムでマッチングする」処理に変貌する。また、処理形態も、 MapReduce などを用いたリニアなスキャンやインデキシングでの高速化では不十分で、莫大

なデータのO(n log n), O(m×n), …の、計算や

データ転送コストが高い複雑なアルゴリズムでの処理が必須となる。このような変貌は、オープンデータが主流になってきた科学研究の世界では先駆けて起こっており、総称的に「データ

科学」あるいは「Data Intensive Computing」

等と呼ばれるが、それを実現するための現状のビッグデータインフラの不備が多く指摘されている。我々は、このような状態を Extreme Big Data(EBD)と呼び、上述のような問題を解決するような研究活動、例えば、フラッシュなどをはじめとする不揮発性メモリの活用手法、大規模データ処理へのアクセラレータの活用、などを現在積極的に進めている。成果の一部は、次世代のスーパーコンピュータの設計、構築に活用されることを目指している。

(8)

参考文献

[1] Satoshi Matsuoka, Takayuki Aoki, Toshio Endo, Hitoshi Sato, Shin’ichiro Takizawa, Akihiko Nomura, and Kento Sato, “TSUBAME2.0: The First Petascale Supercomputer in Japan and the Greatest Production in the World”, Comtemporary High Performance Computing From Petascale toward Exascale Chapter 20, pp. 525-556, 2013.

[2] Lustre , “http://www.lustre.org”

[3] Frank Schmuck and Roger Haskin, “GPFS: A Shared-Disck File System for Large Computing Cluster”, Proceedings of the FAST ’02 Conference on File and Storage Technologies.

[4] Gfarm, “http://datafarm.apgrid.org/”

[5] Kenjiro Taura, Takuya Matsuzaki, Makoto Miwa, Yoshikazu Kamoshida, Daisaku Yokoyama, Nun Dun, Takeshi Shibata, Choi Sung Jun, Jun’Ichi Tsuji, “Design and implementation of GXP make – A workflow system based on make”, Future Generation Computer Systems, Volume 29 Issue 2, 2013. [6] GXP, “http://www.logos.ic.i.u-tokyo.ac.jp/gxp/” [7] Hadoop,”http://hadoop.apache.org/" [8] 佐藤仁 , 松岡聡 , “TSUBAME2.0 上での Hadoop の性能評価”, 情報処理学会研究報告 2011-HPC-129(16), pp. 1-8, 2011.