Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

(1)

大規模処理ベンチマー _Graph500 へ

２次元分割適用と性能評価

昸司

†

鈴村豊郎

††

Graph 500 ，ケードーカンヌューシエメネ処理性能を測定る新いパンスブーェあるケドカンパンスブーェ，数値計算性能を測る_Linpack

よる _{Top 500} 暼，近，大規模エメネ処理，要性を増り，

Graph500パンスブーェ広りを見いる _Graph500 モネ゙ヤンケ実装，使用されいる゚ャガモゲヘ問題より，分散ベペモ環境大規模ケォーャ

さるここ，大規模ケォーャ可能次元分割注目

本論文，次元分割を_TSUBAME2.0 実装，₅₁₂テーチ頂点数 2³⁶ 68.7 billion ^， ^数2⁴⁰ 1.1 trillion ^{エメネ} Graph500 Scale 36 BFS(^幅優先探索₎を_24.12 計算 _TEPS値 _22.8GE/s あり，次元分割よる

実装大規模分散可能あるこ分，ェメケシ型ケドカン

一般的 _InfiniBandヅッダワーェ環境，大規模エメネ処理適いるこ分

Performance Evaluation of the Large-Scale

Graph Analysis Benchmark, Graph500 with 2D

Partitioning Method

Koji Ueno

^†

and Toyotaro Suzumura

^††

Graph500 is a new benchmark that ranks supercomputers by executing a large-scale graph search problem. Our early study reveals that the provided reference implementations are not scalable in a large-scale distributed environment. In this paper we implement an optimized method based on 2D based partitioning. Our implementation can solve BFS (Breadth First Search) of large-scale graph with 2³⁶ 68.7 billion vertices and 240 1.1 trillion edges for 24.12 seconds with 512 nodes and 12288 CPU cores. This record corresponds to 22.8 GE/s. We found 2D based partitioning method is scalable for large-scale distributed systems. We also demonstrate thorough study of performance characteristics of our optimized implementation and reference implementations in a large-scale distributed memory supercomputer with the Fat-Tree based Infiniband network.

1. ^{じめ}

大規模エメネ処理 _Webヒーグモンェ解析，シンドェ質間相互作用解析，_VLSI ヤ゜゚ゞダや路網，送電網暷適化様々応用分あり，近盛ん研究されいる従来，ケードーカンヌューシ物理クプュヤークョン数値計算，主使われ，大規模エメネ処理要゚ハモォークョンりあり，よう中，ケドカンエメネ処理性能を測定る，Graph 500 [1] ^{いう新} ^{いパ} ンスブーェ場，注目を集いる _{Graph 500} ，ケドカン通信性能や，エメネターシを格納るベペモ大さや，ベペモメンジペェコケ性能を測るいう，ターシ゜ンゾンクノパンスブーェあり，数値計算性能を測る_{Top 500}パンスブーェ計測る性能全く異る

Graph500 ^新いパンスブーェあり，暷適化関研究少い々 [15] ^い，モネ゙ヤンケ実装゚ャガモゲヘや性能解析を行いるこ得られ知見基い，本論文次元分割よる隣接行列分割方法_[2] 着目，大規模分散環境ケォーャ可能 _Graph500 実装方法を提案る，分散ベペモ環境大規模実行場合性能特性を調査本論文貢献，

1. ^{次元分割} ^{よる分散}BFS^をTSUBAME2.0 ^{実装}

2. TSUBAME2.0 ^{大規模} ^{実行} ^，2^{次元分割} ^{よる実装} モネ゙ヤンケ実装性能を比較

3. ^{次元分割} ^{よる分散}BFS ^{，大規模} ^{分散可能} ^{あるこ} ^{を実証}

以降，₂章 _Graph500パンスブーェ概要，分散_BFS゚ャガモゲヘい，₃ 章モネ゙ヤンケ実装大規模分散環境けるケォーメニモゾ゛問題い，₄ 章 ₂次元分割よる分散_BFS゚ャガモゲヘ実装い，₅章 ₂次元分割よる実装モネ゙ヤンケ実装性能を比較，₆章考察，₇章関連研究，₈章

今後展望ある

2. Graph500^{ベンチマー} ^とBFS ^ゴ ^ム

こ章，_Graph500 パンスブーェ概要，分散 _BFS ゚ャガモゲヘい述るさら，分散_BFS゚ャガモゲヘ行列パェダャ積関係い説明る 2.1 Graph500^{ベンチマー} ^{概要}

Graph500 ^{，大規模} ^{エメネ} ^対 BFS よる探索を実行るパンスブーェ

†

東京業大学

Tokyo Institute of Technology

††

東京業大学 _IBM東京基礎研究所

Tokyo Institute of Technology / IBM-Research Tokyo

(2)

ある単昷間処理数，扱える暷大問題キ゜ゲ評価指標る計算

゜ンゾンクノ _Top500パンスブーェい，_Graph500パンスブーェ，ターシ゜ンゾンクノパンスブーェある扱える問題キ゜ゲ，エメネ頂点数₌₂

SCALE

あるよう _SCALE 値表単昷間処理数，TEPS (Traversed Edges Per Second) ^値 ^表 ^{例え} ^，100^万TEPS ^，100^{万個} ^{を持} ^{連結エメネ} BFS

1 ^{完了} ^{場合} ^{性能} ^{ある}

パンスブーェを実行るハュエメヘ，_(a)エメネターシ生，_(b)計算る暷適ターシ構変換，_(c)BFS よる探索，_(d)計算結検証部分らるパンスブーェ実行順次よういる暷初 _(a),(b) よりエメネターシを構築，エメネら始点を ₆₄個選ぶ次，₆₄個始点れれ対順番

，_(c)BFS よる探索，_(d)計算結検証を行う複数始点ら探索を昷行うこい昷間を計測パンスブーェる部分，_(b) エメネターシ構

変換 _{Kernel 1} ，_(c) _BFS よる探索 _{Kernel 2} ある _(a) ，数頂点数 ₁₆ 倍るようェュヅッィーエメネ_[3]を生る

，無向辺あるここ生されるターシ規則性い順番並ん，モケダある _(b) _(a) 生されモケダら，隣接行列 CSR (Compressed Sparse Row)^{や，}CSC (Compressed Sparse Column) エメネターシ構変換る _(c) BFS ^，BFS ^辿 ^{頂点} ^{軌跡} ^{ある}BFS^{木を出力} ^る (d) ^{，こ} BFS^木正いうスゟッェるこスゟッェ，_BFS木ャーハいこ，張いる頂点士深さ差 ₁以あるこ， ₅ ャーャを満いるこをスゟッェる

Graph500^{モケダ} ^表 ^，2011 11^暻 ^{モケダ} 3^{回目} ^る ^，3^{回目} ^{らモ} ケダ集計方法変わり，₂ 回目問題キ゜ゲメンキンエを決い，₃ 回目ら，_TEPS値メンキンエを決るよう

2.2 Level-synchronized BFS

゚ャガモゲヘ : Level-synchronized BFS

1 for all vertex v in parallel do 2 | PRED[v]← -1;

3 | VISITED [v] ^← 0;

4 PRED [r] _{← 0} 5 VISITED[v] ^← 1 6 Enqueue(CQ , r) 7 While CQ != Empty do 8 | NQ ← empty

9 | for all u in CQ in parallel do 10 | | u ← Dequeue(CQ)

13 | | | | VISITED [v] _{← 1;} 14 | | | | PRED [v] ← u; 15 | | | | Enqueue(NQ, v) 16 | swap(CQ, NQ);

゚ャガモゲヘ Level-Synchronized BFS ^{擬似カーチ} ^{ある} ^，BFS^{木を格} 納る_PRED ，頂点訪問済うを格納る_VISITEDを初期化る _PRED[v] 頂点_v _BFS木ける親頂点を表初期値_-1 _BFS木入いいこを表いる _VISITED[v] 頂点_v 訪問済うを表初期値₀ 訪問いいこを表いる次，_BFS 始点る頂点をCQ (Current Queue)

入れ，探索を開始る

探索い，_7~16 行ャーハヤパャ相当るこャーハ中，_CQ 現ヤパャ訪問る頂点，NQ (Next Queue) ^次 ^{ヤパャ} ^{訪問} ^{る頂点} ^格納されいる例え，ヤパャ₁ _CQ 頂点 γ 入いる，_{11, 12}行目

γ 隣接頂点訪問済うスゟッェされ，訪問いい頂点 _NQ 格納されるヤパャ ₂ _CQ これら頂点格納されいるこる ₉ 行目 _for ，₁₁行目 _for 並列化可能ャーハある

Graph500 モネ゙ヤンケ実装，_OpenMP 書れ実装や，_MPI 書れ実装，_Cray 共暼ベペモ型ハュエメプンエ環境用実装，複数種類用意されいる _TSUBAME2.0 分散実行る，_MPI 書れ実装を使用る _MPI 書

れ実装，さら゚ャガモゲヘや実装方法異る₄種類実装用意されいるこれら実装，対象いるハュエメプンエ環境や分散方法異る

，全パーケる゚ャガモゲヘ Level-synchronized BFS^{を使} ^{いる} ^こ

゚ャガモゲヘ，各ヤパャ深さい，ヤパャ頂点を処理ら，次ヤパャ進いう゚ャガモゲヘある

モネ゙ヤンケ実装 _MPI実装，基本的 Level-synchronized BFS^{を実装} いる，エメネターシ分散方法いあるモネ゙ヤンケ_MPI実装処理方いを簡単理解る，次 Level-synchronized BFS ^{疎行列パ} ェダャ積関係い説明る

2.3 Level-synchronized BFS^{と疎行列ベ} ^ト ^積

Level-synchronized BFS ^{分散処理} ，行列パェダャ積分散処理似いる行列パェダャ積，_{x, y}をパェダャ，_Aを行列，_y=Axを計算るこあるこ

(3)

こ，_Aをエメネ隣接行列る要素値，対応るある場合_1, い場合 0 ^{ある} ^，x^をCQ (Current Queue) ^{相当} ^{るパェダャ} ^る ^{頂点} v^∈CQ ら_x(v)=1, ういら_x(v)=0 あるここ，_x(v) パェダャ_x _v番目値あるる，行列パェダャ積結あるパェダャ_y ら，_CQ 入いる各頂点隣接頂点以 _CQ 隣接頂点分るこれ，頂点 _v 対応る値_y(v) ゴュけれ，頂点_v _CQ 隣接頂点いるらある _CQ

隣接頂点分るいうこ，゚ャガモゲヘ ₁₁行目頂点_v 分るいうこ，こ行列パェダャ積，゚ャガモゲヘ _9~11 行目計算をこる実際，モネ゙ヤンケ_MPI 実装，行列パェダャ積よう方法， CQ 隣接頂点を計算いる

行列パェダャ積容易並列化可能問題あり，様々並列化方法考えられるモネ゙ヤンケ_MPI実装，replicated-csr, replicated-csc, simple, one_sided

用意されいるモネ゙ヤンケ実装使用いる゚ャガモゲヘ，隣接

行列分割方法い，大く分けるこる隣接行列を縦

分割る方法(replicated-csr, replicated-csc ^{当，}^図1 )^， ^う ^横 ^{分割} ^る方法(simple, one_sided ^{当，図}1 ^右) ^{あり} ^図 ^，P^個 ^{ハュコッキ} ^{ある場合}

2 ^{分割方法} ^{よる}Level synchronized BFSを行列パェダャ積表あるハュコッキ_k 部分隣接行列_A_kを持いる隣接行列部分，ハュコッキ持いる，ハュコッキ_k 持いい図中パェダャ_x _CQ

相当るある

，

図₁行列を縦_P個分割，行列を横_P個分割右

3. ^ン ^{実装} ^ー ^ビ ^テ ^{おける問題}

こ章，モネ゙ヤンケ _MPI 実装 replicated-csr, replicated-csc, simple, one_sided ゚ャガモゲヘを説明，゚ャガモゲヘよ引起こされるケォ

ーメニモゾ゛問題い述る

3.1 ^ン ^{実装}: Replicated-csr, Replicated-csc

隣接行列を縦分割るreplicated-csr^やreplicated-csc ^以 ^，^{両方合わ} replicated る，_CQ 全体を，ハュコッキカヌーる各ハュコッキ，自分持いる部分隣接行列を使，_CQ 隣接頂点を探，自分担当る領域

PRED, NQ^{を計算} ^る

CQ ^{を，} ^{ハュコッキ} ^{カヌー} ^る ^{いう} ^， ^{り，分散} ^持 ^いる_NQを，ハュコッキ送信るいうこある _CQや_NQ 頂点ニッダ表こ可能，ターシ大くく，分散数小さい場合，通信ターシをく抑えるこ，暼効計算方法る，_CQ

大さ，エメネ全体頂点数比例る，ハュコケあり通信ターシエメネ全体頂点数比例るよ，分散数非常大場合，こカヌー膨大通信必要り，問題る

図₂ weak-scaling ^{ける}replicated ^{テーチあ} ^り ^{通信ターシ}

図₂ _replicated テーチあり通信ターシある問題キ゜ゲ weak-scaling テーチあり_{Scale 26} テーチありハュコケ計算場合理論値ある Weak-scaling ^{，テーチ数} ^{増加} ^{比例} ，問題キ゜ゲ増加る，頂点数増加るテーチあり通信ターシエメネ全体頂点数比例増える，図₂ ようるよ，ケォーャいこ容易想像る

(4)

3.2 ^ン ^{実装}: simple, one_sided

隣接行列を横分割る_simple ，_CQを_P個分割配置く _NQ P^{分割され} ^{いる} ^{，前} ^{ヤパャ} ^{計算され} NQ^を CQ 使え良い各ハュコッキ，分割され _CQ ，自分持いる部分隣接行列ら，_CQ 隣接頂点を探 _CQ 隣接頂点を使 _PREDや_NQを更新る，ここ

見 _CQ 隣接頂点，自分担当る頂点あれ，ハュコッキ担当る頂点ある自分担当る頂点自分処理，ハュコッキ担当る頂点，ハュコッキ送信，処理らうここ送信される_CQ 隣接頂点数，暷大，送信元ハュコッキ持いる部分隣接行列数

るよ，通信ターシテーチ数十分大い場合，テーチ数関係く一定る，縦分割る _replicated 通信るターシ_(CQ) 頂点

ニッダあ対，横分割る_simple ，_CQ 頂点，隣接頂点組を送信けれらいこれ，_PRED 更新親頂点 _CQ 頂点必要るある，分散数少い場合，縦分割る_replicated 方通信ターシ少くる，_replicated 方暼利ある

図₃ _TSUBAME2.0 全対全通信を行昷通信度 one_sided ^{通信} MPI one_sided^{操作を使用} ^{る実装} ^{ある} ^，゚ャガモゲヘ

simple ^{ある} ^4. ²^{次元分割} ^{よる} ^ー ^{実装}

隣接行列を横分割る，simple, one_sided ^，replicated ^{よう} ^{通信ターシ} 問題い，_CQ 隣接頂点を担当頂点送信るころ，テーチテーチ異るターシを送信る全対全通信必要るこ通信大規模分散さ場合，ケォーャさるこいこれ次ようブ

゜ェュパンスブーェ結ら明らある

モネ゙ヤンケ実装分割方法ら隣接行列を次元分割方法ある前章述り ₁ 次元分割分割方法らケォーャさるこいこ，隣接行列を₂次元分割る゚ャガモゲヘ ₂次元分割 [2] ^{を実装}

図₃ ，_TSUBAME2.0 全対全通信を行場合，通信度あるテーチあり_4MPIハュコケ _MPI実装 MVAPICH2 1.6[4] ^{ある} ^{通信} MPI_Alltoallv^{を使} い，こ関数送信トッネ゙ 64, 256, 1024MB 3^{種類} ^大 ^さトッネ゙を入力さ各テーチ各テーチ送信るターシ，トッネ゙例え _1024MB

，_MPIハュコケ数 ₂₅₆ こ場合，テーチ数 ₆₄ 場合，_4MB る図ら，全対全通信ケォーャいいこ分る ₅₁₂ テーチ，_64MB 小さいトッネ゙極端遅くり，，_1024MB いう大トッネ゙を用意， 32^{テーチ} ^{場合} ^比 ^度 1/4^以 ^{いる} TSUBAME2.0 ^{ヅッダワー} ェ _Infiniband よる_Fat-Tree ，理論ヌーェ性能されれ，テーチ全対全通信を行場合，度生いよ，サネダゞゟ゚アートバッチよる度大く影響いる考えられる

4.1 ^{２次元分割} ^{よる分散}BFS ^ゴ ^ム

ハュコッキを_P__R__C ₂次元ベックュ_(mesh) 配置るこベックュ行をハュコッキ行，列をハュコッキ列呼ぶこる隣接行列を図₄ よう

個行 _C個列分割，ハュコッキ，隣接行列

(C) C^{ノュッ} ェを担当る頂点，

C R_ j)

(i, A⁽¹⁾_i,_j ~A_i,_j C

R_ ^個 ^{ノュッェ} ^{分割} ^，^{ハュコッキ} ^， _ ^番目ノュッェを担当る

j)

(i, j R_i

ヤパャ，_Expand _Fold 呼れる段階通信を行う各ヤパャ行う操作い説明る各ハュコッキ自分担当る頂点ノュッェ _CQを

ハュコッキ列ハュコッキ送信るこれを_Expand いう _Expand 次元分割縦分割よう，_CQをカヌーる通信ある，隣接行列横 _C 個分割されいる，通信，ハュコッキ列ハュコッキけ行う次，各ハュコッキ _CQ 各ハュコッキ持いる部分隣接行列ら，_CQ 隣全対全通信必要るsimple, one_sided ^{ケォーャ} ^い

(5)

接頂点を探 _PREDや_NQを更新る，_CQ 隣接頂点を，頂点担当ハュコッキ送信るこ通信を_Fold いう _PREDを更新る，親頂点必要

，_Fold ，_CQ 隣接頂点，親頂点 _CQ 頂点組を送信るこる _Fold 次元分割横分割よう，_CQ 隣接頂点を担当ハュコッキ送信る通信，次元分割，隣接行列分割方法ら，_Fold 通信を行う必要ある相手，ハュコッキ行ハュコッキるこよう，次元分割種類分割方法を合わ方法あり，_C=1 縦分割図，

R=1 ^{横分割} ^図 ^右 ^る

図₄ 隣接行列次元分割

次元分割利点，通信絡ハュコッキ数少いこある次元分割

，種類分割方法ら，全対全通信必要対，次元分割場合，_Expand 列テーチ_(R-1)ハュコッキ，_Fold 行テーチ_(C-1) ハュコッキ通信を行わいよ，通信るハュコッキ数を少くるこ

，大規模分散可能る 4.2 ^{実装方法}

Expand ^{通信} ^，CQ^をMPI Allgather^{を使} ^{実装} ^{これ} ^，モネ゙ヤンケ

実装 _replicated 使われいる方法ある _Fold 通信，_CQ 隣接頂点を探

，送信る送信側，頂点を受信 _VISITEDや_{PRED, NQ}を更新る受信側シケェ分解，これらを並列化さら，通信を非期行いるこれらより高効率処理を実現゚ャガモゲヘ，実装゚ャガモゲヘ擬似カーチある

゚ャガモゲヘ _{: 2}次元分割よる_BFS 実装

1 for all vertex lu in NQ do 2 | NQ[lu] ← 0

3 NQ [root] ← 1 4 fork;

5 for level = 1 to

_

6 | CQ ← all gather NQ in this processor-column; 7 | parallel Task A and Task B

8 | Synchronize;

9 | if NQ =

_

for all processors then 10 | | terminate loop;

11 join;

Task A (^{送信側})

1 for all vertex gu in CQ parallel do (contiguous access) 2 | if CQ [gu] = 1 then

3 | for each local vertex v adjacent to gu do

4 | | send tuple (gu, v) to the processor which owns vertex v

Task B (^{受信側})

1 for all received tuple (gu, v) parallel do 2 | if visited[v] = 0 then

3 | | PRED[v] ← gu; 4 | | VISITED[v] ← 1; 5 | | NQ [v] ← 1;

，_OpenMP を使ハュコケ内ブャスケヤッチ化行い，_MPI OpenMP デ゜ノモッチ並列実装

5. ^{性能評価}

こ章，東大ケドカン_TSUBAME2.0 性能評価結い述る TSUBAME2.0 ^，1400^以 ^{テーチ} Fat-Tree よるネャト゜コェクョン _Infiniband ヅッダワーェ接続されいる各テーチ，Intel CPU Xeon 5670 2.93GHz

(6)

Westmere EP,^，6^{カ゚，}256-KB L2 ^{キホックュ}, 12-MB L3) ^，NVIDIA M2050 GPU (Fermi) ^，48GB ^{ベペモ} ^{搭載され} ^{いる} ^{通信} ^，^{各テーチ} Infiniband QDR モンェ使用可能，合計_80Gbps 通信トンチ幅を備えいる

暷大₅₁₂テーチ使用実験，_GPU 使用いい _TSUBAME2.0 1^{テーチあ} ^{り物理カ゚}12^個 ^，SMT^{を暼効} ^る ^{仮想的} 24^{カ゚} ^る 1 ^{テーチ} 24 ^{カ゚} ，各ハュコケ均等割り振 gcc 4.3.4 (OpenMP 2.5), MVAPICH2 1.6 [4]^{を使用} ^{比較} るモネ゙ヤンケ実装，執筆昷点暷新 _version 2.1.4 ^{ある}

以実験，次元分割ハュコッキ配置_R__C 表よう _R _C 値通信ターシ関係らるく近い値るようある _R,C 使用テーチ数関係無く，_MPIハュコケ数ら決定

ハュコケ数 1 2 4 8 16 32 64 128 256 512 1024

R 1 1 2 2 4 4 8 8 16 16 32

C 1 2 2 4 4 8 8 16 16 32 32

，問題キ゜ゲ， weak-scaling ^{テーチあ} ^りScale 26

り，実行テーチ数，例えテーチ場合_{Scale 26}，テーチ場合_{Scale 27}，テーチ場合_{Scale 28} あるこ問題キ゜ゲタ゛ケェケダヤーグを使用

い場合暷大キ゜ゲある

図₅ 次元分割モネ゙ヤンケ実装を比較 ₁～₁₂₈テーチ

図₆ 次元分割モネ゙ヤンケ実装を比較 ₁～₅₁₂テーチ

図₇ テーチあり通信ターシ比較

図 _{5, 6} 次元分割モネ゙ヤンケ実装比較ある横軸テーチ数縦軸 TEPS (GE/s) ^{ある} モネ゙ヤンケ実装 replicated-csr, replicated-csc ^{次元分割}

two-dim ^， ^{テーチあ} ^り2MPI^{ハュコケ} ^{実行} ，モネ゙ヤンケ実装 _simple テーチあり_16MPIハュコケ実行モネ゙ヤンケ実装 _{one_sided} 細粒度 _{one sided}操作を頻繁実行る実装いる使用 _MPI実装

こよう操作暷適化されいい極端性能くるモネ

゙ヤンケ実装 _{one_sided} 実験ら除外図₇ テーチあり通信ターシ

(7)

を _replicated 次元分割比較エメネある _replicated 通信ターシ理論値を算出

モネ゙ヤンケ実装，ターシい部分゠メー計測ころある _Simple テーチ数を大くるベペモ不足゠メーり，Replicated-csr Scale 32 validation^{゠メー} ^{り，}Scale 33^以 segmentation fault^，Replicated-csc Scale 34^以 construction^昷 ^{゠メー} ^る ^{原因} ^細 ^い ^掴 ^い ^い

次元分割実装，モネ゙ヤンケ実装 _simple 倍程度度出いるこれ，送信処理受信処理並列化や，_OpenMP よるハュコケ内並列化効よるある次元分割実装，モネ゙ヤンケ実装 _replicated 比る，性能い，これ _3.1章述通り，_replicated ゚ャガモゲヘテーチ数

小さい場合通信ターシを小さくるこ，暼利らある図₈ ら分るよう，_replicated 優性テーチ数増える急激，通信ターシ ₅₁₂テーチ次元分割逆転る実際，図らreplicated-csc テーチ数₁₂₈ 既性能限界見え始いる図₇ ら，次元分割，テーチ数増加従徐々テーチあり通信ターシ大くる，増加幅

小さく，十分ケォーャ可能あるこ分る

次元分割，₅₁₂テーチ，_{Scale 36}を計算，_TEPS値_22.8GE/s 性能を 512^{テーチ} ^{これ} ^け ^{性能を出} TSUBAME2.0 ^，Graph500^{モケダ} ^ケドカン比較エメネ処理向いいる言える

6. ^{議論}

図₈ 全テーチ合計均通信ターシヤーダ 7. ^{関連研究}

エメネ処理中，基本る_BFS ，様々ブクン暷適化研究されいる本研究使用次元分割，_{Andy Yoo}ら_[2] 元々 _BlueGene/L 実装

゚ャガモゲヘあ，彼ら提案実装，通信ターシ削減要視されい，_BFS 十分暷適化されいる言えい _{David A.}ら_[5] ，共暼ベペモ型ブクンある _{Cray MTA-2} _BFS st-connectivity ^{を暷適化} Virat Agarwal^ら[6] ^，BFS^をIntel Nehalem CPU よる共暼ベペモ型ブャスハュコッキ暷適化 Guojing Cong^ら[7] ^，BFS^をPGAS^{言語} ^{暷適化}

TSUBAME2.0 ^， ^{ケドカン} ^{比較} エメネ処理パンスブーェ高いケカ゚を出やい理由，ヅッダワーェダフュグある物理クプュヤークョン，隣接テーチ間通信視されるこ多い，エメネ処理れテーチ間通信度

要ある _Graph500モケダあるブクン多く，_BlueGeneや_Cray ，ヅッダワーェダフュグ次元ダーメケブクン多い，次元ダーメケブクン

れテーチ間通信カケダ大い _TSUBAME2.0 ヅッダワーェダフュグ Fat-tree ^{あり} ^れ ^{テーチ間} ^{通信} 隣接テーチ間変わらいエメネ処理向いいる

エメネ処理高化関る研究゚ェコメヤーシある_GPU 暷適化_[12,13]や_Cell/BE 暷適化_[14] 研究されいる

大規模エメネ処理を一般化，様々゚ャガモゲヘを処理るこる処理系 Pregel [8] ^や疎行列パェダャ積表るエメネ処理を_Hadoop 実現 PEGASUS [9]^，GBASE[10] ^{提案され} ^{いる}

8. まとめと今後展望図₈ ，全テーチ合計通信ターシを_BFS 実行昷間割，均通信ターシ

ヤーダある実際 ₅₁₂ テーチ，モニ゚通信度いる分る ₅₁₂テーチ使用場合，テーチあり_1.4GB/s を超える度出いる _TSUBAME2.0 エメネ処理向いいるいうこ分る

本論文 _Graph500 パンスブーェを大規模分散環境ケォーャさる，次元分割よる _BFS を実装 _Graph500 モネ゙ヤンケカーチ，大規模分散環境ケォーャい次元分割よる実装，_TSUBAME2.0 ₅₁₂テーチ _{Scale 36} を計算，_TEPS 値_22.8GE/sをこれより，₂次元分割ら大規模ケォーャさるこ可能いうこ分

(8)

々執筆昷点，次元分割実装通信ターシ縮や頂点並び暶え暷適化より，_TSUBAME2.0を₁₃₆₆テーチ使用実験，_TEPS値_103GE/s をいるこ性能執筆昷点暷新 _Graph500モケダ _{June 2011} _TEPS値メンキンエケカ゚倍を超える性能あるこれら細，別

機会表る

謝辞本研究，学技術振興機構_(JST) 戦略的創研究推進事業 _CREST ける研究領域フケダヒシケォーャ高性能計算資るクケゾヘサネダゞゟ゚技術創出よるある _TSUBAME2.0エメンチスホヤング協力いい方々感謝意を表る

参考文献

1) Graph500 : http://www.graph500.org/

2) Andy Yoo, Edmond Chow, Keith Henderson, William McLendon, Bruce Hendrickson, and Umit Catalyurek. 2005. A Scalable Distributed Parallel Breadth-First Search Algorithm on BlueGene/L. In Proceedings of the 2005 ACM/IEEE conference on Supercomputing (SC '05). IEEE Computer Society, Washington, DC, USA.

3) J. Leskovec, D. Chakrabarti, J. Kleinberg, and C. Faloutsos, "Realistic, mathematically tractable graph generation and evolution, using kronecker multiplication," in Conf. on Principles and Practice of Knowledge Discovery in Databases, 2005.

4) MVAPICH2: http://mvapich.cse.ohio-state.edu/

5) David A. Bader and Kamesh Madduri. 2006. Designing Multithreaded Algorithms for Breadth-First Search and st-connectivity on the Cray MTA-2. In Proceedings of the 2006 International Conference on Parallel Processing (ICPP '06). IEEE Computer Society, Washington, DC, USA, 523-530

6) Virat Agarwal, Fabrizio Petrini, Davide Pasetto, and David A. Bader. 2010. Scalable Graph Exploration on Multicore Processors. In Proceedings of the 2010 ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis (SC '10). IEEE Computer Society, Washington, DC, USA, 1-11.

7) Guojing Cong, George Almasi, and Vijay Saraswat. 2010. Fast PGAS Implementation of Distributed Graph Algorithms. In Proceedings of the 2010 ACM/IEEE International Conference for High

Performance Computing, Networking, Storage and Analysis (SC '10). IEEE Computer Society, Washington, DC, USA, 1-11.

8) Grzegorz Malewicz, Matthew H. Austern, Aart J.C Bik, James C. Dehnert, Ilan Horn, Naty Leiser, and Grzegorz Czajkowski. 2010. Pregel: a system for large-scale graph processing. In Proceedings of the 2010 international conference on Management of data (SIGMOD '10). ACM, New York, NY, USA, 135-146.

9) U. Kang, Charalampos E. Tsourakakis, and Christos Faloutsos. 2009. PEGASUS: A Peta-Scale Graph Mining System Implementation and Observations. In Proceedings of the 2009 Ninth IEEE International

Conference on Data Mining (ICDM '09). IEEE Computer Society, Washington, DC, USA, 229-238. 10) U. Kang, Hanghang Tong, Jimeng Sun, Ching-Yung Lin, and Christos Faloutsos. 2011. GBASE: a scalable and general graph management system. In Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '11). ACM, New York, NY, USA, 1091-1099. 11) Pawan Harish and P. J. Narayanan. 2007. Accelerating large graph algorithms on the GPU using CUDA. In Proceedings of the 14th international conference on High performance computing (HiPC'07), Srinivas Aluru, Manish Parashar, Ramamurthy Badrinath, and Viktor K. Prasanna (Eds.). Springer-Verlag, Berlin, Heidelberg, 197-208.

12) Pawan Harish and P. J. Narayanan. 2007. Accelerating large graph algorithms on the GPU using CUDA. In Proceedings of the 14th international conference on High performance computing (HiPC'07), Srinivas Aluru, Manish Parashar, Ramamurthy Badrinath, and Viktor K. Prasanna (Eds.). Springer-Verlag, Berlin, Heidelberg, 197-208.

13) Daniel Delling, Andrew V. Goldberg, Andreas Nowatzyk, and Renato F. Werneck. 2011. PHAST: Hardware-Accelerated Shortest Path Trees. In Proceedings of Parallel & Distributed Processing Symposium (IPDPS), 2011 IEEE International. Anchorage, AK, USA, 921 – 931.

14) Daniele Paolo Scarpazza, Oreste Villa, and Fabrizio Petrini. 2008. Efficient Breadth-First Search on the Cell/BE Processor. IEEE Trans. Parallel Distrib. Syst. 19, 10 (October 2008), 1381-1395.

15) Toyotaro Suzumura, Koji Ueno, Hitoshi Sato, Katsuki Fujisawa and Satoshi Matsuoka,

"Performance Evaluation of Graph500 on Large-Scale Distributed Environment", IEEE IISWC 2011 ( IEEE International Symposium on Workload Characterization) , 2011/11, Austin, TX, US

Publication 論文 鈴村研究室 大規模データ処理・ストリームコンピューティング

大規模 処理ベンチマー Graph500 へ

２次元分割 適用と性能評価

昸司

鈴村 豊 郎