九州大学学術情報リポジトリ Kyushu University Institutional Repository ペタスケールインターコネクトに向けた MPI 高速化技術の研究南里, 豪志九州大学情報基盤研究開発センター出版情報 :

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

ペタスケールインターコネクトに向けたMPI高速化技術の研究

南里, 豪志

九州大学情報基盤研究開発センター

http://hdl.handle.net/2324/9170

出版情報：SLRC プレゼンテーション, 2007-07-25 バージョン：

権利関係：

(2)

ペタスケールインターコネクトに向けたペタスケルインタコネクトに向けたＭＰＩ高速化技術の研究

2007 年 7 月 25 日

九州大学南里豪志

(3)

PSI プロジェクト PSI プロジェクト

文部科学省「次世代 IT 基盤構築のための研究開発

」（研究開発領域「将来のスパコンピュティン

」（研究開発領域「将来のスーパーコンピューティングのための要素技術の研究開発」）

ペタスケール・システムインターコネクト技術の開ペタスケルシステムインタコネクト技術の開発

数数

1000

～数数

10000

台規模の計算ノードを相互接続する台規模の計算ドを相互接続するシステムインターコネクトの高機能化、高性能化

サブテーマ１：光パケットスイッチの実現を目指した物理層技術

サブテ２から物理層までを通したインタネ

サブテーマ２：

MPI

から物理層までを通したインターコネクト全体の高機能化、高性能化技術

サブテーマ３：ペタフロップス級マシンの振る舞いをシミ

サブテーマ３：ペタフロップス級マシンの振る舞いをシミュレーション可能とした統合型システム性能評価技術

(4)

1 分でわかる MPI

#include "mpi h"

MPI (M P i I t f )

プログラム

#include mpi.h

#include <stdio.h>

int main( int argc, char *argv[]) {

MPI (Message Passing Interface)

プログラム

文法は、普通の

C

言語

/

Ｆｏｒｔｒａｎ

適宜ＭＰＩ関数を利用して並列処理 {

int n = 1000;

int myid, numprocs, i;

double mypi, pi, h, sum, x;

SPMD (Single Program Multiple Data)

ＭＰＩ環境初期化 yp , p , , , ;

MPI_Init(&argc,&argv);

MPI_Comm_size(MPI_COMM_WORLD,&numprocs);

MPI_Comm_rank(MPI_COMM_WORLD,&myid);

ＭＰＩ環境初期化プロセス数の取得

プロセスの番号（＝ランク）の取得 h = 1.0 / (double) n; sum = 0.0;

for (i = myid + 1; i <= n; i += numprocs){

x = h * ((double)i ‐ 0.5);

プロセスの番号（＝ランク）の取得並列計算（ランクに応じて計算）

ランク０： i = 1, 5, 9, ...

sum += (4.0 / (1.0 + x*x));

}

mypi = h * sum;

d ( )

ランク１： i = 2, 6, 10, ...

ランク２： i = 3, 7, 11, ...

ランク３： i = 4, 8, 12, ...

MPI_Reduce(&mypi, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD);

if (myid == 0)

printf("pi is approximately %.16f¥n", pi);

MPI Fi li ()

全プロセスのmypiの総和を計算して pi に格納

3

MPI_Finalize();

return 0;

}

p

ＭＰＩ環境終了

(5)

ペタスケールシステムインターコネクトに向けた MPI プログラムの高速化技術に向けた MPI プログラムの高速化技術

数千～数万ノードによる大規模並列計算

不均等な負荷分散不均質なネトワク

不均等な負荷分散

,

不均質なネットワーク，

他のジョブの影響

最適化（＝性能チューニング）に必要な情報が

最適化（性能チュニング）に必要な情報が

,

実行してみるまで分からない

負荷の不均衡による同期ポイントへの到着遅れク通信タグる通信衝突

ランク配置や通信タイミングによる通信衝突

他のジョブの存在による基本通信性能の低下

本研究実行時の性能情報に基づいた本研究：実行時の性能情報に基づいた

通信ライブラリ（ＭＰＩ）実装の自動最適化

4

(6)

本プロジェクトで開発中の最適化技術

最適化技術

各 MPI 関数の実行タイミングを考慮した最適化

全体通信内部の通信順序調整

曽我武史（福岡

IST

）、栗原康志（九大）

ランク配置最適化

森江善之（九大）、

Guilherme Domingues

（九州

ISIT

）

Guilherme Domingues

（九州

ISIT

）

実行時の性能に応じた全体通信アルゴリズムの選択

性能モデルによる性能予測を利用した最適アルゴリズムの導出

導出

Hyacinthe Nzigou Mamadou

（九大）、

Feng Long Gu ( g g (

九大）、

Vivien Odou

（九州

ISIT) )

⇒ Hyacinthe

さんの発表（本日午後）

(7)

全体通信内部の通信順序調整

MPI Bcast

関数における通信順序の性能への影響

０１

send send

recv

Case 1:

負荷バランス

MPI_Bcast

関数における通信順序の性能の影響

１２３

send recv

recv

負荷バランス均等

０ send send recv ３

Case 2:

ランクが到着遅 ^１

２３

work _send

recv recv

recv

ランク２が到着遅れ（負荷不均等）

３

０ send send

Case 3:

recv

１２

work

recv recv

recv send

ランク２の遅れを隠ぺいするよう順序を変更

6

序を変更３

Time

(8)

負荷の状況に応じた通信順序調整負荷の状況に応じた通信順序調整

全体通信中の待ち時間を計測

０１２３

待ち時間短 ⇒ 高負荷

負荷状況に応じて全体通信アルゴリズム中の待ち時間短 ⇒ 高負荷

各ランクの位置を調整（＝順序調整）

0

⁰

0

⁰

0 1 2

0

1 2

0

1

¹

3

²

3

³

2

³

(9)

シミュレーションによる効果の予測

条件：

‐

ランク

128

のみに負荷（全体

256

ランクの

MPI_Bcast

）通信衝突等を考慮しない簡単な通信デを想定

‐

通信衝突等を考慮しない簡単な通信モデルを想定

‐

通信最適化に要するコストを無視

Before Optimization After Optimization

8

MPI_Bcast

所要時間：

‐36%

全体の待ち時間：

‐31%

(10)

実際の効果

通信順序最適化

負荷不均等による影響による影響

MPI_Bcast 所要時間削減

9

(11)

計測

プログラム１：擬似負荷プログラム

中間位置にあるランクのみ

MPI_Bcast

の前で行列積の計算を実行

最大効果の確認最大効果確認

プログラム２：疎行列積

CCS(Compressed Column Storage)

で圧縮格納された疎

CCS(Compressed Column Storage)

で圧縮格納された疎行列同士の積

ランク０：ランク０：行を抽出して行を抽出して

MPI Bcast MPI_Bcast

それ以外：行を受け取ってベクトル行列積計算

環境：

RSCC (Riken Super Combined Cluster)

10

( p )

＠理化学研究所

(12)

擬似負荷プログラム擬似負荷グラ

Ratio = MPI_Bcast所要時間の比

（最適化適用/最適化なし）

1.1 1.2

m e

0 9 1

s ed T im

0.8 0.9

of E lap

0.6 0.7

Ra ti o

^{Load 0}

Load 30 Load 40 Load 80 0.5

1 10 100 1000 10000 100000 1e+06 1e+07 1e+08

Message Size (By te)

Load 160

11

Message Size (By te)

負荷バランスの度合いとメッセージサイズにより最適化効果が変動

(13)

MPI Bcast の総内部通信時間 MPI_Bcast の総内部通信時間

Ratio = 最適化適用/最適化なし Ratio

最適化適用/最適化なし

1.4 1.6

m e

^{Load 0}_{Load 30}

Load 40

1 1.2

s ed T im

^{Load 40}

Load 80 Load 160

0.6 0.8

of E lap

0.2 0.4

Ra ti o

0

1 10 100 1000 10000 100000 1e+06 1e+07 1e+08

Message Size (By te)

12

Message Size (By te)

全ランクの合計待ち時間を大幅に削減

(14)

疎行列積疎行列積

疎行列データ：BCSSTK32 (44609x44609)

Workload T im e Broadcast T im e T otal T im e

from Matrix Market

Num ber of

4 8 16

2530 783 350

2550 784 349

T ype Orig Opt Opt/Orig

977 1690 2090

909 1680 2070

Orig Opt Opt/Orig

3510 2470 2440

3460 2460 2420

Orig Opt Opt/Orig 1.008

1.001 0.997

0.930 0.994 0.990

0.986 0.996 0.992 of

Process

6 32 64 128

350 169 82.7 41.9

3 9 171 82.7 41.8

090 2370 2670 2890

0 0 2380 2670 2880

0 2540 2750 2930

0 2550 2750 2920 0 99

1.012 1.000 0.998

0 990 1.004 1.000 0.997

0 99 1.004 1.000 0.997

0.0032 0.0034 0.0036 0.0038

ec)

0 0025 0.003 0.0035 0.004

ec)

0.0022 0.0024 0.0026 0.0028 0.003

Time (Se

0.001 0.0015 0.002 0.0025

Time (Se

13

0.002

3 2

1 0

0.0005

7 6 5 4 3 2 1 0

(15)

課題課題

最適化コストによる性能低下

To do:

1 最適化スト削減 1. 最適化コスト削減

特に負荷情報収集手段の改良

状況に応じた選択的な適用

2 プログラム中の MPI Bcast の場所に応じた 2. プログラム中の MPI_Bcast の場所に応じた

最適化

3. 他の全体通信 (MPI_Scatter, MPI_Gather, MPI Reduce 等 ) への適用

14

MPI_Reduce 等 ) の適用

(16)

ランク配置最適化

A B

p1 p3 p5 p2 p4 p6

３つの通信が

１つの通信路を共有ランク配置最適化衝突無し

p1 p2 p3 p4 p5 p6

p1 2

p1 3 １つの通信路を共有ランク配置最適化

p2 p3 4

p3 p5 2 p4

p5 6

p2 p4 6

p6 p6

どちらも合計通信距離は同じどちらも、合計通信距離は同じ

⇒ 既存の最適化技術では回避困難

(17)

ランク配置最適化の流れ

プログラム解析短時間実行プログラム解析

プフイル

短時間実行プロファイル：

通信パターン解析

最適化 : 最適化 :

通信時間を最小にするランク割り当ての導出ランク割り当ての導出

16

最適ランク割り当てによる実行

(18)

通信パタンの解析通信パターンの解析

時実行能な通信集合抽出

同時に実行可能な通信の集合 CCS

_i

の抽出

CCS (Concurrent Communication Set)

i

：通信ステップ（

Communication Step)

CS1 CS2 CS3 CS4

タスク1 タスク2

CS1 CS2 CS3 CS4

CCS³={t¹⁴,t²⁵,t³⁶}

タスク3 タスク4 タスク4 タスク5

タスク6 17

(19)

最適化：見積もり通信時間を最小にするランク配置

ランク配置

遅延 ^{メッセージサイズ} 衝突回数通信帯域幅

18

(20)

同期関数による CCS の分離

MPI_batrrier

他CCSの通信との衝突発生！

CCS1 CCS２

タスク1 タスク2 タスク3 タスク4

タスク1タスク2 タスク3 タスク4 タスク5

タスク6 タスク7 タスク8

タスク5タスク6 タスク7 タスク8

複数の

CCS

が同時に実行

MPI Barrier(comm)

複数の

CCS

が同時に実行

⇒

予期しない衝突の発生

MPI_Barrier(comm) if(t %2 == 0)

MPI_Send( smsg, t+1 ) el se

MPI R ( t 1)

同期関数（

MPI_Barrier

）により

CCS

を分離

MPI_Recv( rmsg, t-1)

MPI_Barrier(comm) if(t %2== 0)

MPI_Recv( smsg1, t+1) else

MPI_Send( rsmg1, t-1 )

(21)

実験結果

使用プログラム

‐

Recursive doubling

アルゴリズムによる全対全通信

‐

NAS Parallel Benchmark

中の

CG

ASCI P l B h k

中の

UMT2000

‐

ASCI Purple Benchmark

中の

UMT2000

実験環境

階層的なツリー構造の

Gigabit Ethernet

で接続された

PC

クラスタ

(Dual Xeon 3.0GHz x 16

ノード

)

switch

switch switch switch switch

通信時間の比較

Recursive Doubling

CG UMT2000

最適化無

最適化無し 53.6 31.2 109.8 通信距離による最適化 53.6 31.2 90.6 衝突を考慮した最適化 43 2 24 3 60 1

20

衝突を考慮した最適化 43.2 24.3 60.1

(msec)

(22)

課題課題

同期関数コストによる性能低下同期関数コストによる性能低下

メッセージサイズが小さい場合

（＝最適化による性能向上幅が小さい場合）場

⇒ 同期関数挿入箇所の削減同期関数挿入箇所削減

最適配置の探索時間

現在は全探索

⇒ O(P!) (P =

プロセッサ数

)

現在は全探索

⇒ O(P!) (P =

プロセッサ数

九州大学学術情報リポジトリ Kyushu University Institutional Repository ペタスケールインターコネクトに向けた MPI 高速化技術の研究 南里, 豪志九州大学情報基盤研究開発センター 出版情報 :

ペタスケールインターコネクトに向けた ペタスケ ルインタ コネクトに向けた ＭＰＩ高速化技術の研究

2007 年 7 月 25 日

九州大学 南里 豪志

PSI プロジェクト PSI プロジェクト

 文部科学省「次世代 IT 基盤構築のための研究開発

」（研究開発領域「将来のス パ コンピュ ティン

」（研究開発領域「将来のスーパーコンピューティン グのための要素技術の研究開発」）

ペタスケール・システムインターコネクト技術の開 ペタスケ ル システムインタ コネクト技術の開 発



1000

10000





MPI





1 分でわかる MPI

MPI (M P i I t f )

MPI (Message Passing Interface)

C

/

SPMD (Single Program Multiple Data)

ペタスケールシステムインターコネクト に向けた MPI プログラムの高速化技術 に向けた MPI プログラムの高速化技術

 数千～数万ノードによる大規模並列計算





,





,

本研究 実行時の性能情報に基づいた 本研究： 実行時の性能情報に基づいた

通信ライブラリ（ＭＰＩ）実装の自動最適化

本プロジェクトで開発中の 最適化技術

最適化技術

 各 MPI 関数の実行タイミングを考慮した最適化



IST



Guilherme Domingues

ISIT

Guilherme Domingues

ISIT

 実行時の性能に応じた全体通信アルゴリズムの選択

 実行時の性能に応じた全体通信アルゴリズムの選択



Hyacinthe Nzigou Mamadou

Feng Long Gu ( g g (

Vivien Odou

ISIT) )

⇒ Hyacinthe

全体通信内部の通信順序調整

MPI Bcast

Case 1:

MPI_Bcast

Case 2:

Case 3:

負荷の状況に応じた通信順序調整 負荷の状況に応じた通信順序調整

 全体通信中の待ち時間を計測

待ち時間短 ⇒ 高負荷

 負荷状況に応じて全体通信アルゴリズム中の 待ち時間短 ⇒ 高負荷

各ランクの位置を調整（＝順序調整）

0

0

0

1 2

0

1

3

3

2

シミュレーションによる効果の予測

‐

128

256

MPI_Bcast

‐

‐

Before Optimization After Optimization

 MPI_Bcast

九州大学学術情報リポジトリ Kyushu University Institutional Repository ペタスケールインターコネクトに向けた MPI 高速化技術の研究南里, 豪志九州大学情報基盤研究開発センター出版情報 :

ペタスケールインターコネクトに向けたペタスケルインタコネクトに向けたＭＰＩ高速化技術の研究

九州大学南里豪志

文部科学省「次世代 IT 基盤構築のための研究開発

」（研究開発領域「将来のスパコンピュティン

」（研究開発領域「将来のスーパーコンピューティングのための要素技術の研究開発」）

ペタスケール・システムインターコネクト技術の開ペタスケルシステムインタコネクト技術の開発

ペタスケールシステムインターコネクトに向けた MPI プログラムの高速化技術に向けた MPI プログラムの高速化技術

数千～数万ノードによる大規模並列計算

本研究実行時の性能情報に基づいた本研究：実行時の性能情報に基づいた

本プロジェクトで開発中の最適化技術

各 MPI 関数の実行タイミングを考慮した最適化

実行時の性能に応じた全体通信アルゴリズムの選択

実行時の性能に応じた全体通信アルゴリズムの選択

負荷の状況に応じた通信順序調整負荷の状況に応じた通信順序調整

全体通信中の待ち時間を計測

負荷状況に応じて全体通信アルゴリズム中の待ち時間短 ⇒ 高負荷

MPI_Bcast

プログラム１：擬似負荷プログラム

プログラム２：疎行列積

CCS(Compressed Column Storage)

CCS(Compressed Column Storage)

環境：

擬似負荷プログラム擬似負荷グラ

疎行列積疎行列積

課題課題

最適化コストによる性能低下

To do:

1 最適化スト削減 1. 最適化コスト削減

どちらも合計通信距離は同じどちらも、合計通信距離は同じ

プログラム解析短時間実行プログラム解析

プフイル

短時間実行プロファイル：

通信時間を最小にするランク割り当ての導出ランク割り当ての導出

通信パタンの解析通信パターンの解析

時実行能な通信集合抽出

同時に実行可能な通信の集合 CCS

CCS (Concurrent Communication Set)

i

最適化：見積もり通信時間を最小にするランク配置