• 検索結果がありません。

東京大学情報基盤センター教授塙敏博 LU 分解法(2)

N/A
N/A
Protected

Academic year: 2021

シェア "東京大学情報基盤センター教授塙敏博 LU 分解法(2)"

Copied!
62
0
0

読み込み中.... (全文を見る)

全文

(1)

LU 分解法(2)

東京大学情報基盤センター 教授 塙 敏博

20201215日 (火) 2 10:25 – 12:10

(2)

講義日程(工学部共通科目 )

1. 929(今日): ガイダンス

2. 106

l 並列数値処理の基本演算(座学)

3. 1013日:スパコン利用開始

l ログイン作業、テストプログラム実行 4. 1020

l 高性能プログラミング技法の基礎1

(階層メモリ、ループアンローリン グ)

5. 1027

l 高性能プログラミング技法の基礎2

(キャッシュブロック化)

6. 1110

l 行列-ベクトル積の並列化

7. 1117

l べき乗法の並列化

8. 11月24日

l 行列-行列積の並列化(1)

9. 121

l 行列-行列積の並列化(2)

10. 128

l LU分解法(1)

l コンテスト課題発表

11. 1215

l LU分解法(2) 、非同期通信

12. 1222

l RB-Hログイン、GPUプログラミン

グ(1)

13. 15

l GPUプログラミング(2) 、研究紹

介他

(3)

LU 分解法(中級レベル以上 )の演習日程

並列化が難しいので、

2

週間確保してあります。

1.

1

週目

講義(知識、アルゴリズムの理解)

並列化の検討

2.

2

週目

LU分解法の逐次アルゴリズムの説明

LU分解法の並列化実習

(4)

講義の流れ

1. LU分解法の

逐次アルゴリズム解説

2. 並列化実習のつづき

(5)

LU分解並列化のヒント(2)

(6)

LU 分解部分並列化の方針(C言語)

• LU分解部分では、枢軸ベクトルをもつプロセスが先に計算し

(図の①)、それをその他のプロセスに放送する必要がありま す。

.

逐次実装

枢軸ベクトル

.

並列実装

枢軸ベクトル

②:①を受信後に更新

先に計算して、

自分以外の

プロセスに放送する

(7)

LU 分解部分のプログラム解説( C 言語)

for (k=0; k<n; k++) { dtemp = 1.0 / A[k][k];

for (i=k+1; i<n; i++) { A[i][k] = A[i][k]*dtemp;

}

for (j=k+1; j<n; j++) { dtemp = A[j][k];

for (i=k+1; i<n; i++) {

A[j][i] = A[j][i] - A[k][i]*dtemp;

} } }

基本行からの係数を計算し、

枢軸ベクトルを求めている 部分(①)

枢軸ベクトルを参照しつつ、

消去を行っている部分(②)

枢軸ベクトルを参照

基本行を参照

基本行(k行)の移動ループ

(8)

LU 分解部分並列化の方針( Fortran 言語)

• LU分解部分では、枢軸ベクトルをもつプロセスが先に計算し

(図の①)、それをその他のプロセスに放送する必要があります。

逐次実装

枢軸ベクトル

並列実装

枢軸ベクトル

② :①を受信後に更新

先に計算して、

自分以外の

プロセスに放送する

(9)

do k=1, n

dtemp = 1.0d0 / A(k, k) do i=k+1, n

A(i, k) = A(i, k)*dtemp enddo

do j=k+1, n

dtemp = A(k, j) do i=k+1, n

A(i, j) = A(i, j) - dtemp * A(i, k) enddo

enddo enddo

基本行からの係数を計算し、

枢軸ベクトルを求めている 部分(①)

枢軸ベクトルを参照しつつ、

消去を行っている部分(②)

基本行を参照

枢軸ベクトルを参照

基本行(k行)の移動ループ

(10)

LU 分解のアルゴリズムの特徴

LU

分解は、更新範囲が1つずつ小さくなっていく

• 枢軸ベクトルも、1つずつ小さくなっていく

送信するメッセージサイズも、1つずつ小さくなっていく

A

A

(11)

前進代入部分のプログラム解説( C 言語)

for (k=0; k<n; k++) { c[k] = b[k];

for (j=0; j<k; j++) { c[k] -= A[k][j]*c[j];

} }

k

要素より前のベクトル

c

の要素 を参照して、

k

要素の値を決定

ベクトル

c

の値を決定する 要素(

k

要素)の移動ループ

k

c A

決定

参照

(12)

前進代入部分のプログラム解説( Fortran 言語)

do k=1, n

c(k) = b(k) do j=1, k-1

c(k) = c(k) - A(k, j)*c(j) enddo

enddo

k

要素より前のベクトル

c

の要素 を参照して、

k

要素の値を決定

ベクトル

c

の値を決定する 要素(

k

要素)の移動ループ

k

c A

決定

参照

(13)

LU 分解の並列化方法の確認(再掲)

1.

LU

分解部分のみ並列化する

2. 行列

A

を表示し、逐次の答え(

LuAc.dat

)と一致しているか 確認する

3. 前進代入部分を並列化する

4. ベクトルcを表示し、逐次の答え(

LuAc.dat

)と一致している か確認する

5. 後退代入部分を並列化する

6. ベクトルxを表示し、逐次の答え(すべて1)と一致している か確認する

鉄則:一度にすべて並列化しても、まず動かない。

地道に並列化していくのが完成への早道。

(14)

LU 分解並列化のヒント(2)

C 言語版

ほぼ解答が載っています

(15)

LU 分解部分 (1)

ib = n/numprocs;

istart = myid * ib;

iend = (myid+)* ib;

/* LU decomposition --- */

for (k=0; k<iend; k++) { idiagPE = k / ib;

if (idiagPE == myid) { /* 枢軸列をもつプロセス */

dtemp = 1.0 / A[k][k];

枢軸列の計算と、buf[ ]へ枢軸列をコピー;

for (i=myid+; i<numprocs; i++) { /* 枢軸列の転送 */

MPI_Send(&buf[…], … , MPI_DOUBLE, i, k, MPI_COMM_WORLD);

}

istart = k+; /* 担当範囲の縮小 */

} else { /* 枢軸列を持たないプロセス */

MPI_Recv(&buf[…], …, MPI_DOUBLE, idiagPE, k, MPI_COMM_WORLD,

&istatus);

}

(16)

LU 分解部分 (2)

/* 共通消去部分 */

for (j=k+; j<n; j++) { dtemp = buf[j];

for (i=istart; i<iend; i++) { A[j][i] = A[j][i] - A[k][i]*dtemp;

} }

} /* End of k-loop --- */

/* 前進消去にメッセージがかぶらないように同期 --- */

MPI_Barrier(MPI_COMM_WORLD);

(17)

前進代入部分 (1)

istart = myid * ib; iend = (myid+) * ib; /* 担当範囲の初期化 */

/* Forward substitution --- */

for (k=0; k<n; k++)

c[k] = 0.0; /* cの初期化 */

for (k=0; k<n; k+=ib) { /* 対角ブロック判定用ループ */

if (k >= istart) { /* 担当するブロックがある */

idiagPE = k / ib;

if (myid != 0)

/* ランク番号左隣りプロセスからデータを受け取る */

MPI_Recv(&c[k], ib, MPI_DOUBLE, myid-1, k, MPI_COMM_WORLD,

&istatus);

if (myid == idiagPE) { /* 対角ブロックをもつプロセス */

/* 対角ブロックだけ先行計算し値を確定させる */

for (kk=0; kk<ib; kk++) {

c[k+kk] = b[k+kk] + c[k+kk];/* 途中結果が送られてくるため必要な変更点*/

for (j=istart; j<istart+kk; j++) c[k+kk] -= A[k+kk][ j ] * c[j];

}

(18)

前進代入部分 (2)

} else { /* 対角ブロックを持たないランク */

/* 自分の所有範囲のデータのみ計算(まだ最終結果ではない) */

for (kk=0; kk<ib; kk++) for (j=istart; j<iend; j++)

c[k+kk] -= A[k+kk][j]*c[j];

/* ランク番号右隣のプロセスに、自分の担当範囲のデータを用いた演算結 果を送る */

if (myid != numprocs-1)

MPI_Send(&c[k], ib, MPI_DOUBLE, myid+1, k, MPI_COMM_WORLD);

}

} /* End of if(担当するブロックがある) --- */

} /* End of k-loop --- */

(19)

LU 分解並列化のヒント(2)

FORTRAN 言語版

ほぼ解答が載っています

(20)

LU 分解部分 (1)

ib = n/numprocs istart = myid * ib + 1 iend = (myid+1)* ib

c --- LU decomposition --- do k=, iend

idiagPE = (k-1) / ib

c --- 枢軸列をもつランク

if (idiagPE .eq. myid) then dtemp = 1.0 / A(k, k) 枢軸列の計算

c ---枢軸列の転送

do i=myid+1, numprocs –

call MPI_Send(A(k,k)), … , MPI_DOUBLE_PRECISION, i, k, MPI_COMM_WORLD, ierr )

enddo

c --- 担当範囲の縮小

istart = k + 1 else

c --- 枢軸列を持たないプロセス

call MPI_Recv(A(k,k)), …, MPI_DOUBLE_PRECISION idiagPE, k, MPI_COMM_WORLD, istatus, ierr)

endif

(21)

LU 分解部分 (2)

c --- 共通消去部分

do j=istart, iend dtemp = A( k, j ) do i=k+, n

A(i , j) = A(i , j) – A(i , k)* dtemp enddo

enddo enddo

c --- End of k-loop ---

c --- 前進消去にメッセージがかぶらないように同期 --- call MPI_Barrier(MPI_COMM_WORLD, ierr)

(22)

前進代入部分 (1)

! ---担当範囲の初期化

istart = myid * ib + iend = (myid+) * ib

! --- Forward substitution ---

! --- c の初期化

do k=, n

c[k] = 0.0 enddo

! ---対角ブロック判定用ループ

do k=, n, ib

if (k .ge. istart) then idiagPE = (k-) / ib

! --- 担当するブロックがある if (myid .ne. 0) then

! ---ランク番号左隣りのプロセスから

! データを受け取る

call MPI_Recv(c(k), ib,

& MPI_DOUBLE_PRECISION,

& myid-, k, MPI_COMM_WORLD,

& istatus, ierr)

if (myid .eq. idiagPE) then

! ---対角ブロックをもつプロセス

do kk=, ib

! ---途中結果が送られてくるため必要な変更点

c(k+kk-) = b(k+kk-) + c(k+kk-)

! ---対角ブロックだけ先行計算し値を確定させる

do j=istart, istart+kk-2

c(k+kk-1) = c(k+kk-1) - A(k+kk-1, j ) * c( j ) enddo

enddo

(23)

前進代入部分 (2)

else

c --- 対角ブロックを持たないプロセス

do kk=1, ib

do j=istart, iend-1

c(k+kk-1) = c(k+kk-1) – A(k+kk-1, j ) * c( j ) enddo

enddo

c --- 自分の所有範囲のデータのみ計算(まだ最終結果ではない)

if (myid .ne. numprocs-1) then

c --- ランク番号右隣のプロセスに、自分の担当範囲のデータを用いた演算結果を送る

call MPI_Send(c(k), ib, MPI_DOUBLE_PRECISION, myid+1,

& k, MPI_COMM_WORLD, ierr) endif

endif endif

c --- End of if 担当するブロックがある ---

enddo

c --- End of k-loop ---

(24)

通信の最適化

通信と計算のオーバラップ

(25)

講義の流れ

1. 1対1通信に関する MPI 用語

2. サンプルプログラム(非同期通信)の実行

3. レポート課題

(26)

通信最適化の方法

(27)

メッセージサイズと通信回数

通信時間

[

]

メッセージサイズ[バイト]

領域①

メッセージサイズに 依存せず、ほぼ 一定時間の領域

領域②

メッセージサイズに比例して、実行時間が 増えていく領域

通信

立ち上がり 時間

= 通信

オーバヘッド []

通信時間 = 通信オーバヘッド2 傾き係数 × メッセージサイズ 通信オーバヘッド2 [秒]

領域②の通信時間の計算式 1 / 傾き係数[/バイト]

= メモリバンド幅 [バイト/秒]

数百バイト

(28)

通信最適化時に注意すること(その1)

• 自分のアプリケーションの通信パターンについて、

以下の観点を知らないと通信の最適化ができない

• <領域①><領域②>のどちらになるのか

• 通信の頻度(回数)はどれほどか

• 領域①の場合

「通信オーバヘッド」が実行時間のほとんど

通信回数を削減する

細切れに送っているデータをまとめて1回にする、など

• 領域②の場合

「メッセージ転送時間」が実行時間のほとんど

メッセージサイズを削減する

冗長計算をして計算量を増やしてでもメッセージサイズを削減する、な

(29)

領域①となる通信の例

内積演算のためのリダクション(MPI_Allreduce)などの送信データ は倍精度1個分(8バイト)

8バイトの規模だと、数個分を同時にMPI_Allreduceする時間と、

1個分をMPI_Alreduceをする時間は、ほぼ同じ時間となる

複数回分の内積演算を一度に行うと高速化される可能性あり

例)連立一次方程式の反復解法CG法中の内積演算

通常の実装だと、1反復に3回の内積演算がある

このため、内積部分は通信レイテンシ律速となる

k反復を1度に行えば、内積に関する通信回数は1/k回に削減

ただし、単純な方法では、丸め誤差の影響で収束しない。

通信回避CG法(Communication Avoiding CG, CACG)として 現在活発に研究されている。

(30)

通信最適化時に注意すること(その2)

• 「同期点」を減らすことも高速化につながる

• MPI 関数の「ノン・ブロッキング関数」を使う

• 例: ブロッキング関数 MPI_SEND()

→ ノン・ブロッキング関数 MPI_ISEND()

• 通信と演算を同時に行うようにする。

計算 send 計算 send 計算 send ランク0

ランク1 計算 recv 計算 recv 計算 recv

計算 isend 計算 isend 計算 isend

ランク0

ランク1 計算 irecv 計算 irecv 計算 irecv

受信待 受信待 受信待

同期点

ノン・ブロッキング関数の利用

高速化

(31)

非同期通信:

ISEND 、 IRECV 、永続的通

信関数

(32)

ブロッキング通信で効率の悪い例

プロセス

0

が必要なデータを持っている場合

計算 send 計算

プロセス0

プロセス1 計算 recv

受信待

次の

反復での 同期点 プロセス2 計算 recv

プロセス3 計算 recv

send 受信待 send 受信待

計算

計算

計算

次の反復での同期待ち

次の反復での同期待ち

次の反復での 同期待ち

連続する

send

で、効率の悪い受信待ち時間が多発

(33)

1対1通信に対する MPI 用語

ブロッキング?ノンブロッキング?

(34)

ブロッキング、ノンブロッキング

1. ブロッキング

送信/受信側のバッファ領域にメッセージが 格納され、受信/送信側のバッファ領域が 自由にアクセス・上書きできるまで、

呼び出しが戻らない

バッファ領域上のデータの一貫性を保障

2. ノンブロッキング

送信/受信側のバッファ領域のデータを保障せずすぐ に呼び出しが戻る

バッファ領域上のデータの一貫性を保障せず

一貫性の保証はユーザの責任

(35)

ローカル、ノンローカル

• ローカル

• 手続きの完了が、それを実行しているプロセス のみに依存する。

• ほかのユーザプロセスとの通信を必要としない 処理。

• ノンローカル

• 操作を完了するために、別のプロセスでの何らか の MPI 手続きの実行が必要かもしれない。

• 別のユーザプロセスとの通信を必要とするかもしれ

ない処理。

(36)

通信モード(送信発行時の場合)

1. 標準通信モード (ノンローカル) :デフォルト

送出メッセージのバッファリングはMPIに任せる。

バッファリングされるとき:相手の受信起動前に送信を完了可能;

バッファリングされないとき:送信が完全終了するまで待機;

2. バッファ通信モード (ローカル)

必ずバッファリングする。バッファ領域がないときはエラー。

3. 同期通信モード (ノンローカル)

バッファ領域が再利用でき、かつ、対応する受信/送信が開始され るまで待つ。

4. レディ通信モード (処理自体はローカル)

対応する受信が既に発行されている場合のみ実行できる。それ以外 はエラー。

ハンドシェーク処理を無くせるため、高い性能を発揮する。

(37)

実例- MPI_Send

• MPI_Send 関数

• ブロッキング

• 標準通信モード(ノンローカル)

• バッファ領域が安全な状態になるまで戻らない

• バッファ領域がとれる場合:

メッセージがバッファリングされる。対応する受信 が起動する前に、送信を完了できる。

• バッファ領域がとれない場合:

対応する受信が発行されて、かつ、メッセージが

受信側に完全にコピーされるまで、送信処理を完

了できない。

(38)

非同期通信関数

• ierr = MPI_Isend(sendbuf, icount, datatype, idest, itag, icomm, irequest);

sendbuf : 送信領域の先頭番地を指定する

icount : 整数型。送信領域のデータ要素数を指定する

datatype : 整数型。送信領域のデータの型を指定する

idest : 整数型。送信したいプロセスの icomm 内でのラ ンクを指定する

itag : 整数型。受信したいメッセージに付けられたタグ

の値を指定する

(39)

非同期通信関数

• icomm : 整数型。プロセス集団を認識する番

であるコミュニケータを指定する。

• 通常では MPI_COMM_WORLD を指定 すればよい。

• irequest : MPI_Request 型(整数型の配列)。

送信を要求したメッセージにつけられた 識別子が戻る。

• ierr : 整数型。エラーコードが入る。

(40)

同期待ち関数

• ierr = MPI_Wait(irequest, istatus);

• irequest : MPI_Request 型(整数型配列)。

送信を要求したメッセージにつけられた識別子。

• istatus : MPI_Status 型(整数型配列)。

受信状況に関する情報が入る。

• 要素数が

MPI_STATUS_SIZE

の整数配列を宣言して 指定する。

• 受信したメッセージの送信元のランクが

istatus[MPI_SOURCE]

、タグが

istatus[MPI_TAG]

に 代入される。

(41)

実例- MPI_Isend

• MPI_ I send 関数

ノンブロッキング

標準通信モード(ノンローカル)

• 通信バッファ領域の状態にかかわらず戻る

• バッファ領域がとれる場合は、メッセージがバッファリ ングされ、対応する受信が起動する前に、送信処理 が完了できる

• バッファ領域がとれない場合は、対応する受信が

発行され、メッセージが受信側に完全にコピーされる まで、送信処理が完了できない

MPI_Wait関数が呼ばれた場合の振舞いと理解すべき。

(42)

注意点

• 以下のように解釈してください:

• MPI_Send 関数

• 関数中に MPI_Wait 関数が入っている;

• MPI_Isend 関数

• 関数中に MPI_Wait 関数が入っていな い;

• かつ、すぐにユーザプログラム戻る;

(43)

並列化の注意( MPI_Send 、 MPI_Recv )

• 全員が

MPI_Send

を先に発行すると、その場所で処理が止ま

る。

(cf.

標準通信モードを考慮

)

(正確には、動いたり、動かなかったり、する)

MPI_Sendの処理中で、場合により、バッファ領域がなくなる。

バッファ領域が空くまで待つ(スピンウェイトする)。

しかし、送信側バッファ領域不足から、永遠に空かない。

• これを回避するためには、例えば以下の実装を行う。

ランク番号が2で割り切れるプロセス:

MPI_Send();

MPI_Recv();

それ以外:

MPI_Recv();

MPI_Send();

それぞれに対応

(44)

非同期通信 TIPS

• メッセージを完全に受け取ることなく、

受信したメッセージの種類を確認したい

• 送信メッセージの種類により、受信方式を 変えたい場合

• MPI_Probe 関数 (ブロッキング)

• MPI_Iprobe 関数 (ノンブロッキング)

• MPI_Cancel 関数 (ノンブロッキング、

ローカル)

(45)

MPI_Probe 関数

• ierr = MPI_Probe(isource, itag, icomm, istatus) ;

• isource: 整数型。送信元のランク。

• MPI_ANY_SOURCE ( 整数型 ) も指定可能

• itag: 整数型。タグ値。

• MPI_ANY_TAG ( 整数型 ) も指定可能

• icomm: 整数型。コミュニケータ。

• istatus : ステータスオブジェクト。

• isource, itag に指定されたものがある場合のみ戻

(46)

MPI_Iprobe 関数

• ierr = MPI_Iprobe(isource, itag, icomm, iflag, istatus) ;

• isource: 整数型。送信元のランク。

• MPI_ANY_SOURCE ( 整数型 ) も指定可能。

• itag: 整数型。タグ値。

• MPI_ANY_TAG ( 整数型 ) も指定可能。

• icomm: 整数型。コミュニケータ。

• iflag: 論理型。 isource, itag に指定されたものが あった場合は true を返す。

• istatus : ステータスオブジェクト。

(47)

MPI_Cancel 関数

• ierr = MPI_Cancel(irequest);

• irequest: 整数型。通信要求 ( ハンドル )

• 目的とする通信が実際に取り消される以前に、

可能な限りすばやく戻る。

• 取消しを選択するため、

MPI_Request_free

関数、

MPI_Wait

関数、又は

MPI_Test

関数

(または任意の対応する操作)の呼出しを利用して 完了されている必要がある。

(48)

ノン・ブロッキング通信例( C 言語)

if (myid == 0) {

for (i=; i<numprocs; i++) {

ierr = MPI_Isend( &a[0], N, MPI_DOUBLE, i, i_loop, MPI_COMM_WORLD, &irequest[i] );

}

} else {

ierr = MPI_Recv( &a[0], N, MPI_DOUBLE, 0, i_loop, MPI_COMM_WORLD, &istatus );

}

a[ ]を使った計算処理; if (myid == 0) {

for (i=; i<numprocs; i++) {

ierr = MPI_Wait(&irequest[i], &istatus);

} }

ランク0のプロセスは、

ランク1~numprocs-1までのプロセス に対して、ノンブロッキング通信を 用いて、長さNDouble型配列 データを送信

ランク1~numprocs-1までの プロセスは、ランク0からの 受信待ち。

ランク0のプロセスは、

ランク1~numprocs-1までのプロセス に対するそれぞれの送信に対し、

それぞれが受信完了するまで ビジーウェイト(スピンウェイト)

する。

プロセス0は、recv 待たず計算を開始

(49)

( Fortran 言語)

if (myid .eq. 0) then

do i=, numprocs -

call MPI_ISEND( a, N, MPI_REAL8, &

i, i_loop, MPI_COMM_WORLD, irequest(i), ierr ) enddo

else

call MPI_RECV( a, N, MPI_REAL8 , &

0, i_loop, MPI_COMM_WORLD, istatus, ierr ) endif

a( )を使った計算処理 if (myid .eq. 0) then

do i=, numprocs -

call MPI_WAIT(irequest(i), istatus, ierr ) enddo

endif

ランク0のプロセスは、

ランク1~numprocs-1までの

プロセスに対して、ノンブロッキング 通信を用いて、長さN

DOUBLE PRECISION型配列 データを送信

ランク1~numprocs-1までの プロセスは、

ランク0からの受信待ち。

ランク0のプロセスは、

ランク1~numprocs-1までの

プロセスに対するそれぞれの送信 に対し、それぞれが受信完了

するまでビジーウェイト

(スピンウェイト)する。

プロセス0は、recv 待たず計算を開始

(50)

ノン・ブロッキング通信による改善

• プロセス

0

が必要なデータを持っている場合

計算 send 計算

プロセス0

プロセス1 計算 recv

次の

反復での 同期点 プロセス2 計算 recv

プロセス3 計算 recv

send send

受信待

計算

計算

計算

次の反復での同期待ち

次の反復での同期待ち

次の反復で の同期待ち

連続するsendにおける受信待ち時間を

ノン・ブロッキング通信で削減 受信待ちを、MPI_Wait 計算の後に行うように変更

(51)

永続的通信(その1)

• ノン・ブロッキング通信は、

MPI_ISEND

の実装が、

MPI_ISEND

を呼ばれた時点で本当に通信を開始する

実装になっていないと意味がない。

• ところが、

MPI

の実装によっては、

MPI_WAIT

が呼ばれる まで、

MPI_ISEND

の通信を開始しない実装がされている ことがある。

この場合には、ノン・ブロッキング通信の効果が全くない。

• 永続的通信(

Persistent Communication

)を利用すると、

MPI

ライブラリの実装に依存し、ノン・ブロッキング通信の

効果が期待できる場合がある。

永続的通信は、MPI-1からの仕様(たいていのMPIで使える)

しかし、通信と演算がオーバラップできる実装になっているかは別問題

(52)

永続的通信(その2)

• 永続的通信の利用法

1. 通信を利用するループ等に入る前に1度、通信相手先を設定する初 期化関数を呼ぶ

2. その後、SENDをする箇所にMPI_START関数を書く

3. 真の同期ポイントに使う関数(MPI_WAIT)は、ISENDと同じものを 使う

MPI_SEND_INIT

関数であらかじめ通信情報を設定しておき、

MPI_START

時に通信を起動するだけ

同じ通信パターンで毎回データを送る場合には、通常の

ノン・ブロッキング通信に対し、同等以上の性能が出ると期待

• 適用例

領域分割に基づく陽解法

陰解法のうち反復解法を使っている数値解法

(53)

永続的通信の実装例( C 言語)

MPI_Status istatus;

MPI_Request irequest;

if (myid == 0) {

for (i=1; i<numprocs; i++) {

ierr = MPI_Send_init (a, N, MPI_DOUBLE_PRECISION, i, 0, MPI_COMM_WORLD, &irequest[i] );

} }

if (myid == 0) {

for (i=1; i<numprocs; i++) {

ierr = MPI_Start ( irequest[i] );

} }

/* 以降は、Isendの例と同じ */

メインループに入る前に、

送信データの相手先情報を 初期化する

ここで、データを送る

(54)

永続的通信の実装例( Fortran 言語)

integer istatus(MPI_STATUS_SIZE) integer irequest(0:MAX_RANK_SIZE)

if (myid .eq. 0) then do i=1, numprocs-1

call MPI_SEND_INIT (a, N, MPI_REAL8, i, &

0, MPI_COMM_WORLD, irequest(i), ierr) enddo

endif

if (myid .eq. 0) then do i=1, numprocs-1

call MPI_START (irequest(i), ierr ) enddo

endif

/* 以降は、ISENDの例と同じ */

メインループに入る前に、

送信データの相手先情報を 初期化する

ここで、データを送る

(55)

サンプルプログラムの実行

(非同期通信)

はじめての

MPI_Isend

(56)

• C 言語版/ Fortran 言語版のファイル名

Isend-ofp.tar.gz

• ジョブスクリプトファイル isend.bash 中 のキュー名を

lecture-flat から lecture8-flat に グループを

gt58 に変更してから pjsub してください。

lecture-flat : 実習時間外のキュー

lecture8-flat: 実習時間内のキュー

(57)

( C 言語版 /Fortran 版共通)

• 以下のコマンドを実行する

$ cd /work/gt58/t58xxx

$ cp /work/gt58/z30105/Isend-ofp.tar.gz ./

$ tar xvfz Isend-ofp.tar.gz

$ cd Isend

• 以下のどちらかを実行

$ cd C : C

言語を使う人

$ cd F : Fortran

言語を使う人

• 以下共通

$ make

$ pjsub isend.bash

• 実行が終了したら、以下を実行する

$ cat isend.bash.oXXXXXX

(58)

出力結果

• 以下のような結果が出力される( C 言語)

Execution time using MPI_Isend : 88.1502 [sec.]

Execution time using MPI_Isend : 26.5771 [sec.]

Execution time using MPI_Isend : 26.6571

[sec.]

(59)

サンプルプログラムの説明( C 言語版)

if (myid == 0) {

for (i=; i<numprocs; i++) {

ierr = MPI_Isend( &a[0], N, MPI_DOUBLE, i, i_loop, MPI_COMM_WORLD, &irequest[i] );

}

} else {

ierr = MPI_Recv( &a[0], N, MPI_DOUBLE, 0, i_loop, MPI_COMM_WORLD, &istatus );

}

if (myid == 0) {

for (i=; i<numprocs; i++) {

ierr = MPI_Wait(&irequest[i], &istatus);

} }

ランク0のプロセスは、

ランク1~1087までのプロセスに対して、

ノンブロッキング通信を用いて、

長さNDouble型配列データ を送信

ランク1~1087までのプロセスは、

ランク0からの受信待ち。

ランク0のプロセスは、

ランク1~1087までのプロセスに対する それぞれの送信に対し、

それぞれが受信完了するまで ビジーウェイト(スピンウェイト)

する。

(60)

( Fortran 言語版)

if (myid .eq. 0) then

do i=, numprocs -

call MPI_ISEND( a, N, MPI_REAL8, &

i, i_loop, MPI_COMM_WORLD, irequest, ierr ) enddo

else

call MPI_RECV( a, N, MPI_REAL8, &

0, i_loop, MPI_COMM_WORLD, istatus, ierr ) endif

if (myid .eq. 0) then

do i=, numprocs -

call MPI_WAIT(irequest(i), istatus, ierr ) enddo

endif

ランク0のプロセスは、

ランク1~1087までのプロセスに対して、

ノンブロッキング通信を用いて、

長さNDOUBLE PRECISION 型配列データを送信

ランク1~1087までのプロセスは、

ランク0からの受信待ち。

ランク0のプロセスは、

ランク1~1087までのプロセスに対する それぞれの送信に対し、

それぞれが受信完了するまで ビジーウェイト(スピンウェイト)

する。

(61)

レポート課題(その1)

1.

[L5]

ブロッキングは同期でないことを説明せよ。

2.

[L

0] MPI

におけるブロッキング、ノンブロッキング、および通信 モードによる分類に対応する関数を調べ、一覧表に

まとめよ。

3.

[L

5]

利用できる並列計算機環境で、ノンブロッキング送信

MPI_Isend

関数)がブロッキング送信(

MPI_Send

関数)に対し て有効となるメッセージの範囲(

N=0

~適当な上限)について調 べ、結果を考察せよ。

4.

[L20] MPI_Allreduce

関数 の<限定機能>版を、ブロッキング 送信、およびノンブロッキング送信を用いて実装せよ。さらに、そ の性能を比べてみよ。なお、<限定機能>は独自に設定してよ い。

(62)

レポート課題(その2)

5.

[L15] MPI_Reduce

関数を実現する

Recursive Doubling

アルゴリズムについて、その性能を調査せよ。この際、従来手 法も調べて、その手法との比較も行うこと。

6.

[L35] Recursive Doubling

アルゴリズムを、ブロッキング送信

/受信、および、ノンブロッキング送信/受信を用いて実装せ よ。また、それらの性能を評価せよ。

7.

[L15]

身近の並列計算機環境で、永続的通信関数の性能を調

べよ。

8.

[L10

]

自分が持っている

MPI

プログラムに対し、ノンブロッキ ング通信(

MPI_Isend, MPI_Irecv

)を実装し、性能を評価せよ。

また永続的通信が使えるプログラムの場合は実装して評価せ よ。

参照

関連したドキュメント

マンドキューにより制御する。 4.4 MPI レベル通信機構の設計 本節では、 MPI レベルの通信機構の設計について、 まず、設計指針への対処法を延べた後、

東京大学情報基盤センターの FX10 スーパーコンピュータ システムでそのまま利用する. 研究室の PC クラスタ(

東京⼤学 情報基盤センター 教授 塙

• MPI_DOUBLE_PRECISIONの代わりに MPI_REAL8 でもよい 入力ベクトル (各PEで 異なる 値をもつ) 出力ベクトル (各PEで、 全く同じ 値をもつ) ベクトル の長さ

28 理想値からのずれ(続き) • 計算時間が小さい場合( N が小さい場合)はこれらの効果を 無視できない。 –

28 理想値からのずれ(続き) • 計算時間が小さい場合( N が小さい場合)はこれらの効果を 無視できない。 –

• NVIDIA の GPU 向け開発環境。 C 言語版は CUDA C として NVIDIA から、 Fortran 版は CUDA Fortran として PGI( 現在は NVIDIA の子会社

FORTRAN