MPI レベルでの基本通信性能

第 8 章 Martini 向け PM 通信ライブラリにおけるメッセージ通信の実装メッセージ通信の実装

8.5 MPI レベルでの基本通信性能

PMのメッセージ通信のスループット

PM/RHiNET-VP^とPM/RHiNETのスループットの測定結果を図8.8^{に示す．測定は，}PM/RHiNET では8184byte^まで，PM/RHiNET-VP^では2040byteまでと，それぞれで送ることのできるメッセージサイズの最大値まで行った．

0 50 100 150 200

1 4 16 64 256 1k 4k 16k

Throughput (Mbyte/s)

Size (byte) PM/RHiNET

PM/RHiNET-VP

図8.8 バースト転送時のメッセージ通信のスループット

バースト転送時のスループットは，1024byte^まではPM/RHiNET^とPM/RHiNET-VP^{との間で差} が小さく，RTTとは異なる傾向を示している．これは，PM/RHiNET^では，8.4.3^{節で述べたよう} に直前に送信したpushパケットに対応するackパケットの到着を確認してからでないと次のpush パケットを送り出せないという制約が課されているために，バースト転送時にパケット送信の間隔が空いてしまうことに起因する．

MPIレベルでのスループット

図8.9^に，PMB Sendrecvベンチマークにより測定したスループットを示す．PM/RHiNET^はRMA に対応しているが，安定動作させるため，通常はRMA^{を無効にしている．図}8.9^にの“Zerocopy”

はRMAを有効にした場合の参考値として示してある．

0 100 200 300 400

1 4 16 64 256 1k 4k 16k 64k 256k 1M

Throughput (Mbyte/s)

Size (byte) PM/RHiNET

PM/RHiNET-VP Zerocopy

図8.9 MPI^{のスループット}

PM/RHiNET^{を用いた場合の}MPIレベルでのスループットは，PM/RHiNET^{の性能の傾向がその} まま表れており，2Kbyteを境に向上が緩やかになっている．また，PM/RHiNET^とPM/RHiNET-VP のどちらを用いた場合でも，スループットは32Kbyte付近でピークに達し，それより大きいメッセージサイズでは横ばいとなっている．このスループットのピークは，評価で用いたベンチマークプログラムであるPMB^{において，}MPI_Sendrecvを呼ぶ際に送受信バッファとして指定する領域の多くがCPU^のL2キャッシュに収まってしまっていることに起因している．PMB Sendrecv^で

は，MPI_Sendrecvを複数回連続発行して計測を行うが，その際，送受信バッファとして毎イテ

レーション同一の領域を繰り返し用いている．そのため，送受信のメッセージサイズが小さい場合は，送受信バッファがL2キャッシュに収まりやすくなりMPIのAPI呼び出し後にMPICH内部で行われるメモリ間コピーが高速に完了するが，メッセージサイズが大きくなるとメモリ間コピーにおいてキャッシュラインのリプレースメントが多発して，速度が低下する．

なお，RMA機構を有効にした場合，16Kbyte^を境にMPICH-SCore^{内部での通信方式が}Eager

からRendezvous^{に切り替わり，}16Kbyte^{より大きいサイズでは}RMAを用いてメッセージ転送を

行うようになるため，メモリ間コピーに伴うL2キャッシュのリプレースメント処理によるスループット低下の影響は見られず，300Mbyte/sec以上の高いスループットを示すようになる．

MPIレベルでの通信レイテンシ

次に，PMB PingPongベンチマークによるレイテンシの測定結果を図8.10^に示す．

0 10 20 30 40 50 60 70 80 90 100 110

1 4 16 64 256 1k 4k

Latency (µsec)

Size (byte) PM/RHiNET

PM/RHiNET-VP

図8.10 MPI^{のレイテンシ}

図より，メッセージサイズが2Kbyte^以下ではPM/RHiNET^{を用いた場合の方が}PM/RHiNET-VP を用いた場合に比べ低いレイテンシを示し，それ以上の転送サイズではPM/RHiNET-VP^の方が低いレイテンシを示していることがわかる．2Kbyte以下の場合については図8.7^で示したPM^レベルでのRTTと同様の傾向であるが，これはMPICH-SCore^が通常のSend^およびRecv^の実装にPM のメッセージ通信をほぼそのまま利用しているためである．一方，メッセージサイズが2Kbyte以上の場合，PM/RHiNETではPUSHを2Kbyte単位で発行し，次のPUSHを発行する前に毎回ack パケットの受信を待つ実装となっているため，pmSendの呼び出しが1回であったとしても内部でデータサイズを2Kbyte^{で割った回数分}ackパケットを待つ処理が加わり，2Kbyte^{ごとにレイテ} ンシが大幅に増大してしまう．これに対し，PM/RHiNET-VP^でもPM^自体のMTU^が2Kbyte^に制限されているため，MPI^{レベルでの}2Kbyte以上のデータ転送においてはPM^{のメッセージ通信が} 複数回呼ばれることになるが，VPUSH自体がackパケットを発行しない実装となっており，送信側ではPUSH要求を連続して発行できるため，受信側ではパケットを1つ受信処理した後，すぐに次のパケットの受信を開始できる．これらより，PM/RHiNET-VPを用いた場合，単純にパケットの受信処理時間に加えて2Kbyte^ごとにVPUSHの受信処理分のレイテンシが増すことになる

が，PM/RHiNETを用いた場合，それより大きなパケット往復分のレイテンシが2Kbyte^ごとに加

わることから，2Kbyte^{以上の転送では}PM/RHiNET-VPを用いた場合の方が低レイテンシとなっている．

ドキュメント内ネットワークインタフェースコントローラ Martini の実装と評価 (ページ 123-126)

第 8 章 Martini 向け PM 通信ライブラリにおける メッセージ通信の実装メッセージ通信の実装

8.5 MPI レベルでの基本通信性能

第 8 章 Martini 向け PM 通信ライブラリにおけるメッセージ通信の実装メッセージ通信の実装