不老 type II サブシステム - 8.2 1 ノードにおける性能評価 - CPU/GPUヘテロジニアスクラスタのためのタイル行列分解の研究

8.2 1 ノードにおける性能評価

8.2.2 不老 type II サブシステム

次に，名古屋大学情報基盤センターの不老Type IIサブシステムを用いてGPUの台数を変化させた時の性能評価を行った．Bulk Updateおよび，Stream Updateでは最適なタイルサイズおよび，内部ブロック幅のパラメータチューニングを行っている．Bulk Update， Stream Updateによる性能結果は図8.5となる．1GPUの時に非常に大きな性能差が生じている．これは，1GPU時はタイルQR分解であり，Stream Updateではj方向が並列に実行されるため，深いLook-aheadが行われるためである．また，4GPU使用した時ではStream UpdateがBulk Updateよりも1TFLOPSほど高いのが読み取れる．これはReedbush-H と同様にOpen MPとCUDA Streamによる非同期実行が影響していると考えられる．

性能差に関する調査として，行列サイズ40960の正方行列に対するBulk UpdateとStream Updateの4GPU使用時のGPU側の実行時トレースを行った．トレース結果は，図8.6となる．前述のトレース図と同様に，Memcpyのラインがデータ通信部分であり，Compute 部分がGPUでの計算実行状況を示している．Bulk UpdateとStream Updateを比較する

と，Stream Updateは複数のカーネルが同時実行されており，計算が多く実行されている

のが分かる．

また，周期的に現れる空白部分はCAQRアルゴリズムのマージ処理のための通信待ちと考えられる．プロセス数を増やすほど，空白部分は増える．このアイドル状態を解消させれば，より高速化が行われると考えられる．

図8.2と図8.5の2ノードを比較すると，ピーク性能にそれほど差が無いことが読み取れる．このことから，GPUの性能を十分に引き出せていないか，CPUで行われる分解ルーチンがボトルネックとなっていると考えられる．

図 8.3: Bulk Update, Stream Update手法についてReedbush-H 1ノードにおけるGPUトレースの結果．

0 500 1000 1500 2000 2500 3000 3500 4000

10240 30720 51200 71680

MAGMA-2.2.0 GPU-QR-Bulk-Update GPU-QR-Bulk-Update-double

図8.4: Bulk Updateのdouble buﬀeringの有無による性能差．Reedbush-Hにおいて実行．

行列の値はメルセンヌ・ツイスター法による乱数から生成．横軸は正方行列の行列サイズ，

縦軸は一秒あたりの浮動小数点演算回数．

0 1000 2000 3000 4000 5000 6000 7000

10240 30720 51200 71680 92160 112640 133120 153600 174080

GFLOPS

Matrix Size

Stream-1GPU Stream-2GPU Stream-4GPU Bulk-1GPU Bulk-2GPU Bulk-4GPU

図8.5: 不老 Type II におけるBulk Update, Stream Update手法の台数による性能測定結果．正方行列に対してQR分解を行った実行時間．行列の値はメルセンヌ・ツイスター法による乱数から生成．横軸は正方行列の行列サイズ，縦軸は一秒あたり浮動小数点演算回数．

Bulk Update MemCpy Compute StreamUpdate MemCpy Compute

図 8.6: Bulk Update, Stream Update手法について不老 Type2 1ノードにおけるGPUトレースの結果．

1 2 4 8 16

Number of nodes Weak scaling

Stream CAQR Bulk CAQR

図 8.7: Reedbush-H におけるBulk Update, Stream Update手法のWeak Scalingの結果．

1ノードあたりの行列サイズを81290×81920に固定して台数効果を測定．横軸は使用ノード数，縦軸は1ノードの性能を1とした時の並列化効率．

ドキュメント内 CPU/GPUヘテロジニアスクラスタのためのタイル行列分解の研究利用統計を見る (ページ 45-49)