CRS・BSS 最適化 - 実験 - 修士学位論文

5 実験

5.4 CRS・BSS 最適化

計測する時間の内訳には，

(1) 要素と要素を掛け合わせる実行部分 (2) 格納情報を読みだすメモリアクセスの時間 (3) WIの切り替え時間

以上の3つが大きな割合を占めることが考えられる．(3)について解説する．使用するGPU では，同時並列処理可能数は256であり，実行を予約出来るWI数は67,108,864個（GPU

によって設定できる数は決められている）となっている．指定したWI数が同時並列処理可能数256を超えた場合，あるWIが処理を終えると，与えられるglobal_idの若い順に待機しているWIがカーネルの実行を開始する．WI数の増加は計算量に影響はないが，WIの切り替え時に一定の時間を必要とするため不必要に WI を大きくすることは避けるべきである．

CRS では1つのWIに対して何行の計算を担当させるかが計算量の配分になる．表 5.1 に示すサンプル疎行列の行数は83,384である．今回用いるGPUの最大並列数が256の為，

WI数は未使用なPEもWI切り替え時間も発生しない256が適切なWI数と考えられる．

このことから1つのWIに担当させる行数は326 ( = 83,384 / 256)となる．

BSSでは2つのカーネルそれぞれでWI数を調節できる．1つめのカーネルは一次結果を出力する際のWI数であり，疎行列の非零要素数に対しセグメント長を変更することで可能となる．WI 数が適切な数である 256 をとるために，サンプル疎行列の非零要素数が 3,046,907なのでセグメント長は11902 ( = 3,046,907/ 256 )を選択する．2つ目のカーネルはCRSと同様に足し込みを担当させる行数によるものなので1つのWIに326行の足し込みを担当させる．

図 5.1，5.2 に表 5.1 に示すサンプル疎行列を BSS 形式で計算した性能を示す．縦軸が GFLOPS（浮動小数点演算を一秒間に何回行うかを示す単位）の為，縦軸が大きい程高速である．まず図5.1から読み取れるのはWI数が1~64にかけて高速になっており，WIが倍になると速度もおよそ倍になっている．

また図5.2においてWIが304,691を取るとき最も遅い理由はWIが多すぎるためにWI 切り替え時間が大幅に掛かってしまうからと考えられる．

問題は図5.1，5.2においてWI数が64以降の速度がほぼ一定である点である．使用する GPUの最大並列数が256の為，WI数が256まで速度は向上すると考えられる．原因はグローバルメモリに対して各WIからのアクセスが集中してしまい，グローバルメモリからのデータ読み出しに対し遅延が発生している為と考えられる．図5.1，5.2はBSS形式での表 5.1で示すサンプル疎行列を用いた際の計算時間であり，CRS形式でも，更に異なるサンプル疎行列でも同様のグラフの形状となった．

表5.1：サンプル疎行列

名前サイズ（N*M) NNZ（非零要素数）分散指標

consph.mtx 83324*83324 3046907 0.3343

図5.1：少数のWIでの性能評価

図5.2：多数のWIでの性能評価 0

0.2 0.4 0.6 0.8 1 1.2

性能(GFLOSP)

WI数

ドキュメント内修士学位論文 (ページ 31-34)