Gram ⾏列の計算 - 高性能計算機に適したヤコビSVD手法の実装技術と性能解析

第 6 章

部品の性能評価と実装技術

この章では，将来の⾼性能計算機へ向けた実装を考えるため，⽚側ブロックヤコビ法に⽤いられる部品の内，Gram ⾏列の計算を取り出して議論する．Gram ⾏列の計算は前章の通り，⽚側ブロックヤコビ法におけるオーダーの意味で⽀配的な 2 つの計算の内 1 つであるため，⾏列サイズ𝑛やノード数 𝑝がより⼤きくなった場合には重要となるものと考えられる．Gram ⾏列の計算は BLAS で定義された⾏列積のパターンの 1 つである xSYRK であり，通常の⾏列積 xGEMM と同等の性能が期待されるが，xSYRK の持つ対称構造のために性能効率が低く，前章の結果の中では，2 倍の演算量である列ブロックの更新と同程度の実⾏時間となってしまっている．これは，将来の計算機に頻繁に利⽤されると考えられるメニーコア CPU においてはより顕著となる．

そこでここでは xSYRK について，メニーコア CPU の 1 つである Xeon Phi (Knights Corner, KNC) への実装⼿法と，性能向上⼿法について議論する．KNC は，単体では遅い速度のコアを多数集積することで，全体としては⾼い性能を実現するものであり，1 つのコア当たりの速度は倍精度において約 17GFlop/s であるが，これを 60 個程度，集積することで，1 プロセッサでは約 1TFlop/s の⾼い理論ピーク性能を持つ．このように多数のコアを持つため，KNC において⾼い性能を実現するためには，⾼

い並列性を持つプログラムが必要であり，xSYRK の実装においてもこのことを考慮しなければならない．

KNC に対する⾏列積 (DGEMM) の実装⼿法については Smith ら [127, 128] が研究しており，BLIS という名前を持つ KNC などのメニーコア向け BLAS 実装も公開しているが，xSYRK については⼗分な研究がされていない．そこで，Smith らの研究や，他にマルチコアプロセッサ向けの Level-3 BLAS 実装についての後藤ら [129] の研究をベースに，KNC への DSYRK の並列化⼿法の実装と，性能解析を

⾏う．またここでは倍精度向けの DSYRK について議論するが，並列化⼿法やキャッシュ利⽤⼿法などは他の精度や複素数においても役⽴つものと考えられる．

この章の内容は関連論⽂ [d] に基づくものであり，DSYRK において 3 つの並列化軸すべてを⽤いた並列化⼿法を⽰し，実際に KNC 上で DSYRK の⾼速化を実現している点が新規である．また，将来的に DSYRK を⽚側ブロックヤコビ法に⽤いる際に役⽴つものだと考えられる．

を計算するものである．DSYRK は別の計算パターンとして𝐶 = 𝐴 𝐴を計算することもできるが，本稿ではこの形のものについて考える．また，𝐶の上三⾓・下三⾓部分のどちらを計算するか，を選択することもできるが，本稿では上三⾓部分のみを計算するものを考える．この式からすぐに𝐶は𝑚 × 𝑚

⾏列であって，𝐶 = 𝐴𝐴 = 𝐴𝐴 = 𝐶 が成り⽴つことがわかる．しかし，DSYRK は結果が対称となることを除けば単なる⾏列積であり，DGEMM と多くの点で同じ議論ができる．

6.1.1 ブロック⾏列積

⾼性能な⾏列積の実装には並列化だけでなく，キャッシュブロック化や，データアクセス性能向上のためのデータパッキング，SIMD 命令などのプロセッサの機能を活⽤することが不可⽋である．これらを意識した実装をするうえでベースとなる考え⽅は，⾏列積をブロック⾏列積として書き直すことである．

いま𝐶 = {𝑍_, }，𝐴 = {𝑋_, }，𝐴 = {𝑌_, }とブロック分割する．簡単のためそれぞれのブロックの⼤きさは，𝑍_, が𝑏 × 𝑏 ，𝑋_, が𝑏 × 𝑏 ，𝑌_, が𝑏 × 𝑏 のように固定とする．このとき，𝐶 = 𝐴𝐴 は

𝑍_, = 𝑋_, 𝑌_, (6.2)

と書ける．つまり全体の⾏列積を部分⾏列積の繰り返しとして書ける．ブロック幅は任意に設定できるため，データ量をキャッシュサイズに合った⼤きさにしたり，並列化のときに演算量を均等化したりすることができる．また部分⾏列積もまた再帰的にブロック⾏列積として書くことができるため，

さらに⼩さなブロックに分割することで，SIMD レジスタ幅に合わせた⼤きさにすることもできる．

ここで，部分⾏列積における，メモリからキャッシュへのデータ移動量と演算量を計算する．いま，

部分⾏列積における部分和の計算の 1 つ

𝑍_, ← 𝑍_, + 𝑋_, 𝑌_, (6.3) における，メモリからキャッシュへのデータ移動量は8(𝑏 𝑏 + 𝑏 𝑏 + 𝑏 𝑏 ) Byteであり，キャッシュからメモリへのデータ移動量は8𝑏 𝑏 Byteである．また，演算量は2𝑏 𝑏 𝑏 Flopである．よって，部分⾏列積におけるメモリ・キャッシュ間データ移動量と演算量の⽐（B/F 値）を𝐵とおくと，

𝐵 = 4 𝑏 + 4

𝑏 + 8

𝑏 (6.4)

となり，キャッシュのサイズが許す限りブロック幅を⼤きくすることで，B/F 値を⼩さくすることができる．実際のブロック幅はキャッシュサイズからおおむね決定される上限の⼤きさを決めておいて，

端数処理や並列化のために，ブロックごとに異なるサイズをとれるようにする．

6.1.2 ブロック⾏列積の⼿順

いま，𝐶が𝑛 × 𝑛 ブロックであり，また，𝐴の列ブロック数が𝑛 であるとする．これはブロック幅

が固定の場合，それぞれ𝑛 = ⌈𝑚/𝑏 ⌉，𝑛 = ⌈𝑚/𝑏 ⌉，𝑛 = ⌈𝑚/𝑏 ⌉である．このとき，ブロック⾏列積全体は図 6.1のようなプログラムとして書くことができる．

blocked-matmulの 3 つ⽬の j に関するループは，𝐶の上三⾓部分 (tri(𝐶)) に重なるもののみを処理するために，開始位置が変化する．そのため，𝑗ループの開始位置を常に1とすれば，このプログラム

subroutine blocked-matmul({ _,}, { _, }, { _, })

⋅,⋅ ←

do = 1:

do =1:

do = 1: if _, overlaps with triu( )

, ← _, _, × _,

end end

end

図6.1 ブロック⾏列積の擬似プログラム

subroutine blocked-matmul2({ _,}, { _, }, { _, }):

⋅,⋅ ←

do = 1:

do =1:

̄ ← _,

do = 1: if _, overlaps with triu( )

̄ ← _,

, ← _, ̄ × ̄

end end

end

図6.2 データパッキングを追加したブロック⾏列積の擬似プログラム．

を DGEMM の計算に⽤いることができる．また補⾜として，本稿での実験では𝑚 ≤ 𝑏 の範囲でしか性能測定していないため，このプログラムの最外側ループは 1 度のみしか実⾏しない構造となっている．そこで本稿では最外側ループを無視した形での議論をしているが，𝑚 > 𝑏 の領域を考える場合には，以下の議論を多少拡張する必要がある．

blocked-matmulはメモリ上の Fortran 配列として格納された⾏列データに直接アクセスするが，

CPU によっては CPU に合わせたデータ順序でなければ⾼い性能を引き出せないことがある．そこで，

最内側処理のデータアクセス順序に合わせてデータの順序を並び替える処理（データパッキング）を追加したものが図 6.2のプログラムであり，𝑋_, と𝑌_, のパッキングを実装している．

6.1.3 データパッキングの効果

データパッキングを⾏うと，データアクセスが増える分のコストが発⽣する．そのため，データ順序が適切になったことによる内部処理の性能向上がデータパッキングのための性能劣化を上回らなければ，実装する価値がない．⼀⽅，パッキングを⾏ったデータはその直後に使⽤されるため，𝑋̄ や ̄𝑌 をキャッシュにのる⼤きさにすれば，性能劣化を⼩さく抑えることができる．そこで，データパッキングにおいては，パッキングのコストと，パッキングのためのデータ量が重要である．

まず全体の計算コストに対するパッキングの相対的なコストを考えるため，パッキングしたデータの再利⽤回数を計算する．blocked-matmul2でのパッキングでは，𝑋̄ は 1 要素当たり最⼤𝑚回，再

利⽤されるが，̄𝑌は 1 要素当たりmin(𝑏 , 𝑚)回，再利⽤される．またパッキングのためのデータ量を計算すると，𝑋̄ を保存するために8𝑏 𝑏 Byte， ̄𝑌を保存するために8𝑏 𝑏 Byteの領域が必要である．よって，𝑏 は ̄𝑌が L2 キャッシュのような⾼い階層のキャッシュにのるように設定し，⼀⽅で𝑏 は ̄𝑌の再利⽤回数を増やすため，⼤きな値とすることになり，𝑋̄ はラストレベルキャッシュ，もしくはメモリ上に置くことになる．

実際に KNC に対する実装で⽤いた値は𝑏 = 144，𝑏 = 40, 000である．これらの値は Smith ら [128]

の実装における𝑏 = 120，𝑏 = 14, 400と異なるが，𝑏 は後述の，レジスタブロック幅の違いと⼿動チューニングの結果によるものである．𝑏 は，後に⽰す内積⽅向分割のときに， ̄𝑌を分割して利⽤するため，分割したときでも⼗分な⼤きさとなる値としている．𝑏 の値を14, 400と40, 000とのどちらの値に設定したとしても，𝑋̄のデータ量は KNC のキャッシュに収まらない⼤きさとなり，𝑋̄はメモリ上に置くことになる．このため，𝑋̄をパッキングするコストは ̄𝑌のものと⽐べて⼤きくなる．そこで，

̄𝑋については，パッキングをする場合とそうでない場合の性能差が興味深い．

6.1.4 ブロック⾏列積の並列化

blocked-matmul2に対する並列化の議論は Smith ら [128] によって詳しく解説されている．まず，

最内側処理である部分⾏列積（𝑍_, ← 𝑍_, + ̄𝑋 × ̄𝑌）は，𝑏 が⼗分に⼤きいため⼗分な演算量があり，並列化に適している．また，𝑗に関するループは，𝑏 が⼩さな値であり，ループ回数が⼤きいため，並列化に適している．⼀⽅，𝑘に関する 2 番⽬のループは，𝑏 が⼩さな値であるためループ回数は⼤きいが，総和のための同期の問題や，スレッドごとに𝑋̄の領域を確保する必要があるなどの問題があるため，あまり並列化に適していない．𝑖に関する最外側ループは，𝑋̄ の領域に関する問題があり，また，最内側処理の並列化と並列化軸が同じであるため，積極的に採⽤する理由がない．よって Smith らは Xeon Phi に対しては，再内側処理と𝑗に関するループの並列化を⾏っている．本研究ではこれを DSYRK に拡張すること，さらに，𝑘に関するループの並列化との組み合わせを考える．

ドキュメント内高性能計算機に適したヤコビSVD手法の実装技術と性能解析 (ページ 114-117)