Variable blocking - 分散メモリ並列化とデータ分散 - 高性能計算機に適したヤコビSVD手法の実装技術と性能解析

5.2 分散メモリ並列化とデータ分散

5.2.2 Variable blocking

⼀次元データ分割の問題点を解決するには，列ブロック数とノード数を⼀致させないようにしなければならない．すなわち，列ブロックペアの直交化の計算を複数ノードで⾏えばよい．1 つの列ブロックペアの直交化を⾏うノード数を𝑘とすると，列ブロック数𝑤 = ，平均列ブロック幅𝑙 = となるため，1 次元分割のときと同様に計算すると，𝑂 の演算当たり 1 データ移動が発⽣することになる．しかし，ここでの問題は列ブロックペアの直交化の並列化⼿法とそのためのデータ分散⼿法である．単純なアイデアは，列ブロックペアの直交化を ScaLAPACK で実装することであり，

ScaLAPACK の⼆次元ブロックサイクリック分割を⽤いることである．

Bečka らの Variable Blocking [116, 117] は，ScaLAPACK の⼆次元ブロックサイクリックデータ分散を利⽤するために考案されたデータ分散であり，⼀次元ブロック分割と⼆次元ブロックサイクリックデータ分割を混合したものとなっている．もともと Variable Blocking はブロック化された Kogbetliantz 法向けに開発されたものであるが，その後に⽚側ヤコビ法に拡張されている [117]．Variable Blocking では，データ移動を⾏う単位として⼀次元ブロック分割を⽤い，データ移動を⾏った後，計算を⾏うときに⼆次元ブロックサイクリック分割に変換する．しかしながら，彼らの実装では陽的なデータ移動は⾏わず，仮想的なノードグループを考え，ノードグループに属するノードの置き換えによって実現する．

いま，𝑤 = 4, 𝑝 = 8の場合を考える．すなわち𝑘 = 4であり，1 つの列ブロックペアの直交化計算

に 4 つのノードを⽤いる．⾏列のデータは𝑝ノードに⼀次元的に分割されており，𝐴 = 𝐴̆ 𝐴 ⋯ ̆̆ 𝐴 について，𝐴̆ を第𝑗ノードが保持する．これは⽚側ヤコビ法の列ブロック𝐴 よりも細かい分割となっており，𝐴 = 𝐴̆ _/ 𝐴̆ _/ ⋯ ̆𝐴 ₍ _)/ のように，1 つの列ブロック𝐴 に対して𝑘/2ノードが持つデータを割り当てる．いま，並列ペアとして{(1, 3), (2, 4)}が選ばれたとき，2 つの列ブロックペア 𝑋 = [𝐴 𝐴 ],𝑋 = [𝐴 𝐴 ]について列ブロックペアの直交化を⾏うが，𝐴 と𝐴 は第1, 2, 5, 6ノードが

1,1 1,2

2,1 2,2

1,3 1,4

2,3 2,4

1,5 1,6

2,5 2,6

1,7 1,8

2,7 2,8

1,1 1,5

2,1 2,5

1,2 1,6

2,2 2,6

1,3 1,8

2,3 2,8

1,4 1,7

2,4 2,7

図5.10 ⼆次元ブロック分割の例．左図は × ⾏列をのとき , を⽤いた場合のデータ分散を表している．右図は並列ペアを{( , )( , )( , )( , )}に変更したときのもの．並列ペアが変わった場合，データ移動を⾏うことで対処する．

持つため，これらを 1 つ⽬のグループとする．また，𝐴 と𝐴 は第3, 4, 7, 8ノードが持ち，これを 2 つ

⽬のグループとする．そして，このグループの中でデータの並び替えを⾏い⼆次元ブロックサイクリック分割にすることで，ScaLAPACK を⽤いることができる．この⼿順を図5.9に⽰す．

Variable Blocking によって列ブロックペアの直交化の並列化が可能となり，平均列ブロック幅を減少させることができる．また列ブロックペアの直交化の並列実装においては ScaLAPACK 内のアルゴリズムを⽤いることができることも利点である．しかし，この⼿法は通信網における局所性を考慮していないため，この点が⽋点になる．先の例においては，第 1 のグループに1, 2, 5, 6が属しており，全結合や⼆次元メッシュのような通信網ならばよいが，1 次元結合の通信網ならば，1, 2間と5, 6間は直接連結しているが，1, 5間のような組み合わせは直接つながっていない．このようなペアの間で通信を⾏えば，多ホップ数の通信となり，レイテンシーが増⼤する．また，第 2 のグループの中での通信と衝突し，バンド幅の減少も発⽣しやすい．この例ではノード数が少ないため，⼆次元メッシュ構造の通信網ならば問題を解決できるが，⼀般に⼤きな列ブロック数𝑤とノード数𝑝を⽤いた場合，⼆次元メッシュでは解決できず，全結合に近い通信網が必要となる．

5.2.3 ⼆次元ブロック分割

⼆次元ブロック分割は 1 次元ブロック分割した⾏列を横に𝑘個に分割する，ごく単純な分割である．

図5.10に例を⽰す．

⼆次元ブロック分割では 1 次元ブロック分割と同様に，データ移動を陽的に⾏うことで列ブロックペアを𝑘個のノードが属するノードグループに移動させる．このデータ移動では，縦⽅向に𝑘並列で列ブロックが横に移動することになる．⼀次元結合の通信網の場合は𝑘並列で動く通信同⼠が衝突してしまうが，⼆次元メッシュ構造であれば，縦⽅向には独⽴に通信が⾏われるため，縦同⼠での通信の衝突は発⽣しない．依然として，横移動の中では通信の衝突が発⽣するが，ここでの通信の衝突は

⼀次元ブロック分割と⽐べて参加するノードが𝑘分の 1 となるため，緩和される．⼀⽅で 1 次元ブロック分割では列ブロックペアの直交化を通信なしに実⾏できたが，⼆次元ブロック分割では 1 つの列

1 subroutine CholQR([X1, X2, … , Xk]):

2 id = MPI_Comm_rank()

3 C = Xid Xid

4 R = chol(C) // R R

5 X = XR

図5.11 ⼀次元並列化された Cholesky QR 法の擬似プログラム

ブロックペアの直交化あたり𝑘ノードを⽤いて計算するため，通信が発⽣することになる．

また，列ブロックペアの直交化におけるデータ分散も問題である．⼆次元ブロック分割においては，

列ブロックペアの直交化を横に𝑘個に分割された⾏列上（すなわち⼀次元ブロック分割）で⾏うため，

⼆次元ブロックサイクリック分割を⽤いる Variable Blocking と⽐べて，QR 分解のような⾏列分解を

⾏う際の負荷分散が悪化する可能性がある．ただし，𝑘個のノードは Variable Blocking と異なり，通信網の構造を考慮して任意に割り当てることができるため，列ブロックペアの直交化内部の通信は Variable Blocking と⽐べてよいパターンになる可能性がある．

このように，通信の特徴を定性的に⾒ていけば⼆次元ブロック分割は決して他の⼿法と⽐べて優位ではないが，Cholesky QR 法のような，All-Reduce 型の通信を⾏う QR 分解と組み合わせるならば，⼆

次元ブロック分割の通信パターンは⼤きく改善される．この点については次節で⽰す．

⼆次元ブロック分割の実装については，EVD 向けのブロックヤコビ法ではいくつか既存研究が存在し，古いものでは，Royo [118] によるものがある．⼤規模並列向けには⾼橋 [9] のものや，その実装改善を⾏った⼯藤 [10] のものがある．これらにおいて⼆次元ブロック分割が可能であったのは，EVD 向けのブロックヤコビ法では⼆次元的な並列性が明⽩であったからである．つまり，⾏列積として書けるブロック回転による⾏列の両側変換が，計算量の⼤部分を占めるため，それを並列化することは素直なアイデアである．しかし，⽚側ブロックヤコビ法ではこのような単純な並列性を⾒出すためには，

QR 分解の並列化が必要であり，これは⾏列積の並列化と⽐べて複雑となる．そこで，この部分に対して Cholesky QR 法の並列性を利⽤した実装については新規となる．

5.2.4 ⼆次元ブロック分割の⼿順

⼆次元ブロック分割の列ブロックペアごとのデータ配置は，縦⽅向の⼀次元ブロック分割に帰着するため，ScaLAPACK に実装された⾏列分解アルゴリズムでは効率的に動作しない．しかし，列ブロックペアのような縦⻑⾏列に対する縦⽅向の⼀次元ブロック分割は，Tall and Skinny ⾏列向けの QR 分解⼿法として知られるアルゴリズム，例えば Cholesky QR 法や，TSQR (Tall and Skinny QR) には適している．4 章で⽰した通り，Cholesky QR 法は，⼀般の⾏列に対しては不安定だが，前処理付きの

⽚側ヤコビ法と Hari の V2 ⼿法を組み合わせた場合には，問題なく動作する．また，特に縦⻑⾏列の場合には，Cholesky QR 法は Householder QR 法の約半分の演算量となり，⾏列積が中⼼の Cholesky QR 法は Householder QR 法と⽐べて⾼効率である．また，TSQR は Householder QR 法と⽐べて演算量はほぼ同等である⼀⽅，通信回数が減少するため並列計算に向くが，Cholesky QR 法と⽐べると演算効率は悪い．そこでここでは Hari の V2 ⼿法と⼆次元ブロック分割とを組み合わせた場合について考える．このときに，Cholesky QR 法の並列化⼿法を参考にすることは有⽤である．

図5.11は縦⽅向に 1 次元ブロック並列化された⾏列に対する Cholesky QR 法の擬似プログラムである．プログラムは SPMD モデルで作成されており，MPI 並列を⾏うことを前提としている．ここでは

1 subroutine OSBJ-V2([A1,1, A1,2, … , A1,w, A2,1, … , A2,w, … , Ak,1, … , Ak,w], tol):

2 id = MPI_Comm_rank()

3 rowid = id % k

4 colid = id / k

5 do

6 t = 0

7 do r=1 to w

8 [I, J] = modulus-pair(w, colid, r)

9 X = [Arowid,I, Arowid,J] // MPI_Send and Recv.

10 C = X X

11 MPI_AllReduce(C, MPI_SUM)

12 offd = C,

C,C,

13 t = max(t, offd)

14 if offd <= tol: continue

15 R = chol(C)

16 [U, S] = MTOSJ(R, tol)

17 [Arowid,I, Arowid,J] = X(R US)

18 MPI_Barrier(MPI_COMM_WORLD)

19 end

20 MPI_AllReduce(t, MPI_MAX)

21 while t > tol

図5.12 Hari の V2 ⼿法と⼆次元ブロック分割を⽤いたときの⽚側ブロックヤコビ法の擬似プログラム

⾏列𝑋を横⽅向に分割した部分⾏列𝑋 を各 MPI プロセスに分割し，⾏列積𝑋 𝑋と𝑋𝑅 を並列化する．プログラムの⼊⼒は部分⾏列𝑋 であり，MPI のプロセス ID をMPI_Comm_rankによって取得することで，⾏列積𝑋 𝑋は次のように分解できるため:

𝐶 = 𝑋 𝑋 , (5.3)

の各部分⾏列積𝑋 𝑋 を𝑖 = idの MPI プロセスで⾏い，和をMPI_AllReduceによって計算する．⼀

⽅，𝐶の Cholesky 分解は各ノードで重複して計算する．そのため，通信はMPI_AllReduceの中でのみ⾏われ，Cholesky 分解の中で⾏われる，細かな通信は排除される．その代わりに，Cholesky 分解の演算は並列化されないため，⾏列が⼗分縦⻑でなければ，ボトルネックになる可能性がある．⼆次元ブロック分割を⾏った⽚側ブロックヤコビ法においてもこの考え⽅を⽤い，Hari の V2 ⼿法を⽤いた列ブロックペアの直交化の内，⾏列積の部分だけを並列化し，⼩⾏列の Cholesky 分解や SVD は各プロセスで重複して⾏うことで，通信回数を減らすことにする．

図5.12に擬似プログラムを⽰す．プログラムの引数である𝐴_, は⼆次元分割した⾏列の部分⾏列を表し，tolは収束判定のための閾値を表す．MPI プロセスの ID は縦⽅向の並列化数𝑘によって割られ，

これをノードの列 ID, また割った余りをノードの⾏ ID とする．プログラム内のmodulus-pairは 3 章で指名した擬似巡回のオーダリングの 1 つである MMO のペアを⽣成するルーチンであり，𝑤の並列ステップを持つため，内側ループの⻑さがwとなっている．

プログラム中の 12,13,14 ⾏⽬は収束判定のためのコードである．14 ⾏⽬では，⾃分の列ブロックペアが⼗分直交化している場合，以降の処理をスキップする．そこで，各ノードで実⽤いたのばらつきが⽣じ，結果として，18 ⾏⽬の動機の時間の増加につながる．

計算処理の部分はプログラム中の 8 ⾏⽬から 17 ⾏⽬だが，そのうち 9, 10, 15 ⾏が Cholesky QR 法に相当する部分であり，それに 16, 17 ⾏を組み合わせると Hari の V2 ⼿法になる．Hari の V2 ⼿法の並列化においては，Cholesky QR 法の並列化の考え⽅に則り，⾏列積の部分である 10 ⾏⽬と 17 ⾏⽬

のみ並列化するため，通信は主にMPI_AllReduceの中でのみ⾏われる．そのため，列ブロックペア

ドキュメント内高性能計算機に適したヤコビSVD手法の実装技術と性能解析 (ページ 91-95)