疎行列固有値解法における4倍精度演算とその性能評価

全文

(1)情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2010-ARC-192 No.18 Vol.2010-HPC-128 No.18 2010/12/17. 規模並列環境への対応を中心に研究を行うとともに，同年 11 月より疎行列固有値解法に対応した新版を公開している .. 疎行列固有値解法における 4 倍精度演算とその性能評価. Lis は , Krylov 部分空間法を中心とする多様な反復解法を実装したライブラリである．同様な目的のライブラリとして，線型方程式については Argonne 米国立研究所の並列反復解. 西. 田. 晃†1. 法ライブラリ PETSc ラリ Hypre. 計算科リ性能と研究では度演算をを得たがする．. よる SLEPc. 学において，計算精度の向上は本質的に重要な目標である．演算性能はメモ比較して速い速度で向上しており，このギャップが問題となることがある．本並列反復解法ライブラリ Lis を対象に，double-double 精度による 4 倍精実装し，この問題を計算精度を向上させることによって緩和できるとの知見，ここではこれを固有値解法に適用し，4 倍精度演算の有効性について検討. ?3 ?4. ?2. や Lawrence Berkeley 米国立研究所による並列反復解法ライブ. などを挙げることができる．固有値解法については，Valencia 工科大学に. (PETSc を用いて開発されている ) や , Colorado 大学による BLOPEX. (Hypre を用いている ) などに疎行列を対象とした固有値解法が実装されている. ?6. ?5. .. Lis ではこれらの機能を単一のライブラリにおいて実現するとともに，多様な前処理アルゴリズムを実装している．また，近年一般的となったマルチコア環境に適したハイブリッド並列処理に対応している点も特徴として挙げることができる．表 1-3 に現時点で対応している固有値解法, 線型方程式解法, 行列格納形式の一覧を示す .. Quadruple Precision Operation in Eigensolvers. 表 1 Lis で利用可能な固有値解法 Power Iteration Inverse Iteration Approximate Inverse Iteration Subspace Iteration Lanczos Iteration Conjugate Gradient Conjugate Residual. for Sparse Matrices and its Performance Evaluation Akira Nishida. †1. The improvement of the accuracy is a critically important target of computational science, FLOPS performance is increasing with faster speed than memory performance. This gap sometimes raises serious problem, but our previous study have shown that the problem can be reduced by improving floating point precision. In this paper, we discuss the validity of the quadruple precision arithmetics for eigensolvers, based on the double-double precision floating point operations implemented on the parallel iterative solver library Lis.. 線型方程式の求解に用いられる共役勾配法等の反復解法は，理論的にはたかだか n 回の反復で収束することが知られている．しかしながら，実際には丸め誤差の影響により，有限精度計算では一般に収束までにはより多くの反復回数を要し，また収束が停滞する場合もある．このような収束の特性を改善する上で，多倍長演算は有効な手法であると考えられるが，. 1. 背. ハードウェアで実装されている倍精度演算等に比べ，計算コストの大きさが問題となる．. 景. この問題を解決するため，Lis では，近年のプロセッサに搭載されている SIMD 命令を. 本研究では , 平成 14-19 年度科学技術振興機構 CREST 事業の一環として , 反復解法ライブラリ Lis. ?1. http://www-unix.mcs.anl.gov/petsc/ http://computation.llnl.gov/casc/hypre/ http://www.grycap.upv.es/slepc/ http://www-math.cudenver.edu/~aknyazev /software/BLOPEX/ ?6 http://www.netlib.org/utk/people /JackDongarra/la-sw.html. を開発, 配布し , 様々な並列計算機上で大規模な線型方程式を解くための環境. ?2 ?3 ?4 ?5. を提供してきた . また平成 20 年度からは九州大学情報基盤研究開発センターにおいて，大 †1 九州大学情報基盤研究開発センター Research Institute for Information Technology, Kyushu University ?1 http://www.ssisc.org/lis/. 1. ⓒ2010 Information Processing Society of Japan.

(2) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2010-ARC-192 No.18 Vol.2010-HPC-128 No.18 2010/12/17. 表2. in the last place” を意味する． 12 ulp は丸め誤差の上限である．. Lis で利用可能な線型方程式解法 CG CR BiCG BiCR CGS CRS BiCGSTAB BiCRSTAB GPBiCG GPBiCR BiCGSafe BiCRSafe BiCGSTAB(l) BiCRSTAB(l) Jacobi Gauss-Seidel SOR Orthomin(m) TFQMR MINRES GMRES(m) FGMRES(m) IDR(s). すべての演算は，IEEE 倍精度演算で round-to-even 丸めと仮定する．x と y を倍精度とし，x+y の倍精度加算の結果を fl(x+y) と表す．err(x+y) は x+y = fl(x+y)+err(x+y) を満たすものとする．この時，以下のようにして 4 倍精度加算 a = b + c が計算できる．ただし a = (a.hi, a.lo), b = (b.hi, b.lo), c = (c.hi, c.lo) とする．まず b と c の上位 b.hi と c.hi に，丸め誤差のない加算. b.hi + c.hi = fl(b.hi + c.hi) + err(b.hi + c.hi). (1). を行い，. fl(b.hi + c.hi) + fl(err(b.hi + c.hi) + b.lo + c.lo) 表 3 Lis で利用可能な行列格納形式 Compressed Row Storage Compressed Column Storage Modified Compressed Sparse Row Diagonal Ellpack-Itpack generalized diagonal Jagged Diagonal Block Sparse Row Block Sparse Column Variable Block Row Dense Coordinate. (2). を a + b の近似値とする．今回の実装では高速性を重視して下位の誤差 fl(err(b.hi + c.hi) +. (CRS) (CCS) (MSR) (DIA) (ELL) (JDS) (BSR) (BSC) (VBR) (DNS) (COO). b.lo + c.lo) は無視している．なお，下位の足し合わせによって繰り上がりの可能性があるため，この計算は丸め誤差のない加算によって行う．. 4 倍精度乗算についても x × y = fl(x × y) + err(x × y) とする．ここで. 1 ulp(fl(x × y)) 2. ≥. |err(x × y)| である．4 倍精度乗算は，まず b と c の上位 b.hi と c.hi に丸め誤差のない乗算を行い，. b.hi + c.hi = fl(b.hi × c.hi) + err(b.hi × c.hi). (3). とする．次に，b の上位と c の下位，b の下位と c の上位の乗算結果と err(b.hi × c.hi) との間で丸め誤差のない加算を行い，b × c の近似値を得る．. 活用することにより，4 倍精度演算を効率よく実行できるよう実装を行っている . 反復解法の丸め誤差を減少させるため，線型方程式における係数行列と右辺ベクトル，初期ベクト. 4 倍精度ベクトルのデータ構造としては，上位と下位をそれぞれ別な配列に格納する方法，. ルに倍精度を使用し，内部処理のみを 4 倍精度化することを考える．Lis では，この目的の. 交互に格納する方法が考えられるが，前者は上位を格納する配列を用いて倍精度演算を行う. ために Bailey らによって提案された倍精度浮動小数点数を 2 個使用する “double-double”. ことができるため，ここでは前者の方法を採用する．. 精度アルゴリズム. 1). 反復解法の計算の主要部は，疎行列-ベクトル間演算，内積，及びベクトル間演算からな. を用い，Intel プロセッサに実装されている SIMD 命令の一種である. SSE2 により，これを実装している．“double-double” 精度の実装については Hida ら. 2). る．これらを 4 倍精度演算に置き換える．ただし倍精度演算と同一のインタフェースを保つ. に. よる QD ライブラリなどがあり，これを用いた反復解法ライブラリ GMM++3) が存在す. ため，. る．本研究は，倍精度演算によって実装される 4 倍精度演算を， SIMD 命令によって高速. • 係数行列，右辺ベクトルは倍精度. 化した点でこれらの研究と異なっている．以下では，具体的な実装手法について説明する．. • 解ベクトルの入出力は倍精度，内部演算は 4 倍精度 • 反復解法中のベクトルとスカラーは 4 倍精度. 2. 4 倍精度演算の実装. とする．このため，疎行列-ベクトル間演算では倍精度-4 倍精度間演算，内積，ベクトル間演算，スカラ間演算では 4 倍精度-4 倍精度間演算を実装する必要がある．. Bailey のアルゴリズムでは，double-double 精度浮動小数 a を a = a.hi + a.lo, 1 ulp(a.hi) 2. これらの演算では実行時間が問題となるため，SIMD 命令の利用による高速化を検討した．. ≥ |a.lo| (上位の a.hi, 下位の a.lo とも倍精度) として，4 倍精度演算を倍精. 度の四則演算の組み合わせで実現する．なお ulp(x) は x の仮数部の誤差範囲を示す “unit. Intel プロセッサの場合を考えると，SIMD 命令として，SSE (Streaming SIMD Extensions). 2. ⓒ2010 Information Processing Society of Japan.

(3) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2010-ARC-192 No.18 Vol.2010-HPC-128 No.18 2010/12/17. が搭載されている．ここでは，128 ビットデータに対する処理が可能な SSE2 を用いて，倍. 0=4.46e-2. 1=1.11e-1. 2=1.11e-1. 1=2.20e-1. 5=2.20e-1. 精度浮動小数に対して同時に 2 つの演算を行うことを考える．計算の依存関係による性能の低下を考慮し，2 段のループアンローリングを併用した．また各演算のループ内で使用するスカラ変数については，必要に応じて 128 ビット XMM レジスタに格納するとともに，. 16 バイトのアラインメント境界を考慮したデータ処理を行っている． 3=1.78e-1. 3. 固有値解法への適用疎行列固有値解法の適用例として，2 次元 Helmholtz 問題を考える．矩形領域 [0, l]×[0, m] の膜の振動を表す 2 次元 Laplace 作用素を 5 点中心差分により離散化した場合，対応する行列の固有値は. π2. . σ2 τ2 + 2 2 l m. . 図1. , σ, τ ∈ N. % cumulative time seconds 66.67 0.04 16.67 0.05 16.67 0.06. で与えられる．l = m = 20，すなわち行列サイズ 202 × 202 ，として，Lis に実装した部分空間反復法により絶対値最小のものから順に 6 個の固有対を求めた結果を図 1 に示す．なお内部の解法には逆反復法，前処理なし共役勾配法を使用している． Intel Xeon 5570 サーバ (2.93GHz クアッドコアプロセッサ ×2) の 1 コア上で倍精度，4 倍精度での逐次計算を. 図2. 行った場合の計算時間の内訳のうち，1%を越えるものを図 2-3，同様の計算を行列サイズを. 2002 × 2002 として行った場合の内訳を図 4-5 に示す．行列サイズを 2002 × 2002 とした場の数を 1 とした場合には，倍精度，4 倍精度での計算時間はそれぞれ 1.75 秒，1.74 秒となった．また，内訳から CRS 形式での疎行列ベクトル積を計算するルーチン lis matvec crs() の計算時間の減少分が大きいことが分かるが，このことから，4 倍精度演算は直交化における反復回数の減少に関連があることが見て取れる．各固有値の計算に要する反復回数を，表 5 に示す．モード 3 については，残差の閾値 10−12 −12. self seconds 0.04 0.01 0.01. calls 10374 12154 1768. self s/call 0.00 0.00 0.01. total s/call 0.00 0.00 0.01. name lis_matvec_crs lis_vector_copy lis_vector_set_all. 部分空間反復法における各処理の割合（ Intel Xeon 5570 サーバ上，問題サイズ 202 × 202 ，倍精度． Lis のプロファイリングオプションによる．）. % cumulative time seconds 55.56 0.05 11.11 0.06 11.11 0.07 11.11 0.08 11.11 0.09. 合，倍精度，4 倍精度での計算時間はそれぞれ 63.32 秒，44.64 秒であった．求める固有値. に達していないため，反復回数の上限 1000 回 (残差 1.04 × 10. 2 次元 Helmholtz 問題（膜の振動）におけるモード. (4). self seconds 0.05 0.01 0.01 0.01 0.01. calls 9398 17252 4650 2849 772. self ms/call 0.01 0.00 0.00 0.00 0.01. total ms/call 0.01 0.00 0.00 0.00 0.01. name lis_matvec_crs lis_vector_dot lis_vector_duplicateex lis_vector_axpyex_mmm lis_cg_check_params. 図 3 部分空間反復法における各処理の割合（ Intel Xeon 5570 サーバ上，問題サイズ 202 × 202 ，4 倍精度．）. ) で打ち切っている．よっ. て，この固有値の計算における残差の停滞が，全体の計算時間に影響を与えていることが分. らに，MPI 版を使用して使用コア数を 8 に増やし，30 個までの固有値計算を行った結果を. かる．. ??に示す．倍精度での計算時間は 123 秒，4 倍精度での計算時間は 489 秒であった．モー. 一方，計算する固有値の数を 20 個に増やした場合の結果を表?? に示す．モードの小さい. ドが大きくなると収束が停滞する傾向はより顕著になっているが，この場合には 4 倍精度. 固有値については倍精度での計算と比較して少ない反復回数で収束しているが，モードが大. 演算でも十分な効果が得られていないことが分かる．. きくなると 4 倍精度であっても収束が停滞するものが出てきている．なお，この場合の倍精. 以上の結果から，計算する固有値の量が増えるにつれ，要求される精度が高くなり，4 倍. 度での計算時間は 298 秒であったのに対し，4 倍精度での計算時間は 396 秒であった．さ. 精度演算でも十分な精度が得られなくなっていると考えられる．4 倍精度演算が有効なのは，. 3. ⓒ2010 Information Processing Society of Japan.

(4) 情報処理学会研究報告 IPSJ SIG Technical Report. % cumulative time seconds 64.62 40.92 12.00 48.52 9.16 54.32 5.50 57.80 4.34 60.55 2.91 62.39 1.06 63.06. self seconds 40.92 7.60 5.80 3.48 2.75 1.84 0.67. Vol.2010-ARC-192 No.18 Vol.2010-HPC-128 No.18 2010/12/17. calls 124700 251966 253778 124700. self s/call 0.00 0.00 0.00 0.00. total s/call 0.00 0.00 0.00 0.00. 130137. 0.00. 0.00. 表5. name lis_matvec_crs lis_vector_axpy lis_vector_dot lis_vector_xpay __intel_new_memcpy lis_vector_nrm2 __intel_new_memset. 問題サイズ 2002 × 2002 の場合に各固有値の計算に要する反復回数．計算する固有値の数を 20 個とした場合．. Mode 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19. 図 4 部分空間反復法における各処理の割合（ Intel Xeon 5570 サーバ上，問題サイズ 2002 × 2002 ，倍精度．）. % cumulative time seconds 62.19 27.76 11.20 32.76 8.92 36.74 4.86 38.91 3.67 40.55 3.16 41.96 2.51 43.08 1.90 43.93. self seconds 27.76 5.00 3.98 2.17 1.64 1.41 1.12 0.85. calls 84732 167724 167724 84732. self s/call 0.00 0.00 0.00 0.00. total s/call 0.00 0.00 0.00 0.00. 87343 4203 3333. 0.00 0.00 0.00. 0.00 0.00 0.00. name lis_matvec_crs lis_vector_axpy lis_vector_dot lis_vector_xpay __intel_new_memcpy lis_vector_nrm2 lis_vector_dotex_mmm lis_vector_axpyex_mmm. 図 5 部分空間反復法における各処理の割合（ Intel Xeon 5570 サーバ上，問題サイズ 2002 × 2002 ，4 倍精度．）. 少数の固有値を求める場合に限られる可能性が高いが，適用範囲については検討が必要で. 4. ま. ある．. Iteration (double precision) 18 78 122 1000 102 492. Iteration (quad precision) 18 60 117 120 96 459 232 118 604 234 253 401 312 345 1000 1000 253 1000 1000 1000. め. 本稿では，並列反復解法ライブラリ Lis を対象に，double-double 精度による 4 倍精度演. 表 4 問題サイズ 2002 × 2002 の場合に各固有値の計算に要する反復回数．. Mode 0 1 2 3 4 5. と. Iteration (double precision) 18 78 122 1000 102 492 252 114 667 1000 249 439 272 299 995 300 263 1000 1000 1000. 算を固有値解法に適用し，4 倍精度演算の有効性について検討した．直交化を行いながら複. Iteration (quad precision) 18 60 117 120 96 459. 数の固有値を求める必要のある問題の場合，数値実験で示したように，計算を進める過程で特定の固有値に関して残差の収束が停滞することがあり，そのような場合の対策として，本手法は有効であると考えられる．ただ，計算する固有値が多い場合には，内部での 4 倍精度演算には限界がある可能性があり，適用範囲についてはより詳細に検討する必要がある．. 参考. 文. 献. 1) Bailey, D. H.: QD: C++/Fortran-90 double-double and quad-double package, http://crd.lbl.gov/dhbailey/mpdist/ (2010).. 4. ⓒ2010 Information Processing Society of Japan.

(5) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2010-ARC-192 No.18 Vol.2010-HPC-128 No.18 2010/12/17. 表 6 問題サイズ 2002 × 2002 の場合に各固有値の計算に要する反復回数．計算する固有値の数を 30. 2) Hida, Y., Li, X.S. and Bailey, D.H.: Algorithms for quad-double precision floating point arithmetic, Proceedings of 15th Symposium on Computer Arithmetic, pp. 155–162 (2001). 3) Renard, Y. and Pommier, J.: GMM++ User Guide, http://home.gna.org/getfem/gmm int (2010).. 個とし，MPI 版で 8 並列での計算を行った場合．. Mode 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29. Iteration (double precision) 18 82 112 1000 103 449 242 120 598 241 243 409 316 330 789 285 257 1000 1000 1000 1000 440 451 1000 1000 449 1000 1000 1000 917. Iteration (quad precision) 18 64 122 99 97 451 245 118 660 225 243 471 331 322 917 293 247 1000 1000 1000 1000 471 441 1000 1000 445 1000 1000 1000 1000. 5. ⓒ2010 Information Processing Society of Japan.

(6)