NS-III のシステム基本特性 - 2 宇宙航空研究開発機構研究開発報告 JAXA-RR 序章まえがき 0.1 本報告の目的本報告は, 旧航空宇宙技術研究所 ( 以下, 航技研と略) に

4.1 はじめに

本章では，汎用ベンチマークやテストプログラムの性能評価結果に基づきNS-III（特にCeNSS）の性能上の基本特性を探る．また，システムの特徴や運用方針について触れる．

NS-IIIの中核計算エンジンたる中央計算システムCeNSS は，市場からの調達とはいえ相当な規模ゆえに，その実効性能（実測値）やシステム特性は，カタログスペック¹²だけでは推し量れない部分がある．また，当初予定していた性能が実際に達成できているかという点も，経験がないだけに実際に確かめる必要がある．次の調達に向けての客観的な基礎データにもなる．そこで，よく用いられるベンチマークプログラムや簡単な試験プログラムを用いて性能測定をできるだけ多角的に実施し，主要な特性を調べた[1][2]．

4.2 CeNSSの基本演算処理性能

CPUの基礎演算性能評価として，Eurobenベンチマーク¹³ を用いた．図4.1は，DotProd(s = s + x1(i)*x2(i), i=1,n)と呼ばれるカーネル7の測定結果を，著名なCPUとCeNSSの CPU（SPARC64 V）とで比較（データは富士通より）したものである．横軸に問題規模，縦軸に性能値の対数を取ってある．他のカーネルの測定結果も含めて，SPARC64 Vは，

同時代の他のCPUと比べて，単体性能としては遜色ないものであることがわかる．（著名なCPUの値は，ホームページからの抽出（2003年5月）であり実際に測定したものではないことに注意する．）なお，ここで，ベクトル計算機 VPP5000 の値も同時にプロットしている．ベクトル計算機は，問題規模が小さいうちは，ベクトル演算器の立ち上がりのオーバーヘッドのためにスカラーCPU より性能は良くないが，一定規模に達するとスカラーCPU を抜いている．これは，VPP5000の単体性能が9.6GFLOPSと高いことによる．ベクトルの場合は，問題規模が大きくなっても一定の性能を続けるが，スカラーCPU の場合には，データがキヤッシュから溢れると性能が低下する．縦軸は対数なので，見た目の差は小さいが半分以下になってしまう．逆にキャッシュに載っていれば性能が落ちないのがスカラーCPU の特徴でもある．

図4.1 EurobenベンチマークKernel7の性能

12 http://primeserver.fujitsu.com/primepower/catalog/pdf/primepowerhpc2500.pdf 13 http://www.euroben.com

図4.2 STREAMベンチマークTriadの性能

表4.3 STREAM Triadの結果条件測定結果[MB/s] 性能比

単体CPU 2,254 1

8CPU 12,290 5.42

メモリ性能の測定には，良く知られたSTREAMベンチマーク¹⁴を用いた．そのうちからTriad¹⁵の測定結果を，図4.2 にはCPU台数による性能値の変化を，表4.3には単体CPU 及び8CPU 使用時における性能値及び性能比（=単体 CPU に対する比）を示した．単体CPUの性能が，ノード内の全メモリバンド幅を使えるのにこの値に留まってしまうのは，

単体CPUから連続して発行できるメモリリクエスト数に制約があるので，そこで律速されるためである．8CPU では，

SMP内のメモリ競合（メモリ・コンテンションと呼ばれる）

により，単体CPUの8倍の値に対し67.8%に低下している．

実運用上は1ノード1プロセスということはないので，メモリバンド幅が低くなる，あるいはノードに配置するプロセスの数によって使えるメモリバンド幅が変わってしまうのは実運用上問題となる可能性がある．

次に，結合ネットワークの基礎性能を示す．バンド幅（転送性能）の計測には，MPI PingPong通信プログラム¹⁶を使用し，通信プロセスを異なるノード間に配置した場合と同一ノード内に配置した場合とでそれぞれ実行し，メッセージ長に対する通信時間から平均転送性能を算出した（図4.4(a)）．ノード間転送性能に関しては，ピーク性能4GB/sに対し，最大実効性能で3.88GB/sを記録した．実効効率は，ピークに対して97%であり，極めて高い（効率の良い）ものであることがわかる．一方，ノード内（メモリコピー）性能は0.68GB/sであり，ノード間とノード内でのデータ転送性能のアンバランス（数倍違う）が懸念材料として指摘される．一方，レイテンシ（遅延）に関しては，MPI Barrierの時間を測定（図4.4(b)）した．ソフトバリアでは，プロセス数の増大とともにレイテンシが増大してしまっているが，ハードバリアを使えばプロセス数によるレイテンシはプロセス数によらずほぼ一定で

14 http://www.stream.com

15 STREAMベンチマークには，Copy[a(i)=b(i)]，Scale[a(i)=q*b(i)]， Sum[a(i)=b(i)+c(i)]，Triad[a(i)=b(i)+q*c(i)]の4種類がある．

16 例えばhttp://software.intel.com/en-us/articles/intel-mpi-benchmarks/

32 宇宙航空研究開発機構研究開発報告 JAXA-RR-10-005

1 10 100 1000 10000

1.00E+00 1.00E+02 1.00E+04 1.00E+06 1.00E+08

メッセージ長 [Bytes]

性能[MB/s] ノード内

0.68GB/s ノード間 3.88GB/s

0 5000 10000 15000 20000 25000 30000 35000

0 20 40 60 80 100 120 140

CPU数

SPEC

PRIMEPOWER 1300MHz Old PRIMEPOWER 563MHz HP Superdome 875MHz HP Alpha GS1280 1150MHz Sun Fire 6800 1200MHz SGI Origin3800 600MHz

(a) MPI PingPong

(b) MPI Barrier 図4.4 結合ネットワークの性能

あり，最小値7秒という値が得られている．ハードバリアにより，多プロセス並列時の同期処理の高速化が期待できる．

有名な線形連立一次方程式を解くLinpackベンチマーク¹⁷ については，実効性能でRmax= 5.406TFLOPSという数値を記録（2003年6月）した．このとき次元数はNmax=658,800 であり，すべての筐体を（64ウエイSMP）×2に構成し直し，63スレッド×36プロセスという形態で計測した．ここに，Rpeak=11.98TFLOPSである．計測には，10時間ほどを要し，Linpackプログラムレベルではあるが，システムとしてきちんと動くことが確かめられた．表 4.7に，2003 年6 月におけるLinpackトップ10のリスト，図4.5にその時点でのTop500サイト¹⁸の表示を示した．ここで，比 = Rmax /

Rpeak をあらわす．地球シミュレータや ASCIマシンといっ

たカスタムメイドの大規模システムが多い中で，ほぼ市販品で構築したシステムとしては世界トップランクの性能に位置づけられる．ただ，表からわかるように比 = Rmax / Rpeak=0.451 は他のシステムに比べて実効効率が低く，性能向上に向けての関係者のより一層の努力が望まれるところである．また，一般のアプリケーションの実効性能がLinpack を超えることはまずないことを考えると，実効性能の向上は次期への課題の一つでもある．

17 http://www.netlib.org/benchmark/hpl/

18 http://www.top500.org

図4.5 Top500サイト（2003年6月）

図4.6 SpecOMP 2001Mの性能

筐体内のスレッド並列性能の評価には，SpecOMP 2001M ベンチマーク¹⁹を用いた．図4.6に2003年6月時点での，

PRIMEPOWER HPC2500 の性能及び他システムの性能の比較を示す．横軸にスレッド数，縦軸にSPEC値を示している．他 CPU のクロックがその時点では HPC2500 の SPARC64 V より低かったため，また大規模 SMP が HPC2500 以外にないため，HPC2500 は数値的には良い性能を示している．しかし，多スレッド時の直線性は良いとはいえない．

19 http://www.spec.org/omp/

0 50 100 150 200 250

0 128 256 384 512

プロセス数

micro sec

Hardware barrier Software barrier

0 10 20 30 40 50 60 70 80 90

0 4 8 12 16

プロセス数

性能比

x 1thread x 2thread x 4thread x 8thread x 16thread

表4.7 Linpackの結果（2003年6月）

順位システム /CPU数機関（国，年）提供者 Rmax Rpeak 比 1 地球シミュレータ /5,120 ES（日本，2002） NEC 35,860 40,960 0.875 2 ASCI Q - AlphaServer SC ES 45 1.25GHz /8,192 LANL（米，2002） HP 13,880 20,480 0.678 3 MCR Linux Cluster Xeon 2.4GHz /2,304 LLNL（米，2002） Linux NW 7,634 11,060 0.690 4 ASCI White SP Power3 375MHz /8,192 LLNL（米，2000） IBM 7,304 12,288 0.594 5 SP Power3 375MHz16way /6,656 NERSC（米，2002） IBM 7,304 99,84 0.732 6 xSeries Cluster Xeon 2.4GHz Quadrics /1,920 LLNL（米，2003） IBM 6,586 9,216 0.715 7 PRIMEPOWER HPC2500 1.3GHz /2,304 NAL（日本，2002）富士通 5,406 11,980 0.451 8 Rx2600 Itanium2 1GHz Cluster Quadrics /1,540 Pacific NW Lab. （米，2003） HP 4,881 6,160 0.792 9 AlphaServer SC ES45 1GHz /3,016 Pittsburgh SC（米，2001） HP 4,463 6,032 0.740 10 AlphaServer SC ES45 1GHz /2,560 CEA（仏，2001） HP 3,980 5,120 0.777

ES: 地球シミュレータセンター, LANL: Los Alamos National Lab., LLNL: Lawrence Livermore National Lab., NERSC: National Energy Research Scientific Computing Center, CEA: Commissariat à l’énergie atomique

図4.8 姫野ベンチマークの性能

図4.8に，良く知られたHimenoベンチマークMモデルの測定結果を示す．Himeno ベンチマーク²⁰は，非圧縮流体をMAC法で解く際に現れるポアソン方程式のプログラムのカーネル部分を取り出したものであり，メモリへのストライドアクセスがあり，裸のメモリ性能が現れる．問題規模は一定で，プロセス数と並列数を変えている．プロセスに対してもスレッドに対しても比較的良い直線性を示しているのがわかる．ただし，良く見ると，同一CPU数の場合，スレッドをたくさん使った方が性能が高い場合があり，後の章でも示すが，このあたりのスレッド選択の是非がSMPシステムの難しいところでもある．

図4.9に，アプリケーションのベンチマークプログラムとして良く知られているNAS Parallel Benchmarkの測定結果を示した．NAS Parallel Benchmark²¹は，NASA Ames 研究所で開発されたCFDコードのいくつかをベンチマーク

20 http://accc.riken.jp/HPC/HimenoBMT.html

21 http://www.nas.nasa.gov/Resources/Software/npb.html

プログラムとして公開しているものであり，採用している解法によってBT,CG,MGなど幾つかの種類がある．流体のコードという意味では JAXA のアプリケーションと特性上は多くの共通点がある．図4.9は，CGとMGについて，クラスB（中規模）とクラスC（大規模）のスケールアップ性能を示したものである．クラスBでは，プロセス数の増加とともに通信量が増加するので性能のスケール性が低下している．クラスCでは，規模が大きいので相対的な通信量の増加が小さいのでスケール性の低下割合は小さい．

図4.9 NAS Parallel Benchmarkの性能 (a)CG

0 50 100 150 200

0 64 128 192 256

Number of processes Performance(1process=1) class B

class C

(b)MG

0 50 100 150 200

0 64 128 192 256

Number of processes Performance(1process=1) class B

class C

34 宇宙航空研究開発機構研究開発報告 JAXA-RR-10-005

0 500 1000 1500 2000 2500 3000 3500 4000 4500

0 10 20 30 40 50 60 70 80

Number of devices

Throughput [MB/s]

write read

4.3 入出力性能とストレージ特性

大容量ストレージへの基本（最大）入出力性能を調べるために，FC パス 80 本を用いた逐次読み書きのテストを，

SAM-QFS，SRFS，STF，Fortranのレベルで実施した．ここに，SAM-QFS，SRFS は，それぞれ階層型ストレージ管理，ノード間高速ファイルシステムのことであり（第3章参照），STFとは，中央可視化システムからCeMSSのデータを読み込むときに使うライブラリ（付録F参照）を指す．それぞれのレベルからの，I/O 長に対する入出力性能の実測結果を図 4.10 に示す．ローカルファイルへのバンド幅の最大は6.6GB/s，ノード間では最大は3.2GB/sであった．ノード間では，結合ネットワーク（ピーク4GB/s）を介するために，

入出力性能は低下する．また，Fortranレベルからは，（処理系にもよるが）Fortranバッファ（メモリコピー）が介在するため，さらに入出力性能は低下することに注意する．また，

I/O長によって数倍の性能差がある．これらのベンチマークにより，入出力データのブロックサイズを 8MB（標準はは 64KB），Fortranバッファの標準値を64MB（標準）として運用することとした．

図4.10 入出力性能ベンチマークの結果

図4.11 FCチャネル数による入出力性能値

当初予定していた 1GB/s という入出力性能を実現するために，図4.11に示したようにFCチャネル数による入出力性能のベンチマークを実施し，この結果から 16ストライプという数字を決定した．ちなみに，32 ドライブを用いた SAM-QFSからの測定値は，アーカイブ358MB/s，ステージ 387MB/sであった．

一方，STFについては，GSNリンクを4本ストライプすることにより500MB/sという入出力性能を実現している．

4.4 中央可視化システムCeViSの表示特性[3]

中央可視化システムCeViSの技術的側面については，付録 Fを参照されたいが，ここでは，NS-IIIによるCFD解析結果の幾つかの可視化事例を紹介することにより，CeViSの大画面表示装置による可視化表示の特性（得失）を示す．

まず，三次元表示（ステレオ表示）や大画面表示をするからといって可視化表示の方法論が従来と様変わりするということは基本的にはないことに注意したい．変わるのはむしろ受け取り方，印象の方である．表示法としては，線画によるコンター，ポリゴンによる等値面，新しいところではボリューム表示等が使われる．線画によるコンター表示では，解析対象が複雑になって，線を多数表示するような場合に三次元表示が有効である．図 4.12 は，航空機機体形状のまわりのCFD解析結果から，物体表面の圧力分布と，主翼のある一定断面におけるマッハ数の分布を同時に示したものである．コンターの線が多くなると線の位置関係の把握が困難になるが，三次元表示により，線の前後関係や空間構造を容易に把握することができる．多数の線を表示した場合と同様に，

多数の粒子を表示した場合も三次元表示は有効に機能する．

図 4.13 は，重合格子を用いて遷移飛行するヘリコプタの回転ブレード及び胴体まわりの流れを非定常的に解いたものである．物体表面の色は圧力分布を示し，パーティクル粒子は，ブレードと後流渦，胴体の干渉状況を表している．粒子数が多いと空間位置把握が困難だが，三次元表示により流れの構造をクリアにつかむことができる．

三次元大画面表示は，直感的理解の増進というメリットもある．同じコンテンツでも，例えばノートパソコン上で見るのと，大画面上や三次元表示で見るのとでは感覚的にかなり違った印象がある（図 4.14）．アピール度，写実感，鮮明度などこれほど違うものかと驚かされるものである．単に慣れの問題なのかもしれないし，個人差もあるだろうが，スケール効果とか体験感とでも分析することができるのではなかろうか．

また，このシステムは，Infinite Reality 3というグラフィックスエンジンを持っていて，26 億8800万ピクセル/秒，

680億色の描画性能を有する．この性能と，ボリューム表示や半透明表示と組み合わせることにより，非常に高精細な画像を実現することができる（図 4.15）．こうした機能は，新たな現象の発見や知見の蓄積に有効な場合もある．

一方，このような三次元表示のデメリットとしては，1) そこに行かないと使えない，体感できない，2) 発表で使えない，

0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000

100 1,000 10,000

I/O length [MB]

I/O performance [MB/s]

SRFS write SRFS read SAM-QFS write SAM-QFS read STF write STF read Fortran-write Fortran-read SAM-QFS

SRFS

STF Fortran

ドキュメント内 2 宇宙航空研究開発機構研究開発報告 JAXA-RR 序章まえがき 0.1 本報告の目的本報告は, 旧航空宇宙技術研究所 ( 以下, 航技研と略) において 2002 年 10 月に導入され, 宇宙航空研究開発機構 ( 以下, JAXA と略) に統合された以降も JAXA スーパー (ページ 31-38)