CeNSS における性能チューニングの指針に関する一考察

6.1 はじめに

近年，NS-IIIにおけるCeNSSのような大規模SMPスカラー・システムやPCクラスタに代表されるいわゆる超並列のクラスタ・システムが出現し，旧来型のベクトル型も含めて計算機システムの構成の多様化が進んでいる．こうした中で，あるプログラム/コードが，このシステムでは性能が出るが，別のシステムでは出ない，といったシステムによって性能がばらつくケースが増えて来ている．グリッドコンピューティングという遠隔の異種計算機資源をむしろ積極的に使い合おうというような話もあり，今後一つのプログラム/コードをいろいろなシステムで走らせる時代になれば，こうした実行速度のばらつき，あるいはそれにどう対処する，という問題は，より切実さを増すであろう．こうした状況において，

プログラム/コードの性能評価や性能チューニングによる性能向上の重要性は年々高まっているといえる．特に，クラスタ・システムの台頭とともに，並列化や並列実行が卑近なものとなっている今日，並列チューニングは非常に重要である．

しかしながら，並列化についてはもとより，プログラム/コードの性能評価や性能向上の問題は，意外と議論されていないのが実情ではなかろうか．プログラム/コードのチューニングが必要・重要であるとわかっていても，では現状の性能はどうで，今後の努力でどの程度の性能向上が可能なのか，といった具体的な項目については，かつてのベクトル化率のような漠然とした指標はあっても，そのプログラム/コードに相応しい指標や方針といった考え方は今のところないように思われる．

本章では，そのような事情を踏まえ，CeNSS における JAXAアプリケーションの処理性能の解釈，性能向上の重要性やチューニングの方法論について考察する．また，実効ピーク性能という概念を提示し，その有効性やそれを用いたチューニング法について論ずる．

6.2 性能評価・性能向上・チューニングの重要性と課題図6.1は，並列性能チューニングを含む性能チューニングの一般的な内容を整理したものである．CeNSS では，スレッド並列とプロセス並列を組み合わせたハイブリッド・プログラミングのスタイルを採用しているので，並列化において，

スレッドを使っている場合には，プロセス並列に加えてスレッド並列チューニングも必要である．こうしたチューニング内容の切り分けも頭に入れておかないと，いま何をしているのかわからなくなってしまう危険があるので注意を要する．

また，切り分けだけでなく，作業を効率良く行うためには，

チューニング作業の順番も大切である．このあたりは経験がものを言う世界かもしれないが，他方で管理側からの支援も重要である．その意味もあり，JAXAコードに対する性能評価やチューニングの事例を，後の第7章～第9章に示すこととする．また，JAXAと富士通で整備したチューニングガイド[1]を付録Hに示した．

図6.1 性能チューニングの類型

ここ2－3年で作られたコードを除き，我々の航空宇宙分野のCFDコードは，そのほとんどがベクトル機の時代に作られたものであり，処理性能は「ベクトル化率」というほとんど単一の指標により判断されてきた．ベクトル化率が高ければ実効性能も高い，というわけである．一方，CFD のコードは，（ぎりぎりにベクトルチューンされたもの以外は，）比較的単純な DOループの多数の組み合わせから成るので，

スカラー・システムでもそこそこの実効性能が出る場合は思いのほか多い．少なくともサブルーチン単位やループ単位でみると，実効効率で20%を越えるような例もあり，かつて言われたような，「CFDコードは，スカラー機では数%の実効効率しか出ない（出せない）」ということでは必ずしもない．

しかしながら，スカラー機の場合には，メモリからデータを持って来る際に，ベクトル機のように連続的に持ってくるのではなく，一度キャッシュを介在するために，キャッシュミスが発生すると，ベクトル機に比べて性能がかなり落ちてしまうのも事実である．また，以下の例で示すように，場合よっては，チューニングにより性能が劇的に向上することもあるので，ベクトル機に比べると話としては厄介である．

図6.2は，JAXAのいくつかの実コードについて，単体性能1.7GFLOPSのベクトル機NWTと，チューニングなしで CeNSSにかけた場合，チューニング後に CeNSSで実行させた場合の性能を比較した事例である．CeNSSでは，どの

図6.2 チューニングによる性能向上の例

0 100 200 300 400 500 600 700 800

S1 S2 S3 S4

コード

実効性能 (Mflop/s)

NWT CeNSS CeNSS-T

46 宇宙航空研究開発機構研究開発報告 JAXA-RR-10-005

0 200 400 600 800 1000 1200 1400

0 10 20 30 40 50 60 70 80 90 100

メモリコスト(%)

MFLOPS

平均：421MFLOPS

平均：29%

P1 P2

P3 P4

P5 P6

コードもチューニング後には性能は向上している．絶対値としては，400-700MFLOPS の性能であり，ピークに対して 10-15%の実効値が得られている．ただ，コードS2については，チューニングなしでは，ベクトル機に比べ性能は低下するものの，チューニング後にはベクトルと同様かやや凌ぐ実効性能が得られている．このことは，性能評価やチューニングが重要であることを示すとともに，その困難さも示唆している．

現状，性能評価やチューニングに対する指標や方針は，キュッシュミス率をある一定値（例えば1%）以下にするとか，

ループ操作（融合，分割，軸入替）やメモリアクセスの（時間的・空間的）局所化，ホットスポットの検出のような一般的な例・法則を示すことはできる[1]．しかし，個々のコードではどうなのか，これをやれば定量的にどういう効果があるのか，については，ユーザの個人的な判断や勘・経験にまかせるしかない状況にある．今後，並列機のシステム構成がますます多様化し，プログラム/コード自体のプログラミング/

コーディング・スタイルも多様化して行くようなことになれば，混迷の度合いも一層深まる可能性があり，普通のユーザが個別に性能向上を図るための支援策を如何に講ずるかについては，システムを有効に利用するためにもシステム運用側の大きな課題でもある．

6.3 実効ピーク性能とチューニング指針

そこで我々は，このような困難に対する解決策を模索するために，富士通株式会社の協力を得て，科学技術計算系の実際のコード250本のCeNSS上での単体CPU実効性能を調査した．図6.3は，メモリアクセス状況が性能に与える影響が大きいとして，メモリアクセスコストを横軸に取り整理したものである．これにより，実コード250本の平均メモリアクセスコスト=29%，平均実効性能=421MFLOPS であることがわかった．直線は，平均線を示している．JAXAコード 6本についてもプロットしてみたが，コードP1，P2は，平均に対しては十分性能は出ているが，コードP3，P5，P6については，改善の余地があることがわかった．コード P1，

P2 は，平均よりは高い性能が出てはいるが，もっと性能の高いコードもあるので，がんばりようによってはもっと高い性能が狙えるかもしれない．

図6.3 実効性能の調査結果

図6.4 実効ピーク性能の考え方

以上のような実コード性能の評価分析活動から，図6.4のような構図を考えるのが妥当であろうという結論に達した．

すなわち，「実効ピーク性能」というものを考え，これをチューニングの指標としたらどうかというものである．実効ピーク性能は，理想的にチューニングして到達できる最高の性能値のようなものを意味する，問題は，実効ピーク性能をどう決めるかである．例えば，メモリコピーのみのプログラムは0FLOPSである．A=B+Cというプログラムは，シーケンシャルに実行すると

load B load C

add

store A

のように1演算に4サイクルかかるので，1演算/4サイクル

×1.3GHz=375MFLOPSの性能であるが，CeNSSでは，１サイクルに浮動小数点2命令同時実行可能なので，

load B & load C & add store A & load B load C & add & store A

のように3サイクルで2演算の実行が可能であるから，最高で，2演算/3サイクル×1.3GHz=867MFLOPSの性能を出すことができる．これの類推から，実効ピーク性能P_effを，

浮動小数点演算数

Peff （MFLOPS）= ―――――――――― × 10⁶ (6.1) 理想実行時間

M&A命令は2演算，他は1演算でカウント（ただし，DIV, SQRTも1演算）

MAX（浮動小数点命令数，それ以外の命令数）/（1.3GHz×2）

実効性能P_sus

ピーク性能P_peak 実効ピーク性能P_eff

チューニングで改善の見込みがある

0.0 0 0.1 0 0.2 0 0.3 0 0.4 0 0.5 0 0.6 0 0.7 0

0 20 4 0 6 0 80 10 0

メモリコスト(%) 比

P1 P2 P3

P4 P5

P6 平均：0.29

0 1000 2000 3000 4000 5000 6000

0 10 20 30 40 50 60 70 80 90 100

メモリコスト(%)

MFLOPS

平均：1435MFLOPS

P1 P2

P3 P4

P5 P6

と定義し，図6.3で調べたのと同じ250本の実コードに対してPeffを調べた．ただし，式(6.1)は，

・無駄な演算，データ移動はない

・メモリアクセス，整数演算は，2命令/サイクル

・浮動小数点演算命令は，2命令/サイクル

・メモリアクセス，整数命令と浮動小数点演算は同時実行可能

として考えている．以下の図6.5は，実効ピーク性能をメモリコストに対してプロットしている．ここで，都合により，

FMADDオプションは付けていないので，実効ピーク性能の

最大値は2.6GFLOPSになっており，最大になっているコードも幾つかある．◇は，JAXAコードの値，直線は平均値を示している．全体での平均実効ピークは1435MFLOPSであることがわかった．JAXA コードに関していえば，コード P1，P2は平均より高く，コードP3，P5，P6は平均より低い．調査の結果，P1，P2が平均より高い理由は，浮動小数点演算が多いからであることがわかっている．逆に，コード P3 以下が平均より低い理由は，浮動小数点演算以外の命令の影響の可能性が高い．式(6.1)により，実効ピーク性能は浮動小数点演算数が多いほど高くなるので，これらのコードについては，浮動小数点演算数を増やす等のチューニングを行えば，より高い実効性能に到達可能ということである．

図6.5 実効ピーク性能の調査結果

表6.6は，今までの測定結果から，6本のJAXAコードの実効性能P_sus，実効ピーク性能Peff，及びその比（「実効ピーク性能比」と呼ぶことにする．）Psus/Peffを示したものである．

コードP1，P2の括弧内の値はFMADDオプションを付けて測定したときの値であり，コードP1については，FMADD により 20%以上の性能改善の可能性がある．Psus/Peffは，コードP6を除き20～30%という値が得られた．

図 6.7 は，250 本のコードに対して実効ピーク性能比 P_sus/P_effをプロットしたものである．◇は，JAXAコードの値，

直線は平均値を示している．全体平均は，29%であった．一般的にいえるのは，メモリアクセスコストが低い（図の左側）

ほど，ピーク性能比は高くなることであり，コードの持っている本来の性能をより高く出しているといえる．JAXAコードについていえば，P3 を除きどのコードも平均線を下回っ

ている．これは，本来の性能を出し切っていないことを意味しており，性能改善の余地があることを示している．無論，

その改善の中身はコードによって異なるので，コード毎に検討してみる必要がある．例えば，詳細に調べてみると，コードP1は割り算が，コードP2はSQRTが多いことがわかった．これは，化学反応項や，Roeスキームの影響であることが想定される．よって，この辺りを集中的に工夫すれば，もっと性能を上げられる可能性はある．コードP3は，チューニングという意味では，平均的な実力を出しているといえる．

ただし，絶対性能は高くないので，（アルゴリズム的に工夫の方法がなければ仕方ないが，）基本的な性能を上げる努力をするかどうかである．コードP5，P6は，平均値からすると悪い値ではない．逆に，メモリアクセスコストを変えないまま工夫しても，性能はあまり上がらない，あるいは，上げようがないことを意味している．図でいうと，もっと左側の位置に来るようにメモリアクセスのチューニングをすれば性能改善の余地は大きくなる．

表6.6 JAXAコードの実効ピーク性能比

コード P1 P2 P3 P4 P5 P6

実効性能 666 648 241 422 160 114

実効ﾋﾟｰｸ性能 2600 (3218)

2600

(3077) 873 1764 777 810 Psus/Peff 25.61% 24.91% 27.55% 23.90% 20.65% 14.07%

図6.7 実効ピーク性能比の調査結果

ドキュメント内 2 宇宙航空研究開発機構研究開発報告 JAXA-RR 序章まえがき 0.1 本報告の目的本報告は, 旧航空宇宙技術研究所 ( 以下, 航技研と略) において 2002 年 10 月に導入され, 宇宙航空研究開発機構 ( 以下, JAXA と略) に統合された以降も JAXA スーパー (ページ 45-49)

CeNSS における性能チュー ニングの指針に関する一考察