実シミュレーションコードによる大規模科学計算シ
ステムの性能評価(3.2 第4回情報シナジー研究会,
3. 研究活動)
著者
滝沢 寛之, 岡部 公起, 伊藤 英一, 撫佐 昭裕
, 曽我 隆, 伊藤 学, 小林 広明
雑誌名
年報
巻
5
ページ
78-83
発行年
2006-06
URL
http://hdl.handle.net/10097/48521
実シミュレーションコードによる大規模科学技術計算システムの性能評価
滝 沢 寛 之I1岡 部 公 起I2 伊 藤 英 一I2 撫 佐 昭 裕I3 曽 我 隆I4 伊 藤 学I4 小 林 広 明I2 sx-7システムは, HPC Challellge(HPCC)ベンチマークの28の評価項目中16項目で卓越した 評価を得ることができた.しかしながら,高性能計算(HPC)システムにとっては.ベンチマークよ りもむしろ実用的な科学技術計算に対して高い実効性能を達成できることが重要である.このため, 本稿ではSX-7を含む4つのHPCシステムの性能を,情報シナジーセンターの利用者によって開発 された夷シミュレーションコードを用いて評価する,評価結果から, SX-7システムはスカラプロセッ サを搭載した他のHPCシステムと比較して非常に高い実行効率を実現できることが明らかになった. この差はメモリアクセス性能差に起因しており, SX-7以外のシステムでは実行時間の大半をメモリ アクセスのために費していることが示された.この結果より. HPCCベンチマークにおけるメモリ アクセス性能評価の妥当性が示されたとともに. SX-7システムの実用的な科学技術計算に対する高 い潜在他力が再確認された. 1.はじめに Top500プロジェクトは1993年から年に二回.世界 最高性能の5()n台のスーパーコンピュータを集計し, Top500リストとして公開してきた.同プロジェクト は, LINPACKベンチマーク実行時の最大浮動小数点 演算性能(Rmax値)に基づいてHPCシステムの性能 を評価し,順位付けしている.しかし, Tbp500プロ ジェクトで採用されているLINPACKベンチマーク のような単一指標だけでは, HPCシステムの性能の ほんの一面しか評価できず.実際のアプリケーション において高い性能を発挿できるHPCシステムの研究 開発のためには不十分との指摘もある. このような背景から,現実的な科学技術計算に対す る実効性能をより適切に評価できる新しいベンチマー クが強く求められており. LINPACKベンチマークを 補完する複合的なベンチマーク集であるHPCCベン チマークが開発されている. HPCCベンチマークは. LINPACKベンチマークのような演算に限定された測 定指標と異なり,メモリ帯域幅性能,ネットワーク性 舵.基本カーネルの実行性能が含まれており. HPCシ ステムの性能を枚数の軌点から多角的に評価できる. I1山北大学大学院情袖科学研究科Graduatc School of Information Scicnccs, Tohoku UIliv. I2畑ヒ大学情報シナジーセンター
Inf。rmation Synergy Center, TohOku Univ. I3ロ本t気株式会社
NEC corporation
I4 NECシステムテクノロジー株式会礼 NEC System TcchnologlCS, Ltd.
東北大学情報シナジーセンターで運用しているNEC SX-7システムは, HPCCベンチマークの28の評価項 目のうち16項目において著しく高い評価を得ること ができた.本稿では, SX-7がHPCCベンチマークで 好評価を得ることができた要因について考察する.ま た,情報シナジーセンターの利用者によって開発され た実シミュレーションコードを用いて4種類のHPC システムの性能を評価し, HPCCで好評価を得た要 因が実シミュレーションの実効性能に与える影響につ いて考察する. 2. HPCCベンチマークによる性能評価 HPCCベンチマークはHPCシステムの性能を多様 な観点から計測し,現実的なアプリケーションにおけ る演算性能をより適切に評価することを目的として, Dongarraらが米国DARPAの支援を受けて開発して いるベンチマーク集である.システム性能を多角的に評 価するために従来のLINPACK (High-Performance Linpack, HPL)を含む7つのベンチマークから構成 されている.従来より重要視されてきた浮動小数点 演算性能に加えて,高い実効性能を達成する上で重要 なメモリアクセス性能やネットワークを介したデータ 転送連出.様々なアプリケーションで頻!掛こ利用され るカーネルコードに対する性能等を測定し,特定のア プリケーションに偏らない性能評価の実現を目指して いる. HPCCベンチマークによる評価結果をスライド8 に示す.東北大学情報シナジーセンターに設置された ベクトル型スーパーコンピュータNEC SX-7システ
ー78-ムは,同じベクトル型スーパーコンピュータと比較し ても,特にメモリ帯域幅に関する項目でその性能が極 めて高く評価されている. 2004月12月に登録されて いたHPCシステムの中では, SX-7が28の評価項目 中16の項目において員も高い評価となった. sx-7は, 256Gバイトのメモリを共有する32台の cpUを搭載したSMPノードを構成要素としている. cpU単体あたりの理論最大演算性能は8.8・3Gflop/Sで あり, SMPノードあたりに換算すると282.56Gflop/S の理論最大演算性能を有する. CPUあたりのメモリ 帯域幅の理論最大値は35.3GB/Sである・ SMPノー ドあたり8台のCPUのNEC SX-6や, SMPノー ドあたり4台のCPUのCrayXlと比較すると, 32 台のCPUによる大きなSMP共有並列を実現できる ことがsx-7の長所の一つである. HPCCベンチマー クでは枚数のMPIプロセスを起動する必要があるた め, 16CPUを1つのSMPノードとして2つのMPI プロセスを実行して評価する必要があるが,それでも なおノード単体性能としてほ極めて高い評価を得るこ とができる. SX-7ではさらに32CPUまでを一つの sMPノードとして扱うことができるため, sMPノー ド単体の演算性能が求められる科学技術計算に関して は非常に高い実効性能を期待できることが分かった. 科学技術計算において.メモリアクセス頻度に対し て計算負荷が低い場合,ピーク演算性能に対して低い メモリ帯域幅のHPCシステムでは演算器へのデータ 供給がILUに合わなくなる.このため.高い実効性能の 維持は困難である.しかし. SX-7の場合, CPU単体 あたりのfiu論最大演算性能(Gnop/S)とIiu論メモリm 域幅(GB/S)の比は1:4であり,実効性能でも理論性 能と同等の比を達成できている.このことから, SX-7 が他のHPCシステムと比較して高いデータ供給能力 を有しており,データアクセスあたりの演算負荷が低 い科学技術計算に対しても高い実効性能を維持できる ことが示唆された.
3.実シミュレーションに対する性能評価
HPCシステムが本来求められていることは,実用 的な科学技術計算に対して高い実効性能を発挿するこ とである.このため.本節では情報シナジーセンター の利用者が開発した実シミュレーションコードを用い て,スライド15に示すSX-7を含む4つのHPCシ ステムの性能を評価する.本評価に用いた5種類のシ ミュレーションコードをスライド16に示す. まず.一つのCPUで各シミュレーションを実行す る場合の実行効率,すなわち理論性能に対する実効性 能の割合をスライド17に示す.一見して分かるとお り, SX-7システムのみが40%以上の高い実行効率を 示しており.スカラプロセッサを搭載した他のHPC システムでは良くても10%程JiEの実行効率しか達成 できていない.これは他のHPCシステムでは,実行 時間の大半をメモリアクセスのために門しているため である.全実行時間中,メモリアクセスに要した時間 の割合をスライド18に示す.アンテナ解析を除くシ ミュレーションで,メモリアクセスに要する時間が実 行時間の大半を占めていることが分かる.この状況を 改善するためには,キャッシュヒット率を向上させる 必要がある.しかし,スライド19から分かるとおり, キャッシュヒット率をほぼ100%にしない限りメモリア クセスに実行時間の大半を更していることから,本評 価に用いたシミュレーションコードに対してスカラプ ロセッサを搭載したシステムがsx-7に匹敵するほど の高い実行効率を達成することは困難であると. I.●える. 以上の評価結火より,実際の科学技術計算において メモリアクセス性能が実効性能に大きく影響すること が明らかである.これらの結果から, HPCCベンチ マークでメモリアクセス性能を評価することが有意義 であることが裏付けられた.また, SX-7ーのメモリア クセス性能の高さが.高い実効性能の維持に効果的で あることが再確認された. また, HPCCベンチマークで高い評価を得た要因 の一つである32CPUの大きなSMPノードに関して ち,同様に実シミュレーションに対しても有効である. 16CPU使用時における速比向上率をスライド20に 示す.スライド21は,プレート滑べりにjii・目して各 システムの速度向上率を示している.このスライドか ら分かる通り,他のシステムでは速度向上が得られな いにも関わらず, sX-7では依然として高い速度向上 率を達成できている.単一CPUによる実効性能が高 いだけでなく, SMPノート単位での評価においても sx-7の優れた並列処理能力が明らかになった. 4.ま と め 本稿では, SX-7システムがHPCCベンチマークで 高い評価を柑ることができた要因について考察した. また実シミュレーション対する性能の評価を新たに行 い.その要因との関連性について議論した.評価鮎火 より. HPCCベンチマークにおけるメモリアクセス 性能評価の妥当性が示されたとともに. SX-7システ ムの実用的な科学技術計算に対する高い潜在能力が再 確認された.■ "亡。事
案シミュし-ションコードにJ=S'
大規模科学拝術計羊システムの性能評価
第4旦㈹シナジーqf死金 ○滝沢寛之内辞公魚伊藤英一撫佐輯玲 曽我経伊藤学小林広q 下北*棚シナ・>'-センサ- /棚廿椴鍬 8*tt脚会社 NEC・>ス宇b宇JP / E)E}一脚会社 f背景:次世代ベンチマーク
∼ HPC ChaHenge Benchmark (HPCC) +単一相称(UNPACK)による性能評価へのアンチテーゼ ●スーパーコンピュータの性能を多角的に評価 J浮動小数点演井能力 -UNPACK ■メモリバンド幅 ■ネットワーク性能 +カーネル性能 ■ NEC SX17システムの好成練 ■登録時(2004年12月)には24評価項目中16項目で首位 J様々な報道横間で広く報道もくじ
■背景と目的 ■ HPC Challenge (HPCC)ベンチマークの結集 I SX-7システムの性能面での特徴を考察 ■実シミュレーションに対する性能評価 ■実行効率 ●並列化による速度向上率 ■まとめ I背景:幕欝の性能?
I LINPACKと実効性能の布離 Div即genCe25・- -転空葦密
ヽ1 1998 2000 2083 2008 YqF8 tJCtLbl tJ) ■王003 ・ 2008 btJrruIt+) 一 SX-7報漣事例 劔剪」 白リ ツリ f D ィイ 剔蜒X二;i ′ナウ■:′一 mldt ar取-I tA■と▼ ィ,(97Bx8h ク4貭メヲノ^ Y$ メwイメ○ヽ 剪
隻眼甥-のスパコノ
T巾{ i
.▲■」エE) I■l●I -LL蟹 凵。■一C)ヒ■tIIlrrLI teTJLJLAI■仙7 .J蒜i誌2鑑識だ A.抽JWPTtdM* JmJLtJIt∼" 下.-■¢也■Ju.tJ■寸 A一r.恥btラーtうだ_- 一■一■■■叫■斗■ カ Hカ 8 ヌノ ルY越 f │メ
■I Elk 豫r2 th■IP■暮¶l.f■止*汁■′ 一〇■-.f叫■▲-I-■LJ▲ 珊iチrこJtJ血相
i 剩 8屮BトニH イ
河北薪租We e 剪へ-ン エツ籌讃室戸葺葦 引
義盲表裏oEm(%
-80-I 本報告で捗 I HPCCと実シミュレーションに対する性能の関係 ■実シミュレーションに対する性能が目的 THPCCにのみ好評価では意味がない ■夷シミュレーションの多様性 b什報シナジーセンターを多様な研究者が利用 ■一般的なPCを並べるだけでは得られない演井性能 J PCなら研究室単位でも辞達可能 ■本報告 ● HPCCによる評価結果を考察 ●実シミュレーションに対する実効性能との関係を考察 NEl LL I HPCCでの好成績の理由 ■ベクトルプロセッサの息ェ I極めて高いメモリープロセッサ間データ板送能力 q局所性に乏しいメモリアクセスでも性能を維持可能 p lつのノードに327E)セツサを搭載 Il最大32CPUで1つのMPlプロセスを実行可能 ■ノード内通信のためにネットワーク性能も好評価 7システム規模に依存する評価項目では惨敗・ ・ ・ 暮1ノードでの評価なので仕方がない これらの特肴bt車岸の計算にとのJ;うに影響する? I HPCCharfengeBenchMrk ′ 尼 劔 HCCBN ド卓也のyF書 エ X耳 ㍗/ jl / ⅲ I 一㌔ 劍8 8&ニテst」蹈 ネ1ト 鋳-J>-.1.r'-¶Tmn.A一.- ? B 碇 「 ツ
NE⊂蜘
l■ メモll事項の局所性 FFT loyJ叫←RandomAcce鉱 署冨iggoni3ES.ngApp.ieai;慧'rapveseAgs
喜日.=ocdsn匡】S蜘aii-m:U,器
HPLLinpack/DGEMMSTREAMIP†RANS highTenp,dlocal恥lovJ いつ車高いキ…シユヒサト率書棚待:一一Fi且UreCou".SyJackDOワ叩r8でき能紬明いNE⊂蜘
l一 性能評価:測定嬢壌Syst帥 Fー1Lや PJHz) & オ B nxコ鋳 Lbrh_ 蕊 氾46D6 4ナ、" (x,メ Mと小爪Dde ((判 剄D (.蜘 V┐ F" ClOCk 5 R $ 8 トユB
SX-7 " 552 塔 353 256 蒜VF 7U4ニFナ鳴 TX.7IAzusA b 800 " ll 白 32 棉F &ト彪メ TX7個510 b 1600 田B 6.4 128 C 萇SvB ALrr3700 田B 16W 澱紕 8.4 澱 f28 昧GEW'&テ" rqt l● 評価ペン字マ-ウ7ELqラム ■シナジーセンター利用者の実シミュレーションコード 廿■ 痴tR櫨Iu kツ 手練 粕 t肘 儻8マ砺eiG (fテヨ ネ 悼XラFメ FGG $ツツツヨトv(.(ヌb饉 印丁稚 #sX キ#sX イ t 蓬 T 9 x ネ,ノG FPT職 ナァ%H ウY リ ウR 桝.負 -脚丑e火先の棚 (鵬エンジンのJR計.Jq) 州軸 d、・4箸
桝.A 儖(棚システムの鰍.Jq) x.ィ,ネ帚 SNACGL 鍍 EG##$
脚 ツツリ6sI 4V H* ツ、トィ5h7 dツツ籀5g、 2 ■仙 櫨」C (Jqの他〆カニ3tム由肘)
Ilt=L-3IqZI匂i5h
-82-l● 車やYシユヒYト牢 ざ100 -「りー-一一-_ 辻メメ粨耳耳耳剪ヨヌリ ○90 蓋琵 琶60 850 <40 S'30 ∈20 茎10 0 ーぺ一一、.t ◆、\