ANSYS Mechanical Release18.1
BMT Results
作成⽇:2017-06-21 最終編集⽇:2017-07-03
ベンチマークテスト概要
項⽬
内容
所属1
株式会社⽇本HP サービスソリューション事業本部技術本部ク
ライアント技術部
ご担当者1
清⽔ 康輔⽒
所属2
株式会社⽇本HP ワークステーションビジネス本部
ご担当者2
⼤橋 秀樹⽒
ベンチマークテスト実施者
清⽔ 康輔⽒
ベンチマークテスト実施期間
2017/5/10~2017/6/10
ベンチマークテスト実施場所
株式会社⽇本HP本社内
ハードウェア情報
項⽬ 内容
会社名 HP
コンピュータモデル Z840 Workstation
プロセッサモデル Intel Xeon E5-2699v4 x 2CPUs
ノード数 1
総コア数 44
GPUモデル1 NVIDIA Quadro GP100(TCCモード、クロックチューニング有)
GPUモデル2 NVIDIA Tesla K40c(TCCモード、クロックチューニング無)
総GPU数 1 + 1
総メモリ容量(GB) 128
ストレージ構成 Micron SATA SSD / SATA HDD (7200rpm) / Z Turbo Drive G2 512GB
BIOS Version v2.32
BIOS: Turbo Boost Yes
BIOS: Snoop mode Cluster On Die
OS Microsoft Windows 7 Professional SP1 64bit
ANSYS Mechanical 標準ベンチマークモデル概略
有限要素モデル 概要
モデル名:V17cg-1 Power Supply Module
解析⼿法と概要:定常伝熱線形解析、荷重ステップ数1 モデル規模:節点数 5,266,730、要素数 2,303,613、⾃由度数 5.3MDOF メモリ:トータル 13GB、データベース 2500MB ソルバ:JCG(実数型、対称マトリクス) 要素タイプ:⾼次四⾯体ソリッド,⾼次六⾯体ソリッド (SOLID87,SOLID90,SURF152)
モデル名:V17cg-2 Tractor Rear Axle 解析⼿法と概要:静的線形構造解析 モデル規模:節点数 4,109,776、要素数 2,366,046、⾃由度数 12.3MDOF メモリ:トータル22GB、データベース1900MB ソルバ:PCG(実数型、対称マトリクス、msave,off) 要素タイプ:⾼次四⾯体ソリッド,⾼次六⾯体ソリッド (SOLID187,SOLID186,CONTA174,TARGE170,PRETS179) モデル名: V17cg-3 Engine Block 解析⼿法と概要:静的線形構造解析 モデル規模:節点数 4,728,103、要素数 3,181,628、⾃由度数 14.2MDOF メモリ:トータル13GB、データベース 2400MB ソルバ: PCG(実数型、対称マトリクス、msave,on) 要素タイプ:⾼次四⾯体ソリッド(SOLID187,SURF154) GPUアクセラレータ対応ベンダ: None GPUアクセラレータ対応ベンダ: NVIDIA GPUアクセラレータ対応ベンダ: NVIDA Release17.0⽤の標準ベンチマークモデルを使⽤しておりますので、モデル名は“V17”としております。”V18”ではありませんのでご注意ください。
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 5
ANSYS Mechanical 標準ベンチマークモデル概略
有限要素モデル 概要
モデル名:V17sp-1 Peltier Cooling Block 解析⼿法:定常伝熱-電気連成場⾮線形解析 モデル規模:節点数 319,080、要素数 133,009、⾃由度数 0.6MDOF メモリ:トータル24GB、データベース600MB ソルバ:SPARSE(実数型、⾮対称マトリクス) 要素タイプ:⾼次四⾯体ソリッド、⾼次六⾯体ソリッド(SOLID226,SOLID227) モデル名:V17sp-2 Semi-Submersible 解析⼿法:過渡構造⾮線形解析、累積イタレーション数 11 モデル規模:節点数 793,257、要素数 268,881、⾃由度数 4.7MDOF メモリ:トータル31GB、データベース1000MB ソルバ: SPARSE(実数型、対称マトリクス) 要素タイプ:⾼次四⾓形シェル、⾼次三⾓形シェル、⾼次ビーム (SHELL281,BEAM189) モデル名:V17sp-3 Speaker 解析⼿法:周波数応答解析、周波数 1000Hzのみ モデル規模:節点数 1,683,465、要素数 1,222,294、⾃由度数 1.7MDOF メモリ:トータル51GB、データベース1700MB ソルバ:SPARSE(複素数型、対称マトリクス) 要素タイプ:⾼次四⾯体ソリッド、⾼次六⾯体ソリッド (SOLID186,FLUID220,FLUID221) GPUアクセラレータ対応ベンダ: NVIDIA
GPUアクセラレータ対応ベンダ: NVIDIA, Intel
GPUアクセラレータ対応ベンダ: NVIDIA, Intel
ANSYS Mechanical 標準ベンチマークモデル概略
有限要素モデル 概要 モデル名:V17sp-4 Turbine 解析⼿法:静的構造⾮線形解析、累積イタレーション数 1 モデル規模:節点数 715,008、要素数 483,631、⾃由度数 3.2MDOF メモリ:トータル62GB、データベース1200MB ソルバ: SPARSE(実数型、対称マトリクス) 要素タイプ:⾼次四⾯体ソリッド(SOLID187,TARGE170,CONTA174) モデル名:V17sp-5 BGA 解析⼿法:静的構造⾮線形、累積イタレーション数 1 モデル規模:節点数 2,004,837、要素数 1,249,417、⾃由度数 6.0MDOF メモリ:トータル78000MB、データベース3000MB ソルバ: SPARSE(実数型、対称マトリクス) 要素タイプ:⾼次六⾯体ソリッド,⾼次四⾯体ソリッド(SOLID186,SOLID187)GPUアクセラレータ対応ベンダ: NVIDIA, Intel
GPUアクセラレータ対応ベンダ: NVIDIA, Intel
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 7
ANSYS Mechanical 標準ベンチマークモデル概略
有限要素モデル 概要 モデル名:V17ln-1 Gear Box 解析⼿法:モーダル解析、モード数 10 モデル規模:節点数 2,588,135、要素数 1,710,122、⾃由度数 7.7MDOF メモリ:トータル19GB、データベース1300MB ソルバ: PCG Lanczos(実数型、対称マトリクス、msave,off) 要素タイプ:⾼次四⾯体ソリッド(SOLID187) モデル名:V17ln-2 Radial Impeller 解析⼿法:モーダル解析、周期対称性、モード数 50 モデル規模:節点数 337,916、要素数 222,725、⾃由度数 2.0MDOF メモリ:トータル42GB、データベース500MB ソルバ: Subspace(実数型、対称マトリクス) 要素タイプ:⾼次四⾯体ソリッド(SOLID187) GPUアクセラレータ対応ベンダ: NVIDIAGPUアクセラレータ対応ベンダ: NVIDIA, Intel
標準ベンチマークモデル概略
TARGET170,CONTA174は接触要素ペア;SURF154,SURF156は表⾯効果要素 SHELL281はシェル要素;BEAM189はビーム要素 分野 タイプ /⾮線形線形 モデル名 ソルバー GPU (MDOF)⾃由度 使⽤要素 備考 構造 静的 線形 V17cg-2 PCG NVIDIA 12.3 SOLID187, SOLID186,TARGE170, CONT174 msave,off、WBメッシュ、固着接触 V17cg-3 PCG None 14.2 SOLID187, SURF154 msave,on
⾮線形
V17sp-4 SPARSE NVIDIAIntel 3.2 SOLID187,TARGE170,CONTA174 標準接触、1イタレーションのみ V17sp-5 SPARSE NVIDIAIntel 6.0 SOLID187,SOLID186 1イタレーションのみ
時刻歴 ⾮線形 V17sp-2 SPARSE NVIDIAIntel 4.7 SHELL281, BEAM189,SURF154, SURF156 WBメッシュ、⼤変形ON 周波数
応答 線形 V17sp-3 SPARSE NVIDIAIntel 1.7 SOLID186,FLUID220,FLUID221 計算ポイント数:1 モーダ
ル 線形
V17ln-1 LanczosPCG- NVIDIA 7.7 SOLID186 計算モード数:10 V17ln-2 Subspace NVIDIAIntel 2.0 SOLID186 計算モード数:100 伝熱 定常 線形 V17cg-1 JCG NVIDIA 5.3 SOLID87,SOLID90 荷重ステップ1 連成
電気-伝熱 定常 ⾮線形 V17sp-1 SPARSE NVIDIA 0.6 SOLID226, SOLID227
GPUパフォーマンス
CPU only vs. CPU+K40c vs. CPU+GP100
GPUパフォーマンス⽤ハードウェア
CPU Only
• CPU(E5-2699v4 x2): 44core
• GPU accelerator: No
• Storage: Micron SATA SSD
CPU+K40c
• CPU(E5-2699v4 x2): 44core
• GPU accelerator: NVIDIA Tesla K40c
• Storage: Micron SATA SSD
CPU+GP100
• CPU(E5-2699v4 x2): 44core
• GPU accelerator: NVIDIA Quadro GP100
• Storage: Micron SATA SSD
vs.
GPUパフォーマンス⽤ソフトウェア
項⽬
内容
ソフトウェア名
ANSYS Mechanical APDL
ANSYS Release
18.1
並列処理
分散メモリ型
MPI
Intel-MPI
MPI バージョン
5.1.3.180
GPUアクセラレータの使⽤
Yes
ジョブ実⾏時のコア数
2,4,8,16,32,44
SPARSEソルバのメモリオプション
インコア
ベンチマークモデル
9ケース(V17-cg1,V17-cg2,V17-ln1,V17-
ln2,V17-sp1,V17-sp2,V17-sp3,V17-sp4,V17-sp5)
GPUアクセラレータのパフォーマンス
9ケースの標準ベンチマークモデルを用意し、 ANSYS Mechanical APDL18.1でベンチマークを実施しました。並列処理は分散メモリ型、MPI は Intel-MPI を設 定しております。SPARSEソルバのメモリオプションはインコアを指定しております。使用したストレージは SATA SSD です。比較検討したプロセッサは①CPU only、②CPU + NVIDIA Tesla K40c、③CPU + NVIDIA Quadro GP100です。CPUは2、4、8、16、32、44コアで計算時間を計測し、CPU only の2コアで計算 した時間を基準とした①~③のスケーラビリティをグラフにしております。上のグラフは9ケース(V17-cg1, V17-cg2, V17-ln1 ,V17-ln-2, V17-sp1, V17-sp2, V17-sp3, V17-sp4, V17-sp5)のモデルの平均値を示しております。CPU only の場合、32コア使用時に 6.22 のスケーラビリティが得られておりますが、 CPU+K40c であれば、16コア使用時に 5.65、CPU+GP100であれば、16コア使用時に 6.33 に達しております。また、CPU 2 コア使用時に GPUアクセラレータ を追加すると 2倍以上の高速化が計られる点は有効な方法であると考えられます。これは CPU 4 コア使用時も同様の傾向が伺えます。 2.5x higher is better 2.1x 1.7x
各BMTモデルのGPUパフォーマンス
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 13
•
No data “V17-cg3”
higher is better higher is better higher is better各BMTモデルのGPUパフォーマンス
higher higher is better higher is better higher各BMTモデルのGPUパフォーマンス
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 15
higher is better higher
ストレージのパフォーマンス
ストレージパフォーマンス⽤ハードウェア
SATA HDD
• CPU(E5-2699v4 x2): 44core
• Storage: SATA HDD No RAID
• GPU accelerator: No
SATA SSD
• CPU(E5-2699v4 x2): 44core
• Storage: Micron SATA SSD No RAID
• GPU accelerator: No
Z TurboDriveG2
• CPU(E5-2699v4 x2): 44core
• Storage: HP Z TurboDriveG2 512GB No RAID
• GPU accelerator: No
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 17
vs.
ストレージパフォーマンス⽤ソフトウェア
項⽬
内容
ソフトウェア名
ANSYS Mechanical APDL
ANSYS Release
18.1
並列処理
分散メモリ型
MPI
Intel-MPI
MPI バージョン
5.1.3.180
GPUアクセラレータの使⽤
No
ジョブ実⾏時のコア数
2,4,8,16,32,44
SPARSEソルバのメモリオ
プション
アウトオブコア
ベンチマークモデル
10ケース
(CGソルバ 4ケース:V17-cg1,V17-cg2,V17-cg3,V17-ln1)
(SPARSEソルバ
6ケース:V17-ln2,V17-sp1,V17-sp2,V17-sp3,V17-sp4,V17-sp5)
ストレージのパフォーマンス
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 19
10ケースの標準ベンチマークモデルを用意し、 ANSYS Mechanical APDL18.1でベンチマークを実施しました。並列処理は分散メモリ型、MPI は Intel-MPI を 設定しております。SPARSEソルバのメモリオプションは強制的にアウトオブコアを指定しております。プロセッサはCPU only です。比較検討したストレージは① SATA HDD、②SATA SSD、③HP Z Turbo DriveG2(いわゆるNVMe SSD)です。CPU は 2、4、8、16、32、44コアで計算時間を計測し、①の各コアでの計算 時間を基準とした②と③のスケーラビリティをグラフにしております。左側のグラフは反復法ソルバによるモデル4ケース(V17-cg1, V17-cg2, V17-cg3, V17-ln1) の平均値を示しており、右側のグラフはSPARSEソルバによるモデル6ケース(V17-ln-2, V17-sp1, V17-sp2, V17-sp3, V17-sp4, V17-sp5)の平均値を示して おります。どちらも8コアまでは10%程度の高速化に留まっておりますが、それ以上のコア数になると、反復法は40%程度、直接法は70%以上の高速化が計られ ております。CGソルバと比較してSPARSEソルバのパフォーマンスが顕著に良い理由はメモリオプションとして強制的にアウトオブコアを指定することで、スト レージに負荷を掛けているためです。 higher is better higher is better 1.4x 1.4x 1.4x 1.8x 2.6x 2.1x
各BMTモデルのストレージパフォーマンス
higher higher is better higher is better higher各BMTモデルのストレージパフォーマンス
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 21
higher is better higher is better higher is better higher is better
各BMTモデルのストレージパフォーマンス
higher is better higher
バージョン間のパフォーマンス
ANSYS Mechanical R17.0 vs. ANSYS Mechanical R18.1
23
10ケースの標準ベンチマークモデルを用意し、 ANSYS Mechanical APDLでベンチマークを実施しました。並列処理は共有メモリ型(以降SMP ANSYS)と分散 メモリ型(以降DMP ANSYS)をそれぞれ実施しており、SPARSEソルバのメモリオプションはインコアを指定しております。MPI は Intel-MPI を設定しております。 プロセッサはCPU only です。ストレージは HP Z Turbo DriveG2 を使用しております。比較検討したバージョンは①ANSYS Mechanical APDL Release17.0 、 ②ANSYS Mechanical APDL Release18.1 です。CPU は 2、4、8、16、32、44コアで計算時間を計測し、①の各コアでの計算時間を基準とした②のパフォーマ ンスをグラフに示しております。本節のみ左側のグラフはSMP ANSYS 、右側はDMP ANSYS としております。また、上段側のグラフは反復法ソルバを使用した モデル4ケース(V17-cg1, V17-cg2, V17-cg3, V17-ln1)の平均値を示しており、下段側のグラフはSPARSEソルバによるモデル6ケース(V17-ln-2, V17-sp1, V17-sp2, V17-sp3, V17-sp4, V17-sp5)の平均値を示しております。
バージョン間のパフォーマンスとしてSMP ANSYS の場合、CG の計算時間は両バージョンを比較しても変わりませんが、SPARSE の計算時間は Release18.1 の方が 20%~40% 良好であることが分かります。DMP ANSYS の場合、CG の計算時間は16コア以上であれば、Release18.1 の方が 40% 程度良好なパ フォーマンスであることが分かります。また、SPARSEの計算時間も16コア以上であれば、Release18.1 の方が 15% 程度良好であることが分かります。
バージョン間⽤ハードウェア
項⽬ 内容
会社名 HP
コンピュータモデル Z840 Workstation
プロセッサモデル Intel Xeon E5-2699v4 x 2CPUs
ノード数 1
総コア数 44
GPUモデル No
総GPU数 0
総メモリ容量(GB) 128
ストレージ構成 HP Z Turbo Drive G2 512GB No RAID
BIOS Version v2.32
BIOS: Turbo Boost Yes
BIOS: Snoop mode Cluster On Die
バージョン間⽤ソフトウェア
ANSYS Mechanical APDL Release17.0
• Release: 17.0
• Parallel Process: SMP,DMP
• Number of Core: 2,4,8,16,32,44
• Benchmark models:10cases(CG 4 cases:
V17-cg1,V17-cg2,V17-cg3,V17-ln1; SPARSE 6
cases:V17-ln2,V17-sp1,V17-sp2,V17-sp3,V17-sp4,V17-sp5)
• Memory Option for SPARSE Solver: In-core
ANSYS Mechanical APDL Release18.1
• Release: 18.1
• Parallel Process: SMP,DMP
• Number of Core: 2,4,8,16,32,44
• Benchmark models:10cases(CG 4 cases:
V17-cg1,V17-cg2,V17-cg3,V17-ln1; SPARSE 6
cases:V17-ln2,V17-sp1,V17-sp2,V17-sp3,V17-sp4,V17-sp5)
• Memory Option for SPARSE Solver: In-core
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 25
6 BMT Models
SP
ARSE
4 BMT Models
CG
バージョン間のパフォーマンス(平均)
SMP ANSYS
DMP ANSYS
higher is better higher is better 1.2x 1.3x 1.3x 1.3x 1.4x 1.4x 1.4x 1.4x higher is better higher is better各モデルにおけるバージョン間のパフォーマンス
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 27
SMP ANSYS
DMP ANSYS
V17-cg1
V17-cg2
higher is better higher is better higher is better higher is better各モデルにおけるバージョン間のパフォーマンス
SMP ANSYS
DMP ANSYS
V17-cg3
V17-ln1
higher higher is better higher is better higher各モデルにおけるバージョン間のパフォーマンス
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 29
SMP ANSYS
DMP ANSYS
V17-ln2
V17-sp1
higher is better higher is better higher is better higher is better各モデルにおけるバージョン間のパフォーマンス
SMP ANSYS
DMP ANSYS
V17-sp2
V17-sp3
higher higher is better higher is better higher© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 31
SMP ANSYS
DMP ANSYS
V17-sp4
V17-sp5
各モデルにおけるバージョン間のパフォーマンス
higher is better higher is better higher is better higher is betterGPU アクセラレータを使⽤する場合
•
⼊⼿可能な最新のグラフィックドライバをインストールしてください。
•
解析実⾏時、下記エラーメッセージが発⽣する場合、上記に加えて、
BIOS も最新にアップデートしてください(2017/6時点では v2.34
Rev.A が最新)。
–
反復法ソルバ使⽤時のGPUエラー
*** FATAL *** CP = 1.997 TIME= 12:24:08 There was an error while initializing the GPU library. Error code = 1.Please check your Mechanical APDL installation. In many cases, simply rebooting your machine may help get past this error.
–
直接法ソルバ使⽤時のGPUエラー
*** ERROR *** CP = 104.240 TIME= 21:36:18 A generic error has occurred when using the GPU accelerator capability.
Error code = 2 which translates to: out of memory. Please rerun without using the GPU accelerator capability. Please send the data leading to this operation to your technical support provider, as this will allow ANSYS, Inc to improve the program.
© 2017 CYBERNET SYSTEMS CO.,LTD. All Rights Reserved. 33 33