© Copyright 2018 HP Development Company, L.P.
Z8 G4 WorkstationでのANSYS19.1 Mechanical
ベンチマーク結果紹介資料(フル版)
株式会社 日本HP
サービス・ソリューション事業本部 技術本部 クライアント技術部
清水 康輔(Workstation Technical Specialist)
システム構成
Workstation : Z8 G4 Workstation
CPU : Xeon Platinum 8160 (2.1-3.7GHz, 24cores) x 2CPU
メモリ : 192GB (2600MHz, 8GBx24 DIMMs)
演算用グラフィックス : Quadro GV100 / GV100x2(NVLink) Quadro GP100 / GP100x2(NVLink)
表示用グラフィックス : Quadro P620
ストレージ : 1TB SATA HDD (7200rpm) / 512GB Z Turbo Drive G2
BIOSバージョン : v1.61
OS : Windows 10 Pro
グラフィックスドライバー : v397.93
ソフトウェア : ANSYS Mechanical APDL
ANSYSバージョン : 19.1
並列手法 : Distributed Memory Parallel
ライセンス1 : ANSYS Mechanical Enterprise x1
ライセンス2 : ANSYS HPC Pack x3
MPI種類 : Intel MPI
MPI バージョン : 17.0.0.051
GPUオプション : nvidia(on) / none(off) メモリオプション : In-core / out-of-core
標準ベンチマークモデル : 10パターン
HP Z8 G4 Workstation
© Copyright 2018 HP Development Company, L.P. 3
ベンチマークモデル紹介 No.1
有限要素モデル
詳細
GPU対応
“V19cg-1” – Power Supply Module –
解析手法と概要:定常電熱線形解析、荷重ステップ数:1 接点数:5,266,730、要素数:2,303,613、自由度数:5.3MDOF メモリ:トータル13GB、データベース:2,500MB ソルバ:JCG(実数型、対称マトリクス) 要素タイプ:高次四面体ソリッド、高次六面体ソリッド NVIDIA
“V19cg-2” – Tractor Rear Axle –
解析手法と概要:静的線形構造解析 接点数:4,109,776、要素数:2,366,046、自由度数:12.3MDOF メモリ:トータル22GB、データベース:1,900MB ソルバ:PCG(実数型、対称マトリクス、msave,off) 要素タイプ:高次四面体ソリッド、高次六面体ソリッド NVIDIA
“V19cg-3”
– Engine Block –
解析手法と概要:静的線形構造解析 接点数:4,728,103、要素数:3,181,628、自由度数:14.2MDOF メモリ:トータル13GB、データベース:2,400MB ソルバ:PCG((実数型、対称マトリクス、msave,on) 要素タイプ:高次四面体ソリッド N/A有限要素モデル
詳細
GPU対応
“V19ln-1”
– Gear Box –
解析手法:モーダル解析、モード数:10 接点数:2,588,135、要素数:1,710,122、自由度数:7.7MDOF メモリ:トータル19GB、データベース:1,300MB ソルバ:PCG Lanczos(実数型、対称マトリクス、msave,off) 要素タイプ:高次四面体ソリッド NVIDIA“V19ln-2”
– Radial Impeller –
解析手法:モーダル解析、周期対称性、モード数:50 接点数:337,916、要素数:222,725、自由度数:2.0MDOF メモリ:トータル42GB、データベース:500MB ソルバ:Subspace(実数型、対称マトリクス) NVIDIA“V19sp-1”
– Peltier Cooling Block –
解析手法:定常電熱-電気連成場非線形解析 接点数:319,080、要素数:133,009、自由度数:0.6MDOF メモリ:トータル24GB、エータベース:600MB ソルバ:SPARSE(実数型、非対称マトリクス) 要素タイプ:高次四面体ソリッド、高次六面体ソリッド NVIDIA
ベンチマークモデル紹介 No.2
© Copyright 2018 HP Development Company, L.P. 5
有限要素モデル
詳細
GPU対応
“V19sp-2”
– Semi-Submersible –
解析手法:過度構造非線形解析、累積イタレーション数:11 接点数:793,257、要素数:268,881、自由度数:4.7MDOF メモリ:トータル31GB、データベース:1,000MB ソルバ:SPARSE(実数型、対称マトリクス) 要素タイプ:高次四角形シェル、高次三角形シェル、高次ビーム NVIDIA“V19sp-3”
– Speaker –
解析手法:周波数応答解析、周波数1,000Hzのみ 接点数:1,683,465、要素数:1,222,294、自由度数:1.7MDOF メモリ:トータル51GB、データベース:1,700MB ソルバ:SPARSE(複素数型、対称マトリクス) 要素タイプ:高次四面体ソリッド、高次六面体ソリッド NVIDIA“V19sp-4”
– Turbine –
解析手法:静的構造非線形解析、累積イタレーション数:1 接点数:715,008、要素数:483,631、自由度数:3.2MDOF メモリ:トータル62GB、データベース:1,200MB ソルバ:SPARSE(実数型、対称マトリクス) 要素タイプ:高次四面体ソリッド NVIDIAベンチマークモデル紹介 No.3
有限要素モデル
詳細
GPU対応
“V19sp-5”
– BGA –
解析手法:静的構造非線形解析、累積イタレーション数:1 接点数:2,004,837、要素数:1,249,417、自由度数:6.0MDOF メモリ:トータル78GB、データベース:3,000MB ソルバ:SPARSE(実数型、対称マトリクス) 要素タイプ:高次四面体ソリッド、高次六面体ソリッド) NVIDIAベンチマークモデル紹介 No.4
© Copyright 2018 HP Development Company, L.P.
CPUコア並列数の効果 1
-内容
並列手法
Distributed Memory parallel(DMP)MPIの種類
Intel MPICPUコア数パターン
2 / 4 / 8 / 16 / 24 /32 /487パターンストレージ種類
1TB SATA HDD (7200rpm)ソルバ実行時のメモリオプション
In-coreベンチマークモデル
V19cg-1 / V19cg-2 / V19cg-3 / V19ln-1 / V19ln-2 / V19sp-1 / V19sp-2 / 10パターン© Copyright 2018 HP Development Company, L.P. 9 1.00 1.89 3.20 4.88 5.08 5.19 4.48 0.0 1.0 2.0 3.0 4.0 5.0 6.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数
ベンチマークモデル10ケースの平均
32並列あたりでサチュレー
ションが発生しています
CPUコア並列数の効果 2
-1.00 1.68 2.71 4.81 5.65 6.21 5.15 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数
V19cg-1
1.00 1.75 2.77 4.30 4.43 4.86 4.44 0.0 1.0 2.0 3.0 4.0 5.0 6.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数V19cg-2
1.00 1.78 3.78 6.16 7.71 8.92 8.44 0.0 2.0 4.0 6.0 8.0 10.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数V19cg-3
1.00 2.02 3.64 6.07 7.64 7.37 6.72 0.0 2.0 4.0 6.0 8.0 10.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数V19ln-1
CPUコア並列数の効果 3
-© Copyright 2018 HP Development Company, L.P. 11 1.00 1.81 2.84 4.53 4.74 4.27 5.25 0.0 1.0 2.0 3.0 4.0 5.0 6.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数
V19ln-2
1.00 1.61 3.05 4.77 6.10 6.64 6.80 0.0 2.0 4.0 6.0 8.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数V19sp-1
1.00 1.79 2.99 4.56 5.49 6.32 6.69 0.0 2.0 4.0 6.0 8.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数V19sp-2
1.00 2.25 3.10 2.67 1.94 1.97 1.52 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 2 4 8 16 24 32 48 速度向上倍率 CPUコア数V19sp-3
CPUコア並列数の効果 4
-1.00 2.52 4.13 7.44 7.73 5.63 5.49 0.0 2.0 4.0 6.0 8.0 10.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数
V19sp-4
1.00 1.99 3.39 5.59 4.79 5.34 2.45 0.0 1.0 2.0 3.0 4.0 5.0 6.0 2 4 8 16 24 32 48 速度向上倍率 CPUコア数V19sp-5
CPUコア並列数の効果 5
-© Copyright 2018 HP Development Company, L.P.
GPUの効果 1
-内容
並列手法
Distributed Memory parallel(DMP)MPIの種類
Intel MPICPUコア数パターン
3パターン8 / 16 / 32ストレージ種類
512GB Z Turbo Drive G2 (NVMe SSD)GPU種類
GV100 x1 / GV100 x2(NVLink) / GP100 x1 / GP100 x2(NVLink)4パターンソルバ実行時のメモリオプション
In-core© Copyright 2018 HP Development Company, L.P. 15 1.00 1.51 1.72 1.33 1.10 0.64 1.52 1.42 0.66 1.56 1.91 2.07 1.62 2.15 2.21 0.0 0.5 1.0 1.5 2.0 2.5 8 16 32 速度向上倍率 CPUコア数
V19cg-2
1.00 1.66 1.90 1.34 1.31 0.62 1.47 1.32 0.64 1.52 2.06 2.08 1.38 2.20 2.25 0.0 0.5 1.0 1.5 2.0 2.5 8 16 32 速度向上倍率 CPUコア数V19ln-1
CPU Only /w GP100 /w GP100x2 /w GV100 /w GV100x2GPUの効果 2
© Copyright 2018 HP Development Company, L.P. 17
ストレージの比較 1
-Contents
並列手法
Distributed Memory parallelMPI種類
Intel MPICPUコア数パターン
3パターン8 / 16 / 32ストレージ種類
SATA HDD / Z Turbo Drive G2 (NVMe SSD) x1 / Z Turbo Drive G2 (NVMe SSD) 4パターンx2(RAID0) / Z Turbo Drive G2 (NVMe SSD) x4(RAID0)
GPU種類
GV100 x1ソルバ実行時のメモリオプション
out-of-core1.00 1.35 1.50 1.38 1.72 1.69 1.23 1.63 1.72 1.23 1.69 1.74 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 8 16 32 速度向上倍率 CPUコア数
V19cg-2
1.00 1.41 1.54 1.11 1.66 1.73 1.10 1.57 1.46 1.17 1.54 1.60 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 8 16 32 Sp ee dUP R at io CPUコア数V19ln-1
SATA HDD ZTDx1 ZTDx2 ZTDx4ストレージの比較 2
-© Copyright 2018 HP Development Company, L.P. 19 1.00 0.84 0.51 3.03 3.49 2.81 3.55 4.17 3.71 3.59 4.40 3.93 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 8 16 32 速度向上倍率 CPUコア数
V19sp-1
SATA HDD ZTDx1 ZTDx2 ZTDx4NVMe SSDは1本でもSATA HDDに比べてかなりの効
果があります。更に4本でストライピングを組む
と効果がでるケースも見受けられます
ストレージの比較 3
-まとめ
MPIを使った並列計算でも32並列あた
りでサチュレーションを起こしやすい
ため、デュアルCPUで合計32コア以上
あるもの、かつベースクロック周波数
が高いものが望ましいと思われます。
Z8 G4は最大6チャンネルのメモリをサ
ポートしているため、1CPUあたり6枚
単位の接続にし、トータルサイズも解
析規模によりますが192GB以上がオス
スメです。
CPU
Memory
Storage
GPGPU
CPUに加えてGV100を使うとかなりアク
セラレーション効果が期待できます。
2枚でNVLinkを組んだ場合、大きな性能
向上はそれほど期待できないため、
GPGPUは1枚で充分と言えます。
ANSYS側で「out-of-core」設定にした
場合、スクラッチ用でかなり頻繁なI/O
が発生するため、Z Turbo Drive G2
(NVMe SSD)を使うと、高い性能向上
が期待できます。ある意味必須のオプ
ションと言えます。
© Copyright 2018 HP Development Company, L.P. 21
ANSYS Mechanical用推奨ワークステーション構成
<CPU>
・Xeon Gold 6154 (3.0GHz - 3.7GHz、18コア)×2CPU(トータル36コア) ・Xeon Platinum 8160 (2.1GHz - 3.7GHz、24コア)×2CPU(トータル48コア)
<メモリ> ・192GB(8GBモジュール×24枚、16GBモジュール×12枚) ・384GB(16GBモジュール×24枚、32GBモジュール×12枚) ※ 6チャンネルで動作させたほうが高速なため、デュアルCPU時は12枚、24枚構成のどちらかをお選びください。 ※ 将来的にメモリを増設される予定がある場合は、24枚構成ではなく12枚構成をお選びください。 <ストレージ> ・512GB HP Z Turbo G2 ドライブ(M.2接続 TLC, SSD) ・1TB HP Z Turbo G2 ドライブ(M.2接続 TLC, SSD) ※ OSのスワップ領域なども考慮し、物理メモリの2倍以上の容量に加え、アプリケーションのスクラッチ領域などもご考慮ください。 ※ VROCモジュールを使用し、M.2 SSDでハードウェアRAIDを構成することも可能です。 <グラフィックス(表示用)> ・Quadro P620 ・Quadro P2000 ※ Pre/Post処理用で大きめの3Dモデルを表示される場合は、「Quadro P2000」を選択してください。 <グラフィックス(Solver用)> ・Quadro GV100
※ GV100をSolverで使われる場合、nvidia-smiツールにてTCC(Tesla Compute Cluster)モードへ変更する必要があります
※ GV100×2枚構成の場合は、消費電力が大幅に増加し、CPUやメモリ等の構成に制限が発生する可能性がありますので、予めHPの Workstation担当窓口へご相談ください。
Z8 G4用推奨パフォーマンス設定
HP Z8 G4 Workstation
Hyper-Threading Disable Non-Uniform Memory Access (NUMA) Disable Sub-NUMA Clustering Disable Isoc Mode Disable Workload Configuration I/O-Focused
Idle Power Savings Normal with Enhanced Halt State disabled
BIOS設定
Windowsの電源プラン
「究極のパフォーマンス」(Ultimate Performance)
※Windows 10 Pro for Workstation(RS4以降)で利用可能
© Copyright 2018 HP Development Company, L.P. 23