HPE HPC & AI フォーラム 2018 日本ヒューレット・パッカード株式会社 ハイブリッドIT事業統括 コアソリューション部 久保田 隆志
より使いやすいGPU環境へ!
HPEのEngineering VDI最新情報
本日の内容
–Engineering VDI 技術変遷 –HPE SimpliVity 380 –パブリック クラウド環境の利用 –NVIDIA GRID 最新情報 –まとめEngineering VDI 技術変遷
おさらい
Engineering VDIの振り返り
Single Image 管理 HA 対応 Live Migration 対応Bare Metal GPU
Passthrough
vGPU
NVIDIA GRID HCI & Cloud
NVENC 対応 2008 2012 2014 2018 GPU VDI技術 画面転送プロトコル ※ プリエンプション対応
仮想マシン アプリケーション OS 仮想マシン アプリケーション OS 仮想マシン アプリケーション OS 仮想マシン アプリケーション OS 仮想マシン アプリケーション OS
GPUパススルー方式
CADも快適に - 仮想マシンに直接GPUを1枚割当てる方式 4 Hypervisor • VMware ESXi • Citrix XenServer • Microsoft Hyper-V Server GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver GPU Graphics DriverNVIDIA GRID vGPU方式
GPU分割機能- さらに集約率を高める Hypervisor GPU 管理コンソール GRID vGPU Manager MMU NVIDIA Kernel Driver 仮想マシン アプリケーション OS メモリ NVIDIA Driver 仮想マシン アプリケーション OS メモリ NVIDIA Driver 仮想マシン アプリケーション OS メモリ NVIDIA Driver 仮想マシン アプリケーション OS メモリ NVIDIA DriverNVENC -
画面転送プロトコル最適化手法
CPU負荷削減、操作レスポンス向上 6 NVIDIA GPU System Memory RGB YUV エンコードGPU Frame Buffer
CPU Graphics API CPU NIC 内部遅延が発生 CPUパワーを消費
NVENC -
画面転送プロトコル最適化手法
CPU負荷削減、操作レスポンス向上
NVIDIA GPU System Memory
GPU Frame Buffer NVENC ASIC (*)
CPU
Graphics API
CPU
NIC (*) NVENC ASIC
NVIDIA GPU プリエンプション対応
– Maxwell世代までのGPUはプリエンプションがなかった(グラフィックスだけを考えればこれでもよかった) – Pascalからはプリエンプション対応なので以下のような処理が可能 8 Graphcis Graphcis Graphcis Graphcis VM1 VM2 VM3 VM4 time GPU VM1 VM2 VM3 VM4 time GPU GPU GPU GPU プリエンプション処理プリエンプション対応によるメリット
–vGPU環境でもCUDAを利用可能 (これまではGPU占有して使用しない限りCUDAを利用できなかった) –GPU ModeSwitchが不要に(*) Hypervisor Server + NVIDIA Graphics VM CUDA VM Hypervisor Server + NVIDIA CAD VM CUDA Server + NVIDIA OS GPU ModeSwitch Graphics Compute Maxwellまで Pascal以降Engineering VDI進化のまとめ
10 NVIDIA GRIDの登場 • 柔軟なGPUリソースの割り当てが可能 VDI技術のGPU対応 • GPUがあっても一般のVDIと同じ管理が可能 NVENC対応 • CPU負荷の削減および操作レスポンスが向上 NVIDIA GPUのプリエンプション対応 • CAD/CUDAの仮想マシンの共存が可能HPE SimpliVity 380
ビジネスに必要不可欠なあらゆる機能をビルトインで提供する 高性能かつ多機能なハイパーコンバージドインフラストラクチャ ( ) データ効率 PCI Acceleratorカードを用いたFPGA テクノロジでCPU/メモリのリソースを 専有せずにデータ圧縮・重複排除 データ保護 1TBの仮想マシンの ローカルバックアップ ローカルリストアを1分で完了 シンプル コンソール画面から3クリックで 仮想マシンのバックアップ、リストア、 移行、複製が可能 管理性 複数サイトにまたがる1000もの仮想マ シンに対して1分未満でバックアップポ リシーの作成・更新が可能 可用性 ローカルもしくはリモートサイトへ 停止時間ゼロでシステム追加 リプレイス可能 マーケットリーダー の 製品を信頼の サーバーで提供開始
2018 年 5 月
Hyper-V
版も登場
HPE SimpliVity による画期的な VDI 運用
– SimpliVity は 30 年来の不可能を“可能”
にできるRPO
バックアップによる性能影響がないため、最短10 分おき
に PC 状態を保存できるRTO
容量に限らず、バックアップもリストアも一瞬
で処理完了NOT
ALL
すべてのVDI 仮想マシンを一台一台、 PC 丸ごとイメージバックアップ
できる ※ ファイル単位で戻すことも可能HPE SimpliVityを利用した構成例
通常サーバーを組み合わせた柔軟な構成が可能 14 HPE SimpliVity 380 メイン HPE SimpliVity 380バックアップ HPE ProLiant DL380 Gen10 Compute Node VDI管理サーバー群が稼働 ストレージ領域として利用 バックアップサーバー として利用 eVDIホストとして利用 NFS SimpliVity Federation GTC Japan 2018で事例発表 9/14(金) 14:00 – 14:25 @ Room 2-2パブリック クラウド環境の利用
パブリッククラウドはやはり必要かなぁ、高いけど....
16 データセンターの 拡張 遅延に敏感なアプ リの配置最適化 BCP/DR対策の提供 一時的なデスク トップおよびアプリ 環境の提供 クイックなPOC 環境としての利用Citrix Cloud
NetScaler Gateway
オンプレミス
Citrix Cloud XenApp & XenDesktop Service
コントロールプレーンのCloud化 SQL Active Directory NetScaler Gateway License Server Studio Director Delivery Controller StoreFront WS VM VDA WS VM VDA Cloud Connector Active Directory Cloud Connector WS VM VDA WS VM VDA (Replication)
Horizon 7 with VMware Cloud on Amazon Web Services
– 柔軟なデプロイメント – Horizon7 CPAを用いたハイブリッドクラウド環 境の構築 – Horizon 7 on VMC on AWSスタンドアローン 環境・展開のサポート – シンプルなvSphere環境の展開と時間課金の 選択肢 – HorizonおよびWorkspace ONEサブスクリプ ションライセンスの提供 18 AWSもしくはオンプレミスのPodsHorizon 7 Connection Servers vSphere / VMware Cloud
AWSもしくはオンプレミスのPods
グローバル データ レイヤー
Horizon 7 Connection Servers vSphere / VMware Cloud
ポッド間
コミュニケーション通信
Horizon on VMCはDaaS (Desktop-as-a-Service)ではない
顧客の
管理スコープ
デスクトップ&アプリ Horizonインフラ SDDC ハードウェア オンプレミスの デスクトップ&アプリ Horizonインフラ SDDC ハードウェア VMware Cloud デスクトップ&アプリ Horizonインフラ SDDC ハードウェア マネージドSoftware-Defined Data Centerのデプロイ
こまめな消灯をお忘れなく
電源管理はCloud
ではとても大事
NVIDIA GRID 最新情報
最適なGPU選択のためのヒント
STANDARD SCHEDULER
これまでのスケジューラ VM 1 VM 2 VM 3 Round Robin Scheduler SHARE OF GPU CYCLES 8 7 6 5 4 3 2 1 GPU Engine 6 4 2 1 8 7 5 3 VM1 VM3 VM2 – ベストエフォート型のスケジューラ – タイムスライス、ラウンドロビンでスケ ジューリング – タイムスライスでタスクは実行されるSTANDARD SCHEDULERの課題
ベストエフォート型の限界 24 VM 1 VM 2 VM 3 Round Robin Scheduler SHARE OF GPU CYCLES 1 GPU Engine 8 6 4 5 VM1 – 計算タスクのような長時間GPUを占有す るタイプのジョブが実行されると、ラウンド ロビンスケジューラ では、1つのタスクし か実行できない事が想定される。 1 7 3 2EQUAL SHARE SCHEDULER
QoSを保証するスケジューラ VM 1 VM 2 VM 3 Equal Share Round Robin Scheduler SHARE OF GPU GPU Engine 8 6 4 5 – 新しいスケジュラー: Equal Share Scheduler (Pascal以降のHWのみ) – 長時間実行されているタスクはプリエンプ トされ、再スケジューリング時にコンテキ ストを保存して再開される – VM単位でGPUサイクルが決定される – vGPU対応VMは、GPUサイクルを同等 にシェアされる 1 7 3 2 VM1 VM3 VM2 8 1 7 6 1 5 4 1FIXED SHARE SCHEDULER
固定型のスケジューラ 26 VM 1 VM 2 VM 3 Fixed Share Round Robin Scheduler SHARE OF GPU GPU Engine 6 4 2 1 8 7 5 3 VM1 VM3 VM2– Fixed Share Round Robin Scheduler – タイムスライスでスケジュールされる – VM単位でGPUの利用率は固定 – GPUプロファイル(分割数)で性能が決ま る。 各VMの性能は、1/vGPU分割数 – クラウド事業者向けを想定 (常に一定の性能を保証する) None 1 3 2 5 4 7 6 8
NVIDIA Tesla 製品一覧
仮想環境向けのグラフィックス製品
M10 P4 P40 P100 V100 P6
GPU 4 Maxwell GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Volta GPUs 1 Pascal GPUs
CUDA cores 2,560 2,560 3,840 3,584 5,120 2,048 Memory Size 32GB GDDR5 (8GB per GPU) 8GB GDDR5 24GB GDDR5 16GB HBM2 16GB HBM2 16GB GDDR5 H.264 1080p30 streams 28 24 24 36 36 24 Max vGPU instances 64 (512MB Profile) 8 (1GB Profile) 24 (1GB Profile) 16 (1GB Profile) 16 (1GB Profile) 16 (1GB Profile) vGPU Profiles 0.5GB, 1GB, 2GB, 4GB, 8GB 1GB, 2GB, 4GB, 8GB 1GB, 2GB, 3GB, 4GB, 6GB, 8GB, 12GB, 24GB 1GB, 2GB, 4GB, 8GB, 16GB 1GB, 2GB, 4GB, 8GB, 16GB 1GB, 2GB, 4GB, 8GB, 16GB
Form Factor PCIe 3.0 Dual Slot
(rack servers)
PCIe 3.0 Single Slot (rack servers)
PCIe 3.0 Dual Slot (rack servers)
PCIe 3.0 Dual Slot (rack servers)
PCIe 3.0 Dual Slot (rack servers)
MXM (blade servers)
Power 225W 50 – 75W 250W 250W 250W 90W (70W opt)
Thermal passive passive passive passive passive bare board
NVIDIA Tesla 製品一覧
仮想環境向けのグラフィックス製品 M10 P4 P40 P100 V100 P6 28 USER DENSITY Optimized PERFORMANCE Optimized BALDE Optimized 32G 8G 24G 12G 16G 16G 32G 16G 16G 50W 8G 75W無視してはいけない大事な疑問
どのGPUを選択するのが賢い? どのスケジューラを使用するのが賢い? 同じビデオメモリサイズのプロファイルならGPUが 違ってもパフォーマンスは同じ? 分割数上げても本当に大丈夫?どのGPUを選択するのが賢い?
Best Effort スケジューラにおけるGPUパフォーマンス差
0 0.2 0.4 0.6 0.8 1 1.2 Catia NX SolidWorks Best Effort スケジューラを使用した場合のパフォーマンス比較 (Tesla P4を1とした場合の相対比較) P4 P40 V100 -32G V100-FHHL 30 ※ 仮想マシン1台だけで実施
どのGPUを選択するのが賢い?
えっ、違わないの?
[正しい理解] はい。
–Best Effort では、ピーク性能はFRL(Frame Rate Limitter)でキャップされてしまう (仮想マシン1台だけでは差が全くないように見える)
–GPUの性能差は多重度を上げたときに現れる
どのGPUを選択するのが賢い?
本来のGPU性能差の確認 0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 4.003dsmax-06 catia-05 energy-02 maya-05 medical-02 showcase-02 snx-03 sw-04
SPEC viewperf 13 ベンチマーク (Tesla P4を1とした時の相対比較)
Tesla P4 Tesla P40 Tesla V100 -32G Tesla V100 -FHHL
32
Equal Share を使用し、全て2Gのプロファイルを使用 (仮想マシン1台だけで実施)
どのスケジューラを使用するのが賢い?
Best Effort と Equal Share どちらが良い?
(Fixed Shareはクラウド事業者向けなので普通使わないのはわかったけど)
[正しい理解のために]
どのスケジューラを使用するのが賢い?
スケジューラの比較: Best Effort vs. Equal Share
3.37 5.28 2.91 0 1 2 3 4 5 6 Catia NX SolidWorks Tesla P40におけるスケジューラの比較 (Best Effortを1とした時の相対比較)
Best Effort Equal Share
34
どのスケジューラを使用するのが賢い?
じゃ、Equal Shareを使用すればOK?
[正しい理解] そうとは限りません。 –Equal Shareは、ホスト上で稼働している仮想マシン数で「必ず」等分される (GPUの性能を使いきれない状況が発生する可能性) –Best Effortは、FRLでキャップされた状態だが、GPUリソースを使えるだけ使える (分割数は多いが、同時に負荷の高い仮想マシンが少ない場合は有利)3.5 5.4 2.9 2.3 2.5 2.2 1.5 1.5 1.7 1.1 1.1 1.4 0.7 0.7 1.1 0.5 0.5 0.9 0.3 0.4 0.7 0.00 1.00 2.00 3.00 4.00 5.00 6.00 Catia NX SolidWorks
Best Effort (VM=1) と Fixed Shareのパフォーマンス劣化について (Best Effort (VM=1)を1とした場合の相対比較)
Best Effort 1分割 2分割 3分割 4分割 6分割 8分割 12分割
どのスケジューラを使用するのが賢い?
ベンチマーク結果 - Tesla P40 分割数による違い
同じビデオメモリサイズのプロファイルならパフォーマンスは同じ?
P4-2G vs. V100D-2G
パフォーマンスは同じなんだよね?
[正しい理解] 先のベンチマーク結果からご想像いただけると思いますが、分割数がパフォーマンス に影響を与えます。ベンチマーク結果を見てみましょう。同じビデオメモリサイズのプロファイルならパフォーマンスは同じ?
分割数がパフォーマンスに与える影響度 (2GBのプロファイルを使用) 0 0.2 0.4 0.6 0.8 1 1.2Catia Creo NX SolidWorks
Fixed Share スケジューラを使用した場合のパフォーマンス比較 (Tesla P4を1とした場合の相対比較) Tesla P4 (4分割) Tesla P40 (12分割) Tesla V100 - 32G (16分割) Tesla V100 - FHHL (8分割) 38
NVIDIA GRIDまとめ
Best Effortでは、GPUの性能差がパフォーマンス差として現れない
• ただし、性能の高いGPUは多重度を上げてもパフォーマンスの劣化度は少なくなる分割数には注意
• 単純にGPUの集約率を上げてしまうと期待したパフォーマンスが得られない可能性スケジューラの選択について
• Best Effortの方が失敗する確率は低い。明確にEqual Shareを選ぶ方が良いケー スは、CUDAを利用する仮想マシンの共存を考える場合と分割数が少なめの場合 に限られる
まとめ
まとめ
VDI環境においてGPUがあることによる制限はほとんどなくなった HCI製品を利用した展開によって管理がより容易に 全てクラウドに移行するのではなくコントロールプレーンのみ移行等、 より柔軟な選択(ハイブリッド環境)が可能に NVIDIA GRIDの進化により、CADとCAEの垣根がさらに低くなった GPUの選択(とくに分割数)は注意が必要様々な製品でEngineering VDIを支援していきます
42 HPE ProLiant DL380 Gen10 HPE Apollo 2000 XL190r Gen10HPE Synergy 480 Gen10 HPE SimpliVity 380
引き続き、日本ヒューレット・パッカード株式会社を
よろしくお願いいたします
ベンチマーク環境について
項目 構成 備考
Server HPE ProLiant DL380 Gen9
• CPU: Intel Xeon E5-2667 (3.2GHz, 2P/16Core) • Memory: 160GB
• Storage: 15krpm SAS 600GB (RAID 5)
GPU NVIDIA Tesla P4 / P40 / V100-32G / V100-FHHL NVIDIA GRID 6.2
VDI vSphere ESXi 6.5U1 VMware Horizon 7.5
Virtual Machine Windows 10 64bit Enterprise (1709)
• CPU: 4vCPU • Memory: 16GB • HDD: 200GB
Benchmark Software SPEC viewperf 13 現時点では、Best Effort およ び Equal Shareでcreoのベン チマークを取得できない
搭載可能 NVIDIA GPUラインアップ
DL380 SimpliVity 380 Synergy 480 Apollo 2000
• Quadro P2000 (5) • Quadro P4000 (5) • Quadro P6000 (3) • Quadro GV100 (3) • Tesla M10 (2) • Tesla P4 (5) • Tesla P40 (3) • Tesla P100-12G (3) • Tesla P100-16G (3) • Tesla V100-16G (3) • Tesla V100-32G (3) • Tesla V100-FHHL (5) • Tesla M10 (1) • Tesla P40 (1) Single Wide • Quadro M3000SE (1) • Tesla P6 (1) Expansion Module - MXM • Quadro M3000SE (7) • Tesla P6 (6)
Expansion Module - PCIe • Quadro P6000 (2) • Tesla M10 (2) • Tesla P40 (2) • Quadro P4000 (4) • Tesla M10 (4) • Tesla P40 (4) • Tesla P100-12G (4) • Tesla P100-16G (4) • Tesla V100-16G (4) • Tesla V100-32G (4) • 括弧内は最大搭載枚数 • 太字はvGPU対応 • 緑字のものは今後搭載予定