HPE HPC & AI フォーラム 2018 講演資料

(1)

HPE HPC & AI フォーラム 2018 日本ヒューレット・パッカード株式会社ハイブリッドIT事業統括コアソリューション部久保田隆志

より使いやすいGPU環境へ！

HPEのEngineering VDI最新情報

(2)

本日の内容

–Engineering VDI 技術変遷 –HPE SimpliVity 380 –パブリッククラウド環境の利用 –NVIDIA GRID 最新情報 –まとめ

(3)

Engineering VDI 技術変遷

おさらい

(4)

Engineering VDIの振り返り

Single Image 管理 HA 対応 Live Migration 対応

Bare Metal GPU

Passthrough

vGPU

NVIDIA GRID HCI & Cloud

NVENC 対応 2008 2012 2014 2018 GPU VDI技術画面転送プロトコル ※ プリエンプション対応

(5)

仮想マシンアプリケーション OS 仮想マシンアプリケーション OS 仮想マシンアプリケーション OS 仮想マシンアプリケーション OS 仮想マシンアプリケーション OS

GPUパススルー方式

CADも快適に－仮想マシンに直接GPUを1枚割当てる方式 4 Hypervisor • VMware ESXi • Citrix XenServer • Microsoft Hyper-V Server GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver

(6)

NVIDIA GRID vGPU方式

GPU分割機能－さらに集約率を高める Hypervisor GPU 管理コンソール GRID vGPU Manager MMU NVIDIA Kernel Driver 仮想マシンアプリケーション OS メモリ NVIDIA Driver 仮想マシンアプリケーション OS メモリ NVIDIA Driver 仮想マシンアプリケーション OS メモリ NVIDIA Driver 仮想マシンアプリケーション OS メモリ NVIDIA Driver

(7)

NVENC -

画面転送プロトコル最適化手法

CPU負荷削減、操作レスポンス向上 6 NVIDIA GPU System Memory RGB YUV エンコード

GPU Frame Buffer

CPU Graphics API CPU NIC 内部遅延が発生 CPUパワーを消費

(8)

NVENC -

画面転送プロトコル最適化手法

CPU負荷削減、操作レスポンス向上

NVIDIA GPU System Memory

GPU Frame Buffer NVENC ASIC (*)

CPU

Graphics API

CPU

NIC _{(*) NVENC ASIC}

(9)

NVIDIA GPU プリエンプション対応

– Maxwell世代までのGPUはプリエンプションがなかった（グラフィックスだけを考えればこれでもよかった） – Pascalからはプリエンプション対応なので以下のような処理が可能 8 Graphcis Graphcis Graphcis Graphcis VM1 VM2 VM3 VM4 time GPU VM1 VM2 VM3 VM4 time GPU GPU GPU GPU プリエンプション処理

(10)

プリエンプション対応によるメリット

–vGPU環境でもCUDAを利用可能（これまではGPU占有して使用しない限りCUDAを利用できなかった） –GPU ModeSwitchが不要に(*) Hypervisor Server + NVIDIA Graphics VM CUDA VM Hypervisor Server + NVIDIA CAD VM CUDA Server + NVIDIA OS GPU ModeSwitch Graphics Compute Maxwellまで Pascal以降

(11)

Engineering VDI進化のまとめ

10 NVIDIA GRIDの登場 • 柔軟なGPUリソースの割り当てが可能 VDI技術のGPU対応 • GPUがあっても一般のVDIと同じ管理が可能 NVENC対応 • CPU負荷の削減および操作レスポンスが向上 NVIDIA GPUのプリエンプション対応 • CAD/CUDAの仮想マシンの共存が可能

(12)

HPE SimpliVity 380

(13)

ビジネスに必要不可欠なあらゆる機能をビルトインで提供する高性能かつ多機能なハイパーコンバージドインフラストラクチャ（） データ効率 PCI Acceleratorカードを用いたFPGA テクノロジでCPU/メモリのリソースを専有せずにデータ圧縮・重複排除 データ保護 1TBの仮想マシンのローカルバックアップローカルリストアを1分で完了 シンプル コンソール画面から3クリックで仮想マシンのバックアップ、リストア、移行、複製が可能 管理性 複数サイトにまたがる1000もの仮想マシンに対して1分未満でバックアップポリシーの作成・更新が可能 可用性 ローカルもしくはリモートサイトへ停止時間ゼロでシステム追加リプレイス可能マーケットリーダーの製品を信頼のサーバーで提供開始

2018 年 5 月

Hyper-V

版も登場

(14)

HPE SimpliVity による画期的な VDI 運用

– SimpliVity は 30 年来の不可能を

“可能”

にできる

RPO

バックアップによる性能影響がないため、_最短

_{10 分おき}

_{に PC 状態を保存できる}

RTO

容量に限らず、_{バックアップもリストアも}

_一瞬

_{で処理完了}

NOT

ALL

すべてのVDI 仮想マシンを一台一台、 PC 丸ごと

イメージバックアップ

できる ※ ファイル単位で戻すことも可能

(15)

HPE SimpliVityを利用した構成例

通常サーバーを組み合わせた柔軟な構成が可能 14 HPE SimpliVity 380 メイン HPE SimpliVity 380バックアップ HPE ProLiant DL380 Gen10 Compute Node VDI管理サーバー群が稼働ストレージ領域として利用バックアップサーバーとして利用 eVDIホストとして利用 NFS SimpliVity Federation GTC Japan 2018で事例発表 9/14（金） 14:00 – 14:25 @ Room 2-2

(16)

パブリッククラウド環境の利用

(17)

パブリッククラウドはやはり必要かなぁ、高いけど....

16 データセンターの拡張遅延に敏感なアプリの配置最適化 BCP/DR対策の提供一時的なデスクトップおよびアプリ環境の提供クイックなPOC 環境としての利用

(18)

Citrix Cloud

NetScaler Gateway

オンプレミス

Citrix Cloud XenApp & XenDesktop Service

コントロールプレーンのCloud化 SQL Active Directory NetScaler Gateway License Server Studio Director Delivery Controller StoreFront WS VM VDA WS VM VDA Cloud Connector Active Directory Cloud Connector WS VM VDA WS VM VDA (Replication)

(19)

Horizon 7 with VMware Cloud on Amazon Web Services

– 柔軟なデプロイメント – Horizon7 CPAを用いたハイブリッドクラウド環境の構築 – Horizon 7 on VMC on AWSスタンドアローン環境・展開のサポート – シンプルなvSphere環境の展開と時間課金の選択肢 – HorizonおよびWorkspace ONEサブスクリプションライセンスの提供 18 AWSもしくはオンプレミスのPods

Horizon 7 Connection Servers vSphere / VMware Cloud

AWSもしくはオンプレミスのPods

グローバルデータレイヤー

Horizon 7 Connection Servers vSphere / VMware Cloud

ポッド間

コミュニケーション通信

(20)

Horizon on VMCはDaaS (Desktop-as-a-Service)ではない

顧客の

管理スコープ

デスクトップ&アプリ Horizonインフラ SDDC ハードウェアオンプレミスのデスクトップ&アプリ Horizonインフラ SDDC ハードウェア VMware Cloud デスクトップ&アプリ Horizonインフラ SDDC ハードウェアマネージド

(21)

Software-Defined Data Centerのデプロイ

(22)

こまめな消灯をお忘れなく

電源管理はCloud

ではとても大事

(23)

NVIDIA GRID 最新情報

最適なGPU選択のためのヒント

(24)

STANDARD SCHEDULER

これまでのスケジューラ VM 1 VM 2 VM 3 Round Robin Scheduler SHARE OF GPU CYCLES 8 7 6 5 4 3 2 1 GPU Engine 6 4 2 1 8 7 5 3 VM1 VM3 VM2 – ベストエフォート型のスケジューラ – タイムスライス、ラウンドロビンでスケジューリング – タイムスライスでタスクは実行される

(25)

STANDARD SCHEDULERの課題

ベストエフォート型の限界 24 VM 1 VM 2 VM 3 Round Robin Scheduler SHARE OF GPU CYCLES 1 GPU Engine 8 6 4 5 VM1 – 計算タスクのような長時間GPUを占有するタイプのジョブが実行されると、ラウンドロビンスケジューラでは、1つのタスクしか実行できない事が想定される。 1 7 3 2

(26)

EQUAL SHARE SCHEDULER

QoSを保証するスケジューラ VM 1 VM 2 VM 3 Equal Share Round Robin Scheduler SHARE OF GPU GPU Engine 8 6 4 5 – 新しいスケジュラー: Equal Share Scheduler (Pascal以降のHWのみ) – 長時間実行されているタスクはプリエンプトされ、再スケジューリング時にコンテキストを保存して再開される – VM単位でGPUサイクルが決定される – vGPU対応VMは、GPUサイクルを同等にシェアされる 1 7 3 2 VM1 VM3 VM2 8 1 7 6 1 5 4 1

(27)

FIXED SHARE SCHEDULER

固定型のスケジューラ 26 VM 1 VM 2 VM 3 Fixed Share Round Robin Scheduler SHARE OF GPU GPU Engine 6 4 2 1 8 7 5 3 VM1 VM3 VM2

– Fixed Share Round Robin Scheduler – タイムスライスでスケジュールされる – VM単位でGPUの利用率は固定 – GPUプロファイル(分割数)で性能が決まる。各VMの性能は、1/vGPU分割数 – クラウド事業者向けを想定 (常に一定の性能を保証する） None 1 3 2 5 4 7 6 8

(28)

NVIDIA Tesla 製品一覧

仮想環境向けのグラフィックス製品

M10 P4 P40 P100 V100 P6

GPU 4 Maxwell GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Volta GPUs 1 Pascal GPUs

CUDA cores 2,560 2,560 3,840 3,584 5,120 2,048 Memory Size 32GB GDDR5 (8GB per GPU) 8GB GDDR5 24GB GDDR5 16GB HBM2 16GB HBM2 16GB GDDR5 H.264 1080p30 streams 28 24 24 36 36 24 Max vGPU instances 64 (512MB Profile) 8 (1GB Profile) 24 (1GB Profile) 16 (1GB Profile) 16 (1GB Profile) 16 (1GB Profile) vGPU Profiles 0.5GB, 1GB, 2GB, 4GB, 8GB 1GB, 2GB, 4GB, 8GB 1GB, 2GB, 3GB, 4GB, 6GB, 8GB, 12GB, 24GB 1GB, 2GB, 4GB, 8GB, 16GB 1GB, 2GB, 4GB, 8GB, 16GB 1GB, 2GB, 4GB, 8GB, 16GB

Form Factor PCIe 3.0 Dual Slot

(rack servers)

PCIe 3.0 Single Slot (rack servers)

PCIe 3.0 Dual Slot (rack servers)

MXM (blade servers)

Power 225W 50 – 75W 250W 250W 250W 90W (70W opt)

Thermal passive passive passive passive passive bare board

(29)

NVIDIA Tesla 製品一覧

仮想環境向けのグラフィックス製品 M10 P4 P40 P100 V100 P6 28 USER DENSITY Optimized PERFORMANCE Optimized BALDE Optimized 32G 8G 24G 12G 16G 16G 32G 16G 16G 50W 8G 75W

(30)

無視してはいけない大事な疑問

どのGPUを選択するのが賢い？どのスケジューラを使用するのが賢い？同じビデオメモリサイズのプロファイルならGPUが違ってもパフォーマンスは同じ？分割数上げても本当に大丈夫？

(31)

どのGPUを選択するのが賢い？

Best Effort スケジューラにおけるGPUパフォーマンス差

0 0.2 0.4 0.6 0.8 1 1.2 Catia NX SolidWorks Best Effort スケジューラを使用した場合のパフォーマンス比較（Tesla P4を1とした場合の相対比較） P4 P40 V100 -32G V100-FHHL 30 ※ 仮想マシン1台だけで実施

(32)

どのGPUを選択するのが賢い？

えっ、違わないの？

[正しい理解] はい。

–Best Effort では、ピーク性能はFRL（Frame Rate Limitter）でキャップされてしまう（仮想マシン1台だけでは差が全くないように見える）

–GPUの性能差は多重度を上げたときに現れる

(33)

どのGPUを選択するのが賢い？

本来のGPU性能差の確認 0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 4.00

3dsmax-06 catia-05 energy-02 maya-05 medical-02 showcase-02 snx-03 sw-04

SPEC viewperf 13 ベンチマーク（Tesla P4を1とした時の相対比較）

Tesla P4 Tesla P40 Tesla V100 -32G Tesla V100 -FHHL

32

Equal Share を使用し、全て2Gのプロファイルを使用（仮想マシン1台だけで実施）

(34)

どのスケジューラを使用するのが賢い？

Best Effort と Equal Share どちらが良い？

（Fixed Shareはクラウド事業者向けなので普通使わないのはわかったけど）

[正しい理解のために]

(35)

どのスケジューラを使用するのが賢い？

スケジューラの比較： Best Effort vs. Equal Share

3.37 5.28 2.91 0 1 2 3 4 5 6 Catia NX SolidWorks Tesla P40におけるスケジューラの比較（Best Effortを1とした時の相対比較）

Best Effort Equal Share

34

(36)

どのスケジューラを使用するのが賢い？

じゃ、Equal Shareを使用すればOK？

[正しい理解] そうとは限りません。 –Equal Shareは、ホスト上で稼働している仮想マシン数で「必ず」等分される（GPUの性能を使いきれない状況が発生する可能性） –Best Effortは、FRLでキャップされた状態だが、GPUリソースを使えるだけ使える （分割数は多いが、同時に負荷の高い仮想マシンが少ない場合は有利）

(37)

3.5 5.4 2.9 2.3 2.5 _2.2 1.5 1.5 1.7 1.1 1.1 1.4 0.7 0.7 1.1 0.5 0.5 0.9 0.3 0.4 0.7 0.00 1.00 2.00 3.00 4.00 5.00 6.00 Catia NX SolidWorks

Best Effort (VM=1) と Fixed Shareのパフォーマンス劣化について（Best Effort (VM=1)を1とした場合の相対比較）

Best Effort 1分割 2分割 3分割 4分割 6分割 8分割 12分割

どのスケジューラを使用するのが賢い？

ベンチマーク結果 - Tesla P40 分割数による違い

(38)

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ？

P4-2G vs. V100D-2G

パフォーマンスは同じなんだよね？

[正しい理解] 先のベンチマーク結果からご想像いただけると思いますが、分割数がパフォーマンスに影響を与えます。ベンチマーク結果を見てみましょう。

(39)

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ？

分割数がパフォーマンスに与える影響度（2GBのプロファイルを使用） 0 0.2 0.4 0.6 0.8 1 1.2

Catia Creo NX SolidWorks

Fixed Share スケジューラを使用した場合のパフォーマンス比較 (Tesla P4を1とした場合の相対比較） Tesla P4 （4分割） Tesla P40 （12分割） Tesla V100 - 32G （16分割） Tesla V100 - FHHL （8分割） 38

(40)

NVIDIA GRIDまとめ

Best Effortでは、GPUの性能差がパフォーマンス差として現れない

• ただし、性能の高いGPUは多重度を上げてもパフォーマンスの劣化度は少なくなる

分割数には注意

• 単純にGPUの集約率を上げてしまうと期待したパフォーマンスが得られない可能性

スケジューラの選択について

• Best Effortの方が失敗する確率は低い。明確にEqual Shareを選ぶ方が良いケースは、CUDAを利用する仮想マシンの共存を考える場合と分割数が少なめの場合に限られる

(41)

まとめ

(42)

まとめ

VDI環境においてGPUがあることによる制限はほとんどなくなった HCI製品を利用した展開によって管理がより容易に全てクラウドに移行するのではなくコントロールプレーンのみ移行等、より柔軟な選択（ハイブリッド環境）が可能に NVIDIA GRIDの進化により、CADとCAEの垣根がさらに低くなった GPUの選択（とくに分割数）は注意が必要

(43)

様々な製品でEngineering VDIを支援していきます

42 HPE ProLiant DL380 Gen10 HPE Apollo 2000 XL190r Gen10

HPE Synergy 480 Gen10 HPE SimpliVity 380

引き続き、日本ヒューレット・パッカード株式会社を

よろしくお願いいたします

(44)

(45)

ベンチマーク環境について

項目構成備考

Server HPE ProLiant DL380 Gen9

• CPU： Intel Xeon E5-2667 （3.2GHz, 2P/16Core） • Memory： 160GB

• Storage： 15krpm SAS 600GB （RAID 5）

GPU NVIDIA Tesla P4 / P40 / V100-32G / V100-FHHL NVIDIA GRID 6.2

VDI vSphere ESXi 6.5U1 VMware Horizon 7.5

Virtual Machine Windows 10 64bit Enterprise （1709）

• CPU: 4vCPU • Memory： 16GB • HDD： 200GB

Benchmark Software SPEC viewperf 13 現時点では、Best Effort および Equal Shareでcreoのベンチマークを取得できない

(46)

搭載可能 NVIDIA GPUラインアップ

DL380 SimpliVity 380 Synergy 480 Apollo 2000

• Quadro P2000 (5) • Quadro P4000 (5) • Quadro P6000 (3) • Quadro GV100 (3) • Tesla M10 (2) • Tesla P4 (5) • Tesla P40 (3) • Tesla P100-12G (3) • Tesla P100-16G (3) • Tesla V100-16G (3) • Tesla V100-32G (3) • Tesla V100-FHHL (5) • Tesla M10 (1) • Tesla P40 (1) Single Wide • Quadro M3000SE (1) • Tesla P6 (1) Expansion Module - MXM • Quadro M3000SE (7) • Tesla P6 (6)

Expansion Module - PCIe • Quadro P6000 (2) • Tesla M10 (2) • Tesla P40 (2) • Quadro P4000 (4) • Tesla M10 (4) • Tesla P40 (4) • Tesla P100-12G (4) • Tesla P100-16G (4) • Tesla V100-16G (4) • Tesla V100-32G (4) • 括弧内は最大搭載枚数 • 太字はvGPU対応 • 緑字のものは今後搭載予定

HPE HPC & AI フォーラム 2018 講演資料

より使いやすいGPU環境へ！

HPEのEngineering VDI最新情報

本日の内容

Engineering VDI 技術変遷

おさらい

Engineering VDIの振り返り

GPUパススルー方式

NVIDIA GRID vGPU方式

NVENC -

画面転送プロトコル最適化手法

NVENC -

画面転送プロトコル最適化手法

NVIDIA GPU プリエンプション対応

プリエンプション対応によるメリット

Engineering VDI進化のまとめ

HPE SimpliVity 380

2018 年 5 月

Hyper-V

版も登場

HPE SimpliVity による画期的な VDI 運用

“可能”

RPO

10 分おき

RTO

一瞬

NOT

ALL

イメージバックアップ

HPE SimpliVityを利用した構成例

パブリック クラウド環境の利用

パブリッククラウドはやはり必要かなぁ、高いけど....

Citrix Cloud XenApp & XenDesktop Service

Horizon 7 with VMware Cloud on Amazon Web Services

Horizon on VMCはDaaS (Desktop-as-a-Service)ではない

顧客の

管理スコープ

Software-Defined Data Centerのデプロイ

こまめな消灯をお忘れなく

電源管理はCloud

ではとても大事

NVIDIA GRID 最新情報

最適なGPU選択のためのヒント

STANDARD SCHEDULER

STANDARD SCHEDULERの課題

EQUAL SHARE SCHEDULER

FIXED SHARE SCHEDULER

NVIDIA Tesla 製品一覧

NVIDIA Tesla 製品一覧

無視してはいけない大事な疑問

どのGPUを選択するのが賢い？

どのGPUを選択するのが賢い？

えっ、違わないの？

どのGPUを選択するのが賢い？

どのスケジューラを使用するのが賢い？

Best Effort と Equal Share どちらが良い？

どのスケジューラを使用するのが賢い？

どのスケジューラを使用するのが賢い？

じゃ、Equal Shareを使用すればOK？

どのスケジューラを使用するのが賢い？

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ？

P4-2G vs. V100D-2G

パフォーマンスは同じなんだよね？

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ？

NVIDIA GRIDまとめ

Best Effortでは、GPUの性能差がパフォーマンス差として現れない

分割数には注意

スケジューラの選択について

まとめ

まとめ

様々な製品でEngineering VDIを支援していきます

引き続き、日本ヒューレット・パッカード株式会社を

よろしくお願いいたします

ベンチマーク環境について

搭載可能 NVIDIA GPUラインアップ

_{10 分おき}

_一瞬

パブリッククラウド環境の利用