• 検索結果がありません。

HPE HPC & AI フォーラム 2018 講演資料

N/A
N/A
Protected

Academic year: 2021

シェア "HPE HPC & AI フォーラム 2018 講演資料"

Copied!
46
0
0

読み込み中.... (全文を見る)

全文

(1)

HPE HPC & AI フォーラム 2018 日本ヒューレット・パッカード株式会社 ハイブリッドIT事業統括 コアソリューション部 久保田 隆志

より使いやすいGPU環境へ!

HPEのEngineering VDI最新情報

(2)

本日の内容

–Engineering VDI 技術変遷 –HPE SimpliVity 380 –パブリック クラウド環境の利用 –NVIDIA GRID 最新情報 –まとめ

(3)

Engineering VDI 技術変遷

おさらい

(4)

Engineering VDIの振り返り

Single Image 管理 HA 対応 Live Migration 対応

Bare Metal GPU

Passthrough

vGPU

NVIDIA GRID HCI & Cloud

NVENC 対応 2008 2012 2014 2018 GPU VDI技術 画面転送プロトコル ※ プリエンプション対応

(5)

仮想マシン アプリケーション OS 仮想マシン アプリケーション OS 仮想マシン アプリケーション OS 仮想マシン アプリケーション OS 仮想マシン アプリケーション OS

GPUパススルー方式

CADも快適に - 仮想マシンに直接GPUを1枚割当てる方式 4 Hypervisor • VMware ESXi • Citrix XenServer • Microsoft Hyper-V Server GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver GPU Graphics Driver

(6)

NVIDIA GRID vGPU方式

GPU分割機能- さらに集約率を高める Hypervisor GPU 管理コンソール GRID vGPU Manager MMU NVIDIA Kernel Driver 仮想マシン アプリケーション OS メモリ NVIDIA Driver 仮想マシン アプリケーション OS メモリ NVIDIA Driver 仮想マシン アプリケーション OS メモリ NVIDIA Driver 仮想マシン アプリケーション OS メモリ NVIDIA Driver

(7)

NVENC -

画面転送プロトコル最適化手法

CPU負荷削減、操作レスポンス向上 6 NVIDIA GPU System Memory RGB YUV エンコード

GPU Frame Buffer

CPU Graphics API CPU NIC 内部遅延が発生 CPUパワーを消費

(8)

NVENC -

画面転送プロトコル最適化手法

CPU負荷削減、操作レスポンス向上

NVIDIA GPU System Memory

GPU Frame Buffer NVENC ASIC (*)

CPU

Graphics API

CPU

NIC (*) NVENC ASIC

(9)

NVIDIA GPU プリエンプション対応

– Maxwell世代までのGPUはプリエンプションがなかった(グラフィックスだけを考えればこれでもよかった) – Pascalからはプリエンプション対応なので以下のような処理が可能 8 Graphcis Graphcis Graphcis Graphcis VM1 VM2 VM3 VM4 time GPU VM1 VM2 VM3 VM4 time GPU GPU GPU GPU プリエンプション処理

(10)

プリエンプション対応によるメリット

–vGPU環境でもCUDAを利用可能 (これまではGPU占有して使用しない限りCUDAを利用できなかった) –GPU ModeSwitchが不要に(*) Hypervisor Server + NVIDIA Graphics VM CUDA VM Hypervisor Server + NVIDIA CAD VM CUDA Server + NVIDIA OS GPU ModeSwitch Graphics Compute Maxwellまで Pascal以降

(11)

Engineering VDI進化のまとめ

10 NVIDIA GRIDの登場 • 柔軟なGPUリソースの割り当てが可能 VDI技術のGPU対応 • GPUがあっても一般のVDIと同じ管理が可能 NVENC対応 • CPU負荷の削減および操作レスポンスが向上 NVIDIA GPUのプリエンプション対応 • CAD/CUDAの仮想マシンの共存が可能

(12)

HPE SimpliVity 380

(13)

ビジネスに必要不可欠なあらゆる機能をビルトインで提供する 高性能かつ多機能なハイパーコンバージドインフラストラクチャ ( ) データ効率 PCI Acceleratorカードを用いたFPGA テクノロジでCPU/メモリのリソースを 専有せずにデータ圧縮・重複排除 データ保護 1TBの仮想マシンの ローカルバックアップ ローカルリストアを1分で完了 シンプル コンソール画面から3クリックで 仮想マシンのバックアップ、リストア、 移行、複製が可能 管理性 複数サイトにまたがる1000もの仮想マ シンに対して1分未満でバックアップポ リシーの作成・更新が可能 可用性 ローカルもしくはリモートサイトへ 停止時間ゼロでシステム追加 リプレイス可能 マーケットリーダー の 製品を信頼の サーバーで提供開始

2018 年 5 月

Hyper-V

版も登場

(14)

HPE SimpliVity による画期的な VDI 運用

– SimpliVity は 30 年来の不可能を

“可能”

にできる

RPO

バックアップによる性能影響がないため、最短

10 分おき

に PC 状態を保存できる

RTO

容量に限らず、バックアップもリストアも

一瞬

で処理完了

NOT

ALL

すべてのVDI 仮想マシンを一台一台、 PC 丸ごと

イメージバックアップ

できる ※ ファイル単位で戻すことも可能

(15)

HPE SimpliVityを利用した構成例

通常サーバーを組み合わせた柔軟な構成が可能 14 HPE SimpliVity 380 メイン HPE SimpliVity 380バックアップ HPE ProLiant DL380 Gen10 Compute Node VDI管理サーバー群が稼働 ストレージ領域として利用 バックアップサーバー として利用 eVDIホストとして利用 NFS SimpliVity Federation GTC Japan 2018で事例発表 9/14(金) 14:00 – 14:25 @ Room 2-2

(16)

パブリック クラウド環境の利用

(17)

パブリッククラウドはやはり必要かなぁ、高いけど....

16 データセンターの 拡張 遅延に敏感なアプ リの配置最適化 BCP/DR対策の提供 一時的なデスク トップおよびアプリ 環境の提供 クイックなPOC 環境としての利用

(18)

Citrix Cloud

NetScaler Gateway

オンプレミス

Citrix Cloud XenApp & XenDesktop Service

コントロールプレーンのCloud化 SQL Active Directory NetScaler Gateway License Server Studio Director Delivery Controller StoreFront WS VM VDA WS VM VDA Cloud Connector Active Directory Cloud Connector WS VM VDA WS VM VDA (Replication)

(19)

Horizon 7 with VMware Cloud on Amazon Web Services

– 柔軟なデプロイメント – Horizon7 CPAを用いたハイブリッドクラウド環 境の構築 – Horizon 7 on VMC on AWSスタンドアローン 環境・展開のサポート – シンプルなvSphere環境の展開と時間課金の 選択肢 – HorizonおよびWorkspace ONEサブスクリプ ションライセンスの提供 18 AWSもしくはオンプレミスのPods

Horizon 7 Connection Servers vSphere / VMware Cloud

AWSもしくはオンプレミスのPods

グローバル データ レイヤー

Horizon 7 Connection Servers vSphere / VMware Cloud

ポッド間

コミュニケーション通信

(20)

Horizon on VMCはDaaS (Desktop-as-a-Service)ではない

顧客の

管理スコープ

デスクトップ&アプリ Horizonインフラ SDDC ハードウェア オンプレミスの デスクトップ&アプリ Horizonインフラ SDDC ハードウェア VMware Cloud デスクトップ&アプリ Horizonインフラ SDDC ハードウェア マネージド

(21)

Software-Defined Data Centerのデプロイ

(22)

こまめな消灯をお忘れなく

電源管理はCloud

ではとても大事

(23)

NVIDIA GRID 最新情報

最適なGPU選択のためのヒント

(24)

STANDARD SCHEDULER

これまでのスケジューラ VM 1 VM 2 VM 3 Round Robin Scheduler SHARE OF GPU CYCLES 8 7 6 5 4 3 2 1 GPU Engine 6 4 2 1 8 7 5 3 VM1 VM3 VM2 – ベストエフォート型のスケジューラ – タイムスライス、ラウンドロビンでスケ ジューリング – タイムスライスでタスクは実行される

(25)

STANDARD SCHEDULERの課題

ベストエフォート型の限界 24 VM 1 VM 2 VM 3 Round Robin Scheduler SHARE OF GPU CYCLES 1 GPU Engine 8 6 4 5 VM1 – 計算タスクのような長時間GPUを占有す るタイプのジョブが実行されると、ラウンド ロビンスケジューラ では、1つのタスクし か実行できない事が想定される。 1 7 3 2

(26)

EQUAL SHARE SCHEDULER

QoSを保証するスケジューラ VM 1 VM 2 VM 3 Equal Share Round Robin Scheduler SHARE OF GPU GPU Engine 8 6 4 5 – 新しいスケジュラー: Equal Share Scheduler (Pascal以降のHWのみ) – 長時間実行されているタスクはプリエンプ トされ、再スケジューリング時にコンテキ ストを保存して再開される – VM単位でGPUサイクルが決定される – vGPU対応VMは、GPUサイクルを同等 にシェアされる 1 7 3 2 VM1 VM3 VM2 8 1 7 6 1 5 4 1

(27)

FIXED SHARE SCHEDULER

固定型のスケジューラ 26 VM 1 VM 2 VM 3 Fixed Share Round Robin Scheduler SHARE OF GPU GPU Engine 6 4 2 1 8 7 5 3 VM1 VM3 VM2

– Fixed Share Round Robin Scheduler – タイムスライスでスケジュールされる – VM単位でGPUの利用率は固定 – GPUプロファイル(分割数)で性能が決ま る。 各VMの性能は、1/vGPU分割数 – クラウド事業者向けを想定 (常に一定の性能を保証する) None 1 3 2 5 4 7 6 8

(28)

NVIDIA Tesla 製品一覧

仮想環境向けのグラフィックス製品

M10 P4 P40 P100 V100 P6

GPU 4 Maxwell GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Pascal GPUs 1 Volta GPUs 1 Pascal GPUs

CUDA cores 2,560 2,560 3,840 3,584 5,120 2,048 Memory Size 32GB GDDR5 (8GB per GPU) 8GB GDDR5 24GB GDDR5 16GB HBM2 16GB HBM2 16GB GDDR5 H.264 1080p30 streams 28 24 24 36 36 24 Max vGPU instances 64 (512MB Profile) 8 (1GB Profile) 24 (1GB Profile) 16 (1GB Profile) 16 (1GB Profile) 16 (1GB Profile) vGPU Profiles 0.5GB, 1GB, 2GB, 4GB, 8GB 1GB, 2GB, 4GB, 8GB 1GB, 2GB, 3GB, 4GB, 6GB, 8GB, 12GB, 24GB 1GB, 2GB, 4GB, 8GB, 16GB 1GB, 2GB, 4GB, 8GB, 16GB 1GB, 2GB, 4GB, 8GB, 16GB

Form Factor PCIe 3.0 Dual Slot

(rack servers)

PCIe 3.0 Single Slot (rack servers)

PCIe 3.0 Dual Slot (rack servers)

PCIe 3.0 Dual Slot (rack servers)

PCIe 3.0 Dual Slot (rack servers)

MXM (blade servers)

Power 225W 50 – 75W 250W 250W 250W 90W (70W opt)

Thermal passive passive passive passive passive bare board

(29)

NVIDIA Tesla 製品一覧

仮想環境向けのグラフィックス製品 M10 P4 P40 P100 V100 P6 28 USER DENSITY Optimized PERFORMANCE Optimized BALDE Optimized 32G 8G 24G 12G 16G 16G 32G 16G 16G 50W 8G 75W

(30)

無視してはいけない大事な疑問

どのGPUを選択するのが賢い? どのスケジューラを使用するのが賢い? 同じビデオメモリサイズのプロファイルならGPUが 違ってもパフォーマンスは同じ? 分割数上げても本当に大丈夫?

(31)

どのGPUを選択するのが賢い?

Best Effort スケジューラにおけるGPUパフォーマンス差

0 0.2 0.4 0.6 0.8 1 1.2 Catia NX SolidWorks Best Effort スケジューラを使用した場合のパフォーマンス比較 (Tesla P4を1とした場合の相対比較) P4 P40 V100 -32G V100-FHHL 30 ※ 仮想マシン1台だけで実施

(32)

どのGPUを選択するのが賢い?

えっ、違わないの?

[正しい理解] はい。

–Best Effort では、ピーク性能はFRL(Frame Rate Limitter)でキャップされてしまう (仮想マシン1台だけでは差が全くないように見える)

–GPUの性能差は多重度を上げたときに現れる

(33)

どのGPUを選択するのが賢い?

本来のGPU性能差の確認 0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 4.00

3dsmax-06 catia-05 energy-02 maya-05 medical-02 showcase-02 snx-03 sw-04

SPEC viewperf 13 ベンチマーク (Tesla P4を1とした時の相対比較)

Tesla P4 Tesla P40 Tesla V100 -32G Tesla V100 -FHHL

32

Equal Share を使用し、全て2Gのプロファイルを使用 (仮想マシン1台だけで実施)

(34)

どのスケジューラを使用するのが賢い?

Best Effort と Equal Share どちらが良い?

(Fixed Shareはクラウド事業者向けなので普通使わないのはわかったけど)

[正しい理解のために]

(35)

どのスケジューラを使用するのが賢い?

スケジューラの比較: Best Effort vs. Equal Share

3.37 5.28 2.91 0 1 2 3 4 5 6 Catia NX SolidWorks Tesla P40におけるスケジューラの比較 (Best Effortを1とした時の相対比較)

Best Effort Equal Share

34

(36)

どのスケジューラを使用するのが賢い?

じゃ、Equal Shareを使用すればOK?

[正しい理解] そうとは限りません。 –Equal Shareは、ホスト上で稼働している仮想マシン数で「必ず」等分される (GPUの性能を使いきれない状況が発生する可能性) –Best Effortは、FRLでキャップされた状態だが、GPUリソースを使えるだけ使える (分割数は多いが、同時に負荷の高い仮想マシンが少ない場合は有利)

(37)

3.5 5.4 2.9 2.3 2.5 2.2 1.5 1.5 1.7 1.1 1.1 1.4 0.7 0.7 1.1 0.5 0.5 0.9 0.3 0.4 0.7 0.00 1.00 2.00 3.00 4.00 5.00 6.00 Catia NX SolidWorks

Best Effort (VM=1) と Fixed Shareのパフォーマンス劣化について (Best Effort (VM=1)を1とした場合の相対比較)

Best Effort 1分割 2分割 3分割 4分割 6分割 8分割 12分割

どのスケジューラを使用するのが賢い?

ベンチマーク結果 - Tesla P40 分割数による違い

(38)

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ?

P4-2G vs. V100D-2G

パフォーマンスは同じなんだよね?

[正しい理解] 先のベンチマーク結果からご想像いただけると思いますが、分割数がパフォーマンス に影響を与えます。ベンチマーク結果を見てみましょう。

(39)

同じビデオメモリサイズのプロファイルならパフォーマンスは同じ?

分割数がパフォーマンスに与える影響度 (2GBのプロファイルを使用) 0 0.2 0.4 0.6 0.8 1 1.2

Catia Creo NX SolidWorks

Fixed Share スケジューラを使用した場合のパフォーマンス比較 (Tesla P4を1とした場合の相対比較) Tesla P4 (4分割) Tesla P40 (12分割) Tesla V100 - 32G (16分割) Tesla V100 - FHHL (8分割) 38

(40)

NVIDIA GRIDまとめ

Best Effortでは、GPUの性能差がパフォーマンス差として現れない

• ただし、性能の高いGPUは多重度を上げてもパフォーマンスの劣化度は少なくなる

分割数には注意

• 単純にGPUの集約率を上げてしまうと期待したパフォーマンスが得られない可能性

スケジューラの選択について

• Best Effortの方が失敗する確率は低い。明確にEqual Shareを選ぶ方が良いケー スは、CUDAを利用する仮想マシンの共存を考える場合と分割数が少なめの場合 に限られる

(41)

まとめ

(42)

まとめ

VDI環境においてGPUがあることによる制限はほとんどなくなった HCI製品を利用した展開によって管理がより容易に 全てクラウドに移行するのではなくコントロールプレーンのみ移行等、 より柔軟な選択(ハイブリッド環境)が可能に NVIDIA GRIDの進化により、CADとCAEの垣根がさらに低くなった GPUの選択(とくに分割数)は注意が必要

(43)

様々な製品でEngineering VDIを支援していきます

42 HPE ProLiant DL380 Gen10 HPE Apollo 2000 XL190r Gen10

HPE Synergy 480 Gen10 HPE SimpliVity 380

引き続き、日本ヒューレット・パッカード株式会社を

よろしくお願いいたします

(44)
(45)

ベンチマーク環境について

項目 構成 備考

Server HPE ProLiant DL380 Gen9

• CPU: Intel Xeon E5-2667 (3.2GHz, 2P/16Core) • Memory: 160GB

• Storage: 15krpm SAS 600GB (RAID 5)

GPU NVIDIA Tesla P4 / P40 / V100-32G / V100-FHHL NVIDIA GRID 6.2

VDI vSphere ESXi 6.5U1 VMware Horizon 7.5

Virtual Machine Windows 10 64bit Enterprise (1709)

• CPU: 4vCPU • Memory: 16GB • HDD: 200GB

Benchmark Software SPEC viewperf 13 現時点では、Best Effort およ び Equal Shareでcreoのベン チマークを取得できない

(46)

搭載可能 NVIDIA GPUラインアップ

DL380 SimpliVity 380 Synergy 480 Apollo 2000

• Quadro P2000 (5) • Quadro P4000 (5) • Quadro P6000 (3) • Quadro GV100 (3) • Tesla M10 (2) • Tesla P4 (5) • Tesla P40 (3) • Tesla P100-12G (3) • Tesla P100-16G (3) • Tesla V100-16G (3) • Tesla V100-32G (3) • Tesla V100-FHHL (5) • Tesla M10 (1) • Tesla P40 (1) Single Wide • Quadro M3000SE (1) • Tesla P6 (1) Expansion Module - MXM • Quadro M3000SE (7) • Tesla P6 (6)

Expansion Module - PCIe • Quadro P6000 (2) • Tesla M10 (2) • Tesla P40 (2) • Quadro P4000 (4) • Tesla M10 (4) • Tesla P40 (4) • Tesla P100-12G (4) • Tesla P100-16G (4) • Tesla V100-16G (4) • Tesla V100-32G (4) • 括弧内は最大搭載枚数 • 太字はvGPU対応 • 緑字のものは今後搭載予定

参照

関連したドキュメント

KURA 内にない場合は、 KAKEN: 科学研究費補助金データベース を著者名検索して表示する。 KURA では参照先を KURA と

VMWare Horizon HTMLAccess はこのままログインす ればご利用いただけます。VMWare Horizon Client はク

5 On-axis sound pressure distribution compared by two different element diameters where the number of elements is fixed at 19... 4・2 素子間隔に関する検討 径の異なる

経済学類 エコノミクスコース (仮称)  / グローバル・マネジメントコース (仮称)!.

被害想定内の出来事 Incident 、 Emergency 想定外および想定以上の出来事 Crisis 、 Disaster 、.

A flat singular virtual link is an equivalence class of flat singular virtual link diagrams modulo flat versions of the generalized Reidemeister moves and the flat singularity moves

4G LTE サービス向け完全仮想化 NW を発展させ、 5G 以降のサービス向けに Rakuten Communications Platform を自社開発。. モデル 3 モデル

区内の中学生を対象に デジタル仮想空間を 使った防災訓練を実 施。参加者は街を模し た仮想空間でアバター を操作して、防災に関