ムーアの法則後の世界年間のマイクロプロセッサのトレンドトランジスタ数 ( 千単位 ) 年率 1.1 倍シングルスレッド性能年率 1.5 倍 Original data up t

(1)

(2)

ムーアの法則後の世界

102 103 104 105 106 107 40 年間のマイクロプロセッサのトレンド シングルスレッド性能年率 1.5 倍年率 1.1 倍トランジスタ数 (千単位)

(3)

1980 1990 2000 2010 2020 GPU コンピューティング性能年率 1.5 倍 2025年_までに 1000倍

GPU コンピューティングの登場

102 103 104 105 106 107 シングルスレッド性能年率 1.5 倍年率 1.1 倍アプリケーションシステムアルゴリズム CUDA アーキテクチャ

(4)

GPU コンピューティングの登場

GPU コンピューティング開発者 GTC 参加者 2017 2017

511,000

7,000

2012 2012 1年間の CUDA ダウンロード数

1,000,000+

(5)

(6)

現代の AI のビッグバン

Auto Encoders GAN LSTM IDSIA CNN on GPU Stanford & NVIDIA Large-scale DNN on GPU U Toronto AlexNet on GPU Captioning

NVIDIA BB8 BRETT Style Transfer

ImageNet

Google Photo FDA ApprovedArterys AlphaGo ResolutionSuper Deep Voice

Baidu DuLight NMT Superhuman ASR Reinforcement

(7)

$5B

現代 AI のビッグバン

Udacity でのAI プログラム 2 年で 100 倍 NIPS、ICML、CVPR、ICLR 参加者数 2 年で 2 倍 2016 2017

20,000

13,000

2015 2014 AI スタートアップ投資 4 年で 9 倍

50億ドル

2016 2012

(8)

NVIDIA ディープラーニング SDK GPU AAS NVAIL INCEPTION インターネットサービスエンタープライズヘルスケア GPU システムフレームワーク TESLA HGX-1 DGX-1 NVIDIA RESEARCH

エヌビディアが加速する AI 革命

(9)

NVIDIA INCEPTION プログラム

1300 のディープラーニングスタートアップを支援

ヘルスケアビジネスインテリジェンス及び可視化開発プラットフォームリテール eテール IOT 及び製造プラットフォーム及び API データマネージメント建築金融セキュリティサイバー自律動作機械

(10)

エンタープライズのための

SAP AI

SAP から提供される最初の商業的 AI オファリング

Brand Impact、Service Ticketing、 Invoice-to-Record アプリケーション DGX-1 と AWS で NVIDIA GPU を利用

(11)

年々複雑さを増すモデル

2016 — Baidu Deep Speech 2

2015 — Microsoft ResNet 2017 — Google NMT

1.05 垓回の計算量 87 億パラメータ 2000 京回の計算量 3 億パラメータ 700 京回の計算量 6000 万パラメータ

(12)

発表 Tesla V100

AI と HPC のための大きな飛躍

Tensor コアを搭載した Volta アーキテクチャ

210 億トランジスタ | TSMC 12nm FFN | 815mm2 5120 CUDA コア 7.5 FP64 TFLOPS | 15 FP32 TFLOPS 120 Tensor TFLOPS 総レジスタファイル 20MB | 16MB キャッシュ 900 GB/s の 16GB HBM2

(13)

新開発 Tensor コア

CUDA Tensor 演算命令及びデータフォーマット 4x4 行列処理配列

D[FP32] = A[FP16] * B[FP16] + C[FP32] ディープラーニングに最適化

(14)

発表 Tesla V100

AI と HPC のための大きな飛躍

Tensor コアを搭載した Volta アーキテクチャ

Pascal 世代と比較して HPC のための汎用演算性能 1.5 倍ディープラーニングトレーニングのための Tensor 演算性能 12 倍ディープラーニング推論のための Tensor 演算性能 6 倍

(15)

発表

Volta 対応フレームワーク

CNN トレーニング (ResNet-50) NCCL 2.0 を利用したマルチノード_{トレーニング} (ResNet-50) 64x V100 8x V100 8x P100 P100 K80 LSTM トレーニング (ニューラル機械翻訳) 8x V100 8x P100 8x K80

(16)

発表

Tesla V100 搭載 NVIDIA DGX-1

AI 研究に必須の道具

960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ TITAN X で 8 日かかる計算が 8 時間に

(17)

発表

Tesla V100 搭載 NVIDIA DGX-1

AI 研究に必須の道具

960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ TITAN X で 8 日かかる計算が 8 時間に

CPU サーバー 400台分の性能がワンボックスに

(18)

発表

NVIDIA DGX ステーション

パーソナル DGX

480 Tensor TFLOPS | Tesla V100 4基 NVLink 全結合 | 3つの DisplayPort 1500W | 水冷

(19)

480 Tensor TFLOPS | Tesla V100 4基 NVLink 全結合 | 3つの DisplayPort 1500W | 水冷ご注文は: nvidia.com/DGX-Station

発表

NVIDIA DGX ステーション

パーソナル DGX

(20)

発表

ハイパースケール推論のための Tesla V100

Skylake に対して 15～25 倍の推論性能

150W | FHHL PCIE

(21)

GPU で加速されたデータセンターの例

データセンター全体で300,000 推論/秒 CPU 当り 300 推論/秒 ➡ 1000 CPU 1000 CPU ➡ 500 ノード ノード 3000ドル ノード 500W ➡ 150万ドル ➡ 250KW

(22)

NVIDIA ディープラーニングスタック

ディープラーニングフレームワークディープラーニングライブラリ NVIDIA cuDNN, NCCL, cuBLAS, TensorRT CUDA ドライバオペレーティングシステム GPU システム

(23)

コンテナ、データセット、事前学習済みのモデルのレポジトリ NVIDIA GPU クラウド CSP

発表

NVIDIA GPU クラウド

ディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム

(24)

GPU コンピューティング性能

0 8 16 24 32 40 AMBER 性能 (ns/day) AMBER 12 CUDA 4 AMBER 14 CUDA 5 AMBER 14 CUDA 6 AMBER 16 CUDA 8 0 2400 4800 7200 9600 12000 GoogleNet 性能 (i/s) cuDNN 2 CUDA 6 cuDNN 4 CUDA 7 cuDNN 6 CUDA 8 NCCL 1.6 cuDNN 7 CUDA 9 NCCL 2

(25)

NVIDIA ディープラーニング SDK GPU AAS NVAIL INCEPTION インターネットサービスエンタープライズヘルスケア GPU システムフレームワーク TESLA HGX-1 DGX-1 NVIDIA RESEARCH 自動車 AI シティロボット NVIDIA ディープラーニング SDK DRIVE PX JETSON TX

エヌビディアが加速する AI 革命

エッジでの AI

(26)

AI が革新するトランスポーテーション

ドミノピザ: 一日100万個のピザを配達米国では 2億5000万台の車のために

(27)

NVIDIA DRIVE — AI カープラットフォーム

コンピュータビジョンライブラリ OS 認識 AI CUDA、cuDNN、TensorRT 自己位置推定パスプランニング 1 TOPS 10 TOPS 100 TOPS DRIVE PX 2 Parker Level 2/3 DRIVE PX Xavier Level 4/5

(28)

NVIDIA DRIVE

ガーディアンエンジェルコパイロット

(29)

発表

(30)

自動運転のための AI プロセッサ

XAVIER 汎用アーキテクチャ特定用途アクセラレータエネルギー効率 CPU FPGA CUDA GPU DLA Pascal Volta

(31)

自動運転のための AI プロセッサ

XAVIER 30 TOPS DL 汎用アーキテクチャ特定用途アクセラレータエネルギー効率 CPU CUDA GPU DLA Volta +

(32)

発表

Xavier DLA オープンソース化

Command Interface

Tensor Execution Micro-controller

Input DMA (Activations and Weights) Unified 512KB Input Buffer Activations and Weights Sparse Weight Decompression Native Winograd Input Transform MAC Array 2048 Int8 or 1024 Int16 or 1024 FP16 Output Accumulators Output Postprocess or (Activation Function, Pooling etc.) Output DMA

(33)

エヌビディアが加速する AI 革命

NVIDIA GPU クラウド全てのクラウドに NVIDIA GPU Xavier DLA オープンソース化 DGX-1 及び DGX ステーション Tesla V100 TensorRT Tensor コア NVIDIA GPU CLOUD CSPs

(34)

ムーアの法則後の世界 年間のマイクロプロセッサのトレンド トランジスタ数 ( 千単位 ) 年率 1.1 倍 シングルスレッド性能 年率 1.5 倍 Original data up t