マネージド AI サービスと GPU IaaS クラウドで GPU が活きる二つの選択肢マネージド AI サービス GPU IaaS Amazon AI Google Cloud Vision API 等 IBM Watson Microsoft Cognitive Services Amazon

(1)

エンタープライズマーケティング部佐々木邦暢 (@_ksasaki)

(2)

マネージド AI サービスと GPU IaaS

クラウドで GPU が活きる二つの選択肢

Amazon AI

Google Cloud Vision API 等

IBM Watson

Microsoft Cognitive Services

Amazon EC2 – P2 インスタンス

Google Compute Engine

IBM Bluemix Infrastructure

Microsoft Azure – N シリーズ

IDCF - “GPU BOOST” タイプ

(3)

Amazon AI

開発者向け人工知能サービス (API 群)

Amazon Polly

Amazon

Rekognition

Amazon Lex

音声やテキストを使用した会話型インターフェイスを持つアプリケーションを構築ディープラーニングを使用して文章をリアルな音声に変換ディープラーニングに基づくイメージ認識サービス

(4)

P2 インスタンス

Tesla K80 を搭載する GPU インスタンス

インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vCPU 数 メモリ (GB)

p2.xlarge

1 (K80 半分) 12 2,496 4 61

p2.8xlarge

8 (K80 4枚) 96 19,968 32 488

p2.16xlarge

16 (K80 8枚) 192 39,936 64 732

(5)

GPU 対応の AMI 各種

GPU ドライバや各種フレームワーク・アプリケーション導入済み

AWS 提供

NVIDIA 提供

Deep Learning AMI

64-bit, Amazon Linux 2015.05.04

NVIDIA GPU ドライバ

MXNet, Caffe, TensorFlow, Theano, Torch

NVIDIA DIGITS 4 AMI

NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit) NVIDIA CUDA Toolkit 7.5 AMI

CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit) Windows AMI (NVIDIA GPU ドライバ付)

(6)

分散型ディープラーニングを簡単に

CloudFormation で GPU クラスタを自動デプロイ

AWS は MXNet をデフォルトのディープラーニング

フレームワークとして採用し、そのコードやドキュメン

テーションに貢献しています。

その一環として、GPUクラスタを簡単に構築可能な、

CloudFormation テンプレートが公開されています。

VPC の作成、セキュリティやオートスケーリングの設定

から、GPU ドライバやフレームワークのインストールまで

完全に自動化されます。

MXNet と CloudFormation

https://github.com/dmlc/mxnet/tree/master/tools/cfn

(7)

AWS パブリックデータセット

無料でアクセス可能な大規模データ

データセット名 内容

ランドサット

ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション

SpaceNet

コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像_{とラベリングされたトレーニングデータを集めたデータベース}

地勢タイル

世界各地の地表の標高などの地勢を示すデータセット

NASA NEX

NASA が保守管理する地球の科学的データセットのコレクション。気候変化_{予測や地表の衛星画像などが含まれる}

TCGA

がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリプトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された研究者のみが利用可能

マルチメディアコモンズ

_{オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション}

Japan Census Data

日本の国勢調査、事業所･企業統計調査、経済センサス

(8)

パブリックデータセットの利用例

SpaceNet を NVIDIA DIGITS で解析

SpaceNet は NVIDIA もその立ち上げにかかわった

オンライン衛星画像リポジトリです

ディープラーニングフレームワークの Web フロントエンド

である NVIDIA DIGITS で DetectNet というオブジェ

クト検出ネットワークを使って、 SpaceNet の画像か

ら建物を検出する方法を、 PARALLEL FORALL

ブログで解説しています

https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/

NVIDIA DIGITS による物体検出

(9)

Microsoft Cognitive Services

インテリジェンスアプリケーション

言語

視覚

音声

(10)

Azure N シリーズ GPU インスタンス

2 種類の NVIDIA GPUを搭載

名称 コア数 メモリ SSD RDMA GPU NV6 6 56 GB 380 GB - M60 半分 (GPU 1基) NV12 12 112 GB 680 GB - M60 1枚 (GPU 2基) NV24 24 224 GB 1.5 TB - M60 2枚 (GPU 4基) NC6 6 56 GB 380 GB - K80 半分 (GPU 1基) NC12 12 112 GB 680 GB - K80 1枚 (GPU 2基) NC24 24 224 GB 1.5 TB - K80 2枚 (GPU 4基) NC24r 24 224 GB 1.5 TB InfiniBand K80 2枚 (GPU 4基) Visualization の NV 系 Tesla M60搭載 Compute の NC 系 Tesla K80 搭載

(11)

NVIDIA と Microsoft の協業

Cognitive Toolkit (旧称: CNTK) を Azure と DGX-1 の双方に最適化

NVIDIA Tesla GPU

NVIDIA DGX-1 Azure Data Center NVIDIA GPUDL Toolkit

(12)

Microsoft Cognitive Toolkit

(旧称: CNTK)

様々なマイクロソフト製品・サービスを支え AI を民主化

Cortana パーソナルアシスタント多言語間翻訳Skype Bing サーチエンジン HoloLens拡張現実

(13)

IBM Watson

日本語に対応した様々な API

自然言語分類検索およびランク付け会話文書変換

(14)

IBM Bluemix Infrastructure

GPU 搭載のベアメタルサーバーを月単位 / 時間単位で

GPU 種別 GPU メモリ_(GB) CUDA コア数 CPU _コア数CPU メモリ_(GB) ディスク

Tesla K80

24 4,992

2 x E5-2620 v3

12

64 1TB SATA

2 x E5-2650 v3

20 2 x E5-2690 v3

24 2 x E5-2620 v4

16 128 2x 800GB SSD

Tesla M60

16 4,096

2 x E5-2620 v3

12

64 1TB SATA

2 x E5-2650 v3

20 2 x E5-2690 v3

24

Hourly ※ この他、 GRID K2 と Tesla K10 が選択可能

(15)

Google Cloud Platform

Google のコアとなるインフラストラクチャ、データ解析、機械学習を活用

Cloud Machine Learning

Vision API

Speech API

Natural Language API

Translation API

(16)

Google Compute Engine

Google の IaaS に Tesla K80 と P100 がまもなく登場

 Tesla K80 と Tesla P100 を利用可能

 様々なインスタンスに GPU をアタッチ可能

 分単位の課金で効率的に利用

 近日登場予定！

(17)

IDCF クラウド

Tesla M40 搭載 “GPU BOOST” 仮想マシン

インスタンス名 GPU GPU メモリ_(GB) CUDA コア数 vCPU 数 メモリ (GB) SSD (GB)

gpu.7XLM40

1 x M40

24 3,072

56

256 2,100

gpu.7XLP100

1 x P100

16 3,584

(18)

第1回 AI チャレンジコンテスト

人工知能技術戦略会議等主催

賞品は NVIDIA TITAN X 画像データ提供: クックパッド株式会社

主催

_{人工知能技術戦略会議、内閣府、文部科学省}

応募受付期間

_{平成29年1月10日（火）～平成29年3月9日（木）}

参加費

無料

テーマ

料理画像を対象に、

(1) 「料理領域検出」、 (2) 「料理分類」の2 部門を実施

IDC フロンティア様から Tesla M40 搭載 GPU サーバー提供（参加者間で共同利用）

(19)

(20)

データセンターのために設計された Tesla

データセンター仕様

24 時間 365 日の稼働時間

データセンターのスループットをブースト

スケーラブルパフォーマンス

信頼性の最大化システム運用管理を効率化

(21)

システム稼働時間のためのエンドツーエンド設計

24時間365日の稼働時間スケーラブルパフォーマンスデータセンター仕様保証品質システム出荷判定試験：熱、ストレス、空気流量、衝撃および振動 Tesla のみのシステム監視と管理障害分析のための専任技術スタッフ広範な出荷判定項目と試験長時間の高温負荷テスト 1 件のエラーも許容しない厳格な基準高信頼性のための技術を使用しても、 5% の GPU がスクリーニングアウト信頼性を高めるための様々な技術長期信頼性のための低動作電圧品質を保証するため大きな設計マージンを確保データ整合性を担保する ECC メモリ

(22)

稼働時間を最大化するダイナミックページリタイアメント

24時間365日の稼働時間スケーラブルパフォーマンスデータセンター仕様 GPU メモリ訂正不可能なデータエラーがアプリケーションをクラッシュさせる弱いメモリが使われなくなるダイナミックページリタイアメントのある Tesla ダイナミックページリタイアメントのない GPU 弱いメモリが使われ続ける 1. ジョブがクラッシュすると生産性が低下します 2. IT 管理者は物理的にサーバーを開けて障害のある GPU を取り外す必要があります 3. ダウンタイムの発生が顧客満足度を下げる危険があります 1. 不良メモリを GPU の再起動で取り除けます 2. IT 管理者のための物理的な作業は発生しません 3. リタイアするページの合計サイズは最大 256KB 程度性能へのインパクトは無視できる範囲です

(23)

サーバー OEM ベンダーによるデータセンター最適化

24時間365日の稼働時間スケーラブルパフォーマンスデータセンター仕様 Tesla GPU を搭載したサーバーデータセンタ用ではない GPU を搭載したサーバー GPU 内エアフローを最大にする設計前後双方向のエアフローをサポート低い電力消費 LINPACK 実行時の GPU の温度: 54度サーバーのエアフローに反した動作大きな電力消費低い信頼性 LINPACK 実行時の GPU の温度: 71度エアフロー温度: 54度温度: 71度

(24)

データセンター GPU マネージメント

24時間365日の稼働時間スケーラブルパフォーマンスデバイスマネージメント • デバイス認識 • ボードモニタリング • クロックマネージメント GPU 毎の構成及びモニタリングデータセンター仕様

データセンター運用のためのエンタープライズ向けマネージメントツール

アクティブヘルスモニタリングシステム検証診断及びランタイムヘルスチェックプロローグチェックエピローグチェック詳しいハードウェア診断システム検証テストポリシーとグループ構成管理事前設定されたポリシージョブ毎のモニタリングステートフル設定電源及びクロック管理ダイナミックパワーキャッピング同期クロックブースト データセンター GPU マネージャー (Tesla GPUのみ)

(25)

計画的な製品ライフサイクルとサポート

24時間365日の稼働時間スケーラブルパフォーマンスデータセンター仕様 www.nvidia.com/enterpriseservices 安定した製品供給エンタープライズサービス • 頻繁に EOL を迎えるコンシューマー用 GPU よりも、長い製品ライフサイクル • サーバー利用では無保証のコンシューマー用 GPU と異なり、3 年間の保証 • 長期間サポート及びメンテナンス • 技術専門家との直接のコミュニケーション • 問題解決への迅速な対応 • 専任技術担当者、オンサイトコンサルテーション、トレーニング

(26)

GeForce で開発、Tesla で運用

GeForce

開発者とゲーマーのために設計された GPU どこでも入手可能 https://developer.nvidia.com/cuda-gpus

Tesla

データセンターのために設計された GPU サーバー用に設計ダイナミックページリタイアメント GPUDirect RDMA NVLink データセンター管理ツールエンタープライズサービス

マネージド AI サービスと GPU IaaS クラウドで GPU が活きる二つの選択肢 マネージド AI サービス GPU IaaS Amazon AI Google Cloud Vision API 等 IBM Watson Microsoft Cognitive Services Amazon

エンタープライズマーケティング部 佐々木邦暢 (@_ksasaki)