PowerPoint Presentation

全文

(1)Amazon EC2 Inf1 インスタンス～AWS独自開発チップInferentiaによる推論処理～. アマゾンウェブサービスジャパン株式会社 2021年3月 © 2020, Amazon Web Services, Inc. or its Affiliates..

(2) Agenda • • • • • •. AWSの機械学習 Amazon EC2 Inf1インスタンス AWS Inferentia 推論プロセッサとAWS Neuron SDK Inf1インスタンス利用事例 – Alexa まとめ参考情報. © 2020, Amazon Web Services, Inc. or its Affiliates..

(3) AWSの機械学習. © 2020, Amazon Web Services, Inc. or its Affiliates..

(4) AWS の機械学習スタック AI サービス: 機械学習の深い知識なしに利用可能 HEALTH AI. NEW. INDUSTRIAL AI. Amazon Transcribe Medical. Amazon HealthLake. VISION. Amazon Comprehend Medical. ANOMALY DETECTION. CODE AND DEVOPS. NEW. NEW. NEW. NEW. NEW. NEW. AWS Panorama + Appliance. Amazon Monitron. Amazon Lookout for Equipment. Amazon Lookout for Vision. Amazon Lookout for Metrics. Amazon DevOps Guru. SPEECH. TEXT. SEARCH. CHATBOTS. PERSONALIZATION. FORECASTING. Amazon Kendra. Amazon Lex. Amazon Personalize. Amazon Forecast. FRAUD. Amazon CodeGuru. CONTACT CENTERS. Contact Lens Amazon Rekognition. Amazon Polly. Amazon Transcribe. Amazon Comprehend. +Medical. +Medical. Amazon Translate. Amazon Textract. Amazon Fraud Detector. Voice ID For Amazon Connect. ML サービス: 機械学習のプロセス全体を効率化するマネージドサービス SAGEMAKER STUDIO IDE. Amazon SageMaker. Label data. NEW. Aggregate & prepare data. NEW. Store & share features. NEW. Auto ML. Spark/R. Detect bias. Visualize in notebooks. Pick algorithm. Train models. Tune parameters. NEW. Debug & profile. Deploy in production. Manage & monitor. NEW. CI/CD. Human review. NEW: SageMaker JumpStart NEW: Model management for edge devices. ML フレームワークとインフラストラクチャ: 機械学習の環境を自在に構築して利用. © 2020, Amazon Web Services, Inc. or its Affiliates.. DeepGraphLibrary. Deep Learning AMIs & Containers. GPUs & CPUs. Elastic Inference. Trainium. Inferentia. FPGA.

(5) 仮想サーバサービス Amazon EC2 (Elastic Compute Cloud) • • • •. 必要なときに必要な計算リソースを確保可能な仮想サーバサービスワークロードに応じて様々なインスタンスタイプを選択可能数分で起動し、秒単位の従量課金（一部タイプについては1時間単位）インスタンスを停止するだけでマシンスペック変更が可能コンピューティング最適化. 汎用. T3. T4g. M5. M6g. © 2020, Amazon Web Services, Inc. or its Affiliates.. H1. C5. C6g. メモリ最適化. ストレージ最適化 I3. D2. 高速コンピューティング (GPU・FPGA). X1. Z1d. R5. P4. G4. R6g. F1. INF1.

(6) Amazon EC2 で選択できるプロセッサの選択肢. Intel Xeon Scalable processors. AWS Graviton Processors. AMD EPYC processors. 64-bit Arm Neoverseコアを搭載した AWS独自開発プロセッサによるコスト最適化同等の現行世代x86ベースのインスタンスと比較し最大40％優れた価格性能を提供 © 2020, Amazon Web Services, Inc. or its Affiliates..

(7) アクセラレータ搭載インスタンスの拡充. Tesla A100 / V100 / T4. AWS Inferentia. UltraScale+ VU9P FPGA. P3/P4/G4 Instance. Inf1 Instance. F1 Instance. AWS独自設計ASICによる推論コストの最適化 G4インスタンスと比較し約30%高いスループット、推論処理当たり最大45%低価格を実現 © 2020, Amazon Web Services, Inc. or its Affiliates..

(8) アクセラレータ搭載インスタンスの拡充. Tesla A100 / V100 / T4. AWS Trainium 2. P3/P4/G4 Instance. NEW. UltraScale+ VU9P FPGA F1 Instance. AWS独自設計ASICによる学習コストの最適化 ※ 2021年内に利用可能予定 © 2020, Amazon Web Services, Inc. or its Affiliates..

(9) 機械学習における運用コスト機械学習のプロダクション運用では推論コストが大部分を占める AWS独自設計ASICによる推論コストの最適化学習 (<10%). 推論 (>90%). © 2020, Amazon Web Services, Inc. or its Affiliates..

(10) Amazon EC2を使用したML推論の選択肢 AWS Inferentia. GPU based. 一般的な ML フレームワークを利用したアプリケーション. CUDA, CuDNN, TensorRT等、小さなモデルや高い性能を求 NVIDIA社のライブラリを利めない場合に利用用したアプリケーション. 要件にあったvCPU/メモリサイズのEC2と組合せて TensorFlowおよびMXNetモデルの推論処理を安価に. AWS Inferentia 推論プロセッサ搭載. NVIDIA T4 GPU搭載 Amazon EC2 G4 インスタンス. GPU. EC2 Inf1 インスタンス. クラウド上でのML推論でベストプライスパフォーマンスを提供 G4インスタンスと比較し、推論処理当たり最大45%低価格を提供. © 2020, Amazon Web Services, Inc. or its Affiliates.. EC2 G4 インスタンス. CPU based. EC2 C5 インスタンス. Intel Skylake/Cascade Lake CPU AVX-512/ VNNI 命令セットをサポート. Network Attach Elastic Inference.

(11) Amazon EC2 Inf1インスタンス. © 2020, Amazon Web Services, Inc. or its Affiliates..

(12) Amazon EC2 Inf1インスタンス紹介機械学習の推論を高性能かつ低価格で実行するためのインスタンス. • AWSが独自設計した機械学習推論チップAWS Inferentiaを搭載 • クラウド上で深層学習モデルを実行する上で最も低価格を実現 GPUインスタンスと比較し、推論処理当たり最大45%低価格. AWS Inferentia. AWSが独自設計した高性能機械学習推論チップ. • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、最小限のコード変更のみですぐに利用開始可能 https://aws.amazon.com/ec2/instance-types/inf1/. © 2020, Amazon Web Services, Inc. or its Affiliates.. EC2 Inf1インスタンスクラウド上で高速かつ低価格な推論を実現.

(13) AWSによって一から構築されたInf1インスタンス. AWS Nitro. AWSカスタム第２世代インテル Xeon Scalable プロセッサ © 2020, Amazon Web Services, Inc. or its Affiliates.. AWS Inferentia. 100Gbps ネットワーキング. 高性能. 低コスト.

(14) Inf1インスタンスの選択肢 • 4つのインスタンスサイズから選択可能 •. 6xlarge、24xlargeでは複数のInferentiaチップを高速チップ間通信で接続. • インスタンス毎に1~16個のInferentia推論チップを搭載 • 最大100Gbpsのネットワークインタフェース • Amazon SageMaker, Amazon ECS, Amazon EKSからも利用可能インスタンスサイズ. Inferentia チップ数. vCPU. メモリ (GiB). ストレージ. EBS帯域 (Gbps). NW帯域 (Gbps). inf1.xlarge. 1. 4. 8. EBS Only. 最大 3.5. 最大 25. inf1.2xlarge. 1. 8. 16. EBS Only. 最大 3.5. 最大 25. inf1.6xlarge. 4. 24. 48. EBS Only. 3.5. 25. inf1.24xlarge. 16. 96. 192. EBS Only. 19. 100. © 2020, Amazon Web Services, Inc. or its Affiliates..

(15) Amazon EC2 Inf1 インスタンスタイプ • 2021年1月現在17のリージョンにて利用可能. • 米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン、北カリフォルニア)、カナダ (中部)、欧州 (フランクフルト、アイルランド、ロンドン、パリ)、アジアパシフィック ( 東京、香港、ムンバイ、ソウル、シンガポール、シドニー)、中東 (バーレーン)、および南米 (サンパウロ). • Inf1インスタンスでは他のEC2同様、複数の支払いオプションを用意 • オンデマンド、リザーブドインスタンス、スポットインスタンス • Savings Planに対応インスタンスサイズ. オンデマンド. スタンダード RI (1YR, 40%割引). スタンダード RI (3YR, 60%割引). inf1.xlarge. $ 0.368/Hr. $ 0.220/Hr. $ 0.148/Hr. inf1.2xlarge. $ 0.584/Hr. $ 0.350/Hr. $ 0.234/Hr. inf1.6xlarge. $ 1.904/Hr. $ 1.142/Hr. $ 0.762/Hr. inf1.24xlarge. $ 7.615/Hr. $ 4.569/Hr. $ 3.046/Hr. © 2020, Amazon Web Services, Inc. or its Affiliates.. *2021年1月時点の米国東部 (バージニア北部)の価格.

(16) ML推論用途 - Inf1インスタンス. 物体検出. 自然言語処理. パーソナライズ. 音声認識. 検索. 不正検出. © 2020, Amazon Web Services, Inc. or its Affiliates..

(17) クラウド上のML推論でベストプライスパフォーマンスを提供 G4インスタンスと比較し、約30%高いスループット、推論処理当たり最大45%低価格を実現物体検出. ※YoloV4モデルをTensorFlowで実行した結果. インスタンスタイプ. スループット (img/Sec). OD価格 ($/Hr). 1M 推論当たりのコスト. inf1.2xlarge. 118. $0.584. $1.362. g4dn.xlarge. 65. $0.526. $2.163. 自然言語. 推論当たりのコスト Inf1 vs. G4. 87% 向上. 37% 削減. ※BERT-LargeモデルをTensorFlowで実行した結果. インスタンスタイプ. スループット (Seq/Sec). OD価格 ($/Hr). 1M 推論当たりのコスト. inf1.xlarge. ~360. $0.368. $0.284. g4dn.xlarge. ~260. $0.526. $0.562. 画像分類. スループット Inf1 vs. G4. スループット Inf1 vs. G4. 推論当たりのコスト Inf1 vs. G4. 38% 向上. 49% 削減. スループット Inf1 vs. G4. 推論当たりのコスト Inf1 vs. G4. 24% 向上. 45% 削減. ※ResNet-50 モデルをTensorFlowで実行した結果. インスタンスタイプ. スループット (img/Sec). OD価格 ($/Hr). 1M 推論当たりのコスト. inf1.xlarge. 2,226. $0.368. $0.045. g4dn.xlarge. 1,792. $0.526. $0.082. © 2020, Amazon Web Services, Inc. or its Affiliates..

(18) AWS Inferentia 推論プロセッサとAWS Neuron SDK. © 2020, Amazon Web Services, Inc. or its Affiliates..

(19) 機械学習推論用プロセッサ：AWS Inferentia AWSによる独自設計推論プロセッサ 4 Neuronコア / チップチップ当たり最大128 TOPS (2,000 TOPS @24xlarge) 2ステージメモリハイアラーキー • 大容量オンチップキャッシュとDRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実行可能 • 高速チップ間通信. • • • •. https://aws.amazon.com/machine-learning/inferentia/. © 2020, Amazon Web Services, Inc. or its Affiliates.. Inferentia メモリ. メモリ. Neuron コア. Neuron コア. cache. cache. Neuron コア. Neuron コア. cache. cache. メモリ. メモリ.

(20) Neuronコアパイプライン - 大規模モデルを低遅延で推論 • 大規模モデルを低遅延で推論 Neuronコア間、チップ間をパイプラインモードで接続することにより、大規模モデルを各オンチップキャッシュメモリ上に展開し、高スループット、低レイテンシを実現. Neuronコアパイプライン. © 2020, Amazon Web Services, Inc. or its Affiliates..

(21) AWS Neuron Inferentia上での高性能推論を実現するためのSDK Neuron コンパイラ. 主要なフレームワークを全てサポート. Neuron ランタイムプロファイリングツール. 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)にプリインストール. AWS Neuron サポートフォーラム github.com/aws/aws-neuron-sdk © 2020, Amazon Web Services, Inc. or its Affiliates.. forums.aws.amazon.com/forum.jspa?forumID=355.

(22) AWS Neuron. コンパイル. デプロイ. プロファイル. Neuronランタイム (NRT). Neuronツール C:\>code --version 1.1.1. Neuronコンパイラ(NCC) NEFFを出力 © 2020, Amazon Web Services, Inc. or its Affiliates.. Neuronバイナリ (NEFF).

(23) AWS Neuronコンパイラ. スマートパーティショニング. FP32オートキャスティング. Neuronコアパイプライン. Neuronコアグループ. 自動的にニューラルネットワークの演算を最適化. FP32で学習済みのモデルを取り込み BF16へ自動変換. 超低遅延と高いスループットの両立. 複数のモデルを同時処理. © 2020, Amazon Web Services, Inc. or its Affiliates..

(24) Neuron コンパイラ • わずか数行のコードの変更のみで、事前学習済みモデルをInferentiaチップ向けにコンパイル可能 • 主要な３つのフレームワークに対応. © 2020, Amazon Web Services, Inc. or its Affiliates..

(25) Neuronランタイム. デプロイ. アプリケーションコンテナ. コンテナランタイム. カスタマーアプリケーション. Neuron ランタイム. フレームワーク. AWS Inferentia. © 2020, Amazon Web Services, Inc. or its Affiliates..

(26) Neuronツールでのプロファイリング. プロファイル. © 2020, Amazon Web Services, Inc. or its Affiliates..

(27) Neuron SDK リリース状況と今後のロードマップ January 30, 2021 リリース • BERTモデルでのNeuronCore Pipeline性能向上 • 対応オペレータの追加、性能改善. Github上で開発中の追加機能に関するロードマップを公開. December 23, 2020 リリース. • PyTorch 1.7に対応 • TorchServe 0.2に対応 • PyTorch版Yolo v4のチュートリアルを追加. November 17, 2020 リリース • NeuronCore Pipeline性能向上 • Neuron Tools機能向上. • Grafana dashboadによるモニタリング. October 22, 2020 リリース • Neuron KMD(Kernel mode driver)リリース • Neuronランタイムのデプロイメントを容易に. https://github.com/aws/aws-neuron-sdk/projects/2 © 2020, Amazon Web Services, Inc. or its Affiliates..

(28) Neuron SDK リリース状況と今後のロードマップ September 22, 2020 リリース • YOLO v3, v4, VGG16 正式対応 • SSD300, BERT性能向上 • Neuronモニタ機能搭載. Github上で開発中の追加機能に関するロードマップを公開. August 8, 2020 リリース • • • •. BERT性能向上 Kubernetes スケジューラ拡張 OpenPose (posenet) 正式対応 PyTorch auto-partitioner 機能搭載. June 11, 2020 リリース. • EKS のInf1対応に合わせた機能追加 • OpenPose PoseNet 限定対応. May 11, 2020 リリース. • BERTlargeスループット等で大幅な性能向上. March 26, 2020 リリース • SSD300 正式対応 © 2020, Amazon Web Services, Inc. or its Affiliates.. https://github.com/aws/aws-neuron-sdk/projects/2.

(29) Blog: Deploying TensorFlow OpenPose on Inf1 • TensorFlow版OpenPoseをInf1上にデプロイし、G4dn上での実装とのコストパフォーマンス比較を実施 • G4dnよりも良好な性能を保ちつつも画像1,000枚当たり72％低いコストを実現. https://aws.amazon.com/jp/blogs/machine-learning/deploying-tensorflow-openpose-on-aws-inferentiabased-inf1-instances-for-significant-price-performance-improvements/ © 2020, Amazon Web Services, Inc. or its Affiliates..

(30) Blog: YOLOv4 model on AWS Inferentia • TensorFlow版YOLOv4をInf1上にデプロイし、G4dn上での実装とのコストパフォーマンス比較を実施 • G4dnと比較し1.85倍のスループット、画像1M枚当たり37％低いコストを実現 • 60%低いレイテンシ、レイテンシの変動は最小限. https://aws.amazon.com/jp/blogs/machine-learning/improving-performance-for-deep-learning-basedobject-detection-with-an-aws-neuron-compiled-yolov4-model-on-aws-inferentia/ © 2020, Amazon Web Services, Inc. or its Affiliates..

(31) AWSマネージドサービスでのInf1対応 Amazon SageMaker • Inf1インスタンスを開始するための最も簡単で迅速な方法 • Amazon SageMaker は機械学習モデルをすばやく構築、トレーニング、デプロイするためのフルマネージドサービス • Inf1インスタンスとNeuronはモデルをワンクリックでデプロイできるようSageMakerに統合 Amazon EKS & ECS • Inf1はAmazon EKS及びECS上で利用可能 • Inf1インスタンス上にモデルをデプロイするのに最適なマネージドコンテナサービス © 2020, Amazon Web Services, Inc. or its Affiliates..

(32) Inf1インスタンス利用事例. © 2020, Amazon Web Services, Inc. or its Affiliates..

(33) Alexa 音声合成 Alexaは人間のような音声を生成する非常に複雑な音声合成(Text to Speech)モデルを導入し、1億台を超えるAlexaデバイスをグローバルにサポートしています。 Inf1インスタンスを使用することで、推論レイテンシを改善しながら、GPUインスタンスよりも運用コストを約65％削減することができました。 © 2020, Amazon Web Services, Inc. or its Affiliates..

(34) スポーツ分析のための人間の姿勢推定主要なスポーツフランチャイズをサポートするAWSのお客様は、AWS Inf1インスタンスで複数人のキーポイントを検出するため OpenPoseモデルをデプロイしました。将来性のあるプレーヤーを評価するための洞察力を養うのに役立てます。 Inf1インスタンスを使用すると、GPUインスタンスよりも良好な性能を保ちつつも72％の低価格を提供します © 2020, Amazon Web Services, Inc. or its Affiliates..

(35) 文章検索のための自然言語処理. 企業の法務チームや法律事務所を対象とした AIベースの文章検索サービスのSaaSプロバイダーは、彼らの大規模な深層学習モデルをコスト効率よく展開可能なEC2 Inf1インスタンス上で運用し、画期的なサービスを提供することで、現状を大きく刷新しています。. © 2020, Amazon Web Services, Inc. or its Affiliates..

(36) お客様の声. Hotpot.ai. https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials. © 2020, Amazon Web Services, Inc. or its Affiliates.. Amazon Rekognition.

(37) 国内のお客様の声 “物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定することによって洞察を提供することもできます。Ciao Camera は、AWS Inferentia ベースの Inf1 インスタンスを商業的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。" Shinji Matsumoto, Software Engineer, Ciao Inc. “PyTorchベースのテキスト要約AIアプリケーションをテストしました。このアプリケーションは、大量のテキストを処理し、過去30年間の記事でトレーニングされたヘッドラインと要約文を生成します。 Inferentiaを使用して、CPUベースのインスタンスよりもコストを1 桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと信じていた複雑なモデルを大規模に展開できるようになります。” Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company “AI アプリケーションを大規模にデプロイするために必要なパフォーマンスとコスト構造が Inferentia によって得られると確信しているため、代替オプションを介して Inf1 インスタンスを積極的に評価しています。“ Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital Media Professionals. https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials. © 2020, Amazon Web Services, Inc. or its Affiliates..

(38) Amazon サービス “アマゾンウェブサービスによる Amazon Alexa の AI と ML ベースのインテリジェンスは、現在 1 億台を超えるデバイスで利用できます。Alexa をよりスマートに、より能動的に、もっと会話ができて、さらに楽しく使用できるよう努力を惜しまないことをお約束します。これを実現するには、応答時間と機械学習インフラストラクチャのコストを継続的に改善していくことが必要です。Inf1インスタンスを使用することで、推論レイテンシを改善しながら、GPUインスタンスよりも運用コストを約65％削減することができました。 “ - Tom Taylor, Senior Vice President, Amazon Alexa. Amazon Rekognition. “Amazon Rekognition は、オブジェクト、人、テキスト、アクティビティを識別するのに役立つ、シンプルで簡単な画像および動画分析アプリケーションです。AWS Inferentia ベースの Inf1 インスタンスでは、物体分類などの Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。これらの結果に基づいて、Rekognition を Inf1 に移行し、お客様がより早く正確な結果を取得できるようにします” – Rajneesh Singh, Director, SW Engineering, Rekognition and Video. https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials. © 2020, Amazon Web Services, Inc. or its Affiliates..

(39) Inf1インスタンス利用事例 – Alexa. © 2020, Amazon Web Services, Inc. or its Affiliates..

(40) ニューラル音声合成(Text-to-Speech)のチャレンジ対話システムに求められる低遅延出力音声のストリーミングに求められる高スループットコンテキスト生成はSequence-to-Sequenceの自己回帰モデル推論処理ではメモリ帯域が性能限界. 音声生成モデルの高い時間密度には一秒間の音声処理で90GFLOPsの演算量が求められる推論処理では演算性能が性能限界. EC2 GPUインスタンスを利用することで性能要求を満たすことは可能であるが、結果的に高い運用コストとなっていた © 2020, Amazon Web Services, Inc. or its Affiliates..

(41) EC2 Inf1へのマイグレーション - 統合のしやすさ. Alexa TTS では AWS Neuronで標準でサポートされているMXNetを利用. © 2020, Amazon Web Services, Inc. or its Affiliates.. C及びPython APIに対するサポート. FP32で構築されたモデルをFP16またはBfloat16に移行する選択肢.

(42) EC2 Inf1へのマイグレーション - アーキテクチャ Inferentia1. Inferentia2. Neuron Core パイプラインで実行. NeuronCore グループで実行. Neuron Core. Neuron Core. Neuron Core. Neuron Core. Neuron Core. Neuron Core. Neuron Core. Neuron Core. cache. cache. cache. cache. cache. cache. cache. cache. TTS Process. コンテキスト生成. © 2020, Amazon Web Services, Inc. or its Affiliates.. Vocoder 1. Vocoder 2. Vocoder 3. Vocoder 4.

(43) EC2 Inf1へのマイグレーション - 短文での成果 140%. Alexaの一般的なトラフィックを与えられたレイテンシ条件下で処理するための最小コストを達成 126%. レイテンシバジェット. 120% 100%. 100%. 105%. 100% 75%. 80%. 低コスト. 60%. 55%. 40% 20% 0%. 音声生成コスト. レイテンシ P3. © 2020, Amazon Web Services, Inc. or its Affiliates.. G4. Inf1.

(44) EC2 Inf1へのマイグレーション - 長文での成果 120%. 本やニュースなど長文の処理ではより高い成果を達成. 100%. 100%. 80%. 74%. 低コスト. 60%. 45%. 40% 20% 0%. 音声生成コスト P3 © 2020, Amazon Web Services, Inc. or its Affiliates.. G4. Inf1.

(45) EC2 Inf1へのマイグレーション - さらなる性能向上 140% 120% 100%. ソフトウェアの最適化により、AlexaはInf1を最大限に活用し、より大きな利益を得ることが可能に 126% 100%. 100%. 80%. 75%. 60%. 81% 低コスト 37%. 40% 20% 0%. 音声生成コスト. レイテンシ P3. © 2020, Amazon Web Services, Inc. or its Affiliates.. G4. Inf1.

(46) まとめ. © 2020, Amazon Web Services, Inc. or its Affiliates..

(47) まとめ • AWS独自開発の推論プロセッサAWS Inferentiaにより、推論ワークロードを高スループットかつ低遅延、低価格で実行 • AWS Inferentiaを搭載したInf1インスタンスはG4インスタンスと比較し、推論処理当たり最大45%低価格を実現。クラウド上でのML推論でベストプライスパフォーマンスを提供 • Inferentia上での高性能推論を実現するためのAWS Neuron SDKを提供。定期アップデートにより性能改善、機能追加を継続実施. © 2020, Amazon Web Services, Inc. or its Affiliates..

(48) 参考情報. © 2020, Amazon Web Services, Inc. or its Affiliates..

(49) AWS Trainium. 2. コスト効率の高い学習専用のカスタムチップ. NEW. • AWSによってカスタム設計された高性能機械学習トレーニングチップ。費用効果の高いMLトレーニング機能を提供 • TFLOPSの演算性能でクラウドで利用可能な機械学習インスタンスの中で最高のパフォーマンスを提供 • AWS Inferentiaで利用されるAWS Neuron SDKを使ってモデルをコンパイル。最小限のコード変更でGPUベースのインスタンスから移行することが可能 • Tensorflow、PyTorch、MXNetなど主要MLフレームワークをサポート 2021年に利用可能予定. • AmazonEC2インスタンスおよびAmazon SageMaker、 Amazon ECS、EKS、AWS Batchなどのマネージドサービスを介して利用可能. https://aws.amazon.com/machine-learning/trainium/ © 2020, Amazon Web Services, Inc. or its Affiliates..

(50) 参考情報 AWS Inferentia 推論プロセッサ. https://aws.amazon.com/jp/machine-learning/inferentia/. Amazon EC2 Inf1 インスタンス. https://aws.amazon.com/ec2/instance-types/inf1/. AWS Neuron SDK. https://github.com/aws/aws-neuron-sdk. AWS Neuron SDK ドキュメント. https://awsdocs-neuron.readthedocs-hosted.com/. Amazon EC2 Inf1 ワークショップ（日本語） https://ec2-inf1.workshop.aws/ja/. Developer Forum. https://forums.aws.amazon.com/forum.jspa?forumID=355. © 2020, Amazon Web Services, Inc. or its Affiliates..

(51)