• 検索結果がありません。

深層学習フレームワークにおけるCPUとGPUの性能解析および最適化

N/A
N/A
Protected

Academic year: 2021

シェア "深層学習フレームワークにおけるCPUとGPUの性能解析および最適化"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会論文誌. プログラミング. Vol.11 No.2 29 (June 2018). 発表概要. 深層学習フレームワークにおける CPU と GPU の性能解析および最適化 口 兼一1,a). 田浦 健次朗1. 2018年1月15日発表. 今日では深層ニューラルネットワーク技術が AI 分野に大きく貢献している.その学習プロセスは非常に 時間がかかるため,計算環境に合わせた最適化が必要である.この発表では計算環境として CPU と GPU を考え両者間の深層学習性能を比較する.広く使われている大半の深層学習フレームワークでは GPU 用 の最適化は十分に行われているが,CPU 用の最適化は積極的に行われていない.そのようなフレームワー クの 1 つである Chainer も同様であり,内部の関数は CPU 向けには十分に最適化されていないといえる. たとえば GPU 上で走るほぼすべての関数は cuDNN や CuPy といった深層学習に特化したライブラリを 用いて高速化されているが,CPU 上で走る部分は NumPy でしか高速化されていない.NumPy は汎用的 な科学計算ライブラリであるために,深層学習のような特殊な用途では十分に CPU を活用できていると はいえず,元の Chainer を使った性能比較では CPU と GPU 間のプロセッサレベルの差を反映できない. そこで正確な性能差を得るために,CPU 上で走る関数内の NumPy で記述された部分を C 言語で書き換え て OpenMP と Intel MKL で高速化を行った.その結果として得られる計測結果を用いて,CPU と GPU の深層学習における性能差とその特性を詳細に示す.. Performance Analysis and Optimization of CPU and GPU in Deep Learning Framework Tomokazu Higuchi1,a). Kenjiro Taura1. Presented: January 15, 2018. Nowadays, deep neural network technology has made a significant contribution to AI field. Its learning process is very time-consuming and needs to be optimized for a computing environment. In this work, we will show a compare of deep learning performance between CPUs and GPUs. Major deep learning frameworks are fully optimized for GPU, but not for CPU. Specifically, Chainer, a widely-used deep learning framework, does not use CPU-specialized kernels for deep learning. Almost all kernels performing well on GPU are optimized with cuDNN and CuPy, libraries specialized for deep learning. In contrast to that, kernels running on CPU are optimized only with NumPy. NumPy, general scientific computing library, is difficult to get high performance in deep learning. So the performance comparison between CPUs and GPUs with the original Chainer implementation does not reflect the performance difference of the processors. To deal with this problem, we rewrite existing kernels running on CPU with C language and optimize them with OpenMP and Intel MKL. We analyze the performance with detailed profiling and discuss characteristics of performance.. 1. a). 東京大学工学部電子情報工学科 Department of Information and Communication Engineering, The University of Tokyo, Bunkyo, Tokyo 113–8656, Japan [email protected]. c 2018 Information Processing Society of Japan . 29.

(2)

参照

関連したドキュメント

Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization I: A generic algorithmic framework.. SIAM Journal on Optimization,

Dual averaging and proximal gradient descent for online alternating direction multiplier method. Stochastic dual coordinate ascent with alternating direction method

および皮膚性状の変化がみられる患者においては,コ.. 動性クリーゼ補助診断に利用できると述べている。本 症 例 に お け る ChE/Alb 比 は 入 院 時 に 2.4 と 低 値

はじめに 中小造船所では、少子高齢化や熟練技術者・技能者の退職の影響等により、人材不足が

小学校学習指導要領総則第1の3において、「学校における体育・健康に関する指導は、児

一般法理学の分野ほどイングランドの学問的貢献がわずか

 今日のセミナーは、人生の最終ステージまで芸術の力 でイキイキと生き抜くことができる社会をどのようにつ

 講義後の時点において、性感染症に対する知識をもっと早く習得しておきたかったと思うか、その場