⑥重みデータ '

中間誤差データ

④

①と②、③と④はそれぞれ独立に演算可能

③

重みデータ、中間データに加えて

誤差データを確保

重みを更新するための重みデータの誤差と、誤差を前層に伝える

ための中間誤差データを計算

・2種類の誤差データ計算の独立性に着目

基本的な

中間誤差データ

1層目 2層目

3層目

重みデータ重みデータの誤差

①

②

重みデータ重みデータの誤差

⑤

⑥

重みデータ

'

重みデータ

'

重みデータ

'

Deep Learning のメモリ効率化技術

ニューラルネットの構造を解析し、より大きなメモリ領域を再利用するように演算順序とメモリ配置をスケジューリング

方法

重みデータ > 中間データの層(Fully-connected層など)

では、重みデータ領域を上書きしてメモリ使用量を削減

中間データ > 重みデータの層(Convolution層など) では、中間データ領域を上書きしてメモリ使用量を削減

中間データ

認識結果

誤差

入力データ

6

_正解と

比較

Forward Backward

中間データ

重みデータ

④ ③

中間誤差データ

1層目 2層目

3層目

重みデータ

①

②

重みデータ重みデータの誤差

⑤

⑥

重みデータ

'

重みデータ

'

重みデータ

'

大きさを比較

中間誤差データ

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

実験条件：ネットワーク名：VGG-11

学習時のメモリ使用量

学習の反復回数

評価 : メモリ効率化 Caffe

40% メモリ使用量削減



同じニューラルネット

(VGGNet)

を使用し、同条件で比較

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

精度は変わらず

実験条件：

ネットワーク名：VGG-16

ミニバッチサイズ： 64(従来版) vs. 128(Mem.削減版)

評価 : メモリ効率化 Caffe

4% 学習精度向上



削減したメモリ領域を活用してミニバッチサイズを

2

倍に拡大

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

④メモリ効率化：従来の NW 圧縮技術

GPUやDLUは行列演算を得意としており、密行列が疎行列になった事



ニューラルネットの結合係数の小さいものは0に丸め込み、

疎行列化する。(接続の切断に相当)

₁

₂

_n

ニューロン

・・・

w

_1n

シナプス (重みデータ)

₁

₂

w

_2n

w

Y1=f(X1xW11+X2xW12+X3*W13) Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1 𝑌2

] [

𝑤11 𝑤12 𝑤13

𝑤21 𝑤22 𝑤23

]

[ 𝑥1 𝑥2 𝑥3 ]

₁

₂

_n

ニューロン

・・・

w

₁₁

0 w

シナプス (重みデータ)

₁

₂

0 0

w

₂₂

[𝑌1 𝑌2

] [

𝑤11 −0.1 0.2

0.1 𝑤22 0

]

[ 𝑥1 𝑥2 𝑥3 ]

[

𝑤11 0 0.2

0 𝑤22 0

]

ネットワーク列縮退技術 ( 高速 Pruning)



ニューラルネットの結合係数の行列を、列単位で結合の必要度合いを評価し、列単位で圧縮する。(ニューロンの削減に相当)

₁

₂

_n

ニューロン

・・・

w

_1n

シナプス (重みデータ)

₁

₂

w

_2n

w

Y1=f(X1xW11+X2xW12+X3*W13) Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1 𝑌2

] [

𝑤11 𝑤12 𝑤13

𝑤21 𝑤22 𝑤23

]

[ 𝑥1 𝑥2 𝑥3 ]

₁

₂

_n

ニューロン

・・・

w

₁₁

0

シナプス (重みデータ)

₁

₂

0 w

₂₂

[𝑌1 𝑌2

] [

𝑤11 −0.1 0.2

0.1 𝑤22 0

]

[ 𝑥1 𝑥2 𝑥3 ] 𝑤11 −0.1

0.1 𝑤22 [ 𝑥1 𝑥2]

列単位で評価 w

w

ネットワーク列縮退技術により、行列のサイズを小さくする事で、

演算数自体を削減でき高速化。更にメモリ削減も実現

⑤メモリ効率化：処理に応じた精度技術



人の脳に近い認識を行うには膨大なパラメータが必要

DNN パラメータ数

LeNet 7M

AlexNet 80M

VGG-16 140M

RezNet 58M

人の脳 150,000M

パラメータ数 人の脳

LeNet 数字認識

AlexNet 画像認識

VGG 画像認識

ResNet 画像認識

パラメータの学習には多くの計算リソースを必要とする 電力効率に優れた低消費電力なDL学習プロセッサが必要

処理に応じた精度技術



整数演算を基に、

 DL

の学習プロセスに特化してビット幅を削減した独自の数値表現



ネットワークの層ごとに小数点位置を自動的に最適化する演算アルゴリズム

を導入することで、演算器のビット幅や学習結果を記録するメモリのビット幅を削減して電力効率を向上させる回路技術を開発

④

③

基本的な

1層目 2層目

3層目

①

②

⑤

⑥

⑥

⑥

'

'

'

Deep Learning のメモリ効率化技術

方法

誤差

入力 データ

6

Forward Backward

④ ③

1層目 2層目

3層目

①

②

⑤

⑥

'

'

'

評価 : メモリ効率化 Caffe

40% メモリ使用量削減



(VGGNet)

精度は変わらず

評価 : メモリ効率化 Caffe

4% 学習精度向上



2

④メモリ効率化：従来の NW 圧縮技術



1

2

n

・・・

w

w

w

1

2

w

w

w

[𝑌1 𝑌2

𝑤11 𝑤12 𝑤13

𝑤21 𝑤22 𝑤23

[ 𝑥1 𝑥2 𝑥3 ]

1

2

n

・・・

w

0

w

1

2

0 0

w

[𝑌1 𝑌2

𝑤11 −0.1 0.2

0.1 𝑤22 0

[ 𝑥1 𝑥2 𝑥3 ]

𝑤11 0 0.2

0 𝑤22 0

ネットワーク列縮退技術 ( 高速 Pruning)



1

2

n

入力データ

₁

₂

_n

₁

₂

₁

₂

_n

₁

₂

₁

₂

_n

₁

₂

₁

₂

_n

₁

₂