中間誤差データ
④
①と②、③と④はそれぞれ独立に演算可能
③
重みデータ、中間データに加えて誤差データを確保
重みを更新するための重みデータ の誤差と、誤差を前層に伝える
ための中間誤差データを計算
・2種類の誤差データ計算の独立性に着目
基本的な
中間誤差データ
1層目 2層目
3層目
重みデータ 重みデータの誤差①
②
重みデータ 重みデータの誤差
⑤
⑥
⑥
⑥
重みデータ'
重みデータ
'
重みデータ
'
Deep Learning のメモリ効率化技術
ニューラルネットの構造を解析し、より大きなメモリ領域を再利用 するように演算順序とメモリ配置をスケジューリング
方法
重みデータ > 中間データ の層(Fully-connected層など)
では、重みデータ領域を 上書きしてメモリ使用量を削減
中間データ > 重みデータ の層(Convolution層など) では、中間データ領域を 上書きしてメモリ使用量を削減
中間データ
5
認識結果
誤差
入力 データ
6
正解と比較
Forward Backward
中間データ
重みデータ
④ ③
中間誤差データ
1層目 2層目
3層目
重みデータ①
②
重みデータ 重みデータの誤差
⑤
⑥
重みデータ'
重みデータ
'
重みデータ
'
大きさを比較大きさを比較
中間誤差データ
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf
実験条件:ネットワーク名:VGG-11
学習時の メモリ使用量
学習の反復回数
評価 : メモリ効率化 Caffe
40% メモリ使用量削減
同じニューラルネット(VGGNet)
を使用し、同条件で比較<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf
精度は変わらず
実験条件:
ネットワーク名:VGG-16
ミニバッチサイズ: 64(従来版) vs. 128(Mem.削減版)
評価 : メモリ効率化 Caffe
4% 学習精度向上
削減したメモリ領域を活用してミニバッチサイズを2
倍に拡大<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf
④メモリ効率化:従来の NW 圧縮技術
GPUやDLUは行列演算を得意としており、密行列が疎行列になった事
ニューラルネットの結合係数の小さいものは0に丸め込み、疎行列化する。(接続の切断に相当)
x
1
x2
x
n
ニューロン
・・・
w
11w
12w
1nシナプス (重みデータ)
y
1
y2
w
2nw
21w
22Y1=f(X1xW11+X2xW12+X3*W13) Y2=f(X1xW21+X2xW22+X3*W23)
[𝑌1 𝑌2
] [𝑤11 𝑤12 𝑤13
𝑤21 𝑤22 𝑤23
][ 𝑥1 𝑥2 𝑥3 ]
x
1
x2
x
n
ニューロン
・・・
w
110
w
1nシナプス (重みデータ)
y
1
y2
0 0
w
22[𝑌1 𝑌2
] [𝑤11 −0.1 0.2
0.1 𝑤22 0
][ 𝑥1 𝑥2 𝑥3 ]
[
𝑤11 0 0.2
0 𝑤22 0
]ネットワーク列縮退技術 ( 高速 Pruning)
ニューラルネットの結合係数の行列を、列単位で結合の必要度合 いを評価し、列単位で圧縮する。(ニューロンの削減に相当)x
1
x2
x
n
ニューロン
・・・
w
11w
12w
1nシナプス (重みデータ)
y
1
y2
w
2nw
21w
22Y1=f(X1xW11+X2xW12+X3*W13) Y2=f(X1xW21+X2xW22+X3*W23)
[𝑌1 𝑌2
] [𝑤11 𝑤12 𝑤13
𝑤21 𝑤22 𝑤23
][ 𝑥1 𝑥2 𝑥3 ]
x
1
x2
x
n
ニューロン
・・・
w
110
シナプス (重みデータ)
y
1
y2
0 w
22[𝑌1 𝑌2
] [𝑤11 −0.1 0.2
0.1 𝑤22 0
][ 𝑥1 𝑥2 𝑥3 ] 𝑤11 −0.1
0.1 𝑤22 [ 𝑥1 𝑥2]
列単位で評価 w
12w
21ネットワーク列縮退技術により、行列のサイズを小さくする事で、
演算数自体を削減でき高速化。更にメモリ削減も実現
⑤メモリ効率化:処理に応じた精度技術
人の脳に近い認識を行うには膨大なパラメータが必要DNN パラメータ数
LeNet 7M
AlexNet 80M
VGG-16 140M
RezNet 58M
人の脳 150,000M
パラメータ数 人の脳
LeNet 数字認識
AlexNet 画像認識
VGG 画像認識
ResNet 画像認識
パラメータの学習には多くの計算リソースを必要とする 電力効率に優れた低消費電力なDL学習プロセッサが必要
処理に応じた精度技術
整数演算を基に、 DL
の学習プロセスに特化してビット幅を削減した独自の数値表現
ネットワークの層ごとに小数点位置を自動的に最適化する演算アルゴリズムを導入することで、演算器のビット幅や学習結果を記録するメモリ のビット幅を削減して電力効率を向上させる回路技術を開発
統計情報を用いた小数点位置の最適化
演算コアによる演算精度の向上
⑥ディープラーニング向けプロセッサ: DLU
Deep Learning
用独自アーキテクチャ
徹底した省電力設計→
目標:他社比約10
倍の電力あたり性能
大規模並列:スパコンのインタコネクト技術適用DLU の特徴
スパコン「京」の開発技術を投入