• 検索結果がありません。

⑥重みデータ '

ドキュメント内 Fujitsu Standard Tool (ページ 34-44)

中間誤差データ

①と②、③と④はそれぞれ独立に演算可能

重みデータ、中間データに加えて

誤差データを確保

重みを更新するための重みデータ の誤差と、誤差を前層に伝える

ための中間誤差データを計算

・2種類の誤差データ計算の独立性に着目

基本的な

中間誤差データ

1層目 2層目

3層目

重みデータ 重みデータの誤差

重みデータ 重みデータの誤差

重みデータ

'

重みデータ

'

重みデータ

'

Deep Learning のメモリ効率化技術

ニューラルネットの構造を解析し、より大きなメモリ領域を再利用 するように演算順序とメモリ配置をスケジューリング

方法

重みデータ > 中間データ の層(Fully-connected層など)

では、重みデータ領域を 上書きしてメモリ使用量を削減

中間データ > 重みデータ の層(Convolution層など) では、中間データ領域を 上書きしてメモリ使用量を削減

中間データ

5

認識結果

誤差

入力 データ

6

正解と

比較

Forward Backward

中間データ

重みデータ

④ ③

中間誤差データ

1層目 2層目

3層目

重みデータ

重みデータ 重みデータの誤差

重みデータ

'

重みデータ

'

重みデータ

'

大きさを比較

大きさを比較

中間誤差データ

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

実験条件:ネットワーク名:VGG-11

学習時の メモリ使用量

学習の反復回数

評価 : メモリ効率化 Caffe

40% メモリ使用量削減

同じニューラルネット

(VGGNet)

を使用し、同条件で比較

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

精度は変わらず

実験条件:

ネットワーク名:VGG-16

ミニバッチサイズ: 64(従来版) vs. 128(Mem.削減版)

評価 : メモリ効率化 Caffe

4% 学習精度向上

削減したメモリ領域を活用してミニバッチサイズを

2

倍に拡大

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

④メモリ効率化:従来の NW 圧縮技術

GPUやDLUは行列演算を得意としており、密行列が疎行列になった事

ニューラルネットの結合係数の小さいものは0に丸め込み、

疎行列化する。(接続の切断に相当)

x

1

x

2

x

n

ニューロン

・・・

w

11

w

12

w

1n

シナプス (重みデータ)

y

1

y

2

w

2n

w

21

w

22

Y1=f(X1xW11+X2xW12+X3*W13) Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1 𝑌2

] [

𝑤11 𝑤12 𝑤13

𝑤21 𝑤22 𝑤23

]

[ 𝑥1 𝑥2 𝑥3 ]

x

1

x

2

x

n

ニューロン

・・・

w

11

0

w

1n

シナプス (重みデータ)

y

1

y

2

0 0

w

22

[𝑌1 𝑌2

] [

𝑤11 −0.1 0.2

0.1 𝑤22 0

]

[ 𝑥1 𝑥2 𝑥3 ]

[

𝑤11 0 0.2

0 𝑤22 0

]

ネットワーク列縮退技術 ( 高速 Pruning)

ニューラルネットの結合係数の行列を、列単位で結合の必要度合 いを評価し、列単位で圧縮する。(ニューロンの削減に相当)

x

1

x

2

x

n

ニューロン

・・・

w

11

w

12

w

1n

シナプス (重みデータ)

y

1

y

2

w

2n

w

21

w

22

Y1=f(X1xW11+X2xW12+X3*W13) Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1 𝑌2

] [

𝑤11 𝑤12 𝑤13

𝑤21 𝑤22 𝑤23

]

[ 𝑥1 𝑥2 𝑥3 ]

x

1

x

2

x

n

ニューロン

・・・

w

11

0

シナプス (重みデータ)

y

1

y

2

0 w

22

[𝑌1 𝑌2

] [

𝑤11 −0.1 0.2

0.1 𝑤22 0

]

[ 𝑥1 𝑥2 𝑥3 ] 𝑤11 −0.1

0.1 𝑤22 [ 𝑥1 𝑥2]

列単位で評価 w

12

w

21

ネットワーク列縮退技術により、行列のサイズを小さくする事で、

演算数自体を削減でき高速化。更にメモリ削減も実現

⑤メモリ効率化:処理に応じた精度技術

人の脳に近い認識を行うには膨大なパラメータが必要

DNN パラメータ数

LeNet 7M

AlexNet 80M

VGG-16 140M

RezNet 58M

人の脳 150,000M

パラメータ数 人の脳

LeNet 数字認識

AlexNet 画像認識

VGG 画像認識

ResNet 画像認識

パラメータの学習には多くの計算リソースを必要とする 電力効率に優れた低消費電力なDL学習プロセッサが必要

処理に応じた精度技術

整数演算を基に、

 DL

の学習プロセスに特化してビット幅を削減した独自の数値表現

ネットワークの層ごとに小数点位置を自動的に最適化する演算アルゴリズム

を導入することで、演算器のビット幅や学習結果を記録するメモリ のビット幅を削減して電力効率を向上させる回路技術を開発

統計情報を用いた小数点位置の最適化

演算コアによる演算精度の向上

⑥ディープラーニング向けプロセッサ: DLU

 Deep Learning

用独自アーキテクチャ

徹底した省電力設計

目標:他社比約

10

倍の電力あたり性能

大規模並列:スパコンのインタコネクト技術適用

DLU の特徴

スパコン「京」の開発技術を投入

DLU

(Deep Learning Unit)

ドキュメント内 Fujitsu Standard Tool (ページ 34-44)

関連したドキュメント