省メモリ推論のための深層ニューラルネットワークの圧縮手法

(1)

人工知能学会研究会資料 SIG-AGI-013-04

省メモリ推論のための深層ニューラルネットワークの圧縮手法

A Compression Method for Memory Saving Inference with

Deep Neural Networks

岩﨑博生

∗

_伊野文彦

Hiroki Iwasaki

Fumihiko Ino

大阪大学大学院情報科学研究科

Graduate School of Information Science and Technology, Osaka University

Abstract: 本論文では，推論モデルにおけるメモリ使用量の削減を目的として，深層ニューラルネットワークに対する圧縮手法を提案する．提案手法は，ネットワークを構成するユニットを統合 するために，非構造的枝刈りをもとに，重み行列に対して k 平均クラスタリングを適用し，各行を k 個のクラスタに分類する．さらに，各クラスタに属する行を，クラスタの中心，すなわちクラスタ に属する行の平均値に置換する．置換結果に基づいて，ネットワークのユニットを統合することで， 重み行列の列数および行数をそれぞれ k 個に削減し，メモリ使用量を削減する．k を変えながら提案 手法を AlexNet に適用したところ，適用前の予測精度からの精度低下をたかだか 1%程度に抑えながら，全結合層のメモリ使用量を最大で 41.7%削減できた．また，同一メモリ使用量削減率における提案手法と非構造的枝刈りの予測精度を比較したところ，提案手法の予測精度が非構造的枝刈りの精度よりも最大で 14.5%高いという結果を得た．同様に，同一予測精度における提案手法と非構造的枝刈りのメモリ使用量削減率を比較したところ，提案手法のメモリ使用量削減率が非構造的枝刈りの削減率よりも最大で約 36%大きいという結果を得た．

1 はじめに

画像認識の正確さを競う大会 ImageNet Large Scale Visual Recognition Challenge（ILSVRC）[1] において，1000 クラス分類問題で最も高い分類精度を達成した AlexNet[2] の提案以来，深層ニューラルネットワーク（DNN）は画像認識や音声認識，自然言語処理などの様々な応用に用いられている．DNN の特徴は層の深さにある．その深さが原因で，AlexNet，ResNet-50[3]， GoogLeNet[4] などの DNN は，それぞれ約 60M，25M， 13M 個のパラメータを持つ．大量のパラメータは数十 MB から数百 MB の記憶領域を必要とするだけでなく，推論時の計算量も増大させる．一方，組み込みシステムやモバイル端末のメモリ容量は数百 KB から数 MB に留まっていて，メモリの枯渇が DNN による推論処理を妨げている．そこで，DNN の予測精度を低下させることなく，推論のためのメモリ使用量や計算量を削減する手法が盛んに研究されている． ∗_{大阪大学大学院情報科学研究科} 〒 565-0871 大阪府吹田市山田丘 1-5 E-mail : [email protected] 削減手法の一つとして枝刈りが挙げられる [5, 6]．枝刈り手法は，学習済み DNN の隣接層のユニット間の結合について，重要度の低い結合が持つ重みの値を 0 とみなす．重みの値が 0 の場合，推論時における積和計算の一部を省略でき，推論計算量を削減できる．また，枝刈り後，重みを保持する重み行列が疎となり，メモリ使用量を削減できる．枝刈り後の疎行列の持つ規則性にしたがって，枝刈り手法は 2 種類に分類できる．不規則にゼロ要素を出現させるものを非構造的枝刈り [5] と呼び，規則的に出現させるものを構造的枝刈り [6] と呼ぶ．全結合層を構造的に枝刈りする場合，枝刈り後の重み行列は列状のゼロ要素を持つ．つまり，0 を常に出力するユニットが生成される．そのようなユニットは最終的な推論結果に影響を与えない．したがって，0 を常に出力するユニットを除去し，疎な重み行列をサイズの小さな密行列に圧縮できる．一方，非構造的枝刈りは必ずしも列状のゼロ要素を出現させない．したがって，密行列による圧縮はできない．そこで，疎行列を保持するためには，Compressed Sparse Row/Compressed Sparse Column（CSR/CSC）

(2)

形式のように，非ゼロ要素に加えてそのインデックス が必要である．m を非ゼロ要素数，n を行数もしくは 列数とすれば，CSR/CSC 形式は 2m+n+1 個のデータ で疎行列を保持できる．これらのうち，およそ半分程度をインデックスが占めていて [7]，メモリ使用量の削減が求められている．そこで本研究では，非構造的枝刈り適用後の DNN について，疎な重み行列のメモリ使用量を削減する手法を提案する．提案手法は，DNN の予測精度の低下を抑えるために，最終的な推論計算の結果を近似する．また，疎行列のメモリ使用量を削減するために，記憶する 必要のあるデータの個数が 2m+n+1 であることから， n（疎行列の列数）を小さくする，すなわち DNN の該 当する層のユニット数を削減する．推論計算におけるある層の出力行列と次の層の重み行列を掛ける計算において，重み行列に同一行が存在する場合，積和計算における重みの値が共通であるために，出力を足し合わせてから重みを掛けても推論計算結果は変わらない．すなわち，推論計算結果に影響を与えずに，出力行列の層のいくつかのユニットを一つに統合することができる．提案手法では，ユニット数を削減するためにこの点に着目した．しかし，実際は重み行列中に同一行が存在する可能性は低いため，同一行を生成する必要がある．そこで提案手法では，重 み行列に対して k 平均法を適用し，k 個のクラスタに 分類し，各クラスタに属する行をそのクラスタの中央値で置き換えてを同一行を生成した．置換結果に基づいてユニット数を削減し，疎行列のメモリ使用量削減に貢献している．

2

3 提案手法

本研究では，2 章で述べた非構造的枝刈りの問題点のうち，重み行列中の非ゼロ要素のインデックスを記憶する必要があるという点に着目した．文献 [9] は，非構造的枝刈りを適用した AlexNet について，ネットワーク全体のメモリ使用量の約 51.4%をインデックスデータが占めていることを報告している．そこで，本研究では，非構造的枝刈りによって生成される疎行列に関して，インデックスデータの個数を減らすことで，疎行列のメモリ使用量，およびネットワーク全体のメモリ使用量を削減する手法を提案する．

3.1 アイデア

疎行列におけるインデックスデータの個数を削減するためのアイデアとして，疎行列の列数を削減することを考える．疎行列は一般的に CSR/CSC 形式で保持 され，非ゼロ要素数を m，行列の列数を n とすると， 記憶する必要のあるデータの個数は全部で 2m + n + 1 個である．このうち，m 個は非ゼロ要素であるため， 残りの m + n + 1 個がインデックスデータである．し たがって，疎行列の列数 n を削減することができれば， 記憶すべきインデックスデータの個数が減少し，メモリ使用量の削減につながる．また，列数を削減した結果，重み行列のサイズが小さくなり，非ゼロ要素の個 数 m の減少も期待できる． また，本論文では，単純化のために，提案手法の適用対象を全結合層として手法を説明する．実験も同様に，全結合層に対してのみ提案手法を適用した．畳み込み層に対する提案手法適用可能性の考察，および実験は今後の課題とする．全結合層の重み行列における各列は，一つのユニットが持つ重みに相当する．したがって，全結合層の重み行列の列数を削減することは，ユニット数を削減することと等しい．したがって，全結合層のユニット数を削減することを考える．

3.2 ユニット数を削減可能な状況

DNN の第 l 層における活性化関数を fl，重み行列を Wlとする．以下の 2 つの前提をおく． 前提 1 flが線形関数である 前提 2 第 l + 1 層の任意のユニットに対する重みが同一 であるような第 l 層のユニットの組が 1 つ以上存 在する（Wl+1において同一行の組が 1 つ以上存在する） これらの前提を満たすとき，前提 2 における第 l 層 のユニットの組に関して，DNN の推論計算結果（出力層の各ユニットの出力値）を変えることなく，各組に属するユニットを 1 つのユニットに統合できる．すなわち，ユニット数を削減できる．本論文では，推論計算結果を変えずにユニットを統合できることの証明は割愛する．以降では，上記の前提が成立していると仮定して，どのようにして DNN の出力値を変えずにユニットが統合されるのか，図 1 に示した具体的なネットワークの例を用いて説明する．図 1 のネットワーク の第 l 層と第 l + 1 層の重み行列 Wl，Wl+1は図 2 の

(4)

図 1: ユニット統合可能なネットワークの例図 2: 図 1 のネットワークにおける重み行列ようになっている．ここでは，説明の単純化のために，各ユニットが持つバイアスは推論計算に含めない． 図 1 のネットワークでは，第 l 層のユニット ul 1と ul3 は，第 l + 1 層の任意のユニットに対する重みが等しい． ここで，第 l + 1 層のユニット ul+1 1 の出力値を o l+1 1 ， 活性化関数を fl+1とすると，ol+11 は， ol+1₁ = fl+1(ol₁∗ 0.1 + ol₂∗ 0.4 + ol₃∗ 0.1) = fl+1((ol1+ ol3)∗ 0.1 + ol2∗ 0.4) (1) 上式のように，ol 1，ol2，ol3とユニット u l+1 1 が持つ重 みの内積を活性化関数 fl+1に入力して求めることがで きる．ここで，ol 1と ol3の乗数がどちらも 0.1 であるこ とから，ol 1と o l 3の項を含む 2 つの掛け算は，共通の重みである 0.1 でくくることで，1 つの掛け算の処理に変 換することができる（式（1））．すなわち，ol 1と ol3を 出力する 2 つのユニット ul 1と ul3の代わりに，ol1+ ol3 を出力するような 1 つのユニットを用いても ol+1 1 の値は変わらない． ol 1+ ol3を出力するようなユニットを ul13として，ul13 の生成方法を説明する．ol 1と ol3は，第 l−1 層のユニッ トの出力とそれぞれのユニットが持つ重みの内積を fl に入力した結果であるので， ol1+ ol3 = fl(o l₋₁ 1 ∗ w11+ ol2−1∗ w21+ ol3−1∗ w31) + fl(ol1−1∗ w13+ o2l−1∗ w23+ ol3−1∗ w33)(2) ここで，前提 1 より flは線形関数であるため，線形関数の性質を持つ．つまり，加法性が成立する．加法 性とは，任意の x，y に対して f (x + y) = f (x) + f (y) が成り立つという性質である．したがって，式（2）において，先にそれぞれの関数の入力値を足し合わせてから活性化関数を通しても計算結果は変わらないので，式（3）のように変形できる． ol₁+ ol₃ = fl(ol₁−1∗ (w11+ w13) + ol2−1∗ (w21+ w23) +ol₃−1∗ (w31+ w33)) (3) よって，ユニット ul 13が ol1+ ol3を出力するために は，ul 13が w11+ w13，w21+ w23，w31+ w33の重みを持つ必要があることがわかる．式（2）から式（3）の 変形において，第 l− 1 層の出力と重みの掛け算につい て，第 l− 1 層の出力の部分が共通の項同士を一つの掛 け算にまとめている．よって，前述の 3 つの重みはそ れぞれ，第 l− 1 層の各ユニットにおける，ul 1と ul3に対する重みを足し合わせたものと等しい． 第 l− 1 層の i 番目のユニットにおける，第 l 層の j 番目のユニットに対する重みは，Wlの i 行 j 列の要素 に相当する．したがって，ul 13が持つ 3 つの重みは，Wl において，各行の 1 列目と 3 列目の要素を足し合わせることで求めることができる．（図 3 参照）． また，ul 1と ul3が ul13に統合されることから，ユニッ ト数が減少するため，Wlの列数を調整する必要がある．図 3 のように，1 列目と 3 列目を足し合わせた結 果（ul 13の重み）を 1 列目に代入した場合，3 列目（ul3 の重み）は不要であるため削除する．さらに，第 l 層の ユニット数が減少するため，Wl+1の行数も調整する必 要がある．ユニット統合によって，ul 3が削除された． したがって，ul 3における，第 l + 1 層の各ユニットに 対する重みを削除すればよい．すなわち，Wl+1の 3 行目を削除する．このように，上記の前提が成り立つとき，DNN の推論結果を変えずにユニットを統合できる．ユニット統合により，重み行列の列数を削減でき，疎行列のインデックスデータの個数削減につながる．

(5)

図 3: ユニット統合に伴う Wl，Wl+1の変形

3.3 提案手法におけるユニット数削減

3.3.1 活性化関数の変更推論計算結果を変えずにユニットを統合するために は，前提 1 に示すように，flが線形関数でなければならない．しかし，既存の DNN は活性化関数として，単調増加する非線形関数がよく用いられる．具体的には，シグモイド関数や正規化線形関数などである．非線形関数の場合，必ずしも加法性が成立するとは限らない． 仮に，flが非線形関数の状態で，式（2）から式（3）への 変形をし，式（3）に基づいて u13の重みを決定してし まうと，ネットワークに入力する画像によっては，u13 の出力が o1+ o3とは異なる値となってしまうことがある．したがって，ユニット統合前後で推論計算結果が変わるため，ネットワークの予測精度の低下を引き起こす可能性が高い． したがって提案手法では，第 l 層の活性化関数を線形 関数に変更した後，ユニットを統合する．線形関数と して恒等関数を用いる．すなわち，線形関数を y = ax （a は実数）として，a = 1 を採用する．a ≠ 1 の場合 は，後述する再学習において，順伝播計算時に，前の 層の出力と重みの内積に対して a を掛けるという無駄 な計算が発する．a = 1 の場合は，内積に対して 1 を 掛けても結果は変わらないので，a を掛ける計算を省 略できる．しかし，活性化関数の変更に伴って，ネットワークの予測精度が低下するという問題が発生する．これは，関数の変更によって出力層の各ユニットの出力値が変わるためである．提案手法は，ユニット統合前の推論計算結果を変えずにユニットを統合するという手法である．よって，関数を変更して予測精度が低い状態のネットワークに対して，推論計算結果を変えずにユニット統合することになり，統合後のネットワークの予測精度が低くなるという問題が発生する．よって，提案手法では，非構造的枝刈り適用済みのネットワークに 対して，第 l 層の活性化関数を恒等関数に変更した状 態で，ネットワークの再学習を行う．これにより，活性化関数として恒等関数を用いている状態で予測精度の高いネットワークを生成することを図る． 3.3.2 クラスタリングによる重み行列の行置換前提 2 は，実際の学習済み DNN における重み行列において成立する可能性は低い．大規模な DNN の一つである AlexNet は，1 つ目と 2 つ目の全結合層の重み行列のサイズがそれぞれ，6400*4096，4096*4096 であるように，重み行列の列数が数千に及ぶ．数千列にわたって各列の成分が等しいような行の組み合わせが 1 つ以上存在することは考えにくい．よって，前提 2 を 満たすために，Wl+1において意図的に同一行を生成す る必要がある．しかし，ランダムに Wl+1のいくつかの行を選択してそれらの行の要素を変更し共通化しても，ユニット統合前後で推論計算結果が全く異なり，予測精度の大幅な低下が予想される．よって，予測精度の低下を小さく抑えるための工夫として，重み行列の各行をサンプルとしてクラスタリングを適用する．クラスタリングの結果，各クラスタに属している行同士を類似行とみなし，それらの行を共通化して同一行を生成する．提案手法では，クラスタリングアルゴリズムとして k 平均法を用いる．Wl+1の各行を入力として k 平均法 を適用し，k 個のクラスタに分類する．各クラスタの 中心値はクラスタに属する行の平均を取る．クラスタリング終了後，各クラスタに属している行を，クラス タの中心値で置換することで，Wl+1において同一行を生成させる．

3.4 提案手法の流れ

提案手法の流れを以下に示す．手法の入力は，非構造的枝刈り適用済みの DNN である．また，非構造的 枝刈り適用によって，第 l 層の重み行列が疎行列となっ ていることを前提とする． 1. 活性化関数を恒等関数に変更し再学習 2. Wl+1の各行に対して k 平均法を適用し，各行を k 個のクラスタに分類 3. 分類結果に基づき，第 l 層のユニットを統合（統 合後のユニットの重み計算，Wlと Wl+1の変形） 4. ネットワークの再学習

(6)

4 実験

非構造的枝刈りを適用したネットワークに対して，提案手法を適用する．具体的には，クラスタリングアル ゴリズムにおけるクラスタの個数 k を変えながら提案 手法を適用する．各 k における，ネットワークのメモ リ使用量や予測精度を評価する．

4.1 実験準備

提案手法は非構造的枝刈り適用済みの DNN を入力とする．そのため，提案手法を適用しメモリ使用量や予測精度を評価する実験の準備として，非構造的枝刈りを適用したネットワークを用意する必要がある．また，非構造的枝刈りを適用するために，枝刈りを適用していない学習済みのオリジナルネットワークも用意する必要がある． 4.1.1 オリジナルネットワークの学習本実験では，ネットワークとして AlexNet を用いる． AlexNet は，Krizhevsky ら [2] によって提案された畳み込みニューラルネットワークで，画像認識の認識精度を競う大会である ILSVRC において，2012 年に優勝したネットワークである．AlexNet は，5 つの畳み込み層の後に 3 つの全結合層が続く構造となっている．[2] では，AlexNet を ILSVRC2012 データセットを用いて学習し，1000 クラス分類の分類精度を評価しており， Top-1 accuracy と Top-5 acuuracy でそれぞれ 59.3%と 81.8%を達成している．本実験では，[2] で述べられている学習方法を一部変更して AlexNet を学習させた．データセットは，ILSVRC 2012 データセットを用いた．[2] に述べられている学習方法通りに学習を行うと，前述と同程度の認識精度を再現できなかったため，精度の向上を目的として学習方法の一部変更を行った．変更内容は，AlexNet Caffe model[16] の学習方法に基づいた．AlexNet Caffe Model は，深層学習フレームワークである Caffe を用いて学習された AlexNet であり，学習済みネットワークや学習プログラム，学習方法などが GitHub で公開されている．[16] で公開されている学習方法に基づき， [2] で重みの初期値として 1 が設定されている重み行列について，初期値を 0.1 に変更した．また，入力画像のバッチサイズを 128 から 256 に変更した．これらの変更点以外は，Krizhevsky ら [2] の学習方法に準拠している．128 万枚の学習データを用いて，ネットワークを 90 エポック学習させた．学習環境を表 1 に示す．以降の実験環境は全て表 1 に示す通りである．表 1: 実験環境項目仕様 OS CentOS 7.7.1908

GPU NVIDIA GeForce GTX 1080 GPU メモリ 8GB フレームワーク tensorflow-gpu 1.13.1 CUDA 10.0 cuDNN 7.4.2 学習させた AlexNet に対して，5 万枚の評価データを用いて予測精度を評価した．入力画像を 1000 クラスに分類するタスクにおける，Top-1 と Top-5 の精度を評価した結果，58.71%と 81.38%を達成した． 4.1.2 非構造的枝刈りの適用 4.1.1 節で学習した AlexNet の全結合層に対して非構造的枝刈りを適用する．本実験では，非構造的枝刈り手法として，Han らよって提案されている手法 [5] を用いる．既存手法 [5] は，学習済みネットワークに対して，重みの絶対値が閾値以下である結合の重みを 0 に し，再学習を行うという手法である．閾値は a∗ σ と している．ここで，a はネットワークの各層の枝刈り に対する sensitivity，すなわち各層を枝刈りした際にネットワークの予測精度がどのように変化するかを解析した結果に基づいて決まるパラメータであり，σ は各層の重み行列の標準偏差である．既存手法 [5] は，解 析結果に基づいてどのように a を決定するのかについ て言及していないため，計算によって a を求めること ができない．したがって本実験では，a の値を様々に 設定しながら実験を行った．また，a は AlexNet の 3 つの全結合層において全て等しい値を設定した．これは，既存手法 [5] において，AlexNet の各層に対してスパース率（枝刈りによって 0 となる重みの割合）を変化させながら枝刈りを適用したときの予測精度の推移を示すグラフについて，3 つの全結合層のグラフの形状がほぼ一致していたことに基づく設定である． 本実験では，a の値として，0.7, 0.8, 0.9, 1.0, 1.2, 1.3, 1.5, 1.7, 2.0, 2.4, 2.8, 3.2, 3.6, 4.0, 4.4, 5.0 の 16 種類 の値を設定した．a の間隔が不均等である理由は，様々 なスパース率のモデルを生成するためである．a の値 の大小によって，a の増加に対する全結合層全体のス パース率の増加量が異なる．よって，a の値を 0.1 ず つ増加させながら各 a について全結合層全体のスパー ス率を調査し，満遍なく様々なスパース率のモデルを 生成できるように，実験で用いる a の値を手動で設定 した． 設定した a の値に基づいて層ごとに閾値を求め，学 習済み AlexNet の各全結合層に対して絶対値が閾値以

(7)

図 4: 様々なスパース率で非構造的枝刈りを適用したときの予測精度の変化下の重みの値を 0 にする．閾値以下の重みを持つ結合を記憶し，それらを絶対値が小さい方から 3 回に分けて枝刈りした．各回の枝刈りの後に，再学習 10 エポッ クを行った．各 a における実験について，枝刈りと再 学習 10 エポックのセットを 3 回完了したネットワークに対して，ILSVRC2012 評価データセットを用いて Top-1 accuracy と Top-5 accuracy を評価した．結果を 図 4 に示す．図 4 では，横軸として a の代わりに，各 a における全結合層全体のスパース率を取っている． 結果として，全結合層全体のスパース率が 91%程度までは，Top-5 accuracy について，非構造的枝刈り適用前からの予測精度の低下が 3%以内に収まっており，スパース率を増加させても予測精度の推移はほぼ横ばいである．しかし，さらにスパース率を増加させると，徐々に予測精度が低下し，スパース率が 99%を超えると急激に予測精度が低下するという結果が得られた．

4.2 提案手法適用

4.1.2 節で生成した，16 種類のスパース率の非構造的枝刈り適用済みモデルに対して提案手法を適用する．本論文では，紙面の都合上，16 種類の中からスパース率の異なる 3 種類のモデルを選択し，それらのモデルに対して提案手法を適用した．3 種類のモデルとして， a = 1.7, 2.4, 2.8 のモデルを選択した．各 a のモデルに おける，全結合層全体のスパース率，Top-1 accuracy， Top-5 accuracy を表 2 に示す． 4.2.1 恒等関数を用いて再学習提案手法は，活性化関数として線形関数を用いることを前提としている．したがって，重み行列に対して 表 2: 各 a のモデルにおける全結合層全体のスパース 率と予測精度 a スパース率（%） Top-1（%） Top-5（%） 1.7 91.25 54.47 78.53 2.4 98.05 45.38 70.50 2.8 99.21 33.47 58.90 表 3: 各 a のモデルにおける再学習前後の予測精度 a Top-1（%） Top-5（%）前後前後 1.7 54.47 53.88 78.53 77.98 2.4 45.38 46.61 70.50 71.57 2.8 33.47 36.60 58.90 61.83 クラスタリングを適用する前に，活性化関数を恒等関数に変更した．さらに，予測精度の回復を目的として変更後のネットワークに対して再学習を行った． 具体的には，表 2 に示す 3 種類の a のモデルに対し て，fc1 層の活性化関数を ReLU 関数から恒等関数に変更した．その後，ILSVRC2012 学習データセットを用いて，ネットワークを 20 エポック学習させた．再学習の前後の Top-1 accuracy と Top-5 accuracy を表 3 に示す． 表 3 から，a = 1.7 のモデルは，再学習後の予測精 度が関数変更前の予測精度から 1%以内の低下に収ま る結果となった．また，a = 2.4, 2.8 のモデルについて は，活性化関数変更と再学習によって，約 1∼3%予測精度が向上する結果となった．この精度向上の原因は，更新される重みの個数の違いによるものと考えている． a = 2.4, 2.8 のモデルは表 2 に示すように，スパース率 がかなり大きい．全結合層の重みの 98,9%が 0 であるために，多くのユニットの出力値が 0 となる可能性が高い．それに加えて，活性化関数として ReLU 関数を用いているモデルは，負の数を出力するユニットの出力値も 0 に変える．しかし，恒等関数を用いるモデルはそのまま負の数が出力される．したがって，ReLU 関数を用いたモデルの方が，0 を出力するユニットの個 数が多くなる可能性が高い．a = 2.4, 2.8 のモデルは， 高いスパース率がゆえに，ReLU 関数を用いる場合に 0 出力のユニットが過多となり，それによって，更新される重みの個数が過少となる．よって，比較的更新される重みの個数が多い恒等関数を用いたモデルの方が予測精度が高くなったと考える． 4.2.2 クラスタリングの適用 4.2.1 節において，活性化関数を変更し再学習を行っ た各 a のモデルに対して，クラスタリングを適用した．

(8)

具体的には，fc1 層の重み行列の列数を削減するために， fc2 層の重み行列の各行を，値の類似度の高いもの同士で複数のクラスタに分類した．クラスタリングアルゴ リズムとして k 平均法を用いた．k 平均法は最初のク ラスタの中央値を，fc2 層の重み行列の行の中からランダムに選択する．これにより，初期値（最初のクラスタの中央値）によっては，各行と中央値との距離が大きいクラスタリング結果が得られる場合がある．各クラスタに属する行はそのクラスタの中央値で置換されるため，各行と中央値との距離が大きい場合は，推論計算結果が置換前後で大きく異なってしまい，クラスタリング後の予測精度の低下に影響する可能性がある．したがって，5 回クラスタリングを適用し，各行とその行が属するクラスタの中央値との距離の和が最小となるクラスタリング結果を用いた．クラスタリング結果に基づき，fc2 層の重み行列において，各クラスタに属する行を中央値で置換した．置換結果に基づいて，fc1 層の重み行列の列数および fc2 層の重み行列の行数を削減した．その後，ネットワークを 50 エポック再学習した． 本実験では，k 平均法におけるクラスタの個数 k に 様々な値を設定した．AlexNet における fc1 層，fc2 層の重み行列のサイズはそれぞれ 6400*4096，4096*4096 である．fc2 層の重み行列の 4096 個の行に対してク ラスタリングを適用するため，クラスタの個数 k は， 1≦ k ≦ 4096 を満たす整数である．本実験では，k の値として，4000, 3500, 3000, 2500, 2000, 1500, 1000, 750, 500, 250, 100 を設定した．ただし，実験に要する 時間の都合上，一部の a のモデルでは実験していない k が存在する． 3 種類の a のモデルに対して，上記の各 k の値でク ラスタリングを適用した．クラスタリング後再学習したモデルに対して，ILSVRC2012 評価データセットを用いて，Top-1 accuracy と Top-5 accuracy を評価した．また，全結合層全体のメモリ使用量を評価した． a = 1.7, 2.4, 2.8 のモデルの評価結果をそれぞれ図 5， 図 6，図 7 に示す．グラフの横軸は，クラスタの個数 k の代わりに，各 k における fc1 層の重み行列の列数削 減率 [%] を表す．すなわち，((4096− k)/4096) ∗ 100 によって求めた数値である．列数削減率 0%におけるデー タが，各 a のモデルにおける提案手法適用前の予測精 度と全結合層のメモリ使用量を表す． 図 5 より，a = 1.7 のモデルに関して，k = 1500（列 数削減率 63.4%）において，提案手法適用前と比較して Top-5 accuracy の低下を 2%以内に抑えた．このとき，全結合層のメモリ使用量を 53.1%削減した．また， k = 100（列数削減率 97.6%）においてメモリ使用量が 最小となり，84.7%の削減率を達成した．しかし，Top-5 accuracy が提案手法適用前から 10.4%低下した． 図 6 より，a = 2.4 のモデルに関して，k = 2000（列 図 5: fc1 層の重み行列の列数削減率を変更したときの 予測精度と全結合層のメモリ使用量の変化（a = 1.7） 図 6: fc1 層の重み行列の列数削減率を変更したときの 予測精度と全結合層のメモリ使用量の変化（a = 2.4） 数削減率 51.2%）において，提案手法適用前から Top-5 accuracy を低下させることなく，全結合層のメモリ使 用量を 34.2%削減した．また，k = 250（列数削減率 93.9%）においてメモリ使用量が最小となり，80.1%の削減率を達成した．しかし，Top-5 accuracy は 13.9%低下した． 図 7 より，a = 2.8 のモデルに関して，k = 1000 （列数削減率 75.6%）において，Top-5 accuracy の低下を 0.3%程度に抑えながら，全結合層のメモリ使用量を 38.3%削減した．また，k = 500（列数削減率 87.8%）に おいて，メモリ使用量が最小となり，53.7%の削減率を達成した．このときの Top-5 accuracy の低下は 5%程度であった． これらの結果をまとめると，a の値によらず，すなわ ち，提案手法適用前のモデルのスパース率の大小によら

(9)

図 7: fc1 層の重み行列の列数削減率を変更したときの 予測精度と全結合層のメモリ使用量の変化（a = 2.8） ず，k = 2000 程度までは，Top-5 accuracy の低下をた かだか 1%程度に抑えることができることがわかった．このとき，全結合層のメモリ使用量を 34.2%∼41.7%削 減した．また，最大メモリ使用量削減率は，a の値が小 さいほど大きいことがわかった．この原因は，スパース率の大小によって，非ゼロ要素数の削減率が異なる ためだと考える．a の値が小さいことは，提案手法適用 前のモデルにおいてスパース率が小さいことを意味する．クラスタリング結果に基づく，fc1 層の重み行列の該当列の統合において，スパース率が小さい場合，足し合わせる成分中に含まれる非ゼロ要素の個数が多いため，列統合による非ゼロ要素数削減率が大きくなる可能性が高い．非ゼロ要素数削減率が大きいとメモリ使用量削減率も大きくなる．

4.3 非構造的枝刈りモデルとの性能比較

4.3.1 同一メモリ使用量における予測精度の比較 4.2.2 節の実験結果から，各 a のモデルについて，k 平均法におけるクラスタ数 k を減らす，すなわち fc1 層 の重み行列の列数削減率を増加させると，全結合層のメモリ使用量を削減できることがわかった．このメモリ使用量削減は，提案手法適用前の非構造的枝刈り適用済みモデルにおいて，スパース率をさらに増加させ ることでも実現できる．したがって，各 k の値でクラ スタリングを適用し実現したメモリ使用量と同一のメモリ使用量となるように非構造的枝刈りを適用し，メモリ使用量が等しい状況における提案手法と非構造的枝刈り手法の予測精度を比較した．非構造的枝刈り手法は，4.1.2 節と同様に，Han らの 手法 [5] を用いた．提案手法において，各 k の値でクラ 図 8: 同一メモリ使用量における提案手法と非構造的 枝刈り手法の予測精度の比較（a = 1.7） スタリングを適用し実現したメモリ使用量と同一のメモリ使用量となるようなスパース率を求めた．本実験では，3 つの全結合層に対して等しいスパース率を設定した．求めたスパース率を満たすように，各全結合層に対して，絶対値が小さい重みの値を 0 にする．枝刈りの対象となる重みを持つ結合を記憶し，それらを絶対値が小さい方から 3 回に分けて枝刈りした．各回の枝刈り後に再学習 10 エポックを行った．枝刈りと再学習 10 エポックのセットを 3 回完了したネットワークに対して，ILSVRC2012 評価データセットを用いて Top-1 accuracy と Top-5 accuracy を評価した．

同一メモリ使用量における提案手法と非構造的枝刈 り手法の予測精度を比較した．a = 1.7, 2.4, 2.8 のモデ ルの比較結果をそれぞれ図 8，図 9，図 10 に示す．グラフの横軸は，メモリ使用量の変わりに，全結合層のメモリ使用量削減率を用いている．また，メモリ使用量削減率 0%におけるデータは，提案手法適用前の予測精度である． 図 8 より，a = 1.7 のモデルに関しては，メモリ使用 量削減率が 81.3%のときに Top-5 accuracy の差が最大となり，提案手法が非構造的枝刈りより約 3%精度が高い結果となった．メモリ使用量削減率の大小にかかわらず，同一メモリ使用量における提案手法と非構造的枝刈りの予測精度はほぼ同じであった． 図 9 より，a = 2.4 のモデルに関しては，全てのメモ リ使用量削減率において，提案手法の予測精度が非構造的枝刈りの精度を上回った．おおむね，メモリ使用量削減率が大きくなるにつれて提案手法と非構造的枝刈りの予測精度の差が大きくなった．メモリ使用量削減率が 80.1%において，提案手法と非構造的枝刈りの Top-5 accuracy は適用前からそれぞれ 13.9%，28.3%低下した．このとき，Top-5 accuracy の差は最大となり，提

(10)

図 9: 同一メモリ使用量における提案手法と非構造的 枝刈り手法の予測精度の比較（a = 2.4） 図 10: 同一メモリ使用量における提案手法と非構造的 枝刈り手法の予測精度の比較（a = 2.8） 案手法が非構造的枝刈りよりも 14.5%高い精度を得た． 図 10 より，a = 2.8 のモデルに関しても同様に，全 てのメモリ使用量削減率において，提案手法の予測精度が非構造的枝刈りの精度を上回り，おおむね，メモリ使用量削減率が大きくなるにつれて，予測精度の差が大きくなった．メモリ使用量削減率が 53.7%において，提案手法と非構造的枝刈りの Top-5 accuracy は適用前からそれぞれ 5.3%，18.3%低下した．このとき，Top-5 accuarcy の差が最大となり，提案手法が非構造的枝刈りよりも 13.1%高い精度を得た． 実験結果から，a = 1.7 のモデルのように，提案手法 適用前のスパース率が比較的小さい場合はメモリ使用量削減率が大きい場合でも提案手法と非構造的枝刈り の間で予測精度の差はほぼない．しかし，a = 2.4, 2.8 のように，提案手法適用前のスパース率が比較的大きい場合は，メモリ使用量削減率が大きくなるにつれて，提案手法と比較して非構造的枝刈りの精度低下が大きく，予測精度に大きな差を生じることがわかった． 4.3.2 同一予測精度におけるメモリ使用量削減率の比較同一メモリ使用量における精度比較に加えて，予測精度が同じ場合における，提案手法と非構造的枝刈り のメモリ使用量削減率の比較も行った．k の値を変え ながらクラスタリングを適用し得られた各モデルの予測精度に関して，それらの予測精度と同程度の予測精度を非構造的枝刈りで実現する場合，メモリ使用量削減率がどれくらいになるのかを，図 8，9，10 のグラフを用いて求めた．具体的には，提案手法の Top-5 accuracy を示す折れ線中の各点を通る水平な直線を引き，その直線と非構造的枝刈りの Top-5 accuracy を示す折れ線との交点の x 座標を求めた． a = 1.7 のモデルに対して，同一精度における提案手 法と非構造的枝刈りのメモリ使用量削減率を比較したと ころ，提案手法の Top-5 accuracy が 73.9%（k = 500） のとき，メモリ使用量削減率の差が最大となった．提案手法のメモリ使用量削減率が 76.4%であるのに対して，非構造的枝刈りのメモリ使用量削減率は約 62%にとどまり，提案手法が非構造的枝刈りよりも約 14%メモリ使用量削減率が大きくなった． a = 2.4 のモデルに対しては，Top-5 accuracy が 65.5%（k = 750）のとき，メモリ使用量削減率の差が最 大となった．提案手法のメモリ使用量削減率が 66.6%であるのに対して，非構造的枝刈りのメモリ使用量削減率は約 39%にとどまり，提案手法が非構造的枝刈りよりも約 28%メモリ使用量削減率が大きくなった． a = 2.8 のモデルに対しては，Top-5 accuracy が 58.6%（k = 1000）のとき，メモリ使用量削減率の差が最 大となった．提案手法のメモリ使用量削減率が 38.3%であるのに対して，非構造的枝刈りのメモリ使用量削減率は約 2%にとどまり，提案手法が非構造的枝刈りよりも約 36%メモリ使用量削減率が大きくなった．

5 まとめと今後の課題

本論文では，推論モデルにおけるメモリ使用量の削減を目的として，深層ニューラルネットワークに対する圧縮手法を提案した．既存の圧縮手法の一つである非構造的枝刈りは，適用後に疎な重み行列を生成するため，非ゼロの重みに加えてインデックスデータも記憶する必要がある．記憶すべきインデックスデータの個数を削減するために，ネットワークのユニット数を削減することを考えた．提案手法は，ユニット数を削

(11)

減するために，重み行列に対して k 平均クラスタリン グを適用し，各行を k 個のクラスタに分類した．さら に，各クラスタに属する行を，クラスタの中心，すなわちクラスタに属する行の平均値に置換した．置換結果に基づき，ユニットを統合し，ユニット数を削減した．ユニット数の削減は重み行列において列数が削減されることと等しいため，インデックスデータの個数削減につながり，疎行列のメモリ使用量削減に貢献する．スパース率の異なる 3 種類の非構造的枝刈り適用済 み AlexNet を用意し，3 種類のモデルに対して k を変 えながら提案手法を適用したところ，適用前の予測精度からの精度低下をたかだか 1%程度に抑えながら，全結合層のメモリ使用量を最大で 41.7%削減できた．また，同一メモリ使用量削減率における提案手法と非構造的枝刈りの予測精度を比較したところ，提案手法の予測精度が非構造的枝刈りの精度よりも最大で 14.5%高いという結果を得た．この比較結果より，提案手法適用前のモデルのスパース率が大きいほど，同一メモリ使用量における提案手法と非構造的枝刈りの予測精度に大きな差が生じる傾向があることがわかった．同様に，同一予測精度における提案手法と非構造的枝刈りのメモリ使用量削減率を比較したところ，提案手法のメモリ使用量削減率が非構造的枝刈りの削減率よりも最大で約 36%大きいという結果を得た．今後の課題として，提案手法クラスタリングにおい て k 平均法以外のクラスタリングアルゴリズムを用い たときの，メモリ使用量削減率および予測精度の評価を予定している．また，構造的枝刈りといった，非構造的枝刈り以外の既存の圧縮手法との性能比較も予定している．

謝辞

本研究の一部は，JSPS 科研費 JP15H01687 および JP16H02801 の補助による．

参考文献

[1] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A.C. Berg, and L. Fei-Fei,“Imagenet large scale visual recognition chal-lenge,” International Journal of Computer Vi-sion, vol.115, no.3, pp.211252, 2015.

[2] Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 11061114, 2012.

[3] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” Com-puting Research Repository, vol.abs/1512.03385, 2015.

[4] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” Proceedings of CVPR, pp.19, 2015.

[5] S. Han, J. Pool, J. Tran, and W. Dally,“Learning both weights and connections for eﬃcient neural network,” Advances in Neural Information Pro-cessing Systems, pp.1135 1143, 2015.

[6] T. He, Y. Fan, Y. Qian, T. Tan, and K. Yu,“Re-shaping deep neural network for fast decoding by node-pruning,”2014 IEEE International Confer-ence on Acoustics, Speech and Signal Processing (ICASSP), pp.245249, 2014.

[7] Song Han, Huizi Mao, and William J. Dally. A deep neural network compression pipeline: Pruning, quantization, huﬀman encoding. Arxiv Preprint Arxiv:1510.00149 (2015).

[8] K. Simonyan, and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” Computing Research Repository, vol.abs/1409.1556, 2014.

[9] S. Han, H. Mao, and W.J. Dally, “Deep com-pression: Compressing deep neural network with pruning, trained quantization and huﬀman cod-ing,”International Conference on Learning Rep-resentations (ICLR), 2016.

[10] Yi Sun, Xiaogang Wang, and Xiaoou Tang. Spar-sifying neural network connections for face recog-nition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 48564864, 2016.

[11] W. Wen, C. Wu, Y. Wang, Y. Chen, and H. Li. Learning structured sparsity in deep neural net-works. In Advances in Neural Information Pro-cessing Systems, pages 20742082, 2016.

[12] Hengyuan Hu, Rui Peng, Yu-Wing Tai, and Chi-Keung Tang. Network trimming: A data-driven neuron pruning approach towards eﬃcient deep architectures. arXiv preprint arXiv:1607.03250, 2016.

(12)

[13] H. Li, A. Kadav, I. Durdanovic, H. Samet, and H. P. Graf. Pruning filters for eﬃcient ConvNets. In ICLR, pages 113, 2017.

[14] Sajid Anwar, Kyuyeon Hwang, and Wony-ong Sung. Structured Pruning of Deep Con-volutional Neural Networks. arXiv preprint arXiv:1512.08571, 2015.

[15] H. Mao, S. Han, J. Pool, W. Li, X. Liu, Y. Wang, and W. J. Dally, “Exploring the Regularity of Sparse Structure in Convolutional Neural Net-works,”CoRR, 2017.

[16] caﬀe/models/bvlc alexnet at master BVLC/caﬀe GitHub.

https://github.com/BVLC/caﬀe/tree/master/ models/bvlc alexnet, (2019-10-11)

省メモリ推論のための深層ニューラルネットワークの圧縮手法