深層学習の深化と展開 ─ NIPS 2017 に参加して興味をもったトピック─

(1)

1．NIPS 2017 における深層学習の概要

深層学習の勢いは NIPS 2017 においても顕著であり，以下にあげるように会議を通して多くの深層学習関連の発表がなされた． ● Tutorials：全 9 件中 3 件． ● Invited talks：全 7 件中 2 件． ● Orals：全 41 件中 8 件． ● Posters：全 679 件中約 200 件（著者が目視でおおざっぱにカウント）． ● Workshops：全 53 件中 5 件（タイトルに Deep Learningを含むもののみをカウント）．数が増えているのみならず，トレンドも多様化している．汎化性能の理解や GAN（Generative Adversarial Network）の隆盛，新たなモデリングの方向性の開拓という深層学習そのものに関する研究に加えて，大規模分散学習やベイジアンとの組合せ，ロボティクスや医療への適用など，研究内容は多岐にわたる．本稿では，特に著者が興味をもった研究を対象にしてその内容を解説する．具体的には，著者が特に興味をもった深層学習の汎化性能に関する理解の進展のみ数式も交えて詳しく解説し，GAN の学習収束性と深層学習の新たな方向性というトピックに関しては簡単な紹介に留める．なお，この分野は進展が著しくすでに内容が古くなっている可能性もあるが，NIPS 2017 の参加報告ということであくまでその内容を解説することとする．

2．深層学習の汎化性能に関する理解の進展

まずは汎化性能とは何だったかを思い出してみよう．大まかに言って学習で使っていないデータに対するモデルの性能を表す言葉であり，深層学習登場以前はモデルのパラメータ数が少なく汎化性能が高いものが良いものとされることが多かったが，深層学習の登場によりパラメータ数がデータ数より大きいが高い汎化性能を発揮するという状況が発生するようになり，再び注目を集めている．深層学習において（実は線形系であっても！）は [Zhang 17]で示されたように，汎化性能の理解にはこれまで使われてきた Vapnik-Chervonenkis 次元や Rademacher複雑性のような枠組みでは不十分であることが明らかになってきた．また，実験においては特にミニバッチサイズと学習率との関連で汎化性能が議論されることが多かった．以降では [Smith 17] に注目しこれを詳しく解説する．これは NIPS 2017 のワークショップで発表された後に ICLR 2018で公開された論文であり，NIPS 2017 で発表された [Hoffer 17] などとも関係が深い． § 1 ベイズ的取扱いまず，簡単な場合として一次元パラメータωを考える．

P(ω|y,x; M) = P(y|ω,x; M)P(ω; M)_P_{(y|x; M)} （1） ここで，x は入力，y はラベル，M はモデルを表す．こ の式の尤度を exponentiate して以下のように表現する． P(y|ω,x; M) = i P(yi|ω, xi; M ) = e−H(ω;M) _（2） ここで，H（ω; M）＝－ iln（P（y｜iω, xi; M））とした．ガ ウシアン prior を考えれば，未知ラベル ytの予測は次式で書ける． P(yt|xt,x,y; M ) = dωP(yt|ω, xt; M ) e−C(ω;M) dωe−C(ω;M) （3） ここで，C（ω; M）＝H（ω; M）＋（λω2_{）/2 とした．モデル比} 較はデータを所与とする条件付き確率の比で実施する．

深層学習の深化と展開

─ NIPS 2017 に参加して興味をもったトピック─

Recent Progress in Deep Learning Interesting Topics in NIPS 2017

菊田　遥平

クックパッド株式会社

Yohei Kikuta Cookpad Inc.

[email protected], https://github.com/yoheikikuta/resume

Keywords:

deep learning, generalization, generative adversarial divergence, modeling. 「「AIトレンド・トップカンファレンス NIPS 2017」報告会」

(2)

P(M1|y, x) P(M2|y, x) = P(y|x; M1) P(y|x; M2) P(M1) P(M2) （4）モデルの事前確率に関しては何かしらの仮定を入れる必要があるが，シンプルにあらゆるモデルの事前確率が同じであるとして，右辺第 1 項の evidence をより深く解析していこう．まず，パラメータωを解ω0の周りで二次まで Taylor 展開することで次式を得る． P(y|x; M) exp −C (w0) − 1 2ln( C (w0) /λ) （5）したがって，解における損失関数と log（曲率 / 正則化 係数）で特徴付けられる．この形から，パラメータを p 次元に拡張した場合に次の形になることは想像に難くない． P(y|x; M) exp −C (w0) − 1 2 p i ln(λi/λ) （6）ここで，λiは固有値である．あるモデルがどの程度良い

モデルかを null model と比較することにしよう．null modelとは P（y｜x; null）＝exp{－N ln（k）}となるもので，

kはクラス数を表す．E（ω0）＝ C（ω0）＋（1/2） ln（λi＝λ）

－N ln（k）を導入することで以下の関係式を得る．

P_{(y|x; M)}

P(y|x; null) = e−E(ω0) （7）この結果はモデルの parametrization によらず broad minima（λiが小さい）が sharp minima よりも良く汎

化された解であるという経験的事実を支持している． § 2 evidence の振舞いの実験的確認と汎化ギャップ 図 1 から意味のある情報をもつラベルでは E（ω0）が 0を下回ることがわかる．これはモデルが単に答えを暗記しているわけではなく意味のある解である場合は broad minimaとなることを示唆している．続いて汎化ギャップに関する実験結果を見る．図 2 から見て取れるように，バッチサイズによって汎化性能に差が生じる．これを汎化ギャップと呼び，汎化性能をどう理解すべきか頭を悩ませるものであると同時に，実用面でも学習を早くしようと思ってもうかつにバッチサイズを大きくできないという問題をはらんでいる． § 3 Langevin 方程式に基づく汎化性能の理解以降は Stochastic Gradient Descent（SGD）に話を限定する．汎化ギャップにおいてバッチサイズ（とデータ数の差）が重要であることに注意し，勾配によるパラメータ更新の差分を以下の形に書く． ω= − B d B iCi dω = −N d ˆC dω = −_N dC_dω+ d ˆC dω− dC dω : = −N dC dω + α Δ ε ε ε ε （8） ここで，dC/dω＝ N i dCi/dω, d ˆC/dω＝（N/B） Bi dCi/dω を用いた．期待値は以下のように書ける． dCi dω = 1 N dC dω （9） 図 1 式（7）の E（ω0）とλのプロット．[Smith 17] より抜粋． logistic回帰で MNIST の 0, 1 を判別するタスク．上はランダムなラベルで学習した場合で下は正しいラベルで学習した場合 ② ② ③ ③ ① ① ①②③ ① ② ③ 図 2 汎化ギャップ．[Smith 17] より抜粋．

800 hidden units＋ReLU のモデルによる MNIST 判別タスク ① ② ③ ④ ⑤ ⑥ ⑦ ④ ⑦ ① ⑥ ⑤ ③ ②

(3)

3．GAN の学習収束性に関する理解の進展

GAN [Goodfellow 14]とはデータ分布生成モデル G と判別モデル D を競合的に学習させる手法であり，学習した G を用いて乱数から画像を生成することで realistic な画像を生成できることから注目を集めている．しかし GAN は安定的な学習が難しい手法であり，学習手法の技術的な内容をまとめた [Salimans 16] が多くの citationを集めるほどである．NIPS 2017 でも多くの関連論文が発表されたが，ここでは著者が特に気になった [Nagarajan 17]と [Mescheder 17] に関して簡単に紹介するのに留める．これらは Nash 均衡の意味で平衡点（G と D のパラメータ更新のための勾配がゼロとなる）が存在することを仮定し，その平衡点の近傍では学習の収束性を議論している．理論的に収束を担保するにはやはりそれなりに強い仮定が必要ではあるが（例えば [Mescheder 17] は二人ゼロサムゲームの枠内での議論で，これは一般の GANでは成り立たない），理論的な解析が進んでいくのは喜ばしいことである．アプローチとしては，平衡点近傍での離散的な更新式を連続化した常微分方程式として定式化し，パラメータ更新の勾配の flow に注目することでその Jacobian の固有値とパラメータ更新の関係性を議論する，というものになっている．このような解析は GAN の登場とともに生まれたものではなく，制御系の理論解析などを GAN の場合に適用したものであったりするものも多い＊2_{ことは注目すべきである．} これらの議論により，有力な正則化としていわゆる dCi dω dCj dω = 1 N dC dω 2 + F(ω)δij （10）これを使うと式（8）におけるαの期待値は α＝0, α2＝N（N/B－1）F（ω）≅（N2/B）F（ω）と書ける．これを確率微分方程式と比較しよう．ここからは Langevin 方程式を解析していくが，付録に簡単な説明を付したのでなじみのない読者は参照されたい．overdampled Langevin 方程式は以下の形である（付録の説明では簡単のため省いているポテンシャル項も入れている）． dω dt = − dC dω + η(t) （11）ここで，ηはノイズで η ＝ 0, η（t）η（t_{）＝gF（}_ω_）_δ_（t－t_）を満たす．gはダイナミクスの揺らぎを規定する量である． SGDにおける離散的なパラメータ更新の式の連続極限を取ることでこの表式と対応付けよう．具体的には比 ε/Nが十分小さいとして以下の関係を付ける． −_N dC_dω+ α = ω = 0 dω dt dt = −_N dC_dω + 0 η(t)dt Δ ε ε ε ε （12）両辺を 2 乗して期待値を取ることで以下の関係式を得る． N N B − 1 F( ω) = N gF(ω) → g = ( N/B − 1) 2 ε ε ε _（13）ここで得られたノイズスケール g ＝ε（N/B－1）≅ε（N/B） こそが解の汎化性能をコントロールするものだと仮定しよう．これは適切な大きさのノイズであれば適切な解まで導いてくれるという直感的理解に基づくものであり，数学的に証明されているものではないことに注意されたい．これを実験的に調べたものが図 3 であり，学習率に合わせて適切なバッチサイズを取ることで同じような汎化性能の解が得られることを示している．これは SGD に限った限定的な解析であるが，学習率とバッチサイズの関係に良い見通しを与え，特に大規模分散学習などにおいて大きなバッチサイズで学習する際に学習率を上げればよいことを示唆しており，大きな成果である＊ 1_．この結果は大規模学習でも成立していることが [Goyal 17]などで示されており，重要かつ有用なものである．深層学習の理解は多数の実験と他分野の知識も取り入れながら進んでいる領域で，今後もその発展が楽しみである．＊1 momentum を入れる場合も，多少計算が煩雑になるが，慣性項を含めた Langevin 方程式を同様に解析することで類似関係 式を得ることができる．momentum のパラメータを m とした ときに g ≅εN/B（1－m）という形になるが，詳細は原論文を参 照されたい．図 3 ノイズスケールと汎化性能の関係．図は論文より引用．上は各線が各学習率に対応している．下は汎化性能を高めるバッチサイズと学習率の関係を示す＊2 例えば，局所的に非線形力学系を Hartman-Grobman 定理を用いて線形化して議論する，などは典型的な例であろう． ① ② ③ ④ ⑤ ① ② ③ ④ ⑤

(4)

double backpropagationが提案されている．詳細は原論文をご覧いただきたいが，これは損失関数に微分項が入るものであり，これによりパラメータ更新の勾配のベクトル場の Jacobian に補正を加えて固有値を望ましい方向に修正し，それによって収束性を高めるというものである．図 4 が Wasserstein GAN（WGAN）[Arjovsky 17]に対する正則化の効果を示している．正則化なしでは cyclic な flow となってしまうが，正則化の効果により平衡点へと流れ込んでいく様子が見て取れる． GANは最も盛んに研究されている分野の一つであり，今後のさらなる発展が楽しみである．

4．深層学習の新たな方向性

深層学習は特に画像や言語を対象として大きな成功を収めているが，さらに扱える対象を拡大したり異なる視点から定式化する研究も盛んである．ここでは NIPS 2017で発表されたものの中で著者が特に興味をもったものをいくつか紹介するのみに留める．会場でも話題となっていたものが CapsNet[Sabour 17]であり，これはスカラ値を返すニューロンを束ねてカプセルとしてベクトルで扱うことで表現力を高めようとするモデルであり，特にカプセル間の結合を入出力の内積に基づいて動的に決定するものである＊3_{．このモデ} ルの典型的な実験結果が図 5 であり，これは重なった数字をモデルが適切に分離して認識することができていて従来手法よりも高い性能を発揮している．これまでのモデルでは表現できなかった関係性の把握に関して有用なモデルとなることが期待されている．

そのほかにも，集合を入力として扱える Deep Sets [Zaheer 17]や，Riemann 幾何に基づくニューラルネットの定式化 [Hauser 17] や，再帰構造を使わず attention のみで高い性能を発揮する The Transformer [Vaswani 17] などは特に興味深いものであった．

深層学習の発展は広く深いものであり，GAN に続くような衝撃的な発見がされることに期待したい．

◇　参　考　文　献　◇

[Arjovsky 17] Arjovsky, M., Soumith, C. and Lon, B.: Wasserstein gan, arXiv preprint arXiv.1701.07875（2017）

[Goodfellow 14] Goodfellow, I., et al.: Generative adversarial nets,

Advances in Neural Information Processing Systems（2014） [Goyal 17] Goyal, Priya, et al.: Accurate, large minibatch SGD:

Training imagenet in 1 hour, arXiv preprint arXiv:1706.02677 （2017）

[Hauser 17] Hauser, M. and Asok, R.: Principles of Riemannian geometry in neural networks, Advances in Neural Information

Processing Systems（2017）

[Hoffer 17] Hoffer, E., Itay, H. and Daniel, S.: Train longer, generalize better: Closing the generalization gap in large batch training of neural networks, Advances in Neural

Information Processing Systems（2017）

[Mescheder 17] Mescheder, L., Sebastian, N. and Andreas, G.: The numerics of gans, Advances in Neural Information Processing

Systems（2017）

[Nagarajan 17] Nagarajan, V. and J. Zico Kolter.: Gradient descent GAN optimization is locally stable, Advances in

Neural Information Processing Systems（2017）

[Sabour 17] Sabour, S. Nicholas, F. and Geoffrey, E. H.: Dynamic routing between capsules, Advances in Neural Information

Processing Systems（2017）

[Salimans 16] Salimans, T., et al.: Improved techniques for training gans, Advances in Neural Information Processing

Systems（2016）

[Smith 17] Smith, S. L. and Quoc, V.: A bayesian perspective on generalization and stochastic gradient descent, Proc. Second

Workshop on Bayesian Deep Learning（NIPS 2017）（2017） ＊3 正則化として reconstruction を採用するのは直感的には理解

しがたいが，現地で質問をしたらどちらかというと可視化用の構造とのことだった．

図 5 CapsNet による MultiMnist の実験．[Sabour 17] より抜粋．

Rは reconstruction で用いた数字を表していて，L は実際の数字を表している

図 4 勾配の ﬂow の図示．[Nagarajan 17] より抜粋．上が正則化項なしで下が正則化項を入れた場合

(5)

[Vaswani 17] Vaswani, A., et al.: Attention is all you need,

Advances in Neural Information Processing Systems（2017） [Zaheer 17] Zaheer, M., et al.: Deep sets, Advances in Neural

Information Processing Systems（2017）

[Zhang 17] Zhang, C., et al.: Understanding deep learning requires rethinking generalization, arXiv preprint arXiv: 1611.03530（2016）

◇　付　　　録　◇

A．Langevin 方程式とその性質物理になじみのない読者のために Langevin 方程式を簡単に解説 しておく．質量が m でランダム力η（t）を受ける粒子の一次元ブ ラウン運動を考えよう．この粒子は花粉を水に溶かした場合の微粒 子などに対応していて，速度 dx/dt ＝ v においては摩擦力 （－1/γ）v が働くものとする（γは定数）．ここでのランダム力としてはホワ イトノイズを考え，デルタ関数を用いて以下のように書ける（M は定数）． η(t)η(t ) = 2M δ(t− t ) （A.1）この粒子の運動方程式は以下の形となり，これが Langevin 方程式と呼ばれるものである． md2x dt2 =− 1 γ dx dt+ η(t) （A.2）まず << md2x dt2 1 γ dx dt という状況を考えれば，運動方程式で慣性項を無視することがで き（これを overdamped Langevin 方程式と呼ぶ），x（0）＝0 と原 点を取ることで次の形式的な解を得る． x(t) = γ t 0 du η(u) （A.3）両辺を 2 乗して期待値を取ることで，次の形を得る． [x(t)]2 = γ2 t 0 du t 0 du η(u)η(u ) = 2M γ2t := 2Dt （A.4）これがブラウン運動の重要な性質である．位置座標の二乗期待値 が t の一次であまり進まないという意味で酔歩などとも呼ばれる． 慣性項を無視しない場合は dx dt= v の解として次が得られる（基本的な微分方程式の解法なので興味がある読者は調べてほしい）． v(t) = e− 1 mγt_{v(0) +} t 0 duη(u) m e −mγ1 (t−u) （A.5）両辺を 2 乗して期待値を取る．cross term が 0 になることに気を 付ければ（v（0）と時刻 0 以降のランダム力に相関はない），以下 が得られる． m [v(t)]2 _{= e}−mγ2t _[v(0)]2 ₊M γ₍₁_{− e}− 2t mγ₎ （A.6） 十分に時間が経過した（e－2t/（mγ）_<<_{1）後，エネルギー等分配則} 1 2m [v(t)]2 = 1 2kBT （kBはボルツマン定数，T は温度） を用いることで，最終的に以下の関係式が導ける． D = γkBT （A.7）これはランダム力で誘起される揺動と摩擦と温度で誘起される散逸が関係付いているため揺動散逸定理と呼ばれ，Einstein の関係式とも呼ばれる．ここでは完全に物理現象を対象に議論をしたが，このような議論は機械学習の枠組みにおいてもなされているものであり，読者の方々にもいずれ役に立つ日が来るかもしれない． 2018年 6 月 15 日　受理

著　者　紹　介

菊田　遥平（正会員）は，前掲（Vol. 33, No. 5, p. 631）参照．