1.NIPS 2017 における深層学習の概要
深層学習の勢いは NIPS 2017 においても顕著であり, 以下にあげるように会議を通して多くの深層学習関連の 発表がなされた. ● Tutorials:全 9 件中 3 件. ● Invited talks:全 7 件中 2 件. ● Orals:全 41 件中 8 件. ● Posters:全 679 件中約 200 件(著者が目視でおお ざっぱにカウント). ● Workshops: 全 53 件 中 5 件( タ イ ト ル に Deep Learningを含むもののみをカウント). 数が増えているのみならず,トレンドも多様化してい る.汎化性能の理解や GAN(Generative Adversarial Network)の隆盛,新たなモデリングの方向性の開拓と いう深層学習そのものに関する研究に加えて,大規模分 散学習やベイジアンとの組合せ,ロボティクスや医療へ の適用など,研究内容は多岐にわたる. 本稿では,特に著者が興味をもった研究を対象にして その内容を解説する.具体的には,著者が特に興味をもっ た深層学習の汎化性能に関する理解の進展のみ数式も交 えて詳しく解説し,GAN の学習収束性と深層学習の新 たな方向性というトピックに関しては簡単な紹介に留め る.なお,この分野は進展が著しくすでに内容が古くなっ ている可能性もあるが,NIPS 2017 の参加報告というこ とであくまでその内容を解説することとする.2.深層学習の汎化性能に関する理解の進展
まずは汎化性能とは何だったかを思い出してみよう. 大まかに言って学習で使っていないデータに対するモデ ルの性能を表す言葉であり,深層学習登場以前はモデル のパラメータ数が少なく汎化性能が高いものが良いもの とされることが多かったが,深層学習の登場によりパラ メータ数がデータ数より大きいが高い汎化性能を発揮す るという状況が発生するようになり,再び注目を集めて いる. 深層学習において(実は線形系であっても!)は [Zhang 17]で示されたように,汎化性能の理解には これまで使われてきた Vapnik-Chervonenkis 次元や Rademacher複雑性のような枠組みでは不十分であるこ とが明らかになってきた.また,実験においては特にミ ニバッチサイズと学習率との関連で汎化性能が議論され ることが多かった. 以降では [Smith 17] に注目しこれを詳しく解説する. これは NIPS 2017 のワークショップで発表された後に ICLR 2018で公開された論文であり,NIPS 2017 で発 表された [Hoffer 17] などとも関係が深い. § 1 ベイズ的取扱い まず,簡単な場合として一次元パラメータωを考える.P(ω|y,x; M) = P(y|ω,x; M)P(ω; M)P(y|x; M) (1) ここで,x は入力,y はラベル,M はモデルを表す.こ の式の尤度を exponentiate して以下のように表現する. P(y|ω,x; M) = i P(yi|ω, xi; M ) = e−H(ω;M) (2) ここで,H(ω; M)=- iln(P(y|iω, xi; M))とした.ガ ウシアン prior を考えれば,未知ラベル ytの予測は次式 で書ける. P(yt|xt,x,y; M ) = dωP(yt|ω, xt; M ) e−C(ω;M) dωe−C(ω;M) (3) ここで,C(ω; M)=H(ω; M)+(λω2)/2 とした.モデル比 較はデータを所与とする条件付き確率の比で実施する.
深層学習の深化と展開
─ NIPS 2017 に参加して興味をもったトピック─
Recent Progress in Deep Learning Interesting Topics in NIPS 2017
菊田 遥平
クックパッド株式会社Yohei Kikuta Cookpad Inc.
[email protected], https://github.com/yoheikikuta/resume
Keywords:
deep learning, generalization, generative adversarial divergence, modeling. 「「AIトレンド・トップカンファレンス NIPS 2017」報告会」P(M1|y, x) P(M2|y, x) = P(y|x; M1) P(y|x; M2) P(M1) P(M2) (4) モデルの事前確率に関しては何かしらの仮定を入れる必 要があるが,シンプルにあらゆるモデルの事前確率が同 じであるとして,右辺第 1 項の evidence をより深く解 析していこう.まず,パラメータωを解ω0の周りで二 次まで Taylor 展開することで次式を得る. P(y|x; M) exp −C (w0) − 1 2ln( C (w0) /λ) (5) したがって,解における損失関数と log(曲率 / 正則化 係数)で特徴付けられる.この形から,パラメータを p 次元に拡張した場合に次の形になることは想像に難くな い. P(y|x; M) exp −C (w0) − 1 2 p i ln(λi/λ) (6) ここで,λiは固有値である.あるモデルがどの程度良い
モデルかを null model と比較することにしよう.null modelとは P(y|x; null)=exp{-N ln(k)}となるもので,
kはクラス数を表す.E(ω0)= C(ω0)+(1/2) ln(λi=λ)
-N ln(k)を導入することで以下の関係式を得る.
P(y|x; M)
P(y|x; null) = e−E(ω0) (7) この結果はモデルの parametrization によらず broad minima(λiが小さい)が sharp minima よりも良く汎
化された解であるという経験的事実を支持している. § 2 evidence の振舞いの実験的確認と汎化ギャップ 図 1 から意味のある情報をもつラベルでは E(ω0)が 0を下回ることがわかる.これはモデルが単に答えを 暗記しているわけではなく意味のある解である場合は broad minimaとなることを示唆している. 続いて汎化ギャップに関する実験結果を見る.図 2 か ら見て取れるように,バッチサイズによって汎化性能に 差が生じる.これを汎化ギャップと呼び,汎化性能をど う理解すべきか頭を悩ませるものであると同時に,実用 面でも学習を早くしようと思ってもうかつにバッチサイ ズを大きくできないという問題をはらんでいる. § 3 Langevin 方程式に基づく汎化性能の理解 以降は Stochastic Gradient Descent(SGD)に話を 限定する.汎化ギャップにおいてバッチサイズ(とデー タ数の差)が重要であることに注意し,勾配によるパラ メータ更新の差分を以下の形に書く. ω= − B d B iCi dω = −N d ˆC dω = −N dCdω+ d ˆC dω− dC dω : = −N dC dω + α Δ ε ε ε ε (8) ここで,dC/dω= N i dCi/dω, d ˆC/dω=(N/B) Bi dCi/dω を用いた.期待値は以下のように書ける. dCi dω = 1 N dC dω (9) 図 1 式(7)の E(ω0)とλのプロット.[Smith 17] より抜粋. logistic回帰で MNIST の 0, 1 を判別するタスク.上はラン ダムなラベルで学習した場合で下は正しいラベルで学習し た場合 ② ② ③ ③ ① ① ①②③ ① ② ③ 図 2 汎化ギャップ.[Smith 17] より抜粋.
800 hidden units+ReLU のモデルによる MNIST 判別タス ク ① ② ③ ④ ⑤ ⑥ ⑦ ④ ⑦ ① ⑥ ⑤ ③ ②
3.GAN の学習収束性に関する理解の進展
GAN [Goodfellow 14]とはデータ分布生成モデル G と 判別モデル D を競合的に学習させる手法であり,学習 した G を用いて乱数から画像を生成することで realistic な画像を生成できることから注目を集めている.しか し GAN は安定的な学習が難しい手法であり,学習手 法の技術的な内容をまとめた [Salimans 16] が多くの citationを集めるほどである.NIPS 2017 でも多くの関 連論文が発表されたが,ここでは著者が特に気になった [Nagarajan 17]と [Mescheder 17] に関して簡単に紹介 するのに留める. これらは Nash 均衡の意味で平衡点(G と D のパラ メータ更新のための勾配がゼロとなる)が存在すること を仮定し,その平衡点の近傍では学習の収束性を議論し ている.理論的に収束を担保するにはやはりそれなりに 強い仮定が必要ではあるが(例えば [Mescheder 17] は 二人ゼロサムゲームの枠内での議論で,これは一般の GANでは成り立たない),理論的な解析が進んでいくの は喜ばしいことである.アプローチとしては,平衡点近 傍での離散的な更新式を連続化した常微分方程式として 定式化し,パラメータ更新の勾配の flow に注目するこ とでその Jacobian の固有値とパラメータ更新の関係性 を議論する,というものになっている.このような解析 は GAN の登場とともに生まれたものではなく,制御系 の理論解析などを GAN の場合に適用したものであった りするものも多い*2ことは注目すべきである. これらの議論により,有力な正則化としていわゆる dCi dω dCj dω = 1 N dC dω 2 + F(ω)δij (10) これを使うと式(8)におけるαの期待値は α=0, α2=N(N/B-1)F(ω)≅(N2/B)F(ω)と書ける. これを確率微分方程式と比較しよう.ここからは Langevin 方程式を解析していくが,付録に簡単な説明を付したのでな じみのない読者は参照されたい.overdampled Langevin 方程式は以下の形である(付録の説明では簡単のため省 いているポテンシャル項も入れている). dω dt = − dC dω + η(t) (11) ここで,ηはノイズで η = 0, η(t)η(t)=gF(ω)δ(t-t) を満たす.gはダイナミクスの揺らぎを規定する量である. SGDにおける離散的なパラメータ更新の式の連続極 限を取ることでこの表式と対応付けよう.具体的には比 ε/Nが十分小さいとして以下の関係を付ける. −N dCdω+ α = ω = 0 dω dt dt = −N dCdω + 0 η(t)dt Δ ε ε ε ε (12) 両辺を 2 乗して期待値を取ることで以下の関係式を得る. N N B − 1 F( ω) = N gF(ω) → g = ( N/B − 1) 2 ε ε ε (13) ここで得られたノイズスケール g =ε(N/B-1)≅ε(N/B) こそが解の汎化性能をコントロールするものだと仮定し よう.これは適切な大きさのノイズであれば適切な解ま で導いてくれるという直感的理解に基づくものであり, 数学的に証明されているものではないことに注意された い.これを実験的に調べたものが図 3 であり,学習率に 合わせて適切なバッチサイズを取ることで同じような汎 化性能の解が得られることを示している.これは SGD に限った限定的な解析であるが,学習率とバッチサイズ の関係に良い見通しを与え,特に大規模分散学習などに おいて大きなバッチサイズで学習する際に学習率を上げ ればよいことを示唆しており,大きな成果である* 1. この結果は大規模学習でも成立していることが [Goyal 17]などで示されており,重要かつ有用なものである.深 層学習の理解は多数の実験と他分野の知識も取り入れな がら進んでいる領域で,今後もその発展が楽しみである. *1 momentum を入れる場合も,多少計算が煩雑になるが,慣性 項を含めた Langevin 方程式を同様に解析することで類似関係 式を得ることができる.momentum のパラメータを m とした ときに g ≅εN/B(1-m)という形になるが,詳細は原論文を参 照されたい. 図 3 ノイズスケールと汎化性能の関係.図は論文より引用. 上は各線が各学習率に対応している.下は汎化性能を高め るバッチサイズと学習率の関係を示す *2 例えば,局所的に非線形力学系を Hartman-Grobman 定理を 用いて線形化して議論する,などは典型的な例であろう. ① ② ③ ④ ⑤ ① ② ③ ④ ⑤double backpropagationが提案されている.詳細は原 論文をご覧いただきたいが,これは損失関数に微分項が 入るものであり,これによりパラメータ更新の勾配のベ クトル場の Jacobian に補正を加えて固有値を望ましい 方向に修正し,それによって収束性を高めるというもの である.図 4 が Wasserstein GAN(WGAN)[Arjovsky 17]に対する正則化の効果を示している.正則化なしで は cyclic な flow となってしまうが,正則化の効果によ り平衡点へと流れ込んでいく様子が見て取れる. GANは最も盛んに研究されている分野の一つであり, 今後のさらなる発展が楽しみである.
4.深層学習の新たな方向性
深層学習は特に画像や言語を対象として大きな成功 を収めているが,さらに扱える対象を拡大したり異なる 視点から定式化する研究も盛んである.ここでは NIPS 2017で発表されたものの中で著者が特に興味をもった ものをいくつか紹介するのみに留める. 会場でも話題となっていたものが CapsNet[Sabour 17]であり,これはスカラ値を返すニューロンを束ねて カプセルとしてベクトルで扱うことで表現力を高めよう とするモデルであり,特にカプセル間の結合を入出力の 内積に基づいて動的に決定するものである*3.このモデ ルの典型的な実験結果が図 5 であり,これは重なった数 字をモデルが適切に分離して認識することができていて 従来手法よりも高い性能を発揮している.これまでのモ デルでは表現できなかった関係性の把握に関して有用な モデルとなることが期待されている.そのほかにも,集合を入力として扱える Deep Sets [Zaheer 17]や,Riemann 幾何に基づくニューラルネットの定式 化 [Hauser 17] や,再帰構造を使わず attention のみで 高い性能を発揮する The Transformer [Vaswani 17] な どは特に興味深いものであった.
深層学習の発展は広く深いものであり,GAN に続く ような衝撃的な発見がされることに期待したい.
◇ 参 考 文 献 ◇
[Arjovsky 17] Arjovsky, M., Soumith, C. and Lon, B.: Wasserstein gan, arXiv preprint arXiv.1701.07875(2017)
[Goodfellow 14] Goodfellow, I., et al.: Generative adversarial nets,
Advances in Neural Information Processing Systems(2014) [Goyal 17] Goyal, Priya, et al.: Accurate, large minibatch SGD:
Training imagenet in 1 hour, arXiv preprint arXiv:1706.02677 (2017)
[Hauser 17] Hauser, M. and Asok, R.: Principles of Riemannian geometry in neural networks, Advances in Neural Information
Processing Systems(2017)
[Hoffer 17] Hoffer, E., Itay, H. and Daniel, S.: Train longer, generalize better: Closing the generalization gap in large batch training of neural networks, Advances in Neural
Information Processing Systems(2017)
[Mescheder 17] Mescheder, L., Sebastian, N. and Andreas, G.: The numerics of gans, Advances in Neural Information Processing
Systems(2017)
[Nagarajan 17] Nagarajan, V. and J. Zico Kolter.: Gradient descent GAN optimization is locally stable, Advances in
Neural Information Processing Systems(2017)
[Sabour 17] Sabour, S. Nicholas, F. and Geoffrey, E. H.: Dynamic routing between capsules, Advances in Neural Information
Processing Systems(2017)
[Salimans 16] Salimans, T., et al.: Improved techniques for training gans, Advances in Neural Information Processing
Systems(2016)
[Smith 17] Smith, S. L. and Quoc, V.: A bayesian perspective on generalization and stochastic gradient descent, Proc. Second
Workshop on Bayesian Deep Learning(NIPS 2017)(2017) *3 正則化として reconstruction を採用するのは直感的には理解
しがたいが,現地で質問をしたらどちらかというと可視化用の 構造とのことだった.
図 5 CapsNet による MultiMnist の実験.[Sabour 17] より抜粋.
Rは reconstruction で用いた数字を表していて,L は実際の数字を表している
図 4 勾配の flow の図示.[Nagarajan 17] より抜粋. 上が正則化項なしで下が正則化項を入れた場合
[Vaswani 17] Vaswani, A., et al.: Attention is all you need,
Advances in Neural Information Processing Systems(2017) [Zaheer 17] Zaheer, M., et al.: Deep sets, Advances in Neural
Information Processing Systems(2017)
[Zhang 17] Zhang, C., et al.: Understanding deep learning requires rethinking generalization, arXiv preprint arXiv: 1611.03530(2016)