• 検索結果がありません。

深層学習の深化と展開 ─ NIPS 2017 に参加して興味をもったトピック─

N/A
N/A
Protected

Academic year: 2021

シェア "深層学習の深化と展開 ─ NIPS 2017 に参加して興味をもったトピック─"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

1.NIPS 2017 における深層学習の概要

深層学習の勢いは NIPS 2017 においても顕著であり, 以下にあげるように会議を通して多くの深層学習関連の 発表がなされた. ● Tutorials:全 9 件中 3 件. ● Invited talks:全 7 件中 2 件. ● Orals:全 41 件中 8 件. ● Posters:全 679 件中約 200 件(著者が目視でおお ざっぱにカウント). ● Workshops: 全 53 件 中 5 件( タ イ ト ル に Deep Learningを含むもののみをカウント). 数が増えているのみならず,トレンドも多様化してい る.汎化性能の理解や GAN(Generative Adversarial Network)の隆盛,新たなモデリングの方向性の開拓と いう深層学習そのものに関する研究に加えて,大規模分 散学習やベイジアンとの組合せ,ロボティクスや医療へ の適用など,研究内容は多岐にわたる. 本稿では,特に著者が興味をもった研究を対象にして その内容を解説する.具体的には,著者が特に興味をもっ た深層学習の汎化性能に関する理解の進展のみ数式も交 えて詳しく解説し,GAN の学習収束性と深層学習の新 たな方向性というトピックに関しては簡単な紹介に留め る.なお,この分野は進展が著しくすでに内容が古くなっ ている可能性もあるが,NIPS 2017 の参加報告というこ とであくまでその内容を解説することとする.

2.深層学習の汎化性能に関する理解の進展

まずは汎化性能とは何だったかを思い出してみよう. 大まかに言って学習で使っていないデータに対するモデ ルの性能を表す言葉であり,深層学習登場以前はモデル のパラメータ数が少なく汎化性能が高いものが良いもの とされることが多かったが,深層学習の登場によりパラ メータ数がデータ数より大きいが高い汎化性能を発揮す るという状況が発生するようになり,再び注目を集めて いる. 深層学習において(実は線形系であっても!)は [Zhang 17]で示されたように,汎化性能の理解には これまで使われてきた Vapnik-Chervonenkis 次元や Rademacher複雑性のような枠組みでは不十分であるこ とが明らかになってきた.また,実験においては特にミ ニバッチサイズと学習率との関連で汎化性能が議論され ることが多かった. 以降では [Smith 17] に注目しこれを詳しく解説する. これは NIPS 2017 のワークショップで発表された後に ICLR 2018で公開された論文であり,NIPS 2017 で発 表された [Hoffer 17] などとも関係が深い. § 1 ベイズ的取扱い まず,簡単な場合として一次元パラメータωを考える.

P(ω|y,x; M) = P(y|ω,x; M)P(ω; M)P(y|x; M) (1) ここで,x は入力,y はラベル,M はモデルを表す.こ の式の尤度を exponentiate して以下のように表現する. P(y|ω,x; M) = i P(yi|ω, xi; M ) = e−H(ω;M) (2) ここで,H(ω; M)=- iln(P(yiω, xi; M))とした.ガ ウシアン prior を考えれば,未知ラベル ytの予測は次式 で書ける. P(yt|xt,x,y; M ) = dωP(yt|ω, xt; M ) e−C(ω;M) dωe−C(ω;M) (3) ここで,C(ω; M)=H(ω; M)+(λω2)/2 とした.モデル比 較はデータを所与とする条件付き確率の比で実施する.

深層学習の深化と展開

─ NIPS 2017 に参加して興味をもったトピック─

Recent Progress in Deep Learning Interesting Topics in NIPS 2017

菊田 遥平

クックパッド株式会社

Yohei Kikuta Cookpad Inc.

[email protected], https://github.com/yoheikikuta/resume

Keywords:

deep learning, generalization, generative adversarial divergence, modeling. 「「AIトレンド・トップカンファレンス NIPS 2017」報告会」

(2)

P(M1|y, x) P(M2|y, x) = P(y|x; M1) P(y|x; M2) P(M1) P(M2) (4) モデルの事前確率に関しては何かしらの仮定を入れる必 要があるが,シンプルにあらゆるモデルの事前確率が同 じであるとして,右辺第 1 項の evidence をより深く解 析していこう.まず,パラメータωを解ω0の周りで二 次まで Taylor 展開することで次式を得る. P(y|x; M) exp −C (w0) − 1 2ln( C (w0) /λ) (5) したがって,解における損失関数と log(曲率 / 正則化 係数)で特徴付けられる.この形から,パラメータを p 次元に拡張した場合に次の形になることは想像に難くな い. P(y|x; M) exp −C (w0) − 1 2 p i ln(λi) (6) ここで,λiは固有値である.あるモデルがどの程度良い

モデルかを null model と比較することにしよう.null modelとは P(y|x; null)=exp{-N ln(k)}となるもので,

kはクラス数を表す.E(ω0)= C(ω0)+(1/2) ln(λi=λ)

-N ln(k)を導入することで以下の関係式を得る.

P(y|x; M)

P(y|x; null) = e−E(ω0) (7) この結果はモデルの parametrization によらず broad minima(λiが小さい)が sharp minima よりも良く汎

化された解であるという経験的事実を支持している. § 2 evidence の振舞いの実験的確認と汎化ギャップ 図 1 から意味のある情報をもつラベルでは E(ω0)が 0を下回ることがわかる.これはモデルが単に答えを 暗記しているわけではなく意味のある解である場合は broad minimaとなることを示唆している. 続いて汎化ギャップに関する実験結果を見る.図 2 か ら見て取れるように,バッチサイズによって汎化性能に 差が生じる.これを汎化ギャップと呼び,汎化性能をど う理解すべきか頭を悩ませるものであると同時に,実用 面でも学習を早くしようと思ってもうかつにバッチサイ ズを大きくできないという問題をはらんでいる. § 3 Langevin 方程式に基づく汎化性能の理解 以降は Stochastic Gradient Descent(SGD)に話を 限定する.汎化ギャップにおいてバッチサイズ(とデー タ数の差)が重要であることに注意し,勾配によるパラ メータ更新の差分を以下の形に書く. ω= − B d B iCi = −N d ˆC = −N dC+ d ˆC dC : = −N dC + α Δ ε ε ε ε (8) ここで,dC/dω= N i dCi/dω, d ˆC/dω=(N/B) Bi dCi/dω を用いた.期待値は以下のように書ける. dCi = 1 N dC (9) 図 1 式(7)の E(ω0)とλのプロット.[Smith 17] より抜粋. logistic回帰で MNIST の 0, 1 を判別するタスク.上はラン ダムなラベルで学習した場合で下は正しいラベルで学習し た場合 ② ② ③ ③ ① ① ①②③ ① ② ③ 図 2 汎化ギャップ.[Smith 17] より抜粋.

800 hidden units+ReLU のモデルによる MNIST 判別タス ク ① ② ③ ④ ⑤ ⑥ ⑦ ④ ⑦ ① ⑥ ⑤ ③ ②

(3)

3.GAN の学習収束性に関する理解の進展

GAN [Goodfellow 14]とはデータ分布生成モデル G と 判別モデル D を競合的に学習させる手法であり,学習 した G を用いて乱数から画像を生成することで realistic な画像を生成できることから注目を集めている.しか し GAN は安定的な学習が難しい手法であり,学習手 法の技術的な内容をまとめた [Salimans 16] が多くの citationを集めるほどである.NIPS 2017 でも多くの関 連論文が発表されたが,ここでは著者が特に気になった [Nagarajan 17]と [Mescheder 17] に関して簡単に紹介 するのに留める. これらは Nash 均衡の意味で平衡点(G と D のパラ メータ更新のための勾配がゼロとなる)が存在すること を仮定し,その平衡点の近傍では学習の収束性を議論し ている.理論的に収束を担保するにはやはりそれなりに 強い仮定が必要ではあるが(例えば [Mescheder 17] は 二人ゼロサムゲームの枠内での議論で,これは一般の GANでは成り立たない),理論的な解析が進んでいくの は喜ばしいことである.アプローチとしては,平衡点近 傍での離散的な更新式を連続化した常微分方程式として 定式化し,パラメータ更新の勾配の flow に注目するこ とでその Jacobian の固有値とパラメータ更新の関係性 を議論する,というものになっている.このような解析 は GAN の登場とともに生まれたものではなく,制御系 の理論解析などを GAN の場合に適用したものであった りするものも多い*2ことは注目すべきである. これらの議論により,有力な正則化としていわゆる dCi dCj = 1 N dC 2 + F(ω)δij (10) これを使うと式(8)におけるαの期待値は α=0, α2=N(N/B-1)F(ω)≅(N2/B)F(ω)と書ける. これを確率微分方程式と比較しよう.ここからは Langevin 方程式を解析していくが,付録に簡単な説明を付したのでな じみのない読者は参照されたい.overdampled Langevin 方程式は以下の形である(付録の説明では簡単のため省 いているポテンシャル項も入れている). dt = − dC + η(t) (11) ここで,ηはノイズで η = 0, η(t)η(t)=gF(ωδ(t-t を満たす.gはダイナミクスの揺らぎを規定する量である. SGDにおける離散的なパラメータ更新の式の連続極 限を取ることでこの表式と対応付けよう.具体的には比 ε/Nが十分小さいとして以下の関係を付ける. −N dC+ α = ω = 0 dt dt = −N dC + 0 η(t)dt Δ ε ε ε ε (12) 両辺を 2 乗して期待値を取ることで以下の関係式を得る. N N B − 1 F( ω) = N gF(ω) → g = ( N/B − 1) 2 ε ε ε (13) ここで得られたノイズスケール g =ε(N/B-1)≅ε(N/B) こそが解の汎化性能をコントロールするものだと仮定し よう.これは適切な大きさのノイズであれば適切な解ま で導いてくれるという直感的理解に基づくものであり, 数学的に証明されているものではないことに注意された い.これを実験的に調べたものが図 3 であり,学習率に 合わせて適切なバッチサイズを取ることで同じような汎 化性能の解が得られることを示している.これは SGD に限った限定的な解析であるが,学習率とバッチサイズ の関係に良い見通しを与え,特に大規模分散学習などに おいて大きなバッチサイズで学習する際に学習率を上げ ればよいことを示唆しており,大きな成果である* 1 この結果は大規模学習でも成立していることが [Goyal 17]などで示されており,重要かつ有用なものである.深 層学習の理解は多数の実験と他分野の知識も取り入れな がら進んでいる領域で,今後もその発展が楽しみである. *1 momentum を入れる場合も,多少計算が煩雑になるが,慣性 項を含めた Langevin 方程式を同様に解析することで類似関係 式を得ることができる.momentum のパラメータを m とした ときに g ≅εN/B(1-m)という形になるが,詳細は原論文を参 照されたい. 図 3 ノイズスケールと汎化性能の関係.図は論文より引用. 上は各線が各学習率に対応している.下は汎化性能を高め るバッチサイズと学習率の関係を示す *2 例えば,局所的に非線形力学系を Hartman-Grobman 定理を 用いて線形化して議論する,などは典型的な例であろう. ① ② ③ ④ ⑤ ① ② ③ ④ ⑤

(4)

double backpropagationが提案されている.詳細は原 論文をご覧いただきたいが,これは損失関数に微分項が 入るものであり,これによりパラメータ更新の勾配のベ クトル場の Jacobian に補正を加えて固有値を望ましい 方向に修正し,それによって収束性を高めるというもの である.図 4 が Wasserstein GAN(WGAN)[Arjovsky 17]に対する正則化の効果を示している.正則化なしで は cyclic な flow となってしまうが,正則化の効果によ り平衡点へと流れ込んでいく様子が見て取れる. GANは最も盛んに研究されている分野の一つであり, 今後のさらなる発展が楽しみである.

4.深層学習の新たな方向性

深層学習は特に画像や言語を対象として大きな成功 を収めているが,さらに扱える対象を拡大したり異なる 視点から定式化する研究も盛んである.ここでは NIPS 2017で発表されたものの中で著者が特に興味をもった ものをいくつか紹介するのみに留める. 会場でも話題となっていたものが CapsNet[Sabour 17]であり,これはスカラ値を返すニューロンを束ねて カプセルとしてベクトルで扱うことで表現力を高めよう とするモデルであり,特にカプセル間の結合を入出力の 内積に基づいて動的に決定するものである*3.このモデ ルの典型的な実験結果が図 5 であり,これは重なった数 字をモデルが適切に分離して認識することができていて 従来手法よりも高い性能を発揮している.これまでのモ デルでは表現できなかった関係性の把握に関して有用な モデルとなることが期待されている.

そのほかにも,集合を入力として扱える Deep Sets [Zaheer 17]や,Riemann 幾何に基づくニューラルネットの定式 化 [Hauser 17] や,再帰構造を使わず attention のみで 高い性能を発揮する The Transformer [Vaswani 17] な どは特に興味深いものであった.

深層学習の発展は広く深いものであり,GAN に続く ような衝撃的な発見がされることに期待したい.

◇ 参 考 文 献 ◇

[Arjovsky 17] Arjovsky, M., Soumith, C. and Lon, B.: Wasserstein gan, arXiv preprint arXiv.1701.07875(2017)

[Goodfellow 14] Goodfellow, I., et al.: Generative adversarial nets,

Advances in Neural Information Processing Systems(2014) [Goyal 17] Goyal, Priya, et al.: Accurate, large minibatch SGD:

Training imagenet in 1 hour, arXiv preprint arXiv:1706.02677 (2017)

[Hauser 17] Hauser, M. and Asok, R.: Principles of Riemannian geometry in neural networks, Advances in Neural Information

Processing Systems(2017)

[Hoffer 17] Hoffer, E., Itay, H. and Daniel, S.: Train longer, generalize better: Closing the generalization gap in large batch training of neural networks, Advances in Neural

Information Processing Systems(2017)

[Mescheder 17] Mescheder, L., Sebastian, N. and Andreas, G.: The numerics of gans, Advances in Neural Information Processing

Systems(2017)

[Nagarajan 17] Nagarajan, V. and J. Zico Kolter.: Gradient descent GAN optimization is locally stable, Advances in

Neural Information Processing Systems(2017)

[Sabour 17] Sabour, S. Nicholas, F. and Geoffrey, E. H.: Dynamic routing between capsules, Advances in Neural Information

Processing Systems(2017)

[Salimans 16] Salimans, T., et al.: Improved techniques for training gans, Advances in Neural Information Processing

Systems(2016)

[Smith 17] Smith, S. L. and Quoc, V.: A bayesian perspective on generalization and stochastic gradient descent, Proc. Second

Workshop on Bayesian Deep Learning(NIPS 2017)(2017) *3 正則化として reconstruction を採用するのは直感的には理解

しがたいが,現地で質問をしたらどちらかというと可視化用の 構造とのことだった.

図 5 CapsNet による MultiMnist の実験.[Sabour 17] より抜粋.

Rは reconstruction で用いた数字を表していて,L は実際の数字を表している

図 4 勾配の flow の図示.[Nagarajan 17] より抜粋. 上が正則化項なしで下が正則化項を入れた場合

(5)

[Vaswani 17] Vaswani, A., et al.: Attention is all you need,

Advances in Neural Information Processing Systems(2017) [Zaheer 17] Zaheer, M., et al.: Deep sets, Advances in Neural

Information Processing Systems(2017)

[Zhang 17] Zhang, C., et al.: Understanding deep learning requires rethinking generalization, arXiv preprint arXiv: 1611.03530(2016)

◇ 付   録 ◇

A.Langevin 方程式とその性質 物理になじみのない読者のために Langevin 方程式を簡単に解説 しておく.質量が m でランダム力η(t)を受ける粒子の一次元ブ ラウン運動を考えよう.この粒子は花粉を水に溶かした場合の微粒 子などに対応していて,速度 dx/dt = v においては摩擦力 (-1/γ)v が働くものとする(γは定数).ここでのランダム力としてはホワ イトノイズを考え,デルタ関数を用いて以下のように書ける(M は定数). η(t)η(t ) = 2M δ(t− t ) (A.1) この粒子の運動方程式は以下の形となり,これが Langevin 方程式 と呼ばれるものである. md2x dt2 =− 1 γ dx dt+ η(t) (A.2) まず << md2x dt2 1 γ dx dt という状況を考えれば,運動方程式で慣性項を無視することがで き(これを overdamped Langevin 方程式と呼ぶ),x(0)=0 と原 点を取ることで次の形式的な解を得る. x(t) = γ t 0 du η(u) (A.3) 両辺を 2 乗して期待値を取ることで,次の形を得る. [x(t)]2 = γ2 t 0 du t 0 du η(u)η(u ) = 2M γ2t := 2Dt (A.4) これがブラウン運動の重要な性質である.位置座標の二乗期待値 が t の一次であまり進まないという意味で酔歩などとも呼ばれる. 慣性項を無視しない場合は dx dt= v の解として次が得られる(基本的な微分方程式の解法なので興味 がある読者は調べてほしい). v(t) = e− 1 mγtv(0) + t 0 duη(u) m e −mγ1 (t−u) (A.5) 両辺を 2 乗して期待値を取る.cross term が 0 になることに気を 付ければ(v(0)と時刻 0 以降のランダム力に相関はない),以下 が得られる. m [v(t)]2 = e−mγ2t [v(0)]2 +M γ(1− e− 2t mγ) (A.6) 十分に時間が経過した(e-2t/(mγ)<<1)後,エネルギー等分配則 1 2m [v(t)]2 = 1 2kBT (kBはボルツマン定数,T は温度) を用いることで,最終的に以下の関係式が導ける. D = γkBT (A.7) これはランダム力で誘起される揺動と摩擦と温度で誘起される 散逸が関係付いているため揺動散逸定理と呼ばれ,Einstein の関係 式とも呼ばれる.ここでは完全に物理現象を対象に議論をしたが, このような議論は機械学習の枠組みにおいてもなされているもの であり,読者の方々にもいずれ役に立つ日が来るかもしれない. 2018年 6 月 15 日 受理

著 者 紹 介

菊田 遥平(正会員)は,前掲(Vol. 33, No. 5, p. 631)参照.

図 4  勾配の flow の図示.[Nagarajan 17] より抜粋.

参照

関連したドキュメント

By employing the theory of topological degree, M -matrix and Lypunov functional, We have obtained some sufficient con- ditions ensuring the existence, uniqueness and global

Li, “Simplified exponential stability analysis for recurrent neural networks with discrete and distributed time-varying delays,” Applied Mathematics and Computation, vol..

Marco Donatelli, University of Insubria Ronny Ramlau, Johan Kepler University Lothar Reichel, Kent State University Giuseppe Rodriguez, University of Cagliari Special volume

The generalized projective synchronization GPS between two different neural networks with nonlinear coupling and mixed time delays is considered.. Several kinds of nonlinear

We performed a series of simulations in order to investigate the following problems concerning the interconnection of artificial neurons by CGH: the influence on the behaviour of

子どもの学習従事時間を Fig.1 に示した。BL 期には学習への注意喚起が 2 回あり,強 化子があっても学習従事時間が 30

Sakamoto, Tsutomu (2002) Processing filler-gap constructions in Japanese: The case of empty subject sentences. Sakamoto, Tsutomu and Matthew Walenski (1998) The processing

参加者は自分が HLAB で感じたことをアラムナイに ぶつけたり、アラムナイは自分の体験を参加者に語っ たりと、両者にとって自分の