• 検索結果がありません。

深層学習および機械学習の数理

N/A
N/A
Protected

Academic year: 2021

シェア "深層学習および機械学習の数理"

Copied!
45
0
0

読み込み中.... (全文を見る)

全文

(1)

深層学習および機械学習の数理

鈴木大慈

東京大学大学院情報理工学系研究科数理情報学専攻 理研

AIP

2020

9

2

日〜

4

@

九州大学集中講義

1 / 37

(2)

Outline

1

カーネル法と

RKHS

における確率的最適化 再生核ヒルベルト空間の定義

再生核ヒルベルト空間における最適化

2

深層ニューラルネットワークとカーネル

(3)

Outline

1

カーネル法と

RKHS

における確率的最適化 再生核ヒルベルト空間の定義

再生核ヒルベルト空間における最適化

2

深層ニューラルネットワークとカーネル

3 / 37

(4)

線形回帰

デザイン行列

X = (Xij)Rn×p. Y = [y1, . . . ,yn]Rn.

真のベクトル

βRp:

モデル

: Y =+ξ.

リッジ回帰(Tsykonov 正則化)

βˆarg min

β∈Rp

1

n∥Xβ−Y∥22n∥β∥22.

変数変換

:

正則化項のため,

βˆKer(X)

.つまり,

βˆIm(X).

ある

αˆRn

が存在して,

βˆ=Xαˆ

と書ける.

(

等価な問題

) αˆarg min

α∈Rn

1

n∥XXα−Y∥22+λnα(XX)α.

(XX)ij=xixj

より,観測値

xi

xj

の内積さえ計算できればよい.

(5)

線形回帰

デザイン行列

X = (Xij)Rn×p. Y = [y1, . . . ,yn]Rn.

真のベクトル

βRp:

モデル

: Y =+ξ.

リッジ回帰(Tsykonov 正則化)

βˆarg min

β∈Rp

1

n∥Xβ−Y∥22n∥β∥22.

変数変換

:

正則化項のため,

βˆKer(X)

.つまり,

βˆIm(X).

ある

αˆRn

が存在して,

βˆ=Xαˆ

と書ける.

(

等価な問題

) αˆarg min

α∈Rn

1

n∥XXα−Y∥22+λnα(XX)α.

(XX)ij=xixj

より,観測値

xi

xj

の内積さえ計算できればよい.

4 / 37

(6)

リッジ回帰のカーネル化

リッジ回帰(変数変換版)

ˆ

α←arg min

α∈Rn

1

n∥(XX−Y∥22+λnα(XX)α.

(XX)ij=xixj

はサンプル

xi

xj

の内積.

カーネル法のアイディア

x

の間の内積を他の非線形な関数で置き換える:

xixj k(xi,xj).

この

k :Rp×RpR

をカーネル関数と呼ぶ

.

カーネル関数の満たすべき条件 対称性:

k(x,x) =k(x,x).

正値性

: ∑m

i=1

m

j=1αiαjk(xi,xj)0, (∀{xi}mi=1, i}mi=1, m).

逆にこの性質を満たす関数なら何でもカーネル法で用いて良い.

(7)

リッジ回帰のカーネル化

リッジ回帰(変数変換版)

ˆ

α←arg min

α∈Rn

1

n∥(XX−Y∥22+λnα(XX)α.

(XX)ij=xixj

はサンプル

xi

xj

の内積.

カーネル法のアイディア

x

の間の内積を他の非線形な関数で置き換える:

xixj k(xi,xj).

この

k :Rp×RpR

をカーネル関数と呼ぶ

.

カーネル関数の満たすべき条件 対称性:

k(x,x) =k(x,x).

正値性

: ∑m i=1

m

j=1αiαjk(xi,xj)0, (∀{xi}mi=1, i}mi=1, m).

逆にこの性質を満たす関数なら何でもカーネル法で用いて良い.

5 / 37

(8)

カーネルリッジ回帰

カーネルリッジ回帰

: K = (k(xi,xj))ni,j=1

として,

ˆ

α←arg min

β∈Rn

1

n∥Kα−Y∥22+λnαKα.

新しい入力

x

に対しては,

y=

n

i=1

k(x,xi) ˆαi

で予測.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-1 -0.5 0 0.5 1 1.5

カーネル関数

再生核ヒルベルト空間

(RKHS) k(x,x) Hk

ある

ϕ(x) :Rp→ Hk

が存在して,

k(x,x) =⟨ϕ(x), ϕ(x)Hk

. カーネルトリック

: n

i=1αiϕ(xi), ϕ(x)Hk =∑n

i=1αik(xi,x).

→カーネル関数の値さえ計算できれば良い.

(9)

カーネルリッジ回帰

カーネルリッジ回帰

: K = (k(xi,xj))ni,j=1

として,

ˆ

α←arg min

β∈Rn

1

n∥Kα−Y∥22+λnαKα.

新しい入力

x

に対しては,

y=

n

i=1

k(x,xi) ˆαi

で予測.

カーネル関数

再生核ヒルベルト空間

(RKHS) k(x,x) Hk

ある

ϕ(x) :Rp→ Hk

が存在して,

k(x,x) =⟨ϕ(x), ϕ(x)Hk

. カーネルトリック:

n

i=1αiϕ(xi), ϕ(x)Hk =∑n

i=1αik(xi,x).

→カーネル関数の値さえ計算できれば良い.

6 / 37

(10)

再生核ヒルベルト空間

(Reproducing Kernel Hilbert Space, RKHS)

入力データの分布:P

X

,対応する

L2

空間:L

2(PX) ={f |EXPX[f(X)2]<∞}.

カーネル関数は以下のように分解できる

(Steinwart and Scovel, 2012):

k(x,x) =

j=1

µjej(x)ej(x).

(ej)j=1

L2(PX)

内の正規直交基底:

ejL2(PX)= 1, ⟨ej,ejL2(PX)= 0 (j̸=j).

µj 0.

Definition ( 再生核ヒルベルト空間 ( H

k

))

⟨f,g⟩Hk :=∑

j=1 1

µjαjβj forf =∑

j=1αjej, g =∑

j=1βjej ∈L2(PX).

∥f∥Hk :=√

⟨f,f⟩Hk.

Hk :={f ∈L2(PX)| ∥f∥Hk <∞}equipped with⟨·,·⟩Hk.

再生性:

f ∈ Hk

に対して

f(x)

は内積の形で「再生」される:

f(x) =⟨f,k(x,·)Hk.

(11)

再生核ヒルベルト空間の性質

ϕk(x) =k(x,·)∈ Hk

と書けば,k(x,

x) =⟨ϕk(x), ϕk(x)Hk

と書ける.この

ϕk

を特徴写像とも言う.

カーネル関数に対応する積分作用素

Tk :L2(PX)→L2(PX):

Tkf :=

f(x)k(x)dPX(x).

先のカーネル関数の分解は

Tk

のスペクトル分解に対応.

再生核ヒルベルト空間

Hk

は以下のようにも書ける

: Hk =Tk1/2L2(PX).

∥f∥Hk = inf{∥h∥L2(PX)|f =Tk1/2h, h∈L2(PX)}. f ∈ Hk

f(x) =∑

j=1ajõjej(x)

と書けて,

∥f∥Hk =√∑

j=1a2j

(ej)j

L2

内の正規直交基底,

(õjej)j

RKHS

内の完全正規直交基底.

特徴写像

ϕk(x) =k(x,·)∈ Hk

を完全正規直交基底に関する係数で表現すると

ϕk(x) = (

µ1e1(x),

µ2e2(x), . . .)

8 / 37

(12)

再生核ヒルベルト空間のイメージ

非線形な推論を再生核ヒルベルト空間への非線形写像

ϕ

を用いて行う.

再生核ヒルベルト空間では線形な処理をする.

Reproducing Kernel Hilbert Space

カーネル法は第一層を固定し第二層目 のパラメータを学習する横幅無限大の

2

層ニューラルネットワークともみな せる.

(

浅い 学習手法の代表例)

(13)

カーネルリッジ回帰の再定式化

再生性:

f ∈ Hk

に対し

f(x) =⟨f, ϕ(x)⟩Hk.

カーネルリッジ回帰の再定式化

fˆ min

f∈Hk

1 n

n i=1

(yi−f(xi))2+C∥f∥2Hk

表現定理

∃αi R s.t. ˆf(x) =

n i=1

αik(xi,x),

⇒ ∥ˆf∥Hk =√∑n

i,j=1αiαjk(xi,xj) = αKα.

さきほどのカーネルリッジ回帰の定式化と一致.

10 / 37

(14)

カーネルの例

ガウシアンカーネル

k(x,x) = exp (

−∥x−x22

)

多項式カーネル

k(x,x) =(

1 +xx)p

χ2-カーネル

k(x,x) = exp (

−γ2d j=1

(xjxj)2 (xj+xj)

)

Mat´ern-kernel

k(x,x) =

Rd

e(xx) 1

(1 +∥λ∥2)α+d/2

グラフカーネル,時系列カーネル,...

(15)

Outline

1

カーネル法と

RKHS

における確率的最適化 再生核ヒルベルト空間の定義

再生核ヒルベルト空間における最適化

2

深層ニューラルネットワークとカーネル

12 / 37

(16)

再生核ヒルベルト空間内の確率的最適化 (1)

問題設定:

yi =fo(xi) +ξi.

(xi,yi)ni=1

から

fo

を推定したい.(f

o

Hk

にほぼ入っている) 期待損失の変形:

E[(f(X)−Y)2] =E[(f(X)−fo(X)−ξ)2] =E[(f(X)−fo(X))2] +σ2

minf∈HkE[(f(X)−Y)2]

を解けば

fo

が求まる.

期待損失の

Frechet

微分:

Kx =k(x)∈ Hk

とする.f

(x) =⟨f,KxHk

に気を付けると

L(f) =E[(f(X)−Y)2] =E[(⟨KX,f⟩Hk −Y)2]

RKHS

内での

Frechet

微分は以 下の通り:

∇L(f) = 2E[KX(⟨KX,f⟩Hk −Y)]

= 2(E[KXKX]

| {z }

=:Σ

f E[KXY])

= 2(Σf E[KXY]).

(17)

再生核ヒルベルト空間内の確率的最適化 (2)

L(f) =E[(f(X)−Y)2]

RKHS

内での

Frechet

微分:

∇L(f) = 2E[KX(⟨KX,f⟩Hk−Y)] = 2(E[KXKX]

| {z }

=:Σ

f E[KXY]) = 2(ΣfE[KXY]).

期待損失の勾配法:

ft=ft1−η2(Σft1E[KXY]).

経験損失の勾配法

(E[·]b

は標本平均

):

ˆft = ˆft1−η2(Σˆbft1Eb[KXY]).

確率的勾配による更新

:

gt=gt1−η2(KxitKx

itgt1−Kxityit).

(xit,yit)t=1

(xi,yi)ni=1

から

i.i.d.

一様に取得.

14 / 37

(18)

勾配のスムージングとしての見方

関数値の更新式:

ft(x) =ft1(x)−η2(Σft1E[KXY])(x)

=ft1(x)

k(x,X) (ft1(X)−Y)

| {z }

ft−1 (X)fo(X)

dP(X,Y)

=ft1(x)2ηTk(ft1−fo)(x).

積分作用素

Tk

は高周波成分を抑制する作用がある.

RKHS

内の勾配は

L2

内の関数勾配をT

k

によって平滑化したものになってい る.(実際は

Tk

のサンプルからの推定値を使う)

高周波成分が出てくる前に止めれば過学習を防げる.

Early stopping

迂闊に

Newton

法などを使うと危険.

(19)

Early stopping による正則化

Early stopping による正則化

初期値

訓練誤差最小化元

(過学習)

Early stopping

バイアス

-

バリアンス分解

∥foˆf∥L2(PX)

| {z }

Estimation error

≤ ∥fo−fˇL2(PX)

| {z }

Approximation error (bias)

+ˇf ˆf∥L2(PX)

| {z }

Sample deviation (variance)

訓練誤差最小化元に達する前に止める

(early stopping)

ことで正則化が働く.

無限次元モデル

(RKHS)

は過学習しやすいので気を付ける必要がある.

16 / 37

(20)

解析に用いる条件

通常,以下の条件を考える. (統計理論でも同様の仮定を課す定番の仮定)

(Caponnetto and de Vito, 2007, Dieuleveut et al., 2016, Pillaud-Vivien et al., 2018)

µi =O(iα) forα >1.

α

RKHSHk

の複雑さを特徴づける.

(

小さい

α:

複雑,大きい

α:

単純

) fo∈Tr(L2(PX)) forr >0.

fo

RKHS

からどれだけ

“はみ出ているか”

を特徴づけ.

r = 1/2

fo∈ Hk

に対応.(r

<1/2:

はみ出てる,

r 1/2:

含まれる)

∥f∥L(PX)∥f∥1L2(PµX)∥f∥µHk (∀f ∈ Hk) forµ∈(0,1].

Hk

に含まれている関数の滑らかさを特徴づけ. (小さい

µ:

滑らか)

※ 最後の条件について:

f ∈Wm([0,1]d) (Sobolev

空間) かつ

PX

の台が

[0,1]d

で密度関数を持ち,その密度が下からある定数

c>0

で抑えられていれば,

µ=d/(2m)

でなりたつ.

(21)

収束レート

バイアス

-

バリアンスの分解

:

∥fo−gt2L2(PX)∥fo−ft2L2(PX)

| {z }

(a):Bias

+∥ft−fˆt2L2(PX)

| {z }

(b):Variance

+ˆft−gt2L2(PX)

| {z }

(c):SGD deviation

(a) (ηt)2r, (b) (ηt)1/α+(ηt)n µ−2r, (c)η(ηt)1/α1

(a)

勾配法の解のデータに関する期待値と真の関数とのズレ

(Bias)

(b)

勾配法の解の分散

(Variance)

(c)

確率的勾配を用いることによる変動

.

更新数

t

を大きくすると

Bias

は減るが

Variance

が増える.これらをバランスす る必要がある

(Early stopping).

Theorem (Multi-pass SGD の収束レート (Pillaud-Vivien et al., 2018))

η= 1/(4 supxk(x,x)2)

とする.

µα <2rα+ 1< α

の時,

t = Θ(nα/(2rα+1))

とすれば,

E[L(gt)]−L(fo) =O(n2rα/(2rα+1)

).

µα≥2rα+ 1

の時,

t= Θ(nµ1(logn)µ1)

とすれば,

E[L(gt)]−L(fo) =O(n2r/µ).

18 / 37

(22)

Natural gradient の収束

Natural gradient (自然勾配法):

ˆft = ˆft1−η(Σ +λI)1(bΣˆft1Eb[KXY]).

(unlabeled data

が沢山あり

Σ

は良く推定できる設定

; GD

の解析

(Murata and Suzuki, 2020))

Theorem (Natural gradient の収束 (Amari et al., 2020))

E[∥fˆt−fo2L2(PX)]≲B(t) +V(t),

ただし,B(t

) =exp(−ηt)∨(λ/(ηt))2r,

V(t) =(1 +ηt)λ1B(t) +λα1

n +(1 +tη)4(1∨λ2rµα1

n .

特に,λ

=n2rα+1α , t= Θ(log(n))

E[ˆft−fo2L2(PX)] =O(n2rα+12rα log(n)4).

※ バイアスは急速に収束するが,バリアンスも速く増大する.

Preconditioning

のため高周波成分が早めに出現する.より早めに止め

ないと過学習する.

(23)

収束の様子

Natural gradient

Gradient descent Predictive error

Variance

Bias

Step

20 / 37

(24)

作用素 Bernstein の不等式

Σ =Ex[KxKx]: Σf =∫

k(·,x)f(x)dPx(x) Σ =b n1n

i=1KxiKxi: Σfb = 1nn

i=1k(·,xi)f(xi)

Σλ:= Σ +λI

F(λ) := supxKxΣλ1Kx

とする.以下のような評価が必要

:

Σλ1Σ)Σb λ1

F(λ)β

n +(1 +F(λ))β n with prob. 1−δ

.ただし,

β= log(4Tr[ΣΣδ −1λ ])

→ 経験分布と真の分布のずれをバウンド.

Theorem ( 自己共役作用素の Bernstein の不等式 (Minsker, 2017))

(Xi)ni=1

は独立な自己共役作用素の確率変数で

E[Xi] = 0

かつ,

σ2≥ ∥n

i=1E[Xi2]∥, U ≥ ∥Xi

とする.r

(A) =Tr[A]/∥A∥

として,

P (

n i=1

Xi ≥t

)

14r(∑n

i=1E[Xi2]) exp (

t2 2(σ2+tU/3)

) .

Xi= Σλ1KxiKx

iΣλ1

とする.

(Tropp (2012)

も参照)

(25)

正則化ありの確率的最適化

二乗損失を拡張して,一般の滑らかな凸損失関数

を考える. (判別問題など)

正則化ありの期待損失最小化:

min

f∈Hk

E[ℓ(Y,f(X))] +λ∥f∥2Hk =:Lλ(f).

これを

SGD

で解く.目的関数が

λ-強凸であることを利用.

gt+1=gt−ηt(ℓ(yt,gt(xt)) +λgt).

¯ gT+1=

T+1

t=1

2(c0+t1)

(2c0+T)(T+1)gt (

多項式平均

).

仮定:(i)

γ-平滑,∥ℓ≤M, (ii)k(x,x)≤1. gλ=argming∈H

kLλ(g).

Theorem (Nitanda and Suzuki (2019))

適切な

c0>0

に対して

ηt = 2/(λ(c0+t))

とすれば,

E[LλgT+1)−Lλ(gλ)]≲ M2

λ(c0+T)+ γ+λ

T+ 1∥g1−gλ2Hk.

さらにマルチンゲール確率集中不等式より

High probability bound

も得られる.

判別問題なら

strong low noise condition

のもと判別誤差の指数収束も示せる.

22 / 37

(26)

マルチンゲール Hoeffding の不等式

Theorem (マルチンゲール Hoeffding 型集中不等式 (Pinelis, 1994))

確率変数列: D

1, . . . ,DT ∈ Hk

E[Dt] = 0,∥DtHk ≤Rt (a.s.)

とする.

∀ϵ >0

に対し

P [

max

1tT

t

s=1

DsHk ≥ϵ ]

2 exp (

ϵ2 2∑T

t=1Rt2 )

.

Dt=E[¯gT+1|Z1, . . . ,Zt]E[¯gT+1|Z1, . . . ,Zt1],

ただし

Zt= (xt,yt)

とすれば,

T

t=1Dt= ¯gT+1E[¯gT+1]

となり,期待値と実 現値のずれを抑えられる.

(補足) Lλ

RKHS

ノルムに関して

λ-強凸であることより,

∥g¯T+1−gλHk ≤O( 1 λ2T)

が高い確率で成り立つ.実は

∥ · ∥≤ ∥ · ∥Hk

でもあるので,

|P(Y = 1|X)−P(Y =1|X)| ≥δ

なるマージン条件

(strong low noise

condition)

のもと,完全な判別が高い確率でできるようになる.

(27)

マルチンゲール Hoeffding の不等式

Theorem (マルチンゲール Hoeffding 型集中不等式 (Pinelis, 1994))

確率変数列: D

1, . . . ,DT ∈ Hk

E[Dt] = 0,∥DtHk ≤Rt (a.s.)

とする.

∀ϵ >0

に対し

P [

max

1tT

t

s=1

DsHk ≥ϵ ]

2 exp (

ϵ2 2∑T

t=1Rt2 )

.

Dt=E[¯gT+1|Z1, . . . ,Zt]E[¯gT+1|Z1, . . . ,Zt1],

ただし

Zt= (xt,yt)

とすれば,

T

t=1Dt= ¯gT+1E[¯gT+1]

となり,期待値と実 現値のずれを抑えられる.

(

補足

)Lλ

RKHS

ノルムに関して

λ-

強凸であることより,

∥g¯T+1−gλHk ≤O( 1 λ2T)

が高い確率で成り立つ.実は

∥ · ∥≤ ∥ · ∥Hk

でもあるので,

|P(Y = 1|X)−P(Y =1|X)| ≥δ

なるマージン条件

(strong low noise

condition)

のもと,完全な判別が高い確率でできるようになる.

23 / 37

(28)

( 参考 ) Strong low noise condition

(29)

Outline

1

カーネル法と

RKHS

における確率的最適化 再生核ヒルベルト空間の定義

再生核ヒルベルト空間における最適化

2

深層ニューラルネットワークとカーネル

25 / 37

(30)

Integral representation

Definition: η andψareadmissible if

∫ bψ(ζ)bη(ζ)

|ζ|d dζ <∞. (whereψ,b ηbare the Fourie traonsform ofψ,η).

Theorem (Sonoda and Murata (2015))

If f :Rd Rand its Fourie transorm are in L1(Rd), andη, ψ are admissible (e.g., η is ReLU), then

T(w,b) =

f(x)ψ(wx−b)∥x∥dx, f(x) =

T(w,b)∥w∥1η(wx−b)dwdb (integral form).

(31)

Integral representation of deep neural network

Finite sum form

fˆ(x) =∑m

j=1vjη(wjx+bj)

Integral form

fo(x) =∫

h(w,b)η(wx+b)dwdb

ˆf(x) =WLη(WL1η(WL2. . . η(W1x+b1) +b2. . .)))

fo(x) =fLo◦fLo1◦ · · · ◦f1o(x) fo[F](τ,x) =

ho(τ, τ)η(F(τ,x))dQ) +bo(τ).

Still universal approximator.

27 / 37

(32)

Detail of the integral form of DNN

Output to theℓ-th layer:

F(τ,x) =

Y

ho(τ, τ)

| {z }

Weight

η(F1,x))dQ) +bo(τ)

| {z }

Bias

.

This measures how much the inputx contains the featureτ at theℓ-th layer.

Y: the feature index space at theℓ-th layer (Generally continuous space).

Q: prob. measure onY

Examples of activation functions:

ReLU:η(u) = max{u,0} Sigmoid: η(u) = 1+exp(1u)

(33)

Illustration of continuous feature space

F(τ,x) =

Y

ho(τ, τ)

| {z }

Weight

η(F1,x))dQ) +bo(τ)

| {z }

Bias

.

The shape of the spaceY could be arbitrary.

(could be discrete and could be continuous)

29 / 37

(34)

Continuous feature in real

Distributed representation in a real DNN

(35)

Reproducing kernel Hilbert space on the ℓ-th layer

Construct an RKHS on each layer.

We can employ the theory of the kernel method.

F(τ,x): an output from theℓ-th layer to the feature τ in the next layer.

(F(τ,x) =

Yho(τ, τ)η(F1,x))dQ) +bo(τ).)

k(x,x) =

η(F1(τ,x))η(F1(τ,x))dQ(τ)

k defines an RKHSH.

For allf ∈ H, there exitsh∈L2(Q) andg ∈L2(P(X)) such that f(x) =

Y

h(τ)η(F1,x))dQ) =

k(x,x)g(x)dP(x)

∥f∥H =∥h∥L2(Q)=∥g∥L2(P(X))

(c.f., Bach (2015)).

31 / 37

(36)

Complexity of RKHS

Let

T:f 7→

k(·,x)f(x)dP(x).

Let the spectrum decomposition of kbe k(x,x) =

j=1

µ(ℓ)j ϕ(ℓ)j (x)ϕ(ℓ)j (x) inL2(P(X)×P(X)).

Definition

Thedegree of freedom ofF is defined as

N(λ) :=Tr[(T+λ)1T] =

j=1

µ(ℓ)j µ(ℓ)j +λ

.

N(λ) measurescomplexityof the RKHS.

This is very much related to the notion ofcovering numberof the RKHS.

(37)

Degree of freedom in kernel method

The degree of freedom appears to characterize the generalization error of kernel ridge regression.

ˆfλ=argmin

H

1 n

n

i=1

(yi−f(xi))2+λ∥f∥2H whereHis an RKHS with a bounded kernelk.

Proposition (Caponnetto and de Vito (2007))

If fo∈ H, then it holds that

ˆfλ−fo2L2(PX)≤C (

|{z}λ

bias

+ N(λ)

| {z }n

variance

) ,

with high probability. (N(λ) :=∑

j=1 µj

µj wherej)j=1 are the eigenvalues of the kernel)

Basically,λsatisfying

N(λ) n =λ gives the optimal rate.

33 / 37

(38)

Rough sketch ofN(λ).

Estimation error inN(λ) dimensional space: Nn(λ) Bias (residual): λ

(39)

Finite approximation via kernel quadrature

Theorem (Approximation error in RKHS H

)

Forλ >0, suppose that

m5N(λ) log(64N(λ)),

then there exist positive reals{τi}mi=1 ⊂ Y and(qj)mj=1 withm j=1

1

qj 2msuch that

sup

f:fHℓ1

βinf22m4

f

m

j=1

βjqj1/2η(F1j))

2

L2(P(X))

4λ.

Proof is given by a modification of Bach (2015).

The true function g can be approximated with precision λby a finite sum (m=O(N(λ) log(N(λ)))).

F(τ,x) =

Yho(τ, τ)η(F1,x))dQ) +bo(τ).

N(λ) =∑

j=1 µ(ℓ)j µ(ℓ)j

35 / 37

(40)

Finite approximation via kernel quadrature

Theorem (Approximation error in RKHS H

)

Forλ >0, suppose that

m5N(λ) log(64N(λ)),

then there exist positive reals{τi}mi=1 ⊂ Y and(qj)mj=1 withm

j=1 1

qj 2msuch that ifη is scale invariant (η(au) =aη(u) (∀a>0)),then

sup

f:fHℓ1

βinf22m4

f

m

j=1

βjη(qj 1/2F1j))

2

L2(P(X))

4λ.

Proof is given by a modification of Bach (2015).

The true function g can be approximated with precision λby a finite sum (m=O(N(λ) log(N(λ)))).

This reduces the complexity very much!

(41)

Assumption on norms

Now, we move to the deep neural network, and assume the following norm bound.

F(τ,x) =

Y

ho(τ, τ)

| {z }

Weight

η(F1,x))dQ) +bo(τ)

| {z }

Bias

.

supτ∈Yℓ+1∥ho(τ,·)L2(Q) ≤R (∀ℓ) (⇒ ∥F(τ,·)H ≤R)

∥bo≤Rb (∀ℓ)

36 / 37

(42)

Approximation error of deep NN

(degree of freedom) N(λ) =∑

j=1 µ(ℓ)j µ(ℓ)j . Integral form:

fo(g) =

ho(τ, τ)η(g(τ))dQ) +bo(τ), fo(x) =fLo◦fLo1◦ · · · ◦f1o(x),

Finite dimensional model:

f(g) =W(ℓ)η(g) +b(ℓ), f(x) =fL◦fL1◦ · · · ◦f1(x).

Theorem (Approximation error of deep NN)

For anyλ>0, δ >0,

m5N) log(32N)/δ) (width ofℓ-th layer)

⇒ ∃{W(ℓ),b(ℓ)}Lℓ=1 s.t. ∥fo−fL2(P(X))

L

ℓ=2

2

√ ˆ

cδL1RLλ

whereˆcδ= 4 1−δ,

moreover ∥W(ℓ)F ˆcδR,∥b(ℓ)∥ ≤Rb.

37 / 37

Illustration of continuous feature space F ℓ (τ, x) = ∫ Y ℓ h ℓ o (τ, τ ′ )| {z } Weight η(F ℓ − 1 (τ ′ , x))dQ ℓ (τ ′ ) + b oℓ (τ)| {z }Bias .

参照

関連したドキュメント

Proceedings of workshop on machine learning systems (LearningSys) in the twenty-ninth annual conference on neural information processing

Machine Learning Systems Engineering - Software Engineering for Machine Learning - FUYUKI ISHIKAWA†1 TAKEO IMAI†2 HIROSHI MARUYAMA†3 NOBUKAZU YOSHIOKA†1

[Nitanda&amp;Suzuki: Fast Convergence Rates of Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime,

Dual averaging and proximal gradient descent for online alternating direction multiplier method. Stochastic dual coordinate ascent with alternating direction method

In Proceedings of the International Conference on Machine Learning , volume 80 of Proceedings of Machine Learning Research , pages 3296–3305, 2018.. [15] Aranyak Mehta, Amin

and Bengio, Y.: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation, Proceedings of the 2014 Conference on Empirical Methods

[Gunasekar et al.: Implicit Bias of Gradient Descent on Linear Convolutional Networks, NIPS2018]. [Moroshko et al.: Implicit Bias in Deep Linear Classification: Initialization Scale

Mairal, Elad and Sapiro: Sparse Representation for Color Image Restoration. IEEE Transactions on Image Processing