• 検索結果がありません。

機械学習における最適化理論と学習理論的側面 第二部

N/A
N/A
Protected

Academic year: 2022

シェア "機械学習における最適化理論と学習理論的側面 第二部"

Copied!
52
0
0

読み込み中.... (全文を見る)

全文

(1)

機械学習における最適化理論と学習理論的側面

第二部: 非凸確率的最適化と再生核ヒルベルト空間の最適化

鈴木大慈

東京大学大学院情報理工学系研究科数理情報学専攻 理研AIP

2020年8月6日

@組合せ最適化セミナー2020 (COSS2020)

1 / 42

(2)

Outline

1 確率的最適化のより高度な話題 非凸関数の確率的最適化 構造的正則化の最適化

2 無限次元の確率的最適化:カーネル法 再生核ヒルベルト空間の定義

再生核ヒルベルト空間における最適化

2 / 42

(3)

非凸関数最小化

これまで紹介した凸最適化手法をそのまま当てはめても実用上は結構動く.

ただし,双対問題を解く方法はそのままでは適用できない.

ステップサイズを適切に選ぶ必要がある.

大域的最適化は難しい.微分が0になる停留点への収束は保証できる.

大域的最適化を厳密に行うにはアニーリングなどの方法を使う必要がある.

3 / 42

(4)

停留点と局所最適解

停留点

局所最適解

局所最適解

停留点

→大域的最適解でもある

4 / 42

(5)

非凸関数での SGD

目的関数:L(x) =Ez[ℓ(z,x)]. (下に有界,L= infxL(x)とする)

SGD

zt ∼P(Z)を観測.ℓt(x) :=ℓ(zt,x)とする.

gt ∈∂xt(xt1).

xt=xt1−ηtgt. 仮定

(A1) Lγ-平滑

(A2) E[∥gtE[gt]2] =σ2(確率的勾配の分散はσ2).

ηt = min { ˜

D σ

T,γ1 }

とすると(Ghadimi and Lan (2013)) min

1tTE[∥∇L(xt)2] γσ

√T (Df2

D˜ + ˜D )

+γ2Df2 T ,

ただし,Df =

2(L(x1)L)

γ . (微分が0へ収束してゆくことを保証)

左辺のmin1tTの代わりに,ˆt ∈ {1, . . . ,T}を一様分布に従って選んで E[∥∇L(xˆt)2]としても良い.

5 / 42

(6)

非凸 SVRG

min

x∈RpL(x) = min

x∈Rp

1 n

n i=1

i(x)

SVRGをそのまま非凸関数最適化に適用してよい.(ただしステップサイズとミニ バッチ数は適切に調整)

E[∥∇L(ˆx)∥2]≤ϵになるまでの更新回数T (Allen-Zhu and Hazan, 2016, Reddi et al., 2016)

iがγ-平滑の時:

T Ω (

n+n2/3 ϵ

) .

(普通の非確率的勾配法ならΩ(n/ϵ))

iγ-平滑かつL(x)−L(x)≤τ∥∇L(x)∥2 (∀x) (xは大域的最適解)の時 (Polyak- Lojasiewicz, PL条件):

T Ω (

(n+τn2/3)log(1/ϵ) )

.

(普通の非確率的勾配法ならΩ(τnlog(1/ϵ)))

6 / 42

(7)

鞍点回避の方法

単純な勾配法に雑音を乗せる(Jin et al., 2017a)

加速勾配法への適用(Jin et al., 2017b)

7 / 42

(8)

SARAH とその改良法

SSRGD (Li, 2019): SARAH +ノイズ付加による鞍点脱出

Simple Stochastic Recursive Gradient Descent (SSRGD)

Iterate the following fort = 1,2, . . . ,T:

1 鞍点脱出モードに入っておらず,∥∇L(xt)∥ ≤gthreshなら,

xt ←xt+ξUnif(Br(Rd)))として,鞍点脱出モードに入る.

2 y0=xt,v0=∇f(xt)

3 Fork = 1, . . . ,m,

1 yk=yk1−ηvk1 2 vk=b1

iIk(∇fi(yk)− ∇fi(yk−1)) +vk−1 (SARAH: variance reduction)

3 ある停止条件を満たしていたら鞍点脱出モードを止める.

4 xt+1 =ym Output: xT

SARAH: StochAstic Recursive grAdient algoritHm (Nguyen et al., 2017, Pham et al., 2020)

オンライン型の場合は∇Lの計算はサンプル平均にする B1

iIt∇fi(xt).

二次最適性も高い確率で保証

8 / 42

(9)

SARAH について

SARAH: v

k

=

1b

iIk

( f

i

(y

k

) − ∇ f

i

(y

k1

)) + v

k1

SVRG: v

k

=

b1

iIk

( f

i

(y

k

) − ∇ f

i

x)) + ˜ v

SVRGは内部ループの更新を進めると分散が大きくなる.

SARAHは内部ループの更新を進めても分散が大きくならないor 0に収束する

(強凸の場合)

→ 勾配が暴れず,一時最適性条件を満たす解を得やすい.

(凸最適化で目的関数値を見ている限りはこの違いが見にくい)

9 / 42

(10)

計算量の比較

ϵ-一次最適性条件: E[∥∇L(x)2]≤ϵ

δ-二次最適性条件: λmin(2L(x))≥ −δ(with high probability) オンライン型

手法 確率的勾配の計算数 最適性条件

GD O(nϵ) 1次

SVRG(Allen-Zhu and Hazan, 2016) O(n+n2/3ϵ ) 1次 SARAH(Pham et al., 2020) O(n+ϵn) 1次

SSRGD(Li, 2019) O(n+ϵn) 1次

PGD(Jin et al., 2017b) O(nϵ +δn4) 2次 SSRGD(Li, 2019) O(ϵn+δ4n+δn3) 2次

有限和型

手法 確率的勾配の計算数 最適性条件

SGD(Ghadimi and Lan, 2013) O(1/ϵ2) 1次

SVRG+(Li and Li, 2018) O(1/ϵ7/4) 1次 SARAH (Pham et al., 2020) O(1/ϵ3/2) 1次

SSRGD(Li, 2019) O(1/ϵ3/2) 1次

SSRGD(Li, 2019) O(ϵ3/21 +ϵδ13+ϵ1/21δ4) 2次

10 / 42

(11)

(参考) Strict saddle

深層学習などは停留点が多い.

目的関数がstrict saddle propertyという性質を満たしていれば,サドルポイ ントを回避することができる.

信頼領域法(Conn et al., 2000)や雑音を加えた確率的勾配法(Ge et al., 2015) はstrict saddleな目的関数の局所的最適解に到達する(Sun et al., 2015).

※ 解に雑音を加えることでサドルポイントから抜け出せる.

Strict saddle

二回微分可能な関数fstrict saddleであるとは,∀xで次のどれかが満たされ ている:

∥∇f(x)∥ ≥ϵ.

λmin(2f(x))≤ −γ.

あるxが存在して∥x−x∥ ≤δかつf(x)がxの近傍 {x| ∥x−x∥ ≤}で強凸関数.

E.g.,テンソル分解maxu∈Rp

⟨ ∑d

r=1ar4,u⊗u⊗u⊗u

arar =δr,rなら strict saddle.

11 / 42

(12)

線形制約ありの学習問題

minx

1 n

n i=1

fi(zix) +ψ(Bx)

min

x,y

1 n

n i=1

fi(zix) +ψ(y) s.t. y =Bx.

拡張ラグランジアン L(x,y, λ) = 1

n

i

fi(zix) +ψ(y) +λ(y−Bx)+ρ

2∥y−Bx∥2

infx,ysup

λ

L(x,y, λ) で最適解が求まる.

乗数法: Hestenes (1969), Powell (1969), Rockafellar (1976).

交互方向乗数法(ADMM): Gabay and Mercier (1976), Mota et al. (2011), He and Yuan (2012), Deng and Yin (2012), Hong and Luo (2012a) 確率的交互方向乗数法: SGD-ADMM (Suzuki, 2013, Ouyang et al., 2013), RDA-ADMM (Suzuki, 2013), SDCA-ADMM (Suzuki, 2014), SVRG-ADMM (Zheng and Kwok, 2016), ASVRG-ADMM (Liu et al., 2017). 12 / 42

(13)

構造的正則化の例

Overlapped group lassoψ(w) =˜ C

gG∥wg It is difficult to compute the proximal mapping.

Solution:

Prepareψ for which proximal mapping is easily computable.

Letψ(Bw) = ˜ψ(w), and utilize the proximal mapping w.r.t. ψ.

BTw

Decompose into independent groups:

Bw =

ψ(y) =C

gG

∥yg

prox(q|ψ) = (

qgmax {

1 C

∥qg∥,0 })

gG

13 / 42

(14)

その他の例

Graph guided regularization ψ(w˜ ) =C

(i,j)E

|wi−wj|. 1

2 4 3

5

x1

x2 x3 x4

x5

ψ(y) =C

eE

|ye|, y =Bw = (wi−wj)(i,j)E



ψ(Bw) = ˜ψ(w), prox(q|ψ) =

( qemax

{

1|qCe|,0 })

eE. Soft-Thresholding function.

14 / 42

(15)

構造的正則化に対する交互方向乗数法

minx {f(x) +ψ(Bw)} ⇔min

x,y{f(x) +ψ(y)s.t.y =Bx} L(x,y, λ) =f(x) +ψ(y) +λ(y−Bx) +ρ2∥y−Bx∥2 ただしf(x) =1n

fi(zix)

ADMM による構造的正則化学習

x(t)= arg min

x {f(x) +λ(t1)⊤(−Bx) +ρ

2∥y(t1)−Bx∥2} y(t)= arg min

y {ψ(y) +λ(t)⊤y+ρ

2∥y−Bx(t)2} (=prox(Bx(t)−λ(t)/ρ|ψ/ρ))

λ(t)=λ(t1)−ρ(Bx(t)−y(t)) yの更新は単純なψによる近接写像.

解析解.

一般的にはO(1/k)(He and Yuan, 2012),強凸ならば線形収束(Deng and Yin, 2012, Hong and Luo, 2012b)

15 / 42

(16)

SGD-ADMM

minxEZ[ℓ(x,Z)] +ψ(Bx)

拡張ラグランジアン: EZ[ℓ(x,Z)] +ψ(y) +λ(y−Bx) +ρ2∥y−Bx∥2. 通常のSGD:xt+1= arg minx

{⟨gt,x⟩+ ˜ψ(x) +1

t∥x−xt2}

(gt∈∂xℓ(xt,zt)).

SGD-ADMM

xt+1=argmin

x∈X

{

gtx−λt(Bx−yt) +ρ

2∥Bx−yt2+ 1

t∥x−xt2Gt

} ,

yt+1=argmin

y∈Y

{

ψ(y)−λt(Bxt+1−y) +ρ

2∥Bxt+1−y∥2}

λt+1t−ρ(Bxt+1−yt+1).

yt+1λt+1の更新は通常のADMMと同じ.

Gtは任意の正定値対称行列.

16 / 42

(17)

SGD-ADMM

minxEZ[ℓ(x,Z)] +ψ(Bx)

拡張ラグランジアン: EZ[ℓ(x,Z)] +ψ(y) +λ(y−Bx) +ρ2∥y−Bx∥2. 通常のSGD:xt+1= arg minx

{⟨gt,x⟩+ ˜ψ(x) +1

t∥x−xt2}

(gt∈∂xℓ(xt,zt)).

SGD-ADMM

xt+1=argmin

x∈X

{

gtx−λt(Bx−yt) +ρ

2∥Bx−yt2+ 1

t∥x−xt2Gt

} ,

yt+1=argmin

y∈Y

{

ψ(y)−λt(Bxt+1−y) +ρ

2∥Bxt+1−y∥2}

=prox(Bxt+1−λt/ρ|ψ), λt+1t−ρ(Bxt+1−yt+1).

yt+1λt+1の更新は通常のADMMと同じ.

Gtは任意の正定値対称行列.

16 / 42

(18)

RDA-ADMM

通常のRDA:wt+1= arg minw

{⟨¯gt,w⟩+ ˜ψ(w) +1

t∥w∥2}

gt =1t(g1+· · ·+gt))

RDA-ADMM

Let ¯xt =1tt

τ=1xτ, λ¯t= 1tt

τ=1λτ, y¯t = 1tt

τ=1yτ, g¯t= 1tt τ=1gτ.

xt+1=argmin

x∈X

{

¯

gtx−(Bλ¯t)x+ ρ

2t∥Bx∥2 +ρ(B¯xt−y¯t)Bx+ 1

t

∥x∥2Gt

} ,

yt+1=prox(Bxt+1−λt/ρ|ψ), λt+1t−ρ(Bxt+1−yt+1).

yt+1λt+1の更新は通常のADMMと同じ.

17 / 42

(19)

Convergence analysis

We bound the expected risk:

Expected risk

P(x) =EZ[ℓ(Z,x)] + ˜ψ(x).

Assumptions:

(A1) ∃G s.t. ∀g ∈∂xℓ(z,x) satisfies∥g∥ ≤G for allz,x.

(A2) ∃Ls.t. ∀g ∈∂ψ(y) satisfies∥g∥ ≤Lfor ally. (A3) ∃R s.t. ∀x ∈ X satisfies∥x∥ ≤R.

18 / 42

(20)

Convergence rate: bounded gradient

(A1) ∃G s.t. ∀g ∈∂xℓ(z,x) satisfies∥g∥ ≤G for allz,x.

(A2) ∃Ls.t. ∀g ∈∂ψ(y) satisfies∥g∥ ≤Lfor ally. (A3) ∃R s.t. ∀x ∈ X satisfies∥x∥ ≤R.

Theorem (Convergence rate of RDA-ADMM)

Under (A1), (A2),(A3), we have Ez1:T−1[P(¯xT)−P(x)] 1

T

T t=2

ηt1

2(t1)G2+ γ

ηT∥x2+K T.

Theorem (Convergence rate of SGD-ADMM)

Under (A1), (A2), (A3), we have

Ez1:T−1[P(¯xT)−P(x)]2T1T t=2max

{γ

ηt ηt−1γ ,0 }

R2 +T1T

t=1 ηt

2G2+KT. Both methods have convergence rateO

(1 T

)

by lettingηt =η0

√t for RDA-ADMM andηt=η0/√

t for SGD-ADMM.

19 / 42

(21)

有限和の問題

正則化あり訓練誤差の双対問題

A= [a1,a2, . . . ,an]Rp×n. minw

{1 n

n i=1

fi(ai w) +ψ(Bw) }

(P:主)

= min

x∈Rn,y∈Rd

{1 n

n i=1

fi(xi) +ψ (y

n

) Ax+By = 0 }

(D:双対)

最適性条件:

ai w∈ ∇fi(xi), 1

ny∈ ∇ψ(u)|u=Bw, Ax+By= 0.

⋆ 各座標xiは各観測値aiに対応.

20 / 42

(22)

SDCA-ADMM

拡張ラグランジアン:

L(x,y,w) :=∑n

i=1fi(xi) +(y/n)− ⟨w,Ax+By⟩+ρ2∥Ax+By∥2.

SDCA-ADMM

For eacht = 1,2, . . .

Choosei∈ {1, . . . ,n} uniformly at random, and update y(t)arg min

y

{L(x(t1),y,w(t1)) +1

2∥y−y(t1)2Q

}

xi(t)arg min

xi∈R

{L([xi;x\(ti1)],y(t),w(t1)) +1

2∥xi−xi(t1)2Gi,i

}

w(t)←w(t1)−ξρ{n(Ax(t)+By(t))(n1)(Ax(t1)+By(t1))}. Q,Gi,iはある条件を満たす正定値対称行列.

各更新でi-番目の座標xiのみ更新.

wの更新は気を付ける必要がある.

21 / 42

(23)

Outline

1 確率的最適化のより高度な話題 非凸関数の確率的最適化 構造的正則化の最適化

2 無限次元の確率的最適化:カーネル法 再生核ヒルベルト空間の定義

再生核ヒルベルト空間における最適化

22 / 42

(24)

再生核ヒルベルト空間上での最適化

( 後の Neural Tangent Kernel ともつながるので紹介 )

23 / 42

(25)

線形回帰

デザイン行列X = (Xij)Rn×p. Y = [y1, . . . ,yn]Rn. 真のベクトルβRp:

モデル: Y =+ξ.

リッジ回帰(Tsykonov正則化)

βˆarg min

β∈Rp

1

n∥Xβ−Y∥22n∥β∥22.

変数変換:  

正則化項のため,βˆKer(X).つまり,βˆIm(X). あるαˆRnが存在して,βˆ=Xαˆと書ける.

(等価な問題) αˆarg min

α∈Rn

1

n∥XXα−Y∥22+λnα(XX)α.

※(XX)ij=xixj より,観測値xixjの内積さえ計算できればよい.

24 / 42

(26)

線形回帰

デザイン行列X = (Xij)Rn×p. Y = [y1, . . . ,yn]Rn. 真のベクトルβRp:

モデル: Y =+ξ.

リッジ回帰(Tsykonov正則化)

βˆarg min

β∈Rp

1

n∥Xβ−Y∥22n∥β∥22. 変数変換:  

正則化項のため,βˆKer(X).つまり,βˆIm(X).

あるαˆRnが存在して,βˆ=Xαˆと書ける.

(等価な問題) αˆarg min

α∈Rn

1

n∥XXα−Y∥22+λnα(XX)α.

※(XX)ij=xixj より,観測値xixjの内積さえ計算できればよい.

24 / 42

(27)

リッジ回帰のカーネル化

リッジ回帰(変数変換版)

ˆ

α←arg min

α∈Rn

1

n∥(XX−Y∥22+λnα(XX)α.

※(XX)ij=xixj はサンプルxixjの内積.

カーネル法のアイディア

xの間の内積を他の非線形な関数で置き換える: xixj k(xi,xj). このk :Rp×RpRをカーネル関数と呼ぶ.

カーネル関数の満たすべき条件 対称性: k(x,x) =k(x,x). 正値性: ∑m

i=1

m

j=1αiαjk(xi,xj)0, (∀{xi}mi=1, i}mi=1, m).

逆にこの性質を満たす関数なら何でもカーネル法で用いて良い.

25 / 42

(28)

リッジ回帰のカーネル化

リッジ回帰(変数変換版)

ˆ

α←arg min

α∈Rn

1

n∥(XX−Y∥22+λnα(XX)α.

※(XX)ij=xixj はサンプルxixjの内積.

カーネル法のアイディア

xの間の内積を他の非線形な関数で置き換える:

xixj k(xi,xj).

このk :Rp×RpRをカーネル関数と呼ぶ.

カーネル関数の満たすべき条件 対称性: k(x,x) =k(x,x).

正値性: ∑m i=1

m

j=1αiαjk(xi,xj)0, (∀{xi}mi=1, i}mi=1, m).

逆にこの性質を満たす関数なら何でもカーネル法で用いて良い.

25 / 42

(29)

カーネルリッジ回帰

カーネルリッジ回帰: K = (k(xi,xj))ni,j=1として,

ˆ

α←arg min

β∈Rn

1

n∥Kα−Y∥22+λnαKα.

新しい入力xに対しては,

y=

n i=1

k(x,xi) ˆαi

で予測.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-1 -0.5 0 0.5 1 1.5

カーネル関数 再生核ヒルベルト空間 (RKHS) k(x,x) Hk

あるϕ(x) :Rp→ Hk が存在して, k(x,x) =⟨ϕ(x), ϕ(x)Hk. カーネルトリック: n

i=1αiϕ(xi), ϕ(x)Hk =∑n

i=1αik(xi,x).

→カーネル関数の値さえ計算できれば良い.

26 / 42

(30)

カーネルリッジ回帰

カーネルリッジ回帰: K = (k(xi,xj))ni,j=1として,

ˆ

α←arg min

β∈Rn

1

n∥Kα−Y∥22+λnαKα.

新しい入力xに対しては,

y=

n i=1

k(x,xi) ˆαi

で予測.

カーネル関数 再生核ヒルベルト空間 (RKHS) k(x,x) Hk

あるϕ(x) :Rp→ Hk が存在して,

k(x,x) =⟨ϕ(x), ϕ(x)Hk. カーネルトリック: n

i=1αiϕ(xi), ϕ(x)Hk =∑n

i=1αik(xi,x).

→カーネル関数の値さえ計算できれば良い.

26 / 42

(31)

再生核ヒルベルト空間

(Reproducing Kernel Hilbert Space, RKHS)

入力データの分布:PX,対応するL2空間:L2(PX) ={f |EXPX[f(X)2]<∞}. カーネル関数は以下のように分解できる(Steinwart and Scovel, 2012):

k(x,x) =

j=1

µjej(x)ej(x).

(ej)j=1L2(PX)内の正規直交基底: ejL2(PX)= 1, ⟨ej,ejL2(PX)= 0 (j̸=j).

µj 0.

Definition ( 再生核ヒルベルト空間 ( H

k

))

⟨f,g⟩Hk :=∑

j=1 1

µjαjβj forf =∑

j=1αjej, g =∑

j=1βjej ∈L2(PX).

∥f∥Hk :=√

⟨f,f⟩Hk.

Hk :={f ∈L2(PX)| ∥f∥Hk <∞}equipped with⟨·,·⟩Hk. 再生性: f ∈ Hk に対してf(x)は内積の形で「再生」される:

f(x) =⟨f,k(x,·)Hk.

27 / 42

(32)

再生核ヒルベルト空間の性質

ϕk(x) =k(x,·)∈ Hk

と書けば,k(x,x) =⟨ϕk(x), ϕk(x)Hkと書ける.このϕk を特徴写像とも言う.

カーネル関数に対応する積分作用素Tk :L2(PX)→L2(PX):

Tkf :=

f(x)k(x)dPX(x).

先のカーネル関数の分解はTk のスペクトル分解に対応.

再生核ヒルベルト空間Hkは以下のようにも書ける: Hk =Tk1/2L2(PX).

∥f∥Hk = inf{∥h∥L2(PX)|f =Tk1/2h, h∈L2(PX)}. f ∈ Hkf(x) =∑

j=1aj√µjej(x)と書けて,∥f∥Hk =√∑

j=1a2j (ej)jL2内の正規直交基底,(√µjej)jRKHS内の完全正規直交基底.

特徴写像ϕk(x) =k(x,·)∈ Hkを完全正規直交基底に関する係数で表現すると ϕk(x) = (

µ1e1(x),

µ2e2(x), . . .)

28 / 42

(33)

再生核ヒルベルト空間のイメージ

非線形な推論を再生核ヒルベルト空間への非線形写像ϕを用いて行う.

再生核ヒルベルト空間では線形な処理をする.

Reproducing Kernel Hilbert Space

カーネル法は第一層を固定し第二層目 のパラメータを学習する横幅無限大の 2層ニューラルネットワークともみな せる.

( 浅い 学習手法の代表例)

29 / 42

(34)

カーネルリッジ回帰の再定式化

再生性: f ∈ Hk に対し

f(x) =⟨f, ϕ(x)⟩Hk. カーネルリッジ回帰の再定式化

fˆ min

f∈Hk

1 n

n i=1

(yi−f(xi))2+C∥f∥2Hk

表現定理

∃αi R s.t. ˆf(x) =

n i=1

αik(xi,x),

⇒ ∥ˆf∥Hk =√∑n

i,j=1αiαjk(xi,xj) = αKα.

さきほどのカーネルリッジ回帰の定式化と一致.

30 / 42

(35)

カーネルの例

ガウシアンカーネル

k(x,x) = exp (

−∥x−x22

)

多項式カーネル

k(x,x) =(

1 +xx)p

χ2-カーネル

k(x,x) = exp (

−γ2d j=1

(xjxj)2 (xj+xj)

)

Mat´ern-kernel

k(x,x) =

Rd

e(xx) 1

(1 +∥λ∥2)α+d/2dλ グラフカーネル,時系列カーネル,...

31 / 42

(36)

再生核ヒルベルト空間内の確率的最適化

問題設定:

yi =fo(xi) +ξi.

(xi,yi)ni=1からfoを推定したい.(foHkにほぼ入っている) 期待損失の変形:

E[(f(X)−Y)2] =E[(f(X)−fo(X)−ξ)2] =E[(f(X)−fo(X))2] +σ2

→minf∈HkE[(f(X)−Y)2]を解けばfoが求まる.

Kx =k(x)∈ Hk とすると,f(x) =⟨f,KxHkよりL(f) =E[(f(X)−Y)2]の RKHS内でのFrechet微分は以下の通り:

∇L(f) = 2E[KX(⟨KX,f⟩Hk−Y)] = 2(E[KXKX]

| {z }

=:Σ

f E[KXY]) = 2(ΣfE[KXY]).

期待損失の勾配法:

ft=ft1−η2(Σft1E[KXY]).

経験損失の勾配法(E[·]b は標本平均):

ˆft = ˆft1−η2(Σˆbft1Eb[KXY]).

確率的勾配による更新:

gt=gt1−η2(KxitKx

itgt1−Kxityit).

※(xit,yit)t=1は(xi,yi)ni=1からi.i.d.一様に取得.

32 / 42

(37)

勾配のスムージングとしての見方

関数値の更新式:

ft(x) =ft1(x)

k(x,X) (ft1(X)−Y)

| {z }

ft−1 (X)fo(X)

dP(X,Y)

=ft1(x)2ηTk(ft1−fo)(x).

積分作用素Tk は高周波成分を抑制する作用がある.

RKHS内の勾配はL2内の関数勾配をTkによって平滑化したものになってい る.(実際はTk のサンプルからの推定値を使う)

高周波成分が出てくる前に止めれば過学習を防げる.

Early stopping

迂闊にNewton法などを使うと危険.

33 / 42

(38)

Early stopping による正則化

Early stopping による正則化

初期値

訓練誤差最小化元

(過学習)

Early stopping

バイアス-バリアンス分解

∥foˆf∥L2(PX)

| {z }

Estimation error

≤ ∥fo−fˇL2(PX)

| {z }

Approximation error (bias)

+ˇf ˆf∥L2(PX)

| {z }

Sample deviation (variance)

訓練誤差最小化元に達する前に止める(early stopping) ことで正則化が働く.

無限次元モデル(RKHS)は過学習しやすいので気を付ける必要がある.

34 / 42

(39)

解析に用いる条件

通常,以下の条件を考える.(統計理論でも同様の仮定を課す定番の仮定)

(Caponnetto and de Vito, 2007, Dieuleveut et al., 2016, Pillaud-Vivien et al., 2018)

µi =O(iα) forα >1.

αはRKHSHk の複雑さを特徴づける.(小さいα: 複雑,大きいα: 単純) fo∈Tr(L2(PX)) forr >0.

foがRKHSからどれだけ“はみ出ているか”を特徴づけ.

r = 1/2はfo∈ Hkに対応.(r <1/2: はみ出てる,r 1/2: 含まれる)

∥f∥L(PX)∥f∥1L2(PµX)∥f∥µHk (∀f ∈ Hk) forµ∈(0,1].

Hk に含まれている関数の滑らかさを特徴づけ.(小さいµ: 滑らか)

※ 最後の条件について: f ∈Wm([0,1]d) (Sobolev空間)かつPX の台が[0,1]d で密度関数を持ち,その密度が下からある定数c>0で抑えられていれば,

µ=d/(2m)でなりたつ.

35 / 42

(40)

収束レート

バイアス-バリアンスの分解:

∥fo−gt2L2(PX)∥fo−ft2L2(PX)

| {z }

(a):Bias

+∥ft−fˆt2L2(PX)

| {z }

(b):Variance

+ˆft−gt2L2(PX)

| {z }

(c):SGD deviation

(a) (ηt)2r, (b) (ηt)1/α+(ηt)n µ−2r, (c)η(ηt)1/α1 (a) 勾配法の解のデータに関する期待値と真の関数とのズレ(Bias) (b) 勾配法の解の分散(Variance)

(c) 確率的勾配を用いることによる変動.

更新数tを大きくするとBiasは減るがVarianceが増える.これらをバランスす る必要がある(Early stopping).

Theorem (Multi-pass SGD の収束レート (Pillaud-Vivien et al., 2018))

η= 1/(4 supxk(x,x)2)とする.

µα <2rα+ 1< αの時,t = Θ(nα/(2rα+1))とすれば,

E[L(gt)]−L(fo) =O(n2rα/(2rα+1)

).

µα≥2rα+ 1の時,t= Θ(nµ1(logn)µ1)とすれば,E[L(gt)]−L(fo) =O(n2r/µ).

36 / 42

(41)

Natural gradient の収束

Natural gradient (自然勾配法):

ˆft = ˆft1−η(Σ +λI)1(bΣˆft1Eb[KXY]).

(unlabeled dataが沢山ありΣは良く推定できる設定; GDの解析(Murata and Suzuki, 2020))

Theorem (Natural gradient の収束 (Amari et al., 2020))

E[∥fˆt−fo2L2(PX)]≲B(t) +V(t), ただし,B(t) =exp(−ηt)∨(λ/(ηt))2r,

V(t) =(1 +ηt)λ1B(t) +λα1

n +(1 +tη)4(1∨λ2rµα1

n .

特に,λ=n2rα+1α , t= Θ(log(n))でE[ˆft−fo2L2(PX)] =O(n2rα+12rα log(n)4).

※ バイアスは急速に収束するが,バリアンスも速く増大する.

→ Preconditioningのため高周波成分が早めに出現する.より早めに止め

ないと過学習する. 37 / 42

(42)

収束の様子

Natural gradient

Gradient descent Predictive error

Variance

Bias

Step

38 / 42

参照

関連したドキュメント

[文献] Ballarino, Gabriele and Fabrizio Bernardi, 2016, “The Intergenerational Transmission of Inequality and Education in Fourteen Countries: A Comparison,” Fabrizio Bernardi

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

 

小学校学習指導要領総則第1の3において、「学校における体育・健康に関する指導は、児

経済学研究科は、経済学の高等教育機関として研究者を

Concurrent Education in mechanical engineering using PBL at Kokushikan University.. Toshio Otaka *1 , Ken Kishimoto *1 , Yasuhiro Honda *1 , Tomoaki

国際地域理解入門B 国際学入門 日本経済基礎 Japanese Economy 基礎演習A 基礎演習B 国際移民論 研究演習Ⅰ 研究演習Ⅱ 卒業論文

課題 学習対象 学習事項 学習項目 学習項目の解説 キーワード. 生徒が探究的にか