• 検索結果がありません。

IBISML @ 2011 3 29 FastConvergenceRateofMultipleKernelLearningwithElastic-NetRegularization .......

N/A
N/A
Protected

Academic year: 2021

シェア "IBISML @ 2011 3 29 FastConvergenceRateofMultipleKernelLearningwithElastic-NetRegularization ......."

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

.

... .

.

.

Fast Convergence Rate of Multiple Kernel Learning with Elastic-Net Regularization

鈴木 大慈 冨岡 亮太 杉山 将

東京大学大学院 情報理工学系研究科

東京工業大学大学院 情報理工学研究科

2011年3月29日

IBISML研究会@大阪

(2)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Outline

. .1. Introduction MKLとその拡張 本研究の概要

. .2. Mixed-Norm-Elasticnet-MKL 準備

Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート

. .4. Conclusion

(3)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Outline

. .1. Introduction MKLとその拡張 本研究の概要

. .2. Mixed-Norm-Elasticnet-MKL 準備

Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート

. .4. Conclusion

(4)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

MKLとその拡張

教師有りカーネル法

カーネル関数 ⇔ 再生核ヒルベルト空間 (RKHS) k(x,x) Hk

教師有り学習問題 ˆf min

f∈Hk

1 n

n

i=1

ℓ(yi,f(xi)) +C∥f∥Hk

表現定理

∃αi R s.t. ˆf(x) =

n

i=1

αik(xi,x)

(5)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

MKLとその拡張

カーネルの選択

カーネル法の良い点:データの構造をカーネルに詰め込める.

Challenge:どのようなカーネルを用いるか?

ガウシアン,多項式,カイ二乗,… 沢山の特徴量の候補

→ Multiple Kernel Leaning:

凸最適化でカーネルを選択・統合

(6)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

MKLとその拡張

Multiple Kernel Learning

Single Kernel Learning ˆf min

f∈Hk

1 n

n

i=1

ℓ(yi,f(xi)) +C∥f∥Hk

Multiple Kernel Learning (Lanckriet et al., 2004; Bach et al., 2004) ˆf =

M

m=1

ˆfm min

fm∈Hm

1 n

n

i=1

(

yi,

M

m=1

fm(xi) )

+C

M

m=1

∥fmHm

(Hm: カーネルkmに対応したRKHS) Group Lassoの無限次元への拡張 スパースな解

表現定理により有限次元最適化で解ける(Sonnenburg et al., 2006;

Rakotomamonjy et al., 2008; Suzuki & Tomioka, 2009)

(7)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

MKLとその拡張

様々な正則化

L1-MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース

min

fm∈Hm

L ( M

m=1

fm

) +C

M m=1

∥fmHm

L2-MKL:デンス

min

fm∈Hm

L ( M

m=1

fm

) +C

M m=1

∥fm2Hm

Elasticnet-MKL (Tomioka & Suzuki, 2009)

min

fm∈Hm

L ( M

m=1

fm

) +C1

M m=1

∥fmHm+C2

M m=1

∥fm2Hm

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)

fmmin∈Hm

L ( M

m=1

fm

) +C1

M m=1

∥fm2n+C2∥fm2Hm+C3

M m=1

∥fm2Hm ただし,∥f∥2n:=1nn

i=1f(xi)2.

(8)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

MKLとその拡張

様々な正則化

L1-MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース

min

fm∈Hm

L ( M

m=1

fm

) +C

M m=1

∥fmHm

L2-MKL:デンス

min

fm∈Hm

L ( M

m=1

fm

) +C

M m=1

∥fm2Hm

Elasticnet-MKL (Tomioka & Suzuki, 2009)

min

fm∈Hm

L ( M

m=1

fm

) +C1

M m=1

∥fmHm+C2

M m=1

∥fm2Hm

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)

fmmin∈Hm

L ( M

m=1

fm

) +C1

M m=1

∥fm2n+C2∥fm2Hm+C3

M m=1

∥fm2Hm ただし,∥f∥2n:=1nn

i=1f(xi)2.

(9)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

MKLとその拡張

様々な正則化

L1-MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース

min

fm∈Hm

L ( M

m=1

fm

) +C

M m=1

∥fmHm

L2-MKL:デンス

min

fm∈Hm

L ( M

m=1

fm

) +C

M

m=1

∥fm2Hm

Elasticnet-MKL (Tomioka & Suzuki, 2009)

min

fm∈Hm

L ( M

m=1

fm

) +C1

M m=1

∥fmHm+C2

M m=1

∥fm2Hm

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)←本日のターゲット

fmmin∈Hm

L ( M

m=1

fm

) +C1

M m=1

∥fm2n+C2∥fm2Hm+C3

M m=1

∥fm2Hm ただし,∥f∥2n:=1nn

i=1f(xi)2.

(10)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

本研究の概要

本日のお題

Mixed-Norm-Elasticnet-MKLの汎化誤差を導出.

既存のレートよりタイトなことを示す.

これからはregression

L(f) = 1 n

n

i=1

(f(xi)−yi)2

を仮定.

真の関数を

f(x) =

M

m=1

fm(x)(=E[Y|x]) と書く.

(11)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

本研究の概要

既存の研究

ˆf−f2L2の収束レート,dは真の非ゼロ要素の数d=|{m|∥fmHm̸=0}|. L1-MKL (Koltchinskii & Yuan, 2008):

Op

(

d1−s1+sn1+s1 +dlog(M) n

)

Mixed-Norm-Elasticnet-MKL (Meier et al., 2009): mini-maxでは ない.

Op

( d

(log(M) n

)1+s1 )

Mixed-Norm-L1-MKL (Koltchinskii & Yuan, 2010): mini-maxレート 達成,正則化項は∑

m(C1∥fmn+C2∥fmHm) Op

(

dn1+s1 +dlog(M) n

)

Mini-maxレート(Raskutti et al., 2009) Op

(

dn1+s1 +dlog(M/d) n

)

(12)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

本研究の概要

我々の結果(概要)

Mixed-Norm-Elasticnet-MKLの収束レート:

ˆf −f2L2 =Op

(

d1+q+s1+q n1+q+s1+q R

2s 1+q+s

2 +dlog(M) n

) .

既存のレートよりタイト

真の関数fの滑らかさqを導入

真の関数fの“ノルム”R2との関係を解明

2ボール上でmini-max最適(既存のはボール上で最適)

(13)

. . . . . . . . . .. . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

本研究の概要

既存の結果との関係

滑らかさ(q) 最適性 収束レート K&Y (2008) q= 1 ? d1−s1+sn1+s1 +dlog(M)n

Meier et al. (2009) q= 0 × d

(log(M) n

) 1

1+s

K&Y (2010) q= 0 -ball dn1+s1 +dlog(M)n IBIS2010 0≤q≤1 -ball dn1+q+s1+q +dlog(M)n

今回 0≤q≤1 2-ball (d

n

) 1+q

1+q+sR

2s 1+q+s

2 +dlog(M)n

より速く,より一般的

(14)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Outline

. .1. Introduction MKLとその拡張 本研究の概要

. .2. Mixed-Norm-Elasticnet-MKL 準備

Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート

. .4. Conclusion

(15)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

準備

真がスパースであると仮定.

I0:={m| ∥fmHm ̸= 0}

∥fmHm >0 (m∈I0),

∥fmHm = 0 (m∈I0c).

d=|I0|(真の非ゼロ要素の数)とおく.

(16)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

準備

Spectrum Condition (s)

0<s<1: モデルの複雑さを表わす.

Mercerの定理による分解:

km(x,x) =∑

ℓ=1µℓ,mϕℓ,m(x)ϕℓ,m(x) ただし,{ϕℓ,m}ℓ=1L2(P)内のONS.

.Spectrum Condition (s) .

.

... .

.

.

ある実数0<s<1が存在して,

µℓ,m≤Cℓ1s (∀ℓ,m).

sはRKHSの複雑さを表わす.

sが大きいと複雑,sが小さいと単純 .Proposition (Steinwart et al. (2009)) .

.

... .

. .µℓ,m∼ℓ1s ⇔N(B(Hm), ϵ,L2(P))∼ϵ2s

(17)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

準備

Convolution Condition (q)

0≤q≤1: 真fの滑らかさを表わす.

Σm:Hm→ Hm⟨f,Σmg⟩Hm :=E[f(X)g(X)]なるものと定義する.

.Convolution Condition (q) (Caponnetto & de Vito, 2007) .

.

... .

.

.

ある実数0≤q≤1とgm ∈ Hmが存在して,

fm= Σq/2m gm と表せる.

km(q/2)(x,x) :=∑

ℓ=1µq/2ℓ,mϕℓ,m(x)ϕℓ,m(x)に対して,

fm(x) =

km(q/2)(x,x)gm(x)dP(x), と書けることと同値.

(18)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

準備

sq の関係

f * モデル

(a)s大,q= 0

f * モデル

(b)s大,q>0

f*

モデル

(c)s小,q>0

(19)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

準備

Incoherece Condition

.Incoherece Condition (Koltchinskii & Yuan, 2008; Meier et al., 2009) .

.

... .

.

.

ある定数0<Cが存在して,

0<C < κ(I0)(1−ρ2(I0)).

κ(I) := sup {

κ≥0|κ≤

mIfm2L2

mI∥fm2L2, ∀fm∈ Hm(m∈I) }

,

ρ(I) := sup

{ ⟨fI,gIcL2

∥fIL2∥gIcL2

|fI ∈ HI,gIc ∈ HIc,fI ̸= 0,gIc ̸= 0 }

. I0の内側とも外側とも見分けがつく.

(20)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

準備

その他の条件

.Basic Condition .

.

... .

.

.

E[Y|X] =f(X) =∑M

m=1fm(X)であり,ノイズϵ:=Y −f(X)は 有界:|ϵ| ≤L.

supX∈X|km(X,X)| ≤1 (∀m).

.-norm Bound Condition .

.

... .

.

.

Spectrum Condition (s)と同時に次の不等式が満たされている:

∥fm≤C∥fm1L2(P)s ∥fmsHm.

Gaussianカーネルなど,Sobolev空間に埋め込める空間はこれが成り

立っている.Mendelson and Neeman (2010); Steinwart et al. (2009)で 詳細な議論がされている.

(21)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Mixed-Elasticnet-MKLの収束レート

我々の結果: Mixed-Norm-Elasticnet-MKL の収束レート

fmmin∈Hm

L (M

m=1

fm

) +λ(n)1

M m=1

∥fm2n+λ(n)2 ∥fm2Hm+λ(n)3

M m=1

∥fm2Hm. .Theorem

. .

... .

.

.

Spectrum Condition (s), Convolution Condition (q), Incoherence

Condition, Basic Condition,∞-norm Bound Conditionのもと,十分大き なnにおいて,あるパラメータλ(n)1 (n)2 , λ(n)3 の値のもと,

ˆf −f2L2 ≤C (

d1+q+s1+q n1+q+s1+q R

2s 1+q+s

2,g +dlog(M) n

) η(t)2, が確率1−ent−en (∀t 1)で成り立つ.

ただしη(t) := max(√ t,t/√

n)であり,R2,g を次のように定義する:

R2,g :=

(M

m=1

∥gm2Hm )12

.

(22)

. . . . . . . . . .

Introduction

. . . .. .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Mixed-Elasticnet-MKLの収束レート

Bound の比較

q= 0として具体的に比較

Koltchinskii and Yuan (2010)のレート: dn1+s1 +dlog(M)n . 我々のレート:d1+q+s1+q n1+q+s1+q R

2s 1+q+s

2,g +dlog(M)n .

.

.1. fmHm = 1 (m= 1, . . . ,d): 大きさ一様 我々のレート:dn1+s1 +dlog(M)n

→Koltchinskii and Yuan (2010)と同じ.

.

.2. ∥fmHm =m1(m= 1, . . . ,d): 大きさ急減衰 我々のレート:d1+s1 n1+s1 +dlog(M)n

→Koltchinskii and Yuan (2010)よりd1+ss 倍だけ速い.

1 2

(23)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Outline

. .1. Introduction MKLとその拡張 本研究の概要

. .2. Mixed-Norm-Elasticnet-MKL 準備

Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート

. .4. Conclusion

(24)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Mini-max レート

Mini-maxレート:どんな推定法も 超えられないレート.

fm= Σ

q

m2gmに注意する.

.

.1. (∑Mm=1∥gm2Hm)12

≤R2(gが半径R22ボールに含まれる)

d1+q+s1+q n1+q+s1+q R

2s 1+q+s

2 +dlog(M/d) n

→我々のレートに一致.

.

.2. maxmgmHm ≤R(gが半径Rボールに含まれる)

dn1+q+s1+q R

2s 1+q+s

+dlog(M/d) n

q= 0,R= 1のとき,Koltchinskii and Yuan (2010)のレートに 一致.

(25)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Outline

. .1. Introduction MKLとその拡張 本研究の概要

. .2. Mixed-Norm-Elasticnet-MKL 準備

Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート

. .4. Conclusion

(26)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Conclusion

Mixed-Norm-Elasticnet–MKLの収束レートを導出.

既存研究よりタイトなレートを導出.

fの滑らかさqを導入.

導出されたレートは2ボール上のmini-maxレートを達成.

本研究のプレプリント(arXiv): http://arxiv.org/abs/1103.0431 slide: http://www.simplex.t.u-tokyo.ac.jp/˜s-taiji/data/IBISML2011.pdf

(27)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Bach, F., Lanckriet, G., & Jordan, M. (2004). Multiple kernel learning, conic duality, and the SMO algorithm. the 21st International Conference on Machine Learning(pp. 41–48).

Caponnetto, A., & de Vito, E. (2007). Optimal rates for regularized least-squares algorithm. Foundations of Computational Mathematics, 7, 331–368.

Koltchinskii, V., & Yuan, M. (2008). Sparse recovery in large ensembles of kernel machines. Proceedings of the Annual Conference on Learning Theory(pp. 229–238).

Koltchinskii, V., & Yuan, M. (2010). Sparsity in multiple kernel learning.

The Annals of Statistics,38, 3660–3695.

Lanckriet, G., Cristianini, N., Ghaoui, L. E., Bartlett, P., & Jordan, M.

(2004). Learning the kernel matrix with semi-definite programming.

Journal of Machine Learning Research,5, 27–72.

Meier, L., van de Geer, S., & B¨uhlmann, P. (2009). High-dimensional additive modeling. The Annals of Statistics,37, 3779–3821.

Mendelson, S., & Neeman, J. (2010). Regularization in kernel learning.

The Annals of Statistics,38, 526–565.

Rakotomamonjy, A., Bach, F., Canu, S., & Y., G. (2008). SimpleMKL.

Journal of Machine Learning Research,9, 2491–2521.

(28)

. . . . . . . . . .

Introduction

. . . .

Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References

Raskutti, G., Wainwright, M., & Yu, B. (2009). Lower bounds on minimax rates for nonparametric regression with additive sparsity and smoothness. InAdvances in neural information processing systems 22, 1563–1570. Cambridge, MA: MIT Press.

Sonnenburg, S., R¨atsch, G., Sch¨afer, C., & Sch¨olkopf, B. (2006). Large scale multiple kernel learning. Journal of Machine Learning Research, 7, 1531–1565.

Steinwart, I., Hush, D., & Scovel, C. (2009). Optimal rates for regularized least squares regression. Proceedings of the Annual Conference on Learning Theory(pp. 79–93).

Suzuki, T., & Tomioka, R. (2009). SpicyMKL. arXiv:0909.5026.

Tomioka, R., & Suzuki, T. (2009). Sparsity-accuracy trade-off in MKL.

NIPS 2009 Workshop:: Understanding Multiple Kernel Learning Methods. Whistler. arXiv:1001.2615.

参照

関連したドキュメント

From the geometrical point of view, the GLA in which the learning rate is 2 can be expressed as the algorithm in which the connection weight vector is updated to the symmetric

Different from the tradition LS algorithm, the SDLS introduced stochastic dynamics into the local search that permits temporary increase of error function, thus resulting in escape

Wu, “A generalisation model of learning and deteriorating effects on a single-machine scheduling with past-sequence-dependent setup times,” International Journal of Computer

Our aim was not to come up with something that could tell us something about the possibilities to learn about fractions with different denominators in Swedish and Hong

Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and

Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and

BOUNDARY INVARIANTS AND THE BERGMAN KERNEL 153 defining function r = r F , which was constructed in [F2] as a smooth approx- imate solution to the (complex) Monge-Amp` ere

The Representative to ICMI, as mentioned in (2) above, should be a member of the said Sub-Commission, if created. The Commission shall be charged with the conduct of the activities