. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
.
... .
.
.
Fast Convergence Rate of Multiple Kernel Learning with Elastic-Net Regularization
†鈴木 大慈 †冨岡 亮太 ‡杉山 将
†東京大学大学院 情報理工学系研究科
‡東京工業大学大学院 情報理工学研究科
2011年3月29日
IBISML研究会@大阪
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Outline
. .1. Introduction MKLとその拡張 本研究の概要
. .2. Mixed-Norm-Elasticnet-MKL 準備
Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート
. .4. Conclusion
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Outline
. .1. Introduction MKLとその拡張 本研究の概要
. .2. Mixed-Norm-Elasticnet-MKL 準備
Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート
. .4. Conclusion
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
MKLとその拡張
教師有りカーネル法
カーネル関数 ⇔ 再生核ヒルベルト空間 (RKHS) k(x,x′) ⇔ Hk
教師有り学習問題 ˆf ← min
f∈Hk
1 n
∑n
i=1
ℓ(yi,f(xi)) +C∥f∥Hk
表現定理
∃αi ∈R s.t. ˆf(x) =
∑n
i=1
αik(xi,x)
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
MKLとその拡張
カーネルの選択
カーネル法の良い点:データの構造をカーネルに詰め込める.
Challenge:どのようなカーネルを用いるか?
ガウシアン,多項式,カイ二乗,… 沢山の特徴量の候補
→ Multiple Kernel Leaning:
凸最適化でカーネルを選択・統合
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
MKLとその拡張
Multiple Kernel Learning
Single Kernel Learning ˆf ← min
f∈Hk
1 n
∑n
i=1
ℓ(yi,f(xi)) +C∥f∥Hk
Multiple Kernel Learning (Lanckriet et al., 2004; Bach et al., 2004) ˆf =
∑M
m=1
ˆfm← min
fm∈Hm
1 n
∑n
i=1
ℓ (
yi,
∑M
m=1
fm(xi) )
+C
∑M
m=1
∥fm∥Hm
(Hm: カーネルkmに対応したRKHS) Group Lassoの無限次元への拡張 スパースな解
表現定理により有限次元最適化で解ける(Sonnenburg et al., 2006;
Rakotomamonjy et al., 2008; Suzuki & Tomioka, 2009)
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
MKLとその拡張
様々な正則化
L1-MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
min
fm∈Hm
L ( M
∑
m=1
fm
) +C
∑M m=1
∥fm∥Hm
L2-MKL:デンス
min
fm∈Hm
L ( M
∑
m=1
fm
) +C
∑M m=1
∥fm∥2Hm
Elasticnet-MKL (Tomioka & Suzuki, 2009)
min
fm∈Hm
L ( M
∑
m=1
fm
) +C1
∑M m=1
∥fm∥Hm+C2
∑M m=1
∥fm∥2Hm
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)
fmmin∈Hm
L ( M
∑
m=1
fm
) +C1
∑M m=1
√∥fm∥2n+C2∥fm∥2Hm+C3
∑M m=1
∥fm∥2Hm ただし,∥f∥2n:=1n∑n
i=1f(xi)2.
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
MKLとその拡張
様々な正則化
L1-MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
min
fm∈Hm
L ( M
∑
m=1
fm
) +C
∑M m=1
∥fm∥Hm
L2-MKL:デンス
min
fm∈Hm
L ( M
∑
m=1
fm
) +C
∑M m=1
∥fm∥2Hm
Elasticnet-MKL (Tomioka & Suzuki, 2009)
min
fm∈Hm
L ( M
∑
m=1
fm
) +C1
∑M m=1
∥fm∥Hm+C2
∑M m=1
∥fm∥2Hm
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)
fmmin∈Hm
L ( M
∑
m=1
fm
) +C1
∑M m=1
√∥fm∥2n+C2∥fm∥2Hm+C3
∑M m=1
∥fm∥2Hm ただし,∥f∥2n:=1n∑n
i=1f(xi)2.
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
MKLとその拡張
様々な正則化
L1-MKL (Lanckriet et al., 2004; Bach et al., 2004):スパース
min
fm∈Hm
L ( M
∑
m=1
fm
) +C
∑M m=1
∥fm∥Hm
L2-MKL:デンス
min
fm∈Hm
L ( M
∑
m=1
fm
) +C
∑M
m=1
∥fm∥2Hm
Elasticnet-MKL (Tomioka & Suzuki, 2009)
min
fm∈Hm
L ( M
∑
m=1
fm
) +C1
∑M m=1
∥fm∥Hm+C2
∑M m=1
∥fm∥2Hm
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009)←本日のターゲット
fmmin∈Hm
L ( M
∑
m=1
fm
) +C1
∑M m=1
√∥fm∥2n+C2∥fm∥2Hm+C3
∑M m=1
∥fm∥2Hm ただし,∥f∥2n:=1n∑n
i=1f(xi)2.
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
本研究の概要
本日のお題
Mixed-Norm-Elasticnet-MKLの汎化誤差を導出.
既存のレートよりタイトなことを示す.
これからはregression
L(f) = 1 n
∑n
i=1
(f(xi)−yi)2
を仮定.
真の関数を
f∗(x) =
∑M
m=1
fm∗(x)(=E[Y|x]) と書く.
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
本研究の概要
既存の研究
∥ˆf−f∗∥2L2の収束レート,dは真の非ゼロ要素の数d=|{m|∥fm∗∥Hm̸=0}|. L1-MKL (Koltchinskii & Yuan, 2008):
Op
(
d1−s1+sn−1+s1 +dlog(M) n
)
Mixed-Norm-Elasticnet-MKL (Meier et al., 2009): mini-maxでは ない.
Op
( d
(log(M) n
)1+s1 )
Mixed-Norm-L1-MKL (Koltchinskii & Yuan, 2010): mini-maxレート 達成,正則化項は∑
m(C1∥fm∥n+C2∥fm∥Hm) Op
(
dn−1+s1 +dlog(M) n
)
Mini-maxレート(Raskutti et al., 2009) Op
(
dn−1+s1 +dlog(M/d) n
)
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
本研究の概要
我々の結果(概要)
Mixed-Norm-Elasticnet-MKLの収束レート:
∥ˆf −f∗∥2L2 =Op
(
d1+q+s1+q n−1+q+s1+q R
2s 1+q+s
2 +dlog(M) n
) .
既存のレートよりタイト
真の関数f∗の滑らかさqを導入
真の関数f∗の“ノルム”R2との関係を解明
ℓ2ボール上でmini-max最適(既存のはℓ∞ボール上で最適)
. . . . . . . . . .. . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
本研究の概要
既存の結果との関係
滑らかさ(q) 最適性 収束レート K&Y (2008) q= 1 ? d1−s1+sn−1+s1 +dlog(M)n
Meier et al. (2009) q= 0 × d
(log(M) n
) 1
1+s
K&Y (2010) q= 0 ℓ∞-ball dn−1+s1 +dlog(M)n IBIS2010 0≤q≤1 ℓ∞-ball dn−1+q+s1+q +dlog(M)n
今回 0≤q≤1 ℓ2-ball (d
n
) 1+q
1+q+sR
2s 1+q+s
2 +dlog(M)n
より速く,より一般的
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Outline
. .1. Introduction MKLとその拡張 本研究の概要
. .2. Mixed-Norm-Elasticnet-MKL 準備
Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート
. .4. Conclusion
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
準備
真がスパースであると仮定.
I0:={m| ∥fm∗∥Hm ̸= 0}
∥fm∗∥Hm >0 (m∈I0),
∥fm∗∥Hm = 0 (m∈I0c).
d=|I0|(真の非ゼロ要素の数)とおく.
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
準備
Spectrum Condition (s)
0<s<1: モデルの複雑さを表わす.
Mercerの定理による分解:
km(x,x′) =∑∞
ℓ=1µℓ,mϕℓ,m(x)ϕℓ,m(x′) ただし,{ϕℓ,m}∞ℓ=1はL2(P)内のONS.
.Spectrum Condition (s) .
.
... .
.
.
ある実数0<s<1が存在して,
µℓ,m≤Cℓ−1s (∀ℓ,m).
sはRKHSの複雑さを表わす.
sが大きいと複雑,sが小さいと単純 .Proposition (Steinwart et al. (2009)) .
.
... .
. .µℓ,m∼ℓ−1s ⇔N(B(Hm), ϵ,L2(P))∼ϵ−2s
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
準備
Convolution Condition (q)
0≤q≤1: 真f∗の滑らかさを表わす.
Σm:Hm→ Hmを⟨f,Σmg⟩Hm :=E[f(X)g(X)]なるものと定義する.
.Convolution Condition (q) (Caponnetto & de Vito, 2007) .
.
... .
.
.
ある実数0≤q≤1とgm∗ ∈ Hmが存在して,
fm∗= Σq/2m gm∗ と表せる.
km(q/2)(x,x′) :=∑∞
ℓ=1µq/2ℓ,mϕℓ,m(x)ϕℓ,m(x′)に対して,
fm∗(x) =
∫
km(q/2)(x,x′)gm∗(x′)dP(x′), と書けることと同値.
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
準備
s と q の関係
f * モデル
(a)s大,q= 0
f * モデル
(b)s大,q>0
f*
モデル
(c)s小,q>0
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
準備
Incoherece Condition
.Incoherece Condition (Koltchinskii & Yuan, 2008; Meier et al., 2009) .
.
... .
.
.
ある定数0<Cが存在して,
0<C < κ(I0)(1−ρ2(I0)).
κ(I) := sup {
κ≥0|κ≤ ∥∑
m∈Ifm∥2L2
∑
m∈I∥fm∥2L2, ∀fm∈ Hm(m∈I) }
,
ρ(I) := sup
{ ⟨fI,gIc⟩L2
∥fI∥L2∥gIc∥L2
|fI ∈ HI,gIc ∈ HIc,fI ̸= 0,gIc ̸= 0 }
. I0の内側とも外側とも見分けがつく.
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
準備
その他の条件
.Basic Condition .
.
... .
.
.
E[Y|X] =f∗(X) =∑M
m=1fm∗(X)であり,ノイズϵ:=Y −f∗(X)は 有界:|ϵ| ≤L.
supX∈X|km(X,X)| ≤1 (∀m).
.∞-norm Bound Condition .
.
... .
.
.
Spectrum Condition (s)と同時に次の不等式が満たされている:
∥fm∥∞≤C∥fm∥1L−2(P)s ∥fm∥sHm.
Gaussianカーネルなど,Sobolev空間に埋め込める空間はこれが成り
立っている.Mendelson and Neeman (2010); Steinwart et al. (2009)で 詳細な議論がされている.
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Mixed-Elasticnet-MKLの収束レート
我々の結果: Mixed-Norm-Elasticnet-MKL の収束レート
fmmin∈Hm
L (M
∑
m=1
fm
) +λ(n)1
∑M m=1
√
∥fm∥2n+λ(n)2 ∥fm∥2Hm+λ(n)3
∑M m=1
∥fm∥2Hm. .Theorem
. .
... .
.
.
Spectrum Condition (s), Convolution Condition (q), Incoherence
Condition, Basic Condition,∞-norm Bound Conditionのもと,十分大き なnにおいて,あるパラメータλ(n)1 ,λ(n)2 , λ(n)3 の値のもと,
∥ˆf −f∗∥2L2 ≤C′ (
d1+q+s1+q n−1+q+s1+q R
2s 1+q+s
2,g∗ +dlog(M) n
) η(t)2, が確率1−e−√nt−e−√n (∀t ≥1)で成り立つ.
ただしη(t) := max(√ t,t/√
n)であり,R2,g∗ を次のように定義する:
R2,g∗ :=
(M
∑
m=1
∥gm∗∥2Hm )12
.
. . . . . . . . . .
Introduction
. . . .. .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Mixed-Elasticnet-MKLの収束レート
Bound の比較
q= 0として具体的に比較
Koltchinskii and Yuan (2010)のレート: dn−1+s1 +dlog(M)n . 我々のレート:d1+q+s1+q n−1+q+s1+q R
2s 1+q+s
2,g∗ +dlog(M)n .
.
.1. ∥fm∗∥Hm = 1 (m= 1, . . . ,d): 大きさ一様 我々のレート:dn−1+s1 +dlog(M)n→Koltchinskii and Yuan (2010)と同じ.
.
.2. ∥fm∗∥Hm =m−1(m= 1, . . . ,d): 大きさ急減衰 我々のレート:d1+s1 n−1+s1 +dlog(M)n→Koltchinskii and Yuan (2010)よりd1+ss 倍だけ速い.
1 2
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Outline
. .1. Introduction MKLとその拡張 本研究の概要
. .2. Mixed-Norm-Elasticnet-MKL 準備
Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート
. .4. Conclusion
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Mini-max レート
Mini-maxレート:どんな推定法も 超えられないレート.
fm∗= Σ
q
m2gm∗に注意する.
.
.1. (∑Mm=1∥gm∗∥2Hm)12≤R2(g∗が半径R2のℓ2ボールに含まれる)
d1+q+s1+q n−1+q+s1+q R
2s 1+q+s
2 +dlog(M/d) n
→我々のレートに一致.
.
.2. maxm∥gm∗∥Hm ≤R∞(g∗が半径R∞のℓ∞ボールに含まれる)dn−1+q+s1+q R
2s 1+q+s
∞ +dlog(M/d) n
→q= 0,R∞= 1のとき,Koltchinskii and Yuan (2010)のレートに 一致.
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Outline
. .1. Introduction MKLとその拡張 本研究の概要
. .2. Mixed-Norm-Elasticnet-MKL 準備
Mixed-Elasticnet-MKLの収束レート . .3. Mini-maxレート
. .4. Conclusion
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Conclusion
Mixed-Norm-Elasticnet–MKLの収束レートを導出.
既存研究よりタイトなレートを導出.
真f∗の滑らかさqを導入.
導出されたレートはℓ2ボール上のmini-maxレートを達成.
本研究のプレプリント(arXiv): http://arxiv.org/abs/1103.0431 slide: http://www.simplex.t.u-tokyo.ac.jp/˜s-taiji/data/IBISML2011.pdf
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Bach, F., Lanckriet, G., & Jordan, M. (2004). Multiple kernel learning, conic duality, and the SMO algorithm. the 21st International Conference on Machine Learning(pp. 41–48).
Caponnetto, A., & de Vito, E. (2007). Optimal rates for regularized least-squares algorithm. Foundations of Computational Mathematics, 7, 331–368.
Koltchinskii, V., & Yuan, M. (2008). Sparse recovery in large ensembles of kernel machines. Proceedings of the Annual Conference on Learning Theory(pp. 229–238).
Koltchinskii, V., & Yuan, M. (2010). Sparsity in multiple kernel learning.
The Annals of Statistics,38, 3660–3695.
Lanckriet, G., Cristianini, N., Ghaoui, L. E., Bartlett, P., & Jordan, M.
(2004). Learning the kernel matrix with semi-definite programming.
Journal of Machine Learning Research,5, 27–72.
Meier, L., van de Geer, S., & B¨uhlmann, P. (2009). High-dimensional additive modeling. The Annals of Statistics,37, 3779–3821.
Mendelson, S., & Neeman, J. (2010). Regularization in kernel learning.
The Annals of Statistics,38, 526–565.
Rakotomamonjy, A., Bach, F., Canu, S., & Y., G. (2008). SimpleMKL.
Journal of Machine Learning Research,9, 2491–2521.
. . . . . . . . . .
Introduction
. . . .
Mixed-Norm-Elasticnet-MKL Mini-maxレート Conclusion References
Raskutti, G., Wainwright, M., & Yu, B. (2009). Lower bounds on minimax rates for nonparametric regression with additive sparsity and smoothness. InAdvances in neural information processing systems 22, 1563–1570. Cambridge, MA: MIT Press.
Sonnenburg, S., R¨atsch, G., Sch¨afer, C., & Sch¨olkopf, B. (2006). Large scale multiple kernel learning. Journal of Machine Learning Research, 7, 1531–1565.
Steinwart, I., Hush, D., & Scovel, C. (2009). Optimal rates for regularized least squares regression. Proceedings of the Annual Conference on Learning Theory(pp. 79–93).
Suzuki, T., & Tomioka, R. (2009). SpicyMKL. arXiv:0909.5026.
Tomioka, R., & Suzuki, T. (2009). Sparsity-accuracy trade-off in MKL.
NIPS 2009 Workshop:: Understanding Multiple Kernel Learning Methods. Whistler. arXiv:1001.2615.