141頁∼157頁
Multiple Kernel Learning の学習理論
鈴木 大慈
∗Learning Theory of Multiple Kernel Learning
Taiji Suzuki
∗Multiple Kernel Learning (MKL)について正則化法およびベイズ推定法を紹介し,その汎化
誤差解析について概説する.正則化法については,`1-正則化およびエラスティックネット型の正 則化を考察する.エラスティックネット型の正則化はスパース性を誘導する`1-正則化と滑らか さを制御する`2-正則化の組み合わせで表される.ベースとなるカーネル関数の数は多くても,真 の関数に必要なカーネル関数の数は少ないスパースな状況を考察し,これまで得られていたレー トよりも速い収束レートを導出する.さらに,ガウシアンプロセス事前分布を用いたベイズ推定 量を考察し,一次独立性の条件を仮定せずとも速い収束レートを達成できることを示す.
We review convergence rate analyses about multiple kernel leaning (MKL) by regularization methods and a Bayes method. As for regularization methods, we show convergence rates for
`1 and elastic-net regularizations. The elastic-net regularization is a composition of an `1- regularizer for inducing the sparsity and an`2-regularizer for controlling the smoothness. We focus on a sparse setting where the total number of kernels is large but the number of non-zero components of the ground truth is relatively small, and show sharper convergence rates than the learning rates ever shown for both`1 and elastic-net regularizations. Moreover, we show that, using a Bayesian method with Gaussian process priors, we don’t need a strong conditions on the design to achieve a fast learning rate.
キーワード: Multiple Kernel Learning,カーネル法,統計的学習理論,高次元スパース推定,正 則化法
1.
はじめにサポートベクトルマシンに代表されるように,カーネル法は長い間,機械学習において 中心的な役割を果たしてきた
(Sch¨ olkopf and Smola (2002), Shawe-Taylor and Cristianini (2004)).しかし,その精度はカーネルの選択に大きく依存し,いかにして良いカーネルを
選ぶかという問題はカーネル法の利用において常に問題になってきた.カーネルを選ぶ方 法として,これまで例えば交差検証法(Chapelle et al. (2002))
や「カーネル学習」のア∗ 東京大学,JSTさきがけ,理研AIP:〒113-8656東京都文京区本郷7-3-1 (E-mail: [email protected]).
プローチ
(Ong et al. (2005), Argyriou et al. (2006), Bach (2009), Cortes et al. (2009a), Varma and Babu (2009))
といった方法が提案されてきた.その中でも系統だった手法としてマルチプルカーネル学習
(MKL, multiple kernel learn- ing)
と呼ばれる手法がある.これは,候補となるカーネルの最適な線形結合を凸最適化に よって見つける手法である(Lanckriet et al. (2004))
.Bach et al. (2004)
によると,MKL
は`
1-
混合ノルム正則化手法とみなせることが示されている.この定式化により,MKL
は スパース加法モデルのスパース正則化推定手法ともみなすことができる.また,正則化と カーネルの線形結合の重みの最適化を結び付けて考えることで,MKLの様々なバリエー ションが提案されてきた.例えば,スパース正則化(`1)とリッジ正則化(`2)の間の「中間 的」な正則化として,エラスティックネット型正則化(Shawe-Taylor (2008), Tomioka and Suzuki (2009))
や`
p-混合ノルム正則化 (1 < p < 2) (Micchelli and Pontil (2005), Kloft et al. (2009))
といった拡張が提案されてきた.これら
MKL
の定式化および学習アルゴリズムの研究と同時に,その統計的解析の研究も 進められてきている.`
1-
混合ノルム正則化に関しては,Koltchinskii and Yuan (2008)
が,適切な仮定のもと,
d
1−s1+sn
−1+s1+ d log(M )/n
という汎化誤差の収束レートを導出している.ここで,nはサンプルサイズで,
d
は真のカーネル重みの非ゼロ要素の数,また,Mはベー スとなるカーネルの数で,s(0 < s < 1)
はそれらベースとなるカーネルに対応した再生 核ヒルベルト空間(RKHS, reproducing kernel Hilbert space)
の複雑さを表すパラメータ である.なお,彼らの解析では,真の関数の滑らかさに強い仮定をおいている.Meieret
al. (2009)
はエラスティックネット型正則化を考察しほぼミニマックス最適な収束レートd (n/ log(M ))
−1+s1 を導出している.Koltchinskii and Yuan (2010)は`
1-混合ノルム正則化
の変形版を考察し,(これを `
1-MKL
と本稿では呼ぶ)それがミニマックス最適レートを達成 し,log(M )
への依存性をMeier et al. (2009)
によるものより改善したdn
−1+s1+d log(M )/n
なる汎化誤差バウンドを導出した.その他の方向として,真の関数にスパース性を仮定せ ず,ベースとなるカーネルのクラスのRademacher
複雑度を解析するなどして汎化誤差を 導出する研究もある(Srebro and Ben-David (2006), Ying and Campbell (2009), Cortes et al. (2009b), Kloft et al. (2010), Suzuki (2011)).
本稿では,`1
-MKL
やエラスティックネット型MKL
のシャープな学習レートを示したSuzuki and Sugiyama (2012, 2013)
の結果およびベイズ推定量のシャープな汎化誤差バウ ンドを導出したSuzuki (2012)
の結果を紹介する.Suzuki and Sugiyama (2012, 2013)は,次の収束レートを導出した:
(`
1-MKL) d
1−s1+sn
−1+s1R
2s 1+s
1,f∗
+ d log(M )
n ,
(Elastic-net MKL) d
1+q+s1+qn
−1+q+s1+qR
2s 1+q+s
2,g∗
+ d log(M )
n .
ただし,
R
1,f∗は真の関数の`
1-混合ノルムで, R
2,g∗は真の関数のある種の`
2-混合ノルムで
あり,q(0 ≤ q ≤ 1)
は真の関数の滑らかさを表すパラメータである.ここで,真の関数が ある関数に積分核を作用させたものであるとき,真の関数は「滑らかである」と呼ぶ(仮定 3.2
を参照せよ)
.直観的にはq
が大きいほど,真の関数は「滑らか」である.エラスティッ クネット型MKL
は真の関数の滑らかさを適切に利用していると言える.すなわち,真が 滑らかであるほど,エラスティックネット型MKL
の収束レートは改善されてゆく.Meier et al. (2009)
とKoltchinskii and Yuan (2010)
はq = 0
の状況に対応し,Koltchinskii andYuan (2008)
はq = 1
である状況に対応する.我々の解析はこれら二つの状況を包含し,0 ≤ q ≤ 1
の全てを含む.この結果から,スパース性と滑らかさの間にトレードオフの関係 が見て取れる.`1-MKL
はエラスティックネット型よりもよりスパースな解を出しやすい が,エラスティックネット型正則化はより滑らかな解を出しやすい.それによって,真の 滑らかさが弱い場合(q = 0),`
1-MKL
がより速い収束レートを達成し,そうでない場合,エラスティックネット型がより速い収束レートを達成する.
上記の解析には,制限固有値条件のような,入力分布へのやや強い条件が必要である.
そこで,
Suzuki (2012)
では,ベイズ推定量を用いることで,そのような条件がなくても速い収束レート
(fast convergence rate)
が達成可能であることが示されている.そこでは,PAC-Bayes
の技法をノンパラメトリックなガウス過程回帰の理論を組み合わせることで,MKL
のベイズ推定量版が制限固有値条件を仮定せずともミニマックス最適レートを達成 することが示されている.2.
問題設定とMKL
{ (x
i, y
i) }
ni=1をn
個の観測値とし,各x
iは集合X
から周辺分布Π
に従って独立同一に 生成された確率変数で,yi∈ R
はx
iに対する出力とし,y
i= f
∗(x
i) +
iというモデルに従って生成されているとする.なお,
iは
x
iと独立な観測ノイズである.今,
M
個の正定値対称カーネル関数k
m(m = 1, . . . , M )
があり,それぞれのカーネル関数k
mに対応する再生核ヒルベルト空間をH
mとする.真の関数はf
∗(x) =
∑
M m=1f
m∗(x)
と
f
m∗∈ H
mを用いて書けると仮定する.ここで,k f
mk
Hmでf
m∈ H
mのRKHS
ノルム を表す.このモデルを学習する方法として
MKL
があるが,MKLは以下のように定式化される.Aronszajn (1950)
によると,カーネル関数k
mの和で表されるカーネル関数k ¯ = ∑
M m=1k
mに対応する再生核ヒルベルト空間
H ¯
の元は全てf = ∑
Mm=1
f
m(f
m∈ H
m)
の形で書け,そ のRKHS
ノルムk f k
H¯はk f k
2H¯= inf {
M∑
m=1
k f
mk
2Hm| f =
∑
M m=1f
m, f
m∈ H
m(m = 1, . . . , M) }
で与えられる.さらに,この結果を拡張することで,dm
> 0
を満たす重み(d
m)
Mm=1を用 いてカーネルの重み付き和¯ k = ∑
Mm=1
d
mk
mに対応する再生核ヒルベルト空間H ¯
に含ま れる元f
のRKHS
ノルムはk f k
2H¯= inf {
M∑
m=1
k f
mk
2Hmd
m| f =
∑
M m=1f
m, f
m∈ H
m(m = 1, . . . , M) }
(2.1)
で与えられる.今,カーネル関数¯ k
を用いたカーネルリッジ回帰はinf
f∈H¯
1 n
∑
n i=1(y
i− f (x
i))
2+ λ k f k
2H¯なる最適化問題で記述できる.ただし,λ >
0
は正則化の強さを調整する正則化パラメー タである.すると,式(2.1)
より,これはinf
fm∈Hm
(m=1,...,M)
1 n
∑
n i=1( y
i−
∑
M m=1f
m(x
i) )
2+ λ
∑
M m=1k f
mk
2Hmd
mと同値である.これに加え,さらに重み
(d
m)
Mm=1もデータに合わせて選ぶことを考える.そ こで,重みに関する正則化を表す関数h : R
M+→ R
+∪ {∞}
を用いて1),d = (d
1, . . . , d
M)
>として
inf
fm∈Hm
(m=1,...,M), d∈RM+
1 n
∑
n i=1( y
i−
∑
M m=1f
m(x
i) )
2+ λ (
M∑
m=1
k f
mk
2Hmd
m+ h(d) )
(2.2)
なる最適化問題を考える.表現定理
(Kimeldorf and Wahba (1971))
によって,この最適 化問題は有限次元最適化問題に帰着される.例
2.1 (ノルム制約による `
1-正則化)
h(d) =
0 ( ∑
Mm=1
d
m≤ 1),
∞ (otherwise),
1) ここでR+:={a∈R|a≥0}
とする.この時,最適化問題
(2.2)
における(d
m)
Mm=1の最適解はd
m=
PMkfmkHm m0=1kfm0kHm0で 与えられ,最適化問題
(2.2)
はmin
fm∈Hm
(m=1,...,M)
( y
i−
∑
M m=1f
m(x
i) )
2+ λ (
M∑
m=1
k f
mk
Hm)
2と書き直せる.
例
2.2 (
ノルム罰則による`
1-
正則化) h(d) = ∑
mm=1
d
mとすると,最適化問題(2.2)
に おける(d
m)
Mm=1の最適解はd
m= k f
mk
Hmで与えられ,最適化問題(2.2)
はmin
fm∈Hm
(m=1,...,M)
( y
i−
∑
M m=1f
m(x
i) )
2+ 2λ
∑
M m=1k f
mk
Hmと書き直せる.
これら二つの例は正則化パラメータ
λ
を適切に設定することで,同値であることが示せる.もとの
MKL (Lanckriet et al. (2004))
は,例2.1
の形式で定式化されているが,上記の観 測から,`1-正則化学習とみなせることがわかる (Bach et al. (2004)).特に,この定式化
によって効率的な最適化手法が導出できる(Sonnenburg et al. (2006), Rakotomamonjy et al. (2008), Suzuki and Tomioka (2011)).
さらに,これを拡張することで,以下の変種を得られる.
例
2.3 (Tikhonov
型`
p-ノルム正則化) 1 ≤ p ≤ 2
に対して,h(d) =
0 ( ∑
Mm=1
d
p/(2m −p)≤ 1),
∞ (otherwise),
とする(ただし,p
= 2
のときは,h(d) = 1 (if maxm=1,...,Md
m≤ 1), 0 (otherwise)
とす る).この時,最適化問題(2.2)
における(d
m)
Mm=1の最適解はd
m=
kfmk2−pHm
(PM
m0=1kfm0kpHm0)(2−p)/p
で与えられ,最適化問題
(2.2)
はmin
fm∈Hm
(m=1,...,M)
( y
i−
∑
M m=1f
m(x
i) )
2+ λ (
M∑
m=1
k f
mk
pHm)
p2と書き直せる.
例
2.4 (Ivanov
型`
p-ノルム正則化) 1 ≤ p < 2
に対して,h(d) = 2−pp∑
mm=1
d
p/(2m −p)とすると,最適化問題
(2.2)
における(d
m)
Mm=1の最適解はd
m= k f
mk
2H−mpで与えられ,最適化問題
(2.2)
はmin
fm∈Hm
(m=1,...,M)
( y
i−
∑
M m=1f
m(x
i) )
2+ 2λ p
∑
M m=1k f
mk
pHmと書き直せる.
一方で,正則化項を直接修正して,ある
g : R
M+→ R
を用いてmin
fm∈Hm
(m=1,...,M)
1 n
∑
n i=1( y
i−
∑
M m=1f
m(x
i) )
2+ λg (
k f
1k
2H1, . . . , k f
Mk
2HM)
(2.3)
と一般化することも考えられる.
例
2.5 (
エラスティックネット型正則化)
最適化問題(2.3)
においてg(q
1, . . . , q
M) =
∑
Mm=1
(θ √ q
m+ (1 − θ)q
m)
とすればエラスティックネット型の正則化が得られ,最適化問 題(2.3)
はmin
fm∈Hm
(m=1,...,M)
1 n
∑
n i=1( y
i−
∑
M m=1f
m(x
i) )
2+ λ
∑
M m=1( θ k f
mk
Hm+ (1 − θ) k f
mk
2Hm)
となる.
実は,定式化
(2.2)
と(2.3)
は互いに双対の関係として結び付けることが可能である(Tomioka and Suzuki (2010)).
定理
2.1 h : R
M+→ R
は真閉凸関数で,原点で0
であるとする.また,x, y ∈ R
M+ がx
m≤ y
mをすべてのm ∈ { 1, . . . , M }
で満たすなら,h(x) ≤ h(y)
を満たすと仮定する.すると,
˜ h(y) := − h(1/y
1, . . . , 1/y
M)
は凹関数である.また,g(x) = 1 2 inf
y∈RM+
{
x
>y − ˜ h(y) }
とすると,定式化
(2.2)
と(2.3)
は同値,すなわち最適解は等しい.さらに,gが微分可能 なら,最適な重み(d
m)
Mm=1は最適解f ˆ = ( ˆ f
1, . . . , f ˆ
M)
を用いて,d
m= (
2 ∂g( k f ˆ
1k
2H1, . . . , k f ˆ
Mk
2HM)
∂x
m)
−1で与えられる.
詳細は
Tomioka and Suzuki (2010)
を参照されたい.3. Preliminaries
前節で導入した
MKL
の正則化法としての定式化をもとにして,その汎化誤差の評価を 行う.そのため,いくつかの準備を行う.定式化 ここでは,エラスティックネット型
MKL
を考える.例2.5
で与えられた正則化 は実用上は有用であるが,理論的にはこれを用いてミニマックス最適なレートを導出する ことは難しい.そこで,Meieret al. (2009)
によって提案された変種を考える:f ˆ = arg min
fm∈Hm (m=1,...,M)
1 n
∑
n i=1( y
i−
∑
M m=1f
m(x
i) )
2+
∑
M m=1(
λ
(n)1k f
mk
n+ λ
(n)2k f
mk
Hm+λ
(n)3k f
mk
2Hm) .
(3.1)
ただし,k f
mk
n:=
√
1 n∑
ni=1
f
m(x
i)
2である.これは,例2.5
で与えたエラスティックネッ ト型正則化に∑
Mm=1
k f
mk
nが足されたものである.実用上はこの項がなくても問題なく精 度は出るが,理論上はこの項によってミニマックス最適レートを達成することが証明でき る.なお,Koltchinskii and Yuan (2010)
は∑
m
λ
(n)1k f
mk
n+ λ
(n)2k f
mk
Hm だけからなる`
1-正則化を考えている.λ
(n)3= 0
の状況とλ
(n)3> 0
の状況を分けるため,λ(n)3= 0
にお ける学習方法(3.1)
を`
1-MKL
と呼び,λ(n)3> 0
の時はエラスティックネット型MKL
と 呼ぶ.表現定理
(Kimeldorf and Wahba (1971))
によって,最適解f ˆ
はnM
個のカーネル関数 の線形和で書き下せる:∃ α
m,i∈ R , f ˆ
m(x) = ∑
ni=1
α
m,ik
m(x, x
i).
よって,グラム行列K
m= (k
m(x
i, x
j))
i,jを用いて,式(3.1)
内の正則化項は∑
M m=1( λ
(n)1√
α
>mK
mK
mn α
m+ λ
(n)2√
α
>mK
mα
m+ λ
(n)3α
>mK
mα
m)
とある
α
m= (α
m,i)
ni=1∈ R
nを用いて表すことができる.このことから,最適化問題は有 限次元最適化問題に帰着され,Bachet al. (2004)
にあるようにSOCP (second-order cone programming)
で解いたり,座標降下法を適用したり(Meier et al. (2008)),もしくは交互
方向乗数法を用いることで解くことができる(Boyd et al. (2011))
.表記と仮定 ここでは,理論に必要な仮定を与える.
H = H
1⊕· · ·⊕H
M= { f
1+ · · · +f
M| f
m∈ H
m(m = 1, . . . , M ) }
とする.ここで,多少表記の濫用を許して,f∈ H
の表記に よって,f= ∑
Mm=1
f
mを与える積集合の元(f
1, . . . , f
M) ∈ H
1× · · · × H
M も表すことに する.この分解は一意とは限らないが,特に混乱がない場合はこの表記を用いる.以下の条件を仮定する.
仮定
3.1 (基本的条件)
(A3.1 -1) f
∗= (f
1∗, . . . , f
M∗) ∈ H
が存在して,E[Y| X ] = ∑
Mm=1
f
m∗(X )
が成り立つ.ま た,雑音:= Y − f
∗(X )
は有界である:| | ≤ L.
(A3.1 -2)
各m = 1, . . . , M
において,H
mは可分でかつsup
X∈X| k
m(X, X) | ≤ 1
が成り 立っている.最初の仮定
(A3.1 -1)
はH
が真の関数を含むこと,および| | ≤ L
なる条件によってf
が
f
に関してLipschitz
連続であることを保証する.これらの仮定は本質的ではなく,モデルに真が含まれていない状況や雑音がガウス分布のような非有界な設定に拡張できる
(Raskutti et al. (2012)).
しかし,理論の簡単さのためこれらの仮定をおく.(A3.1 -2)の条 件はk f
mk
∞≤ k f
mk
Hm を与えることが知られている(Steinwart and Christmann (2008)
のChapter 4
を参照せよ)
.カーネル関数の仮定より
sup
x,x0| k
m(x, x
0) | ≤ sup
x| k
m(x, x) | ≤ 1
なので,積分作用素T ˜
m: L
2(Π) → L
2(Π)
を( ˜ T
mf )(x) =
∫
k
m(x, y)f (y)dΠ(y)
とすると,
T ˜
mはヒルベルト-
シュミット作用素で,特にコンパクトである.さらに,カー ネル関数k
mは正定値対称なので,ある非負実数の列(µ
`,m)
∞`=1とL
2(Π)
内の正規直交系(φ
`,m)
∞`=1 が存在して,T ˜
m=
∑
∞`=1
µ
`,mh· , φ
`,mi
L2(Π)φ
`,mと分解できる(収束は作用素ノルムに関して成り立つ)(例えば,Reed and Simon (1981) を参照されたい).この表記に従うと,
k
m(x, x
0) =
∑
∞`=1
µ
`,mφ
`,m(x)φ
`,m(x
0) (3.2)
も成り立つ(収束はL
2(Π × Π)
に関して成り立つ).このスペクトル分解に従うと,再生 核ヒルベルト空間H
m内の内積はh f
m, g
mi
Hm= ∑
∞`=1
µ
−`,m1h f
m, φ
`,mi
L2(Π)h φ
`,m, g
mi
L2(Π)で与えられる.作用素
T
m: H
m→ H
mをh f
m, T
mg
mi
Hm:= E[f
m(X )g
m(X)],
を任意の
f
m, g
m∈ H
mに対して満たすものとして定義する.fm∈ H
mはk f
mk
Hm≤
k f
mk
∞が成り立つことより,f
m∈ L
2(Π)
でもある.この自然な埋め込みをι : H
m, → L
2(Π)
と書くと,Tm= ι
−1◦ T ˜
m◦ ι
であることが確認できる.仮定
3.2 (畳み込みの条件)
ある実数0 ≤ q ≤ 1
とg
m∗∈ H
mが存在して,(A3.2 ) f
m∗(x) =
∫
X
k
(q/2)m(x, x
0)g
∗m(x
0)dΠ(x
0) ( ∀ m = 1, . . . , M),
が成り立つ.ただし,k
m(q/2)(x, x
0) = ∑
∞k=1
µ
q/2k,mφ
k,m(x)φ
k,m(x
0)
である.これは,次の作 用素を用いた表現と同等である:
f
m∗= T
q
m2
g
m∗. g
∗∈ H
をg
∗= (g
1∗, · · · , g
M∗)
もしくはg
∗= ∑
Mm=1
g
∗mと定義する.定数
q
は真の関数f
m∗ の滑らかさを表現している.なぜなら,f
m∗ は積分核k
(q/2)m をg
∗mに作 用させて得られており,q
が大きいほど“高周波成分”
が抑制されるからである.よって,q が大きくなるほどf
∗は“滑らか”
になることがわかる.仮定(A3.2)
はCaponnetto and de
Vito (2007)
で考察され,カーネルリッジ回帰の収束レートの解析に使われている.MKLの設定では,
Koltchinskii and Yuan (2008)
がq = 1
の仮定のもとMKL
の速い収束レート を導出しており,Bach (2008)
はq = 1
を仮定してMKL
におけるカーネル選択の一致性を 示している.Bach (2008)
のProposition 9
は,仮定(A3.2)
がq = 1
で成り立つための十 分条件を平行移動不変カーネルk
m(x, x
0) = h
m(x − x
0)
に対して与えている.Meieret al.
(2009)
はSobolev
空間でq = 0
の状況を考えている.Koltchinskii and Yuan (2010)の解 析はq = 0
に対応している.ここで,仮定(A3.2)
がq = 0
で成り立っていても,真の関数 の滑らかさに関して何も仮定していないことに注意されたい.畳み込み条件
(A3.2)
のもとでは,qが増加するごとに収束レートが良くなることが期待 される.この予想は確かに成り立つが(式 (4.3)
およびSteinwart et al. (2009)),学習時に
用いるモデルはこの条件によって制限を受けず変わらないため,これは自明ではないこと に注意されたい.次に,再生核ヒルベルト空間の
“
複雑さ”
を表すパラメータを導入する.仮定
3.3 (スペクトル条件)
ある実数0 < s < 1
と0 < c
が存在し,カーネルk
mのス ペクトル{ µ
j,m}
∞j=1(式 (3.2)
を参照)が(A3.3) µ
j,m≤ cj
−1s, (1 ≤ ∀ j, 1 ≤ ∀ m ≤ M ),
を満たす.スペクトル条件
(A3.3)
はカバリングナンバーへの制約条件として書き換えられることが 知られている2)(Steinwart et al. (2009)): log[ N (, B
Hm, L
2(Π))] ≤ c
0−2s
.
2) -カバリングナンバーN(,BHm, L2(Π))は,再生核ヒルベルト空間Hmの単位球BHmをL2(Π)-距離で 測った半径の球で覆うのに必要な最小の球の数である.(van der Vaart and Wellner (1996)).
I
0を真の関数に使われるカーネルのインデックスとする:I
0:= { m | k f
m∗k
Hm> 0 } . I
0の要素数をd := | I
0|
とする.f = ∑
Mm=1
f
m∈ H
とI ⊆ { 1, . . . , M }
に対し,H
I=
⊕
m∈IH
mとし,f
I∈ H
I をf
をインデックス集合I
に制限したものとする, i.e., f
I=
∑
m∈I
f
m. I ⊆ { 1, . . . , M }
に対して, κ(I)
をI
に含まれる再生核ヒルベルト空間の間の相 関を表す量とする:κ(I) := sup {
κ ≥ 0 κ ≤ k ∑
m∈I
f
mk
2L2(Π)∑
m∈I
k f
mk
2L2(Π), ∀ f
m∈ H
m(m ∈ I) }
.
同様に,Iと
I
cの間の相関にあたる量を次のように定義する:ρ(I) := sup
{ h f
I, g
Ici
L2(Π)k f
Ik
L2(Π)k g
Ick
L2(Π)f
I∈ H
I, g
Ic∈ H
Ic, f
I6 = 0, g
Ic6 = 0 }
.
これらの量を用いることで
f ∈ H
のL
2(Π)-ノルムを { f
m}
m∈I のL
2(Π)-ノルムで下から
評価することができる.補題
3.1
任意のI ⊆ { 1, . . . , M }
に対して,以下が成り立つ: k f k
2L2(Π)≥ (1 − ρ(I)
2)κ(I)
( ∑
m∈I
k f
mk
2L2(Π))
. (3.3)
κ(I
0)
とρ(I
0)
に次の仮定をおく.仮定
3.4 (独立性条件)
真の非ゼロ要素I
0に対し,κ(I0)
は正の値をとりρ(I
0)
は1
よ り真に小さい:
(A3.4) 0 < κ(I
0)(1 − ρ
2(I
0)).
この条件は
incoherence condition
としてKoltchinskii and Yuan (2008), Meier et al.
(2009)
で用いられている.最後に,
sup-
ノルムに次の技術的な条件を課す.仮定
3.5 (Sup-ノルム条件)
スペクトル条件(A3.3)
に加え, ある定数C
1が存在して,次が成り立つ:
(A3.5) k f
mk
∞≤ C
1k f
mk
1L−2(Π)sk f
mk
sHm( ∀ f
m∈ H
m, m = 1, . . . , M ),
ただし,sはスペクトル条件(A3.3)
で現れた定数である.この条件はやや強いように見えるが,再生核ヒルベルト空間がある
Sobolev
空間に連続的 に埋め込まれる場合は成り立つ.例えば,ガウシアンカーネルに対応する再生核ヒルベル ト空間は任意のSobolev
空間に連続的に埋め込まれるので,sup-ノルム条件(A3.5)
は満た される.4.
収束レート解析この節では,MKLの収束レートを示す.
4.1 `
1-MKL
とエラスティックネット型MKL
の収束レートここでは,式
(3.1)
で与えられる推定量f ˆ
の汎化誤差の評価を与える(この結果は Suzuki and Sugiyama (2012, 2013)
で示されたものである)
.ここで,カーネルの数M
と真の非 ゼロ要素の数d
はサンプルサイズn
に応じて増加することも許す.全ての結果は有限サン プルサイズで成り立つものである.Koltchinskii and Yuan (2010), Raskutti et al. (2012)
は,
`
∞-混合ノルムに関する単位球において最適レートを導出しているが,ここではより精
密なレートが導出できることを示す.特に,`1
-混合ノルムに関する単位球や `
2-混合ノル
ムに関する単位球における最適レートを達成できることが示され,それらは`
∞-混合ノル
ム球の最適レートよりも速い.η(t) (t > 0)
とξ
n(λ) (λ > 0)
を次のように定義する:η(t) := max(1, √ t, t/ √
n), (4.1a)
ξ
n:= ξ
n(λ) = max (
λ−s2
√n
,
λ−1 2
n1+s1
,
√
log(M) n)
. (4.1b)
ある与えられた
f ∈ H
と1 ≤ p ≤ ∞
に対し,fの`
p-混合ノルムを以下のように定義する:
R
p,f:= (∑
Mm=1
k f
mk
pHm)
p1.
すると,`1
-MKL
およびエラスティックネット型MKL
の収束レートが以下のように与え られる.定理
4.1 (`
1-MKL
とエラスティックネット型MKL
の収束レート) 仮定3.1–3.5
が 満たされているとする.すると,あるs, c, L, C
1, ρ(I
0), κ(I
0)
に依存した定数C ˜
とψ
sが 存在して,あるM, d, C, s, f ˜
∗に依存したN
に対して任意の十分大きなn ≥ N
において,以下が成り立つ:
(`
1-MKL) λ = d
11+s−sn
−1+s1R
−2 1+s
1,f∗ に対して,
λ
(n)1= ψ
sη(t)ξ
n(λ), λ
(n)2= λ
(n)1λ
12, λ
(n)3= 0
とする.この時,`
1-MKL
の汎化誤差は高い確率で以下のように抑えられる:
k f ˆ − f
∗k
2L2(Π)≤ C ˜ (
d
1−s1+sn
−1+s1R
2s 1+s
1,f∗
+ d
s−11+sn
−1+s1R
2 1+s
1,f∗
+ d log(M ) n
)
η(t)
2. (4.2)
(エラスティックネット型 MKL) λ = d
1+q+s1n
−1+q+s1R
−2 1+q+s
2,g∗ に対して,λ(n)1
= ψ
sη(t)ξ
n(λ), λ
(n)2= λ
(n)1λ
12, λ
(n)3= λ
とすると,エラスティックネット型MKL
の汎化 誤差は高い確率で以下のように抑えられる:k f ˆ − f
∗k
2L2(Π)≤ C ˜ (
d
1+q+s1+qn
−1+q+s1+qR
2s 1+q+s
2,g∗
+d
1+q+sq+sn
−1+q+s1+q −(1+s)(1+q+s)q(1−s)R
2 1+q+s
2,g∗
+ d log(M ) n
)
η(t)
2. (4.3)
この定理の正確な記述及び証明はSuzuki and Sugiyama (2012, 2013)
を参照されたい.これらは,
“`
1-
混合ノルム球”
および“`
2-
混合ノルム球”
におけるミニマックス最適レート を達成していることが示されている(
詳細はSuzuki and Sugiyama (2012, 2013)
を参照)
. これらのバウンドはいくつかの追加の弱い条件を課すことで次のように簡易化することがで きる.R1,f∗≤ Cd
がある定数C
について成り立っているなら(これは, k f
m∗k
Hm≤ C ( ∀ m)
なら成り立つ),式(4.2)
の第一項は第二項より大きく,`1-MKL
の収束レート(4.2)
は次 のように書き直せる:k f ˆ − f
∗k
2L2(Π)≤ O
p(
d
1−s1+sn
−1+s1R
2s 1+s
1,f∗
+ d log(M ) n
)
. (4.4)
同様にして,もし
R
2,g2 ∗≤ Cn
1+sqd
がある定数C
に対して成り立っているなら(これは k g
m∗k
Hm≤ √
C ( ∀ m)
なら成り立つ)
,エラスティックネット型MKL
の収束レート(4.3)
は次のように書き直せる:
k f ˆ − f
∗k
2L2(Π)≤ O
p(
d
1+q+s1+qn
−1+q+s1+qR
2s 1+q+s
2,g∗
+ d log(M ) n
)
. (4.5)
ここで,
s
が小さくなれば(
つまり,再生核ヒルベルト空間が単純になれば)
,`
1-MKL
も エラスティックネット型MKL
もR
1,f∗, R
2,g∗≥ 1
なる条件のもと,その収束レートが速く なることがわかる.`1-MKL
およびエラスティックネット型MKL
の解はどちらも一つの 最適化問題の枠組み(3.1)
から与えられるが,λ(n)3= 0
であるかどうかに依存して,二つ の異なる収束レート(4.4)
および(4.5)
が得られている.`1-MKL
の収束レート(4.4)
は滑 らかさのパラメータq
には依存していないが,エラスティックネット型のレート(4.5)
はq
に依存している.これら二つの収束レートをq = 0
とq > 0
の場合で比較してみよう.(i) (q = 0)
この状況では,真の関数f
∗は滑らかではなくg
∗= f
∗である(g
∗の定義は仮 定3.2
を参照).d
に依存する項は`
1-MKL
においてはd
1−s1+s である.よって,`1-MKL
はd
について緩い依存性を持つ.これは,`
1-MKL
がスパースな解を出すことに対応している と考えられる.しかも,`
1-MKL
の汎化誤差バウンドはエラスティックネット型よりも小 さな値をとる.なぜなら,Jensen
の不等式よりR
1,f∗≤ √
dR
2,f∗ なので,d
11+s−sn
−1+s1R
2s 1+s
1,f∗
≤ d
1+s1n
−1+s1R
2s 1+s
2,f∗
,
が成り立つからである.よって,この場合は
`
1-MKL
の方が望ましいと考えられる.(ii) (q > 0) q
が大きくなると(
つまり真の関数が滑らかになると),
エラスティックネッ ト型MKL
の収束レートは速くなる.nに関する項を取り出すとエラスティックネット型はn
−1+q+s1+q であるが,これは`
1-MKL
のn
−1+s1 よりも小さい.これは,エラスティックネット型
MKL
は真の関数f
∗の滑らかさを追加の`
2-正則化によってうまくとらえているもの
と解釈できる.上で確認されたように,`1-MKL
はq = 0
においてはエラスティックネッ ト型MKL
よりもタイトなバウンドを与えていた.これらより,f∗の滑らかさに応じて,どちらが好ましいかが変わることがわかる.
5.
ガウシアンプロセス加法モデル本節では,
MKL
をベイズ推定で行うことを考え,その汎化誤差の収束レートを導出す る.ここでの結果はSuzuki (2012)
による.ここで考えるベイズ推定量は仮定3.4
にあるよ うな入力分布およびカーネル関数に関する条件は必要ない.なお,汎化誤差は{ x
i}
ni=1 を 固定した固定デザインで考える.つまり,以下の経験的L
2-ノルムを汎化誤差とする:
k f − f
∗k
2n:=
n1∑
ni=1
(f (x
i) − f
∗(x
i))
2.
母集団に関する
L
2-
ノルムも解析できるが,ここでは簡単のため経験的L
2-
ノルムを考察す る.経験的L
2-
ノルムに付随して,内積をh f, g i
n:=
n1∑
ni=1
f (x
i)g(x
i)
と定める.Suzuki
(2012)
のアプローチではガウシアンプロセス事前分布を各要素f
m∗ に適用する.スパース推定を行う場合,要素数に指数的重みの事前分布を乗せてどのカーネルを用いるかを推定 する.M 個の関数の組
f = (f
1, . . . , f
M)
に関する事前分布として,積空間に次のような事 前分布をおく:Π(df ) = ∑
J∈P({1,...,M})
π
J· ∏
m∈J
∫
λm∈R+
GP
m(df
m| λ
m) G (dλ
m) · ∏
m /∈J
δ
0(df
m). (5.1)
ただし,
P ( { 1, . . . , M } )
は{ 1, . . . , M }
に含まれるすべての部分集合を指し,δ0(df
m)
はf
m= 0
をサポートにするDirac
測度である;{ π
J}
J∈P({1,...,M})はあるζ ∈ (0, 1)
に対して,各モデルに次のような重みを乗せた事前分布である:
π
J= ζ
|J|∑
M j=0ζ
j( M
| J | )
−1,
ただし,J
∈ P ( { 1, . . . , M } ) (この π
Jの選び方はAlquier and Lounici (2011)
で提案され た);G (dλ
m)
は指数分布G (dλ
m) = exp( − λ
m)dλ
mであり,ガウシアンプロセスのスケー ルに関して共役事前分布である; GPm(df | λ
m)
はスケールがλ
mのガウシアンプロセス事 前分布である(詳細は次の節で定義する).5.1
ガウシアンプロセス事前分布と対応する再生核ヒルベルト空間f
m∗ には,カーネルk
mに対応した平均0
のガウシアンプロセスGP
mを採用する.こ こで,空間X
上の平均0
のガウシアンプロセスW
(m)= (W
x(m): x ∈ X )
は,x∈ X
で インデックス付けされた確率変数W
x(m)の組で,ある共通の確率空間(Ω
m, U
m, P
m)
の上 に定義されていて,任意の有限部分集合(W
x(m)1, . . . , W
x(m)j) (j = 1, 2, . . . )
が平均0
の多 変量正規分布に従うものと定義される.ここで,全てのω ∈ Ω
mでサンプルパスは有界sup
x∈X| W
x(m)(ω) | < ∞
であると仮定する.これより,W
(m): Ω
m→ L
∞( X )
とみなせる.また,W(m)
: Ω
m→ L
∞( X )
はタイトでBorel
可測とする.これは,ある半ノルムρ
mがX
上に存在して,(X , ρ
m)
が全有界でほとんどすべてのω ∈ Ω
mでx 7→ W
x(m)(ω)
が一様ρ
m-連続なら成り立つ (詳細は例えば van der Vaart and Wellner (1996)
のSection 1.5
を 参照せよ).GPmに対応したカーネル関数k
m: X × X → R
は以下で定義される共分散関 数である:k
m(x, x
0) := E[W
x(m)W
x(m)0].
カーネル関数はガウシアンプロセスの有限次元周辺分布の振る舞いを完全に規定する.カー ネル関数
k
mに付随して決まる再生核ヒルベルト空間をH
mと書く.無限次元の場合,再生核ヒルベルト空間
H
mはガウシアンプロセスのサポートに比べる とずっと“
小さい”
ことが知られている.実際,再生核ヒルベルト空間H
mが無限次元の 場合,ガウシアンプロセスはH
mの確率測度が0
になる.これより,f
m∗∈ H
mという仮 定のもとでは,f
m∗ をガウシアンプロセス事前分布を用いて通常のベイズ推定しても,最 適レートを達成しないことが知られている(van der Vaart and van Zanten (2011)).
この 問題を回避するため,ガウシアンプロセス事前分布をλ
mでスケーリングし,小さな空間H
mに推定量を近づける.スケールパラメータλ
mでスケールされたガウシアンプロセス 事前分布GP
m( ·| λ
m)
はスケールされたカーネル関数˜ k
m,λm= k
m/λ
mに対応したガウシア ンプロセスであると定義する.H
m,λmをk ˜
m,λmに対応した再生核ヒルベルト空間とする.すると,f
∈ H
mはH
m,λmに埋め込まれ,H
mの元としてのf
とH
m,λm の元としてのf
を同じ記号で表すと,√ λ
mk f k
Hm= k f k
Hm,λmが成り立つ.
式
(5.1)
で導入された事前分布に応じて,“事後分布”
とベイズ推定量を定義する.Dn:=
(y
1, . . . , y
n)
とする.ある定数β > 0
に対し,(f1, . . . , f
M)
の事後分布をΠ(df | D
n) := exp( − ∑
ni=1
(y
i− ∑
Mm=1
f
m(x
i))
2/β)
∫ exp( − ∑
ni=1
(y
i− ∑
Mm=1
f ˜
m(x
i))
2/β)Π(d ˜ f ) Π(df ),
と定める
(ノイズが正規分布でない場合や β
の選び方によってはこれは正確な意味での事後分布ではなくなるが,ここでは簡単のため「事後分布」と呼ぶ).事後分布に応じて,そ の平均を計算することで,ベイズ推定量
f ˆ
が得られる:f ˆ =
∫ ∑
Mm=1
f
mΠ(df | D
n).
本稿では,この推定方法をベイズ
-MKL
と呼ぶ.すると,Suzuki (2012)
で仮定された雑音 の条件のもと,次の定理を得る.定理
5.1 f
m∗∈ H
mが全てのm ∈ I
0で成り立ち,max
m∈I0k f
m∗k
Hm≤ R
とする.する と,{ s
m}
m∈I0, R, β
および雑音の分布に依存したある定数C
10 が存在して,E
Y1:n|x1:n[ k f ˆ − f
∗k
2n] ≤ C
10{
dn
−1+s1+ d n log
( M e κ | I
0|
)}
が成り立つ.
これは,再生核ヒルベルト空間の間の相関に依存しないことに注意されたい.しかも,`∞
-
混合ノルム球における最適レートを達成している.より詳細の議論および一般化はSuzuki (2012)
を参照されたい.6.
まとめMKL
の推定方法として正則化法とベイズ推定法を考察し,それらの汎化誤差バウンド を紹介した.また,MKLの定式化としてカーネルの重みを最適化する方式と正則化によ る方式の双対関係を論じた.正則化学習によるMKL
では`
1-正則化とエラスティックネッ
ト型正則化を解析し,真の関数の滑らかさおよびスパース性によってそれぞれの汎化誤差 を特徴づけた.これらの結果は,`1以外の正則化(例えば`
p-正則化)が良い精度を出すと
いう実験的知見(Cortes et al. (2009b), Kloft et al. (2009), Tomioka and Suzuki (2009))
をある程度説明するものである.さらに,ベイズ推定法としてガウシアンプロセス事前分 布とモデルの指数重み平均を用いた方法を紹介し,カーネル間の相関に関する条件を課さ ずともミニマックス最適レートを達成することを紹介した.本稿で紹介できなかったトピックとして,
Suzuki (2011)
はスパース性を仮定しないで任 意の混合ノルム型凸正則化に対する汎化誤差バウンドを導出している.さらに,これをも とにadaptive lasso
と似た適応的重みを用いた正則化学習法がSuzuki (2013)
で提案され ており,精度向上が報告されている.このような工夫は実データ解析では有用である.謝辞
本稿で紹介した研究において多くの議論と助言をいただいた冨岡亮太さん,杉山将先生,