ガウス過程

第 6 章カーネル法

6.4 ガウス過程

6.4.1 線形回帰再訪

入力xに対して出力が

y(x)=w^Tϕ(x) (6.15)

と与えられるモデルを考え、wの事前分布を

p(w)=N(w|0, α⁻¹I) (6.16)

とする。データ点の集合x₁,· · · ,x_Nに対する関数の値の集合y(x₁),· · ·,y(x_N)をベクトルyと表現すると

y=Φw (6.17)

となる。ここでΦnk=ϕk(x_n)である。この平均と共分散は E[y] = ΦE[w]=0

cov[y] = E[yy^T]=ΦE[ww^T]Φ^T = 1

αΦΦ^T =K (6.18)

となる。ただしKは

Knm=k(x_n,x_m)= 1

αϕ(x_n)^Tϕ(x_m) (6.19)

なるカーネルである。

6.4.2 ガウス過程による回帰

観測される目標変数が、前節のynにガウス分布に従うノイズが混ざったもので与えられるモデルを考える。すなわち

tn =yn+ϵn (6.20)

とし、

p(t_n|y_n)=N(t_n|y_n, β⁻¹) (6.21) であるとする。ノイズは各データに対して独立であるため、y=(y1,· · ·,yN)^Tが与えられた時の目標値t=(t1,· · ·,tN)^Tの同時分布は

p(t|y)=N(t|y, β⁻¹I_N) (6.22)

となる。また前節より、周辺分布p(y)については

p(y)=N(y|0,K) (6.23)

である。したがって周辺分布p(t)は

p(t) =

∫

p(t|y)p(y)dy=N(t|0,C)

C(x_n,x_m) = k(x_n,x_m)+β⁻¹δnm (6.24)

となる。

ガウス過程回帰に用いるカーネル関数としては k(x_n,x_m)=θ0exp

{−θ1

2||x_n−x_m||²}

+θ2+θ3x^T_nx_m (6.25)

の形のものがよく用いられる。

次に、入力x1,· · ·,xNと対応するt1,· · ·,tNが与えられている場合の、入力xN+1に対する出力 tN+1を考える。これは

p(tN+1)=N(tN+1|0,CN+1) (6.26) を周辺化することで得られる。ここで、t_N₊₁はベクトル(t₁,· · ·,t_N,t_N₊₁)^Tを表す。

C_N₊₁ =



CN k k^T c



 (6.27)

とあらわすことにすると

p(tN+1|t)=N(tN+1|k^TC⁻_N¹t,c−k^TC_N⁻¹k) (6.28) を得る。

6.4.3 超パラメータの学習

データ集合が与えられた場合の、超パラメータθの最尤推定の手法を考える。尤度関数の対数は ln p(t|θ)=−1

2ln|C_N| −1

2t^TC⁻_N¹t−N

2 ln(2π) (6.29)

であり、その微分は

∂

∂θi

ln p(t|θ)=−1 2Tr

(

C_N⁻¹∂CN

∂θi

) +1

2t^TC_N⁻¹∂CN

∂θi

C_N⁻¹t (6.30)

で与えられる。

6.4.4 関連度自動決定

省略

6.4.5 ガウス過程による分類

入力の訓練集合をx₁,· · ·,x_N とし、観測値をt_N =(t1,· · ·,tN)^T とするが、ここでは目標変数が t ∈ {0,1}である2クラス分類問題を考える。そのために関数a(x)を前節までのガウス過程とし、

y=σ(a)によってy∈(0,1)なる確率過程を得ることにする。すなわち、aに対するtの分布は、ベルヌーイ分布

p(t|a)=σ(a)^t(1−σ(a))¹⁻^t (6.31)

で与えられ、aについては

p(aN+1)=N(aN+1|0,CN+1) (6.32) が成り立つものとする。共分散行列がこのモデルを特徴づける元になっていて、それは

C(x_n,x_m)=k(x_n,x_m)+νδnm (6.33)

と、任意のカーネルと、正定値性を保証する対角項で構成される。知りたい量はN個のデータが与えられたときのN+1個目のデータの予測であり、

p(t_N₊₁=1|t_N)=

∫

p(t_N₊₁=1|a_N₊₁)p(a_N₊₁|t_N)da_N₊₁ (6.34) である。ここで、ベルヌーイ分布を考えているため、

p(t_N₊₁=1|a_N₊₁)=σ(a_N₊₁) (6.35) であり、

p(aN+1|tN) =

∫

p(aN+1|aN)p(aN|tN)daN

p(aN+1|a_N) = N(aN+1|k^TC⁻_N¹a_N,c−k^TC⁻_N¹k) (6.36) が成り立つ。

6.4.6 ラプラス近似

前節の積分の中で、p(aN|tN)は解析的に求めることができないので、ラプラス近似を用いることにする。p(a_N|t_N)∝p(a_N)+p(t_N|a_N)であることと、データについての項は（データ点が互いに独立であるとして）

p(tN|aN)=

∏N n=1

σ(an)^tⁿ(1−σ(an))¹⁻^tⁿ =

∏N n=1

e^aⁿ^tⁿσ(−an) (6.37) と表されることから、（これは確率過程でaNはaN−1に依存しているので、互いに独立という仮定は違和感がある。おそらく本文にわざわざ「データ点が互いに独立であるとして」と括弧つきでかかれているのはそのため。）モードとヘッセ行列を求めるべき関数Ψ(a_N)は正規化項を無視すると

Ψ(aN) = ln p(aN)+ln p(tN|aN)

= −1

2a^T_NC_N⁻¹a_N−N

2 ln(2π)−1

2ln|C_N|+t^T_Na_N−

∑N n=1

ln(1+e^aⁿ)

(6.38) となる。勾配と二階微分は

∇Ψ(aN) = tN−σN−C_N⁻¹aN

∇∇Ψ(aN) = −WN−C⁻_N¹ (6.39)

で与えられる。ここで、σ_N はσanを持つベクトルであり、W_Nはσ(an)(1−σ(an))を要素にもつ対角行列である。ニュートン法でモードを求めることにすると、更新式は

a^new_N = a^old_N −(∇∇Ψ(aN))⁻¹∇Ψ(aN)

= a^old_N +(WN+C⁻_N¹)⁻¹(tN−σN−C_N⁻¹aN)

= CN(I+WNCN)⁻¹(tN−σN−C_N⁻¹aN) (6.40) となる。本文のヘッセ行列は符号が逆では？上巻206の方が正しいはず。これにより p(aN|tN)の近似として

q(aN|tN)=N(aN|a^∗_N,(WN+CN)⁻¹) (6.41) を得る。ここで、a^∗_NはΦ(aN)の最小値を与える点である。これを用いるとp(aN+1|tN)の積分を評価することができて、

p(aN+1|tN)≈ N(aN+1|k^T(t−σN),c−k^T(W_N⁻¹+CN)⁻¹k) (6.42) を得る。

次に共分散関数のパラメータθを決定することを考える。そこで、尤度関数p(tN|θ)を最大化することを考える。

p(t_N|θ)=

∫

p(t_N|a_N)p(a_N|θ)da_N (6.43)

この被積分関数の対数はΨ(aN)そのものであって、本文(4.135)を用いると、

ln p(tN|θ)≈Ψ(a^∗_N)−1

2ln|WN+C_N⁻¹|+N

2 ln(2π) (6.44)

と近似することができる。これは、行列C_Nがθに依存することによる部分と、a^∗_Nを通して依存する部分とがある。θに明示的に依存する寄与（CNによる部分）の微分は

∂ln p(tN|θ)

∂θj

= 1

2a^∗_N^TC_N⁻¹∂CN

∂θj

C_N⁻¹a⁻_N¹

− 1

2Tr [

(I+CNWN)⁻¹WN∂CN

∂θj

]

(6.45) となる。この式は

∂

∂θj

ln|WN+C_N⁻¹| = Tr

(WN+C⁻_N¹)⁻¹∂C⁻_N¹

∂θj



= Tr (

−(WN+C_N⁻¹)⁻¹C_N⁻¹∂CN

∂θj

C_N⁻¹ )

= Tr (

−C_N⁻¹(CNWN+I)⁻¹∂C_N

∂θj

)

∂

∂θj

ln|C_N| = Tr (

C_N⁻¹∂CN

∂θj

)

および

[I−(C_NW_N+I)⁻¹]

(C_NW_N+I) = C_NW_N

I−(C_NW_N+I)⁻¹ = C_NW_N(C_NW_N+I)⁻¹

(6.46) から導けそうな気がするが、最後W_Nが(I+C_NW_N)⁻¹の右に来るのは・・・？また、a^∗_Nを通した寄与であるが、そもそもの定義からΨ(aN)の勾配はa^∗_Nで0になるので、考えるべきは

−1 2

∑N n=1

∂

∂a^∗_n ln|WN+CN|⁻¹∂a^∗_n

∂θj

= −1 2

∑N n=1

[(I+CNWN)⁻¹CN]nnσ^∗n(1−σ^∗n)(1−2σ^∗n)∂a^∗_n

∂θj

(6.47) である。ここで、σ^∗n=σ(a^∗_n)である。最後に、本文(6.84)をθjについて微分すると、

∂a^∗_N

∂θj = ∂C_N

∂θj

(tN−σN)−CNWN

∂a^∗_N

∂θj

∂a^∗_N

∂θj

= (I+W_NC_N)⁻¹C_N

∂θj

(t_N−σ_N) (6.48)

6.4.7 ニューラルネットワークとの関係

省略

ドキュメント内 PRML pdf PRML ( N x t y(x, w) = w 0 + w 1 x + w 2 x w M x m = M w j x j (1.1) j=0 E(w) = 1 {y(x n, w) t n } 2 (ページ 49-54)

第 6 章 カーネル法

6.4 ガウス過程

6.4.1 線形回帰再訪

6.4.2 ガウス過程による回帰

6.4.3 超パラメータの学習

6.4.4 関連度自動決定

6.4.5 ガウス過程による分類

6.4.6 ラプラス近似

6.4.7 ニューラルネットワークとの関係

第 6 章カーネル法