• 検索結果がありません。

PRML pdf PRML ( N x t y(x, w) = w 0 + w 1 x + w 2 x w M x m = M w j x j (1.1) j=0 E(w) = 1 {y(x n, w) t n } 2

N/A
N/A
Protected

Academic year: 2021

シェア "PRML pdf PRML ( N x t y(x, w) = w 0 + w 1 x + w 2 x w M x m = M w j x j (1.1) j=0 E(w) = 1 {y(x n, w) t n } 2"

Copied!
111
0
0

読み込み中.... (全文を見る)

全文

(1)

もし天鳳の鳳凰民がビショップの

『パターン認識と機械学習』を読んだら

critter

前書き

はじめにことわっておきますが、この文書には甲子園を目指す野球部の美少女マネージャーとい うものは一切出てきません。そもそも鳳凰民などという人種は、薄暗い部屋の中でマウスをカチカ チとクリックし他人にラスを押し付けては不気味にほくそ笑むものであって、清清しい青春とは対 極に位置する存在です。鳳凰民の中には twitter のアイコンが美少女な方は多いですが、あれはきっ とアイコンだけです。騙されてはいけません。ですから、「機械学習に興味あるんだけど、これっ てそれに美少女要素を加えたコンテンツじゃないの?」という方は「文芸部のマネージャー」で検 索してミニスカートから覗く太ももでも眺めていれば良いのではないでしょうか。 …少しふざけすぎました。この文書は機械学習の分野で有名な教科書『パターン認識と機械学 習』(通称 PRML) を勉強した時に作った自分用のまとめを公開用に若干修正したものです。なので そもそも天鳳とも無関係です。(一応、僕がホームページで公開している麻雀関係のアプリの理論 的背景は PRML で理解できると思いますが…。)PRML を勉強したい人が補助的に使うことを想定 して公開しました。今でこそブームは去ったかもしれませんが、各地で開催される PRML 勉強会 や、独習のお供にお役立て下さい。 難易度が高いと言われる PRML ですが、こういう本を読むときのコツは個人的には、「1. 問題の 数学的設定は何で、2. どのような仮定、定義をおいて、3. どのような結果を得たか」をはっきりさ せることだと思っていて、その目的のためにこの文書が役に立てば幸いです。自分の動機としては 論理をスッキリさせるという感じでしょうか。ですから、応用例などは PRML 本家の方を参照し て下さい。また、まとめるほどでもないと思った節については省略しています。PRML の要点をま とめたものが見たいという方向けで、110 ページ程度にまとまっています。本家 PRML が 700 ペー ジ程度なのでこれを短いと思うか、長いと思うかは微妙なところですが…。また、数学的補完の必 要性を感じた部分、いまひとつ飲み込めなかった部分は青字でコメントしています。しかし、「手 で追ってないけど、計算すればこうなるんだろうなぁ」と納得したものについては、補完していま せん(ガウス関数の積分とか)。偉そうなことを言っていますが、これは機械学習の全くの素人が 最初に読んで作ったもので、取捨選択等には稚拙な部分があると思うので、あまり期待しないで下 さい。

(2)

最後に、既に PRML の解説などは pdf も含めて数多く出回っていて、PRML の性質から問題に ならないと思いますが、もしもこの文書が著作権的に問題だという指摘を権利者から受けた場合は 対応いたしますのでホームページ (http://critter.sakura.ne.jp) からご連絡下さい。

1

章 序論

1.1

例:多項式曲線フィッティング

N 個の観測値 x および対応する観測値 t が存在。フィッティングを y(x, w) = w0+ w1x+ w2x2+ · · · + wMxm= Mj=0 wjxj (1.1) により行う。二乗和誤差は E(w)= 1 2 Nn=1 {y(xn, w) − tn}2 (1.2) により定義される。これを最小化する w を w∗と書き ERMS= √ 2E(w∗)/N (1.3) を平均二乗平方根誤差という。過学習を抑制するために ˜ E(w)=1 2 Nn=1 {y(xn, w) − tn}2+ λ 2||w|| 2 (1.4) を用いることもある。これを正則化という。

1.2

確率論

省略

1.2.1

確率密度

省略

(3)

1.2.2

期待値と分散

ある関数 f (x) の確率分布 p(x) のもとでの期待値は E[ f ] ≡x p(x) f (x) (1.5) で与えられる。連続変数の場合は E[ f ] ≡p(x) f (x)dx (1.6) となる。これは有限個の N 点で E[ f ] ≈ 1 N Nn=1 f (xn) (1.7) と近似できる。多変数関数の期待値で一部の変数についての平均をとるときには添え字を用いて Ex[ f (x, y)] ≡x p(x, y) f (x, y) (1.8) と表す。これは y の関数となる。また、条件付き期待値 Ex[ f (x, y)|y] ≡x p(x|y) f (x, y) (1.9) を考えることもできる。 f (x) の分散は var[ f ] ≡ E[( f (x)− E[ f (x)])2] = E[ f (x)2 ]− E[ f (x)]2 (1.10) と定義される。確率変数 x 自身の分散は

var[x]= E[x2]− E[x]2 (1.11)

となる。2 つの確率変数 x と y の共分散は

cov[x, y] ≡ E[{x − E[x]}{y − E[y]}]

= E[xy] − E[x]E[y] (1.12)

と定義される。また、2 つの確率変数ベクトル x, y に関して、共分散は行列

cov[x, y] ≡ E[{x − E[x]}{yT− E[yT]}]

= E[xyT]− E[x]E[yT] (1.13)

となり、ベクトル x の成分間の共分散を表すのには

x≡ cov[x, x] (1.14)

(4)

1.2.3

ベイズ確率

モデルパラメータ w の適切な選び方に関する不確実性を取り扱う方法を考える。あらかじめ w に関する事前確率分布 p(w) を仮定し、観測データをD と書くことにすれば p(w|D) = p(D|w)p(w) p(D) (1.15) となる。p(D|w) は尤度関数と呼ばれる。また p(D) = ∫ p(D|w)p(w)dw (1.16) である。

1.2.4

ガウス分布

ガウス分布は N(x|µ, σ2) 1 (2πσ2)1/2exp { − 1 2σ2(x− µ) 2 } (1.17) で定義される。この分布については E[x] = µ E[x2 ] = µ2+ σ2 var[x] = σ2 (1.18) が成り立つ。多変数の場合は N(x|µ, Σ) ≡ 1 (2π)D/2|Σ|1/2exp { − 1 2σ2(x− µ) TΣ−1(x− µ) } (1.19) となる。ここで D はベクトルの次元で|Σ| は Σ の行列式を表す。 次にスカラー変数の N 個の観測値からなるデータ集合 x= (x1, · · · , xN) からµ と σ2を推定する ことを考える。尤度関数は p(x|µ, σ2)= Nn=1 N(xn|µ, σ2) (1.20) で与えられ、その対数は ln p(x|µ, σ2)= − 1 2σ2 Nn=1 (xn− µ)2−N 2 lnσ 2N 2 ln(2π) (1.21) となる。これを最大化すると µML = 1 N Nn=1 xN σ2 ML = 1 N Nn=1 (xn− µML)2 (1.22)

(5)

となる。ところで、これらのデータがパラメータµ, σ2を持つガウス分布から与えられたとすると、 この量の期待値は E[µML] = µ E[σ2 ML] = ( N− 1 N ) σ2 (1.23) となる。したがって ˜ σ2= N N− 1σ 2 ML (1.24) は分散パラメータの不偏推定量になる。

1.2.5

曲線フィッティング再訪

訓練データの集合 x= (x1, · · · , xN)T とっそれに対応する目標値 t= (t1, · · · , tN)T に基づいて、新 たな入力 x に対する目標変数 t の予測を確率分布で表すことを考える。 ここでは x に対応する t が 多項式曲線 y(x, w) を平均とするガウス分布に従うと仮定する。すなわち p(t|x, w, β) = N(t|y(x, w), β−1) (1.25) として考える。尤度関数はデータが独立であると仮定し、 p(t|x, w, β) = Nn=1 N(tn|y(xn, w), β−1) (1.26) で与えられる。その対数は ln p(t|x, w, β) = −β 2 Nn=1 {y(xn, w) − tn}2+ N 2 lnβ − N 2 ln(2π) (1.27) である。これを最大化することは w については二乗和誤差の最小化と等価であり、β については 1 β= 1 N Nn=1 {y(xn, wML)− tn}2 (1.28) を得る。 よりベイズ的なアプローチでは w に関する事前分布を導入する。ここでは p(w|α) = N(w|0, α−1I)=( α 2π )(M+1)/2 exp { −α 2w Tw} (1.29) を考える。ここで M は多項式の時数であり、w の要素数は M+ 1 である。また α を超パラメータ と呼ぶ。ベイズの定理より、w の事後分布は事前分布と尤度関数の積に比例し p(w|x, t, α, β) ∝ p(t|x, w, β)p(w|α) (1.30) となる。この最大値は β 2 Nn=1 {y(xn, w) − tn}2+α 2w Tw (1.31) を最小にする w によって与えられる。これは、正則化された二乗和誤差の最小化と等価である。

(6)

1.2.6

ベイズ曲線フィッティング

3.3 節でやるため、省略。

1.3

モデル選択

省略

1.4

次元の呪い

省略

1.5

決定理論

入力ベクトル x と対応する目標変数 t が存在し、新たな x に対する t を予測することを考える。 例として、入力 x を患者の X 線画像、出力を癌であるクラスC1、癌でないクラスC2とする。目 標は患者の画像 x が与えられたときに2つのクラスに属する確率 p(Ck|x) を求めることであり、ベ イズの定理により p(Ck|x) = p(x|Ck)p(Ck) p(x) (1.32) と表すことができる。

1.5.1

誤識別率の最小化

x の各値に一つのクラスを割り振る規則を考えることにする。すなわち、Rk上の点にはクラス Ckを割り当てることにする。同時分布を用いると、誤りが起きる確率は p(誤り)= ∫ R1 p(x, C2)dx+ ∫ R2 p(x, C1)dx (1.33) となる。また一般の K クラスの場合は、正解の確率が p(正解)= Kk=1 ∫ Rk p(x, Ck)dx (1.34) で表される。これを最大化するには各 x を最大事後確率 p(Ck|x) を持つクラスに割り当てるべきで ある。

(7)

1.5.2

期待損失の最小化

目的が正解確率の最大化でない場合、例えば以下の損失関数を最小化したい場合を考える。 E[L] =k, j ∫ RjLk jp(x, Ck)dx (1.35) これを最小化するには各 x においてk Lklp(x, Ck) (1.36) が最も小さくなるようなクラス j を選べばよい。

1.5.3

棄却オプション

省略

1.5.4

推論と決定

省略

1.5.5

回帰のための損失関数

回帰問題の場合についても、各入力 x に対して t の値に対する推定値 y(x) を考えたときに、損 失 L(t, y(x)) をこうむるとすると、期待損失は E[L] = ∫ ∫ L(t, y(x))p(x, t)dxdt (1.37) で与えられる。二乗誤差の場合 E[L] = ∫ ∫ {y(x) − t}2p(x, t)dxdt (1.38) となる。変分法を用いることによって、 δE[L] δy(x) = 2 ∫ {y(x) − t}p(x, t)dt = 0 (1.39) より、損失を最小にする y(x) として y(x)= ∫ t p(x, t)dt p(x) = ∫ t p(t|x)dt = Et[t|x] (1.40) を得る。この結果は別の方法で導くこともできる。二乗の項は {y(x) − t}2 = {y(x) − E t[t|x] + Et[t|x] − t}2

= {y(x) − Et[t|x]}2+ 2{y(x) − Et[t|x]}{Et[t|x] − t} + 2{Et[t|x] − t}2

(8)

となる。 ∫ {Et[t|x] − t}p(x, t)dt = 0 (1.42) より、 E[L] ={y(x) − Et[t|x]}2p(x)dx+ ∫ var[t|x]p(x)dx (1.43) となる。ただし var[t|x] ={t − Et[t|x]}2p(t|x)dt (1.44) である。 二乗誤差には単純な一般化が存在し、 E[Lq]= ∫ ∫ {y(x) − t}qp(x, t)dxdt (1.45) をミンコフスキー損失という。

1.6

情報理論

離散分布に対する H[x]= − ∑ x p(x) log2p(x) (1.46) をエントロピーという。また、連続分布に対する。 H[x]= − ∫ p(x) ln p(x)dx (1.47) を微分エントロピーという。離散分布のエントロピーを最大化する分布は等確率分布であり、微分 エントロピーを最大化する分布はガウス分布である。 また、確率変数 x, y に対して、 H[y|x] = − ∫ ∫ p(y, x) ln p(y|x)dydx (1.48) を x に対する y の情報エントロピーという。このとき H[x, y] = − ∫ ∫

p(y, x) ln p(y, x)dydx = H[y|x] + H[x] (1.49)

(9)

1.6.1

相対エントロピーと相互情報量

二つの分布 p(x)t と q(x) に対して、 KL(p||q) = −p(x) ln q(x)dx− ( − ∫ p(x) ln p(x)dx ) = − ∫ p(x) ln { q(x) p(x) } dx (1.50) を p(x)t と q(x) の間の相対エントロピーという。これは真の分布 p(x) の代わりに q(x) を使った時 に必要となる追加の情報量と解釈される。また、この量は対称ではない。 イェンセンの不等式を用いると、常に KL(p||q) ≥ 0 が成り立ち等号成立は p(x) = q(x) に限るこ とがわかる。イェンセンの不等式は p(x)> 0、∫ p(x)dx= 1 とし、関数 f を凸関数とすると ∫ f (g(x))p(x)dx≥ f (∫ g(x)p(x)dx ) (1.51) が成り立つことをいい、その証明は以下のように行う。凸関数については f (b)≥ f (a) + f(a)(b− a) (1.52) が成り立つ。等号成立は b= a の時に限る。b に g(x) を、a にg(x)p(x)dx を代入し、辺々p(x) をかけて積分を行うと、イェンセンの不等式を得る。等号成立は g(x) が定数の時に限る。相対エ ントロピーの性質を証明するには、 f を− ln に、g(x) を q(x)/p(x) に置き換えればよい。 2つの確率変数 x、y に関して I[x, y] ≡ KL(p(x, y)||p(x)p(y)) = − ∫ p(x, y) ln ( p(x)p(y) p(x, y) ) dxdy (1.53) を相互情報量とよぶ。相対エントロピー同様に I[x, y] ≥ 0 であり、

I[x, y] = H[x] − H[x|y] = H[y] − H[y|x] (1.54)

が成り立つ。

2

章 確率分布

2.1

二値変数

x∈ {0, 1} 上で定義された

(10)

をベルヌーイ分布とよぶ。x= 0, 1 の確率がそれぞれ 1 − µ, µ で与えられる。期待値と分散は E[x] = µ var[x] = µ(1 − µ) (2.2) データ集合D = (x1, · · · , xn) がこの分布から独立に得られたとすると、尤度関数とその対数は p(D|µ) = Nn=1 p(xn|µ) = Nn=1 µxn(1− µ)1−xn ln p(D|µ) = Nn=1 ln p(xn|µ) = Nn=1 {xnlnµ + (1 − xn) ln(1− µ)} (2.3) で与えられる。これを最大化すると µML= 1 N Nn=1 xn (2.4) を得る。 ベルヌーイ分布に基づく試行を N 回行った場合に x= 1 が出る回数を表す確率分布を二項分布と いい、 Bin(m|N, µ) =   Nm    µm(1− µ)N−m   Nm    ≡ (N− m)!m!N! (2.5) で表される。平均と分散は E[x] = Nµ var[x] = Nµ(1 − µ) (2.6) で与えられる。

2.1.1

ベータ分布

(0, 1) 上で定義された以下の分布をベータ分布という。

Beta(µ|a, b) ≡ Γ(a + b)

Γ(a)Γ(b)µa−1(1− µ)b−1 Γ(x) ≡ 0 ux−1e−udu (2.7) その平均と分散は E[µ] = a a+ b var[µ] = ab (a+ b)2(a+ b + 1) (2.8)

(11)

で与えられる。 ベルヌーイ分布から x= 1 となる観測値を m 個、x = 0 なる観測値を l 個含むデータ集合を考え、 ベルヌーイ分布のパラメータµ の事前分布がガンマ分布と仮定すると、µ に関する事後分布は p(µ|m, l, a, b) = Γ(m + a + l + b) Γ(m + a)Γ(l + b)µ m+a−1 (1− µ)l+b−1 (2.9) となってやはりガンマ分布となる。この性質を共役性と呼ぶ。次の試行に対する予測分布は p(x= 1|m, l, a, b) = ∫ 1 0 p(x= 1|µ)p(µ|m, l, a, b)dµ = ∫ 1 0 µp(µ|m, l, a, b)dµ = m+ a m+ a + l + b (2.10) となる。

2.2

多値変数

K 個の異なる状態のうち 1 つをとる離散変数を扱うことを考える。状態を表す変数には、K 次元 空間を張る K 個の単位ベクトルを考えればよく確率分布はパラメータµkを用いて p(x|µ) = Kk=1 µxk k (2.11) と表され、その期待値は E[x|µ] =x p(x|µ)x = µ (2.12) となる。N 個の独立な観測値 x1, · · · , xNのデータ集合D が与えられた場合の尤度関数は p(D|µ) = Nn=1 Kk=1 µxnk k = Kk=1 µmk k mk = ∑ n xnk (2.13) となる。µ の最尤推定解を求めるにはkµk = 1 を満たしつつ尤度関数の対数を最大化するため、 ラグランジュ乗数法を用いるとよく、 Kk=1 mklnµk+ λ    Kk=1 µk− 1    (2.14) の導関数を 0 にすればよい。その結果として µML k = mk N (2.15)

(12)

を得る。 パラメータ µ および観測値の総数 N が与えられた条件での m1, · · · , mKの同時確率は Mult(m1, · · · , mK|µ, N) =   m N 1· · · mK    Kk=1 µmk k   m N 1· · · mK    = m N! 1!· · · mK! (2.16) で与えられ、多項分布と呼ばれる。

2.2.1

ディリクレ分布

多項分布の共役事前分布は、パラメータ α を用いて Dir(µ|α) = Γ(a0) Γ(a1)· · · Γ(aK) Kk=1 µαk−1k α0 = Kk=1 αk (2.17) と表される。ここで µ にはK k=1µk= 1 の制約が課されていることに注意する。「制約が課された 確率分布」というと納得しにくいが、K− 1 変数の確率分布 pK(µ1, · · · , µK−1)= Γ(a 0) Γ(a1)· · · Γ(aK) K−1 ∏ k=1 µαk−1 k   1 − K−1 ∑ k=1 µk    αK−1 (2.18) として捉えればよい。定義域は 0< µk, ∑K−1 k=1 µk< 1 であり、規格化については、 ∫ c 0 µa−1(c− µ)b−1dµ = ca+b−1Γ(a)Γ(b) Γ(a + b) (2.19) が成り立つことに注意し(µ → cµ′と変換し、ベータ分布の規格化の式を使う。)µK−1の積分を実 行すると ∫ 1−∑K−2 k=1µk 0 µαK−1−1 M−1   1 − K−2 ∑ k=1 µk− µK−1    αK−1 dµK−1= Γ(α K−1)Γ(αK−1) Γ(αK−1+ αK)   1 − K−2 ∑ k=1 µk    αK−1+αK−1 (2.20) となるので、後は順番に積分を行うことで確認することができる。 データ集合が与えられた場合の事後分布は p(µ|D, α) ∝ p(D|µ)p(µ|α) であり、正規化係数を求 めると、 p(µ|D, α) = Dir(µ|α + m) = Γ(a0+ N) Γ(a1+ m1)· · · Γ(aK+ mk) Kk=1 µαk+mkk −1 (2.21) を得る。

(13)

2.3

ガウス分布

1 変数 x に対するガウス分布は N(x|µ, σ2)= 1 (2πσ2)1/2exp { − 1 2σ2(x− µ) 2 } (2.22) と書かれる。ここで平均はµ で、分散は σ2である。D 次元変数の場合は N(x|µ, Σ) = 1 (2π)D/2|Σ|1/2exp { −1 2(x− µ)Σ −1(x− µ)} (2.23) となり、 E[x] = µ cov[x] = Σ (2.24) が成り立つ。

2.3.1

条件付きガウス分布

x をガウス分布N(x|µ, Σ) に従う D 次元のベクトルとする。これを 2 つの互いに素な部分 xa, xb に分割する場合を考える。また µ, Σ についても分割を定義し x=   xaxb    µ =   µaµb    Σ =  

ΣaaΣba ΣabΣbb    (2.25) とする。また、共分散の逆行列を精度行列と定義しこれについても分割を考える。すなわち Λ=   ΛaaΛ Λab ba Λbb    (2.26) である。このとき、xbを固定した場合の xaの条件付き分布は p(xa|xb)p(xa, xb)p(xa, xb)dxa = N(xaa|b, Λ−1aa) µa|b = µa− Λ−1aaΛab(xb− µb) (2.27) となる。

2.3.2

周辺ガウス分布

周辺分布については以下が成り立つ p(xa)= ∫ p(xa, xb)dxb= N(xaa, Σaa) (2.28)

(14)

2.3.3

ガウス変数に対するベイズの定理

次に周辺分布と条件付き分布が以下のように与えられている問題を考える。 p(x) = N(x|µ, Λ−1) p(y|x) = N(y|Ax + b, L−1) (2.29) このとき zT = (xT, yT) も正規分布に従い E[z] =   µ+ b    cov[z] = R−1=   Λ+ A TLA −ATL −LA L    (2.30) が成り立つ。その他にも p(y) = ∫

p(y|x)p(x)dx = N(y|Aµ + b, L−1+ AΛ−1AT)

p(x|y) = N(x|Σ{ATL(y− b) + Λµ}, Σ)

Σ = (Λ + ATLA)−1 (2.31)

2.3.4

ガウス分布の最尤推定

多変量ガウス分布から独立に得られたと仮定したデータ集合 X = (x1, · · · , xN)Tがあるとき、対 数尤度関数は ln p(X|µ, Σ) = −ND 2 ln(2π) − N 2 ln|Σ| − 1 2 Nn=1 (xn− µ)TΣ−1(xn− µ) (2.32) となり、これを最大化すると µML = 1 N Nn=1 xn ΣML = 1 N Nn=1 (xn− µML)(xn− µML)T (2.33) を得る。真の分布で最尤推定解の期待値を評価すると E[µML] = µ E[ΣML] = N− 1 N Σ (2.34) となる。したがって分散の不偏推定量は ˜ Σ= 1 N− 1 Nn=1 (xn− µML)(xn− µML)T (2.35) となる。

(15)

2.3.5

逐次推定

省略(わかりにくい上に、後の議論で必要というわけでもなさそう)

2.3.6

ガウス分布に対するベイズ推論

1 変数の場合から考える。N 個のデータ集合 x= {x1, · · · , xN} が与えられ、それが分散 σ2を既知 とするガウス分布から与えられたとすると、尤度関数は p(x|µ) = Nn=1 p(xn|µ) = 1 (2πσ2)N/2exp  −2σ12 Nn=1 (xn− µ)2 (2.36) となる。平均に関する共益事前分布は p(µ) = N(µ|µ0, σ20) (2.37) となる。事後分布は p(µ|x) = 1 Cp(x|µ)p(µ) = N(µ|µN, σ2N) (2.38) となる。ただし µN = σ 2 Nσ2 0+ σ2 µ0+ Nσ2 0 Nσ2 0+ σ2 µML 1 σ2 N = 1 σ2 0 +σN2 µML = 1 N Nn=1 xn (2.39) である。 次に平均がわかっていて、分散がわからない場合を考える。これについては精度λ ≡ 1/σ2で考 えるほうが容易で、尤度関数は p(x|λ) = Nn=1 N(xn|µ, λ−1)∝ λN/2exp− λ 2 Nn=1 (xn− µ)2 (2.40) で与えられる。共役事前分布は Gam(λ|a0, b0)≡ 1 Γ(a)b a0 0λ a0−1exp(−b 0λ) (2.41) で定義されるガンマ分布になる。なお、この分布の期待値、分散は E[λ] = a b var[λ] = a b2 (2.42)

(16)

事後分布については p(λ|x) = 1 Cp(x|λ)p(λ) = Gam(λ|aN, bN) (2.43) となる。ただし aN = a0+ N 2 bN = b0+ 1 2 Nn=1 (xn− µ)2= b0+ N 2σ 2 ML (2.44) である。また平均と精度両方が未知の場合事前分布は p(µ, λ) = N(µ|µ0, (β0λ)−1)Gam(λ|a0, b0) (2.45) で与えられる。ただし a0= (1 + β0)/2 である。µN, βN, bNの表式は未確認。多変数の場合は省略

2.3.7

スチューデントの t 分布

省略

2.3.8

周期変数

[0, 2π) 上で定義された p(θ|θ0, m) = 1 2πI0(m) exp{m cos(θ − θ0)} I0(m) = 1 2π ∫ 2π 0 exp{m cos θ}dθ (2.46) をフォン・ミーゼス分布という。 データ1, · · · , θN} が与えられた場合の対数尤度関数は ln p(D|θ0, m) = −N ln(2π) − N ln I0(m)+ m Nn=1 cos(θn− θ0) (2.47) で与えられる。θ0についての導関数を 0 とおくと Nn=1 sin(θn− θ0)= 0 (2.48) より、 θML 0 = tan−1 { ∑ nsinθnncosθn } (2.49) となる。これは幾何的には{(cos θi, sin θi)} の重心の偏角となっている。一方 m については I0(mML) I0(mML) = 1 N Nn=1 cos(θn− θML0 ) (2.50) より数値的に求めることができる。

(17)

2.3.9

混合ガウス分布

Kk=1 πk= 1 0 ≤ πk≤ 1 (2.51) なるπkを用いて表される p(x)= Kk=1 πkN(x|µk, Σk) (2.52) を混合ガウス分布という。 データ X = {x1, · · · , xN} が与えられた場合の対数尤度関数は ln p(X|π, µ, Σ) = Nn=1 ln Kk=1 πkN(xnk, Σk) (2.53) となる。

2.4

指数分布族

η をパラメータとし p(x|η) = h(x)g(η) exp{ηTu(x)} g(η) = ∫ 1 h(x) expTu(x)}dx (2.54) で表されるを指数型分布族という。ベルヌーイ分布、多項分布、ガウス分布はすべてこれに該当 する。

2.4.1

最尤推定と十分統計量

指数型分布族では一般的に −∇ ln g(η) = E[u(x)] (2.55) が成り立つ。またデータの集合 X= {x1, · · · , xN} が与えられた場合の尤度関数は p(X|η) =    Nn=1 h(x)    g(η)NexpηT Nn=1 u(xn) (2.56) で与えられ、最尤推定量はこの対数の微分を 0 にする点として与えられ −∇ ln g(ηML)= 1 N Nn=1 u(xn) (2.57) を満たす。最尤推定の解はデータに ∑nu(xn) を通じてのみ依存し、この量を分布の十分統計量と 呼ぶ。

(18)

2.4.2

共役事前分布

指数型分布族の分布の共役事前分布は p(η|χ, ν) = f (χ, ν)g(η)νexp{νηTχ} (2.58) で与えられる。ここで f (χ, ν) は正規化係数である。データが与えられた場合の事後分布は正規化 係数を除くと p(η|X, χ, ν) ∝ g(η)ν+NexpηT    Nn=1 u(xn)+ νχ    (2.59) で与えられる。

2.4.3

無情報事前分布

省略

2.5

ノンパラメトリック法

データ集合から値が決定される少数のパラメータで関数形が決まる方法はパラメトリックなアプ ローチと呼ばれる。一方関数形を仮定しないものをノンパラメトリックなアプローチという。たと えばヒストグラム密度推定法では、確率変数 x のとりうる領域を幅iの区間に区切り、i 番目の区 間に入った x の観測値を niとし、i 番目の区間の確率密度を pi= ni Ni (2.60) と推定する。ただし N はデータの総数である。

2.5.1

カーネル密度推定法

カーネル密度推定法とは、与えられたデータに対して、 k(u)≤ 0 ∫ k(u)du= 1 (2.61) を満たすカーネル関数を用いて確率密度を p(x)= 1 N Nn=1 1 hDk (x− x n h ) (2.62) と推定する方法である。関数 k としては、例えば原点を中心とする単位立方体を用いることができ る。また、ガウス関数をカーネルとして用いた場合 p(x)= 1 N Nn=1 1 (2πh2)D/2exp { −||x − xn||2 2h2 } (2.63) となる。

(19)

2.5.2

最近傍法

省略

3

章 線形回帰モデル

回帰の目標は N 個の観測値{xn} と対応する目標値 tnが与えられた場合に新しい x に対する t の 値を予測することである。最も単純なアプローチは適当な関数 y(x) を直接構成することであり、よ り一般的には、予測分布 p(t|x) を構成することである。

3.1

線形基底関数モデル

M 個のパラメータ wiおよび、基底関数ϕi(x) を用いて予測関数を y(x, w) = M−1 ∑ j=0 wjϕj(x)= wTϕ(x) (3.1) とするモデルを線形基底関数モデルという。ここでϕ0= 1 は定数関数で、他の M − 1 個の関数はあ らかじめ決めておき、パラメータ wiの方は与えられたデータに基づいて何らかの方法で決定する。

3.1.1

最尤推定と最小二乗法

予測分布を決定論的な関数 y(x, w) を中心としたガウス分布で与えることを考える。すなわち p(t|x, w, β) = N(t|y(x, w), β−1) (3.2) とする。N 個のデータが与えられた場合の尤度関数は p(t|X, w, β) = Nn=1 N(tn|wTϕ(xn), β−1) (3.3) となる。その対数は ln p(t|X, w, β) = Nn=1 lnN(tn|wTϕ(x), β−1) = N 2 lnβ − N 2(2π) − βED(w) ED(w) = 1 2 Nn=1 {tn− wTϕ(xn)}2 (3.4)

(20)

で与えられる。ED(w) は二乗和誤差関数であり、w の最尤解はこれを最小にする。これを微分す ると ∂ ∂wi ED(w)= Nn=1   tnM−1j=0 wjϕj(x)    ϕi(xn) (3.5) となり、ϕi(xn)= Φniと書き上式を 0 とおくと Nn=1 Φnitn = Nn=1 M−1 ∑ j=0 Φn jΦniwj (3.6) より wML= ( ΦTΦ)−1ΦTt (3.7) を得る。また、ノイズの精度パラメータβ については 1 βML = 1 N Nn=1 {tn− wTMLϕ(xn)} 2 (3.8) で与えられる。

3.1.2

最小二乗法の幾何学

省略

3.1.3

逐次学習

省略

3.1.4

正則化最小二乗法

省略

3.1.5

出力変数が多次元の場合

目標ベクトルが K 次元の場合、 y(x, w) = WTϕ(x) (3.9) とすればよい。目標ベクトルの条件付き分布を p(t|x, W , β) = N(t|WTϕ(x), β−1I) (3.10)

(21)

と仮定する。n 番目の行が tT n となる行列を T とすると、このときの対数尤度関数は ln p(T|, X, W , β) = Nn=1 lnN(tn|WTϕ(xn), β−1T ) = NK 2 ln ( β 2π ) −β 2 Nn=1 ||tn− WTϕ(xn)||2 (3.11) であり、これを最大にする W として WML= ( ΦTΦ)−1ΦTT (3.12) を得る。

3.2

バイアス‐バリアンス分解

引き続き、入力 x に対して出力 t を予測する問題を考える。1.5.5 節で示したように二乗損失関数 E[L] = ∫ ∫ {y(x) − t}2p(x, t)dxdt (3.13) を最小にする予測は h(x)= E[t|x] =t p(t|x)dt (3.14) で与えられる。同じく 1.5.5 節で示したように任意の予測関数 y(x) に対して、期待二乗損失は E[L] ={y(x) − h(x)}2dx+ ∫ ∫ {h(x) − t}2p(x, t)dxdt (3.15) で与えられる。予測関数の関数形をどのように選ぼうと、これはデータに依存する量であり、その 期待値を考えることができる。上の式の第一項は {y(x; D) − h(x)}2

= {y(x; D) − ED[y(x;D)] + ED[y(x;D)] − h(x)}2 = {y(x; D) − ED[y(x;D)]}2+ {ED[y(x;D)] − h(x)}2

+ 2{y(x; D) − ED[y(x;D)]}{ED[y(x;D)] − h(x)} (3.16)

である。この式全体のデータ集合D の取り方に関する期待値は

ED[{y(x; D) − h(x)}2]

(22)

となる。第一項は二乗バイアスとよばれ、第二項はバリアンスと呼ばれる。したがって、期待二乗 損失のデータに対する期待値についても ED[E[L]] = (バイアス)2+ バリアンス + ノイズ (バイアス)2 = ∫ {ED[y(x;D)] − h(x)}2p(x)dx バリアンス = ∫ ED[{y(x; D) − ED[y(x;D)]}2]p(x)dx ノイズ = ∫ ∫ {h(x) − t}2 p(x, t)dxdt (3.18) となる。ここで言っているデータの期待値を考えるというのは、データ集合{(xi, ti)} に対して Ni=1 ∫ p(xi, ti)dxidti (3.19) を考えるということである。

3.3

ベイズ線形回帰

3.3.1

パラメータの分布

ここではモデルパラメータの事前分布 p(w)= N(w|m0, S0) (3.20) を考える。この問題では、与えられたデータ X= (x1, · · · , xN), t = (t1, · · · , tN) に対して p(w|t, X) を考える。対応するベイズの定理は p(w|t, X)p(t, X) = p(t|X, w)p(X|w)p(w) (3.21) である。この問題では X は w に依存しない、すなわち p(X|w) は w によらないため p(w|t, X) ∝ p(t|X, w)p(w) (3.22) である。3.1.1 節の尤度関数 p(t|X, w, β) = Nn=1 N(tn|wTϕ(xn), β−1) (3.23) を用いると、 p(w|t, X) = N(w|mN, SN) mN = SN ( S0−1m0+ βΦTt ) S−1N = S−10 + βΦTΦ (3.24) を得る。ただしϕi(xn)= Φniである。

(23)

3.3.2

予測分布

実際的な場面では、w の値そのものよりも、新しい x に対する t の値を予測したいのであって、 それは、 p(t|x, t, X) =p(t|x, w)p(w|t, X)dw (3.25) で与えられる。 p(t|x, w, β) = N(t|wTϕ(x), β−1) p(w|t, X, β) = N(w|mN, SN) (3.26) を考えると、 p(t|x, t, X) = N(t|mTNϕ(x), σ2N(x)) σ2 N(x) = 1 β+ ϕ(x)TSNϕ(x) (3.27) を得る。

3.3.3

等価カーネル

w の事前分布の平均値を 0 とすると mN = βSNΦTt (3.28) となる。これを用いると y(x, mN)= mTNϕ(x)= βϕ(x) TSNΦTt= Nn=1 βϕ(x)TSN ϕ(xn)tn (3.29) を得る。ここで等価カーネルと呼ばれる関数 k(x, x′)= βϕ(x)TSNϕ(x′) (3.30) を定義すると y(x, mN)= Nn=1 k(x, xn)tn (3.31) が成り立つ。なお、等価カーネルはその関数の定義が SNを通してデータ集合 xnに依存している。 また、w の事前分布の分散が大きい極限では SN−1= βΦTΦ (3.32) が成り立つ。この状況の下では、 Nn=1 k(x, xn)= 1 (3.33)

(24)

が全ての x について成り立つ。(本文には書いてないが、演習 3.14 の書き方からしても、w の事 前分布の分散が大きい極限であることは上の式が成り立つ必要条件になっているはず。)これは以 下のように証明する。 Nn=1 k(x, xn) = β ∑ ni j ϕi(x)SNi jϕj(xn) = β∑ ni j ϕi(x)SNi jϕj(xn)ϕ0(xn) = ∑ i ϕi(x)Ii0 = 1 (3.34)

3.4

ベイズモデル比較

省略

3.5

エビデンス近似

本節では、超パラメータの事前分布を導入することを考える。その前に数式などを確認してお く。その際本文に合わせ、関数形の表記からは新しい入力 x を省略する。起点となるのは、目標変 数 t を決定論的な関数 y(x, w) と加法性のガウスノイズの和で表す p(t|w, β) = N(t|y(x, w), β−1) (3.35) である。w についての事前分布を p(w|α) = N(w|0, α−1I) (3.36) とすると、データを与えた後の事後分布は p(w|t, α, β) = N(w|mN, SN) mN = βSNΦTt SN−1 = αI + βΦTΦ (3.37) で与えられる。ここでα, β の事前分布を導入すると、予測分布の表式は p(t|t) = ∫ ∫ ∫ p(t|w, β)p(w|t, α, β)p(α, β|t)dwdαdβ (3.38) となる。ベイズの定理によると p(α, β|t) ∝ p(t|α, β)p(α, β) (3.39) である。

(25)

3.5.1

エビデンス関数の評価

周辺尤度関数 p(t|α, β) は p(t|α, β) = ∫ p(t|w, β)p(w|α)dw (3.40) であり計算を実行すると p(t|α, β) = ( β 2π )N/2( α 2π )M/2∫ exp{−E(w)}dw

E(w) = βED(w)+ αEW(w)

= β 2||t − Φw|| 2+α 2w Tw (3.41) となり、さらに計算を進めると ∫

exp{−E(w)}dw = exp{−E(mN)}(2π)M/2|SN−1|−1/2 (3.42)

となり、 ln p(t|α, β) = M 2 lnα + N 2 lnβ − E(mN)− 1 2ln|S −1 N | − N 2 ln(2π) (3.43) となる。

3.5.2

エビデンス関数の最大化

周辺尤度の対数を微分する過程(本文 (3.86) を微分して (3.89) となるところ)で、mNがα に依 存されることが無視されているように見えて、よくわからないので保留。

3.5.3

有効パラメータ数

省略

3.6

固定された基底関数の限界

省略

4

章 線形識別モデル

本章では、ある入力ベクトル x を K 個の離散クラスCkに割り当てる問題を考える。

(26)

4.1

識別関数

4.1.1

2 クラス

K= 2 の場合に最も簡単な識別関数の表現は y(x)= wTx+ w0 (4.1) を考え、入力ベクトル x を y(x)≤ 0 ならば C1に、y(x)< 0 ならば C2に割り当てることである。

4.1.2

多クラス

前節の内容を多クラスに一般化することを考える。それには、K 個の線形関数 yk(x)= wkTx+ wk0 (4.2) を用いて、全ての j, k に対して yk(x)> yj(x) である場合、点 x をクラスCkに割り当てればよい。 この場合 2 点 xA, xBが決定領域Rkに属するとすると、2 点を結ぶ線分上の点も xCもまたRkに 属する。これは以下のように証明できる。 yk(xC) = yk(λxA+ (1 − λ)xB) = λyk(xA)+ (1 − λ)yk(xB) ≥ λyj(xA)+ (1 − λ)yj(xB) = yj(xC) (4.3)

4.1.3

分類における最小二乗

この節では 3.1 節の手法を線形識別にそのまま用いることを考える。それには、各クラスに対応 する目的変数ベクトル t を 1-of-K 符号化法により定めて、 yk(x)= Dj=0 wk jϕj(x) (4.4) を考えて、ϕ0(x)= 1 および ϕj(x)= xj( j≥ 1) を考えればよい。 ˜x = (1, xT)Tとすれば K 個の要素 は行列の表式で y(x)= ˜WTx˜ (4.5) と書ける。ϕi(xn)= Φniとしたのと同様に、 ˜Xni= ˜xniと定義すれば ˜ W =(X˜TX˜)−1X˜TT (4.6) を得る。演習 4.2 は長いので省略

(27)

4.1.4

フィッシャーの線形判別

2 クラスの分類を次元の削減という観点から考える。D 次元の入力ベクトルを得て、それを 1 次 元に射影することを考える。すなわち y= wTx (4.7) を考える。また、クラスC1とクラスC2の平均ベクトル m1= 1 N1 ∑ n∈C1 xn, m2= 1 N2 ∑ n∈C2 xn, (4.8) を考える。 mk= wTmk (4.9) を定義した時に m2− m1= wT(m2− m1) (4.10) の値が大きいベクトルは、2 つのクラスを分類する適切なベクトルであると考えられる。さらに、 クラス内の分散 s2k=∑ n∈Ck (wTxn− mk)2 (4.11) は小さい方が、各クラスを特徴づける適切なベクトルであると考えられる。そこで、フィッシャー の判別基準 J(w)=(m2− m1) 2 s2 1+ s 2 2 (4.12) を最大化することを考える。これは各量の定義から J(w) = w TS Bw wTS Ww SB = (m2− m1)(m2− m1)T SW = ∑ n∈C1 (xn− m1)(xn− m1)T+ ∑ n∈C2 (xn− m2)(xn− m2)T (4.13) となり、これを w に関して微分することで(この場合は本文 (4.22) と異なり分母にも w があるた めにラグランジュ未定乗数は必要ない) (wTSBw)SWw= (wTSWw)SBw (4.14) を得る。SBw が常に (m2− m1) の方向を向いていること、w はその方向だけが重要であること から w∝ SW−1(m2− m1) (4.15) がわかる。

(28)

4.1.5

最小二乗との関連

省略

4.1.6

多クラスにおけるフィッシャーの判別

省略

4.1.7

パーセプトロンアルゴリズム

省略

4.2

確率的生成モデル

ここでは、クラスの条件付き確率密度 p(x|Ck) とクラスの事前確率 p(Ck) をモデル化する生成的 アプローチを考える。 2 クラスの場合、事後確率は p(C1|x) = p(x|C1)p(C1) p(x|C1)p(C1)+ p(x|C2)p(C2) = 1 1+ exp(−a) = σ(a) (4.16) となる。ここで a= ln p(x|C2)p(C2) p(x|C2)p(C2) (4.17) σ(a) はロジスティックシグモイド関数である。 また K> 2 クラスの場合、事後確率は p(Ck|x) = p(x|Ck)p(Ck)jp(x|Cj)p(Cj) = ∑exp(ak) jexp(aj) (4.18) で与えられる。ただし ak= ln(p(x|Ck)p(Ck)) (4.19) である。

(29)

4.2.1

連続値入力

クラスCkの確率密度が p(x|Ck)= 1 (2π)D/2|Σ|1/2exp { −1 2(x− µk) TΣ−1 (x− µk) } (4.20) の場合を考える。2 クラスの場合は p(C1|x) = σ(wTx+ w0) w = Σ−11− µ2) w0 = − 1 2µ T 1Σ−1µ1+ 1 2µ T 2Σ−1µ2+ ln p(C1) p(C2) (4.21) を得る。多クラスの場合は p(Ck|x) = exp(ak(x))jexp(aj(x)) ak(x) = wTkx+ wk0 wk = Σ−1µk wk0 = − 1 2µ T kΣ−1µk+ ln p(Ck) (4.22)

4.2.2

最尤解

2 クラス分類の問題を考えて、各クラスの事前確率を p(C1)= π, p(C2)= 1 − π と仮定し、各クラ スの条件付き確率密度をガウス分布とすると p(xn, C1) = p(C1)p(xn|C1)= πN(xn1, Σ) p(xn, C2) = p(C2)p(xn|C2)= (1 − π)N(xn2, Σ) (4.23) となる。ここでは、データ集合{xn, tn} が与えられた場合の各パラメータの最尤解を考える。ただ し、tn= 1 がクラス C1に tn= 0 がクラス C2にそれぞれ対応する。尤度関数は p(t, X|π, µ1, µ2, Σ) = Nn=1 [πN(xn1, Σ)]tn[(1− π)N(xn2, Σ)]1−tn (4.24)

(30)

で与えられ、各パラメータに対する対数の微分を 0 とおくと π = N1 N1+ N2 µ1 = 1 N1 Nn=1 tnxn µ2 = 1 N2 Nn=2 (1− tn)xn Σ = N1 N S1+ N2 NS2 Si = 1 Nin∈C1 (x− ui)(x− ui)T (4.25) を得る。ここで NiはクラスCiに属するデータ点の個数である。

4.2.3

離散特徴

省略

4.2.4

指数型分布族

省略

4.3

確率的識別モデル

4.3.1

固定既定関数

省略

4.3.2

ロジスティック回帰

2 クラス分類問題における一般化線形モデルを考える。このモデルでは、特徴ベクトル ϕ が与え られたときのクラスC1の事後確率は p(C1|ϕ) = y(ϕ) = σ(wTϕ) (4.26) と与えられる。ここで ϕ を用いているのは、特徴ベクトル ϕ が入力 x の関数であっても議論が成 立するためと考えられるここではこのモデルのパラメータを最尤法を用いて決定する。データ集合 に対する尤度関数は p(t|w) = Nn=1 ytn n(1− yn)1−tn (4.27)

(31)

となる。ただし yn= p(C1n) である。尤度の負の対数を誤差関数とすると、 E(w)= − ln p(t|w) = − Nn=1 {tnln yn+ (1 − tn) ln(1− yn)} (4.28) となる。ここで yn= σ(wTϕn) である。これを w について微分すると ∇E(w) = Nn=1 (yn− tnn (4.29) が得られる。

4.3.3

反復再重みづけ最小二乗

関数 E(w) を最小化するために

w(new) = w(old)− H−1∇E(w)

H = ∇∇E(w) (4.30) により順次ベクトルを更新していく手法をニュートン‐ラフソン法という。 線形回帰モデルにおける二乗和誤差関数 ED(w)= 1 2 Nn=1 {tn− wTϕ(xn)}2 (4.31) の場合 ∇E(w) = Nn=1 (wTϕn− tn)ϕn= ΦTΦw− ΦTt H= ∇∇E(w) = ΦTΦ (4.32) であるため w(new) = w(old)− (ΦTΦ)−1{ΦTΦw− ΦTt} = (ΦT Φ)−1ΦTt (4.33) となるため、一度で最小二乗解に到達する。これは誤差関数が w の二次関数だからである。 一方ロジスティック回帰の交差エントロピー誤差関数の場合 ∇E(w) = Nn=1 (yn− tn)ϕn= ΦT(y− t) H = Nn=1 yn(1− yn)ϕnϕTn = ΦT (4.34) となる。ここで R は Rnn = yn(1− yn) (4.35) を満たす対角行列である。

(32)

4.3.4

多クラスロジスティック回帰

多クラスの事後確率は p(Ck|ϕ) = yk(ϕ)= exp(ak)jexp(aj) (4.36) と与えられるが、ここでは ak= wTkϕ (4.37) となるモデルを考え、最尤法を用いて wkを決定する。目的変数ベクトルについては 1-of-K 符号化 法を使うことで、与えられたデータに関する尤度関数は yk(ϕn)= ynkと書いて p(T|w1, · · · , wK)= Nn=1 Kk=1 p(Ckn)tnk = Nn=1 Kk=1 ytnk nk (4.38) であり、負の対数を取ると、 E(w1, · · · , wK)= − ln p(T |w1, · · · , wK)= − Nn=1 Kk=1 tnkln ynk (4.39) となる。この勾配は ∇wjE(w1, · · · , wK)= Nn=1 (yn j− tn j)ϕn (4.40) で与えられ、ヘッセ行列の M× M サイズのブロックはwkwjE(w1, · · · , wK) = Nn=1 ynk(Ik j− yn j)ϕnϕTn (4.41) で与えられる。このヘッセ行列の半正定値性は以下のようにして示すことができる。ヘッセ行列を H と書き、ベクトルを v= (vT 1, · · · , v T K) Tと書くことにすると、 vTHv = Nn=1 Kk, j=1 ynk(Ik j− yn j)vkTϕnϕTnvj Kk, j=1 ynk(Ik j− yn j)vkTϕnϕTnvj = ∑ k ynk(vTϕk)2−   ∑ k ynkvkTϕk    2 = ∑ k ynk   ak− ∑ j yn jaj    2 ≥ 0 (4.42) より。ここで ak= vkTϕnとした。

(33)

4.3.5

正準連結関数

この節の内容は線形識別モデルに限った話ではないように思える。入力 ϕ に対する出力 t が存在 する系に対して、以下の式で与えられる確率分布を考える。 p(t|η = ψ( f (wTϕ)), s) = 1 sh (t s ) g(η) exp{ηt s } (4.43) ここで関数 g は規格化因子であり g(η) = ∫ 1 1 sh (t s ) exp{ηts}dt (4.44) である。また y で表現される t の条件付き平均が y≡ [t|η] = −sd dηln g(η) (4.45) で与えられるが、y とη のこの関係を表すのが関数 η = ψ(y) である。 f は何らかの非線形関数であ る。このモデルを一般化線形モデルという。このモデルについて、データが与えられた場合の w を最尤法で考える。データn, tn} が与えられた場合の対数尤度関数は ln p(t|η, s) = Nn=1 ln p(tnn, s) = Nn=1 { ln g(ηn)ntn s } + w によらない定数 (4.46) で与えられる。これを w で微分するとwln p(t|η, s) = Nn=1 { d dηn ln g(ηn)+tn s } dηn dyn dyn dan ∇an = Nn=1 1 s{tn− yn}ψ ′(y n) f(ann (4.47) ここで an= wTϕ である。ここで f−1(y)= ψ(y) (4.48) となるように関数 f を選ぶと、 f (ψ(y)) = y より f(ψ)ψ(y)= 1 となり、誤差関数の勾配として ∇E(w) =1 s Nn=1 {yn− tnn (4.49) を得る。 難しく書かれているが結局本文 (4.124) が成り立つモデルは p(t|wTϕ, s) = 1 sh (t s ) g(wTϕ) exp { wTϕt s } (4.50) となるはず。

(34)

4.4

ラプラス近似

ある確率分布を、そのモードを平均とするガウス分布で近似する手法をラプラス近似という。す なわち p(z)= 1 Zf (z) (4.51) に対して、 d f (z) dz z=z 0 = 0 (4.52) なる z0を求め、 A= − d 2 dz2ln f (z) z=z 0 (4.53) を計算し、 q(z)= (A 2π )1/2 exp { −A 2(z− z0) 2} (4.54) で近似することをいう。多変数の場合も同様である。

4.4.1

モデルの比較と BIC

省略

4.5

ベイズロジスティック回帰

この節ではロジスティック回帰のベイズ的な取り扱いについて考える。

4.5.1

ラプラス近似

2 クラスのロジスティック回帰問題を考える。すなわち、パラメータ w が与えられた場合のデー タ t の尤度関数が p(t|w) = Nn=1 ytn n{1 − yn}1−tn yn = σ(wTϕn) (4.55) で与えられるモデルで、w の事前分布がガウス分布により p(w)= N(w|m0, S0) (4.56)

(35)

で与えられるとする。この時事後確率分布は p(w|t) ∝ p(w)p(t|w) (4.57) であり、対数尤度関数は ln p(w|t) = −1 2(w− m0) TS−1 0 (w− m0) + Nn=1 {tnln yn+ (1 − tn) ln(1− yn)} + 定数 (4.58) となる。ラプラス近似を行う場合、2 回微分が必要になるが、これは SN−1= −∇∇ ln p(w|t) = S0−1+ Nn=1 yn(1− ynnϕTn (4.59) で与えられる。よって、事後確率のラプラス近似の結果として、 q(w)= N(w|wMAP, SN) (4.60) を得る。wMAPは何らかの反復法などで求められると考えられる。

4.5.2

予測分布

前節の結果に基づき、新たな入力 ϕ が与えられた場合の予測分布 p(C1|ϕ, t) =p(C1|ϕ, w)p(w|t)dw ≈ ∫ σ(wT ϕ)q(w)dw (4.61) について考える。デルタ関数を用いると σ(wT ϕ)= ∫ δ(a − wT ϕ)σ(a)da (4.62) と書けるため、 ∫ σ(wTϕ)q(w)dw =σ(a)p(a)da p(a) = ∫ δ(a − wTσ)q(w)dw (4.63) が成り立つ。2.3.2 節の結果より、p(a) はガウス分布であるから(w の一つの成分に関する積分を実 行すると、その成分が a を含む式で置き換わるため。)平均と分散がわかれば、分布がわかったこ とになる。これらは µa = E[a] =p(a)ada= ∫ q(w)wTϕdw= wTMAPϕ σ2 a = var[a] =

p(a){a2− E[a]2}da

= ∫

(36)

により与えられるため、 p(C1|ϕ, t) =σ(a)p(a)da =σ(a)N(a|µa, σ2a)da (4.65) となる。以下省略。

5

章 ニューラルネットワーク

5.1

フィードフォワードネットワーク関数

以下ではパラメータベクトル w で制御される、入力変数の集合{xi} から出力変数の集合 {yk} へ の非線形関数 yk(w, w) = σ    Mj=1 w(2)k jh    Di=1 w(1)ji xi+ w(1)j0    + w(2)k0    = σ    Mj=0 w(2)k jh    Di=0 w(1)ji xi       (5.1) を考える。ここで関数 h は何らかの関数である。また、より一般的な図 5.2 のような構造を持った 関数も考えることができて、各ユニットが zk= h   ∑ j wk jzj    (5.2) を計算する。

5.1.1

重み空間対称性

省略

5.2

ネットワーク訓練

導入部分に書いてあることは単純なので省略

5.2.1

パラメータ最適化

省略

(37)

5.2.2

局所二次近似

省略

5.2.3

勾配情報の利用

省略

5.2.4

勾配降下最適化

省略

5.3

誤差逆伝播

5.3.1

誤差関数微分の評価

以下では誤差関数が、訓練集合の各データに対応する誤差項の和 E(w)= Nn=1 En(w) (5.3) と表される場合を考える。一般のフィードフォワードネットワークでは、それぞれのユニットの出 力が aj = ∑ i wjizi zj = h(aj) (5.4) で与えられる。誤差関数の微分は ∂En ∂wji = ∂En ∂aj ∂aj ∂wji = δjzi (5.5) となる。ただし δj∂E n ∂aj (5.6) であり、これは誤差とよばれる。これの評価は δj∂E n ∂aj =∑ k ∂En ∂ak ∂ak ∂aj = h(aj)k wk jδk (5.7) となっている。すなわち、ユニット j の誤差はそれよりも出力に近い側のユニットの誤差に依存し ているのであり、逆伝播の公式と呼ばれる。

(38)

5.3.2

単純な例

省略

5.3.3

逆伝播の効率

省略

5.3.4

ヤコビ行列

ここではネットワークの出力の入力に関する微分 Jki∂y k ∂xi (5.8) を考える。これはヤコビ行列と呼ばれ Jki=∂y k ∂xi = ∑ j ∂yk ∂aj ∂aj ∂xi = ∑ j wji∂y k ∂aj = ∑ j wjil ∂yk ∂al ∂al ∂aj = ∑ j wjih(aj)l wl j∂y k ∂al (5.9) と逐次的に評価される。演習 5.15 と関連するか不明であるが、上の式は Jki= ∂yk ∂xi = ∑ l ∂yk ∂alj wl jh(aj)wji (5.10) と書いた方が理解しやすい気がする。

5.4

ヘッセ行列

以下では誤差関数の 2 階微分 ∂2E ∂wji∂wlk (5.11) について考える。

(39)

5.4.1

対角近似

ヘッセ行列を対角成分だけ考えると ∂2E ∂w2 ji = ∂2E ∂a2 j z2i ∂2E ∂a2 j = h(aj)2∑ kkwk jwkj ∂ 2E n ∂ak∂ak+ h ′′(aj)k wk j∂E n ∂ak (5.12) を得る。2 階微分についての非対角項を無視すると ∂2E ∂a2 j ≈ h(aj)2∑ k w2k j∂ 2E n ∂a2 k + h′′(aj)k wk j∂E n ∂ak (5.13)

5.4.2

外積による近似

回帰問題を考える場合、通常は E=1 2 Nn=1 (yn− tn)2 (5.14) の形を考える。このとき、ヘッセ行列は H= ∇∇E = Nn=1 ∇yn(∇yn)T + Nn=1 (yn− tn)∇∇yn (5.15) で表されるが、このうち第一項だけでヘッセ行列を近似することを外積による近似という。

5.4.3

ヘッセ行列の逆行列

省略

5.4.4

有限幅の差分による近似

省略

5.4.5

ヘッセ行列の厳密な評価

省略

(40)

5.4.6

ヘッセ行列の積の高速な計算

多くの場合、興味ある量はヘッセ行列 H そのものではなく、H と何らかのベクトル v の積 vTH である。これは vTH= vT∇(∇E) (5.16) で与えられる量であり、以後 vT∇ を作用させることを R{·} とかく。より明示的に書けば R{ f } =i j vi j∂wi j f (5.17) である。2 層ネットワーク aj= ∑ i wjixi zj= h(aj) yk= ∑ j wk jzj (5.18) に対して R{aj} = ∑ i vjixi R{zj} = h(aj)R{aj} R{yk} = ∑ j wk jR{zj} + ∑ j vk jzj (5.19) が成り立つ。また、誤差関数として二乗和誤差関数を考えているので δk∂E ∂yk = yk− tk δj∂E ∂aj = h(aj)k wk jδk (5.20) であり、 R{δk} = R{yk} R{δj} = h′′(aj)R{aj} ∑ k wk jδk+ h(aj)k vk jδk+ h(aj)k wk jR{δk} (5.21) が成り立つ。最後に誤差関数の 1 階微分は ∂E ∂wk j = δkzj ∂E ∂wji = δjxi (5.22)

参照

関連したドキュメント

Since locally closed functions with all point inverses closed have closed graphs [2], (c) implies

We aim at developing a general framework to study multi-dimensional con- servation laws in a bounded domain, encompassing all of the fundamental issues of existence,

7   European Consortium of Earthquake Shaking Tables, Innovative Seismic Design Concepts f or New and Existing Structures; ”Seismic Actions”, Report No.. Newmark, &#34;Current Trend

This paper is a sequel to [1] where the existence of homoclinic solutions was proved for a family of singular Hamiltonian systems which were subjected to almost periodic forcing...

In the second section, we study the continuity of the functions f p (for the definition of this function see the abstract) when (X, f ) is a dynamical system in which X is a

Lang, The generalized Hardy operators with kernel and variable integral limits in Banach function spaces, J.. Sinnamon, Mapping properties of integral averaging operators,

Goal of this joint work: Under certain conditions, we prove ( ∗ ) directly [i.e., without applying the theory of noncritical Belyi maps] to compute the constant “C(d, ϵ)”

Remarkably, one ends up with a (not necessarily periodic) 1D potential of the form v(x) = W (x) 2 + W 0 (x) in several different fields of Physics, as in supersymmetric