RBM の学習則の導出

A.3 RBM ^{の学習則の導出}

A.3.1 KL ^{情報量からの導出}

RBMをDNNの構成要素として用いる場合，RBMが生成すべき所望のパターンは入力となる観測データセットのパターンである．つまり，RBMは本質的には教師無し学習を行っているが，RBMの可視層は入力層であると同時にパターンを生成する出力層としての役割を持つため，入力を教師とした教師有り学習とみることもできるだろう．以下では，各パターンの集合をパターンの確率分布で表現することにし，RBM^{が可視変数の確} 率分布を観測データセットの確率分布に近づけるための学習方法について説明する．

今，RBMに学習させたいある真の分布からＮ個の観測データを入手できたとする．本当は真の分布を入力分布とすることが望ましいが，真の分布は分からないのでNが十分大きければそのサンプル平均が真の分布に近似できると仮定する．これによって得られた観測データセットのサンプル平均による分布を経験分布q(v)と定義すると，q(v)は以下のように書ける．

q(v) := 1 N

∑N

µ=1

δ(v,x^(µ)) (A.8)

ここで，x^(µ)はµ番目の観測データで，

x^(µ) = (x^(µ)₁ , x^(µ)₂ ,· · · , x^(µ)_N

v) (A.9)

のように表される．

一方，RBMの可視変数の確率分布はA.4の結合確率を隠れ変数について周辺化したものになるので，以下のように表される．

Pv(v|Θ) =∑

P(v,h|Θ) (A.10)

これらの確率分布の近さを表す尺度としてKullback-Leibler^情報量(KL^情報量)^を用いると，

KL[q(v)||Pv(v|Θ)] =∑

q(v) ln q(v) P_v(v|Θ)

=∑

q(v) lnq(v)−∑

q(v) lnP_v(v|Θ) (A.11)

32 付録A RBMの学習ここで，式(A.11)の第1項はRBMの学習パラメータによらず一定である．よって，第2 項を最小化することがRBMの学習の目的になる．また，第2項は負の対数尤度関数であり，KL情報量の最小化は最尤推定における尤度最大化と等価であることが分かる．

KL情報量を最小化するように学習パラメータを調整するには学習パラメータについて負の勾配をとれば良い．今，学習パラメータΘについての負の勾配をとると，

−∂KL[q(v)||Pv(v|Θ)]

∂Θ =∑

q(v)∂lnPv(v|Θ)

∂Θ

=∑

q(v) ∂

∂Θln∑

P(v,h|Θ)

=∑

q(v) ∂

∂Θln∑

Z(Θ)exp(−E(v,h|Θ))

=∑

q(v) ∂

∂Θln∑

exp(−E(v,h|Θ))−∑

q(v) ∂

∂Θln∑

Z(Θ)

=−∑

q(v) 1

∑

hexp(−E(v,h|Θ))

∑

∂E(v,h|Θ)

∂Θ exp(−E(v,h|Θ))

− 1

Z(Θ)

∂Z(Θ)

∂Θ

=−∑

∑

q(v)∂E(v,h|Θ)

∂Θ

exp(−E(v,h|Θ))

∑

hexp(−E(v,h|Θ)) + 1

Z(Θ)

∑

∂E(v,h|Θ)

∂Θ exp(−E(v,h|Θ))

ここで，ベイズの定理より，可視変数固定のもとでの隠れ変数の条件付き確率は，

P_h_|_v(h|v,Θ) = P(v,h|Θ)

Pv(v|Θ) = exp(−E(v,h|Θ))

∑

hexp(−E(v,h|Θ)) (A.12) よって，

−∂KL[q(v)||Pv(v|Θ)]

∂Θ =−∑

∑

q(v)P_h_|_v(h|v,Θ)∂E(v,h|Θ)

∂Θ

+ 1

Z(Θ)

∑

∂E(v,h|Θ)

∂Θ exp(−E(v,h|Θ))

A.3 RBMの学習則の導出 33

=−∑

∑

∂E(v,h|Θ)

∂Θ q(v)P_h_|_v(h|v,Θ) +∑

∑

∂E(v,h|Θ)

∂Θ P(v,h|Θ)

=−∑

∑

∂E(v,h|Θ)

∂Θ q(v)P_h_|_v(h|v,Θ) +∑

∑

∂E(v,h|Θ)

∂Θ P(v,h|Θ)

=−

⟨∂E(v,h|Θ)

∂Θ

⟩

q(v)P_h_|_v(h|v,Θ)

⟨∂E(v,h|Θ)

∂Θ

⟩

P(v,h|Θ)

(A.13)

式(A.13) ^の第1 ^項と第2 項の期待値は，それぞれ可視変数を経験分布で固定した時の

RBMの結合確率分布による期待値と，固定していないRBMの結合確率分布による期待値である．第1項については，RBMの層内結合無しという制約から，各隠れ変数は可視変数に対して条件付き独立が成り立つので，式 (A.14)を用いて期待値計算を容易に行うことができる．

P_h_|_v(h|v,Θ) =

∏

i=1

p(hi = 1|v,Θ) =

∏

i=1

sigmoid (_N

∑v

j=1

wijvj +b^v_i )

(A.14) 一方，第2項は容易に期待値計算することが難しい．これは RBM^{の結合確率が式}(A.4) で表されるため，正規化定数Z(Θ)を求めるために，可視変数と隠れ変数の実現可能な全ての状態について計算する必要があるためである．全ての素子の状態が{0,1}や{-1,1}の2 状態である場合，正規化定数Z(Θ)^{を求めるには}2^N^v^+N^h 回計算を行う必要があるため，

素子数が増えることで計算量が爆発してしまい，現実的な時間で計算することができないという問題がある．よって実際の計算には近似的な手法を用いる必要がある．RBMの学習ではContrastive Divergence法(CD法)と呼ばれる近似手法が用いられる．

A.3.2 Contrastive Divergence ^法 (CD ^法 )[33]

通常の無向グラフィカルモデルではマルコフ連鎖モンテカルロ法(MCMC法)などによるサンプリング法によって近似的な結果を得るが，これらサンプリング法は計算に時間がかかるという難点がある．CD^{法は本質的に}MCMC^法の1種であるギブスサンプリングであるが，前述した条件付き独立性に加えサンプリング回数を途中で打ち切ることで，高速に近似解を求めることを可能にしている．以下ではCD法について説明する．

CD^法は図A.1のように可視変数に経験分布を入力として固定した状態を初期状態として，可視変数固定のもとで隠れ変数をサンプリング，隠れ変数固定のもとで可視変数をサンプリングを交互に繰り返す．各可視変数はRBMの制約より隠れ変数に対して条件付き独立である．よって式(A.14)^{と同様に式}(A.15)で表されるので，並列にサンプリングを

34 付録A RBMの学習

図A.1 CD^{法の模式図}

行うことができる利点がある．

P_v|h(v|h,Θ) =

∏

i=1

p(vi = 1|h,Θ) =

∏

i=1

sigmoid (_N

∑h

j=1

wijhj +b^h_i )

(A.15) 交互のサンプリングによって得られた状態を，経験分布を初期値として順に

v →h→vˆ1 →hˆ1 → · · · →vˆk →hˆk

と表すと，式(A.13) ^の第1^{項の結合確率分布} q(v)P_h_|_v(h|v,Θ)を表すのがサンプル v,hの集合であり，第2項の結合確率分布P(v,h|Θ)を近似的に表すのがk → ∞^でのサンプルvˆk,hˆk の集合にあたる．しかし，実用上はk = 1でサンプリングを打ち切ってしまっても大抵の場合は問題ない．これは解析的には級数展開によってギブスサンプリングにおけるバリアンスを軽減していると解釈できるという主張がある[34]．これにより，

パラメータの微分値は最適な値に強く近似されていることが期待できる．また，RBMの学習自体も事前学習の効果が現れる程度に適度に良い学習パラメータを学習できれば良く，最適である必要がないからである．本研究でも実験は全てk=1で行った．

また，本研究では文献[35]に従い，式(A.13)の第2項の期待値計算に用いる可視変数と隠れ変数の状態v,ˆ hˆ はサンプリングを行わず，サンプリングに用いる条件付き確率をそのまま用いた．つまり

vˆ =P_v|h(ˆv1|h,Θ) (A.16)

hˆ =P_h_|_v(ˆh₁|vˆ₁,Θ) (A.17) とした．これは，サンプリングノイズの軽減を目的としている．

A.3 RBMの学習則の導出 35

A.3.3 ^{学習パラメータの更新}

式(A.13)を，各学習パラメータについてCD法で得られたv,h,v,ˆ hˆ を用いて変形すると以下の式が得られる．v,h,v,ˆ hˆが列ベクトル表示であることに注意すると，

∆w=v^T ·h−vˆ^T·hˆ (A.18)

∆b^v =v−vˆ (A.19)

∆b^h =h−hˆ (A.20)

ここで，∆w,∆b^v,∆b^h は各学習パラメータの更新量を表す．ただし，

∆Θ=−∂KL[q(v)||P_v(v|Θ)]

∂Θ (A.21)

∂E(v,h|Θ)

∂wij

=−vi·hj (A.22)

∂E(v,h|Θ)

∂b^v_i =−vi (A.23)

∂E(v,h|Θ)

∂b^h_j =−hj (A.24)

であることに注意する．最終的にパラメータの更新は，更新後をΘ^new 更新前をΘ^old とすると，

Θ^new =Θ^old +ϵ∆Θ (A.25)

とすればよい．ここでϵは学習率である．

36 付録A RBMの学習

ドキュメント内量子化結合ニューラルネットワークの深層学習に関する研究 (ページ 40-45)

A.3 RBM の学習則の導出

A.3.1 KL 情報量からの導出

A.3.2 Contrastive Divergence 法 (CD 法 )[33]

A.3.3 学習パラメータの更新

A.3 RBM ^{の学習則の導出}

A.3.1 KL ^{情報量からの導出}

A.3.2 Contrastive Divergence ^法 (CD ^法 )[33]

A.3.3 ^{学習パラメータの更新}