A.3 RBM の学習則の導出
A.3.1 KL 情報量からの導出
RBMをDNNの構成要素として用いる場合,RBMが生成すべき所望のパターンは入 力となる観測データセットのパターンである.つまり,RBMは本質的には教師無し学習 を行っているが,RBMの可視層は入力層であると同時にパターンを生成する出力層とし ての役割を持つため,入力を教師とした教師有り学習とみることもできるだろう.以下で は,各パターンの集合をパターンの確率分布で表現することにし,RBMが可視変数の確 率分布を観測データセットの確率分布に近づけるための学習方法について説明する.
今,RBMに学習させたいある真の分布からN個の観測データを入手できたとする.本 当は真の分布を入力分布とすることが望ましいが,真の分布は分からないのでNが十分 大きければそのサンプル平均が真の分布に近似できると仮定する.これによって得られた 観測データセットのサンプル平均による分布を経験分布q(v)と定義すると,q(v)は以下 のように書ける.
q(v) := 1 N
∑N
µ=1
δ(v,x(µ)) (A.8)
ここで,x(µ)はµ番目の観測データで,
x(µ) = (x(µ)1 , x(µ)2 ,· · · , x(µ)N
v) (A.9)
のように表される.
一方,RBMの可視変数の確率分布はA.4の結合確率を隠れ変数について周辺化したも のになるので,以下のように表される.
Pv(v|Θ) =∑
h
P(v,h|Θ) (A.10)
これらの確率分布の近さを表す尺度としてKullback-Leibler情報量(KL情報量)を用い ると,
KL[q(v)||Pv(v|Θ)] =∑
v
q(v) ln q(v) Pv(v|Θ)
=∑
v
q(v) lnq(v)−∑
v
q(v) lnPv(v|Θ) (A.11)
32 付録A RBMの学習 ここで,式(A.11)の第1項はRBMの学習パラメータによらず一定である.よって,第2 項を最小化することがRBMの学習の目的になる.また,第2項は負の対数尤度関数であ り,KL情報量の最小化は最尤推定における尤度最大化と等価であることが分かる.
KL情報量を最小化するように学習パラメータを調整するには学習パラメータについて 負の勾配をとれば良い.今,学習パラメータΘについての負の勾配をとると,
−∂KL[q(v)||Pv(v|Θ)]
∂Θ =∑
v
q(v)∂lnPv(v|Θ)
∂Θ
=∑
v
q(v) ∂
∂Θln∑
h
P(v,h|Θ)
=∑
v
q(v) ∂
∂Θln∑
h
1
Z(Θ)exp(−E(v,h|Θ))
=∑
v
q(v) ∂
∂Θln∑
h
exp(−E(v,h|Θ))−∑
v
q(v) ∂
∂Θln∑
h
Z(Θ)
=−∑
v
q(v) 1
∑
hexp(−E(v,h|Θ))
∑
h
∂E(v,h|Θ)
∂Θ exp(−E(v,h|Θ))
− 1
Z(Θ)
∂Z(Θ)
∂Θ
=−∑
v
∑
h
q(v)∂E(v,h|Θ)
∂Θ
exp(−E(v,h|Θ))
∑
hexp(−E(v,h|Θ)) + 1
Z(Θ)
∑
v
∑
h
∂E(v,h|Θ)
∂Θ exp(−E(v,h|Θ))
ここで,ベイズの定理より,可視変数固定のもとでの隠れ変数の条件付き確率は,
Ph|v(h|v,Θ) = P(v,h|Θ)
Pv(v|Θ) = exp(−E(v,h|Θ))
∑
hexp(−E(v,h|Θ)) (A.12) よって,
−∂KL[q(v)||Pv(v|Θ)]
∂Θ =−∑
v
∑
h
q(v)Ph|v(h|v,Θ)∂E(v,h|Θ)
∂Θ
+ 1
Z(Θ)
∑
v
∑
h
∂E(v,h|Θ)
∂Θ exp(−E(v,h|Θ))
A.3 RBMの学習則の導出 33
=−∑
v
∑
h
∂E(v,h|Θ)
∂Θ q(v)Ph|v(h|v,Θ) +∑
v
∑
h
∂E(v,h|Θ)
∂Θ P(v,h|Θ)
=−∑
v
∑
h
∂E(v,h|Θ)
∂Θ q(v)Ph|v(h|v,Θ) +∑
v
∑
h
∂E(v,h|Θ)
∂Θ P(v,h|Θ)
=−
⟨∂E(v,h|Θ)
∂Θ
⟩
q(v)Ph|v(h|v,Θ)
+
⟨∂E(v,h|Θ)
∂Θ
⟩
P(v,h|Θ)
(A.13)
式(A.13) の第1 項と第2 項の期待値は,それぞれ可視変数を経験分布で固定した時の
RBMの結合確率分布による期待値と,固定していないRBMの結合確率分布による期待 値である.第1項については,RBMの層内結合無しという制約から,各隠れ変数は可視 変数に対して条件付き独立が成り立つので,式 (A.14)を用いて期待値計算を容易に行う ことができる.
Ph|v(h|v,Θ) =
Nh
∏
i=1
p(hi = 1|v,Θ) =
Nh
∏
i=1
sigmoid (N
∑v
j=1
wijvj +bvi )
(A.14) 一方,第2項は容易に期待値計算することが難しい.これは RBMの結合確率が式(A.4) で表されるため,正規化定数Z(Θ)を求めるために,可視変数と隠れ変数の実現可能な全 ての状態について計算する必要があるためである.全ての素子の状態が{0,1}や{-1,1}の2 状態である場合,正規化定数Z(Θ)を求めるには2Nv+Nh 回計算を行う必要があるため,
素子数が増えることで計算量が爆発してしまい,現実的な時間で計算することができない という問題がある.よって実際の計算には近似的な手法を用いる必要がある.RBMの学 習ではContrastive Divergence法(CD法)と呼ばれる近似手法が用いられる.
A.3.2 Contrastive Divergence 法 (CD 法 )[33]
通常の無向グラフィカルモデルではマルコフ連鎖モンテカルロ法(MCMC法)などによ るサンプリング法によって近似的な結果を得るが,これらサンプリング法は計算に時間が かかるという難点がある.CD法は本質的にMCMC法の1種であるギブスサンプリング であるが,前述した条件付き独立性に加えサンプリング回数を途中で打ち切ることで,高 速に近似解を求めることを可能にしている.以下ではCD法について説明する.
CD法は図A.1のように可視変数に経験分布を入力として固定した状態を初期状態とし て,可視変数固定のもとで隠れ変数をサンプリング,隠れ変数固定のもとで可視変数をサ ンプリングを交互に繰り返す.各可視変数はRBMの制約より隠れ変数に対して条件付き 独立である.よって式(A.14)と同様に式(A.15)で表されるので,並列にサンプリングを
34 付録A RBMの学習
図A.1 CD法の模式図
行うことができる利点がある.
Pv|h(v|h,Θ) =
Nv
∏
i=1
p(vi = 1|h,Θ) =
Nv
∏
i=1
sigmoid (N
∑h
j=1
wijhj +bhi )
(A.15) 交互のサンプリングによって得られた状態を,経験分布を初期値として順に
v →h→vˆ1 →hˆ1 → · · · →vˆk →hˆk
と表すと,式(A.13) の第1項の結合確率分布 q(v)Ph|v(h|v,Θ)を表すのがサンプル v,hの集合であり, 第2項の結合確率分布P(v,h|Θ)を近似的に表すのがk → ∞での サンプルvˆk,hˆk の集合にあたる.しかし,実用上はk = 1でサンプリングを打ち切って しまっても大抵の場合は問題ない.これは解析的には級数展開によってギブスサンプリン グにおけるバリアンスを軽減していると解釈できるという主張がある[34].これにより,
パラメータの微分値は最適な値に強く近似されていることが期待できる.また,RBMの 学習自体も事前学習の効果が現れる程度に適度に良い学習パラメータを学習できれば良 く,最適である必要がないからである.本研究でも実験は全てk=1で行った.
また,本研究では文献[35]に従い,式(A.13)の第2項の期待値計算に用いる可視変数 と隠れ変数の状態v,ˆ hˆ はサンプリングを行わず,サンプリングに用いる条件付き確率を そのまま用いた.つまり
vˆ =Pv|h(ˆv1|h,Θ) (A.16)
hˆ =Ph|v(ˆh1|vˆ1,Θ) (A.17) とした.これは,サンプリングノイズの軽減を目的としている.
A.3 RBMの学習則の導出 35
A.3.3 学習パラメータの更新
式(A.13)を,各学習パラメータについてCD法で得られたv,h,v,ˆ hˆ を用いて変形する と以下の式が得られる.v,h,v,ˆ hˆが列ベクトル表示であることに注意すると,
∆w=vT ·h−vˆT·hˆ (A.18)
∆bv =v−vˆ (A.19)
∆bh =h−hˆ (A.20)
ここで,∆w,∆bv,∆bh は各学習パラメータの更新量を表す.ただし,
∆Θ=−∂KL[q(v)||Pv(v|Θ)]
∂Θ (A.21)
∂E(v,h|Θ)
∂wij
=−vi·hj (A.22)
∂E(v,h|Θ)
∂bvi =−vi (A.23)
∂E(v,h|Θ)
∂bhj =−hj (A.24)
であることに注意する.最終的にパラメータの更新は,更新後をΘnew 更新前をΘold とすると,
Θnew =Θold +ϵ∆Θ (A.25)
とすればよい.ここでϵは学習率である.
36 付録A RBMの学習