3.3 概念の統合モデル
3.3.3 統合モデル
提案モデルでは,物体概念と動き概念が,それぞれMLDAで表現されており,
さらにその上位で二つの概念の関係を統合概念として表現する二層構造のモデル となっている.物体概念,動き概念を独立したMLDAとして学習し,その学習結 果を統合概念として学習することも可能であるが,そのような方法では物体概念 と動き概念が相互に影響をあたえることができない.そこで,ここでは各概念を 表す隠れ変数z,zO,zMを同時に学習する.学習にはギブスサンプリングを用い,
各概念を表すカテゴリz,zO,zM を,観測データ wv,wa,wh,wpからサンプリ ングすることで学習する.サンプリングには,θ,θO,θM,βmを周辺化した以下
の事後分布を用いる.
P(zjmi, zjmiO , zjmiM |Z−jmi,ZO−jmi,ZM−jmi,Wv,Wa,Wh,Wp)
=P(zjmi|Z−jmi)P(zjmiO |zjmi,Z−jmi,ZO−jmi)
×P(zjmiM |zjmi,Z−jmi,ZM−jmi)
×P(wjiv|zjmiO ,ZO−jmi,Wv−ji)
×P(wjia|zjmiO ,ZO−jmi,Wa−ji)
×P(wjih|zjmiO ,ZO−jmi,Wh−ji)
×P(wjip|zjmiM ,ZM−jmi,Wp−ji) (3.12) 右辺のそれぞれの確率分布は次のようになる.
P(zjmi =k|Z−jmi) = α+Nj,z=k−jmi
Kα+Nj−jmi (3.13)
P(zjmiC =l|zjmi =k,Z−jmi,ZC−jmi)
= αC+Nz=k,z−jmiC=l
KCαC+Nz=k−jmi (3.14) P(wmji =x|zjmiC =k,ZC−jmi,Wm−ji)
= ϕm+Nz−Cjmi=k,wm=x,m
Wmϕm+Nz−Cjmi=k,m
(3.15)
ただし,Z,ZO,ZMは,それぞれ全物体の全情報に割り当てられた上位カテゴ リ,物体カテゴリ,動きカテゴリの集合を表し,Wmはモダリティmの全物体の 情報の集合である.Nj,z=kは物体j の全モダリティの上位カテゴリzにkが割り 当てられた回数であり,NzC=k,wm=x,mはモダリティmの特徴量wmにxが,下位 カテゴリzC にkが割り当てられた回数である.また,Nz=k,zC=lは上位カテゴリ z =kと下位カテゴリzC =lの共起した回数を表しており,K,KC,Wmはそれ ぞれ上位カテゴリのカテゴリ数,概念Cのカテゴリ数,モダリティmの情報の次 元数である.負の添字はその情報を除外することを表し,−jmiはj番目の物体の モダリティmのi番目の情報を除外することを表している.
Algorithm 1 Multilayered MLDA (bottom layer)
1: for all i, j, C, m do
2: u← draw from Uniform [0,1]
3: for k ←1 to KC do
4: P[k]←P[k−1] +P(zjmiC =k|wmji,Wm−ji,ZC−jmi,Z−jmi)
5: end for
6: for k ←1 to KC do
7: if u < P[k]/P[KC] then
8: zjmiC =k, break
9: end if
10: end for
11: end for
Algorithm 2 Multilayered MLDA (whole layer)
1: for all i, j, C, m do
2: for k ←1 to K do
3: P[k]←P[k−1] +P(zjmi =k|wmji,Wm−ji,ZC−jmi,Z−jmi)
4: end for
5: u← draw from Uniform [0,1]
6: for k ←1 to K do
7: if u < P[k]/P[K] then
8: zjmi =k, break
9: end if
10: end for
11: for k ←1 to KC do
12: P[k]←P[k−1] +P(zjmiC =k|wmji,Wm−ji,ZC−jmi,Z−jmi)
13: end for
14: u← draw from Uniform [0,1]
15: for k ←1 to KC do
16: if u < P[k]/P[KC] then
17: zjmiC =k, break
18: end if
19: end for
20: end for
モデルの学習は,隠れ変数であるz,zO,zMを,収束するまで事後分布からサン プリングすることによって実現できる.しかし,隠れ変数が3つあり,複雑なモデ ルであるため,全てのパラメータを同時に求めると局所解に陥りやすいといった問 題がある.そこで,図3.3の右側に示す下位カテゴリzCを個々の独立したMLDA として学習し,下位概念のパラメータβm(式(3.15))を先に決定する.
次に,式(3.15)を固定し,上位カテゴリz,下位カテゴリzO,zM をサンプリ ングする.
zjmiC ∼ P(zjmiC |wmji,Wm−ji,ZC−jmi,Z−jmi)
∝ ∑
z
P(z|Z−jmi)P(zjmiC |Z−jmi,ZC−jmi, z)
×P(wmji|Wm−ji,ZC−jmi, zCjmi) (3.16)
zjmi ∼ P(zjmi|wmji,Wm−ji,ZC−jmi,Z−jmi)
∝ ∑
zC
P(zjmi|Z−jmi)P(zC|Z−jmi,ZC−jmi, zjmi)
×P(wmji|Wm−ji,ZC−jmi, zC) (3.17) このとき,下位カテゴリzCが上位概念の影響を受けて更新されることに注意が必 要である.Algorithm 1とAlgorithm 2がそれぞれ,下位概念のパラメータの決定 と,モデル全体の学習アルゴリズムである.以上のようなサンプリングを繰り返 すことで,N∗がある値へと収束する.Kを上位カテゴリのカテゴリ数とするとき,
最終的なパラメータの推定値βˆwmmzC,θˆCzzC,θˆjzは以下のようになる.
βˆwmmzC = NzCwmm+ϕm
NzCm+Wmϕm, (3.18) θˆCzzC = NzzCm+αC
Nzm+KαC, (3.19)
θˆjz = Njz+α
Nj +Kα, (3.20)
ただし,Wmはモダリティmの次元数を表し,NzCwmmはモダリティmのwmに下
位カテゴリzCが割り当てられた回数を表す.
学習したモデルを用いることで,物体や動作の認識だけでなく,概念間の予測 も可能となる.例えば,物体の視覚wv・聴覚wa・触覚wh情報が得られた際に,
以下の式を用いて,物体カテゴリzˆO,その物体に関係する上位カテゴリzˆと動き カテゴリzˆM を予測することができる.
ˆ
zO= argmax
zO
∑
z
∑
zM
Pˆ(z, zO, zM|wv,wa,wh) (3.21) ˆ
zM = argmax
zM
∑
z
∑
zO
Pˆ(z, zO, zM|wv,wa,wh) (3.22) ˆ
z = argmax
z
∑
zO
∑
zM
Pˆ(z, zO, zM|wv,wa,wh) (3.23)
ただし,Pˆ(z, zO, zM|wv,wa,wh)は以下のように計算することができる.
Pˆ(z, zO, zM|wv,wa,wh) =P(z)P(zM, zO|z)P(zO|wv,wa,wh) (3.24) また,同様に,動きの情報wpから各概念のカテゴリを予測するには,式(3.24) の代わりに次式を用いることで可能となる.
Pˆ(z, zO, zM|wp) = P(z)P(zO, zM|z)P(zM|wp) (3.25)