統合モデル - 概念の統合モデル - マルチモーダル潜在的ディリクレ配分法の多層化による知識の確率的表現

3.3 概念の統合モデル

3.3.3 統合モデル

提案モデルでは，物体概念と動き概念が，それぞれMLDAで表現されており，

さらにその上位で二つの概念の関係を統合概念として表現する二層構造のモデルとなっている．物体概念，動き概念を独立したMLDAとして学習し，その学習結果を統合概念として学習することも可能であるが，そのような方法では物体概念と動き概念が相互に影響をあたえることができない．そこで，ここでは各概念を表す隠れ変数z，z^O，z^Mを同時に学習する．学習にはギブスサンプリングを用い，

各概念を表すカテゴリz，z^O，z^M を，観測データ w^v，w^a，w^h，w^pからサンプリングすることで学習する．サンプリングには，θ，θ^O，θ^M，β^mを周辺化した以下

の事後分布を用いる．

P(zjmi, z_jmi^O , z_jmi^M |Z₋jmi,Z^O₋_jmi,Z^M₋_jmi,W^v,W^a,W^h,W^p)

=P(zjmi|Z₋jmi)P(z_jmi^O |zjmi,Z₋jmi,Z^O₋_jmi)

×P(z_jmi^M |zjmi,Z₋jmi,Z^M₋_jmi)

×P(w_ji^v|z_jmi^O ,Z^O₋_jmi,W^v₋_ji)

×P(w_ji^a|z_jmi^O ,Z^O₋_jmi,W^a₋_ji)

×P(w_ji^h|z_jmi^O ,Z^O₋_jmi,W^h₋_ji)

×P(w_ji^p|z_jmi^M ,Z^M_−jmi,W^p₋_ji) (3.12) 右辺のそれぞれの確率分布は次のようになる．

P(z_jmi =k|Z₋_jmi) = α+N_j,z=k⁻^jmi

Kα+N_j⁻^jmi (3.13)

P(z_jmi^C =l|z_jmi =k,Z₋_jmi,Z^C₋_jmi)

= α^C+N_z=k,z⁻^jmiC=l

K^Cα^C+N_z=k⁻^jmi (3.14) P(w^m_ji =x|z_jmi^C =k,Z^C₋_jmi,W^m₋_ji)

= ϕ^m+N_z⁻C^jmi=k,w^m=x,m

W^mϕ^m+N_z⁻C^jmi=k,m

(3.15)

ただし，Z，Z^O，Z^Mは，それぞれ全物体の全情報に割り当てられた上位カテゴリ，物体カテゴリ，動きカテゴリの集合を表し，W^mはモダリティmの全物体の情報の集合である．N_j,z=kは物体j の全モダリティの上位カテゴリzにkが割り当てられた回数であり，N_zC=k,w^m=x,mはモダリティmの特徴量w^mにxが，下位カテゴリz^C にkが割り当てられた回数である．また，N_z=k,z^C_=lは上位カテゴリ z =kと下位カテゴリz^C =lの共起した回数を表しており，K，K^C，W^mはそれぞれ上位カテゴリのカテゴリ数，概念Cのカテゴリ数，モダリティmの情報の次元数である．負の添字はその情報を除外することを表し，−jmiはj番目の物体のモダリティmのi番目の情報を除外することを表している．

Algorithm 1 Multilayered MLDA (bottom layer)

1: for all i, j, C, m do

2: u← draw from Uniform [0,1]

3: for k ←1 to K^C do

4: P[k]←P[k−1] +P(z_jmi^C =k|w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋jmi)

5: end for

6: for k ←1 to K^C do

7: if u < P[k]/P[K^C] then

8: z_jmi^C =k, break

9: end if

10: end for

11: end for

Algorithm 2 Multilayered MLDA (whole layer)

1: for all i, j, C, m do

2: for k ←1 to K do

3: P[k]←P[k−1] +P(z_jmi =k|w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋_jmi)

4: end for

5: u← draw from Uniform [0,1]

6: for k ←1 to K do

7: if u < P[k]/P[K] then

8: z_jmi =k, break

9: end if

10: end for

11: for k ←1 to K^C do

12: P[k]←P[k−1] +P(z_jmi^C =k|w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋_jmi)

13: end for

14: u← draw from Uniform [0,1]

15: for k ←1 to K^C do

16: if u < P[k]/P[K^C] then

17: z_jmi^C =k, break

18: end if

19: end for

20: end for

モデルの学習は，隠れ変数であるz，z^O，z^Mを，収束するまで事後分布からサンプリングすることによって実現できる．しかし，隠れ変数が3つあり，複雑なモデルであるため，全てのパラメータを同時に求めると局所解に陥りやすいといった問題がある．そこで，図3.3の右側に示す下位カテゴリz^Cを個々の独立したMLDA として学習し，下位概念のパラメータβ^m（式（3.15））を先に決定する．

次に，式（3.15）を固定し，上位カテゴリz，下位カテゴリz^O，z^M をサンプリングする．

z_jmi^C ∼ P(z_jmi^C |w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋_jmi)

∝ ∑

P(z|Z₋_jmi)P(z_jmi^C |Z₋_jmi,Z^C₋_jmi, z)

×P(w^m_ji|W^m₋_ji,Z^C₋_jmi, z^C_jmi) (3.16)

zjmi ∼ P(zjmi|w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋jmi)

∝ ∑

z^C

P(z_jmi|Z_−jmi)P(z^C|Z_−jmi,Z^C₋_jmi, z_jmi)

×P(w^m_ji|W^m₋_ji,Z^C₋_jmi, z^C) (3.17) このとき，下位カテゴリz^Cが上位概念の影響を受けて更新されることに注意が必要である．Algorithm 1とAlgorithm 2がそれぞれ，下位概念のパラメータの決定と，モデル全体の学習アルゴリズムである．以上のようなサンプリングを繰り返すことで，N_∗がある値へと収束する．Kを上位カテゴリのカテゴリ数とするとき，

最終的なパラメータの推定値βˆ_w^mmz^C，θˆ^C_zz^C，θˆ_jzは以下のようになる．

βˆ_w^mmz^C = N_zCw^mm+ϕ^m

N_z^C_m+W^mϕ^m, (3.18) θˆ^C_zz^C = N_zz^C_m+α^C

N_zm+Kα^C, (3.19)

θˆ_jz = N_jz+α

N_j +Kα, (3.20)

ただし，W^mはモダリティmの次元数を表し，N_z^C_w^m_mはモダリティmのw^mに下

位カテゴリz^Cが割り当てられた回数を表す．

学習したモデルを用いることで，物体や動作の認識だけでなく，概念間の予測も可能となる．例えば，物体の視覚w^v・聴覚w^a・触覚w^h情報が得られた際に，

以下の式を用いて，物体カテゴリzˆ^O，その物体に関係する上位カテゴリzˆと動きカテゴリzˆ^M を予測することができる．

z^O= argmax

z^O

∑

z^M

Pˆ(z, z^O, z^M|w^v,w^a,w^h) (3.21) ˆ

z^M = argmax

z^M

∑

z^O

Pˆ(z, z^O, z^M|w^v,w^a,w^h) (3.22) ˆ

z = argmax

∑

z^O

∑

z^M

Pˆ(z, z^O, z^M|w^v,w^a,w^h) (3.23)

ただし，Pˆ(z, z^O, z^M|w^v,w^a,w^h)は以下のように計算することができる．

Pˆ(z, z^O, z^M|w^v,w^a,w^h) =P(z)P(z^M, z^O|z)P(z^O|w^v,w^a,w^h) (3.24) また，同様に，動きの情報w^pから各概念のカテゴリを予測するには，式（3.24）の代わりに次式を用いることで可能となる．

Pˆ(z, z^O, z^M|w^p) = P(z)P(z^O, z^M|z)P(z^M|w^p) (3.25)

ドキュメント内マルチモーダル潜在的ディリクレ配分法の多層化による知識の確率的表現 (ページ 76-80)