多様な概念の形成 - マルチモーダル潜在的ディリクレ配分法の多層化による知識の確率的表現

本章では，MLDAを用いて形成された物体，動き，場所，人物の概念を統合することで，より上位の概念を階層的に形成することを考える．図4.1に提案する

mMLDAのグラフィカルモデルを示す．図4.1において，zは統合概念を表すカテ

ゴリであり，z^O，z^M，z^P，z^U はそれぞれ下位概念に相当する，物体，動き，場所，人物カテゴリである．上位カテゴリzは，下位カテゴリ間の関係を表現したモデルとなっている．また，w^v，w^a，w^hは，それぞれ物体から得られる視覚，聴覚，触覚情報であり，w^p，w^c，w^s，w^yは物体を扱っている際の人の動き，座標，

性別，年齢の情報である．さらに，w^w，w^wO，w^wM，w^wP，w^wU は，教示発話から得られる単語情報である．以下，下位及び統合概念について詳しく述べる．

h p

p M

O wO

wO wM

wM wM c

c P

P wP

wP wP U

U wU

s y

w w

Integrated Concept

Word

Motion Concept

Angle

Object Concept

Visual Audio Haptic Position

Gender

Age Word Word Word

Word

Place Concept Person Concept

図 4.1: mMLDAのグラフィカルモデル

4.2.1 下位概念

物体概念は，ロボットが実際に取得したマルチモーダル情報をカテゴリ分類することにより形成する．つまり，視覚・聴覚・触覚・単語情報w^v，w^a，w^h，w^wOがその類似性により分類され，物体カテゴリz^Oが形成される．ここで用いるロボットプラットフォームは，前章のアームロボット（図3.4（a））と同じである．前述のように，知覚情報はBag of Features（BoF）モデルを用いて表現する．視覚情報としては，取得した物体画像を128次元のDSIFTを用いて変換し，ベクトル量子化することで500次元のヒストグラムとする．聴覚情報は，MFCCを特徴量とし，ベクトル量子化することで50次元ヒストグラムとする．同様に，触覚情報は，

取得した触覚センサのデータに対する曲線近似のパラメータをベクトル量子化し，

15次元ヒストグラムとする．また，全ての教示発話を単語分割し，Bag of Words

（BoW）モデルを用いて表現したものを単語情報として扱う．

物体概念と同様に，図4.1の下側に示すMLDAと等価なモデルによって動き概念のモデル化を行う．動き情報は，人の動作中の11箇所の関節角度を，動作開始から動作終了までKINECTを用いて取得することを前提とする．また動きの情報は，操作対象となる物体によって分節することができると仮定している．一つの動作から複数の11次元の特徴ベクトルが得られ，それをあらかじめ計算した70の代表ベクトルによりベクトル量子化することで70次元のヒストグラムとし，これを動き情報として用いる．

場所概念は，人の動作中の座標を動作開始から動作終了まで取得することで形成する．一つの動作から複数の2次元座標が得られるため，これらをベクトル量子化し，6次元のヒストグラムとすることで場所情報とする．代表ベクトルは，学習データをK平均法によりクラスタリングすることで決定する．

人物概念の形成では，動作中の人の顔画像から，性別及び年齢の推定を行い，これらの値を人物情報として扱う．他の概念と同様，性別・年齢の推定結果を基にデータの量子化を行い，2次元の性別ヒストグラムと10次元の年齢ヒストグラムを人物情報として用いる．

4.2.2 統合概念

提案モデルにおいて，物体，動き，場所，人物概念は，それぞれMLDAで表現されており，さらにその上位でそれらの概念の関係を統合概念としてのMLDAで表現する二層構造となっている．物体，動き，場所，人物概念を独立したMLDA として学習し，その学習結果を統合概念として学習することも可能であるが，前章で明らかとなったように，そのような方法では各概念が相互に影響を与えることができない．そこで，各概念を表す隠れ変数z，z^C ∈{z^O,z^M,z^P,z^U}を同時に学習する手法を以下に提案する．

学習にはギブスサンプリングを用いる．つまり，各概念を表すカテゴリz，z^C を，観測データ w^m ∈{w^v,w^a,w^h,w^wO,w^p,w^wM, w^c,w^wP,w^s,w^y,w^wU,w^w}に基づいたサンプリングによって推定する．ただし，w^cはハイパーパラメータϕ^cによって決まるディリクレ事前分布に従うβ^cをパラメータとする多項分布によって生成される．またカテゴリz，z^Cは，それぞれハイパーパラメータα，α^Cによって決ま

るディリクレ事前分布に従うパラメータθ，θ^Cをパラメータとする多項分布によって生成されるモデルである．サンプリングには，θ，θ^C，β^mを周辺化した以下の事後分布を用いる．

P(z_jmi, z^C_jmi|Z₋_jmi,Z^C₋_jmi,W^m)∝

P(z_jmi|Z₋_jmi)P(z_jmi^C |z_jmi,Z₋_jmi,Z^C₋_jmi)P(w_ji^m|z_jmi^C ,Z^C₋_jmi,W^m₋_ji) (4.1) なお，右辺のそれぞれの確率分布は次のようになる．

P(z_jmi =k|Z₋_jmi) = α+N_j,z=k⁻^jmi

Kα+N_j⁻^jmi, (4.2)

P(z^C_jmi =l|z_jmi =k,Z₋_jmi,Z^C₋_jmi) = α^C +N_z=k,z⁻^jmiC=l

K^Cα^C +N_z=k⁻^jmi, (4.3) P(w_ji^m =x|z_jmi^C =k,Z^C₋_jmi,W^m₋_ji) = ϕ^m+N_z⁻C^jmi=k,w^m=x,m

W^mϕ^m+N_z⁻C^jmi=k,m

, (4.4)

ただし，Z，Z^Cは，それぞれ全物体の全情報に割り当てられた上位カテゴリと下位概念のカテゴリの集合を表し，W^mはモダリティmの全物体の情報の集合である．N_jzは物体jの全モダリティに上位カテゴリzが割り当てられた回数であり，

N_z^C_w^mはモダリティmの特徴量w^mに下位カテゴリz^Cが割り当てられた回数である．また，N_z,z^C は上位カテゴリzと下位カテゴリz^Cの共起した回数を表しており，K，K^C，W^mはそれぞれ上位カテゴリのカテゴリ数，概念Cのカテゴリ数，

モダリティmの情報の次元数である．負の添字はその情報を除外することを表し，

−jmiはj番目の物体のモダリティmのi番目の情報を除外することを表している．

モデルの学習は，隠れ変数であるz，z^C を，収束するまで事後分布からサンプリングすることによって実現できる．しかし，隠れ変数が複数あり，複雑なモデルであるため，全てのパラメータを同時に求めると局所解に陥りやすいといった問題がある．そこで前章と同様に，図4.1の右側に示す下位カテゴリz^Cを個々の独立したMLDAとして学習し，下位概念のパラメータβ^mを先に決定する．この

とき，各カテゴリz^C ∈ {z^O, z^M, z^P, z^U}は，次式を用いてサンプリングする．

z_jmi^C ∼ P(z_jmi^C |w^m_ji,W^m₋_ij,Z^C₋_jmi,Z₋_jmi)

∝ ∑

P(z|Z₋_jmi)P(z_jmi^C |Z₋_jmi,Z^C₋_jmi, z)

×P(w^m_ji|W^m₋_ji,Z^C₋_jmi, z^C_jmi) (4.5) このサンプリングを収束するまで繰り返すことで，式（4.4）を決定する．次に，式

（4.4）を固定し，上位カテゴリz，下位カテゴリz^Cをサンプリングする．

z_jmi ∼ P(z_jmi|w^m_ji,W^m₋_ij,Z^C₋_jmi,Z₋_jmi)

∝ ∑

z^C

P(z_jmi|Z₋_jmi)P(z^C|Z₋_jmi,Z^C₋_jmi, z_jmi)

×P(w^m_ji|W^m₋_ji,Z^C₋_jmi, z^C) (4.6) このとき，下位カテゴリz^Cが上位概念の影響を受けて更新されることに注意が必要である．Algorithm 3とAlgorithm 4がそれぞれ，下位概念のパラメータの決定と，モデル全体の学習アルゴリズムである．以上のようなサンプリングを繰り返すことで，N_∗がある値へと収束する．Kを上位カテゴリのカテゴリ数とするとき，

最終的なパラメータの推定値βˆ_w^mmz^C，θˆ^C_zz^C，θˆ_jzは以下のようになる．

βˆ_w^mmz^C = N_z^C_w^m_m+ϕ^m

N_z^C_m+W^mϕ^m, θˆ^C_zzC = N_zz^C_m+α^C

N_zm+Kα^C, θˆ_jz = N_jz+α

N_j +Kα, (4.7) ただし，W^mはモダリティmの次元数を表し，N_z^C_w^m_mはモダリティmのw^mに下位カテゴリz^Cが割り当てられた回数を表す．

Algorithm 3 Multilayered MLDA (bottom layer)

1: for all i, j, C, m do

2: u← draw from Uniform [0,1]

3: for k ←1 to K^C do

4: P[k]←P[k−1] +P(z_jmi^C =k|w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋_jmi)

5: end for

6: for k ←1 to K^C do

7: if u < P[k]/P[K^C] then

8: z_jmi^C =k, break

9: end if

10: end for

11: end for

Algorithm 4 Multilayered MLDA (whole layer)

1: for all i, j, C, m do

2: for k ←1 to K do

3: P[k]←P[k−1] +P(z_jmi =k|w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋_jmi)

4: end for

5: u← draw from Uniform [0,1]

6: for k ←1 to K do

7: if u < P[k]/P[K] then

8: z_jmi =k, break

9: end if

10: end for

11: for k ←1 to K^C do

12: P[k]←P[k−1] +P(z_jmi^C =k|w^m_ji,W^m₋_ji,Z^C₋_jmi,Z₋_jmi)

13: end for

14: u← draw from Uniform [0,1]

15: for k ←1 to K^C do

16: if u < P[k]/P[K^C] then

17: z_jmi^C =k, break

18: end if

19: end for

20: end for

ドキュメント内マルチモーダル潜在的ディリクレ配分法の多層化による知識の確率的表現 (ページ 97-102)