提案手法

Robot

5.2 提案手法

5.2.1 ^{提案手法の概要}

図 5.2に提案手法の全体像を示す．本章では，ロボットは家庭でユーザと共に暮らしていることを想定し，人の音声命令を聞きながらその人の動作と，動作を行っている際に関係している物体及び位置を観測する．そして，ユーザの行動パターンを教師なしで学習するのであるが，その際にまず使っている物体を認識しトラッキングすることで，動作の分節化を行う．これは，同じ物体を使っている間が一つの行動としての塊であると仮定し，時系列パターンを区切ることを意味する．そのように区切った動作時系列（関節角の情報）と物体の関係性は，mMLDA

図 5.2: 提案手法の全体像

によってモデル化（カテゴリ分類も含む）することができる．つまり現在の行動を認識し，その後に起こる行動を予測できれば，mMLDAによって確率的にユーザが使うであろう物体を予測し，それを持ってくるというサービスを実現可能である．これを「動作−物体関係モデル」と呼ぶ．現在の動作の認識は，分節化された動作の時系列をHDP-HMMを用いてモデル化することで実現する．これを「動作認識モデル」と呼ぶ．また行動の予測については，学習データから行動のn-gram である，「行動言語モデル」を計算することで実現する．こうした動作認識モデルや行動言語モデルは，動作を分節化し，mMLDAを用いたカテゴリ分類に基づく記号化によって実現されることに注意されたい．

5.2.2 ロボットによる能動的センシング

ここでは前述した1)ユーザの観測の問題に対する解決策として，ロボットによる能動的センシングについて議論する．ロボットがユーザをよりよく観測し続け

図 5.3: KINECTより取得された骨格情報のスコアマップ

るためには，追跡するだけではなく，関節角のセンシングに有利な位置に移動することが重要である．本章では，頭部にKINECTと台車にLRFが搭載されたロボットを用いることを前提に，ユーザの姿勢推定に有利な位置を考慮しながら移動することを考える．

本章では，ユーザの姿勢推定にはKINECTを用い，ロボットの自己位置推定にはLRFを用いる．KINECTは，ゲームコントローラとして開発されたものであるため，カメラから2m程度離れ正面に向かって動作を行うことが想定されている．

しかし普段我々は，必ずしもロボットの前で行動するとは限らない．そこで，実

際KINECTでユーザの姿勢推定が可能な相対位置関係を検証し，ロボットがその

制約をなるべく満たすようにユーザの追跡を行うこととする．実際，人の姿勢が取得可能な領域を調べるための予備実験を行った．

本実験において，KINECTをある位置x₀ = (x₀, y₀,Ω₀)に固定し，KINECTから領域D(x, y)(x₀−^ℓ₂^x ≤x≤x₀+^ℓ₂^x, y₀ ≤y≤ℓ_y)をグリッド化した．各グリッド R(x_gx, y_gy)(gx ∈ [1, G_x], gy ∈ [1, G_y])に対して，3種類の動作をそれぞれ行った．

ただし，各動作において，KINECTに対する角度Ω_t(t ∈ [1, T])をT 種類設定した．本章では，ℓx，ℓy，Gx，Gy，T の値をそれぞれ，2.5m，3.0m，5，6，5に設

定した．そして，以下の式より各グリッドR_gのスコアS(R_g)を求める．

S(R(x_gx, y_gy)) =

∑Fgxy

f=1

∑^Nψ˙

n=1δ( ˙ψ_{f n})

F_gxy , (5.1)

ただし，F_gxy，N_ψ_˙はそれぞれグリッドR(x_gx, y_gy)における動作のデータ数と角速度ψ˙の次元数を表す．また，ψ_{f n}はψ˙のf 番目のn次元目の要素であり，以下のように求める．

δ( ˙ψ_{f n}) =

{ 1 (ψ_{f n} ≥閾値)

0 (ψ_{f n} <閾値) (5.2)

式（5.1）を用いて姿勢推定可能な領域のマップを計算した結果を，図5.3に示す．

図中のグリッドマップは3.0m×2.5mの部屋で計算しグリッドサイズを0.5mとした．人がある姿勢（図中の紫棒であり，KINECTに対する角度は白い数字で表す）

において，KINECT（図中の赤楕円）の前に立って動作を行うとき，骨格情報がどれだけ正確に取得できるかというスコアマップを図5.3（a）〜（e）に示す．各グリッドにおいて，スコアが高いほど白く描画されている．

図5.3より，青い矩形に囲まれたグリッド内で動作を行うとき，姿勢推定の精度が上がることが分かった．また，当然ながら人がKINECTに対して，正面にあるときのスコアが高かった．本章ではこれらの事実をもとに，人が領域内にあるようにロボットが人の位置を計算し，人に対して正面にあるように移動することで，

人を観測し続ける．

5.2.3 問題設定

本章で実現したいサービスは，予測した行動に必要となる物体をユーザに先回りして届けることである．その際，ユーザがどこで動作を行うかという場所文脈や命令された音声文脈などを考慮すればより正確なサービスが行えるであろう．この問題設定は，全ての情報が与えられた際，持ってくるべき物体を推定する問題に置き換えることができる．すなわち，現在の時刻t−1にロボットが観測したユーザ

の動きm^(t⁻¹⁾，物体o^(t⁻¹⁾，位置x，音声Sに対して以下の問題を解くことになる．

o^(t) = argmax

o^(t)

P(o^(t)m^(t⁻¹⁾, o^(t⁻¹⁾, x, S) (5.3) 上式を直接的に計算するのは困難であるため，次のように近似する．

o^(t) = argmax

o^(t)

P(o^(t)m^(t⁻¹⁾, o^(t⁻¹⁾)^ω¹P(o^(t)x)^ω²P(o^(t)S)^ω³ (5.4) ただし，P(o^(t)m^(t⁻¹⁾, o^(t⁻¹⁾)，P(o^(t)x)，P(o^(t)S)はそれぞれ，行動文脈，場所文脈及び音声命令を表しており，ω₁，ω₂，ω₃は各文脈に対する重みである．

各文脈の重みの決め方は様々な手法が存在する．例えば，重みのアクティブな学習 [71]を考えることもできるが，ここではSVMによる学習を用いる．具体的には，

次節で説明する各文脈C ∈ {C₁ =行動，C₂ =場所，C₃ =音声}より予測される物体の確率分布P^C = (p^C₁, p^C₂,· · · , p^C_O)を一つのヒストグラムh^C = (P^C¹,P^C²,P^C³) として，SVMの入力データとする．ただし，O は物体カテゴリ数を表す．学習フェーズにおいて，入力データh^C と正解となる物体カテゴリo^C の組を用意し，

SVM [48]を用いて学習する．認識フェーズでは，与えられた入力データh^C_inに対

して，SVMで学習したモデルを用いて認識する．

ドキュメント内マルチモーダル潜在的ディリクレ配分法の多層化による知識の確率的表現 (ページ 135-139)

Robot

5.2 提案手法

5.2.1 提案手法の概要

5.2.2 ロボットによる能動的センシング

5.2.3 問題設定

5.2.1 ^{提案手法の概要}