1.は じ め に
近年,多くの企業や研究機関が生活支援ロボットや パートナロボットを発表しており,普及への期待が高 まっている.しかし,こうした期待を現実のものとする ためには,意味理解を伴ったコミュニケーションによる ユーザとロボットの調和的協働実現が不可欠であると考 える.人と調和するサービスロボットは,コミュニケー ションを基盤とした相互理解に基づいて柔軟に動作す る.こうした柔軟さは,あらゆる場面を事前に想定でき ない以上,つくり込むことができず,経験からボトムアッ プに学習する必要がある. 「記号創発ロボティクスによる人間機械コラボレー ション基盤創成」は,JST CREST において 5 年半にわ たり実施されるプロジェクトであり,こうした問題に取 り組む.このプロジェクトで中心となるのが,階層ベイ ズや深層学習に基づく記号創発ロボティクス [谷口 14] の枠組みである.記号創発ロボティクスとは,本プロジェ クトのメンバが中心となって立ち上げた研究領域であ る.身体をもったロボットが自らの経験を自己組織的に 構造化することで概念や言語を含む記号システムが創発 する様相を,先端的機械学習に基づき実現することを目 指しており,近年その活動が大きな広がりを見せている [Taniguchi 16a].これが,クラウドロボティクスという コミュニケーションに係わるビッグデータ利活用の枠組 みと融合し,身体性と社会性に基づいた大量の対話経験 データを意味理解に基づいて活用できるようになること で,生活支援サービスロボットという実用場面における 人間機械コラボレーションの可能性が大きく開けると考 えている.本稿では,プロジェクトの全体像を概観する とともに,これまでの取組みの一部を紹介する. プロジェクトの目的は,人間と機械が調和したコラボ レーションの基盤となる技術を,記号創発ロボティクス のアプローチで確立することである.そして開発した技 術を応用した生活支援パートナロボットを実装し,実践 的な場で評価する.ここでのコラボレーションの定義は, 日常的なタスクを人間とロボットの調和的協働によって 実行することである.タスクとしては,簡単な家事(物 を運ぶ,片付け,掃除,洗濯,簡単な料理など)を協力 して行ったり,対話をしたり,情報の検索・提示を行っ たりすることなどがあげられる.ロボットによるこうし たタスクの実現には従来から多くの試みがあるが,本プ ロジェクトの特徴は,こうしたタスクが人間とロボット の意味理解を伴ったコミュニケーションに基づいて達成 されることを目指している点であり,これが著者らの考 える調和的協働を生むことになる. 本プロジェクトでは,目標を達成するために以下の三 つの課題を解決することを目指している. 課題 1:概念 行動・言語の意味理解基盤となる概念構造の獲得 課題 2:信念 コミュニケーションの基盤となる相互信念モデルの 創出 課題 3:応用 生活支援ロボットの実装・評価と仮想空間協働デー タ収集システム構築・運用 意味理解の本質は予測にあり,課題 1,2 の解決に共記号創発ロボティクスによる
人間機械コラボレーション基盤創成
Symbol Emergence in Robotics for Future Human-Machine Collaboration
長井 隆行
電気通信大学Takayuki Nagai The University of Electro-Communications.
[email protected], http://apple.ee.uec.ac.jp/isyslab
岩田 健輔
(同 上)Kensuke Iwata [email protected]
中村 友昭
(同 上)Tomoaki Nakamura [email protected], https://sites.google.com/site/nakatomo1018/
Keywords:
symbol emergence in robotics, hierarchical Bayes modeling, deep learning, cloud robotics.通する.「課題 1:概念」は,まさに理解そのものの問題 であり,概念やその構造の中に埋め込まれた知識を使っ た,さまざまな予測や推論の実現によって解決する.こ れにより,直接的に観測されない隠れた情報を予測する ことが可能となり(時空間的予測),多義性や曖昧性の 解消に生かすことができる.問題は,そのような概念構 造をどのように構築するかである.これを人手でつくり 込むことは,人間がもつ膨大かつ不確かさを含んだ知識 を書き下すことを意味しており,ほぼ不可能である.著 者のグループでは,ロボットが自らの経験によって得る マルチモーダルな情報を分節化・範疇化することで,概 念をボトムアップに形成するとともに,言語や知識を概 念構造として獲得する手法を提案してきた [長井 12, 長 井 16].ただしこれは,ロボットがユーザと 1 対 1 でイ ンタラクションするようなローカルで私的な経験上で適 用可能な枠組みであり,クラウド上で集積される多人数 で大規模な実データに直接適用できるかどうかは明らか でない.また知識には,一般的に成立するグローバルな ものから,一般的には成立しないローカルなものまでさ まざまな階層が存在するため,こうした階層性を内包し たモデルを構築する必要がある.本プロジェクトでは, ロボットの取得するマルチモーダルデータの分節化・範 疇化アルゴリズムをクラウド上に展開し,クラウドにお けるコミュニケーションビッグデータや大規模計算リ ソースの援用によって問題を解決することを目指してい る.知識の階層性は,階層ベイズの枠組みで理論的かつ 自然に扱うことが可能である.「課題 2:信念」の相互信 念の問題も,他者に対する予測と捉えれば同じ構造の問 題である.しかし,この課題の難しさは,ロボットから 見たユーザ信念(文脈や知識)の予測と,ユーザから見 たロボット信念の予測の両方を考慮する必要がある点に ある.これらの不整合は,ロボットとユーザの調和的協 働を大きく阻害する.プロジェクトメンバの岩橋と杉浦 が開発した L-Core [岩橋 12] は,インタラクションを通 してこれを解決するモデルであるが,1 対 1 かつ限定的 な場面を想定しているため,より現実的で多様な場面か つ大規模なクラウドに対応した拡張が必要である.クラ ウド上に蓄積された,多拠点におけるコミュニケーショ ンビッグデータの共通部分を機械学習によって抽出する ことで,階層的な相互信念モデルを形成する計算機構を 開発し,この課題を解決することを目指している.これ は単に 1 対 1 の関係に留まらず,多対多の相互信念が形 成できることを意味し,非常に複雑なコミュニケーショ ンが実現される.「課題 3:応用」は,実社会でのシステ ム運用に基づく概念と信念に関わる実証実験である.実 際に複雑な行動が可能なロボットの構築と,課題 1,2 で開発した技術を運用することが求められる.また,仮 想空間でのコミュニケーションビッグデータ収集・解析 を目的として,プロジェクトメンバの稲邑が開発を進め ている仮想空間プラットフォーム SIGVerse [稲邑 16] 上 へ同様に実装し,これを運用する.これによって収集し たコミュニケーションビッグデータは,前述の課題解決 のためにフィードバックされる.
2.プロジェクトの体制
プロジェクトは,七つの研究機関(長井隆行:電気通 信大学,谷口忠大:立命大学,尾形哲也:早稲田大学, 杉浦孔明:NICT,岩橋直人:岡山県立大学,稲邑哲也: NII,岡田浩之:玉川大学)が三つのサブグル―プに分 かれて実施する.これらの研究グループは長きにわたり 強力な共同研究体制を構築しており,機関の枠を超えて 協働できることが大きな特徴でもある. 2・1 概念獲得班:階層的知識の機械学習による創発的 獲得技術の確立(長井,谷口,尾形) 概念獲得班は,「課題 1:概念」の解決をミッション とする.問題は個別性と共通性を備えた知識の深い階層 構造をどのように表現・獲得するかであり,この問題を クラウド上に展開した概念・言語獲得技術によって解決 する.長井グループは,特にマルチモーダル情報(画像・ 音声・触覚・ロボットの内的知覚・運動情報)を含めた クラウド階層型学習機構を検討し,谷口グループは空間 的な場所の概念に着目して研究を進める.この際ポイン トとなるのは,クラウドに蓄積されたデータの背後に潜 む知識の階層性に対する階層ベイズ的解釈である.これ と並行して尾形グループは,深層学習を基軸とした,ロ ボットによる運動・感覚・言語の統合学習を展開する. 最終的には,階層ベイズによるモデルと深層学習モデル を融合,もしくは相互に変換可能な技術の開発を進める. 図 1 記号創発ロボティクスによる人間機械コラボレーション 基盤創成の全体像2・2 相互信念班:相互信念モデルとクラウド基盤の構 築(岩橋,杉浦) 相互信念班は,「課題 2:信念」の解決を目指す.岩 橋グループは,クラウド上に展開される相互信念モデル の開発を,概念班の成果を参照しつつ進める.相互信念 には,私的な相互信念と共同体的な相互信念があり,こ れらを蓄積されたデータの共通部分の抽出という形で獲 得する機械学習技術を開発する.最終的には,杉浦グルー プと岩橋グループが rospeex[Sugiura 15](杉浦が開発 したクラウドロボティクス対話基盤)と相互信念モデル を統合した,クラウドロボット向けの新しい対話システ ムを構築する.概念班も含め,開発した技術を実際にク ラウド上で展開するためには,クラウドロボティクス基 盤技術(アルゴリズムのクラウド上への実装や,実際の クラウドサービス提供,プライバシー問題の対策など) が必要である.そのため,クラウドロボティクスで高い 実績のある杉浦グループを中心に,クラウド基盤技術の 検討を進める. 2・3 応用評価班:応用実装・評価(岡田,稲邑) 応用評価班は,本研究の共通基盤として開発した技術 群を応用して,実際に動作するサービスロボットやバー チャルアプリケーションを構築する(課題 3:応用).岡 田グループは,高性能なホームサービスロボットに上記 基盤技術を統合することで,人とのコラボレーションを 通して家庭内タスクを実現するサービスロボットを構築 する.稲邑グループは,実機での実現が難しいと考えら れるコミュニケーションビッグデータの収集を,仮想環 境プラットフォーム SIGVerse の開発を通して実現する ことを目指す.こうした応用は,ロボカップ @ ホーム*1
や World Robot Summit(WRS)*2といった国際的な競
技の場で評価を行うとともに,その結果を概念班,信念 班にフィードバックし,アルゴリズムの高度化を促進す る計画である.
3.研 究 事 例
本プロジェクトにおける研究事例を紹介する.紙面の 都合ですべてを紹介することはできないが,ここでは著 者のグループの事例を中心にいくつかを取り上げる. 3・1 言 語 学 習 本プロジェクトのコラボレーションの定義を考える と,ロボットによる語意の理解は非常に重要な要素であ る.著者らは,「語意」をその単語に結び付けられた概 念から予測される情報,「概念」を経験した事物をカテ ゴリー分類することで形成されるマルチモーダル情報の 構造であると定義し,ロボットによる概念や語意の自 律的な獲得についての研究を行っている.そうした一連 の研究については文献 [長井 16] などの解説に譲ること とし,ここでは,本プロジェクトの一環として行った一 か月(約 100 時間)にわたる概念・言語学習実験 [Aoki 16]を紹介する.これは本プロジェクトが,実家庭にお ける長期間の人─ロボットインタラクションを通して, ロボットが自律的に言語知識を獲得することを想定して いるためである. 提案した言語と概念の相互学習モデル [ 中村 15] を, 図 2 に示す.これはノンパラメトリックベイズモデルで あり,図中の灰色の網掛けをしたノードは,そのノード が未観測情報であることを表す.このモデルに対して, 音声 o が入力されると,A をパラメータとする音響モデ ルと L をパラメータとする言語モデルを用いて音声認 識が行われ,音声認識結果 s が得られる.さらに,この sを BoW 表現へと変換したものが単語情報 wwとなり, 別のセンサで取得される視覚情報 wv,聴覚情報 wa,触 覚情報 wtとともに物体概念形成に用いられる.このモ デルは,wwを介して,音声認識と物体概念形成が相互 に影響し合う学習モデルとなっている.学習は,可観測 情報 o,wv,wa,wtからパラメータ L,θ*,π,βを推 定し,隠れ変数である認識結果 s,単語情報 ww,物体カ テゴリー k を決定することに相当する.これにより,ロ ボットは言語モデルと概念を同時かつ逐次的に獲得でき る.詳細については,文献 [中村 15] を参照していただ きたい. 検証実験では,ロボットは人とインタラクションを取 りながら,1 日 3 ~ 5 時間程度の学習を約一か月行った. この期間内にロボットは,計 499 個の物体を逐次的に学 習した.図 3 に実験中にロボットが学習した物体を示す. 学習物体には,ペットボトル,カン,ビンや,ぬいぐるみ, ボールなどさまざまなものが含まれる.図 4 に,検証実 験に用いた双腕ロボットを示す.実験中,ロボットは頭 部に取り付けた RGBD センサにより視覚情報を,指先 図 2 言語と概念の相互学習モデルのグラフィカルモデル [中村 15] *1 http://www.robocupathome.org/ *2 http://worldrobotsummit.org/に取り付けた触覚センサにより物体を握ったときの触覚 情報を,手先に取り付けたマイクロフォンにより物体を 振ったときの聴覚情報をそれぞれ取得した.ロボットは 物体を観察している間,ユーザの発話をヘッドセットに より取得した.ただし,ユーザは必ず何かをいわなけれ ばならないわけではなく,またどのような内容を発話す るかも自由である.ロボットはモデルを用いた予測に基 づいて発話を行うため,ユーザの発話はロボットの発話 にも影響を受ける. 一か月にわたる長期実験を経てロボットは,全学習物 体の約 6 割を正しく分類できるようになり,音声認識精 度は音響モデルのみの音声認識より 8%ほど高くなると いう結果が得られた [Aoki 16].提案モデルによる物体 概念を,t-Stochastic Neighbor Embedding(t-SNE)を 用いて次元圧縮し,二次元空間上に可視化した(図 5, 図 6).学習初期である図 5 を見ると,全体的に点が密 集している.これは,この段階の学習モデルでは物体概 念の獲得がまだ行われていないため,物体の分類をうま く行えていないことを表している.最終的な学習結果は 図 6 のようになり,各概念同士の距離は離れ,境界がよ り明確になっていることがわかる. 3・2 動 作 学 習 前節のモデルは,物体の概念を獲得し,単語と結び付 けることに焦点を当てたが,物理的なタスクを行うため には動作を学習する必要がある.ロボットの動作生成は, 台車や手先の軌道をどのように計算するかという問題で あるが,事前に設計もしくはティーチングした軌道に基 づくのが一般的である.しかし家庭環境で働くロボット については,そもそもどのような行動セットがあれば十 分か,また,各家庭の多様性に対応し得るかが問題とな り,事前にすべてを設計することが困難である.そこ で,実際の環境でユーザがコントローラを用いてロボッ トを操作することで対象とする環境で実際のタスクを行 い,そのデータを用いることで必要な動作のプリミティ ブを学習することを考える.このアイディアを実現する ためには,ロボットの関節角や位置などの時系列データ を分節化・範はん疇ちゅう化することで,プリミティブを抽出する 必要がある.ここでは,ガウス過程に基づく隠れセミマ ルコフモデル(Gaussian process hidden semi-Markov model:GP-HSMM)[岩田 16] を用いてこれを実現した 例を示す.
この研究では,トヨタ自動車(株)が開発した,障 害者や高齢者などの生活を支援する家庭用ロボット Human Support Robot(HSR)を用いている.HSR は 機能性・安全性に優れているだけでなく,そのコンパ クトなサイズ故ゆえに,日本の家庭への導入が期待される [寺田 15].また,本プロジェクトにおいて技術を統合す 図 3 ロボットが学習した 499 個の物体 図 5 学習初期の分類結果(学習物体数 10 個) 図 6 学習終了時の分類結果(学習物体数 499 個) 図 4 実験に使用したロボットとセンサ
るためのプラットフォームの一つとして,HSR を利用 する. GP-HSMMは連続値である動作系列を連続値のまま 教師なしで分節化することで,単位動作の学習を行う方 法である.隠れマルコフモデルにおける出力分布を,ガ ウシアンプロセスで置き換えることで,単位動作の結合 によって全体の動作を表現する生成モデルとなってい る.これをグラフィカルモデルで表すと,図 7 のように なる.図 7 における c( j=1, 2, …, J)が基本系列のクj ラスを表しており,クラスと対応した Xcをパラメータ にもつガウスシアンプロセスから基本系列 xjが生成され る. cj~ P(c|cj-1), xj~ GP(x|Xc, j) (1) ただし,Xcはクラス c に分類された基本系列の集合であ り,これらの基本系列を結合することで観測系列 S=s1, …, sJを生成できる. 実際に HSR を用いて動作学習を行った例を示す.実 験では,HSR を用いて図 8 のような部屋の片付けタス クを行った.この際,HSR の手先の三次元座標とグリッ パーの開閉情報の合計四次元の時系列を記録し,動作プ リミティブの学習を行った.学習したプリミティブを結 合し生成した動作の例を,図 9 に示す.図 9 上段は床 の上に置かれた物体の把持動作であり,下段はドアを開 けて通り抜ける動作である.また,取得したデータと分 節化の例を図 10 に示す.動作学習では,その軌道がど の座標系を基準にして生成されているかを推定すること も重要である.この例では,トラジェクタ(手先)座標 系(TCS)2 クラス,ランドマーク座標系(LCS)2 ク ラスの合計 4 クラスが抽出されている.この図において, x座標がロボットの前後の動きであり,Class 4 に前進, Class 3に後進といった動作が分類され,これらの動作 は物体とは関係のないトラジェクタ座標系の動作である ことが学習されている.一方,図中の z 座標と gripper はそれぞれ,グリッパーの高さと開閉(1:開,0:閉) であり,Class 1 では腕を下げ物体に接近しグリッパー を閉じる動作が,Class 2 では物体をつかみ持ち上げる 動作が分類された.これらの動作は物体と関連した動作 であり,正しくランドマーク座標系での動作であること が学習されている. 3・3 確率モデルの統合 前節までは,物体概念や単語,動作を学習するメカニ ズムを概説した.前節で述べたように,ロボットが各家 庭で実際にタスクを学習し人とコラボレーションするた めには,学習モデルを統合し,全体のつながりを学習す る必要がある.ここでは,これまでに述べたモデルを強 化学習の枠組みで統合し,概念や言語,行動を学習する 取組みを紹介する. 図 11 に,統合モデルの全体像を示す.このモデルは, 図 7 ガウシアンプロセスに基づく隠れマルコフモデルの グラフィカルモデル Operator
Human Support Robot (HSR)
図 8 HSR による部屋の片付けタスク
図 9 ロボットによる動作生成.
多層マルチモーダル LDA(multilayered multimodal LDA:mMLDA)を中心として,いくつかのモジュール が結合することで成り立っている.mMLDA は,下位層 に物体,動作,場所などの下位概念を表現するマルチモー ダル LDA(MLDA)を,上位層にそれらを統合する MLDAを配置した階層的な構造をもつ確率モデルである [ムハンマド 14].これにより,動作,場所,物体などお のおののカテゴリー分類を行うと同時に,それらの概念 間の関係を教師なしで学習することができる [Attamimi 16].実際,後に述べる実験で用いた mMLDA のグラ フィカルモデルを図 12 に示す.図 12 において,z は統 合概念を表すカテゴリーであり,zO,zM,zRはそれぞ れ下位概念に相当する,物体,動作,報酬カテゴリー である.上位カテゴリー z は,下位カテゴリー間の関係 性を捉えており,ロボットの行動を表現する.wo,wa, wr,wwは観測データであり,それぞれ,物体情報,ロ ボットの動作情報,報酬,言語情報である.β*,θ*は 多項分布のパラメータであり,φ*,θ*はハイパーパラ メータである.mMLDA では,各概念を表す隠れ変数 z, zC ∈ {zO, zM, zR}を同時に学習する.学習にはギブスサン プリングを用い,各概念を表すカテゴリー z,zCを,観 測データ wm ∈ {wo, wwO, wa, wwM, wr, wwr}を用いてサン プリングする.サンプリングには,θ,θC,βmを周辺化 した事後分布を用いる.さらに,学習したモデルを用い ることで,物体や動作の認識だけでなく,概念間の予測 も可能となる. 一方,mMLDA に接続するモジュールとしては,行動 を決定するための強化学習部がある.また,強化学習で 用いられる行動は GP-HSMM を用いた動作学習によっ て実現する.mMLDA の役割は,センサ―モータ情報を 分類することで概念を形成し,それらの関係から強化学 習のための状態空間や行動をつくり出すことである.ま た,単語情報は mMLDA を通して実世界情報と結び付 いている.この単語情報に,HSMM によって表現され る統語規則を適用することで,文を構成することが可能 である [Attamimi 16].また,逆に文章を分解して実世 界情報を予測することで,文の意味を理解できることに なる.この枠組みにより動作学習から言語操作までを統 一的に学習できる. 強化学習としては,Q 学習を用いることを想定する. Q学習における行動価値関数はある状態に対する行動価 値を表現しており,図 11 に示すように,mMLDA と連 携する形で存在している.mMLDA の報酬概念が即時的 な報酬の予測であるのに対し,Q 関数では報酬の伝播が 考慮されており,長期的な価値が表現されている.学習 手順は基本的な Q 学習をそのまま用いることができる. ただし,状態空間は mMLDA によって生成された物体 概念 zOによって規定する.また行動セットは,動作概 念 zMによって規定される.したがって,mMLDA を更 新することで状態空間が変化することになる.これに対 して,学習データを保持しておき,更新された状態空間 を用いて再度オフラインで強化学習することで対応す る. ここで紹介した統合モデルを検証するために,図 4 に 示すロボットを用いた実験を行った [宮澤 17].ロボッ トは全くゼロの状態から試行錯誤的に学習を行うため, まずはじめに行動の種となる基本動作を獲得させた.実 験者がロボットの腕をつかみ動かすことで,ロボットは 動作データを取得した.この動作データを,GP-HSMM 𝑡𝑡 𝑥𝑥 𝑦𝑦 𝑧𝑧 gripper Class 4
(TCS) Class 3(TCS) Class 4(TCS) Class 1(LCS) Class 2(LCS)
図 10 把持動作の分節結果. TCS,LCS はそれぞれトラジェクタ座標系, ランドマーク座標系を表す mMLDA Q-function HSMM Reward GP-HSMM(motion) CNN MFCC Environment Camera Microphone Motors Reflex Language L earnin g Reinforcem ent Learning
Robot Language area
Basal ganglia
Visual area Audio area
Corpus striatum Motor area Limbic system 図 11 統合モデルの全体像. この統合確率モデルによってロボットは,行動や 言語を強化学習に基づき学習することができる Reward Concept Words Reward
Action Integrated Concept
Stat
e
Observatio
n
Motion Concept Object Concept WordsJoint Angles WordsVisual Features
R r r R R r wr wr wr wa wa wa 図 12 実験で用いた mMLDA のグラフィカルモデル
を用いて分節化・範疇化することで基本動作を学習した. 次にロボットは,試行錯誤を通して物体の概念と行動の 結び付きを学習するとともに,その際のユーザとのイン タラクションから語彙や文法を学習する.この実験では, 物体はある決まったルールに従ってロボットに与えられ る.つまり,ロボットがある物体に対して行った行動に より次に与えられる物体や報酬が変わる.ロボットは設 定された中で,物体や動作などの知識をもたない状態か ら行動を行い,累積報酬を最大とするように行動選択す る.こうした一連の学習を経てロボットは最終的に,物 体や動作の概念とその正しい結び付きを学習した.例え ば,マラカスを振って音を鳴らすことや,車のおもちゃ を転がして遊ぶことなどを学んだ.また,動作や物体に 対応した単語や簡単な文法を学習することで,自分の行 動を文章で発話したり,ユーザの発話を概念を通して理 解できることを確かめた. 3・4 オープンソース 本プロジェクトでは,開発要素技術のオープンソース 化とその普及も推進している.現状多くのソフトウェア を GitHub などで公開しているが,中でも特筆すべきも のは,SIGVerse と rospeex である. SIGVerseは,稲邑グループが中心となって開発を進 めているクラウド型バーチャルリアリティシステムであ り,日常生活空間において知能ロボットと人間との間で 交わされる対話経験をバーチャル空間で大量に蓄積し, その経験から記号創発のための学習をオープンに行うこ とを目的の一つとしている [稲邑 16].現時点ではバー ジョン 3 が最新であり,ロボット用ミドルウェアである ROSと,バーチャルリアリティアプリケーション開発 のためのミドルウェアである Unity をシームレスに統合 するアーキテクチャを実現している.ロボカップ @ ホー ムのシミュレーションリーグに採用されるなど,多くの ユーザと実績を誇っている.図 13 は,SIGVerse の画 面の例と,ヘッドマウントディスプレイとコントローラ デバイスを使用して仮想空間を体験している人々の様子 である.一方 rospeex は,杉浦グループが開発している クラウド型のロボット向け音声認識・合成システムであ り,2016 年にはすでに 4 万ユニークユーザを超えている. ロボカップ @ ホームをはじめ,ロボット開発者の間では すでに標準的なツールとなっている. 本プロジェクトでは,こうしたツールのさらなる発展 と普及を目指している.
4.お わ り に
本稿では,プロジェクトの概要とこれまでの成果につ いて概説した.ここで紹介した事例はほんの一部に過ぎ ず,実際には人機械コラボレーションに向けたさまざま な要素技術が生まれている.例えば谷口グループでは, 階層的な空間概念形成手法について多くの成果を上げて いる [Taniguchi 16b].階層的に汎化された知識は,新 たな空間に既存の知識を汎化させ,ロボット自らの状況 理解に活用することができる.また尾形グループは,近 年主に自然言語処理の分野で用いられる seq2seq 学習を 応用し,言語指示からロボット行動への変換学習を行う モデル [Yamada 16] を開発するなど,深層学習をロボ ティクスに応用する先導的な役割を果たしている.本稿 では紙面の都合で確率モデルに関する事例のみをあげた が,深層学習とロボティクスの融合が急速に進んでおり, 階層ベイズとの比較や統合,相互変換も本プロジェクト の視野に入っている. こうした中で今後は,より「コミュニケーション」に 直接的に関わる課題に重心が移っていくことになる.そ こでは,自他の認知や他者意図の推定,信念の共有メカ ニズム [中村 09] などが鍵となる.これらの技術は,複 数の人と複数台のロボットの協働にもつながる. 全体の「統合」も非常に重要な課題である.本プロジェ クトには多くの研究機関が関与しているため,個々に開 発した学習モジュールを統合しロボットとして動かす際 に統合が必要不可欠である.この統合には,ROS など のミドルウェアによる生産性の向上だけでなく,接続し た学習モジュールを全体として最適化するという意味で の重要さがある.本プロジェクトでは,そのための統合 アーキテクチャ [中村 17] の検討を進め,階層ベイズモ デルや深層学習などさまざまな学習モジュールを統合 し,全体としての最適化を行う枠組みの確立を目指して いる. 図 13 SIGVerse の画面(上段). 下段は,バーチャル空間でロボットとインタラクションし ているユーザの様子.展示会では,2 日で 100 名を超える 人が SIGVerse のバーチャル空間を体験したまた,「クラウド化」が今後プロジェクトを推進する うえでの重要なキーワードである.現状,ロボットは家 庭内で人とコラボレーションできるように学習する.し かし,家庭に導入された段階のロボットが何の事前知識 ももたず全く働くことができなければ,非常に効率が悪 く,ロボットの学習に多大な労力を必要とすることにな る.この問題を解決するために,クラウド化による情報 共有の枠組みが必要である.他の環境での情報を共有す るためには,その情報が汎化され,事前知識として組み 込まれる必要がある.そしてその情報が,使われる中で 特定の環境に適応していくプロセスが学習である.この 際にも,統合アーキテクチャが重要な役割を果たす(図 14). さらには,「実証・評価」をどのように行うかも重要 な視点である.実家庭における実証実験だけでなく,ロ ボカップ @ ホームや岡田グループが中心となって進めて いる,2020 年の WRS といった競技による技術推進や 評価の方法論をいかに確立するかが重要なポイントであ る. 謝 辞 本研究は,JST CREST(JPMJCR15E3)の助成を受 け実施したものである.
◇ 参 考 文 献 ◇
[Aoki 16] Aoki, T., Nishihara, J., Nakamura, T. and Nagai, T.: Online joint learning of object concepts and language model using multimodal hierarchical Dirichlet process, IEEE/RSJ Int. Conf. on Intelligent Robots and Systems, pp. 2636-2642 (2016)
[Attamimi 16] Attamimi, M., Ando, Y., Nakamura, T., Nagai, T., Mochihashi, D., Kobayashi, I. and Asoh, H.: Learning word meanings and grammar for verbalization of daily life activities using multilayered multimodal latent Dirichlet allocation and Bayesian hidden Markov models, Advanced Robotics, Vol. 30, Issue: 11-12, pp. 806-824(2016) [稲邑 16] 稲邑哲也:長時間の身体的社会的対話実験のためのク ラウド型 VR プラットフォーム,計測と制御,Vol. 55, No. 10, pp.890-895(2016) [岩橋 12] 岩橋直人:ロボットと言語:言語コミュニケーション 能力の機械学習,人工知能学会誌,Vol. 27, No. 6, pp. 563-568 (2012) [岩田 16] 岩田健輔,中村友昭,長井隆行,持橋大地,小林一郎, 麻生英樹:参照点に依存したガウス過程隠れセミマルコフモデ ルに基づく連続動作の分節化,日本ロボット学会学術講演会, 3Z2-07(2016) [ムハンマド 14] アッタミミ ムハンマド,ファドリルムハンマド, 阿部香澄,中村友昭,船越孝太郎,長井隆行:多層マルチモー ダル LDA を用いた人の動きと物体の統合概念の形成,日本ロ ボット学会誌,Vol. 32, No. 8, pp. 89-100(2014) [中村 09] 中村慎也,岩橋直人,長井隆行:実世界における人とロボッ トの共有信念の推定に基づいた適応的な発話生成,知能と情報, Vol. 16, No. 5, pp. 663-682(2009) [中村 15] 中村友昭,長井隆行,船越孝太郎,谷口忠大,岩橋直人, 金子正秀:マルチモーダル LDA と NPYLM を用いたロボット による物体概念と言語モデルの相互学習,人工知能学会論文誌, Vol. 30, No. 3, pp. 498-509(2015) [中村 17] 中村友昭,宮澤和貴,青木達哉,長井隆行,金子正秀: 複数概念の時間的分節化に基づくロボットによる上位概念の学 習,人工知能学会全国大会(第 31 回),4D1-OS-37c-4(2017) [Sugiura 15] Sugiura, K. and Zettsu, K.: Rospeex: A cloud
robotics platform for human-robot spoken dialogues, IEEE/ RSJ Int. Conf. on Intelligent Robots and Systems, pp. 6155-6160(2015)
[谷口 14] 谷口忠大:記号創発ロボティクス 知能のメカニズム入門, 講談社(2014)
[Taniguchi 16a] Taniguchi, T., Nagai, T., Nakamura, T., Iwahashi, N., Ogata, T. and Asoh, H.: Symbol emergence in robotics: A survey, Advanced Robotics, Vol. 30, Issue 11-12, pp. 706-728 (2016)
[Taniguchi 16b] Taniguchi, A., Taniguchi, T. and Inamura, T.: Spatial concept acquisition for a mobile robot that integrates self-localization and unsupervised word discovery from spoken sentences, IEEE Trans. on Cognitive and Developmental Systems, Vol. 8, No. 4, pp. 285-297(2016)
[寺田 15] 寺田耕志,高岡 豊,山内 実,山本貴史:小自由度アー ムと全方位台車を活用した移動把持ロボット HSR-2015,日本 ロボット学会学術講演会,RSJ2015AC3F1-02(2015) [Yamada 16] Yamada, T., Murata, S., Arie, H. and Ogata,
T.: Dynamical integration of language and behavior in a recurrent neural network for human - robot interaction, Frontiers in Neurorobotics, 10:5. doi: 10.3389/fnbot.2016.00005 (2016) 2017年 7 月 24 日 受理 図 14 本プロジェクトが最終的に目指すシナリオ. 各ロボットは,図 11 の統合モデルに相当する学習モデル を有しており,それらがネットワークにつながることで情 報を共有している.ネットワーク上の各ノードは,[中村 17]の統合アーキテクチャによって結合されることを想定 している