記号創発ロボティクスによる人間機械コラボレーション基盤創成

(1)

1．は　じ　め　に

近年，多くの企業や研究機関が生活支援ロボットやパートナロボットを発表しており，普及への期待が高まっている．しかし，こうした期待を現実のものとするためには，意味理解を伴ったコミュニケーションによるユーザとロボットの調和的協働実現が不可欠であると考える．人と調和するサービスロボットは，コミュニケーションを基盤とした相互理解に基づいて柔軟に動作する．こうした柔軟さは，あらゆる場面を事前に想定できない以上，つくり込むことができず，経験からボトムアップに学習する必要がある．「記号創発ロボティクスによる人間機械コラボレーション基盤創成」は，JST CREST において 5 年半にわたり実施されるプロジェクトであり，こうした問題に取り組む．このプロジェクトで中心となるのが，階層ベイズや深層学習に基づく記号創発ロボティクス [谷口 14] の枠組みである．記号創発ロボティクスとは，本プロジェクトのメンバが中心となって立ち上げた研究領域である．身体をもったロボットが自らの経験を自己組織的に構造化することで概念や言語を含む記号システムが創発する様相を，先端的機械学習に基づき実現することを目指しており，近年その活動が大きな広がりを見せている [Taniguchi 16a]．これが，クラウドロボティクスというコミュニケーションに係わるビッグデータ利活用の枠組みと融合し，身体性と社会性に基づいた大量の対話経験データを意味理解に基づいて活用できるようになることで，生活支援サービスロボットという実用場面における人間機械コラボレーションの可能性が大きく開けると考えている．本稿では，プロジェクトの全体像を概観するとともに，これまでの取組みの一部を紹介する．プロジェクトの目的は，人間と機械が調和したコラボレーションの基盤となる技術を，記号創発ロボティクスのアプローチで確立することである．そして開発した技術を応用した生活支援パートナロボットを実装し，実践的な場で評価する．ここでのコラボレーションの定義は，日常的なタスクを人間とロボットの調和的協働によって実行することである．タスクとしては，簡単な家事（物を運ぶ，片付け，掃除，洗濯，簡単な料理など）を協力して行ったり，対話をしたり，情報の検索・提示を行ったりすることなどがあげられる．ロボットによるこうしたタスクの実現には従来から多くの試みがあるが，本プロジェクトの特徴は，こうしたタスクが人間とロボットの意味理解を伴ったコミュニケーションに基づいて達成されることを目指している点であり，これが著者らの考える調和的協働を生むことになる．本プロジェクトでは，目標を達成するために以下の三つの課題を解決することを目指している．課題 1：概念行動・言語の意味理解基盤となる概念構造の獲得課題 2：信念コミュニケーションの基盤となる相互信念モデルの創出課題 3：応用生活支援ロボットの実装・評価と仮想空間協働データ収集システム構築・運用意味理解の本質は予測にあり，課題 1，2 の解決に共

記号創発ロボティクスによる

人間機械コラボレーション基盤創成

Symbol Emergence in Robotics for Future Human-Machine Collaboration

長井　隆行

電気通信大学

Takayuki Nagai The University of Electro-Communications.

[email protected], http://apple.ee.uec.ac.jp/isyslab

岩田　健輔

（同　　　上）

Kensuke Iwata _{[email protected]}

中村　友昭

（同　　　上）

Tomoaki Nakamura _{[email protected], https://sites.google.com/site/nakatomo1018/}

Keywords:

symbol emergence in robotics, hierarchical Bayes modeling, deep learning, cloud robotics.

(2)

通する．「課題 1：概念」は，まさに理解そのものの問題であり，概念やその構造の中に埋め込まれた知識を使った，さまざまな予測や推論の実現によって解決する．これにより，直接的に観測されない隠れた情報を予測することが可能となり（時空間的予測），多義性や曖昧性の解消に生かすことができる．問題は，そのような概念構造をどのように構築するかである．これを人手でつくり込むことは，人間がもつ膨大かつ不確かさを含んだ知識を書き下すことを意味しており，ほぼ不可能である．著者のグループでは，ロボットが自らの経験によって得るマルチモーダルな情報を分節化・範疇化することで，概念をボトムアップに形成するとともに，言語や知識を概念構造として獲得する手法を提案してきた [長井 12, 長井 16]．ただしこれは，ロボットがユーザと 1 対 1 でインタラクションするようなローカルで私的な経験上で適用可能な枠組みであり，クラウド上で集積される多人数で大規模な実データに直接適用できるかどうかは明らかでない．また知識には，一般的に成立するグローバルなものから，一般的には成立しないローカルなものまでさまざまな階層が存在するため，こうした階層性を内包したモデルを構築する必要がある．本プロジェクトでは，ロボットの取得するマルチモーダルデータの分節化・範疇化アルゴリズムをクラウド上に展開し，クラウドにおけるコミュニケーションビッグデータや大規模計算リソースの援用によって問題を解決することを目指している．知識の階層性は，階層ベイズの枠組みで理論的かつ自然に扱うことが可能である．「課題 2：信念」の相互信念の問題も，他者に対する予測と捉えれば同じ構造の問題である．しかし，この課題の難しさは，ロボットから見たユーザ信念（文脈や知識）の予測と，ユーザから見たロボット信念の予測の両方を考慮する必要がある点にある．これらの不整合は，ロボットとユーザの調和的協働を大きく阻害する．プロジェクトメンバの岩橋と杉浦が開発した L-Core [岩橋 12] は，インタラクションを通してこれを解決するモデルであるが，1 対 1 かつ限定的な場面を想定しているため，より現実的で多様な場面かつ大規模なクラウドに対応した拡張が必要である．クラウド上に蓄積された，多拠点におけるコミュニケーションビッグデータの共通部分を機械学習によって抽出することで，階層的な相互信念モデルを形成する計算機構を開発し，この課題を解決することを目指している．これは単に 1 対 1 の関係に留まらず，多対多の相互信念が形成できることを意味し，非常に複雑なコミュニケーションが実現される．「課題 3：応用」は，実社会でのシステム運用に基づく概念と信念に関わる実証実験である．実際に複雑な行動が可能なロボットの構築と，課題 1，2 で開発した技術を運用することが求められる．また，仮想空間でのコミュニケーションビッグデータ収集・解析を目的として，プロジェクトメンバの稲邑が開発を進めている仮想空間プラットフォーム SIGVerse [稲邑 16] 上へ同様に実装し，これを運用する．これによって収集したコミュニケーションビッグデータは，前述の課題解決のためにフィードバックされる．

2．プロジェクトの体制

プロジェクトは，七つの研究機関（長井隆行：電気通信大学，谷口忠大：立命大学，尾形哲也：早稲田大学，杉浦孔明：NICT，岩橋直人：岡山県立大学，稲邑哲也： NII，岡田浩之：玉川大学）が三つのサブグル―プに分かれて実施する．これらの研究グループは長きにわたり強力な共同研究体制を構築しており，機関の枠を超えて協働できることが大きな特徴でもある． 2･1 概念獲得班：階層的知識の機械学習による創発的獲得技術の確立（長井，谷口，尾形）概念獲得班は，「課題 1：概念」の解決をミッションとする．問題は個別性と共通性を備えた知識の深い階層構造をどのように表現・獲得するかであり，この問題をクラウド上に展開した概念・言語獲得技術によって解決する．長井グループは，特にマルチモーダル情報（画像・音声・触覚・ロボットの内的知覚・運動情報）を含めたクラウド階層型学習機構を検討し，谷口グループは空間的な場所の概念に着目して研究を進める．この際ポイントとなるのは，クラウドに蓄積されたデータの背後に潜む知識の階層性に対する階層ベイズ的解釈である．これと並行して尾形グループは，深層学習を基軸とした，ロボットによる運動・感覚・言語の統合学習を展開する．最終的には，階層ベイズによるモデルと深層学習モデルを融合，もしくは相互に変換可能な技術の開発を進める．図 1 記号創発ロボティクスによる人間機械コラボレーション基盤創成の全体像

(3)

2･2 相互信念班：相互信念モデルとクラウド基盤の構築（岩橋，杉浦）相互信念班は，「課題 2：信念」の解決を目指す．岩橋グループは，クラウド上に展開される相互信念モデルの開発を，概念班の成果を参照しつつ進める．相互信念には，私的な相互信念と共同体的な相互信念があり，これらを蓄積されたデータの共通部分の抽出という形で獲得する機械学習技術を開発する．最終的には，杉浦グループと岩橋グループが rospeex[Sugiura 15]（杉浦が開発したクラウドロボティクス対話基盤）と相互信念モデルを統合した，クラウドロボット向けの新しい対話システムを構築する．概念班も含め，開発した技術を実際にクラウド上で展開するためには，クラウドロボティクス基盤技術（アルゴリズムのクラウド上への実装や，実際のクラウドサービス提供，プライバシー問題の対策など）が必要である．そのため，クラウドロボティクスで高い実績のある杉浦グループを中心に，クラウド基盤技術の検討を進める． 2･3 応用評価班：応用実装・評価（岡田，稲邑）応用評価班は，本研究の共通基盤として開発した技術群を応用して，実際に動作するサービスロボットやバーチャルアプリケーションを構築する（課題 3：応用）．岡田グループは，高性能なホームサービスロボットに上記基盤技術を統合することで，人とのコラボレーションを通して家庭内タスクを実現するサービスロボットを構築する．稲邑グループは，実機での実現が難しいと考えられるコミュニケーションビッグデータの収集を，仮想環境プラットフォーム SIGVerse の開発を通して実現することを目指す．こうした応用は，ロボカップ @ ホーム＊1

や World Robot Summit（WRS）＊2_{といった国際的な競}

技の場で評価を行うとともに，その結果を概念班，信念班にフィードバックし，アルゴリズムの高度化を促進する計画である．

3．研　究　事　例

本プロジェクトにおける研究事例を紹介する．紙面の都合ですべてを紹介することはできないが，ここでは著者のグループの事例を中心にいくつかを取り上げる． 3･1 言　語　学　習本プロジェクトのコラボレーションの定義を考えると，ロボットによる語意の理解は非常に重要な要素である．著者らは，「語意」をその単語に結び付けられた概念から予測される情報，「概念」を経験した事物をカテゴリー分類することで形成されるマルチモーダル情報の構造であると定義し，ロボットによる概念や語意の自律的な獲得についての研究を行っている．そうした一連の研究については文献 [長井 16] などの解説に譲ることとし，ここでは，本プロジェクトの一環として行った一か月（約 100 時間）にわたる概念・言語学習実験 [Aoki 16]を紹介する．これは本プロジェクトが，実家庭における長期間の人─ロボットインタラクションを通して，ロボットが自律的に言語知識を獲得することを想定しているためである．提案した言語と概念の相互学習モデル [ 中村 15] を，図 2 に示す．これはノンパラメトリックベイズモデルであり，図中の灰色の網掛けをしたノードは，そのノードが未観測情報であることを表す．このモデルに対して， 音声 o が入力されると，A をパラメータとする音響モデ ルと L をパラメータとする言語モデルを用いて音声認 識が行われ，音声認識結果 s が得られる．さらに，この sを BoW 表現へと変換したものが単語情報 ww_となり， 別のセンサで取得される視覚情報 wv_{，聴覚情報 w}a_，触 覚情報 wt_{とともに物体概念形成に用いられる．このモ} デルは，ww_{を介して，音声認識と物体概念形成が相互} に影響し合う学習モデルとなっている．学習は，可観測 情報 o，wv_，wa_，wt_{からパラメータ L，}_θ＊_，_π_，_β_を推 定し，隠れ変数である認識結果 s，単語情報 ww_，物体カ テゴリー k を決定することに相当する．これにより，ロ ボットは言語モデルと概念を同時かつ逐次的に獲得できる．詳細については，文献 [中村 15] を参照していただきたい．検証実験では，ロボットは人とインタラクションを取りながら，1 日 3 ～ 5 時間程度の学習を約一か月行った．この期間内にロボットは，計 499 個の物体を逐次的に学習した．図 3 に実験中にロボットが学習した物体を示す．学習物体には，ペットボトル，カン，ビンや，ぬいぐるみ，ボールなどさまざまなものが含まれる．図 4 に，検証実験に用いた双腕ロボットを示す．実験中，ロボットは頭部に取り付けた RGBD センサにより視覚情報を，指先図 2　言語と概念の相互学習モデルのグラフィカルモデル [中村 15] ＊1 http://www.robocupathome.org/ ＊2 http://worldrobotsummit.org/

(4)

に取り付けた触覚センサにより物体を握ったときの触覚情報を，手先に取り付けたマイクロフォンにより物体を振ったときの聴覚情報をそれぞれ取得した．ロボットは物体を観察している間，ユーザの発話をヘッドセットにより取得した．ただし，ユーザは必ず何かをいわなければならないわけではなく，またどのような内容を発話するかも自由である．ロボットはモデルを用いた予測に基づいて発話を行うため，ユーザの発話はロボットの発話にも影響を受ける．一か月にわたる長期実験を経てロボットは，全学習物体の約 6 割を正しく分類できるようになり，音声認識精度は音響モデルのみの音声認識より 8％ほど高くなるという結果が得られた [Aoki 16]．提案モデルによる物体概念を，t-Stochastic Neighbor Embedding（t-SNE）を用いて次元圧縮し，二次元空間上に可視化した（図 5，図 6）．学習初期である図 5 を見ると，全体的に点が密集している．これは，この段階の学習モデルでは物体概念の獲得がまだ行われていないため，物体の分類をうまく行えていないことを表している．最終的な学習結果は図 6 のようになり，各概念同士の距離は離れ，境界がより明確になっていることがわかる． 3･2 動　作　学　習前節のモデルは，物体の概念を獲得し，単語と結び付けることに焦点を当てたが，物理的なタスクを行うためには動作を学習する必要がある．ロボットの動作生成は，台車や手先の軌道をどのように計算するかという問題であるが，事前に設計もしくはティーチングした軌道に基づくのが一般的である．しかし家庭環境で働くロボットについては，そもそもどのような行動セットがあれば十分か，また，各家庭の多様性に対応し得るかが問題となり，事前にすべてを設計することが困難である．そこで，実際の環境でユーザがコントローラを用いてロボットを操作することで対象とする環境で実際のタスクを行い，そのデータを用いることで必要な動作のプリミティブを学習することを考える．このアイディアを実現するためには，ロボットの関節角や位置などの時系列データを分節化・範はん疇ちゅう化することで，プリミティブを抽出する必要がある．ここでは，ガウス過程に基づく隠れセミマルコフモデル（Gaussian process hidden semi-Markov model：GP-HSMM）[岩田 16] を用いてこれを実現した例を示す．

この研究では，トヨタ自動車（株）が開発した，障害者や高齢者などの生活を支援する家庭用ロボット Human Support Robot（HSR）を用いている．HSR は機能性・安全性に優れているだけでなく，そのコンパクトなサイズ故ゆえに，日本の家庭への導入が期待される [寺田 15]．また，本プロジェクトにおいて技術を統合す図 3　ロボットが学習した 499 個の物体図 5　学習初期の分類結果（学習物体数 10 個）図 6　学習終了時の分類結果（学習物体数 499 個）図 4　実験に使用したロボットとセンサ

(5)

るためのプラットフォームの一つとして，HSR を利用する． GP-HSMMは連続値である動作系列を連続値のまま教師なしで分節化することで，単位動作の学習を行う方法である．隠れマルコフモデルにおける出力分布を，ガウシアンプロセスで置き換えることで，単位動作の結合によって全体の動作を表現する生成モデルとなっている．これをグラフィカルモデルで表すと，図 7 のように なる．図 7 における c（ j＝1, 2, …, J）が基本系列のクj ラスを表しており，クラスと対応した Xcをパラメータ にもつガウスシアンプロセスから基本系列 xjが生成される． cj～ P（c｜cj－1），　xj～ GP（x｜Xc, j）（1） ただし，Xcはクラス c に分類された基本系列の集合であ り，これらの基本系列を結合することで観測系列 S＝s1, …, sJを生成できる．実際に HSR を用いて動作学習を行った例を示す．実験では，HSR を用いて図 8 のような部屋の片付けタスクを行った．この際，HSR の手先の三次元座標とグリッパーの開閉情報の合計四次元の時系列を記録し，動作プリミティブの学習を行った．学習したプリミティブを結合し生成した動作の例を，図 9 に示す．図 9 上段は床の上に置かれた物体の把持動作であり，下段はドアを開けて通り抜ける動作である．また，取得したデータと分節化の例を図 10 に示す．動作学習では，その軌道がどの座標系を基準にして生成されているかを推定することも重要である．この例では，トラジェクタ（手先）座標系（TCS）2 クラス，ランドマーク座標系（LCS）2 クラスの合計 4 クラスが抽出されている．この図において， x座標がロボットの前後の動きであり，Class 4 に前進， Class 3に後進といった動作が分類され，これらの動作は物体とは関係のないトラジェクタ座標系の動作である ことが学習されている．一方，図中の z 座標と gripper はそれぞれ，グリッパーの高さと開閉（1：開，0：閉）であり，Class 1 では腕を下げ物体に接近しグリッパーを閉じる動作が，Class 2 では物体をつかみ持ち上げる動作が分類された．これらの動作は物体と関連した動作であり，正しくランドマーク座標系での動作であることが学習されている． 3･3 確率モデルの統合前節までは，物体概念や単語，動作を学習するメカニズムを概説した．前節で述べたように，ロボットが各家庭で実際にタスクを学習し人とコラボレーションするためには，学習モデルを統合し，全体のつながりを学習する必要がある．ここでは，これまでに述べたモデルを強化学習の枠組みで統合し，概念や言語，行動を学習する取組みを紹介する．図 11 に，統合モデルの全体像を示す．このモデルは，図 7 ガウシアンプロセスに基づく隠れマルコフモデルのグラフィカルモデル Operator

Human Support Robot (HSR)

図 8　HSR による部屋の片付けタスク

図 9 ロボットによる動作生成．

(6)

多層マルチモーダル LDA（multilayered multimodal LDA：mMLDA）を中心として，いくつかのモジュールが結合することで成り立っている．mMLDA は，下位層に物体，動作，場所などの下位概念を表現するマルチモーダル LDA（MLDA）を，上位層にそれらを統合する MLDAを配置した階層的な構造をもつ確率モデルである [ムハンマド 14]．これにより，動作，場所，物体などおのおののカテゴリー分類を行うと同時に，それらの概念間の関係を教師なしで学習することができる [Attamimi 16]．実際，後に述べる実験で用いた mMLDA のグラ フィカルモデルを図 12 に示す．図 12 において，z は統 合概念を表すカテゴリーであり，zO_，zM_，zR_はそれぞれ下位概念に相当する，物体，動作，報酬カテゴリー である．上位カテゴリー z は，下位カテゴリー間の関係 性を捉えており，ロボットの行動を表現する．wo_，wa_， wr_，ww_{は観測データであり，それぞれ，物体情報，ロ} ボットの動作情報，報酬，言語情報である．β＊_，_θ＊_は多項分布のパラメータであり，φ＊_，_θ＊_{はハイパーパラ} メータである．mMLDA では，各概念を表す隠れ変数 z， zC_{∈ {z}O_{, z}M_{, z}R_}_{を同時に学習する．学習にはギブスサン} プリングを用い，各概念を表すカテゴリー z，zC_を，観 測データ wm_{∈ {w}o_{, w}wO_{, w}a_{, w}wM_{, w}r_{, w}wr_}_{を用いてサン} プリングする．サンプリングには，θ，θC_，_βm_を周辺化した事後分布を用いる．さらに，学習したモデルを用いることで，物体や動作の認識だけでなく，概念間の予測も可能となる．一方，mMLDA に接続するモジュールとしては，行動を決定するための強化学習部がある．また，強化学習で用いられる行動は GP-HSMM を用いた動作学習によって実現する．mMLDA の役割は，センサ―モータ情報を分類することで概念を形成し，それらの関係から強化学習のための状態空間や行動をつくり出すことである．また，単語情報は mMLDA を通して実世界情報と結び付いている．この単語情報に，HSMM によって表現される統語規則を適用することで，文を構成することが可能である [Attamimi 16]．また，逆に文章を分解して実世界情報を予測することで，文の意味を理解できることになる．この枠組みにより動作学習から言語操作までを統一的に学習できる． 強化学習としては，Q 学習を用いることを想定する． Q学習における行動価値関数はある状態に対する行動価値を表現しており，図 11 に示すように，mMLDA と連携する形で存在している．mMLDA の報酬概念が即時的 な報酬の予測であるのに対し，Q 関数では報酬の伝播が 考慮されており，長期的な価値が表現されている．学習 手順は基本的な Q 学習をそのまま用いることができる． ただし，状態空間は mMLDA によって生成された物体 概念 zO_{によって規定する．また行動セットは，動作概} 念 zM_{によって規定される．したがって，mMLDA を更} 新することで状態空間が変化することになる．これに対して，学習データを保持しておき，更新された状態空間を用いて再度オフラインで強化学習することで対応する．ここで紹介した統合モデルを検証するために，図 4 に示すロボットを用いた実験を行った [宮澤 17]．ロボットは全くゼロの状態から試行錯誤的に学習を行うため，まずはじめに行動の種となる基本動作を獲得させた．実験者がロボットの腕をつかみ動かすことで，ロボットは動作データを取得した．この動作データを，GP-HSMM 𝑡𝑡 𝑥𝑥 𝑦𝑦 𝑧𝑧 gripper Class 4

(TCS) Class 3(TCS) Class 4(TCS) Class 1(LCS) Class 2(LCS)

図 10 把持動作の分節結果． TCS，LCS はそれぞれトラジェクタ座標系，ランドマーク座標系を表す mMLDA Q-function HSMM Reward GP-HSMM_(motion) CNN MFCC Environment Camera Microphone Motors Reflex Language L earnin g Reinforcem ent Learning

Robot Language area

Basal ganglia

Visual area Audio area

Corpus striatum Motor area Limbic system 図 11 統合モデルの全体像．この統合確率モデルによってロボットは，行動や言語を強化学習に基づき学習することができる Reward Concept Words Reward

Action Integrated Concept

Stat

e

Observatio

n

Motion Concept Object Concept WordsJoint Angles WordsVisual Features

R r r R R r wr wr wr wa wa wa 図 12　実験で用いた mMLDA のグラフィカルモデル

(7)

を用いて分節化・範疇化することで基本動作を学習した．次にロボットは，試行錯誤を通して物体の概念と行動の結び付きを学習するとともに，その際のユーザとのインタラクションから語彙や文法を学習する．この実験では，物体はある決まったルールに従ってロボットに与えられる．つまり，ロボットがある物体に対して行った行動により次に与えられる物体や報酬が変わる．ロボットは設定された中で，物体や動作などの知識をもたない状態から行動を行い，累積報酬を最大とするように行動選択する．こうした一連の学習を経てロボットは最終的に，物体や動作の概念とその正しい結び付きを学習した．例えば，マラカスを振って音を鳴らすことや，車のおもちゃを転がして遊ぶことなどを学んだ．また，動作や物体に対応した単語や簡単な文法を学習することで，自分の行動を文章で発話したり，ユーザの発話を概念を通して理解できることを確かめた． 3･4 オープンソース本プロジェクトでは，開発要素技術のオープンソース化とその普及も推進している．現状多くのソフトウェアを GitHub などで公開しているが，中でも特筆すべきものは，SIGVerse と rospeex である． SIGVerseは，稲邑グループが中心となって開発を進めているクラウド型バーチャルリアリティシステムであり，日常生活空間において知能ロボットと人間との間で交わされる対話経験をバーチャル空間で大量に蓄積し，その経験から記号創発のための学習をオープンに行うことを目的の一つとしている [稲邑 16]．現時点ではバージョン 3 が最新であり，ロボット用ミドルウェアである ROSと，バーチャルリアリティアプリケーション開発のためのミドルウェアである Unity をシームレスに統合するアーキテクチャを実現している．ロボカップ @ ホームのシミュレーションリーグに採用されるなど，多くのユーザと実績を誇っている．図 13 は，SIGVerse の画面の例と，ヘッドマウントディスプレイとコントローラデバイスを使用して仮想空間を体験している人々の様子である．一方 rospeex は，杉浦グループが開発しているクラウド型のロボット向け音声認識・合成システムであり，2016 年にはすでに 4 万ユニークユーザを超えている．ロボカップ @ ホームをはじめ，ロボット開発者の間ではすでに標準的なツールとなっている．本プロジェクトでは，こうしたツールのさらなる発展と普及を目指している．

4．お　わ　り　に

本稿では，プロジェクトの概要とこれまでの成果について概説した．ここで紹介した事例はほんの一部に過ぎず，実際には人機械コラボレーションに向けたさまざまな要素技術が生まれている．例えば谷口グループでは，階層的な空間概念形成手法について多くの成果を上げている [Taniguchi 16b]．階層的に汎化された知識は，新たな空間に既存の知識を汎化させ，ロボット自らの状況理解に活用することができる．また尾形グループは，近年主に自然言語処理の分野で用いられる seq2seq 学習を応用し，言語指示からロボット行動への変換学習を行うモデル [Yamada 16] を開発するなど，深層学習をロボティクスに応用する先導的な役割を果たしている．本稿では紙面の都合で確率モデルに関する事例のみをあげたが，深層学習とロボティクスの融合が急速に進んでおり，階層ベイズとの比較や統合，相互変換も本プロジェクトの視野に入っている．こうした中で今後は，より「コミュニケーション」に直接的に関わる課題に重心が移っていくことになる．そこでは，自他の認知や他者意図の推定，信念の共有メカニズム [中村 09] などが鍵となる．これらの技術は，複数の人と複数台のロボットの協働にもつながる．全体の「統合」も非常に重要な課題である．本プロジェクトには多くの研究機関が関与しているため，個々に開発した学習モジュールを統合しロボットとして動かす際に統合が必要不可欠である．この統合には，ROS などのミドルウェアによる生産性の向上だけでなく，接続した学習モジュールを全体として最適化するという意味での重要さがある．本プロジェクトでは，そのための統合アーキテクチャ [中村 17] の検討を進め，階層ベイズモデルや深層学習などさまざまな学習モジュールを統合し，全体としての最適化を行う枠組みの確立を目指している．図 13 SIGVerse の画面（上段）．下段は，バーチャル空間でロボットとインタラクションしているユーザの様子．展示会では，2 日で 100 名を超える人が SIGVerse のバーチャル空間を体験した

(8)

また，「クラウド化」が今後プロジェクトを推進するうえでの重要なキーワードである．現状，ロボットは家庭内で人とコラボレーションできるように学習する．しかし，家庭に導入された段階のロボットが何の事前知識ももたず全く働くことができなければ，非常に効率が悪く，ロボットの学習に多大な労力を必要とすることになる．この問題を解決するために，クラウド化による情報共有の枠組みが必要である．他の環境での情報を共有するためには，その情報が汎化され，事前知識として組み込まれる必要がある．そしてその情報が，使われる中で特定の環境に適応していくプロセスが学習である．この際にも，統合アーキテクチャが重要な役割を果たす（図 14）．さらには，「実証・評価」をどのように行うかも重要な視点である．実家庭における実証実験だけでなく，ロボカップ @ ホームや岡田グループが中心となって進めている，2020 年の WRS といった競技による技術推進や評価の方法論をいかに確立するかが重要なポイントである．謝　辞本研究は，JST CREST（JPMJCR15E3）の助成を受け実施したものである．

◇　参　考　文　献　◇

[Aoki 16] Aoki, T., Nishihara, J., Nakamura, T. and Nagai, T.: Online joint learning of object concepts and language model using multimodal hierarchical Dirichlet process, IEEE/RSJ Int. Conf. on Intelligent Robots and Systems, pp. 2636-2642 （2016）

[Attamimi 16] Attamimi, M., Ando, Y., Nakamura, T., Nagai, T., Mochihashi, D., Kobayashi, I. and Asoh, H.: Learning word meanings and grammar for verbalization of daily life activities using multilayered multimodal latent Dirichlet allocation and Bayesian hidden Markov models, Advanced Robotics, Vol. 30, Issue: 11-12, pp. 806-824（2016） [稲邑 16] 稲邑哲也：長時間の身体的社会的対話実験のためのクラウド型 VR プラットフォーム，計測と制御，Vol. 55, No. 10, pp.890-895（2016） [岩橋 12] 岩橋直人：ロボットと言語：言語コミュニケーション能力の機械学習，人工知能学会誌，Vol. 27, No. 6, pp. 563-568 （2012） [岩田 16] 岩田健輔，中村友昭，長井隆行，持橋大地，小林一郎，麻生英樹：参照点に依存したガウス過程隠れセミマルコフモデルに基づく連続動作の分節化，日本ロボット学会学術講演会， 3Z2-07（2016） [ムハンマド 14] アッタミミムハンマド，ファドリルムハンマド，阿部香澄，中村友昭，船越孝太郎，長井隆行：多層マルチモーダル LDA を用いた人の動きと物体の統合概念の形成，日本ロボット学会誌，Vol. 32, No. 8, pp. 89-100（2014） [中村 09] 中村慎也，岩橋直人，長井隆行：実世界における人とロボットの共有信念の推定に基づいた適応的な発話生成，知能と情報， Vol. 16, No. 5, pp. 663-682（2009） [中村 15] 中村友昭，長井隆行，船越孝太郎，谷口忠大，岩橋直人，金子正秀：マルチモーダル LDA と NPYLM を用いたロボットによる物体概念と言語モデルの相互学習，人工知能学会論文誌， Vol. 30, No. 3, pp. 498-509（2015） [中村 17] 中村友昭，宮澤和貴，青木達哉，長井隆行，金子正秀：複数概念の時間的分節化に基づくロボットによる上位概念の学習，人工知能学会全国大会（第 31 回），4D1-OS-37c-4（2017） [Sugiura 15] Sugiura, K. and Zettsu, K.: Rospeex: A cloud

robotics platform for human-robot spoken dialogues, IEEE/ RSJ Int. Conf. on Intelligent Robots and Systems, pp. 6155-6160（2015）

[谷口 14] 谷口忠大：記号創発ロボティクス知能のメカニズム入門，講談社（2014）

[Taniguchi 16a] Taniguchi, T., Nagai, T., Nakamura, T., Iwahashi, N., Ogata, T. and Asoh, H.: Symbol emergence in robotics: A survey, Advanced Robotics, Vol. 30, Issue 11-12, pp. 706-728 （2016）

[Taniguchi 16b] Taniguchi, A., Taniguchi, T. and Inamura, T.: Spatial concept acquisition for a mobile robot that integrates self-localization and unsupervised word discovery from spoken sentences, IEEE Trans. on Cognitive and Developmental Systems, Vol. 8, No. 4, pp. 285-297（2016）

[寺田 15] 寺田耕志，高岡豊，山内実，山本貴史：小自由度アームと全方位台車を活用した移動把持ロボット HSR-2015，日本ロボット学会学術講演会，RSJ2015AC3F1-02（2015） [Yamada 16] Yamada, T., Murata, S., Arie, H. and Ogata,

T.: Dynamical integration of language and behavior in a recurrent neural network for human - robot interaction, Frontiers in Neurorobotics, 10:5. doi: 10.3389/fnbot.2016.00005 （2016） 2017年 7 月 24 日　受理図 14 本プロジェクトが最終的に目指すシナリオ．各ロボットは，図 11 の統合モデルに相当する学習モデルを有しており，それらがネットワークにつながることで情報を共有している．ネットワーク上の各ノードは，[中村 17]の統合アーキテクチャによって結合されることを想定している

(9)

著　者　紹　介

長井　隆行（正会員） 1993年慶應義塾大学理工学部電気工学科卒業． 1997年同大学院理工学研究科博士課程修了．博士（工学）．1998 年電気通信大学電子工学科助手．2003 年カリフォルニア大学サンディエゴ校客員研究員． 2004年電気通信大学大学院電気通信学研究科助教授．現在，同大学院情報理工学研究科教授．同大学人工知能先端研究センター（AIX），玉川大学脳科学研究所特別研究員，産業技術総合研究所人工知能研究センター客員研究員を兼務．知能システム，知能ロボティクスに関する研究に従事．日本ロボット学会，情報処理学会，IEEE 各会員．中村　友昭（正会員） 2007年電気通信大学電気通信学部・電子卒業．2009 年同大学院電気通信学研究科修士課程修了．2011 年同研究科博士課程修了．博士（工学）．2011 年日本学術振興会特別研究員（PD）．2013 年ホンダ・リサーチ・インスティチュート・ジャパンリサーチャー． 2014年電気通信大学情報理工学研究科知能機械工学専攻助教．知能ロボットに関する研究に従事．岩田　健輔（学生会員） 2016年電気通信大学情報理工学部知能機械工学科卒業．現在，同大学院情報理工学研究科博士前期課程在学中．知能ロボットに関する研究に従事．日本ロボット学会学生会員．

記号創発ロボティクスによる人間機械コラボレーション基盤創成

1．は じ め に