深層強化学習を用いた人型ロボットの模倣学習の実験とシ
ンボルグラウンディング問題に関する一考察
Experiments on Imitation Learning of Humanoid Robot with Deep Reinforcement
Learning and a Consideration on Symbol Grounding Problem
疋田 聡
1Satoshi Hikida
11
AGICRON 研究所株式会社
1AGICRON Research Institute, Ltd.
Abstract: Imitation of behavior is one of the important elements of the development of intelligence, as can be seen from the fact that human babies grow up while imitating the behavior of the surrounding human beings. Such imitation learning of behavior was not easy because robots were expensive and algorithms were complicated. However, recently humanoid robots have become inexpensive, and the progress of deep learning has made algorithms development easier. Therefore, experiments were applied to imitation learning of behavior by humanoid robots, and the results are reported. The relationship between this method and the symbol grounding problem also be described.
1. 背景
見まねによる動作の模倣は、人間の赤ちゃんが周 囲の人間の動作を見て模倣をしながら育っていくこ とからも分かるように、知能の発達の重要な要素の 一つであると考えられ、以前よりニューラルネット ワーク[7]や認知発達ロボティクス[26]等の分野で研 究が行われてきた。このような、人型ロボットの見 まねによる動作の模倣学習は、従来はロボットが高 額であったり、アルゴリズムが高度であったりして 実験が容易ではなかった。しかし、最近は人型ロボ ットも安価となり、深層学習の進展によりアルゴリ ズム開発も容易になってきた[9][10][32][33]。そこで、 深層強化学習を用いて人型ロボットの動作の模倣学 習実験を行ってみることにした。 また、人型ロボットの模倣学習と関連する話題と して、近年、記号創発ロボティクス[17][28]や深層学 習で画像と言葉を始めとするさまざまなモダリティ 間の学習[3]等も注目されてきている。そこで、それ ら と 関 係 す る シ ン ボ ル グ ラ ウ ン デ ィ ン グ 問 題 [4][23][24]についての考察も加えて述べる。2. 人型ロボットの見まねによる動
作の模倣学習
人型ロボットの見まねによる動作の模倣学習の方 法について説明する。最近、深層学習の進展により ステレオカメラやモーションキャプチャーのマーカ ーを付けた画像でなく、普通の単眼のカメラで撮影 したビデオ画像からも人間の動作を抽出できるよう になってきた[2][9][10][18]。そこで、普通のビデオ画 像から、以下のような手順で人型ロボットの見まね による動作の模倣学習を行った。 ① 深層学習を用いた動画からの動作の2D 座標 の抽出 ② 深層学習を用いた動作の2D 座標からの関節 角度の推定 ③ キーフレームの選択と中間フレームの補間 ④ シミュレータ上での深層強化学習 ⑤ 実ロボットへの適用2.1. 深層学習を用いた動画からの動作の
2D 座標の抽出
普通の単眼のカメラで撮影したビデオ画像から人 間の動作を抽出するため、OpenPose[2][18]を用いて 深層学習による動画からの動作の 2D 座標の抽出を 行った。OpenPose は、普通の単眼のカメラで撮影し たビデオ画像や静止画から深層学習を用いて人物の ポーズの 2D 座標をリアルタイムに抽出してくれるツールである。 以下に、OpenPose でポーズを抽出した例を図 1 に 示す。 図 1 OpenPose でポーズを抽出した例
2.2. 深層学習を用いた動作の 2D 座標から
の関節角度の推定
上記で抽出した動作の2D 座標は、画像中の 2 次 元座標のため、そのままでは3 次元の動作に使うこ とができない。そこで、関節の 2D 座標から 3D 座 標を推定するアルゴリズムを用いて関節の 3D 座標 を推定し、その 3D 座標から関節の角度を求めた。 ここでは、推定ツールとして、深層学習により関節 の単眼の 2D 座標情報から 3D 座標情報を回帰する 手法である 3d-pose-baseline[6]を利用した。また、 OpenPose の出力形式を 3d-pose-baseline の入力形式 に変換するため、3d-pose-baseline-vmd[37]も利用した。 以下に、3d-pose-baseline で関節角度を推定した例を 図 2 に示す。 図 2 3d-pose-baseline で関節角度を推定した例 ただし、この方法は大まかな関節角度の推定はで きるが、あまり精度が高くないようなので、より精 度の高い動作抽出を行いたい場合は、SFV(Physical Skills from Videos)[10]等の別の方法を用いた方がよ いと思われる。2.3. キーフレームの選択と中間フレーム
の補間
上記で3 次元の動作で使用可能な関節の角度デー タが得られたが、推定精度がやや低くそのまま利用 すると動作が変だったりガタついたりするという問 題が出た。そこで、関節の角度データ中からポイン トとなるキーフレームを選択して補正し、中間フレ ームはキーフレームのデータを補間して生成するこ とにより、動作の滑らかさを向上させた。2.4. シミュレータ上での深層強化学習
上記で得られた関節の角度データを動作の教師デ ータとして、シミュレータ上での深層強化学習を行 った。これは、推定した関節の角度データには足首 のデータが含まれていないのでそれを学習により生 成する目的と、動作時のバランスなどを学習により 微調整する目的からである。深 層 強 化 学 習 は SFV(Physical Skills from Videos)[10]を参考にして、報酬関数に姿勢のバラン ス、関節角の教師データとの差分、動作の滑らかさ 等を加えてPPO(Proximal Policy Optimization)アルゴ リズム[13][35]により学習を行った。 また、シミュレータにはGazebo を用い、シミュレ ータとのインタフェースには ROS(Robot Operating System)を用いた。以下に、シミュレータ上の様子の 例を図 3 に示す 図 3 シミュレータ(Gazebo)上の様子の例
2.5. 実ロボットへの適用
実ロボットへの適用は、上記で学習したシミュレ ーションでの動作において、各関節の角度を50ms 毎 に記録し、そのデータを実ロボットへ送って動作を 再現させるようにした。
実ロボットは、”ROBOTIS DARWIN MINI”を用い、 V-Sido CONNECT RC を接続して Bluetooth での無線 シリアル通信により各関節の制御を行った。
3. 実験方法
実験環境として、ハードウェアはCPU:Intel Core
i5 8400 、 GPU : Nvidia GTX 1080ti 、 OS は Ubuntu16.04LTS、ソフトウェアは Python、Tensorflow を用いた。
4. 実験結果
単眼カメラのビデオ画像から人型ロボットの見ま ねによる動作の模倣学習の実験結果を図 4 に示す。 模倣した動作は、腕を開いて立ち上がり、腕を閉 じてしゃがむという動作である。単眼カメラのビデ オ画像からの学習なので、精度はいま一つであるが、 大まかな動作は模倣できていると思われる。 図 4 単眼カメラのビデオ画像から人型ロボットの見まねによる動作の模倣学習の実験結果5. シンボルグラウンディング問題
の一考察
人型ロボットの模倣学習と関連する話題として、 近年、記号創発ロボティクス[17][28]や深層学習で画 像と文字列の組合せを始めとするさまざまなモダリ ティ間の学習[3]等も注目されてきているので、それ ら と 関 係 す る シ ン ボ ル グ ラ ウ ン デ ィ ン グ 問 題 [4][23][24]について考察する。 なお、この考察での主題は、コミュニケーション のためのシンボル(記号)は共有信念を指し示すこ とが本質であるので、汎用人工知能で必要となる常 識の知識は、経験と共有信念をセットにしてその両 方に同時にグラウンディングして蓄積するのがよい のではないかということである。5.1. シンボルグラウンディング問題と共
有信念
シンボルグラウンディング問題は、記号システム 内のシンボルがどのようにして実世界の意味と結び つけられるかという問題であり、1990 年に Harnad に よる論文で導入されたものである[4]。そして、近年、 深層学習で画像と文字列の組合せを始めとするさま ざまなモダリティ間の学習等も注目されてきている [3] [23][24]。しかし、シンボルグラウンディング問題 においては、谷口が[29]で指摘しているように、思考 の内部処理のための記号とコミュニケーションのた めの記号を分けて考えるべきである点に注意しなけ ればならない。 思考の内部処理だけのための記号については、 Brooks の表象なき知能[1]、ゲームの画面を記号化せ ずそのまま入力としたDQN[8]、人間が特徴抽出をま ったく行わなくても人間よりもはるかに強くなった AlphaGo Zero[14][16][27]、AlphaZero[15]などの例か ら考えると、思考の内部処理のために明示的な記号 を持たずに多層ニューラルネット上の分散表現のレ ベルでかなりのことができるように思われる。 これに対し、コミュニケーションのための記号は、 人間とのコミュニケーションや、文字からの情報取 得のために必須のものであると考えられる。ここで さらに注意しなければならないのは、コミュニケー ションのための記号は、従来の人工知能でイメージ されてきたような本質的で不変的な意味を指し示す 記 号 で は な く 、 記 号 創 発 ロ ボ テ ィ ク ス[17] [19][25][28][29][30][31][36]でよく取り上げられるよ うに、伝達相手によって常に変動する共有信念(相 互信念)[17] [20][21] [28]を指し示すものであるとい うことであろう。共有信念は、各行動主体の間で共 有されている、行動主体の認識している外部世界(環 境)についての事実もしくは事実からの推論であり、 外界の観測により獲得され、状況が変化するとその 認識に基づき更新される。また、文献[17] [20][21] [28] では、音声、動作、オブジェクト画像概念、動作・ オブジェクト関係、行動コンテキスト効果等の個別 確信度ベクトルの最大値を全体確信度関数とする形 で共有信念を扱っているが、この考察ではより多様 な状況で共有信念を適用するため、全体確信度関数 よりも複雑で表現力の高い形式を想定する。 以上のように、コミュニケーションのための記号 とは共有信念を指し示すことが本質であると考える。5.2. 共有信念が必要となる例
上記だけだと議論が抽象的で解り難いと思うので、 共有信念に関する例を3 個挙げて考えてみる。 ① 「歩く」という記号から、「歩いているとつま ずくことがある」ということを想起する ② 「リンゴを取ってきて」と言われたときに、 テーブルの上にある「リンゴ」の写真ではな く冷蔵庫の中にある「リンゴ」を取ってくる ③ 「信号が青になったら進んでよい」と言われ たとき、信号が「緑」になったら進む まず①であるが、これはロボットの動作学習とも 関係する話で、二足歩行で歩く経験のあるロボット はわざわざ「歩いているとつまずくことがある」と いうこと明示的に人間が教えなくても、歩いている ときにつまずいた経験から学習することができる。 しかし、車輪で移動するロボットは、「歩いていると つまずくことがある」ということ明示的に人間が教 えないと①のような想起が行えない。すなわち、身 体の類似性が共有信念の形成に有利に働いていると いうことである[26]。このような人間と人工知能と の類似性としては、身体の類似性以外にもセンサー のモダリティの類似性[21][31]や脳の情報処理との 類似性[22]も考えられ、それらの類似性も共有信念 の形成に有利に働くと期待される。例えば、深層学 習において、”adversarial examples”[11]という問題が ある。これは深層学習の畳み込みニューラルネット が人間の脳の視覚野の仕組みをある程度まねている ので人間に近い汎化の仕方をしてくれるが、完全に 類似しているわけではないので、人間の汎化とは異 なり「パンダ」が「テナガザル」と判定されてしま う問題である。これを共有信念の観点で図示すると以下のようになる。すなわち、A が人間の「パンダ」 の信念だとし、B が深層学習で形成した「パンダ」 の信念だとすると、学習データの近傍ではA の信念 とB の信念は一致する可能性が高いが、学習データ から遠い汎化された部分では、A と B の信念がずれ てしまう。そして、ずれを減らすための学習データ を新たに追加しなければならなくなるので、できる だけ脳の情報処理と類似性が高いアルゴリズムを用 いた方が共有信念の形成に有利に働くと考えられる。 図 5 共有信念のイメージ 次に②であるが、これは単に深層学習により「リ ンゴ」という単語とリンゴの画像の対応を学習した だけでは、「リンゴ」という記号が「リンゴの写真」 と「冷蔵庫の中のリンゴ」のどちらも指し示すので うまくいかないという例である。このような場合で もロボットが、この状況の「リンゴ」は食べるため リンゴを指しているという共有信念を持っていれば、 写真ではなく冷蔵庫のリンゴを取ってくることがで きる。ここで必要とされているのは、「リンゴ」とい う記号の不変的な意味ではなく、相手との関係で指 し示すものが常に変動する共有信念なのである。こ のような共有信念は、同様の状況で「リンゴ」を食 べた経験と「リンゴ」という言葉を他者がどのよう に使っているかという経験から学習することが考え られる。もちろん、共有信念を持たなくてもロボッ トを動かすことはでき、その場合は人間の側でロボ ットが誤解しないように考慮して「リンゴの写真で はなく、冷蔵庫の中のリンゴを取ってきて」と言え ば可能ではある。しかし、このような対応は人間が 可能性の状況を考えて、図 5 の信念のずれの部分を 全て指示しなければならないということであり、複 雑な状況になればフレーム問題を引き起こしてしま うということになる[34]。要するに、共有された信念 は少数の記号で表現できるが、共有されていない信 念は最小単位で詳細に記述しなければならなくなっ てしまうということである。 最後に③であるが、これは子供の頃に疑問に思っ た人も多いと思うが、信号はなぜか緑を「青」と呼 ぶという問題で、人間は親から信号は緑だけと「青」 と言うと教わることが多い。ロボットにとってもセ ンサーからの入力情報は緑なのに「青」という記号 と結び付けて考えないといけないということであり、 信号ではそのような共有信念を持たなければいけな いということである。さらに、この信号での「青」 と緑の関係は、国内だけの共有信念であり、外国に 行けば信号でも「緑」(green signal)という記号と結び つくことになり、共有信念を変化させなければなら ない。すなわち、記号を使う相手のグループによっ て共有信念が変動するので、それに合わせて記号が 指し示すものも変動させなければならないというこ とである。
5.3. 共有信念から常識へ
ここまでコミュニケーションのための記号におけ る共有信念の役割を考察してきたが、さらに汎用人 工知能で必要となると考えられる常識の知識と共有 信念の関係についても考えてみる。 従来、常識の知識を人工知能に与えようとする場 合、CYC[5][12]のように人手で常識知識データベー スを作成することが多かった。このような常識デー タベースで前節の②の「リンゴ」の例を処理する場 合だと、まず、「リンゴ」という記号で常識知識デー タベースを検索して、「リンゴ」という記号の本質的 で不変的な意味を取得し、次に、文脈処理を行って 「リンゴの写真」と「冷蔵庫の中のリンゴ」を比較 して「冷蔵庫の中のリンゴ」を選択するという形を 取ることが多かった。これは、トップダウン的に記 号の本質的かつ不変的な意味を与えて、共有信念に 相当する文脈は例外的または付加的に処理するとい う考え方である。 しかし、前節での説明の通り、コミュニケーショ ンのための記号の本質は共有信念なのであるから、 本質的かつ不変的な意味が主で共有信念は従のよう な考え方を逆転させて、共有信念を主として処理す るようにし、「リンゴ」の例ではその状況での共有信 念から直接的に「冷蔵庫の中のリンゴ」を想起した 方がよいのではないかと考える。また、このような 共有信念主体の常識知識は、共有信念と経験(セン サー情報+内部状態)を常にセットにして多層ニュ ーラルネット上の分散表現として蓄積するような実 装が考えられる。さらに、前節の③の例にもあるように、共有信念 主体の常識知識では、相手の属するグループの大き さによって図 6 のように共有信念の大きさも変化 する。そして、家族間の共有信念が家族間の常識、 学校や会社の共有信念が学校や会社内の常識、国民 の共有信念が国内の常識というようにグループ毎に 常識が存在する。ここから、人間の発達も参考にし て常識知識の形成のされ方を考えてみると、常識知 識はトップダウン的に与えるものではなく、ボトム アップ的に家族間の共有信念から始まり、学校や会 社等の社会グループの共有信念に拡張され、最終的 には最も大きなグループに拡張された共有信念が一 般的な常識になると考えればよいと思われる。 図 6 グループの大きさと共有信念の大きさの 関係
6. まとめ
普通の単眼のカメラで撮影したビデオ画像から深 層強化学習を用いて人型ロボットの見まねによる動 作の模倣学習の実験についての説明と結果を示し、 従来はロボットが高額であったり、アルゴリズムが 高度であったりして実験が容易ではなかった実験が、 最近は安価かつ比較的容易に可能になってきたこと を示した。 また、人型ロボットの模倣学習と関連する話題と して、シンボルグラウンディング問題に関する考察 を行い、コミュニケーションのためのシンボル(記 号)は共有信念を指し示すことが本質であるので、 汎用人工知能で必要となる常識の知識は、共有信念 と経験をセットにしてその両方に同時にグラウンデ ィングして蓄積するのがよいのではないかという提 案を行った。参考文献
[1] Brooks, R. A.: Intelligence without representation,
Artificial intelligence 47(1-3) 139-159, (1991)
[2] Cao, Z., Simon, T., Wei, S. E., & Sheikh, Y.: Realtime multi-person 2d pose estimation using part affinity fields,
arXiv preprint arXiv:1611.08050, (2016)
[3] Eslami, S. M. A., Rezende, D. J., Besse, F., ... & Viola, F.: Neural scene representation and rendering, Science, Vol. 360, Issue 6394, pp. 1204-1210, (2018)
[4] Harnad, S.: The symbol grounding problem, Physica D:
Nonlinear Phenomena, 42(1-3), 335-346, (1990)
[5] Lenat, D. B., Prakash, M., & Shepherd, M., CYC: Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks, AI magazine 6(4) 65, (1985)
[6] Martinez, J., Hossain, R., Romero, J., & Little, J. J.: A simple yet effective baseline for 3d human pose estimation, In International Conference on Computer Vision (Vol. 1, No. 2, p. 5), (2017)
[7] Miyamoto, H., & Kawato, M.: A tennis serve and upswing learning robot based on bi-directional theory, Neural
Networks 11(7-8) 1331-1344, (1998)
[8] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M.: Playing atari with deep reinforcement learning, arXiv preprint
arXiv:1312.5602, (2013)
[9] Peng, X. B., Abbeel, P., Levine, S., & van de Panne, M.: DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills, arXiv preprint
arXiv:1804.02717, (2018)
[10] Peng, X. B., Kanazawa, A., Malik, J., Abbeel, P., & Levine, S.: SFV: Reinforcement Learning of Physical Skills from Videos, arXiv preprint arXiv:1810.03599, (2018) [11] Goodfellow, I. J., Shlens, J., & Szegedy, C.: Explaining and
harnessing adversarial examples, arXiv preprint
arXiv:1412.6572, (2014)
[12] R.デービス, D.B.レナート, 人工知能における知識ベ ースシステム, 啓学出版, (1991)
[13] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O.: Proximal policy optimization algorithms,
arXiv preprint arXiv:1707.06347, (2017)
[14] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S.: Mastering the game of Go with deep neural networks and tree search, nature, 529(7587), 484-489, (2016)
[15] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, arXiv preprint arXiv:1712.01815, (2017) [16] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I.,
Huang, A., Guez, A., ... & Chen, Y.: Mastering the game of go without human knowledge, Nature 550(7676) 354, (2017)
[17] Taniguchi, T., Nagai, T., Nakamura, T., Iwahashi, N., Ogata, T., & Asoh, H.: Symbol emergence in robotics: a survey,
Advanced Robotics, 30(11-12), 706-728, (2016)
[18] Wei, S. E., Ramakrishna, V., Kanade, T., & Sheikh, Y.: Convolutional pose machines, In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition
(pp. 4724-4732), (2016) [19] 岡田浩之, 語の意味の生成過程における 「対称性」 の役割, 人工知能31(1) 100-105, (2016) [20] 岩橋直人, ロボットと言語: 言語コミュニケーショ ン能力の機械学習, 人工知能学会誌 27(6) 563-568, (2012) [21] 岩橋直人, 中村慎也, & 長井隆行, 人間とロボットの 共有信念の推定に基づいた相互適応的な発話生成手 法, 人工知能学会全国大会 (第 23 回) 論文集 1F2-OS78, (2009) [22] 山川宏, 荒川直哉, & 高橋恒一. 全脳アーキテクチャ に必要な新皮質マスターアルゴリズムの検討, 人工 知能学会全国大会 (第 31 回) 論文集 3K1-OS-06a-5, (2017) [23] 松尾豊, AI の未解決問題と Deep Learning, 第 28 回 人工知能学会全国大会論文集 3H4-OS24b-5, (2014) [24] 松尾豊, 人工知能は人間を超えるか: ディープラー ニングの先にあるもの, KADOKAWA, (2015) [25] 杉浦孔明, ロボット対話,人工知能学会誌 27(6) 580-586(2012) [26] 浅田稔,國吉康夫,ロボットインテリジェンス, 岩波 書店,(2006) [27] 大槻知史, 三宅陽一郎 監修, 最強囲碁 AI アルファ 碁 解体新書 増補改訂版, 翔泳社, (2018) [28] 谷口忠大, 記号創発ロボティクス 知能のメカニズム 入門, 講談社選書メチエ, (2014) [29] 谷 口 忠 大 , 記 号 創 発 問 題 , 人 工 知 能 31(1) 74-81, (2016) [30] 谷口忠大, 二重分節構造に基づく教師なし学習と記 号創発,人工知能学会誌 27(6) 569-579(2012) [31] 長井隆行, 中村友昭, 記号創発ロボティクス, 人工知 能 31(1) 59-66, (2016) [32] 尾形哲也, ロボティクスと深層学習, 人工知能 31(2) 210-215, (2016) [33] 尾形哲也, 深層学習とマニピュレーション, 日本ロ ボット学会誌 35(1) 28-31, (2017) [34] 疋田聡, 深層学習とモンテカルロ木探索を用いた強 化学習の組合せ最適化問題での実験とフレーム問題 に関する1考察, 人工知能学会研究会資料 SIG-AGI-009-07, (2018) [35] 疋田聡, 方策最適化による強化学習を用いた人型ロ ボットの動作学習の実験, 人工知能学会研究会資料 SIG-AGI-007-02, (2017) [36] 麻生英樹, 確率モデルからの記号の創発,人工知能学 会誌 27(6) 546- 554(2012) [37] 3d-pose-baseline-vmd: https://github.com/miu200521358/3d-pose-baseline-vmd (2018/10/1)