深層強化学習を用いた人型ロボットの模倣学習の実験とシンボルグラウンディング問題に関する一考察

(1)

深層強化学習を用いた人型ロボットの模倣学習の実験とシ

ンボルグラウンディング問題に関する一考察

Experiments on Imitation Learning of Humanoid Robot with Deep Reinforcement

Learning and a Consideration on Symbol Grounding Problem

疋田聡

1

Satoshi Hikida

1

_{AGICRON 研究所株式会社}

1

_{AGICRON Research Institute, Ltd.}

Abstract: Imitation of behavior is one of the important elements of the development of intelligence, as can be seen from the fact that human babies grow up while imitating the behavior of the surrounding human beings. Such imitation learning of behavior was not easy because robots were expensive and algorithms were complicated. However, recently humanoid robots have become inexpensive, and the progress of deep learning has made algorithms development easier. Therefore, experiments were applied to imitation learning of behavior by humanoid robots, and the results are reported. The relationship between this method and the symbol grounding problem also be described.

1. 背景

見まねによる動作の模倣は、人間の赤ちゃんが周囲の人間の動作を見て模倣をしながら育っていくことからも分かるように、知能の発達の重要な要素の一つであると考えられ、以前よりニューラルネットワーク[7]や認知発達ロボティクス[26]等の分野で研究が行われてきた。このような、人型ロボットの見まねによる動作の模倣学習は、従来はロボットが高額であったり、アルゴリズムが高度であったりして実験が容易ではなかった。しかし、最近は人型ロボットも安価となり、深層学習の進展によりアルゴリズム開発も容易になってきた[9][10][32][33]。そこで、深層強化学習を用いて人型ロボットの動作の模倣学習実験を行ってみることにした。また、人型ロボットの模倣学習と関連する話題として、近年、記号創発ロボティクス[17][28]や深層学習で画像と言葉を始めとするさまざまなモダリティ間の学習[3]等も注目されてきている。そこで、それらと関係するシンボルグラウンディング問題 [4][23][24]についての考察も加えて述べる。

2. 人型ロボットの見まねによる動

作の模倣学習

人型ロボットの見まねによる動作の模倣学習の方法について説明する。最近、深層学習の進展によりステレオカメラやモーションキャプチャーのマーカーを付けた画像でなく、普通の単眼のカメラで撮影したビデオ画像からも人間の動作を抽出できるようになってきた[2][9][10][18]。そこで、普通のビデオ画像から、以下のような手順で人型ロボットの見まねによる動作の模倣学習を行った。 ① 深層学習を用いた動画からの動作の2D 座標の抽出 ② 深層学習を用いた動作の2D 座標からの関節角度の推定 ③ キーフレームの選択と中間フレームの補間 ④ シミュレータ上での深層強化学習 ⑤ 実ロボットへの適用

2.1. 深層学習を用いた動画からの動作の

2D 座標の抽出

普通の単眼のカメラで撮影したビデオ画像から人間の動作を抽出するため、OpenPose[2][18]を用いて深層学習による動画からの動作の 2D 座標の抽出を行った。OpenPose は、普通の単眼のカメラで撮影したビデオ画像や静止画から深層学習を用いて人物のポーズの 2D 座標をリアルタイムに抽出してくれる

(2)

ツールである。以下に、OpenPose でポーズを抽出した例を図 1 に示す。図 1 OpenPose でポーズを抽出した例

2.2. 深層学習を用いた動作の 2D 座標から

の関節角度の推定

上記で抽出した動作の2D 座標は、画像中の 2 次元座標のため、そのままでは3 次元の動作に使うことができない。そこで、関節の 2D 座標から 3D 座標を推定するアルゴリズムを用いて関節の 3D 座標を推定し、その 3D 座標から関節の角度を求めた。ここでは、推定ツールとして、深層学習により関節の単眼の 2D 座標情報から 3D 座標情報を回帰する手法である 3d-pose-baseline[6]を利用した。また、 OpenPose の出力形式を 3d-pose-baseline の入力形式に変換するため、3d-pose-baseline-vmd[37]も利用した。以下に、3d-pose-baseline で関節角度を推定した例を図 2 に示す。図 2 3d-pose-baseline で関節角度を推定した例 ただし、この方法は大まかな関節角度の推定はできるが、あまり精度が高くないようなので、より精度の高い動作抽出を行いたい場合は、SFV(Physical Skills from Videos)[10]等の別の方法を用いた方がよいと思われる。

2.3. キーフレームの選択と中間フレーム

の補間

上記で3 次元の動作で使用可能な関節の角度データが得られたが、推定精度がやや低くそのまま利用すると動作が変だったりガタついたりするという問題が出た。そこで、関節の角度データ中からポイントとなるキーフレームを選択して補正し、中間フレームはキーフレームのデータを補間して生成することにより、動作の滑らかさを向上させた。

2.4. シミュレータ上での深層強化学習

上記で得られた関節の角度データを動作の教師データとして、シミュレータ上での深層強化学習を行った。これは、推定した関節の角度データには足首のデータが含まれていないのでそれを学習により生成する目的と、動作時のバランスなどを学習により微調整する目的からである。

深層強化学習は SFV(Physical Skills from Videos)[10]を参考にして、報酬関数に姿勢のバランス、関節角の教師データとの差分、動作の滑らかさ等を加えてPPO(Proximal Policy Optimization)アルゴリズム[13][35]により学習を行った。また、シミュレータにはGazebo を用い、シミュレータとのインタフェースには ROS(Robot Operating System)を用いた。以下に、シミュレータ上の様子の例を図 3 に示す図 3 シミュレータ(Gazebo)上の様子の例

(3)

2.5. 実ロボットへの適用

実ロボットへの適用は、上記で学習したシミュレーションでの動作において、各関節の角度を50ms 毎に記録し、そのデータを実ロボットへ送って動作を再現させるようにした。

実ロボットは、”ROBOTIS DARWIN MINI”を用い、 V-Sido CONNECT RC を接続して Bluetooth での無線シリアル通信により各関節の制御を行った。

3. 実験方法

実験環境として、ハードウェアはCPU：Intel Core

i5 8400 、 GPU ： Nvidia GTX 1080ti 、 OS は Ubuntu16.04LTS、ソフトウェアは Python、Tensorflow を用いた。

4. 実験結果

単眼カメラのビデオ画像から人型ロボットの見まねによる動作の模倣学習の実験結果を図 4 に示す。模倣した動作は、腕を開いて立ち上がり、腕を閉じてしゃがむという動作である。単眼カメラのビデオ画像からの学習なので、精度はいま一つであるが、大まかな動作は模倣できていると思われる。図 4 単眼カメラのビデオ画像から人型ロボットの見まねによる動作の模倣学習の実験結果

(4)

5. シンボルグラウンディング問題

の一考察

人型ロボットの模倣学習と関連する話題として、近年、記号創発ロボティクス[17][28]や深層学習で画像と文字列の組合せを始めとするさまざまなモダリティ間の学習[3]等も注目されてきているので、それらと関係するシンボルグラウンディング問題 [4][23][24]について考察する。なお、この考察での主題は、コミュニケーションのためのシンボル（記号）は共有信念を指し示すことが本質であるので、汎用人工知能で必要となる常識の知識は、経験と共有信念をセットにしてその両方に同時にグラウンディングして蓄積するのがよいのではないかということである。

5.1. シンボルグラウンディング問題と共

有信念

シンボルグラウンディング問題は、記号システム内のシンボルがどのようにして実世界の意味と結びつけられるかという問題であり、1990 年に Harnad による論文で導入されたものである[4]。そして、近年、深層学習で画像と文字列の組合せを始めとするさまざまなモダリティ間の学習等も注目されてきている [3] [23][24]。しかし、シンボルグラウンディング問題においては、谷口が[29]で指摘しているように、思考の内部処理のための記号とコミュニケーションのための記号を分けて考えるべきである点に注意しなければならない。思考の内部処理だけのための記号については、 Brooks の表象なき知能[1]、ゲームの画面を記号化せずそのまま入力としたDQN[8]、人間が特徴抽出をまったく行わなくても人間よりもはるかに強くなった AlphaGo Zero[14][16][27]、AlphaZero[15]などの例から考えると、思考の内部処理のために明示的な記号を持たずに多層ニューラルネット上の分散表現のレベルでかなりのことができるように思われる。これに対し、コミュニケーションのための記号は、人間とのコミュニケーションや、文字からの情報取得のために必須のものであると考えられる。ここでさらに注意しなければならないのは、コミュニケーションのための記号は、従来の人工知能でイメージされてきたような本質的で不変的な意味を指し示す記号ではなく、記号創発ロボティクス[17] [19][25][28][29][30][31][36]でよく取り上げられるように、伝達相手によって常に変動する共有信念（相互信念）[17] [20][21] [28]を指し示すものであるということであろう。共有信念は、各行動主体の間で共有されている、行動主体の認識している外部世界（環境）についての事実もしくは事実からの推論であり、外界の観測により獲得され、状況が変化するとその認識に基づき更新される。また、文献[17] [20][21] [28] では、音声、動作、オブジェクト画像概念、動作・オブジェクト関係、行動コンテキスト効果等の個別確信度ベクトルの最大値を全体確信度関数とする形で共有信念を扱っているが、この考察ではより多様な状況で共有信念を適用するため、全体確信度関数よりも複雑で表現力の高い形式を想定する。以上のように、コミュニケーションのための記号とは共有信念を指し示すことが本質であると考える。

5.2. 共有信念が必要となる例

上記だけだと議論が抽象的で解り難いと思うので、共有信念に関する例を3 個挙げて考えてみる。 ① 「歩く」という記号から、「歩いているとつまずくことがある」ということを想起する ② 「リンゴを取ってきて」と言われたときに、テーブルの上にある「リンゴ」の写真ではなく冷蔵庫の中にある「リンゴ」を取ってくる ③ 「信号が青になったら進んでよい」と言われたとき、信号が「緑」になったら進むまず①であるが、これはロボットの動作学習とも関係する話で、二足歩行で歩く経験のあるロボットはわざわざ「歩いているとつまずくことがある」ということ明示的に人間が教えなくても、歩いているときにつまずいた経験から学習することができる。しかし、車輪で移動するロボットは、「歩いているとつまずくことがある」ということ明示的に人間が教えないと①のような想起が行えない。すなわち、身体の類似性が共有信念の形成に有利に働いているということである[26]。このような人間と人工知能との類似性としては、身体の類似性以外にもセンサーのモダリティの類似性[21][31]や脳の情報処理との類似性[22]も考えられ、それらの類似性も共有信念の形成に有利に働くと期待される。例えば、深層学習において、”adversarial examples”[11]という問題がある。これは深層学習の畳み込みニューラルネットが人間の脳の視覚野の仕組みをある程度まねているので人間に近い汎化の仕方をしてくれるが、完全に類似しているわけではないので、人間の汎化とは異なり「パンダ」が「テナガザル」と判定されてしまう問題である。これを共有信念の観点で図示すると

(5)

以下のようになる。すなわち、A が人間の「パンダ」の信念だとし、B が深層学習で形成した「パンダ」の信念だとすると、学習データの近傍ではA の信念とB の信念は一致する可能性が高いが、学習データから遠い汎化された部分では、A と B の信念がずれてしまう。そして、ずれを減らすための学習データを新たに追加しなければならなくなるので、できるだけ脳の情報処理と類似性が高いアルゴリズムを用いた方が共有信念の形成に有利に働くと考えられる。図 5 共有信念のイメージ 次に②であるが、これは単に深層学習により「リンゴ」という単語とリンゴの画像の対応を学習しただけでは、「リンゴ」という記号が「リンゴの写真」と「冷蔵庫の中のリンゴ」のどちらも指し示すのでうまくいかないという例である。このような場合でもロボットが、この状況の「リンゴ」は食べるためリンゴを指しているという共有信念を持っていれば、写真ではなく冷蔵庫のリンゴを取ってくることができる。ここで必要とされているのは、「リンゴ」という記号の不変的な意味ではなく、相手との関係で指し示すものが常に変動する共有信念なのである。このような共有信念は、同様の状況で「リンゴ」を食べた経験と「リンゴ」という言葉を他者がどのように使っているかという経験から学習することが考えられる。もちろん、共有信念を持たなくてもロボットを動かすことはでき、その場合は人間の側でロボットが誤解しないように考慮して「リンゴの写真ではなく、冷蔵庫の中のリンゴを取ってきて」と言えば可能ではある。しかし、このような対応は人間が可能性の状況を考えて、図 5 の信念のずれの部分を全て指示しなければならないということであり、複雑な状況になればフレーム問題を引き起こしてしまうということになる[34]。要するに、共有された信念は少数の記号で表現できるが、共有されていない信念は最小単位で詳細に記述しなければならなくなってしまうということである。最後に③であるが、これは子供の頃に疑問に思った人も多いと思うが、信号はなぜか緑を「青」と呼ぶという問題で、人間は親から信号は緑だけと「青」と言うと教わることが多い。ロボットにとってもセンサーからの入力情報は緑なのに「青」という記号と結び付けて考えないといけないということであり、信号ではそのような共有信念を持たなければいけないということである。さらに、この信号での「青」と緑の関係は、国内だけの共有信念であり、外国に行けば信号でも「緑」(green signal)という記号と結びつくことになり、共有信念を変化させなければならない。すなわち、記号を使う相手のグループによって共有信念が変動するので、それに合わせて記号が指し示すものも変動させなければならないということである。

5.3. 共有信念から常識へ

ここまでコミュニケーションのための記号における共有信念の役割を考察してきたが、さらに汎用人工知能で必要となると考えられる常識の知識と共有信念の関係についても考えてみる。従来、常識の知識を人工知能に与えようとする場合、CYC[5][12]のように人手で常識知識データベースを作成することが多かった。このような常識データベースで前節の②の「リンゴ」の例を処理する場合だと、まず、「リンゴ」という記号で常識知識データベースを検索して、「リンゴ」という記号の本質的で不変的な意味を取得し、次に、文脈処理を行って「リンゴの写真」と「冷蔵庫の中のリンゴ」を比較して「冷蔵庫の中のリンゴ」を選択するという形を取ることが多かった。これは、トップダウン的に記号の本質的かつ不変的な意味を与えて、共有信念に相当する文脈は例外的または付加的に処理するという考え方である。しかし、前節での説明の通り、コミュニケーションのための記号の本質は共有信念なのであるから、本質的かつ不変的な意味が主で共有信念は従のような考え方を逆転させて、共有信念を主として処理するようにし、「リンゴ」の例ではその状況での共有信念から直接的に「冷蔵庫の中のリンゴ」を想起した方がよいのではないかと考える。また、このような共有信念主体の常識知識は、共有信念と経験（センサー情報＋内部状態）を常にセットにして多層ニューラルネット上の分散表現として蓄積するような実装が考えられる。

(6)

さらに、前節の③の例にもあるように、共有信念主体の常識知識では、相手の属するグループの大きさによって図 6 のように共有信念の大きさも変化する。そして、家族間の共有信念が家族間の常識、学校や会社の共有信念が学校や会社内の常識、国民の共有信念が国内の常識というようにグループ毎に常識が存在する。ここから、人間の発達も参考にして常識知識の形成のされ方を考えてみると、常識知識はトップダウン的に与えるものではなく、ボトムアップ的に家族間の共有信念から始まり、学校や会社等の社会グループの共有信念に拡張され、最終的には最も大きなグループに拡張された共有信念が一般的な常識になると考えればよいと思われる。図 6 グループの大きさと共有信念の大きさの 関係

6. まとめ

普通の単眼のカメラで撮影したビデオ画像から深層強化学習を用いて人型ロボットの見まねによる動作の模倣学習の実験についての説明と結果を示し、従来はロボットが高額であったり、アルゴリズムが高度であったりして実験が容易ではなかった実験が、最近は安価かつ比較的容易に可能になってきたことを示した。また、人型ロボットの模倣学習と関連する話題として、シンボルグラウンディング問題に関する考察を行い、コミュニケーションのためのシンボル（記号）は共有信念を指し示すことが本質であるので、汎用人工知能で必要となる常識の知識は、共有信念と経験をセットにしてその両方に同時にグラウンディングして蓄積するのがよいのではないかという提案を行った。

参考文献

[1] Brooks, R. A.: Intelligence without representation,

Artificial intelligence 47(1-3) 139-159, (1991)

[2] Cao, Z., Simon, T., Wei, S. E., & Sheikh, Y.: Realtime multi-person 2d pose estimation using part affinity fields,

arXiv preprint arXiv:1611.08050, (2016)

[3] Eslami, S. M. A., Rezende, D. J., Besse, F., ... & Viola, F.: Neural scene representation and rendering, Science, Vol. 360, Issue 6394, pp. 1204-1210, (2018)

[4] Harnad, S.: The symbol grounding problem, Physica D:

Nonlinear Phenomena, 42(1-3), 335-346, (1990)

[5] Lenat, D. B., Prakash, M., & Shepherd, M., CYC: Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks, AI magazine 6(4) 65, (1985)

[6] Martinez, J., Hossain, R., Romero, J., & Little, J. J.: A simple yet effective baseline for 3d human pose estimation, In International Conference on Computer Vision (Vol. 1, No. 2, p. 5), (2017)

[7] Miyamoto, H., & Kawato, M.: A tennis serve and upswing learning robot based on bi-directional theory, Neural

Networks 11(7-8) 1331-1344, (1998)

[8] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M.: Playing atari with deep reinforcement learning, arXiv preprint

arXiv:1312.5602, (2013)

[9] Peng, X. B., Abbeel, P., Levine, S., & van de Panne, M.: DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills, arXiv preprint

arXiv:1804.02717, (2018)

[10] Peng, X. B., Kanazawa, A., Malik, J., Abbeel, P., & Levine, S.: SFV: Reinforcement Learning of Physical Skills from Videos, arXiv preprint arXiv:1810.03599, (2018) [11] Goodfellow, I. J., Shlens, J., & Szegedy, C.: Explaining and

harnessing adversarial examples, arXiv preprint

arXiv:1412.6572, (2014)

[12] R.デービス, D.B.レナート, 人工知能における知識ベースシステム, 啓学出版, (1991)

[13] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O.: Proximal policy optimization algorithms,

arXiv preprint arXiv:1707.06347, (2017)

[14] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S.: Mastering the game of Go with deep neural networks and tree search, nature, 529(7587), 484-489, (2016)

[15] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, arXiv preprint arXiv:1712.01815, (2017) [16] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I.,

Huang, A., Guez, A., ... & Chen, Y.: Mastering the game of go without human knowledge, Nature 550(7676) 354, (2017)

[17] Taniguchi, T., Nagai, T., Nakamura, T., Iwahashi, N., Ogata, T., & Asoh, H.: Symbol emergence in robotics: a survey,

(7)

Advanced Robotics, 30(11-12), 706-728, (2016)

[18] Wei, S. E., Ramakrishna, V., Kanade, T., & Sheikh, Y.: Convolutional pose machines, In Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition

(pp. 4724-4732), (2016) [19] 岡田浩之, 語の意味の生成過程における「対称性」の役割, 人工知能31(1) 100-105, (2016) [20] 岩橋直人, ロボットと言語: 言語コミュニケーション能力の機械学習, 人工知能学会誌 27(6) 563-568, (2012) [21] 岩橋直人, 中村慎也, & 長井隆行, 人間とロボットの共有信念の推定に基づいた相互適応的な発話生成手法, 人工知能学会全国大会 (第 23 回) 論文集 1F2-OS78, (2009) [22] 山川宏, 荒川直哉, & 高橋恒一. 全脳アーキテクチャに必要な新皮質マスターアルゴリズムの検討, 人工知能学会全国大会 (第 31 回) 論文集 3K1-OS-06a-5, (2017) [23] 松尾豊, AI の未解決問題と Deep Learning, 第 28 回人工知能学会全国大会論文集 3H4-OS24b-5, (2014) [24] 松尾豊, 人工知能は人間を超えるか: ディープラーニングの先にあるもの, KADOKAWA, (2015) [25] 杉浦孔明, ロボット対話，人工知能学会誌 27(6) 580-586（2012） [26] 浅田稔，國吉康夫，ロボットインテリジェンス, 岩波書店，(2006) [27] 大槻知史, 三宅陽一郎監修, 最強囲碁 AI アルファ碁解体新書増補改訂版, 翔泳社, (2018) [28] 谷口忠大, 記号創発ロボティクス知能のメカニズム入門, 講談社選書メチエ, (2014) [29] 谷口忠大 , 記号創発問題 , 人工知能 31(1) 74-81, (2016) [30] 谷口忠大, 二重分節構造に基づく教師なし学習と記号創発，人工知能学会誌 27(6) 569-579（2012） [31] 長井隆行, 中村友昭, 記号創発ロボティクス, 人工知能 31(1) 59-66, (2016) [32] 尾形哲也, ロボティクスと深層学習, 人工知能 31(2) 210-215, (2016) [33] 尾形哲也, 深層学習とマニピュレーション, 日本ロボット学会誌 35(1) 28-31, (2017) [34] 疋田聡, 深層学習とモンテカルロ木探索を用いた強化学習の組合せ最適化問題での実験とフレーム問題に関する１考察, 人工知能学会研究会資料 SIG-AGI-009-07, (2018) [35] 疋田聡, 方策最適化による強化学習を用いた人型ロボットの動作学習の実験, 人工知能学会研究会資料 SIG-AGI-007-02, (2017) [36] 麻生英樹, 確率モデルからの記号の創発，人工知能学会誌 27(6) 546- 554（2012） [37] 3d-pose-baseline-vmd: https://github.com/miu200521358/3d-pose-baseline-vmd (2018/10/1)

深層強化学習を用いた人型ロボットの模倣学習の実験とシンボルグラウンディング問題に関する一考察