深層生成モデルを用いた人型ロボットの動作生成実験

(1)

深層生成モデルを用いた人型ロボットの動作生成実験

Experiments of Motion Generation for Humanoid Robots Using Deep Generative

Models

疋田聡

1

Satoshi Hikida

1

_{AGICRON 研究所株式会社}

1

_{AGICRON Research Institute, Ltd.}

Abstract: In recent years, humanoid robots have become more sophisticated and less expensive, and humanoid robots that download and dance human choreographed dances for a pre-determined song at a very low price It was sold. However, such a robot has a problem that it gets tired after having finished watching all the provided music. Therefore, we have devised a method that can automatically generate a dance motion using a deep generation model for new music data as well as a predetermined piece of music.

1. 背景

近年、人型ロボットの高性能化と低価格化が進んでおり、最近（2019 年 6～8 月）はついに 25 自由度の人型ロボットが2 万円台で販売される例も現れた。ここで販売された人型ロボットは、予め決まった楽曲に対して人間がダンスの振り付けを行ったものをダウンロードして踊らせるというもので、ダウンロードできる曲数は11 曲だけであり、今後追加の予定無しとなっていた。そのため、11 曲を全部見終わってしまった後に飽きてしまうという問題があった。しかし、つい最近、有志の方々が解析を行い、この人型ロボットを自由に動かすための情報と開発環境を公開してくれた[23][25][21]。そこで、この情報と開発環境を利用して、予め決まった楽曲だけでなく、新たな音楽データに対しても深層生成モデルを用いて自動的にダンス動作を生成できる方法を考案し、実験を行った。

2. 深層生成モデルの人型ロボット

の動作生成への適用

予め決まった楽曲だけでなく、新たな音楽データに対しても深層生成モデルを用いて自動的にダンス動作を生成できる方法について説明する。

2.1. 深層生成モデル

深層生成モデルは、深層ニューラルネットワークを用いて確率モデルを学習するもので、高い表現能力に特徴がある。例えば、VAE[4][5]、GAN[3]、GQN[2] などが有名である。

2.2. 人型ロボットの動作

今回実験に用いる人型ロボット[22]では、予め決まった楽曲に対して人間がダンスの振り付けを行ったものがモーションファイルとして提供されており、モーションファイルでは、キーフレームが25 個の関節角のサーボ値と次のキーフレームまでの遷移時間で表現され、そのキーフレームの連続として人型ロボットの動作が記述されている。図 1 今回実験に用いた人型ロボット

(2)

2.3. 深層生成モデルの人型ロボットの動

作生成への適用方法

予め決まった楽曲だけでなく、新たな音楽データに対しても深層生成モデルを用いて自動的にダンス動作を生成するため、学習フェーズでは図 2 に示すように過去N 個のキーフレームと人間がダンスの振り付けを行った既存の音楽データを入力データとして、次のキーフレームが出力データとして生成されるように深層生成モデルの学習を行う。図 2 学習フェーズの処理 図 3 生成フェーズの処理 学習が完了したら、生成フェーズでは図 3 に示すように過去N 個のキーフレームと学習に用いていない新たな音楽データを入力データとして、次のキーフレームを出力データとして生成することにより、予め決まった楽曲だけでなく、新たな音楽データに対しても深層生成モデルを用いて自動的にダンス動作を生成できるようになる。

3. 実験方法

3.1. 深層生成モデルの作成方法

深層生成モデルのツールには Pixyz[24]を用いた。また、学習フェーズでの学習データには、人間がダンスの振り付けを行った既存の音楽データ 10 曲中の9 曲を用い、学習に用いなかった 1 曲を生成フェーズのテストに用いるという形で実験を行った。

3.2. 人型ロボットの動作開発環境

人型ロボットの動作開発環境は、有志の方々が公開してくれているツールを用いた[21]。モーションファイルを Unity 上でプレビューするツール[25]を図 4 に示す。これにより、生成した動作を、実機を用いずに簡単に確認できる。 GUI から各関節の角度をコントロールできる簡易リモコンツール[26]の操作画面を図 5 に示す。各関節の角度をモーションファイルとして秒間1 フレームだけ転送することで準リアルタイムなモーション反映を実現している。モーションファイルのフォーマットやコマンドの仕様、サーボの情報なども有志の方々がWeb 上に公開してくれている[23]ので参考にした。

3.3. 深層生成モデルと人型ロボットの動

作の結合

深層生成モデルにより生成したキーフレームの列はモーションファイルのフォーマットに直して、 Windows PC から Bluetooth インターフェースで実機へ転送し、実機上で動作を確認した。

(3)

図 4 Unity 上のモーションプレビューツール

(4)

4. 実験結果

動作のキーフレームと遷移時間の履歴と音楽データから深層生成モデルを学習した結果、未学習の音声データに対して、ダンス動作を生成できることが確認できた。なお、生成したダンス動作の詳細については文書では表現し難いため、研究会の発表時に示す予定である。

5. 人型ロボットと汎用人工知能に

関する考察

人型ロボットの研究を行っていると、作業効率を考えるとロボットは人型である必要はないのではないかという意見をよく耳にするので、汎用人工知能の観点からの人型ロボットに関する考察も加えて述べておく。なお、「汎用人工知能」という言葉も人によって様々な意味で用いられているので、ここで用いる「汎用人工知能」の意味についても説明しておく。

5.1. 「汎用人工知能」のここでの意味

ここでの「汎用人工知能」は、AI をなるべく汎用になるように考えて作成するという意味で用いており、例えば、囲碁しかできな AlphaGo[6][12]よりも様々なゲームに対応できる AlphaZero[7]の方がより汎用であるし、日本語だけの言語モデルより多言語に対応した BERT[1]の方がより汎用であると考えられる。その意味では、「汎用志向人工知能」と言った方が、誤解が少なくなるかもしれない。このような「汎用志向人工知能」を進めてゆくことにより、中間目標として人間レベルの汎用性に近づけることを考えている。すなわち、専門外の人が0 か 1 かで考えるような、いきなり人間並みや人間以上の「汎用人工知能」を作るという話ではなく、AI の汎用化を進めることにより、徐々に汎用の程度を上げていくというイメージである。なお、全ての問題を効率的に解くことはノーフリーランチ定理から不可能と考えられるので、ここでの「汎用人工知能」には含めていない。（人間の知能も地球上の環境に適応しているので、全ての問題が効率的に解けるわけではない。）「特化型AI」を多数並べれば「汎用 AI」になるのではないかという考え方もある。しかし、今回の実験の例と対応させると、有限の曲にダンスを作成したものを並べても結局は有限なので新たな曲には対応できないが、どんな曲にも汎用的にダンスを生成できるようにしておけば人間が毎度ダンスを作成しなくてもよくなるのと同様に、有限のタスクに「特化型AI」を作成したものを並べても新たなタスクには対応できないが、より多くのタスクに対応できる「汎用AI」を作成した方が毎度新たな「特化型 AI」を作成する手間が減らせる可能性がある。このように、「特化型AI」を多数並べればよいと考えるのと、最初から「汎用AI」を志向するのとでは作り方が異なってくるので、「汎用志向人工知能」の考え方は重要であると考えられる。「汎用人工知能」という言葉に「意識」を持つことを含める人もいるが、ここでの「汎用人工知能」には「意識」を持つことは必須としない。「意識」の有無については、「強いAI」と「弱い AI」の観点であり、汎用性とは別という立場である。したがって、「汎用人工知能」に「意識」の機能を入れた方が性能が良くなるなら入れるし、入れなくても性能が出るのであれば入れなくてもよいと考える。

5.2. 人型ロボットと動作模倣

見まねによる動作の模倣は、人間の赤ちゃんが周囲の人間の動作を見て模倣をしながら育っていくことからも分かるように、汎用人工知能を実現するための重要な要素の一つであると考えられ、以前より認知発達ロボティクス等の分野で研究が行われてきた[8][11][18]。また、認知神経科学の分野でも、生得的に動作を模倣する機能を持つミラーニューロンが人間の知能に大きな役割を果たしていると言われている[9]。例えば、他者の信念状態を推定する心の理論[10]には、ミラーニューロンが利用されているという説が提案されている[9]。このような動作の模倣を行う場合、身体の類似性が高い方が模倣を行い易いため、ロボットが人型であることが有利に働くと考えられる。

5.3. 身体の類似性とシンボル

汎用人工知能におけるシンボルの創発 [13][14][15][18][19]などを考えたとき、身体の類似性が創発されるシンボルに影響を与えることが考えられる。何に内的なシンボルを割り当てるかは、個体にとっての環境重要度に左右される。例えば、車輪で移動するロボットにとって段差は移動できるかどうかを決める重要な対象なので認知地図上に内的なシンボルが割り当てられる可能性が高いと考えられるが、2 足歩行ロボットにとって段差はあまり重要

(5)

でないので、認知地図上に内的なシンボルが割り当てられない可能性が高い。これは人間でも同様であり、車椅子の人にとって段差は重要なので認知地図上にシンボルが割り当てられる可能性が高いが、健常者にとって段差はあまり重要でないのでどこに段差があるかを意識していない可能性が高い。そのため、段差については、健常者と車椅子の人よりも、車輪移動ロボットと車椅子の人の方がシンボルの共通度が高く、話が合うかもしれない。このように、身体の類似性は創発されるシンボルに影響を与えるので、ロボットが人間と身体の類似性が高い人型であることに意味があると考えられる。

5.4. 人間側の生得的認知能力

人間が他者の行動を解釈するとき、生得的に動作を模倣する機能を持つミラーニューロンを利用していると考えられている[9]。ロボットが人型をしていると、人間がロボットの行動を解釈するときにもミラーニューロンを利用できるようになるので、人間がロボットの行動を予測しやすくなるという利点がある。パソコンのCPU パワーの多くの割合がグラフィカルユーザーインターフェースに使用されていることを考えると、ロボットが人型であることがユーザーインターフェースとして有用であれば、ロボットの能力の多くの割合を汎用人工知能の人型ユーザーインターフェースとして用いることも妥当なのではないかと考えられる。

参考文献

[1] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K.: Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv preprint arXiv:1810.04805, (2018)

[2] Eslami, S. M. A., Rezende, D. J., Besse, F., ... & Viola, F.: Neural scene representation and rendering, Science, Vol. 360, Issue 6394, pp. 1204-1210, (2018)

[3] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y.: Generative adversarial nets, In Advances in neural information

processing systems (pp. 2672-2680), (2014)

[4] Kingma, D. P., & Welling, M.: Auto-encoding variational bayes, arXiv preprint arXiv:1312.6114, (2013)

[5] Kingma, D. P., Mohamed, S., Rezende, D. J., & Welling, M.: Semi-supervised learning with deep generative models, In Advances in neural information processing systems (pp. 3581-3589), (2014)

[6] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S.: Mastering the game of Go with deep neural networks and tree search, nature, 529(7587), 484-489, (2016)

[7] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, arXiv preprint arXiv:1712.01815, (2017) [8] A.カンジェロシ, M. シュレシンジャー, (監訳) 岡田浩之, 谷口忠大, 発達ロボティクスハンドブック, (2019) [9] V.S.ラマチャンドラン, (訳)山下篤子. 脳のなかの天使. 角川書店, (2013) [10] 子安増生, 木下孝司, < 心の理論> 研究の展望, 心理学研究, 68(1), 51-67, (1997) [11] 浅田稔，國吉康夫，ロボットインテリジェンス, 岩波書店，(2006) [12] 大槻知史, 三宅陽一郎監修, 最強囲碁 AI アルファ碁解体新書増補改訂版, 翔泳社, (2018) [13] 谷口忠大, 記号創発ロボティクス知能のメカニズム入門, 講談社選書メチエ, (2014) [14] 谷口忠大 , 記号創発問題 , 人工知能 31(1) 74-81, (2016) [15] 長井隆行, 中村友昭, 記号創発ロボティクス, 人工知能 31(1) 59-66, (2016) [16] 疋田聡, 深層学習とモンテカルロ木探索を用いた強化学習の組合せ最適化問題での実験, 人工知能学会研究会資料SIG-AGI-008-08, (2018) [17] 疋田聡, 深層学習とモンテカルロ木探索を用いた強化学習の組合せ最適化問題での実験とフレーム問題に関する１考察, 人工知能学会研究会資料 SIG-AGI-009-07, (2018) [18] 疋田聡, 深層強化学習を用いた人型ロボットの模倣学習の実験とシンボルグラウンディング問題に関する一考察, 人工知能学会研究会資料 SIG-AGI-010-05, (2018) [19] 疋田聡, 深層生成モデルを用いたシンボルグラウンディング問題における共有信念の生成実験, 人工知能学会研究会資料SIG-AGI-011-09, (2019) [20] 疋田聡, 方策最適化による強化学習を用いた人型ロボットの動作学習の実験, 人工知能学会研究会資料 SIG-AGI-007-02, (2017) [21] http://izm-11.hatenablog.com/entry/2019/07/04/123333 (2019/08/23 現在) [22] http://robots.dmm.com/robot/premaidai (2019/08/23 現在) [23] https://docs.google.com/spreadsheets/d/1c6jqMwkBroCu F74viU_q7dgSQGzacbUW4mJg-957_Rs/edit#gid=2102495394 (2019/08/23 現在)

(6)

[24] https://github.com/masa-su/pixyz (2019/08/23 現在) [25]

https://github.com/neon-izm/PremaindAI_TechVerification (2019/08/23 現在) [26] https://www.dropbox.com/s/6eof04lvtyd17u5/Build_Rre

深層生成モデルを用いた人型ロボットの動作生成実験