深層生成モデルを用いた人型ロボットの動作生成実験
Experiments of Motion Generation for Humanoid Robots Using Deep Generative
Models
疋田 聡
1Satoshi Hikida
11
AGICRON 研究所株式会社
1AGICRON Research Institute, Ltd.
Abstract: In recent years, humanoid robots have become more sophisticated and less expensive, and humanoid robots that download and dance human choreographed dances for a pre-determined song at a very low price It was sold. However, such a robot has a problem that it gets tired after having finished watching all the provided music. Therefore, we have devised a method that can automatically generate a dance motion using a deep generation model for new music data as well as a predetermined piece of music.
1. 背景
近年、人型ロボットの高性能化と低価格化が進ん でおり、最近(2019 年 6~8 月)はついに 25 自由度 の人型ロボットが2 万円台で販売される例も現れた。 ここで販売された人型ロボットは、予め決まった楽 曲に対して人間がダンスの振り付けを行ったものを ダウンロードして踊らせるというもので、ダウンロ ードできる曲数は11 曲だけであり、今後追加の予定 無しとなっていた。そのため、11 曲を全部見終わっ てしまった後に飽きてしまうという問題があった。 しかし、つい最近、有志の方々が解析を行い、この 人型ロボットを自由に動かすための情報と開発環境 を公開してくれた[23][25][21]。そこで、この情報と 開発環境を利用して、予め決まった楽曲だけでなく、 新たな音楽データに対しても深層生成モデルを用い て自動的にダンス動作を生成できる方法を考案し、 実験を行った。2. 深層生成モデルの人型ロボット
の動作生成への適用
予め決まった楽曲だけでなく、新たな音楽データ に対しても深層生成モデルを用いて自動的にダンス 動作を生成できる方法について説明する。2.1. 深層生成モデル
深層生成モデルは、深層ニューラルネットワーク を用いて確率モデルを学習するもので、高い表現能 力に特徴がある。例えば、VAE[4][5]、GAN[3]、GQN[2] などが有名である。2.2. 人型ロボットの動作
今回実験に用いる人型ロボット[22]では、予め決 まった楽曲に対して人間がダンスの振り付けを行っ たものがモーションファイルとして提供されており、 モーションファイルでは、キーフレームが25 個の関 節角のサーボ値と次のキーフレームまでの遷移時間 で表現され、そのキーフレームの連続として人型ロ ボットの動作が記述されている。 図 1 今回実験に用いた人型ロボット2.3. 深層生成モデルの人型ロボットの動
作生成への適用方法
予め決まった楽曲だけでなく、新たな音楽データ に対しても深層生成モデルを用いて自動的にダンス 動作を生成するため、学習フェーズでは図 2 に示す ように過去N 個のキーフレームと人間がダンスの振 り付けを行った既存の音楽データを入力データとし て、次のキーフレームが出力データとして生成され るように深層生成モデルの学習を行う。 図 2 学習フェーズの処理 図 3 生成フェーズの処理 学習が完了したら、生成フェーズでは図 3 に示す ように過去N 個のキーフレームと学習に用いていな い新たな音楽データを入力データとして、次のキー フレームを出力データとして生成することにより、 予め決まった楽曲だけでなく、新たな音楽データに 対しても深層生成モデルを用いて自動的にダンス動 作を生成できるようになる。3. 実験方法
3.1. 深層生成モデルの作成方法
深層生成モデルのツールには Pixyz[24]を用いた。 また、学習フェーズでの学習データには、人間が ダンスの振り付けを行った既存の音楽データ 10 曲 中の9 曲を用い、学習に用いなかった 1 曲を生成フ ェーズのテストに用いるという形で実験を行った。3.2. 人型ロボットの動作開発環境
人型ロボットの動作開発環境は、有志の方々が公 開してくれているツールを用いた[21]。 モーションファイルを Unity 上でプレビューする ツール[25]を図 4 に示す。これにより、生成した動 作を、実機を用いずに簡単に確認できる。 GUI から各関節の角度をコントロールできる簡易 リモコンツール[26]の操作画面を図 5 に示す。各関 節の角度をモーションファイルとして秒間1 フレー ムだけ転送することで準リアルタイムなモーション 反映を実現している。 モーションファイルのフォーマットやコマンドの 仕様、サーボの情報なども有志の方々がWeb 上に公 開してくれている[23]ので参考にした。3.3. 深層生成モデルと人型ロボットの動
作の結合
深層生成モデルにより生成したキーフレームの列 はモーションファイルのフォーマットに直して、 Windows PC から Bluetooth インターフェースで実機 へ転送し、実機上で動作を確認した。図 4 Unity 上のモーションプレビューツール
4. 実験結果
動作のキーフレームと遷移時間の履歴と音楽デー タから深層生成モデルを学習した結果、未学習の音 声データに対して、ダンス動作を生成できることが 確認できた。なお、生成したダンス動作の詳細につ いては文書では表現し難いため、研究会の発表時に 示す予定である。5. 人型ロボットと汎用人工知能に
関する考察
人型ロボットの研究を行っていると、作業効率を 考えるとロボットは人型である必要はないのではな いかという意見をよく耳にするので、汎用人工知能 の観点からの人型ロボットに関する考察も加えて述 べておく。 なお、「汎用人工知能」という言葉も人によって 様々な意味で用いられているので、ここで用いる「汎 用人工知能」の意味についても説明しておく。5.1. 「汎用人工知能」のここでの意味
ここでの「汎用人工知能」は、AI をなるべく汎用 になるように考えて作成するという意味で用いてお り、例えば、囲碁しかできな AlphaGo[6][12]よりも 様々なゲームに対応できる AlphaZero[7]の方がより 汎用であるし、日本語だけの言語モデルより多言語 に対応した BERT[1]の方がより汎用であると考えら れる。その意味では、「汎用志向人工知能」と言った 方が、誤解が少なくなるかもしれない。このような 「汎用志向人工知能」を進めてゆくことにより、中 間目標として人間レベルの汎用性に近づけることを 考えている。すなわち、専門外の人が0 か 1 かで考 えるような、いきなり人間並みや人間以上の「汎用 人工知能」を作るという話ではなく、AI の汎用化を 進めることにより、徐々に汎用の程度を上げていく というイメージである。なお、全ての問題を効率的 に解くことはノーフリーランチ定理から不可能と考 えられるので、ここでの「汎用人工知能」には含め ていない。(人間の知能も地球上の環境に適応してい るので、全ての問題が効率的に解けるわけではない。) 「特化型AI」を多数並べれば「汎用 AI」になるの ではないかという考え方もある。しかし、今回の実 験の例と対応させると、有限の曲にダンスを作成し たものを並べても結局は有限なので新たな曲には対 応できないが、どんな曲にも汎用的にダンスを生成 できるようにしておけば人間が毎度ダンスを作成し なくてもよくなるのと同様に、有限のタスクに「特 化型AI」を作成したものを並べても新たなタスクに は対応できないが、より多くのタスクに対応できる 「汎用AI」を作成した方が毎度新たな「特化型 AI」 を作成する手間が減らせる可能性がある。このよう に、「特化型AI」を多数並べればよいと考えるのと、 最初から「汎用AI」を志向するのとでは作り方が異 なってくるので、「汎用志向人工知能」の考え方は重 要であると考えられる。 「汎用人工知能」という言葉に「意識」を持つこ とを含める人もいるが、ここでの「汎用人工知能」 には「意識」を持つことは必須としない。「意識」の 有無については、「強いAI」と「弱い AI」の観点で あり、汎用性とは別という立場である。したがって、 「汎用人工知能」に「意識」の機能を入れた方が性 能が良くなるなら入れるし、入れなくても性能が出 るのであれば入れなくてもよいと考える。5.2. 人型ロボットと動作模倣
見まねによる動作の模倣は、人間の赤ちゃんが周 囲の人間の動作を見て模倣をしながら育っていくこ とからも分かるように、汎用人工知能を実現するた めの重要な要素の一つであると考えられ、以前より 認知発達ロボティクス等の分野で研究が行われてき た[8][11][18]。また、認知神経科学の分野でも、生得 的に動作を模倣する機能を持つミラーニューロンが 人間の知能に大きな役割を果たしていると言われて いる[9]。例えば、他者の信念状態を推定する心の理 論[10]には、ミラーニューロンが利用されていると いう説が提案されている[9]。 このような動作の模倣を行う場合、身体の類似性 が高い方が模倣を行い易いため、ロボットが人型で あることが有利に働くと考えられる。5.3. 身体の類似性とシンボル
汎 用 人 工 知 能 に お け る シ ン ボ ル の 創 発 [13][14][15][18][19]などを考えたとき、身体の類似性 が創発されるシンボルに影響を与えることが考えら れる。何に内的なシンボルを割り当てるかは、個体 にとっての環境重要度に左右される。例えば、車輪 で移動するロボットにとって段差は移動できるかど うかを決める重要な対象なので認知地図上に内的な シンボルが割り当てられる可能性が高いと考えられ るが、2 足歩行ロボットにとって段差はあまり重要でないので、認知地図上に内的なシンボルが割り当 てられない可能性が高い。これは人間でも同様であ り、車椅子の人にとって段差は重要なので認知地図 上にシンボルが割り当てられる可能性が高いが、健 常者にとって段差はあまり重要でないのでどこに段 差があるかを意識していない可能性が高い。そのた め、段差については、健常者と車椅子の人よりも、 車輪移動ロボットと車椅子の人の方がシンボルの共 通度が高く、話が合うかもしれない。このように、 身体の類似性は創発されるシンボルに影響を与える ので、ロボットが人間と身体の類似性が高い人型で あることに意味があると考えられる。
5.4. 人間側の生得的認知能力
人間が他者の行動を解釈するとき、生得的に動作 を模倣する機能を持つミラーニューロンを利用して いると考えられている[9]。ロボットが人型をしてい ると、人間がロボットの行動を解釈するときにもミ ラーニューロンを利用できるようになるので、人間 がロボットの行動を予測しやすくなるという利点が ある。パソコンのCPU パワーの多くの割合がグラフ ィカルユーザーインターフェースに使用されている ことを考えると、ロボットが人型であることがユー ザーインターフェースとして有用であれば、ロボッ トの能力の多くの割合を汎用人工知能の人型ユーザ ーインターフェースとして用いることも妥当なので はないかと考えられる。参考文献
[1] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K.: Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv preprint arXiv:1810.04805, (2018)
[2] Eslami, S. M. A., Rezende, D. J., Besse, F., ... & Viola, F.: Neural scene representation and rendering, Science, Vol. 360, Issue 6394, pp. 1204-1210, (2018)
[3] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y.: Generative adversarial nets, In Advances in neural information
processing systems (pp. 2672-2680), (2014)
[4] Kingma, D. P., & Welling, M.: Auto-encoding variational bayes, arXiv preprint arXiv:1312.6114, (2013)
[5] Kingma, D. P., Mohamed, S., Rezende, D. J., & Welling, M.: Semi-supervised learning with deep generative models, In Advances in neural information processing systems (pp. 3581-3589), (2014)
[6] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S.: Mastering the game of Go with deep neural networks and tree search, nature, 529(7587), 484-489, (2016)
[7] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T.: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, arXiv preprint arXiv:1712.01815, (2017) [8] A.カンジェロシ, M. シュレシンジャー, (監訳) 岡田 浩之, 谷口忠大, 発達ロボティクスハンドブック, (2019) [9] V.S.ラマチャンドラン, (訳)山下篤子. 脳のなかの天 使. 角川書店, (2013) [10] 子安増生, 木下孝司, < 心の理論> 研究の展望, 心理 学研究, 68(1), 51-67, (1997) [11] 浅田稔,國吉康夫,ロボットインテリジェンス, 岩波 書店,(2006) [12] 大槻知史, 三宅陽一郎 監修, 最強囲碁 AI アルファ 碁 解体新書 増補改訂版, 翔泳社, (2018) [13] 谷口忠大, 記号創発ロボティクス 知能のメカニズム 入門, 講談社選書メチエ, (2014) [14] 谷 口 忠 大 , 記 号 創 発 問 題 , 人 工 知 能 31(1) 74-81, (2016) [15] 長井隆行, 中村友昭, 記号創発ロボティクス, 人工知 能 31(1) 59-66, (2016) [16] 疋田聡, 深層学習とモンテカルロ木探索を用いた強 化学習の組合せ最適化問題での実験, 人工知能学会 研究会資料SIG-AGI-008-08, (2018) [17] 疋田聡, 深層学習とモンテカルロ木探索を用いた強 化学習の組合せ最適化問題での実験とフレーム問題 に関する1考察, 人工知能学会研究会資料 SIG-AGI-009-07, (2018) [18] 疋田聡, 深層強化学習を用いた人型ロボットの模倣 学習の実験とシンボルグラウンディング問題に関す る一考察, 人工知能学会研究会資料 SIG-AGI-010-05, (2018) [19] 疋田聡, 深層生成モデルを用いたシンボルグラウン ディング問題における共有信念の生成実験, 人工知 能学会研究会資料SIG-AGI-011-09, (2019) [20] 疋田聡, 方策最適化による強化学習を用いた人型ロ ボットの動作学習の実験, 人工知能学会研究会資料 SIG-AGI-007-02, (2017) [21] http://izm-11.hatenablog.com/entry/2019/07/04/123333 (2019/08/23 現在) [22] http://robots.dmm.com/robot/premaidai (2019/08/23 現 在) [23] https://docs.google.com/spreadsheets/d/1c6jqMwkBroCu F74viU_q7dgSQGzacbUW4mJg-957_Rs/edit#gid=2102495394 (2019/08/23 現在)
[24] https://github.com/masa-su/pixyz (2019/08/23 現在) [25]
https://github.com/neon-izm/PremaindAI_TechVerification (2019/08/23 現在) [26] https://www.dropbox.com/s/6eof04lvtyd17u5/Build_Rre