Comparing the Eﬀect of Various Vision and Motor Information on Visuomotor Control Models Using Deep Neural Networks

(1)

深層学習を用いた視覚運動モデルの異なる入出力情報によるロボット動作生成の比較

Comparing the Eﬀect of Various Vision and Motor Information on Visuomotor Control Models Using Deep Neural Networks

1W153135-4 ^{松本昇} ^指導教員 ^{尾形哲也教授}

MATSUMOTO Noboru Prof. OGATA Tetsuya

概要：近年，ロボットの動作生成に深層学習を使った，画像の入力から動作を生成する視覚運動モデル（Visuomotor control models）を用いる研究が増加しており，学習モデルの性能を向上するために入出力情報や学習方法の工夫がなされてきた．従来の深層学習を使った視覚運動学習モデルによるロボットの動作生成研究の多くでは学習方法に重点が置かれていて，入出力情報が学習に与える違いに焦点をあてた研究は少ない．そこで本研究では，視覚運動モデルによるロボット動作生成の学習を行う際の，入出力情報の違いによる学習と，

実環境における動作生成の精度の違いを明らかにすることを目的とする．ここでは物体に触れるタスクの動作を用いて，入出力情報を変えながら視覚運動モデルを複数回学習させ，それぞれの学習済みモデルを未学習位置の物体に触れる動作を記録したテストデータに対する損失と，実環境における動作生成でタスクの精度を比較した．学習の比較の結果，画像特徴量を入出力に用いる視覚運動モデルは画像を直接入力に用いるものよりも大きなバッチサイズを使用できた．また，実環境におけるタスクの精度の比較実験からは，画像や画像特徴量を予測する視覚運動モデルは，それらを予測しないものよりもタスクの目的にあった動作生成が表れやすいことが推測される．さらに，画像を直接扱う学習モデルの方が画像特徴量を扱う学習モデルよりも目的のタスクの精度が良かった．

キーワード：深層学習，視覚運動モデル，ロボット動作生成

Keywords： Deep Learning, Visuomotor Control Models, Robot Motion Generation

1 はじめに

ロボットの制御手法には，人間による特徴量の分析に基づく作り込みがある．この手法は，既知の環境では高い精度で動作する一方，未知の環境に適応した動作生成が難しいという問題点がある．対して深層学習器を用いたロボットの制御手法は，環境の特徴量を自動的に抽出できるため人間の設計が不要であり，未知の環境に高い汎化性能を示すことから関連研究が増加している[1]．深層学習器を用いたロボットの動作生成モデルは，カメラや触覚センサ等から得られた環境の情報を入力に用いて動作を生成する．その中でも画像の入力から動作を生成する視覚運動モデルを用いた手法が多く研究されている[2]．

視覚運動モデルでロボットにタスクを実行させる場合，画像のみの入力ではなく，触覚センサ，動作情報を入力に用いることでタスクの精度を上げることができることが報告されている[3, 4]．しかし，研究やタスクによって入出力情報の扱い方が異なり，学習方法の違いに着目した研究はあるものの，入出力の組み合わせを網羅的に変え，学習に与える変化に着目した比較をした研究はない．そこで本研究では，

画像と動作情報の組み合わせによる入出力情報を変化させ，

複数の視覚運動モデルを学習させる．その時に（1）学習に必要な回数とメモリのコストの違いと，（2）実環境における動作生成の精度の違いを明らかにすることを目的とする．

2 比較する視覚運動モデル

本研究で用いる比較する視覚運動モデルの概略を図1に示す．Recurrent Neural Networks(RNN)は，現在の入力情報と共に過去の入力情報を用いることができる構造を持つため，時系列データを扱うことが可能である．本研究では視覚運動モデルのすべてに，RNN の一種である Long Short-Term Memory network(LSTM)を用いる．

図1 比較する視覚運動モデルの概略図

視覚運動モデルの名前のIはImage，MはMotionに対応している．例えば(ii) I2IMは画像のみを入力して，次のステップの画像と動作情報を出力するモデルであり，(iii) IM2Mは入力に画像と動作情報を持ち，次のステップの動作情報のみを出力とするモデルである．また，(v) IM2IM- separateは，画像をRNNに直接入力する(i)–(iv) とは異なり，事前にAutoencoder (AE)の学習によって画像特徴量を抽出する．RNNはAEで抽出した画像特徴量と運動情

(2)

報を入力として受け取り，将来の画像特徴量と運動情報を出力する．本研究では，図1に示す(i)–(v)の視覚運動学習モデルを実装したロボットが同一のタスクを実施した場合の，

学習コストやタスクの精度を比較することで，入出力の差異が視覚運動モデルの学習に与える影響を明らかにする．

3 視覚運動モデルの比較実験

3.1 タスクデザイン

本研究では物体に触れるタスクを学習に用いる．ロボットは机の左右に一つずつ置かれた二種類の物体のうちの一つの正面まで片腕を動かし，物体に触れる．

図2 実験に用いたタスクの例：ロボットが左のアームを箱の前に移動させ、箱に触れている

3.2 学習データ

学習する時系列データとして産業用ロボットNextageの両腕関節角12次元，128×128のRGB画像を記録する．

(v) IM2IM-separateのAEによって抽出する画像特徴量は 20次元とした．学習データは物体の位置，物体に触れる速度，動作する腕の違いから，972パターンのデータセットとなる．学習モデル内で，動作する腕の違いはRNNの持つ内部状態の初期値に指定される．

3.3 実験結果

それぞれの視覚運動モデルで，5GBのGPUメモリ上で取りうる最大のバッチサイズを指定して，100,000回の学習をパラメータを変えながら12回実施した．学習後，学習データに含まれない物体の位置での動作を記録した時系列をテストデータとして，テストデータの推論において損失が最小となる学習回数を計測した．学習回数で明確な差は認められなかったものの，(v) IM2IM-separateは他のモデルと比較して大きなバッチサイズを指定可能であることがわかった．実環境における動作生成では，それぞれの視覚運動モデルにおいて，12種類の学習済みモデルの中から物体に触れることができないものを比較に用いる学習済みモデルから除外した．その結果残った学習済みモデルの数が表1の通りになった．その後物体に触れた時のロボットの手先位置の座標と，物体に触れる時の理想的なロボットの

表1 比較に用いる視覚運動モデルそれぞれの学習済みモデルの数

I2M I2IM IM2M IM2IM IM2IM-separate 学習モデル数 10 9 9 7 3

手先位置の座標を比較して，ロボットの正面に対して交差する方向の誤差を測定した．それぞれの学習モデルの平均誤差を集計したものが図3であり，中央値で比較をすれば，

図3 物体に触れた時の平均誤差

画像や画像特徴量を予測する(ii) I2IM，(iv) IM2IM，(v) IM2IM-separateは，画像情報を予測しない(i) I2M，(iii) IM2Mに比べ平均誤差が小さくなり，画像情報の予測も学習させることでタスクの目的に合った動作生成が表れやすいことが推測される．そして，画像を直接扱う(ii) I2IM， (iv) IM2IMは画像特徴量を扱う(v) IM2IM-separateよりも平均誤差が小さくなり，直接画像を扱うことで目的のタスクを学習しやすいことが推測される．

4 まとめ

本研究では，視覚運動モデルを用いたロボットの動作学習において，入出力情報の差が学習のコストと実環境における動作生成の精度に与える影響を調査した．今後の研究計画として，それぞれの学習済みモデルのLSTMの内部状態や，画像特徴量の抽出の解析を行うことで，視覚運動モデルの内部の表現における比較を行うことを検討している．

参考文献

[1] Lei Tai, Jingwei Zhang, Ming Liu, Joschka Boedecker, and Wolfram Burgard. A Survey of Deep Network Solutions for Learning Control in Robotics: From Reinforcement to Imitation. Vol. 14, No. 8, pp.

1–19, 2016.

[2] Javier Ruiz-del Solar, Patricio Loncomilla, and Naiomi Soto. A Survey on Deep Learning Methods for Robot Vision. pp. 1–43, 2018.

[3] Roberto Calandra, Andrew Owens, Dinesh Jayaraman, Justin Lin, Wenzhen Yuan, Jitendra Malik, Edward H. Adelson, and Sergey Levine. More Than a Feeling: Learning to Grasp and Regrasp using Vision and Touch. No. 1, pp. 1–8, 2018.

[4] Sergey Levine and Chelsea Finn. End-to-End Training of Deep Vi- suomotor Policies. Vol. 17, pp. 1–40, 2016.

Comparing the Eﬀect of Various Vision and Motor Information on Visuomotor Control Models Using Deep Neural Networks

深層学習を用いた視覚運動モデルの異なる 入出力情報によるロボット動作生成の比較