結言 - 強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

6.1 まとめ

本研究では，

6

脚車輪型ロボットの環境に応じたスタック状態からの脱出行動獲得の問題について，強化学習を導入することによって解決を目指した．その際に，周囲の環境を把握するために外界センサを用いずにロボットの内部状態のみを用いることで，様々な環境に対応することが可能なロボットを開発することを目指した．

結果として，障害物の多いような不整地環境において，脚に掛かる負荷の大きさに応じたスタック状態からの脱出行動を獲得することが可能であることを示した．また，氷上のような滑る路面においても，スタック状態からの脱出行動の獲得に有効性があることを示した．

一方で，砂地のような環境においては，砂を掻き出すような行動を学習するに留まり，

脱出行動を獲得するには至らなかった．また，

ODE

では砂地のような多数の物体を扱うシミュレーションを行う場合には，計算精度が悪くなってしまい，正確なシミュレーションを行うことは難しいことも明らかとなった．

6.2 ^{今後の展望}

今後は，氷上での脱出行動について，より有効な脱出行動を獲得するために，状態の定義や報酬の与え方，

Q

学習における学習率，減衰率といったパラメータを調整していく必要がある．また，ボールプール以外に砂地を想定した環境を構築することができないか検討を行っていく．

本研究ではシミュレータ上での実験を行ったに過ぎないが，実用化のためには実環境における実験を行う必要がある．そのため，今後は実機の製作を行い，実環境での実験を行っていくことも必要となる．また，実機を製作することができれば，砂地のようなシミュレータ上では構築が難しい環境において実験を行うことも可能となる．シミュレータ上での実験が実環境においても正しいことを検証していくとともに，実機を用いて様々な環境において実験を行っていく必要がある．

発表実績

[1]

西村祐輝

,

三上貞芳

,

強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応

,

計測自動制御学会システム・情報部門学術講演会

2015, GS3-4, 2015.

謝辞

本研究を進めるにあたり，研究内容やその方針に関するご指導を頂いた公立はこだて未来大学システム情報科学部複雑系知能学科三上貞芳教授に心から感謝いたします．

また，研究内容や研究発表に関して多くのご助言を頂いた研究室の皆様に深くお礼申し上げます．

参考文献

[1]

嶋田晋

,

大野和則

,

「レスキューロボット

-

災害救助支援システムの現状と今後

-

」特集について

,

日本ロボット学会誌

, vol.28, no.2, p.133, 2010.

[2]

トピー工業株式会社

(2014),

災害救助ロボット

, Homepage http://www.topy.co.jp/dept/bdp/search.html

[3] NASA(2014), Mars Exploration Rover Mission: Overview, Homepage http://mars.nasa.gov/mer/overview/

[4]

^堀川昌利

,

^若原拓己

,

^三上貞芳

,

強化学習を用いた自律移動ロボットの環境適応に関する研究

,

計測自動制御学会システムインテグレーション部門講演会

2012, 3E33, 2012.

[5] Takenobu Yoshioka, Tomohito Takubo, Tatsuo Arai and Kenji Inoue, Hybrid Locomotion of Leg-Wheel ASTERISK H, Journal of Robotics and Mechatronics, vol.20, no.3, pp.403-412, 2008.

[6]

土居隆宏

,

塚越秀行

,

広瀬茂男

,

視覚センサを有する

4

足歩行機械の予測的障害物跨ぎ越え動作

,

ロボティクス・メカトロニクス講演会

’99

^{講演論文集}

, 2P2-45-042, 1999.

[7] Richard S. Sutton, Andrew G. Barto,

三上貞芳

(

訳

),

皆川雅章

(

訳

),

強化学習

,

森北出版

, 2000.

[8]

出村公成

,

簡単！実践！ロボットシミュレーション

,

森北出版

, 2007.

図目次

1.1

災害救助用走行ロボット

[2] . . . . 1

1.2

惑星探査ローバ

[3] . . . . 1

2.1

堀川らによるシミュレータ上での実験の様子

[4] . . . . 3

2.2 ASTERISK H[5] . . . . 4

2.3 TITAN VII

に搭載された視覚センサ

[6] . . . . 5

2.4 TITAN VII

の視覚センサのデータを元に作られた地図

[6] . . . . 5

2.5 TITAN VII

による障害物跨ぎ越えの様子

[6] . . . . 5

3.1 6

脚車輪型ロボット

[4] . . . . 6

3.2

強化学習の概要図

. . . . 7

4.1

シミュレータ上に構築した

6

^{脚車輪型ロボット}

. . . . 11

4.2

^{ロボット前面図}

. . . . 12

4.3

^{ロボット俯瞰図}

. . . . 12

4.4

離散化した状態

. . . . 13

4.5

脚の動作パターン

. . . . 14

4.6

車輪の動作パターン

. . . . 14

5.1

シミュレータ上に構築した不整地環境

. . . . 17

5.2

^{障害物のサイズ}

. . . . 18

5.3

不整地環境における実験の様子

. . . . 19

5.4

不整地環境における学習前後のスタック状態から脱出するまでの行動数

. . 19

5.5

不整地環境における学習後の

Q

値

. . . . 20

5.6

シミュレータ上に構築した滑る路面

. . . . 21

5.7

氷を想定したオブジェクトのサイズ

. . . . 21

5.8

滑る路面における実験の様子

. . . . 22

5.9

滑る路面における学習前後のスタック状態から脱出するまでの行動数

. . . 23

5.10

滑る路面における学習後の

Q

^値

. . . . 23

5.11

シミュレータ上に構築した砂地環境

. . . . 25

5.12

砂と枠のサイズ

. . . . 25

5.13

砂地環境における実験の様子

. . . . 26

5.14

砂地環境における学習前後のスタック状態から脱出するまでの行動数

. . . 26

5.15

砂地環境における学習後の

Q

^値

. . . . 27

ドキュメント内強化学習を用いた自律多脚車輪型ロボットの脱出行動の環境適応 (ページ 33-38)

結言

6.1 まとめ

6

ODE

6.2 今後の展望

Q

発表実績

[1]

,

,

,

2015, GS3-4, 2015.

謝辞

参考文献

[1]

,

,

-

-

,

, vol.28, no.2, p.133, 2010.

[2]

(2014),

, Homepage http://www.topy.co.jp/dept/bdp/search.html

[3] NASA(2014), Mars Exploration Rover Mission: Overview, Homepage http://mars.nasa.gov/mer/overview/

[4]

,

,

,

,

2012, 3E33, 2012.

[5] Takenobu Yoshioka, Tomohito Takubo, Tatsuo Arai and Kenji Inoue, Hybrid Locomotion of Leg-Wheel ASTERISK H, Journal of Robotics and Mechatronics, vol.20, no.3, pp.403-412, 2008.

[6]

,

,

,

4

,

’99

, 2P2-45-042, 1999.

[7] Richard S. Sutton, Andrew G. Barto,

(

),

(

),

,

, 2000.

[8]

,

,

, 2007.

図 目 次

1.1

[2] . . . . 1

1.2

[3] . . . . 1

2.1

[4] . . . . 3

2.2 ASTERISK H[5] . . . . 4

2.3 TITAN VII

[6] . . . . 5

2.4 TITAN VII

[6] . . . . 5

2.5 TITAN VII

[6] . . . . 5

3.1 6

[4] . . . . 6

3.2

. . . . 7

4.1

6

. . . . 11

4.2

. . . . 12

4.3

. . . . 12

4.4

. . . . 13

4.5

. . . . 14

6.2 ^{今後の展望}

図目次