まとめ - マルチロボットの強化学習

本研究では,災害現場を対象とした，マルチロボットの分散的情報収集の利点を生かし強化学習法を提案した．次に，災害現場を想定した動的環境を対象としたコンピュータシミュレーションを行い，提案手法の有効性について検討した．具

体的には，時々刻々と変化する動的環境では，Exploration (探索) と

Exploitation (搾取) 問題を扱う必要があり，動的環境に適応させるため,一定の

温度係数Tではなく時間経過によってTを変化させる方法と学習係数を一時的

に変更する探索モードを導入したした. 具体的な環境条件として，2種類の環境

条件間の遷移の問題を扱い，それぞれの変化に関する問題点を指摘した．次に，

それぞれの問題にあわせた温度係数と学習係数の変化のさせ方を提案し，複数の実験を通して，提案手法の有効性を示した．これにより，変化した環境を再探索し,環境変化後に最適経路を見つけ直しだすことが可能となった．

今後の課題として，実際の移動ロボットを用いた実証実験を行い，実環境での有効性に関する検討を行っていく予定である．また，SLAM などの地図構築と併用することにより，多角的な簡単から，災害時におけるマルチロボットの有効性について検討していく予定である．

参考文献

[1] 小林栄次, 災害対応ロボットQuinceの開発と課題, 工業教育資料 (340), 8-13, , 実教出版, 2011.

[2] 高橋友一, 田所諭, 太田正幸, 伊藤暢浩, 佐々木正人, 三嶋博之, 大規模災害におけるマルチエージェントシステム- RoboCup-Rescue における防災エージェントの構成, 東京大学出版会, 2001.

[3] 吉田和哉, 永谷圭司, 遠藤大輔, 水内健祐, Mora Andres, 清川清, 八木康史, 近藤一晃, 足立忠司, 斉藤浩明, 新美義博, 矢代裕之, 芹澤一雅, 田中紘幸, 大野浩之, 遠隔ロボットを用いた災害時マルチメディア情報収集技術の研究-親子型複数ローバーを用いた被災環境探索システムの構築, ロボティクス・メカトロニクス講演会講演概要集, 2005.

[4] G. Antonelli, F. Arrichiello, S. Chiaverini, Flocking for Multi-Robot Systems via the Null-Space-based Behavioral Control, Proc. (CD-ROM) of IEEE/RSJ International Conference on Intelligent Robots and Systems, 2008, pp. 1409-1414.

[5] 安田元一, 並行プロセスモデルに基づく産業用ロボットシステムの分散協調制御, 第 11 回計測自動制御学会システムインテグレーション部門講演会(SI 2010), 講演論文集(CD-ROM), 2M3-2, 2010.

[6] 関山浩介, 加藤大智, 福田敏男,異種機能マルチロボットの協調形態の自律形成, 第 11 回計測自動制御学会システムインテグレーション部門講演会(SI 2010), 講演論文集(CD-ROM), 2I1-2, 2010.

[7] 柏村洋平，上野敦志，辰巳，昭治，マルチロボットシステムにおける自発的な協調方法を用いた動的役割割当, 人工知能学会全国大会論文集，巻:20th, 頁:1B1-1,2006.

[8] 畝見達夫 : 強化学習，人工知能学会誌，Vol.9，No.6，pp830-836，1994.

[9] 木村元，宮崎和光，小林重信 : 強化学習システムの設計指針，計測と制御，

Vol38，No.10，pp.618-623，1999.

[10] C. J. C. Watkins and P. Dayan: Technical Note: Q-Learning, Machine Learning 8, pp.279-292 1992.

[11] 倉林大輔, 長川研太, 幾何条件による自律移動ロボット群の編隊構造遷移, 日

本ロボット学会誌 Vol.23, No.3, pp.376-382, 2005.

[12] Lo. Vig, J. A. Adams, Multi-Robot Coalition Formation, IEEE TRANSACTIONS ON ROBOTICS, VOL. 22, NO. 4, pp. 637-649, 2006.

[13] T. D. Barfoot, C. M. Clark, Motion planning for formations of mobile robots, Robotics and Autonomous Systems, vol. 46, 2004, pp. 65-78.

[14] T. Balch, R. C. Arkin. Behavior-based formation control for multi-robot teams.

IEEE TRANSACTIONS ON ROBOTICS AND AUTOMATION, Vol. 14, No. 6, pp. 1–15, 1998.

[15] N. Ayanian, V. Kumar, Decentralized Feedback Contrllers for Multiagent Teams in Environments With Obstacles, IEEE TRANSACTIONS ON ROBOTICS, Vol.26,

ドキュメント内マルチロボットの強化学習 (ページ 49-52)