本研究では,日常生活環境で動作可能な,知的なロボットの構築を究極の目的 の一つとし,その目的の達成には学習によって,ロボット自らに望ましい行動を 獲得させることが有望であると考えた.どういう行動が望ましいかを,ロボット に予備知識として全て与えることは困難であり,また動的な環境においては与え た知識の陳腐化という問題も発生することから,ロボットは置かれた環境とのイ ンタラクションの中で,行動の結果に基づき,何が望ましい行動であるかを探り 出していくことが必要となる.このような問題設定において学習を行う手法とし て,強化学習がある.
強化学習は,学習のための教師情報や事前知識を必要とせず,望ましい行動を ロボットに自律的に獲得させることを可能にする手法である.強化学習手法では,
最適化の手続きと併せて,最適化のための探索過程が提供される.とくに,実際 的な問題において,その複雑性のため,解析的な最適化手法が適用できない(ない し適用が現実的でない) 場合に,有望視されている手法の一つである.
強化学習手法を適用することで,
(1)どういう行動が望ましいかを予め明確化する必要がなく,
(2)ロボット自身が,学習すべき内容を能動的に決定し,
学習を進めることが可能となる.手法の理論的背景には,マルコフ決定過程(MDP) において,Bellman方程式の解の近似を逐時的に高めていくことで,方策の改善 を行う手続きがある.
本研究では,従来の強化学習手法の拡張として,複数のQ値表を用いて学習を 行う,すなわち複数の強化学習エージェントを同時並行的に用いる新しい手法を 提案し,効率的に学習を進める効果があることを示した.
複数Q値表の具体的な適用例として,実験により有効性を示したのは,次の2 点である.
(1)学習に用いるセンサの,オンラインで(すなわち学習を進めながら)の選択
(2) R学習における局所解問題の解消
第1のオンラインセンサ選択効果に関しては,ロボットの行動決定において,よ り多くのセンサを用いることは,状況特定の精密化,ノイズの影響の軽減,故障 時の予防等の意味で有益であるが,製造コストの上昇を招くおそれがある.また,
望ましい行動を学習によって獲得させる際には,過多なセンサの搭載によってノ イズの影響が重畳し,かえって行動の学習が遅れることが危惧される.さらに,強 化学習においては,多くのセンサを用いて学習させる際,状態数の爆発(いわゆる
Bellmanの次元の呪い) が効率的な学習を阻害することが知られている.この点に
関して,従来,状態分割を逐時的に行うことにより,適切な状態空間を形成する 手法が提案されていた[7, 39, 2, 15, 30].
本研究では,強化学習課題において,冗長性のあるセンサ群が与えられた際に,
どのセンサを学習に利用するかを,望ましい行動と同時に強化学習させることに より,適切な状態空間を決定する手法を提案した.冗長なセンサ群が提供される 強化学習課題の例として,ロボットの障害物回避行動の獲得を取り上げ,手法の 有効性をシミュレーション実験により検証した.実験に当たっては,手法及び実 験結果を,実ロボットに応用することに十分配慮し,実験環境設定等を決定した.
実験の結果,衝突行動の回避と平均獲得報酬の面で,本手法が有効であることが 確認された.
本手法の最大の特長は,行動決定のための基準(Q値表,すなわち強化学習エー ジェント) を複数もち,学習によって行動の適切性を高めながら,最も適切な行動 を決定可能な(すなわち学習内容が最も妥当な)学習エージェントを,行動結果に 基づいて選択することを可能にすることにある.こうしたアプローチは,センサ 群の選択以外の目的にも利用可能な汎用的手法であると考えられ,従来以上に効 率的な強化学習の実現が期待される.
第2のR学習の効率化に関しては,とくに実際的で複雑な課題に強化学習を適 用する際,学習速度(本論文では,より少ない環境との相互作用で,パフォーマン スが向上することととらえた)の点が重要な問題となる.学習高速化に関しては,
様々な試みがなされているが,本研究では,R学習を用いることで,迅速な学習 の実現を目指すと共に,強化学習エージェントを並列的に複数用いる(すなわち複 数のQ値表を用いる)ことで,R学習の欠点を補う新しい手法を提案した.
R学習は,強化学習で通常用いられる,割引を用いた累積報酬の代わりに,平
均報酬を用いる手法で,エピソード分割のない(行動を無限に継続する)課題に適
用される[35].このため,例えばロボットを継続的に行動させながら,望ましい行
動を獲得させるといった課題に適している.R学習は,Q学習等と比較して,学 習が迅速な可能性がある[31]反面,行動決定手法や学習パラメータに敏感である との報告もある[22, 23].このため,提案手法の適用により,R学習の敏感性を解 消し,ロバストな結果を得ることが可能になれば,手法の適用の幅が広がる.
エピソードが明確に分割されていない強化学習課題の例として,ロボットの障 害物回避行動の獲得を実験課題として取り上げ,手法の有効性をシミュレーショ ン実験により検証した.その結果,従来のQ及びSarsa学習,及び(第1実験で採 用した)オンラインセンサ選択手法を適用したQ及びSarsa学習と比較して,きわ めて良い成績が確認された.提案手法の適用により,少ない行動回数で衝突の回 避を学習し,高い平均獲得報酬が得られる.このため,R学習のロバスト性を向 上させ,学習の高速化を図る手法として,有望であると考えられる.
以上のように,本論文では,具体的な用途を2つ示し,実験によって有効性を 確認することで,複数の強化学習エージェント(Q値表) を同時に並列的に学習に 用いるという,従来十分検討されていなかったアイデアに基づく,新しい手法の 利点を明らかにした.しかし,複数の学習エージェントを学習及び行動決定に用 いる手法は,これらの用途に限定されるものではない.理論面での裏付けを進め,
実験面での確認を行うことで,手法の用途はさらに広がり,有効性は向上すると 思われる.
第 A 章
対照実験の処理詳細
第4,5及び6章において,対照実験で用いた処理のアルゴリズムを,以下に 示す。
A.1 Q/Sarsa 学習 ( 従来手法 )
付図A.1参照.