まとめ

本研究では，日常生活環境で動作可能な，知的なロボットの構築を究極の目的の一つとし，その目的の達成には学習によって，ロボット自らに望ましい行動を獲得させることが有望であると考えた．どういう行動が望ましいかを，ロボットに予備知識として全て与えることは困難であり，また動的な環境においては与えた知識の陳腐化という問題も発生することから，ロボットは置かれた環境とのインタラクションの中で，行動の結果に基づき，何が望ましい行動であるかを探り出していくことが必要となる．このような問題設定において学習を行う手法として，強化学習がある．

強化学習は，学習のための教師情報や事前知識を必要とせず，望ましい行動をロボットに自律的に獲得させることを可能にする手法である．強化学習手法では，

最適化の手続きと併せて，最適化のための探索過程が提供される．とくに，実際的な問題において，その複雑性のため，解析的な最適化手法が適用できない(ないし適用が現実的でない) 場合に，有望視されている手法の一つである．

強化学習手法を適用することで，

(1)どういう行動が望ましいかを予め明確化する必要がなく，

(2)ロボット自身が，学習すべき内容を能動的に決定し，

学習を進めることが可能となる．手法の理論的背景には，マルコフ決定過程(MDP) において，Bellman方程式の解の近似を逐時的に高めていくことで，方策の改善を行う手続きがある．

本研究では，従来の強化学習手法の拡張として，複数のQ値表を用いて学習を行う，すなわち複数の強化学習エージェントを同時並行的に用いる新しい手法を提案し，効率的に学習を進める効果があることを示した．

複数Q値表の具体的な適用例として，実験により有効性を示したのは，次の2 点である．

(1)学習に用いるセンサの，オンラインで(すなわち学習を進めながら)の選択

(2) R学習における局所解問題の解消

第1のオンラインセンサ選択効果に関しては，ロボットの行動決定において，より多くのセンサを用いることは，状況特定の精密化，ノイズの影響の軽減，故障時の予防等の意味で有益であるが，製造コストの上昇を招くおそれがある．また，

望ましい行動を学習によって獲得させる際には，過多なセンサの搭載によってノイズの影響が重畳し，かえって行動の学習が遅れることが危惧される．さらに，強化学習においては，多くのセンサを用いて学習させる際，状態数の爆発(いわゆる

Bellmanの次元の呪い) が効率的な学習を阻害することが知られている．この点に

関して，従来，状態分割を逐時的に行うことにより，適切な状態空間を形成する手法が提案されていた[7, 39, 2, 15, 30]．

本研究では，強化学習課題において，冗長性のあるセンサ群が与えられた際に，

どのセンサを学習に利用するかを，望ましい行動と同時に強化学習させることにより，適切な状態空間を決定する手法を提案した．冗長なセンサ群が提供される強化学習課題の例として，ロボットの障害物回避行動の獲得を取り上げ，手法の有効性をシミュレーション実験により検証した．実験に当たっては，手法及び実験結果を，実ロボットに応用することに十分配慮し，実験環境設定等を決定した．

実験の結果，衝突行動の回避と平均獲得報酬の面で，本手法が有効であることが確認された．

本手法の最大の特長は，行動決定のための基準(Q値表，すなわち強化学習エージェント) を複数もち，学習によって行動の適切性を高めながら，最も適切な行動を決定可能な(すなわち学習内容が最も妥当な)学習エージェントを，行動結果に基づいて選択することを可能にすることにある．こうしたアプローチは，センサ群の選択以外の目的にも利用可能な汎用的手法であると考えられ，従来以上に効率的な強化学習の実現が期待される．

第2のR学習の効率化に関しては，とくに実際的で複雑な課題に強化学習を適用する際，学習速度(本論文では，より少ない環境との相互作用で，パフォーマンスが向上することととらえた)の点が重要な問題となる．学習高速化に関しては，

様々な試みがなされているが，本研究では，R学習を用いることで，迅速な学習の実現を目指すと共に，強化学習エージェントを並列的に複数用いる(すなわち複数のQ値表を用いる)ことで，R学習の欠点を補う新しい手法を提案した．

R学習は，強化学習で通常用いられる，割引を用いた累積報酬の代わりに，平

均報酬を用いる手法で，エピソード分割のない(行動を無限に継続する)課題に適

用される[35]．このため，例えばロボットを継続的に行動させながら，望ましい行

動を獲得させるといった課題に適している．R学習は，Q学習等と比較して，学習が迅速な可能性がある[31]反面，行動決定手法や学習パラメータに敏感であるとの報告もある[22, 23]．このため，提案手法の適用により，R学習の敏感性を解消し，ロバストな結果を得ることが可能になれば，手法の適用の幅が広がる．

エピソードが明確に分割されていない強化学習課題の例として，ロボットの障害物回避行動の獲得を実験課題として取り上げ，手法の有効性をシミュレーション実験により検証した．その結果，従来のQ及びSarsa学習，及び(第1実験で採用した)オンラインセンサ選択手法を適用したQ及びSarsa学習と比較して，きわめて良い成績が確認された．提案手法の適用により，少ない行動回数で衝突の回避を学習し，高い平均獲得報酬が得られる．このため，R学習のロバスト性を向上させ，学習の高速化を図る手法として，有望であると考えられる．

以上のように，本論文では，具体的な用途を2つ示し，実験によって有効性を確認することで，複数の強化学習エージェント(Q値表) を同時に並列的に学習に用いるという，従来十分検討されていなかったアイデアに基づく，新しい手法の利点を明らかにした．しかし，複数の学習エージェントを学習及び行動決定に用いる手法は，これらの用途に限定されるものではない．理論面での裏付けを進め，

実験面での確認を行うことで，手法の用途はさらに広がり，有効性は向上すると思われる．

第 A _章

対照実験の処理詳細

第4，5及び6章において，対照実験で用いた処理のアルゴリズムを，以下に示す。

A.1 Q/Sarsa 学習 ( 従来手法 )

付図A.1参照．

ドキュメント内 JAIST Repository: 自律移動型ロボットのナビゲーションに関する研究 (ページ 102-105)

第 A 章

対照実験の処理詳細

A.1 Q/Sarsa 学習 ( 従来手法 )

第 A _章