実験 2 の補足実験 - 実験 2: R 学習の効率化 - JAIST Repository: 自律移動型ロボットのナビゲーションに関する研究

6.2 実験 2: R 学習の効率化

6.2.3 実験 2 の補足実験

表 6.11: 実験6.2.2.7 CMACを用いたQ学習の結果．実験終了時の平均獲得報酬

を示す．

average reward (end of experiments)

experiment 6.2.2.7–1 −0.0659

experiment 6.2.2.7–2 −0.0199

experiment 6.2.2.7–3 −0.3317

experiment 6.2.2.7–4 −0.0722

experiment 6.2.2.7–5 −0.2246

experiment 6.2.2.7 (Q-learning with CMAC) mean −0.1429

6.2.2.7 CMAC+Q学習

CMACとR学習の併用では，R学習が局所解に入って学習が進まない可能性がある．このため，CMACとQ学習を併用した実験を行った．結果を表6.11に示す．

なお，この実験でも，実験6と同様のタイリングを用いた．また，割引(γ = 0.9) を用い，強化学習パラメータは，第6.2.1節の(1), (4)と同一とし，²-greedyによる探索をさせた．なお，処理の詳細は，付図A.3参照．

Q学習とCMACの併用では，表6.11の通り，従来手法のQ/Sarsa学習(第6.2.2.5 節参照)に対する優位性が認められるものの，第6.2.2.6節の実験同様，学習速度のばらつきが大きい結果となっている．

表 6.12: Q値表を等確率で選択した際の平均獲得報酬．実験終了時の平均獲得報酬(10実験の平均値)を，優先度学習を行った場合及び全センサを利用する従来手法のR学習(10実験の平均) との比較で示す．

平均獲得報酬提案手法による優先度更新を行う場合(第6.2.2.1節) −0.0492 等確率で各Q値表が選択される場合 −0.3930 全センサを利用した従来手法のR学習(第6.2.2.2節) −0.4945

6.2.3.1 Q値表選択処理の効果の確認

第6.2.2.1節の実験では，Q値表の選択のために，ρの累積を用いる処理(第6.2.1 節参照)を採用した．この処理が有効に機能していることを確認するため，優先度の学習を行わない，すなわち実験開始から終了まで，常に等確率(₂₅₅¹ )で各Q値表が選択されるという条件で，R学習の実験を10回実施した．

実験の結果は，表6.12 の通りであった．実験1の場合(第6.1.3.1節参照) と同様，等確率でQ値表の選択を行った場合，提案手法による優先度学習を実施した結果とQ値表を1つしか用いない従来手法の結果の，中間的な平均獲得報酬が得られたと考えられる．

6.2.3.2 強化学習パラメータに関するロバスト性の確認

本研究では，提案手法の有効性の評価のための実験を，第6.1.1節に記述した強化学習パラメータ値にて行った．本節では，提案手法における強化学習パラメータに関するロバスト性の確認のため，上記以外のパラメータを用いて実施した実験の結果に関して述べる．

本節の実験で採用したパラメータ値は，

ρの学習率(β) 0.6, 0.1

各Q値表の優先度の変化速度パラメータ(ξ) 0.01, 0.001

の通りである．これらのパラメータ値を，複数のQ値表を用いるR学習に適用した実験の，実験終了時の平均獲得報酬(5実験の平均)を表6.13 に示す．

表 6.13: 提案手法適用時，異なる強化学習パラメータを用いた実験の結果．実験終了時の平均獲得報酬(5実験の平均)を示す．比較のため，センサ選択手法を適用したQ学習，Sarsa学習10回の平均獲得報酬の平均を下行に再掲した(これらの結果の詳細は，第6.1.3.2節参照)．なお，ψは，各Q値表の優先度の学習率，κ は，強化比較手法のリファレンス報酬の学習率である．

β ξ 平均獲得報酬(終了時) R学習+ 0.001 0.6 −0.0504

提案手法 0.001 0.1 −0.0564

−0.0492 *10実験の平均 0.01 0.6 −0.0727

0.01 0.1 −0.1160

κ ψ 平均獲得報酬(終了時) Sarsa学習+ 0.001 0.6 −0.0546 *10実験の平均センサ選択 0.001 0.1 −0.2410 *10実験の平均 0.01 0.6 −0.1846 *10実験の平均 0.01 0.1 −0.2409 *10実験の平均 Q学習+ 0.001 0.6 −0.0864 *10実験の平均センサ選択 0.001 0.1 −0.2573 *10実験の平均 0.01 0.6 −0.2103 *10実験の平均 0.01 0.1 −0.2600 *10実験の平均

表から明らかなように，提案手法を適用した場合，βおよびξの値の設定によらず，センサ選択手法を適用したQ/Sarsa学習と比較して良い平均獲得報酬が得られた．提案手法は，平均獲得報酬ばかりではなく，ロバスト性の面でも優れていると考えられる．

ドキュメント内 JAIST Repository: 自律移動型ロボットのナビゲーションに関する研究 (ページ 83-86)