6.2 実験 2: R 学習の効率化
6.2.3 実験 2 の補足実験
表 6.11: 実験6.2.2.7 CMACを用いたQ学習の結果.実験終了時の平均獲得報酬
を示す.
average reward (end of experiments)
experiment 6.2.2.7–1 −0.0659
experiment 6.2.2.7–2 −0.0199
experiment 6.2.2.7–3 −0.3317
experiment 6.2.2.7–4 −0.0722
experiment 6.2.2.7–5 −0.2246
experiment 6.2.2.7 (Q-learning with CMAC) mean −0.1429
6.2.2.7 CMAC+Q学習
CMACとR学習の併用では,R学習が局所解に入って学習が進まない可能性が ある.このため,CMACとQ学習を併用した実験を行った.結果を表6.11に示す.
なお,この実験でも,実験6と同様のタイリングを用いた.また,割引(γ = 0.9) を用い,強化学習パラメータは,第6.2.1節の(1), (4)と同一とし,²-greedyによ る探索をさせた.なお,処理の詳細は,付図A.3参照.
Q学習とCMACの併用では,表6.11の通り,従来手法のQ/Sarsa学習(第6.2.2.5 節参照)に対する優位性が認められるものの,第6.2.2.6節の実験同様,学習速度 のばらつきが大きい結果となっている.
表 6.12: Q値表を等確率で選択した際の平均獲得報酬.実験終了時の平均獲得報 酬(10実験の平均値)を,優先度学習を行った場合及び全センサを利用する従来手 法のR学習(10実験の平均) との比較で示す.
平均獲得報酬 提案手法による優先度更新を行う場合(第6.2.2.1節) −0.0492 等確率で各Q値表が選択される場合 −0.3930 全センサを利用した従来手法のR学習(第6.2.2.2節) −0.4945
6.2.3.1 Q値表選択処理の効果の確認
第6.2.2.1節の実験では,Q値表の選択のために,ρの累積を用いる処理(第6.2.1 節参照)を採用した.この処理が有効に機能していることを確認するため,優先度 の学習を行わない,すなわち実験開始から終了まで,常に等確率(2551 )で各Q値表 が選択されるという条件で,R学習の実験を10回実施した.
実験の結果は,表6.12 の通りであった.実験1の場合(第6.1.3.1節参照) と同 様,等確率でQ値表の選択を行った場合,提案手法による優先度学習を実施した 結果とQ値表を1つしか用いない従来手法の結果の,中間的な平均獲得報酬が得 られたと考えられる.
6.2.3.2 強化学習パラメータに関するロバスト性の確認
本研究では,提案手法の有効性の評価のための実験を,第6.1.1節に記述した強 化学習パラメータ値にて行った.本節では,提案手法における強化学習パラメー タに関するロバスト性の確認のため,上記以外のパラメータを用いて実施した実 験の結果に関して述べる.
本節の実験で採用したパラメータ値は,
ρの学習率(β) 0.6, 0.1
各Q値表の優先度の変化速度パラメータ(ξ) 0.01, 0.001
の通りである.これらのパラメータ値を,複数のQ値表を用いるR学習に適用し た実験の,実験終了時の平均獲得報酬(5実験の平均)を表6.13 に示す.
表 6.13: 提案手法適用時,異なる強化学習パラメータを用いた実験の結果.実験 終了時の平均獲得報酬(5実験の平均)を示す.比較のため,センサ選択手法を適 用したQ学習,Sarsa学習10回の平均獲得報酬の平均を下行に再掲した(これら の結果の詳細は,第6.1.3.2節参照).なお,ψは,各Q値表の優先度の学習率,κ は,強化比較手法のリファレンス報酬の学習率である.
β ξ 平均獲得報酬(終了時) R学習+ 0.001 0.6 −0.0504
提案手法 0.001 0.1 −0.0564
−0.0492 *10実験の平均 0.01 0.6 −0.0727
0.01 0.1 −0.1160
κ ψ 平均獲得報酬(終了時) Sarsa学習+ 0.001 0.6 −0.0546 *10実験の平均 センサ選択 0.001 0.1 −0.2410 *10実験の平均 0.01 0.6 −0.1846 *10実験の平均 0.01 0.1 −0.2409 *10実験の平均 Q学習+ 0.001 0.6 −0.0864 *10実験の平均 センサ選択 0.001 0.1 −0.2573 *10実験の平均 0.01 0.6 −0.2103 *10実験の平均 0.01 0.1 −0.2600 *10実験の平均
表から明らかなように,提案手法を適用した場合,βおよびξの値の設定によら ず,センサ選択手法を適用したQ/Sarsa学習と比較して良い平均獲得報酬が得ら れた.提案手法は,平均獲得報酬ばかりではなく,ロバスト性の面でも優れてい ると考えられる.