• 検索結果がありません。

6.2 実験 2: R 学習の効率化

6.2.3 実験 2 の補足実験

表 6.11: 実験6.2.2.7 CMACを用いたQ学習の結果.実験終了時の平均獲得報酬

を示す.  

average reward (end of experiments)

experiment 6.2.2.7–1 0.0659

experiment 6.2.2.7–2 0.0199

experiment 6.2.2.7–3 0.3317

experiment 6.2.2.7–4 0.0722

experiment 6.2.2.7–5 0.2246

experiment 6.2.2.7 (Q-learning with CMAC) mean 0.1429

6.2.2.7 CMAC+Q学習

CMACとR学習の併用では,R学習が局所解に入って学習が進まない可能性が ある.このため,CMACとQ学習を併用した実験を行った.結果を表6.11に示す.

なお,この実験でも,実験6と同様のタイリングを用いた.また,割引(γ = 0.9) を用い,強化学習パラメータは,第6.2.1節の(1), (4)と同一とし,²-greedyによ る探索をさせた.なお,処理の詳細は,付図A.3参照.

Q学習とCMACの併用では,表6.11の通り,従来手法のQ/Sarsa学習(第6.2.2.5 節参照)に対する優位性が認められるものの,第6.2.2.6節の実験同様,学習速度 のばらつきが大きい結果となっている.

表 6.12: Q値表を等確率で選択した際の平均獲得報酬.実験終了時の平均獲得報 酬(10実験の平均値)を,優先度学習を行った場合及び全センサを利用する従来手 法のR学習(10実験の平均) との比較で示す.

平均獲得報酬 提案手法による優先度更新を行う場合(第6.2.2.1節) 0.0492 等確率で各Q値表が選択される場合 0.3930 全センサを利用した従来手法のR学習(第6.2.2.2節) 0.4945

6.2.3.1 Q値表選択処理の効果の確認

第6.2.2.1節の実験では,Q値表の選択のために,ρの累積を用いる処理(第6.2.1 節参照)を採用した.この処理が有効に機能していることを確認するため,優先度 の学習を行わない,すなわち実験開始から終了まで,常に等確率(2551 )で各Q値表 が選択されるという条件で,R学習の実験を10回実施した.

実験の結果は,表6.12 の通りであった.実験1の場合(第6.1.3.1節参照) と同 様,等確率でQ値表の選択を行った場合,提案手法による優先度学習を実施した 結果とQ値表を1つしか用いない従来手法の結果の,中間的な平均獲得報酬が得 られたと考えられる.

6.2.3.2 強化学習パラメータに関するロバスト性の確認

本研究では,提案手法の有効性の評価のための実験を,第6.1.1節に記述した強 化学習パラメータ値にて行った.本節では,提案手法における強化学習パラメー タに関するロバスト性の確認のため,上記以外のパラメータを用いて実施した実 験の結果に関して述べる.

本節の実験で採用したパラメータ値は,

ρの学習率(β) 0.6, 0.1

各Q値表の優先度の変化速度パラメータ(ξ) 0.01, 0.001

の通りである.これらのパラメータ値を,複数のQ値表を用いるR学習に適用し た実験の,実験終了時の平均獲得報酬(5実験の平均)を表6.13 に示す.

表 6.13: 提案手法適用時,異なる強化学習パラメータを用いた実験の結果.実験 終了時の平均獲得報酬(5実験の平均)を示す.比較のため,センサ選択手法を適 用したQ学習,Sarsa学習10回の平均獲得報酬の平均を下行に再掲した(これら の結果の詳細は,第6.1.3.2節参照).なお,ψは,各Q値表の優先度の学習率,κ は,強化比較手法のリファレンス報酬の学習率である.

β ξ 平均獲得報酬(終了時) R学習+ 0.001 0.6 0.0504

提案手法 0.001 0.1 0.0564

0.0492 *10実験の平均 0.01 0.6 0.0727

0.01 0.1 0.1160

κ ψ 平均獲得報酬(終了時) Sarsa学習+ 0.001 0.6 0.0546 *10実験の平均 センサ選択 0.001 0.1 0.2410 *10実験の平均 0.01 0.6 0.1846 *10実験の平均 0.01 0.1 0.2409 *10実験の平均 Q学習+ 0.001 0.6 0.0864 *10実験の平均 センサ選択 0.001 0.1 0.2573 *10実験の平均 0.01 0.6 0.2103 *10実験の平均 0.01 0.1 0.2600 *10実験の平均

表から明らかなように,提案手法を適用した場合,βおよびξの値の設定によら ず,センサ選択手法を適用したQ/Sarsa学習と比較して良い平均獲得報酬が得ら れた.提案手法は,平均獲得報酬ばかりではなく,ロバスト性の面でも優れてい ると考えられる.