実験 2 の結果 - 実験 2: R 学習の効率化 - JAIST Repository: 自律移動型ロボットのナビゲーションに関する研究

6.2 実験 2: R 学習の効率化

6.2.2 実験 2 の結果

6.2.2.1 提案手法

R学習を行う複数のQ値表(第3.3 節参照)を用いた実験の結果は，表6.6の通りである．この表は，提案手法を適用した10実験に関して，実験開始時からの平均獲得報酬を表している．比較のため，前節の，Q及びSarsa学習にオンラインセンサ選択手法を適用した場合と，全センサを用いた通常の手法の結果を示す．R学習を採用した前の実験，さらにはQ学習及びSarsa学習の成績と比較しても，格段の成績向上が明らかである．

次に，学習の経緯を示す．図6.5は，平均獲得報酬の推移である．横軸は，行動

回数(単位:10,000行動)であり，縦軸は，学習開始時からの平均獲得報酬を10,000

表 6.7: 第6.2.2.2及び6.2.2.5節の実験結果．従来手法(全センサを用いる)による

R/Q/Sarsa学習の実験10回の平均獲得報酬の平均を下行に示した．Q/Sarsa学習

の結果に関しては第6.2.2.5 節本文参照．

average reward (end of experiments) R-learning (with all equiped sensors) −0.4945 Q-Learning (with all equiped sensors) −0.2915 Sarsa (with all equiped sensors) −0.2964

行動毎にプロットした．10実験の平均及び平均からの標準偏差を実線で示した．また，比較のため，オンラインセンサ選択手法を適用したQ学習(破線)及びSarsa 学習(点線)の結果(10実験の平均のみ)を再掲した．

本手法適用時，きわめて早い段階から，高い平均獲得報酬値が得られる．この状態は，実験終了時まで継続し，Q及びSarsa学習にオンラインセンサ選択手法を適用した場合にまさる結果につながっている．さらに，過去10,000行動の間に壁に衝突した率(単位:%) を10,000行動毎にプロットした結果を示す(図6.6)．横軸

が行動数(単位:10,000 行動)，縦軸が10実験で平均した衝突率を表している．実

線が本手法の適用時であり，比較のため，オンラインセンサ選択手法を適用した

Q学習(破線)及びSarsa学習(点線)の結果を付した．この図からも，障害物を回

避する行動を早い段階で獲得し，維持するという点で，本手法適用時の結果が，Q

学習及びSarsa学習より優れていることが明らかである．

6.2.2.2 R学習(²–greedy)

次に，従来手法のR学習を適用した結果を，表6.7最上段に示す．探索手法としては，²–greedyを用い，第6.2.1節の(1), (2), (4) と同一の強化学習パラメータを採用し，実験終了時の平均獲得報酬を10実験で平均した．なお，処理の詳細は，

付図A.2参照．

上の結果が示すように最低報酬値(−0.5)に近い平均獲得報酬しか得られていな

0 100 200 300 400 500 600 700

−0.5

−0.45

−0.4

−0.35

−0.3

−0.25

−0.2

−0.15

−0.1

−0.05 0

R−learning with multiple Q table

times

Ave. reward

proposed Sarsa Q−learning

図6.5: 平均獲得報酬の推移．提案手法を適用したR学習の結果(実線)．実験開始時からの平均獲得報酬(縦軸)を10,000行動毎に出力．横軸は，行動回数(単位:10,000 回)．10実験の平均と，平均から標準偏差分離れた値を示す．比較のため，オンラインセンサ選択手法を適用したQ学習(破線)及びSarsa学習(点線)の結果(10実験の平均)を点線で示す．

0 100 200 300 400 500 600 700 0

10 20 30 40 50 60 70 80 90 100

times

collision rate

R−learning with multiple Q table

proposed Sarsa Q−learning

図 6.6: 衝突率の推移．過去10,000行動の衝突率(単位:%)を10,000行動毎に出力．

横軸は，行動回数(単位:10,000回)．実線が，提案手法10実験の平均．比較のため，

オンラインセンサ選択手法を適用したQ学習(破線)及びSarsa学習(点線)の結果 (10実験の平均)を点線で示す．

表 6.8: 実験6.2.2.3 UEを用いた実験結果．実験終了時の平均獲得報酬を示す．

average reward (end of experiments)

experiment 6.2.2.3–1 −0.3401

experiment 6.2.2.3–2 −0.3446

experiment 6.2.2.3–3 −0.3338

experiment 6.2.2.3–4 −0.3371

experiment 6.2.2.3–5 −0.3409

experiment 6.2.2.3 (R-learning by UE) mean −0.3393

い．この成績は，第6.2.2.5節における従来手法のQ及びSarsa学習の結果にも遠く及ばず，きわめて悪い結果といえる．これは，大半の実験において，実験の初期段階に壁に衝突しそのまま脱出できなかったためである．

なおR学習では，Q学習より探索行動を増やすことで好成績が得られる場合があるとの指摘[23]に基づき，²値ないしQ値の学習率(α)の値の割増し，オプティミスティック初期値の採用等を試したが，効果は確認できなかった．実験当初は，

細かく動きながら壁からの脱出を試みているように見えたが，次第にそうした試みも弱まる．これは文献[22]で報告されている状況と似ており，局所解に陥っていると推定される．

6.2.2.3 R学習(UE)

従来手法のR学習において，探索手法としてUE [23] を用いた実験の結果を表 6.8に示す．5回の実験の終了時の平均獲得報酬及びこれらの平均を記した．グリーディな行動を選択する確率p= 0.9とし，パラメータcに関しては，文献[23]と同一のc= 60を採用した．また，文献[23]におけるN_f(s, a)については，初期値= 1 とした．なお，それ以外のパラメータは，第6.2.1節の(1), (2)と同一である．処理の詳細は，付図A.2参照．

この結果も，提案手法は勿論，第6.2.2.5節のQ及びSarsa学習の成績に及ばな

表6.9: 実験6.2.2.4 softmaxを用いた実験結果．実験終了時の平均獲得報酬を示す．

average reward (end of experiments)

experiment 6.2.2.4–1 −0.4647

experiment 6.2.2.4–2 −0.2210

experiment 6.2.2.4–3 −0.4412

experiment 6.2.2.4–4 −0.0564

experiment 6.2.2.4–5 −0.4343

experiment 6.2.2.4 (R-learning by softmax) mean −0.3235

い．ただし，第6.2.2.2節の実験のように長期間壁にトラップされる現象はあまり見られず，探索を増した効果はあると思われる．

なおUEは，利用頻度の少ない行動を選んで探索する探索手法である．文献[23]

では，パラメータcの値がR学習の成績のばらつきに大きな影響を与えると報告されている．しかし，適切な値の設定には実験の繰返しが不可欠であり，現実的には難しい．

6.2.2.4 R学習(softmax)

従来手法のR学習において，softmax探索手法を用いた実験の結果を表6.9に示す．温度パラメータは定数1とし，第6.2.1節の(1)及び(2)と同一の強化学習パラメータを採用した．5回の実験における終了時の平均獲得報酬と，それらの平均を記した．なお，処理の詳細は，付図A.2参照．

softmax手法は，文献[22]では良い評価が与えられていないが，我々の実験では

R学習を用いた従来手法中最も成績が良かった．とくに5実験中2回の高い平均獲得報酬が得られた実験では，比較的早い段階で壁沿い行動を獲得していた．一方，

他の3 実験ではこの行動の獲得が十分には進まず，壁にトラップされることが多いため，低い平均獲得報酬にとどまった．

6.2.2.5 Q/Sarsa学習

第6.1.2節における，全センサを用いた従来手法のQ及びSarsa学習を適用した

10実験に関して，実験開始時からの平均獲得報酬を表6.7の下2段に再掲する．実験では，割引(γ = 0.9)を用い，強化学習パラメータは第6.1.1節の(1), (4)と同一，探索手法は²–greedyである．なお，処理の詳細は，付図A.1参照．

従来手法のQ及びSarsa 学習は，本研究の実験課題では，提案手法を除くR学習手法を適用した実験より良い成績であった．しかし，図6.5に示した通り，従来

手法のQ学習が約6,000,000 行動後に達した平均獲得報酬値は，提案手法では約

100,000行動も要せずに得ている．この違いにより，従来手法のQ学習は提案手法

に劣る結果となっている．さらに図6.6に示したように，壁に異常接近する率についても，従来手法のQ学習は提案手法より高く，またそれが低下する速度が遅いため，提案手法に劣っているといえる．

6.2.2.6 CMAC+R学習

強化学習において，推定価値関数の近似を行い，学習の高速化を図る手法として，タイルコーディングを用いる手法が提案されている[35]．この手法は，歴史的経緯からCMAC(cerebellar model articulation controller)[1]とも呼ばれる．

CMACでは，複数の相異なるタイリングを用いる．タイリングは，重なりあわない複数のタイルの集合であり，それぞれのタイルが各タイリングにおける受容野に相当する．観測状態は，その状態が属するタイルの集合で表現される．すなわち，状態s がタイリングmのタイルnに属する場合Bm,n(s) = 1，それ以外で

はBm,n(s) = 0とする．行動aをとるQ値を近似表現するため，各タイル毎にウ

エイトwm,n(a)を定める．すなわち，

Q(s, a) ≈ ^X

m,n

wm,n(a)Bm,n(s)

とする．各ウエイトは，行動後，TD誤差を小さくするよう更新される．

本実験では，可能な全てのセンサ集合に対応させてタイリングを作成した．したがって，255のタイリングを用いた．CMACをAcrobotの学習に適用した例[35]

では，タイリングとして，可能なセンサ集合の全てを用いている．また，センサ

表 6.10: 実験6.2.2.6 CMACを用いたR学習の結果．実験終了時の平均獲得報酬

を示す．

average reward (end of experiments)

experiment 6.2.2.6–1 −0.4909

experiment 6.2.2.6–2 −0.4996

experiment 6.2.2.6–3 −0.4996

experiment 6.2.2.6–4 −0.0095

experiment 6.2.2.6–5 −0.4903

experiment 6.2.2.6 (R-learning with CMAC) mean −0.3980

リーディングに関する汎化を得るため，各センサ集合に対して，ランダムにオフセットさせた複数のタイリングを準備している．この例を参考にした．なおセンサ値に関しては，各タイリングでのオフセットはさせなかった．すなわち第5.2節で説明した離散化が，そのまま各タイリングにおけるタイル分割となっている．このため，各タイリングの観測内容は，提案手法で想定する各学習器の観測と完全に同一である．なお，提案手法では，これらの学習器の部分集合を用いた点と，学習や行動決定の方法が異なる．

CMACを適用したR学習の実験結果を表6.10に示す．実験では第6.2.1節の(1),

(2), (4)と同一の強化学習パラメータを用い，²-greedyによる探索を行った．なお，

処理の詳細は，付図A.3参照．

R学習とCMACの併用では，表6.10から明らかな通り，学習が迅速に進む場合もあるものの，その数は5例中1例に止まっている．しかもこの例では，実験末期に障害物のない場所で，その場での旋回を繰返す行動を発現することがあり，適切な方策を学習したとはいえない．

表 6.11: 実験6.2.2.7 CMACを用いたQ学習の結果．実験終了時の平均獲得報酬

を示す．

average reward (end of experiments)

experiment 6.2.2.7–1 −0.0659

experiment 6.2.2.7–2 −0.0199

experiment 6.2.2.7–3 −0.3317

experiment 6.2.2.7–4 −0.0722

experiment 6.2.2.7–5 −0.2246

experiment 6.2.2.7 (Q-learning with CMAC) mean −0.1429

6.2.2.7 CMAC+Q学習

CMACとR学習の併用では，R学習が局所解に入って学習が進まない可能性がある．このため，CMACとQ学習を併用した実験を行った．結果を表6.11に示す．

なお，この実験でも，実験6と同様のタイリングを用いた．また，割引(γ = 0.9) を用い，強化学習パラメータは，第6.2.1節の(1), (4)と同一とし，²-greedyによる探索をさせた．なお，処理の詳細は，付図A.3参照．

Q学習とCMACの併用では，表6.11の通り，従来手法のQ/Sarsa学習(第6.2.2.5 節参照)に対する優位性が認められるものの，第6.2.2.6節の実験同様，学習速度のばらつきが大きい結果となっている．

ドキュメント内 JAIST Repository: 自律移動型ロボットのナビゲーションに関する研究 (ページ 75-83)