6.2 実験 2: R 学習の効率化
6.2.2 実験 2 の結果
6.2.2.1 提案手法
R学習を行う複数のQ値表(第3.3 節参照)を用いた実験の結果は,表6.6の通 りである.この表は,提案手法を適用した10実験に関して,実験開始時からの平 均獲得報酬を表している.比較のため,前節の,Q及びSarsa学習にオンラインセ ンサ選択手法を適用した場合と,全センサを用いた通常の手法の結果を示す.R学 習を採用した前の実験,さらにはQ学習及びSarsa学習の成績と比較しても,格 段の成績向上が明らかである.
次に,学習の経緯を示す.図6.5は,平均獲得報酬の推移である.横軸は,行動
回数(単位:10,000行動)であり,縦軸は,学習開始時からの平均獲得報酬を10,000
表 6.7: 第6.2.2.2及び6.2.2.5節の実験結果.従来手法(全センサを用いる)による
R/Q/Sarsa学習の実験10回の平均獲得報酬の平均を下行に示した.Q/Sarsa学習
の結果に関しては第6.2.2.5 節本文参照.
average reward (end of experiments) R-learning (with all equiped sensors) −0.4945 Q-Learning (with all equiped sensors) −0.2915 Sarsa (with all equiped sensors) −0.2964
行動毎にプロットした.10実験の平均及び平均からの標準偏差を実線で示した.ま た,比較のため,オンラインセンサ選択手法を適用したQ学習(破線)及びSarsa 学習(点線)の結果(10実験の平均のみ)を再掲した.
本手法適用時,きわめて早い段階から,高い平均獲得報酬値が得られる.この 状態は,実験終了時まで継続し,Q及びSarsa学習にオンラインセンサ選択手法を 適用した場合にまさる結果につながっている.さらに,過去10,000行動の間に壁 に衝突した率(単位:%) を10,000行動毎にプロットした結果を示す(図6.6).横軸
が行動数(単位:10,000 行動),縦軸が10実験で平均した衝突率を表している.実
線が本手法の適用時であり,比較のため,オンラインセンサ選択手法を適用した
Q学習(破線)及びSarsa学習(点線)の結果 を付した.この図からも,障害物を回
避する行動を早い段階で獲得し,維持するという点で,本手法適用時の結果が,Q
学習及びSarsa学習より優れていることが明らかである.
6.2.2.2 R学習(²–greedy)
次に,従来手法のR学習を適用した結果を,表6.7最上段に示す.探索手法とし ては,²–greedyを用い,第6.2.1節の(1), (2), (4) と同一の強化学習パラメータを 採用し,実験終了時の平均獲得報酬を10実験で平均した.なお,処理の詳細は,
付図A.2参照.
上の結果が示すように最低報酬値(−0.5)に近い平均獲得報酬しか得られていな
0 100 200 300 400 500 600 700
−0.5
−0.45
−0.4
−0.35
−0.3
−0.25
−0.2
−0.15
−0.1
−0.05 0
R−learning with multiple Q table
times
Ave. reward
proposed Sarsa Q−learning
図6.5: 平均獲得報酬の推移.提案手法を適用したR学習の結果(実線).実験開始時 からの平均獲得報酬(縦軸)を10,000行動毎に出力.横軸は,行動回数(単位:10,000 回).10実験の平均と,平均から標準偏差分離れた値を示す.比較のため,オンラ インセンサ選択手法を適用したQ学習(破線)及びSarsa学習(点線)の結果(10実 験の平均)を点線で示す.
0 100 200 300 400 500 600 700 0
10 20 30 40 50 60 70 80 90 100
times
collision rate
R−learning with multiple Q table
proposed Sarsa Q−learning
図 6.6: 衝突率の推移.過去10,000行動の衝突率(単位:%)を10,000行動毎に出力.
横軸は,行動回数(単位:10,000回).実線が,提案手法10実験の平均.比較のため,
オンラインセンサ選択手法を適用したQ学習(破線)及びSarsa学習(点線)の結果 (10実験の平均)を点線で示す.
表 6.8: 実験6.2.2.3 UEを用いた実験結果.実験終了時の平均獲得報酬を示す.
average reward (end of experiments)
experiment 6.2.2.3–1 −0.3401
experiment 6.2.2.3–2 −0.3446
experiment 6.2.2.3–3 −0.3338
experiment 6.2.2.3–4 −0.3371
experiment 6.2.2.3–5 −0.3409
experiment 6.2.2.3 (R-learning by UE) mean −0.3393
い.この成績は,第6.2.2.5節における従来手法のQ及びSarsa学習の結果にも遠 く及ばず,きわめて悪い結果といえる.これは,大半の実験において,実験の初 期段階に壁に衝突しそのまま脱出できなかったためである.
なおR学習では,Q学習より探索行動を増やすことで好成績が得られる場合が あるとの指摘[23]に基づき,²値ないしQ値の学習率(α)の値の割増し,オプティ ミスティック初期値の採用等を試したが,効果は確認できなかった.実験当初は,
細かく動きながら壁からの脱出を試みているように見えたが,次第にそうした試 みも弱まる.これは文献[22]で報告されている状況と似ており,局所解に陥って いると推定される.
6.2.2.3 R学習(UE)
従来手法のR学習において,探索手法としてUE [23] を用いた実験の結果を表 6.8に示す.5回の実験の終了時の平均獲得報酬及びこれらの平均を記した.グリー ディな行動を選択する確率p= 0.9とし,パラメータcに関しては,文献[23]と同 一のc= 60を採用した.また,文献[23]におけるNf(s, a)については,初期値= 1 とした.なお,それ以外のパラメータは,第6.2.1節の(1), (2)と同一である.処 理の詳細は,付図A.2参照.
この結果も,提案手法は勿論,第6.2.2.5節のQ及びSarsa学習の成績に及ばな
表6.9: 実験6.2.2.4 softmaxを用いた実験結果.実験終了時の平均獲得報酬を示す.
average reward (end of experiments)
experiment 6.2.2.4–1 −0.4647
experiment 6.2.2.4–2 −0.2210
experiment 6.2.2.4–3 −0.4412
experiment 6.2.2.4–4 −0.0564
experiment 6.2.2.4–5 −0.4343
experiment 6.2.2.4 (R-learning by softmax) mean −0.3235
い.ただし,第6.2.2.2節の実験のように長期間壁にトラップされる現象はあまり 見られず,探索を増した効果はあると思われる.
なおUEは,利用頻度の少ない行動を選んで探索する探索手法である.文献[23]
では,パラメータcの値がR学習の成績のばらつきに大きな影響を与えると報告 されている.しかし,適切な値の設定には実験の繰返しが不可欠であり,現実的 には難しい.
6.2.2.4 R学習(softmax)
従来手法のR学習において,softmax探索手法を用いた実験の結果を表6.9に示 す.温度パラメータは定数1とし,第6.2.1節の(1)及び(2)と同一の強化学習パラ メータを採用した.5回の実験における終了時の平均獲得報酬と,それらの平均を 記した.なお,処理の詳細は,付図A.2参照.
softmax手法は,文献[22]では良い評価が与えられていないが,我々の実験では
R学習を用いた従来手法中最も成績が良かった.とくに5実験中2回の高い平均獲 得報酬が得られた実験では,比較的早い段階で壁沿い行動を獲得していた.一方,
他の3 実験ではこの行動の獲得が十分には進まず,壁にトラップされることが多 いため,低い平均獲得報酬にとどまった.
6.2.2.5 Q/Sarsa学習
第6.1.2節における,全センサを用いた従来手法のQ及びSarsa学習を適用した
10実験に関して,実験開始時からの平均獲得報酬を表6.7の下2段に再掲する.実 験では,割引(γ = 0.9)を用い,強化学習パラメータは第6.1.1節の(1), (4)と同 一,探索手法は²–greedyである.なお,処理の詳細は,付図A.1参照.
従来手法のQ及びSarsa 学習は,本研究の実験課題では,提案手法を除くR学 習手法を適用した実験より良い成績であった.しかし,図6.5に示した通り,従来
手法のQ学習が約6,000,000 行動後に達した平均獲得報酬値は,提案手法では約
100,000行動も要せずに得ている.この違いにより,従来手法のQ学習は提案手法
に劣る結果となっている.さらに図6.6に示したように,壁に異常接近する率につ いても,従来手法のQ学習は提案手法より高く,またそれが低下する速度が遅い ため,提案手法に劣っているといえる.
6.2.2.6 CMAC+R学習
強化学習において,推定価値関数の近似を行い,学習の高速化を図る手法とし て,タイルコーディングを用いる手法が提案されている[35].この手法は,歴史的 経緯からCMAC(cerebellar model articulation controller)[1]とも呼ばれる.
CMACでは,複数の相異なるタイリングを用いる.タイリングは,重なりあわ ない複数のタイルの集合であり,それぞれのタイルが各タイリングにおける受容 野に相当する.観測状態は,その状態が属するタイルの集合で表現される.すな わち,状態s がタイリングmのタイルnに属する場合Bm,n(s) = 1,それ以外で
はBm,n(s) = 0とする.行動aをとるQ値を近似表現するため,各タイル毎にウ
エイトwm,n(a)を定める.すなわち,
Q(s, a) ≈ X
m,n
wm,n(a)Bm,n(s)
とする.各ウエイトは,行動後,TD誤差を小さくするよう更新される.
本実験では,可能な全てのセンサ集合に対応させてタイリングを作成した.し たがって,255のタイリングを用いた.CMACをAcrobotの学習に適用した例[35]
では,タイリングとして,可能なセンサ集合の全てを用いている.また,センサ
表 6.10: 実験6.2.2.6 CMACを用いたR学習の結果.実験終了時の平均獲得報酬
を示す.
average reward (end of experiments)
experiment 6.2.2.6–1 −0.4909
experiment 6.2.2.6–2 −0.4996
experiment 6.2.2.6–3 −0.4996
experiment 6.2.2.6–4 −0.0095
experiment 6.2.2.6–5 −0.4903
experiment 6.2.2.6 (R-learning with CMAC) mean −0.3980
リーディングに関する汎化を得るため,各センサ集合に対して,ランダムにオフ セットさせた複数のタイリングを準備している.この例を参考にした.なおセンサ 値に関しては,各タイリングでのオフセットはさせなかった.すなわち第5.2節で 説明した離散化が,そのまま各タイリングにおけるタイル分割となっている.こ のため,各タイリングの観測内容は,提案手法で想定する各学習器の観測と完全 に同一である.なお,提案手法では,これらの学習器の部分集合を用いた点と,学 習や行動決定の方法が異なる.
CMACを適用したR学習の実験結果を表6.10に示す.実験では第6.2.1節の(1),
(2), (4)と同一の強化学習パラメータを用い,²-greedyによる探索を行った.なお,
処理の詳細は,付図A.3参照.
R学習とCMACの併用では,表6.10から明らかな通り,学習が迅速に進む場合 もあるものの,その数は5例中1例に止まっている.しかもこの例では,実験末期 に障害物のない場所で,その場での旋回を繰返す行動を発現することがあり,適 切な方策を学習したとはいえない.
表 6.11: 実験6.2.2.7 CMACを用いたQ学習の結果.実験終了時の平均獲得報酬
を示す.
average reward (end of experiments)
experiment 6.2.2.7–1 −0.0659
experiment 6.2.2.7–2 −0.0199
experiment 6.2.2.7–3 −0.3317
experiment 6.2.2.7–4 −0.0722
experiment 6.2.2.7–5 −0.2246
experiment 6.2.2.7 (Q-learning with CMAC) mean −0.1429
6.2.2.7 CMAC+Q学習
CMACとR学習の併用では,R学習が局所解に入って学習が進まない可能性が ある.このため,CMACとQ学習を併用した実験を行った.結果を表6.11に示す.
なお,この実験でも,実験6と同様のタイリングを用いた.また,割引(γ = 0.9) を用い,強化学習パラメータは,第6.2.1節の(1), (4)と同一とし,²-greedyによ る探索をさせた.なお,処理の詳細は,付図A.3参照.
Q学習とCMACの併用では,表6.11の通り,従来手法のQ/Sarsa学習(第6.2.2.5 節参照)に対する優位性が認められるものの,第6.2.2.6節の実験同様,学習速度 のばらつきが大きい結果となっている.