• 検索結果がありません。

6.2 実験 2: R 学習の効率化

6.2.2 実験 2 の結果

6.2.2.1 提案手法

R学習を行う複数のQ値表(第3.3 節参照)を用いた実験の結果は,表6.6の通 りである.この表は,提案手法を適用した10実験に関して,実験開始時からの平 均獲得報酬を表している.比較のため,前節の,Q及びSarsa学習にオンラインセ ンサ選択手法を適用した場合と,全センサを用いた通常の手法の結果を示す.R学 習を採用した前の実験,さらにはQ学習及びSarsa学習の成績と比較しても,格 段の成績向上が明らかである.

次に,学習の経緯を示す.図6.5は,平均獲得報酬の推移である.横軸は,行動

回数(単位:10,000行動)であり,縦軸は,学習開始時からの平均獲得報酬を10,000

表 6.7: 第6.2.2.2及び6.2.2.5節の実験結果.従来手法(全センサを用いる)による

R/Q/Sarsa学習の実験10回の平均獲得報酬の平均を下行に示した.Q/Sarsa学習

の結果に関しては第6.2.2.5 節本文参照.  

average reward (end of experiments) R-learning (with all equiped sensors) 0.4945 Q-Learning (with all equiped sensors) 0.2915 Sarsa (with all equiped sensors) 0.2964

行動毎にプロットした.10実験の平均及び平均からの標準偏差を実線で示した.ま た,比較のため,オンラインセンサ選択手法を適用したQ学習(破線)及びSarsa 学習(点線)の結果(10実験の平均のみ)を再掲した.

本手法適用時,きわめて早い段階から,高い平均獲得報酬値が得られる.この 状態は,実験終了時まで継続し,Q及びSarsa学習にオンラインセンサ選択手法を 適用した場合にまさる結果につながっている.さらに,過去10,000行動の間に壁 に衝突した率(単位:%) を10,000行動毎にプロットした結果を示す(図6.6).横軸

が行動数(単位:10,000 行動),縦軸が10実験で平均した衝突率を表している.実

線が本手法の適用時であり,比較のため,オンラインセンサ選択手法を適用した

Q学習(破線)及びSarsa学習(点線)の結果 を付した.この図からも,障害物を回

避する行動を早い段階で獲得し,維持するという点で,本手法適用時の結果が,Q

学習及びSarsa学習より優れていることが明らかである.

6.2.2.2 R学習(²–greedy)

次に,従来手法のR学習を適用した結果を,表6.7最上段に示す.探索手法とし ては,²–greedyを用い,第6.2.1節の(1), (2), (4) と同一の強化学習パラメータを 採用し,実験終了時の平均獲得報酬を10実験で平均した.なお,処理の詳細は,

付図A.2参照.

上の結果が示すように最低報酬値(0.5)に近い平均獲得報酬しか得られていな

0 100 200 300 400 500 600 700

−0.5

−0.45

−0.4

−0.35

−0.3

−0.25

−0.2

−0.15

−0.1

−0.05 0

R−learning with multiple Q table

times

Ave. reward

proposed Sarsa Q−learning

図6.5: 平均獲得報酬の推移.提案手法を適用したR学習の結果(実線).実験開始時 からの平均獲得報酬(縦軸)を10,000行動毎に出力.横軸は,行動回数(単位:10,000 回).10実験の平均と,平均から標準偏差分離れた値を示す.比較のため,オンラ インセンサ選択手法を適用したQ学習(破線)及びSarsa学習(点線)の結果(10実 験の平均)を点線で示す.

0 100 200 300 400 500 600 700 0

10 20 30 40 50 60 70 80 90 100

times

collision rate

R−learning with multiple Q table

proposed Sarsa Q−learning

図 6.6: 衝突率の推移.過去10,000行動の衝突率(単位:%)を10,000行動毎に出力.

横軸は,行動回数(単位:10,000回).実線が,提案手法10実験の平均.比較のため,

オンラインセンサ選択手法を適用したQ学習(破線)及びSarsa学習(点線)の結果 (10実験の平均)を点線で示す.

表 6.8: 実験6.2.2.3 UEを用いた実験結果.実験終了時の平均獲得報酬を示す.  

average reward (end of experiments)

experiment 6.2.2.3–1 0.3401

experiment 6.2.2.3–2 0.3446

experiment 6.2.2.3–3 0.3338

experiment 6.2.2.3–4 0.3371

experiment 6.2.2.3–5 0.3409

experiment 6.2.2.3 (R-learning by UE) mean 0.3393

い.この成績は,第6.2.2.5節における従来手法のQ及びSarsa学習の結果にも遠 く及ばず,きわめて悪い結果といえる.これは,大半の実験において,実験の初 期段階に壁に衝突しそのまま脱出できなかったためである.

なおR学習では,Q学習より探索行動を増やすことで好成績が得られる場合が あるとの指摘[23]に基づき,²値ないしQ値の学習率(α)の値の割増し,オプティ ミスティック初期値の採用等を試したが,効果は確認できなかった.実験当初は,

細かく動きながら壁からの脱出を試みているように見えたが,次第にそうした試 みも弱まる.これは文献[22]で報告されている状況と似ており,局所解に陥って いると推定される.

6.2.2.3 R学習(UE)

従来手法のR学習において,探索手法としてUE [23] を用いた実験の結果を表 6.8に示す.5回の実験の終了時の平均獲得報酬及びこれらの平均を記した.グリー ディな行動を選択する確率p= 0.9とし,パラメータcに関しては,文献[23]と同 一のc= 60を採用した.また,文献[23]におけるNf(s, a)については,初期値= 1 とした.なお,それ以外のパラメータは,第6.2.1節の(1), (2)と同一である.処 理の詳細は,付図A.2参照.

この結果も,提案手法は勿論,第6.2.2.5節のQ及びSarsa学習の成績に及ばな

表6.9: 実験6.2.2.4 softmaxを用いた実験結果.実験終了時の平均獲得報酬を示す.

average reward (end of experiments)

experiment 6.2.2.4–1 0.4647

experiment 6.2.2.4–2 0.2210

experiment 6.2.2.4–3 0.4412

experiment 6.2.2.4–4 0.0564

experiment 6.2.2.4–5 0.4343

experiment 6.2.2.4 (R-learning by softmax) mean 0.3235

い.ただし,第6.2.2.2節の実験のように長期間壁にトラップされる現象はあまり 見られず,探索を増した効果はあると思われる.

なおUEは,利用頻度の少ない行動を選んで探索する探索手法である.文献[23]

では,パラメータcの値がR学習の成績のばらつきに大きな影響を与えると報告 されている.しかし,適切な値の設定には実験の繰返しが不可欠であり,現実的 には難しい.

6.2.2.4 R学習(softmax)

従来手法のR学習において,softmax探索手法を用いた実験の結果を表6.9に示 す.温度パラメータは定数1とし,第6.2.1節の(1)及び(2)と同一の強化学習パラ メータを採用した.5回の実験における終了時の平均獲得報酬と,それらの平均を 記した.なお,処理の詳細は,付図A.2参照.

softmax手法は,文献[22]では良い評価が与えられていないが,我々の実験では

R学習を用いた従来手法中最も成績が良かった.とくに5実験中2回の高い平均獲 得報酬が得られた実験では,比較的早い段階で壁沿い行動を獲得していた.一方,

他の3 実験ではこの行動の獲得が十分には進まず,壁にトラップされることが多 いため,低い平均獲得報酬にとどまった.

6.2.2.5 Q/Sarsa学習

第6.1.2節における,全センサを用いた従来手法のQ及びSarsa学習を適用した

10実験に関して,実験開始時からの平均獲得報酬を表6.7の下2段に再掲する.実 験では,割引(γ = 0.9)を用い,強化学習パラメータは第6.1.1節の(1), (4)と同 一,探索手法は²–greedyである.なお,処理の詳細は,付図A.1参照.

従来手法のQ及びSarsa 学習は,本研究の実験課題では,提案手法を除くR学 習手法を適用した実験より良い成績であった.しかし,図6.5に示した通り,従来

手法のQ学習が約6,000,000 行動後に達した平均獲得報酬値は,提案手法では約

100,000行動も要せずに得ている.この違いにより,従来手法のQ学習は提案手法

に劣る結果となっている.さらに図6.6に示したように,壁に異常接近する率につ いても,従来手法のQ学習は提案手法より高く,またそれが低下する速度が遅い ため,提案手法に劣っているといえる.

6.2.2.6 CMAC+R学習

強化学習において,推定価値関数の近似を行い,学習の高速化を図る手法とし て,タイルコーディングを用いる手法が提案されている[35].この手法は,歴史的 経緯からCMAC(cerebellar model articulation controller)[1]とも呼ばれる.

CMACでは,複数の相異なるタイリングを用いる.タイリングは,重なりあわ ない複数のタイルの集合であり,それぞれのタイルが各タイリングにおける受容 野に相当する.観測状態は,その状態が属するタイルの集合で表現される.すな わち,状態s がタイリングmのタイルnに属する場合Bm,n(s) = 1,それ以外で

Bm,n(s) = 0とする.行動aをとるQ値を近似表現するため,各タイル毎にウ

エイトwm,n(a)を定める.すなわち,

Q(s, a) X

m,n

wm,n(a)Bm,n(s)

とする.各ウエイトは,行動後,TD誤差を小さくするよう更新される.

本実験では,可能な全てのセンサ集合に対応させてタイリングを作成した.し たがって,255のタイリングを用いた.CMACをAcrobotの学習に適用した例[35]

では,タイリングとして,可能なセンサ集合の全てを用いている.また,センサ

表 6.10: 実験6.2.2.6 CMACを用いたR学習の結果.実験終了時の平均獲得報酬

を示す.  

average reward (end of experiments)

experiment 6.2.2.6–1 0.4909

experiment 6.2.2.6–2 0.4996

experiment 6.2.2.6–3 0.4996

experiment 6.2.2.6–4 0.0095

experiment 6.2.2.6–5 0.4903

experiment 6.2.2.6 (R-learning with CMAC) mean 0.3980

リーディングに関する汎化を得るため,各センサ集合に対して,ランダムにオフ セットさせた複数のタイリングを準備している.この例を参考にした.なおセンサ 値に関しては,各タイリングでのオフセットはさせなかった.すなわち第5.2節で 説明した離散化が,そのまま各タイリングにおけるタイル分割となっている.こ のため,各タイリングの観測内容は,提案手法で想定する各学習器の観測と完全 に同一である.なお,提案手法では,これらの学習器の部分集合を用いた点と,学 習や行動決定の方法が異なる.

CMACを適用したR学習の実験結果を表6.10に示す.実験では第6.2.1節の(1),

(2), (4)と同一の強化学習パラメータを用い,²-greedyによる探索を行った.なお,

処理の詳細は,付図A.3参照.

R学習とCMACの併用では,表6.10から明らかな通り,学習が迅速に進む場合 もあるものの,その数は5例中1例に止まっている.しかもこの例では,実験末期 に障害物のない場所で,その場での旋回を繰返す行動を発現することがあり,適 切な方策を学習したとはいえない.

表 6.11: 実験6.2.2.7 CMACを用いたQ学習の結果.実験終了時の平均獲得報酬

を示す.  

average reward (end of experiments)

experiment 6.2.2.7–1 0.0659

experiment 6.2.2.7–2 0.0199

experiment 6.2.2.7–3 0.3317

experiment 6.2.2.7–4 0.0722

experiment 6.2.2.7–5 0.2246

experiment 6.2.2.7 (Q-learning with CMAC) mean 0.1429

6.2.2.7 CMAC+Q学習

CMACとR学習の併用では,R学習が局所解に入って学習が進まない可能性が ある.このため,CMACとQ学習を併用した実験を行った.結果を表6.11に示す.

なお,この実験でも,実験6と同様のタイリングを用いた.また,割引(γ = 0.9) を用い,強化学習パラメータは,第6.2.1節の(1), (4)と同一とし,²-greedyによ る探索をさせた.なお,処理の詳細は,付図A.3参照.

Q学習とCMACの併用では,表6.11の通り,従来手法のQ/Sarsa学習(第6.2.2.5 節参照)に対する優位性が認められるものの,第6.2.2.6節の実験同様,学習速度 のばらつきが大きい結果となっている.