Q 学習 (最適センサ集合の特定) - 実験とその結果 - JAIST Repository: 自律移動型ロボットのナビゲーションに関する研究

4.2 実験とその結果

4.2.1 Q 学習 (最適センサ集合の特定)

10^40 10^5 10^6 10^7 1000

2000 3000 4000 5000 6000 7000 8000 9000 10000

times

selected times per past 10,000 actions

(1) front sensor only (2) right sensor only (3) front and right sensors only

図 4.2: センサ集合の選択頻度の推移．横軸は行動回数(logスケール)．縦軸は，過

去10,000行動のうち各センサ集合が選択された回数を10,000行動で割った値であ

り，10,000行動毎にプロットした．なお，選択回数は20試行の平均を用いた．

ないし

• 右方に壁を観測した際は前進，それ以外は右方向に動く

となる．以上のことから，提案手法の適用によって得られたセンサ集合は妥当であると考えられる．

なお，(3)のセンサ集合を利用した場合，観測されるパタンの数は，ゴール状態を除けば2つであり，(1)及び(2)で観測されるパタン数と等しい．すなわち，上記3センサ集合は，学習速度の点ではいずれもほば同一であると考えてよい．(3) のセンサ集合を用いるという学習結果が得られた理由は，このためであると推察される．

また，上記(1)–(3)のセンサ集合のそれぞれが，試行の各段階で，行動決定に用いられた頻度を確認した．結果を図4.2に示す．横軸は行動回数をlogスケールで表示した．縦軸が，各行動回数において，過去10,000行動中(1)–(3)のセンサ集合が選択され実際に行動を決定した頻度，すなわち20試行における選択回数の平均

10^40 10^5 10^6 10^7 0.1

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

times

selection probabilities

(1) front sensor only

図 4.3: センサ集合の選択確率の推移．横軸は行動回数(logスケール)，縦軸が各センサ集合の選択確率であり，10,000行動毎にプロットした．

を10,000で割った値で，10,000行動毎にプロットした．約1,000,000行動付近で，

上記3センサ集合の選択確率の合計が，ほぼ1に達している．この時点で，3センサ集合のうちのいずれかに収束したものと考えられる．

さらに，20試行のうち1例に関して，各行動回数におけるセンサ集合の選択確率の推移を図4.3に示す．横軸は行動回数をlogスケールで表示した．縦軸が各行動回数におけるセンサ集合の選択確率であり10,000行動毎にプロットした．注を付した領域が，前方のセンサのみを用いるセンサ集合の選択確率を示し，約30,000 行動以降，継続的に1になっている．

センサの要・不要に関する事前知識がない場合，全センサを用いた強化学習を試みることは自然である．学習に必要な行動回数が，全センサを用いた通常のQ 学習より増大する場合，提案手法の適用に疑問が残る．そこで，全センサを用いる通常のQ学習と平均獲得報酬の比較をおこなった．なお，対象実験の処理の内容は，第A.1節参照．

各20試行の結果は，図4.4の通りである．なお，20個の乱数シードを用意し，

0 100 200 300 400 500 600 700 800 900 1000

−0.02 0 0.02 0.04 0.06 0.08 0.1

times

Ave. reward

proposed

conventional Q−learning

図 4.4: 平均獲得報酬の推移．実験開始時からの平均獲得報酬(縦軸)を10,000行動

毎に出力(各プロット間を直線補間している)．横軸は，行動回数(単位:10,000行

動)．実線が提案手法破線が(全センサを用いた)従来手法の結果．それぞれ20試行の平均と，平均から標準偏差分離れた値を示す．

提案手法及び従来手法の各試行にそれぞれ適用して得られた実験結果である．また，強化学習パラメータに関しては，(1), (2), (5)と同一とした．

図の横軸が行動回数(単位:10,000行動)，縦軸が試行開始から各行動回数までに獲得した報酬の合計を行動回数で割った値を示す．実線が提案手法，点線が従来手法の結果であり，各々20回の試行の平均値及び平均からの標準偏差を10,000行動毎にプロットした．

提案手法を適用した場合，従来手法と比較して高い平均獲得報酬を得ている．その値は，理論上の最高平均獲得報酬値である0.1111(=1/9)に近い．ここで，実験の設定では，終了時まで²= 0.1の探索行動を行っており，実際はこの値には到達しない．

提案手法によって選択されたセンサ集合を用いて，望ましい行動が学習されたことを確認するため，各試行終了時のセンサ集合とQ値表を用いて，それ以上の

Q値の学習は行わせず，第4.2.1節の(5)における²= 0として，100,000回行動させた．その結果，提案手法では，追加試行19回の平均獲得報酬が0.1015で，1試行のみゴール到達なし，という結果であった．したがって，提案手法適用時，選択されたセンサ集合を用いて，最適行動が獲得されたと考えられる．

なお，ゴール到達回数が0であった追加試行に関しては，適切なセンサ集合は獲得され，Q値の学習も進んだものの，探索によるQ値の再学習が始まったところで規定行動回数に達したと推測される．実際，実験条件中²のみを変更し，

²= 0.1×(1.0−_10,000,000^t )として，行動回数tが増えるごとに値を減少させた場合，

試行終了時の平均獲得報酬は0.1023となった．また，この²を用いて，図4.4と同一の乱数シードで行った20試行における，試行終了時の平均獲得報酬の平均は

0.1014であり，さらに終了直前の10,000行動における平均獲得報酬は20試行の平

均で0.1110と，上述の最高平均獲得報酬値にほぼ一致した．

一方，従来手法のQ学習に関して，図4.4の実験における各試行終了時のQ値表を用い，それ以上のQ値の学習は行わせず，²= 0とした実験の結果は，7試行の平均獲得報酬が0.1111，残りの13試行に関してはゴール到達回数が0であった．

各試行ごとにその学習過程を観察すると，どの試行でもQ値の学習に伴って最適方策の獲得と再探索を繰返している．すなわち，特定の試行において最適方策を獲得し，残りは最適方策の獲得に失敗した，という訳ではない．この点は前段落の提案手法適用時の結果と同様である．

以上の結果から，一時的に最適方策を獲得するものの，それ以外の方策で行動している期間が長いことが，図4.4において，従来手法の平均獲得報酬が提案手法に劣っている理由であると考えられる．なお，²= 0.1×(1.0− _10,000,000^t )とした場合も，試行終了時の平均獲得報酬は20試行の平均で0.0639にとどまった．この際，試行終了直前の10,000行動における平均獲得報酬は，20試行の平均で0.1000 で，最高平均獲得報酬値との差が残っている．

図4.1の実験環境は，4センサ全てを利用した場合でも，部分観測課題となることは上述の通りである．従来手法のQ学習が最適行動獲得の点で提案手法に劣る理由は，冗長なセンサの存在が最適方策獲得を困難にしたためであると予想される．一方，提案手法においては，行動決定上重要なセンサを選択することで，観測と最適行動との関係が明確になり，最適方策を獲得したと考えられる．

ドキュメント内 JAIST Repository: 自律移動型ロボットのナビゲーションに関する研究 (ページ 45-50)