実験 2 の考察

6.2 実験 2: R 学習の効率化

6.2.4 実験 2 の考察

表から明らかなように，提案手法を適用した場合，βおよびξの値の設定によらず，センサ選択手法を適用したQ/Sarsa学習と比較して良い平均獲得報酬が得られた．提案手法は，平均獲得報酬ばかりではなく，ロバスト性の面でも優れていると考えられる．

0 0.5 1 1.5 2 2.5 3 3.5 x 10⁴ 0

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

times

mean number of sensors

proposed

conventional R−learning

図 6.7: センサ値>910のセンサ数の推移．20行動の間の平均値を20行動毎にプ

ロット．

しない．

R学習を用いた実験(第6.2.2.2—6.2.2.4, 6.2.2.6節)に対する優位性に関しては，

提案手法の局所解を回避する効果によるものと推測される．

壁にトラップされている際の，提案手法と従来手法のR学習との比較を行った．

トラップの深刻さの指標として，センサ値が異常接近値である910に達したセンサの個数を用いた．図6.7は，第6.2.2.1及び6.2.2.2節と同一の条件で行った実験において，実験開始から約35,000回行動させた際，値が異常接近値を超えたセンサ数を20行動毎に平均しプロットしたものである．縦軸がセンサ数，横軸は行動回数を示す．丸印が提案手法，X印が従来手法の結果である．

提案手法採用時の値が一貫して低いことは，実際に状態表現の分析により確認した結果，異常接近を示すセンサ数が少ない状態への探索が促進されたことを反映していると推測され，この探索促進の結果トラップの脱出ないし回避が可能となったと考えられる．

一方，第6.2.2.5節のQ及びSarsa学習と比較して，提案手法の成績が良い点

は，トラップされていない状態において，R学習がQ及びSarsa学習より早く直進行動を学習するためと推察される．これは，R学習がQ学習より高速であるとのSchwartzの指摘[31]を裏付ける結果と考えられる．

本研究の手法は，行動決定に用いるQ値表の選択処理に関して，オンラインセンサ選択のために用いたもの(第6.1.1節参照)と異なる．実験1の際用いた手法では，どのQ値表を用いるかという問題を，n本腕バンデット問題(n-armed bandit

problem)として定式化し，強化比較を用いて選択を行い，1回の行動で優先度更

新が行われるQ 値表は，たかだか1つであった．一方，本実験の手法では，行動の結果に基づき，複数のQ値表の優先度の同時更新を許す．R学習では，行動価値推定の更新に，平均報酬(ρ) 値を用いるが，この値は，強化学習エージェントの平均成績の見積もりを表現するものであるため，各Q値表の比較に適している．

このため，上記一括更新に，ρを用いた．

複数のQ値表を並置する手法は，計算負荷の増大が1つの課題ではあるが，本研究の実験結果では，その欠点を超える効果が確認された．実験結果に関して，とくに，オンラインセンサ選択手法を適用したQ及びSarsa学習に比べ，良い成績が得られたことに関しては，学習の対象となるQ値表が，単数から複数に増え(上述)，効率良く学習ができた点が大きいと思われる．また，Schwartzが主張する，

R学習の迅速な学習を生かし，相乗効果が得られたという理由も考えられる．好成績の要因に関しても，必ずしも十分な分析を行えたとはいえず，今後，他の実験課題における結果や，他手法との比較も含めた分析が必要である．

R学習の高速化に関しては，モデル(各状態間の遷移確率表)を用いる手法

(H-learning)が提案されている[36]．提案手法との成績の比較検討を含めた考察が，さ

らに必要であろう．H-learningを用いて，実ロボットにおける障害物回避行動の獲得課題を試みた研究例[3]もある．ロボットの行動決定処理への応用という観点からは，シミュレーションと実ロボットでの実験との間に大きな懸隔があることが指摘されている[6]．このため，本研究の成果を実ロボット上に移植し，実験を行うことは，提案手法のロボティクス分野における応用という観点から興味深いと考える．

6.2 実験 2: R 学習の効率化

6.2.4 実験 2 の考察

第 7 _章

関連研究との比較

7.1 _複数の Q 値表が存在する手法との比較

実験 2 の考察

6.2 実験 2: R 学習の効率化

6.2.4 実験 2 の考察

第 7 章

関連研究との比較

7.1 複数の Q 値表が存在する手法との比較

第 7 _章

7.1 _複数の Q 値表が存在する手法との比較