6.2 実験 2: R 学習の効率化
6.2.4 実験 2 の考察
表から明らかなように,提案手法を適用した場合,βおよびξの値の設定によら ず,センサ選択手法を適用したQ/Sarsa学習と比較して良い平均獲得報酬が得ら れた.提案手法は,平均獲得報酬ばかりではなく,ロバスト性の面でも優れてい ると考えられる.
0 0.5 1 1.5 2 2.5 3 3.5 x 104 0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
times
mean number of sensors
proposed
conventional R−learning
図 6.7: センサ値>910のセンサ数の推移.20行動の間の平均値を20行動毎にプ
ロット.
しない.
R学習を用いた実験(第6.2.2.2—6.2.2.4, 6.2.2.6節)に対する優位性に関しては,
提案手法の局所解を回避する効果によるものと推測される.
壁にトラップされている際の,提案手法と従来手法のR学習との比較を行った.
トラップの深刻さの指標として,センサ値が異常接近値である910に達したセン サの個数を用いた.図6.7は,第6.2.2.1及び6.2.2.2節と同一の条件で行った実験 において,実験開始から約35,000回行動させた際,値が異常接近値を超えたセン サ数を20行動毎に平均しプロットしたものである.縦軸がセンサ数,横軸は行動 回数を示す.丸印が提案手法,X印が従来手法の結果である.
提案手法採用時の値が一貫して低いことは,実際に状態表現の分析により確認 した結果,異常接近を示すセンサ数が少ない状態への探索が促進されたことを反 映していると推測され,この探索促進の結果トラップの脱出ないし回避が可能と なったと考えられる.
一方,第6.2.2.5節のQ及びSarsa学習と比較して,提案手法の成績が良い点
は,トラップされていない状態において,R学習がQ及びSarsa学習より早く直 進行動を学習するためと推察される.これは,R学習がQ学習より高速であると のSchwartzの指摘[31]を裏付ける結果と考えられる.
本研究の手法は,行動決定に用いるQ値表の選択処理に関して,オンラインセ ンサ選択のために用いたもの(第6.1.1節参照)と異なる.実験1の際用いた手法で は,どのQ値表を用いるかという問題を,n本腕バンデット問題(n-armed bandit
problem)として定式化し,強化比較を用いて選択を行い,1回の行動で優先度更
新が行われるQ 値表は,たかだか1つであった.一方,本実験の手法では,行動 の結果に基づき,複数のQ値表の優先度の同時更新を許す.R学習では,行動価 値推定の更新に,平均報酬(ρ) 値を用いるが,この値は,強化学習エージェント の平均成績の見積もりを表現するものであるため,各Q値表の比較に適している.
このため,上記一括更新に,ρを用いた.
複数のQ値表を並置する手法は,計算負荷の増大が1つの課題ではあるが,本 研究の実験結果では,その欠点を超える効果が確認された.実験結果に関して,と くに,オンラインセンサ選択手法を適用したQ及びSarsa学習に比べ,良い成績 が得られたことに関しては,学習の対象となるQ値表が,単数から複数に増え(上 述),効率良く学習ができた点が大きいと思われる.また,Schwartzが主張する,
R学習の迅速な学習を生かし,相乗効果が得られたという理由も考えられる.好 成績の要因に関しても,必ずしも十分な分析を行えたとはいえず,今後,他の実 験課題における結果や,他手法との比較も含めた分析が必要である.
R学習の高速化に関しては,モデル(各状態間の遷移確率表)を用いる手法
(H-learning)が提案されている[36].提案手法との成績の比較検討を含めた考察が,さ
らに必要であろう.H-learningを用いて,実ロボットにおける障害物回避行動の獲 得課題を試みた研究例[3]もある.ロボットの行動決定処理への応用という観点か らは,シミュレーションと実ロボットでの実験との間に大きな懸隔があることが 指摘されている[6].このため,本研究の成果を実ロボット上に移植し,実験を行 うことは,提案手法のロボティクス分野における応用という観点から興味深いと 考える.
第 7 章
関連研究との比較
7.1 複数の Q 値表が存在する手法との比較
従来提案されていた強化学習手法の中には,複数のQ値表を用いて行動決定を 行うことを目的としている訳ではないが,結果的に,複数のQ値表を用いる形が 提案されているものも存在する.例えば,
(1) Actor-critic手法
(2) 階層型強化学習手法 (hierarchical reinforcement learning)
があげられる.なお,複数のエージェント(例えばロボット)が,各々Q値表をも ち,同じ環境で行動すること(一般的にマルチエージェントといわれる実験状況) も,実験全体を考えた場合,複数のQ値表を用いて学習をさせていることになる が,提案手法との差異は明らかなため,とくには取り上げない.以下,上記2手 法との差異について考察する.