3.1.環境適応型強化学習の定式化
先述の通り,Q-Learning は,行動価値関数を用いた政策を更新しない TD 学 習法と考えられる.ここで,を学習係数,を割引率とすると,状態と行動の組 に関する価値関数に以下の更新式が適用される.
Q(st,at)¬Q(st,at)+a
[
rt+1+gV(st+1)-Q(st,at)]
=(1-a)Q(st,at)+a
[
rt+1+gV(st+1)]
(3.1)V(st+1)=max
aÎA Q s
(
t+1,a)
(3.2)この更新式では,行動の選択に依存せず,遷移した次の状態における最大の Q
値が更新に用いられることが本来の TD 法とは異なる.このように単純化する ことにより,エージェントはランダムな行動選択をし続けることにより,近似的 に行動価値関数が求められることが知られている.また,行動選択には,ボルツ マン選択(Soft-max選択)を用いる.状態stにおける行動aのQ(st, a)に基づく 選択確率は,以下のように計算される.
p(st,a)=Pr
{
at =a|st}
= exp(
Q(st,a) /T)
exp
(
Q(st,b) /T)
bÎA
å
(3.3)ここで,Tは温度を表し,温度が低いときは,選好度が高い行動が決定論的に選 択され,温度が高いときは,ランダムに行動が選択される.
前章までの予備実験結果などから,動的環境に適応するためには,温度係数T の変化方法や学習係数の設計指針などを考慮する必要がある.環境変化後に,
Q-tableを効率良く更新するためには,以下に示す二つのことを同時に考える必 要がある.
(1)温度係数を高くし,環境変化があったところを中心として,Q-tableを広 範囲にわたって再学習を行う
(2)再学習を高速に行うために,学習係数を高くし,学習済みのQ-tableを再 構築する.
これらの方法論を実現するために,次に,簡単な実験を行い,基本戦略に関する 考察を行う.
3.2.環境変化に関する学習し続けることの影響
ここでは,環境変化に関する議論を行うために,図3.1に示すような二つの環 境条件を対象とし,これらの環境条件間での変化に伴う強化学習の学習状況に ついて検討する.図3.1の右の左上をA地点,右下をB地点として, A地点か らB地点への移動,B地点からA地点の往復移動を扱う.ここで,Case 1とし て,環境条件1から2 への変化,Case 2として,環境条件2から1 への変化を 扱う.
(a) 環境条件1
(b) 環境条件2 図3.1 二つの環境条件
3.2.1.Case 1:環境条件1から環境条件2への変化
ここでは,A地点とB地点間の往復の移動を対象とし,A地点,B地点への移 動について,それぞれがQ-tableを持つ.図中では,障害物が青色の四角,目標 地点が赤い円,各セルの外側の円の濃淡が,点(x,y)における Q 値の最大値を表 し,ロボットの移動は,各セルの内側の円である.図3.2では,学習初期のため,
温度も比較的高く,ランダムに移動しながら,目標地点に移動している.目標地 点を中心として,離れていくにつれて,Q値の最大値が減少している様子が分か る.つまり,Q値の勾配が生じることにより,目標地点までの誘導が可能になる.
(a) A地点からB地点への移動 (b) B地点からA地点への移動 図3.2 学習初期(環境変化前)
(a) A地点からB地点への移動 (b) B地点からA地点への移動
図3.3 学習中期(環境変化直後)
図3.3では,図3.2に比べ,移動しているセルの数が減少しており,exploration
よりexploitationによる学習が進んでいる様子が分かる.また,環境変化により,
突然,右下に移動できる空間が出現したが,温度が低下しているため,その領域 への探索(exploration)が行われていない.
(a) A地点からB地点への移動 (b) B地点からA地点への移動 図3.4 学習後期
図3.4では,温度がかなり低下しているため,学習済みのQ-tableを用いて,最 短経路での移動を試みている様子が分かるが,右下の空間に関する探索が行わ れていない.このように,温度が低くなりすぎると,環境変化に対し,探索が困 難になるという問題点がある.
3.2.2.Case 2:環境条件2から環境条件1への変化
環境条件2は,障害物が少なく,また,右下が通行可能なため,左上から,下 方向への移動に関する純粋な学習が行われる.その後,環境条件 1 に変化する が,その際,右下部分が閉鎖されるため,Q-tableの大幅な再学習が必要となる.
(a) A地点からB地点への移動 (b) B地点からA地点への移動
図3.5 学習中期(環境変化直前)
図 3.5に示すように,環境変化が起こる前には,右下の空間を積極的に利用す る形で学習が進んでいる.
(a) A地点からB地点への移動 (b) B地点からA地点への移動 図3.6 学習後期(環境変化後)
図3.6に示すように,環境変化後は,新たに出現した障害物を回避するように,
Q-tableの再学習が行われている.しかしながら図3.6(a)の学習結果では,なだら
かなQ値の変化を学習しているとはいえず,改善の余地がある.
Steps
21 150 300 episodes
図3.7 エピソードにおける意思決定回数の変化
図 3.7に,エピソードにおける意思決定回数(ステップ数)の変化を示す.最 初の20エピソードは,乱数の偏りによる探索が不安定なため,学習結果として 比較可能な 20 エピソード以降のステップ数を示す.黒い線が直近の 20 エピソ ードの平均ステップ数を示し,グレーの線が,ステップ数の変化を示し,緑色の 直線は,温度の変化を示す.ただし,8000 ステップ以上のステップ数は,標示 されていない.温度の初期値は,0.4とし,エピソード終了時に0.99倍しながら,
温度を低下させている.150エピソードまでは,温度の低下とともに,ステップ 数が低下している.しかしながら,150 エピソード終了時に環境変化がおこり,
その後,再学習が行われているが,1エピソードあたり 8000以上のステップ数 をたびたび必要としている.また,3台のロボットの 21エピソード以降の総ス テップ数は,109万以上になっている.環境変化後に,右上方向に探索を行う必 要があるが,図3.5に示すように,右上方向のQ値の最大値が低いため,ボルツ マン選択では温度が低いと,温度が低い方への移動を選択する確率が低くなり,
探索が困難になるため,環境変化後に温度を高くする必要がある.さらに,同時 に学習率が低いと学習済みのQ-tableの再学習が困難になるため,学習率を上げ る必要がある.
3.3.Case 1における環境適応方法
3.2.1の事例では,環境変化の結果,より近い経路をたどることができる可能性
がでてきたが,温度が低くなりすぎると,環境変化に対し,このような新しく生 じた空かの探索が困難になるという問題点がある.したがって,常に,ある確率
で,explorationを行う手法を提案する.ここでは,学習係数と温度係数を一時的
に高くするexplorationモードを導入し,このモードへの遷移確率を peで与える こととする.
ここでは,ランダムな探索と環境変化に対し,迅速に局所学習を実現するた め,学習係数=0.8,温度係数T=0.8とする.表 3.1に示すような異なる4 種類 の設定パラメータを用いた実験結果を図 3.8 から図 3.11 に示す.各ステップに おける遷移確率が非常に小さく,確率的な偏りもあるため,実際の遷移回数は,
確率にあわせて多少,ぶれている.探索回数は,Case 1-1の300回固定の場合は,
探索回数が少ないため,右下の空間の学習が行われていない.一方,Case 1-2か ら1−4までは,右下の空間の再学習が行われており,遷移確率や探索回数を増 やすほど,再学習の可能性が経験的に高くなっている.一方,遷移確率や探索回 数を大きくすればするほど,総ステップ数が増加するため,ここでも,exploitation
– exploration間のトレードオフの問題は,ここでも生じうる.
表3.1 Case 1における各種設定パラメタと実験結果
遷移確率pe 探索回数 総ステップ数
Case 1-1 0.0001 300回固定 1043359
Case 1-2 0.0001 直近20エピソードの
平均ステップ数×3.0
1066264
Case 1-3 0.0002 直近20エピソードの
平均ステップ数×10.0
1134369
Case 1-4 0.0005 直近20エピソードの
平均ステップ数×10.0
1177263
(a) 環境変化前の学習状況
(b) 環境変化後の学習結果 Steps
21 150 300 episodes
(c) エピソードにおける意思決定回数の変化 図 3.8 Case 1-1の実験結果
(a) 環境変化前の学習状況
(b) 環境変化後の学習結果 Steps
21 150 300 episodes
(d) エピソードにおける意思決定回数の変化 図 3.9 Case 1-2の実験結果
(a) 環境変化前の学習状況
(b) 環境変化後の学習結果 Steps
21 150 300 episodes
(e) エピソードにおける意思決定回数の変化 図 3.10 Case 1-3の実験結果
(c) 環境変化前の学習状況
(d) 環境変化後の学習結果 Steps
21 150 300 episodes
(f) エピソードにおける意思決定回数の変化 図 3.11 Case 1-4の実験結果
3.4.Case 2における環境適応方法
3.2.2の考察より,環境変化後に,再学習の効率をあげるため,学習率と温度を
一時的に高くする.しかしながら,ロボット自身は,新たな壁の出現による環境
変化を,Q-table を用いた移動方向の選択を行うが,実際に移動できないという
知覚の結果でしか,認識できない.したがって,本研究では,ロボットの移動中,
直近の20エピソードの平均ステップ数の倍(ここでは,=3)以上に達した場 合,環境変化が生じたと認識し,学習率と温度を一時的に高くする方法を提案す る.
(a) Case 2-1 ステップ数(従来手法,=0.4)
(b) Case 2-1ステップ数(提案手法,=0.4)
(c) ステップ数(従来手法,=0.3)
(d) Case 2-2 ステップ数(提案手法,=0.3)
(e) Case 2-3 ステップ数(従来手法,=0.2)
(f) Case 2-3 ステップ数(提案手法,=0.2)
(g) Case 2-4 ステップ数(従来手法,=0.1)
(h) Case 2-4 ステップ数(提案手法,=0.1) 図3.12 エピソードにおける意思決定回数の変化
図3.12に,学習率を変化させた場合の従来手法と提案手法の比較を示す.また,
表3.2に,21エピソード以降の3台のロボットの総ステップ数の比較を示す.
表3.2 総ステップ数の比較
提案手法 従来手法
学習率(=0.4) 816116 1097080 学習率(=0.3) 881696 1250147 学習率(=0.2) 1191062 1215361
学習率(=0.1) 1669622 2071659
図3.12 (a)と(b),(c)と(d)は,学習率(=0.4),(=0.3)の場合であるが,環境変 化前にかなり学習が進んでおり,環境変化後,従来手法に比べ,より少ないステ ップ数で,学習が進んでいることがわかる.図3.12 (e)と(f)は,学習率(=0.2)
の場合であるが,ある程度の学習が進んでいる状態であるため,環境変化後,学 習が進んでいるため,それ程,違いが無いが,学習率が低いため,各エピソード のステップ数は,多めに必要としている様子が分かる.図3.12 (g)と(h)は,学習 率(=0.1)の場合では,学習があまり進んでいないため,環境変化後において も学習が進むが,学習率が低いため,学習前のQ-tableからの再学習により多く のステップ数を必要としている.
また,図3.13の従来手法では,温度減少が速すぎるため,適切な学習が行えて いない半面,図 3.14の提案手法では,学習率が低いにもかかわらず,環境変化 認識時に学習係数と温度を高くしているため,適切に学習が行えていることが わかる.