マルチロボットを用いた環境適応型強化学習

3.1．環境適応型強化学習の定式化

先述の通り，Q-Learning は，行動価値関数を用いた政策を更新しない TD 学習法と考えられる．ここで，を学習係数，を割引率とすると，状態と行動の組に関する価値関数に以下の更新式が適用される．

Q(s_t,a_t)¬Q(s_t,a_t)+a

[

^r_t+1+g^V^(s_t₊₁⁾-Q(s_t,a_t)

]

=(1-a)^Q(st,a_t)+a

[

^rt+1+g^V(st+1)

]

^(3.1)

V(s_t+1)=max

aÎA Q s

(

_t₊₁,a

)

^(3.2)

この更新式では，行動の選択に依存せず，遷移した次の状態における最大の Q

値が更新に用いられることが本来の TD 法とは異なる．このように単純化することにより，エージェントはランダムな行動選択をし続けることにより，近似的に行動価値関数が求められることが知られている．また，行動選択には，ボルツマン選択（Soft-max選択）を用いる．状態stにおける行動aのQ(st, a)に基づく選択確率は，以下のように計算される．

p^(s_t,a)=Pr

{

a_t =a|s_t

}

⁼ ^exp

(

^Q(s^t^,^{a) /}^T

)

exp

(

Q(s_t,b) /T

)

bÎA

å

^(3.3)

ここで，Tは温度を表し，温度が低いときは，選好度が高い行動が決定論的に選択され，温度が高いときは，ランダムに行動が選択される．

前章までの予備実験結果などから，動的環境に適応するためには，温度係数T の変化方法や学習係数の設計指針などを考慮する必要がある．環境変化後に，

Q-tableを効率良く更新するためには，以下に示す二つのことを同時に考える必要がある．

（１）温度係数を高くし，環境変化があったところを中心として，Q-tableを広範囲にわたって再学習を行う

（２）再学習を高速に行うために，学習係数を高くし，学習済みのQ-tableを再構築する．

これらの方法論を実現するために，次に，簡単な実験を行い，基本戦略に関する考察を行う．

3.2．環境変化に関する学習し続けることの影響

ここでは，環境変化に関する議論を行うために，図3.1に示すような二つの環境条件を対象とし，これらの環境条件間での変化に伴う強化学習の学習状況について検討する．図3.1の右の左上をA地点，右下をB地点として， A地点からB地点への移動，B地点からA地点の往復移動を扱う．ここで，Case 1として，環境条件1から2 への変化，Case 2として，環境条件2から1 への変化を扱う．

(a) 環境条件１

(b) 環境条件２図3.1 二つの環境条件

3.2.1．Case 1：環境条件1から環境条件2への変化

ここでは，A地点とB地点間の往復の移動を対象とし，A地点，B地点への移動について，それぞれがQ-tableを持つ．図中では，障害物が青色の四角，目標地点が赤い円，各セルの外側の円の濃淡が，点(x,y)における Q 値の最大値を表し，ロボットの移動は，各セルの内側の円である．図3.2では，学習初期のため，

温度も比較的高く，ランダムに移動しながら，目標地点に移動している．目標地点を中心として，離れていくにつれて，Q値の最大値が減少している様子が分かる．つまり，Q値の勾配が生じることにより，目標地点までの誘導が可能になる．

(a) A地点からB地点への移動 (b) B地点からA地点への移動図3.2 学習初期（環境変化前）

(a) A地点からB地点への移動 (b) B地点からA地点への移動

図3.3 学習中期（環境変化直後）

図3.3では，図3.2に比べ，移動しているセルの数が減少しており，exploration

よりexploitationによる学習が進んでいる様子が分かる．また，環境変化により，

突然，右下に移動できる空間が出現したが，温度が低下しているため，その領域への探索（exploration）が行われていない．

(a) A地点からB地点への移動 (b) B地点からA地点への移動図3.4 学習後期

図3.4では，温度がかなり低下しているため，学習済みのQ-tableを用いて，最短経路での移動を試みている様子が分かるが，右下の空間に関する探索が行われていない．このように，温度が低くなりすぎると，環境変化に対し，探索が困難になるという問題点がある．

3.2.2．Case 2：環境条件2から環境条件1への変化

環境条件2は，障害物が少なく，また，右下が通行可能なため，左上から，下方向への移動に関する純粋な学習が行われる．その後，環境条件 1 に変化するが，その際，右下部分が閉鎖されるため，Q-tableの大幅な再学習が必要となる．

(a) A地点からB地点への移動 (b) B地点からA地点への移動

図3.5 学習中期（環境変化直前）

図 3.5に示すように，環境変化が起こる前には，右下の空間を積極的に利用する形で学習が進んでいる．

(a) A地点からB地点への移動 (b) B地点からA地点への移動図3.6 学習後期（環境変化後）

図3.6に示すように，環境変化後は，新たに出現した障害物を回避するように，

Q-tableの再学習が行われている．しかしながら図3.6(a)の学習結果では，なだら

かなQ値の変化を学習しているとはいえず，改善の余地がある．

Steps

21 150 300 episodes

図3.7 エピソードにおける意思決定回数の変化

図 3.7に，エピソードにおける意思決定回数（ステップ数）の変化を示す．最初の20エピソードは，乱数の偏りによる探索が不安定なため，学習結果として比較可能な 20 エピソード以降のステップ数を示す．黒い線が直近の 20 エピソードの平均ステップ数を示し，グレーの線が，ステップ数の変化を示し，緑色の直線は，温度の変化を示す．ただし，8000 ステップ以上のステップ数は，標示されていない．温度の初期値は，0.4とし，エピソード終了時に0.99倍しながら，

温度を低下させている．150エピソードまでは，温度の低下とともに，ステップ数が低下している．しかしながら，150 エピソード終了時に環境変化がおこり，

その後，再学習が行われているが，1エピソードあたり 8000以上のステップ数をたびたび必要としている．また，3台のロボットの 21エピソード以降の総ステップ数は，109万以上になっている．環境変化後に，右上方向に探索を行う必要があるが，図3.5に示すように，右上方向のQ値の最大値が低いため，ボルツマン選択では温度が低いと，温度が低い方への移動を選択する確率が低くなり，

探索が困難になるため，環境変化後に温度を高くする必要がある．さらに，同時に学習率が低いと学習済みのQ-tableの再学習が困難になるため，学習率を上げる必要がある．

3.3．Case 1における環境適応方法

3.2.1の事例では，環境変化の結果，より近い経路をたどることができる可能性

がでてきたが，温度が低くなりすぎると，環境変化に対し，このような新しく生じた空かの探索が困難になるという問題点がある．したがって，常に，ある確率

で，explorationを行う手法を提案する．ここでは，学習係数と温度係数を一時的

に高くするexplorationモードを導入し，このモードへの遷移確率を peで与えることとする．

ここでは，ランダムな探索と環境変化に対し，迅速に局所学習を実現するため，学習係数=0.8，温度係数T=0.8とする．表 3.1に示すような異なる4 種類の設定パラメータを用いた実験結果を図 3.8 から図 3.11 に示す．各ステップにおける遷移確率が非常に小さく，確率的な偏りもあるため，実際の遷移回数は，

確率にあわせて多少，ぶれている．探索回数は，Case 1-1の300回固定の場合は，

探索回数が少ないため，右下の空間の学習が行われていない．一方，Case 1-2から１−４までは，右下の空間の再学習が行われており，遷移確率や探索回数を増やすほど，再学習の可能性が経験的に高くなっている．一方，遷移確率や探索回数を大きくすればするほど，総ステップ数が増加するため，ここでも，exploitation

– exploration間のトレードオフの問題は，ここでも生じうる．

表3.1 Case 1における各種設定パラメタと実験結果

遷移確率pe 探索回数総ステップ数

Case 1-1 0.0001 300回固定 1043359

Case 1-2 0.0001 直近20エピソードの

平均ステップ数×3.0

1066264

Case 1-3 0.0002 直近20エピソードの

平均ステップ数×10.0

1134369

Case 1-4 0.0005 直近20エピソードの

平均ステップ数×10.0

1177263

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps

21 150 300 episodes

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps

21 150 300 episodes

(d) エピソードにおける意思決定回数の変化図 3.9 Case 1-2の実験結果

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps

21 150 300 episodes

(e) エピソードにおける意思決定回数の変化図 3.10 Case 1-3の実験結果

(d) 環境変化後の学習結果 Steps

21 150 300 episodes

(f) エピソードにおける意思決定回数の変化図 3.11 Case 1-4の実験結果

3.4．Case 2における環境適応方法

3.2.2の考察より，環境変化後に，再学習の効率をあげるため，学習率と温度を

一時的に高くする．しかしながら，ロボット自身は，新たな壁の出現による環境

変化を，Q-table を用いた移動方向の選択を行うが，実際に移動できないという

知覚の結果でしか，認識できない．したがって，本研究では，ロボットの移動中，

直近の20エピソードの平均ステップ数の倍（ここでは，=3）以上に達した場合，環境変化が生じたと認識し，学習率と温度を一時的に高くする方法を提案する．

(a) Case 2-1 ステップ数（従来手法，=0.4）

(b) Case 2-1ステップ数（提案手法，=0.4）

(d) Case 2-2 ステップ数（提案手法，=0.3）

(e) Case 2-3 ステップ数（従来手法，=0.2）

(f) Case 2-3 ステップ数（提案手法，=0.2）

(g) Case 2-4 ステップ数（従来手法，=0.1）

(h) Case 2-4 ステップ数（提案手法，=0.1）図3.12 エピソードにおける意思決定回数の変化

図3.12に，学習率を変化させた場合の従来手法と提案手法の比較を示す．また，

表3.2に，21エピソード以降の3台のロボットの総ステップ数の比較を示す．

表3.2 総ステップ数の比較

提案手法従来手法

学習率（=0.4） 816116 1097080 学習率（=0.3） 881696 1250147 学習率（=0.2） 1191062 1215361

学習率（=0.1） 1669622 2071659

図3.12 (a)と(b)，(c)と(d)は，学習率（=0.4），（=0.3）の場合であるが，環境変化前にかなり学習が進んでおり，環境変化後，従来手法に比べ，より少ないステップ数で，学習が進んでいることがわかる．図3.12 (e)と(f)は，学習率（=0.2）

の場合であるが，ある程度の学習が進んでいる状態であるため，環境変化後，学習が進んでいるため，それ程，違いが無いが，学習率が低いため，各エピソードのステップ数は，多めに必要としている様子が分かる．図3.12 (g)と(h)は，学習率（=0.1）の場合では，学習があまり進んでいないため，環境変化後においても学習が進むが，学習率が低いため，学習前のQ-tableからの再学習により多くのステップ数を必要としている．

また，図3.13の従来手法では，温度減少が速すぎるため，適切な学習が行えていない半面，図 3.14の提案手法では，学習率が低いにもかかわらず，環境変化認識時に学習係数と温度を高くしているため，適切に学習が行えていることがわかる．

ドキュメント内マルチロボットの強化学習 (ページ 33-49)