• 検索結果がありません。

マルチロボットを用いた環境適応型強化学習

ドキュメント内 マルチロボットの強化学習 (ページ 33-49)

3.1.環境適応型強化学習の定式化

先述の通り,Q-Learning は,行動価値関数を用いた政策を更新しない TD 学 習法と考えられる.ここで,を学習係数,を割引率とすると,状態と行動の組 に関する価値関数に以下の更新式が適用される.

Q(st,at)¬Q(st,at)+a

[

rt+1+gV(st+1)-Q(st,at)

]

=(1-a)Q(st,at)+a

[

rt+1+gV(st+1)

]

(3.1)

V(st+1)=max

aÎA Q s

(

t+1,a

)

(3.2)

この更新式では,行動の選択に依存せず,遷移した次の状態における最大の Q

値が更新に用いられることが本来の TD 法とは異なる.このように単純化する ことにより,エージェントはランダムな行動選択をし続けることにより,近似的 に行動価値関数が求められることが知られている.また,行動選択には,ボルツ マン選択(Soft-max選択)を用いる.状態stにおける行動aQ(st, a)に基づく 選択確率は,以下のように計算される.

p(st,a)=Pr

{

at =a|st

}

= exp

(

Q(st,a) /T

)

exp

(

Q(st,b) /T

)

A

å

(3.3)

ここで,Tは温度を表し,温度が低いときは,選好度が高い行動が決定論的に選 択され,温度が高いときは,ランダムに行動が選択される.

前章までの予備実験結果などから,動的環境に適応するためには,温度係数T の変化方法や学習係数の設計指針などを考慮する必要がある.環境変化後に,

Q-tableを効率良く更新するためには,以下に示す二つのことを同時に考える必 要がある.

(1)温度係数を高くし,環境変化があったところを中心として,Q-tableを広 範囲にわたって再学習を行う

(2)再学習を高速に行うために,学習係数を高くし,学習済みのQ-tableを再 構築する.

これらの方法論を実現するために,次に,簡単な実験を行い,基本戦略に関する 考察を行う.

3.2.環境変化に関する学習し続けることの影響

ここでは,環境変化に関する議論を行うために,図3.1に示すような二つの環 境条件を対象とし,これらの環境条件間での変化に伴う強化学習の学習状況に ついて検討する.図3.1の右の左上をA地点,右下をB地点として, A地点か らB地点への移動,B地点からA地点の往復移動を扱う.ここで,Case 1とし て,環境条件1から2 への変化,Case 2として,環境条件2から1 への変化を 扱う.

(a) 環境条件1

(b) 環境条件2 図3.1 二つの環境条件

3.2.1.Case 1:環境条件1から環境条件2への変化

ここでは,A地点とB地点間の往復の移動を対象とし,A地点,B地点への移 動について,それぞれがQ-tableを持つ.図中では,障害物が青色の四角,目標 地点が赤い円,各セルの外側の円の濃淡が,点(x,y)における Q 値の最大値を表 し,ロボットの移動は,各セルの内側の円である.図3.2では,学習初期のため,

温度も比較的高く,ランダムに移動しながら,目標地点に移動している.目標地 点を中心として,離れていくにつれて,Q値の最大値が減少している様子が分か る.つまり,Q値の勾配が生じることにより,目標地点までの誘導が可能になる.

(a) A地点からB地点への移動 (b) B地点からA地点への移動 図3.2 学習初期(環境変化前)

(a) A地点からB地点への移動 (b) B地点からA地点への移動

図3.3 学習中期(環境変化直後)

図3.3では,図3.2に比べ,移動しているセルの数が減少しており,exploration

よりexploitationによる学習が進んでいる様子が分かる.また,環境変化により,

突然,右下に移動できる空間が出現したが,温度が低下しているため,その領域 への探索(exploration)が行われていない.

(a) A地点からB地点への移動 (b) B地点からA地点への移動 図3.4 学習後期

図3.4では,温度がかなり低下しているため,学習済みのQ-tableを用いて,最 短経路での移動を試みている様子が分かるが,右下の空間に関する探索が行わ れていない.このように,温度が低くなりすぎると,環境変化に対し,探索が困 難になるという問題点がある.

3.2.2.Case 2:環境条件2から環境条件1への変化

環境条件2は,障害物が少なく,また,右下が通行可能なため,左上から,下 方向への移動に関する純粋な学習が行われる.その後,環境条件 1 に変化する が,その際,右下部分が閉鎖されるため,Q-tableの大幅な再学習が必要となる.

(a) A地点からB地点への移動 (b) B地点からA地点への移動

図3.5 学習中期(環境変化直前)

図 3.5に示すように,環境変化が起こる前には,右下の空間を積極的に利用す る形で学習が進んでいる.

(a) A地点からB地点への移動 (b) B地点からA地点への移動 図3.6 学習後期(環境変化後)

図3.6に示すように,環境変化後は,新たに出現した障害物を回避するように,

Q-tableの再学習が行われている.しかしながら図3.6(a)の学習結果では,なだら

かなQ値の変化を学習しているとはいえず,改善の余地がある.

Steps

21 150 300 episodes

図3.7 エピソードにおける意思決定回数の変化

図 3.7に,エピソードにおける意思決定回数(ステップ数)の変化を示す.最 初の20エピソードは,乱数の偏りによる探索が不安定なため,学習結果として 比較可能な 20 エピソード以降のステップ数を示す.黒い線が直近の 20 エピソ ードの平均ステップ数を示し,グレーの線が,ステップ数の変化を示し,緑色の 直線は,温度の変化を示す.ただし,8000 ステップ以上のステップ数は,標示 されていない.温度の初期値は,0.4とし,エピソード終了時に0.99倍しながら,

温度を低下させている.150エピソードまでは,温度の低下とともに,ステップ 数が低下している.しかしながら,150 エピソード終了時に環境変化がおこり,

その後,再学習が行われているが,1エピソードあたり 8000以上のステップ数 をたびたび必要としている.また,3台のロボットの 21エピソード以降の総ス テップ数は,109万以上になっている.環境変化後に,右上方向に探索を行う必 要があるが,図3.5に示すように,右上方向のQ値の最大値が低いため,ボルツ マン選択では温度が低いと,温度が低い方への移動を選択する確率が低くなり,

探索が困難になるため,環境変化後に温度を高くする必要がある.さらに,同時 に学習率が低いと学習済みのQ-tableの再学習が困難になるため,学習率を上げ る必要がある.

3.3.Case 1における環境適応方法

3.2.1の事例では,環境変化の結果,より近い経路をたどることができる可能性

がでてきたが,温度が低くなりすぎると,環境変化に対し,このような新しく生 じた空かの探索が困難になるという問題点がある.したがって,常に,ある確率

で,explorationを行う手法を提案する.ここでは,学習係数と温度係数を一時的

に高くするexplorationモードを導入し,このモードへの遷移確率を peで与える こととする.

ここでは,ランダムな探索と環境変化に対し,迅速に局所学習を実現するた め,学習係数=0.8,温度係数T=0.8とする.表 3.1に示すような異なる4 種類 の設定パラメータを用いた実験結果を図 3.8 から図 3.11 に示す.各ステップに おける遷移確率が非常に小さく,確率的な偏りもあるため,実際の遷移回数は,

確率にあわせて多少,ぶれている.探索回数は,Case 1-1の300回固定の場合は,

探索回数が少ないため,右下の空間の学習が行われていない.一方,Case 1-2か ら1−4までは,右下の空間の再学習が行われており,遷移確率や探索回数を増 やすほど,再学習の可能性が経験的に高くなっている.一方,遷移確率や探索回 数を大きくすればするほど,総ステップ数が増加するため,ここでも,exploitation

– exploration間のトレードオフの問題は,ここでも生じうる.

表3.1 Case 1における各種設定パラメタと実験結果

遷移確率pe 探索回数 総ステップ数

Case 1-1 0.0001 300回固定 1043359

Case 1-2 0.0001 直近20エピソードの

平均ステップ数×3.0

1066264

Case 1-3 0.0002 直近20エピソードの

平均ステップ数×10.0

1134369

Case 1-4 0.0005 直近20エピソードの

平均ステップ数×10.0

1177263

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps

21 150 300 episodes

(c) エピソードにおける意思決定回数の変化 図 3.8 Case 1-1の実験結果

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps

21 150 300 episodes

(d) エピソードにおける意思決定回数の変化 図 3.9 Case 1-2の実験結果

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps

21 150 300 episodes

(e) エピソードにおける意思決定回数の変化 図 3.10 Case 1-3の実験結果

(c) 環境変化前の学習状況

(d) 環境変化後の学習結果 Steps

21 150 300 episodes

(f) エピソードにおける意思決定回数の変化 図 3.11 Case 1-4の実験結果

3.4.Case 2における環境適応方法

3.2.2の考察より,環境変化後に,再学習の効率をあげるため,学習率と温度を

一時的に高くする.しかしながら,ロボット自身は,新たな壁の出現による環境

変化を,Q-table を用いた移動方向の選択を行うが,実際に移動できないという

知覚の結果でしか,認識できない.したがって,本研究では,ロボットの移動中,

直近の20エピソードの平均ステップ数の倍(ここでは,=3)以上に達した場 合,環境変化が生じたと認識し,学習率と温度を一時的に高くする方法を提案す る.

(a) Case 2-1 ステップ数(従来手法,=0.4)

(b) Case 2-1ステップ数(提案手法,=0.4)

(c) ステップ数(従来手法,=0.3)

(d) Case 2-2 ステップ数(提案手法,=0.3)

(e) Case 2-3 ステップ数(従来手法,=0.2)

(f) Case 2-3 ステップ数(提案手法,=0.2)

(g) Case 2-4 ステップ数(従来手法,=0.1)

(h) Case 2-4 ステップ数(提案手法,=0.1) 図3.12 エピソードにおける意思決定回数の変化

図3.12に,学習率を変化させた場合の従来手法と提案手法の比較を示す.また,

表3.2に,21エピソード以降の3台のロボットの総ステップ数の比較を示す.

表3.2 総ステップ数の比較

提案手法 従来手法

学習率(=0.4) 816116 1097080 学習率(=0.3) 881696 1250147 学習率(=0.2) 1191062 1215361

学習率(=0.1) 1669622 2071659

図3.12 (a)と(b),(c)と(d)は,学習率(=0.4),(=0.3)の場合であるが,環境変 化前にかなり学習が進んでおり,環境変化後,従来手法に比べ,より少ないステ ップ数で,学習が進んでいることがわかる.図3.12 (e)と(f)は,学習率(=0.2)

の場合であるが,ある程度の学習が進んでいる状態であるため,環境変化後,学 習が進んでいるため,それ程,違いが無いが,学習率が低いため,各エピソード のステップ数は,多めに必要としている様子が分かる.図3.12 (g)と(h)は,学習 率(=0.1)の場合では,学習があまり進んでいないため,環境変化後において も学習が進むが,学習率が低いため,学習前のQ-tableからの再学習により多く のステップ数を必要としている.

また,図3.13の従来手法では,温度減少が速すぎるため,適切な学習が行えて いない半面,図 3.14の提案手法では,学習率が低いにもかかわらず,環境変化 認識時に学習係数と温度を高くしているため,適切に学習が行えていることが わかる.

ドキュメント内 マルチロボットの強化学習 (ページ 33-49)

関連したドキュメント