マルチロボットの強化学習

(1)

平成 30 年度修士論文

首都大学東京大学院

システムデザイン研究科博士前期課程知能機械システム学域

学修番号 15889519

鈴木博之

指導教員久保田直行教授

平成30 年 8 月

災害現場における

マルチロボットの強化学習

(2)

第1章序論 ... 2

1.1 研究背景 ... 2

1.2 研究の目的 ... 5

1.3 論文構成 ... 5

第2章マルチロボットと強化学習 ... 7

2.1．災害時におけるマルチロボットの必要性 ... 7

2.1.1．マルチロボットフォーメーション ... 7

2.1.2．マルチロボットを用いた状況の特定と理解 ... 8

2.2．マルチロボットとマルチエージェント ... 9

2.2.1．エージェント ... 9

2.2.2 マルチエージェントシステムの概要 ... 10

2.2.3 マルチエージェントシステムの問題点 ... 11

2.2.4 マルチロボット ... 13

2.3. 強化学習 ... 14

2.4. 予備実験 ... 17

2.4.1．Q-learningに関する基本性能に関する検討... 19

(3)

2.4.2．災害現場におけるQ-learningの定式化 ... 30

2.4.3．予備実験のまとめ ... 31

第3章マルチロボットを用いた環境適応型強化学習 ... 32

3.1．環境適応型強化学習の定式化 ... 32

3.2．環境変化に関する学習し続けることの影響 ... 33

3.2.1．Case 1：環境条件1から環境条件2への変化 ... 34

3.2.2．Case 2：環境条件2から環境条件1への変化 ... 36

3.3．CASE 1における環境適応方法 ... 38

3.4．CASE 2における環境適応方法 ... 43

第4章まとめ ... 48

参考文献 ... 49

第 1 章序論

1.1 研究背景

近年，災害ロボットの分野において，被災地における二次被害を避けるために，

被災地においても頑健に行動できる災害ロボットの開発が望まれている．また，

災害時において，人間が立ち入るには危険が伴い，かつ状況が外部から確認できない場所を人命救助などを目的とした探索を行う場合において，人間の代わりにロボットを探索に使用するのが有効な解決法である．実際，2011 年に発生した福島第一原子力発電所事故では千葉工業大学などが開発する遠隔操作ロボッ

トのQuinceが投入され建物内部の放射線量の測定などを行った[1]．現状のロボ

(4)

ットを用いた環境探索の問題点としては，計測の問題，遠隔操作の問題，制御の問題などが挙げられる．計測の問題とは，ロボット大きさや形状，搭載されたセンサの性能などの物理的な要因によって計測が可能な範囲が制限されることなどを指し，遠隔操作の問題とは，操作者に熟練した技術が要求されることなどを指す．そして，制御の問題とは，操作者の命令をどのようにロボットの出力として関連づけるか，危険回避や操作負担軽減のためにどれだけの自律性を持たせるか，などということを指す．

被災地において，安全かつ迅速にロボットが行動をするためには，移動ロボットが環境地図と自己位置を認識し，次の移動経路を推定する必要があるが，災害現場は時々刻々と変化しうる．また，人間が介入すること無く,ロボットに複雑なタスクを実行させるために,ロボットに学習機能を搭載する研究が注目されている.ロボットの学習には，大きく，教師あり学習，教師無し学習，強化学習に分類される．特に,強化学習は環境と相互作用を通してロボット自身の制御法を学習する手法であり,実ロボットへの適用が期待されている.しかし,強化学習は学習環境の状態空間が膨大である場合,学習が収束するために膨大な時間を要するという問題がある.また，環境変化が起こった場合，再学習を行う必要がある．

例えば，実際の災害現場での探索を考えると，上述のように，ロボットが探索する環境は時々刻々と変化する動的環境となる.したがって，ロボット自身が環境の変化に対応し学習できるよう適切な制御法を必要とする.

一方,近年複数のロボット(マルチロボット)の協調制御に関する研究が注目されており,大規模な空間や動的環境を対象としたロボットの探索において有効な手法となることが期待されている.具体的には,ロボットを危険地帯で探索させる場合,単体よりも複数のロボットで情報を共有し，探索を行うほうが短時間で多くの情報を得ることが可能となり，環境変化への適応も迅速になり得る.実際，

災害現場や未知環境に対し複数のロボットを投入することで，1台のロボットだけでは得られない効果を得ようとする研究開発が盛んに行われている[2-7]．マルチロボットが協調することで，タスク分散による作業時間の短縮や，個々のセンサレンジを加味した隊列走行による探索範囲の重複回避が可能になり，作業効率が向上する．また，マルチロボットの協調により，全体システムは単なるロボットの集合以上の効果を得ることができる．例えば，カメラを有するロボットを複数用いることにより 1 台のロボットでは得ることのできない広い視野の獲得や死角の解消，外向きの環状配置によるパノラマビュー，内向きの環状配置により物体を多視点で同時に計測する協調モニタリングなどが可能となる．集団が協調して行動することにより，全体システムの機能が拡張され，単体での計測では得られない高い次元の情報を得ることができる．このように構成要素間の相互作用により，集団としての秩序や挙動が現れることを創発と呼ばれる．この

(5)

ような背景のもと，本研究では,マルチロボットの分散的情報収集の利点を生かし強化学習法を提案する.次に，災害現場を想定した動的環境を対象としたコンピュータシミュレーションを行い，提案手法の有効性について検討する．

強化学習(Reinforcement Learning)とは,報酬を手がかりに環境に適応する行動

パターンを学習する教師なし学習法である[8,9]．代表的な強化学習法である Q- learningでは，状態sで行動aを実行する状態-行動価値関数(Q値) Q(s, a)の値を，

環境との相互作用から得られる報酬rの値を頼りに更新していく[10]．環境変化を伴わない定常状態での学習では，対象とする環境を膨大な探索回数を用いて，

網羅的に何度も何度も移動することにより行動価値関数を最適化することができるが，時々刻々と変化する動的環境では，Exploitation(探索) とExploration(搾取) 問題を扱う必要がある．ここで，探索とは未知環境の探索を意味し，搾取は行動価値関数を繰り返し利用することで，最適化を行うことである．探索の比率が多くなると収束時間が長くなる半面，最適な行動価値関数を求めることができる．一方，搾取の比率が多くなると，収束時間が短くなる半面，最適な行動価値関数を求めることが困難になる．この探索と搾取のトレードオフを調整するために，ボルツマン選択が用いられる．ボルツマン選択の温度係数Tにおいて,T が大きすぎれば最適な行動が選ばれる確率が低くなり,探索がほぼランダムになってしまう.しかし,Tが低すぎると序盤で得た報酬に伴い一番Q値が高い行動をとり続け,局所的最適解に陥ってしまい,最終的に最適な行動を見つけ出すことができなくなってしまう.したがって，本研究では，マルチロボットを用いた強化学習において，動的環境への適応を考慮した方法論について議論を行う．

(6)

1.2 研究の目的

強化学習における重要なパラメタは，意思決定を行うためのボルツマン選択の温度係数や学習係数であり，これらの設計が強化学習の性能に大きな影響を与える．マルチロボットを動的環境に適応させるためには,一定の温度係数T ではなく時間経過によってTを変化させる方法を提案する.これにより変化した環境を再探索し,環境変化後に最適経路を見つけ直しだすことが可能である.したがって，本研究では，まず，温度Tに関する複数の変化パターン（以下，温度スケジューリング）を用いた予備実験を行うことにより，複数の環境変化のパターンに対する温度スケジューリングの有効性に関する検討を行う．具体的には，最

大 100×100 の離散空間を対象とした危険領域回避とナビゲーションタスクを実

行させる．ここで，危険領域が時々刻々と変化するような問題を扱う．

次に，動的環境においてマルチエージェントへと拡張した強化学習法を提案し，全てのロボットが同じ温度スケジューリングで学習を行った場合の比較（ホモジニアスマルチエージェント），異なる温度スケジューリングで学習を行った場合の比較（ヘテロジニアスマルチエージェント）を行い，比較を行う．最後に，

適応的温度スケジューリングに関する方法論を提案し，様々な動的環境を対象としたコンピュータシミュレーションを行うことにより，提案手法の有効性を検討する．

1.3 論文構成

本論文は、下記の4つの章で構成されている。

第 1 章は序論であり，災害現場におけるマルチロボットの必要性や問題点を

述べ，強化学習を適用する利点を述べ，研究の目標を述べている．

第 2 章では，マルチロボットに関する研究と強化学習の定義や概要を述べ，

様々な利点や解決しなければならない問題点について，予備実験を通して考察する．

第 3 章では，マルチロボットを用いた環境適応型強化学習を提案し，様々な

(7)

比較実験を行うことにより，提案手法の有効性について述べる．

第4章では，以上の比較実験で得られた結果をまとめて，考察を述べ，アルゴ

リズムの問題点や今後の課題や改良点について述べる．

(8)

第 2 章マルチロボットと強化学習

2.1．災害時におけるマルチロボットの必要性

現在に至るまで，様々な移動ロボットが開発され，人にやさしい遠隔操作システムの研究開発がなされてきた．例えば，具体的には，図1に概念図を示すように，人にやさしい遠隔操作技術を，(1)操作者の意図の抽出，(2)半自動遠隔操作，

(3)マルチロボットによるフォーメーション行動，(4)センサ情報の統合・融合，

(5)状況の特定・理解，(6)情報支援，(7)操作者の注意領域の抽出と定義し，これまでに様々な方法論の確立を行う必要がある．

図2.1. 災害時における人にやさしい遠隔操作とマルチロボットによる探索

2.1.1．マルチロボットフォーメーション

本研究と特に関係が深いのが，マルチロボットによるフォーメーション行動である．マルチロボットを用いた環境探索において，単体の集合以上の効果を創発し，計測の問題を解決する上で重要なことは，ロボット同士の相対位置関係を適切に制御することにある．つまり，ロボット間の距離や相対角度を適切に保つフォーメーションの形成が重要となる．さらに，センサの性能や物理的な配置を意識して構成する協調的フォーメーションにより，より効果的な環境探索とモニタリングが可能となる．また，マルチロボットにおける遠隔操作では，複数のロボットを扱うためにより操作者の負担が増加するといった問題が追加され，制御に関してはフォーメーションの形成というタスクが増え，より高度な制御が必要になるという問題が追加される．複数のロボットを用いた環境探索・モニタリングシステムを操作者の負担の少ない遠隔操作システムとして実現するためには，個々のロボットがただ操作者の命令通りに行動するのではなく，フォーメーションを構成する集団としての知能と障害物回避などの個としての知能を統

(9)

合した行動を取る，自律分散的なマルチロボットシステムを構築する必要がある．システムの要素としてはヒューマンインタフェースデバイスや操作者の意図抽出を行うシステム，フォーメーション形成のためロボット制御アーキテクチャなどがある．現在までに，マルチロボットの隊列走行[11-17]やタスクに合わせたロボットの配置[18-20]を扱う研究は多くなされてきたが，単に隊列を組むことや物体の囲い込みを達成することだけを目的としたものがほとんどであり，

実際にマルチロボットを操作し環境探索やモニタリングを行う研究はあまり行われていない．効率的な分散センシングやモニタリングを行うためには，状況に応じた適切なフォーメーションの形状やフォーメーションの切替についての議論が必要である．

2.1.2．マルチロボットを用いた状況の特定と理解

未知環境において，一刻も早く，環境の状態を推定し，災害状況を認識するためには，2 次元地図の構築や 3 次元地図の構築などを必要とする．近年、

Simultaneous Localization and Mapping (SLAM)に関する様々な方法論が提案されている。基本的に、画像情報や距離情報を用いて地図構築がなされるが、高速かつ、精度の高い地図構築を行うためには、環境状況に依存した情報計測が必要になる。屋外環境における環境認識技術に対して，近年，LiDARなどの 3 次元距離計測センサを用いた研究が盛んに行われている．このような研究では，3次元点群データを用いることによって，3次元モデルを生成し，生成されたモデルからロボットが移動に必要な 3 次元の経路計画や移動の際に必要な路面状態の推定などを行なうことによって，ロボットの屋外におけるより頑健な行動を実現している．このような3次元モデルの生成，3次元点群処理を効率良く行なうためには，3次元点群における特徴点・量の抽出を行う必要があり，エッジや法線ベクトルの推定など様々なソフトウェアを主体とした手法がこれまでに提案されている．また，マルチロボットシステムを適用するためには，ロボット同士の相対位置を把握しなければならない．例えば，構築された同一の地図上で各ロボットの自己位置推定を行う手法など，様々な物が提案されている．

しかしながら，災害現場では不整地が多く，人間が認識可能な 3 次元環境地図の構築だけで無く，実際に，ロボットを移動させることにより，災害現場での移動や作業の可能性を認識する必要がある．さらに，危険な災害現場において，

全てのロボットに，LiDAR などの高価なセンサを搭載することができず，救助を必要としている人間の検出には，バイタルセンサなどを搭載しつつ，より広範な範囲を，できるだけ多くのロボットを導入することにより，迅速にタスクを行うことが要求される．したがって，災害現場にマルチロボットを導入し，実際に移動させることにより，環境の状況認識を行うための方法論が必要になる．この

(10)

ように，ロボットの移動の観点から環境の状況認識を行うためには，強化学習で用いられているような状態価値関数や行動価値関数の同定が役に立つ．また，類似のロボットを複数，導入することにより，高速にこれらの価値関数の推定を行えるようになる．したがって，本研究では，マルチロボットを用いた強化学習の方法論に焦点をあてる．以下，マルチロボットとマルチエージェントに関する関連研究，強化学習に関する方法論について説明する．

図2.2 基本的なエージェントの枠組み

2.2．マルチロボットとマルチエージェント

ここでは，マルチロボットに関する議論を行う前に，マルチロボットと深く関係する理論的研究であるマルチエージェントについて，その研究背景や方法論について，概説する．

2.2.1．エージェント

エージェントとは，一般的な意味では自分の変わりになにかを行ってくれる代理人のことをいうが，コンピュータにおける意味では，図2.2に示すように，

「エージェントはある環境をセンサである受容器 (detector) を用いて知覚し (percept) し，効果器(effector) を通して行動 (action) するものである」と述べている[21]．このとき，知覚した情報を実際の行動に変換する知的メカニズムもエージェントの構成要素となる．人間の処理に例えると目から情報を知覚し，それを脳で処理し，その結果を筋肉に伝えて行動するものと考えることができる．

(11)

ロボットで例えると，受容器はカメラや赤外線センサに相当し，効果器はアームや車輪などのモータに相当する．そして，これらのエージェントが集まった集団をマルチエージェントと呼ぶ．

2.2.2 マルチエージェントシステムの概要

問題を解決するために，複数のエージェントが，個々の知識や目標・技術などを調整し，集団でどのように行動をするか研究する分野をマルチエージェントシステムと呼ぶ[22]．例えば，複雑系の分析には，従来のような集中管理型システムトップダウン的なアプローチは難しく，多数の自律的な個体の相互作用によって全体を創出するボトムアップ的なアプローチが適しているとされる．個のエージェントは群知用におけるエージェントと比べ高次な知能を持っており，

知覚した環境の状況を基に自らの行動を決定することができる．エージェントごとに個性を持たせ，人間社会の社会システムのシミュレーションなどに用いられる．個々の役割分担が明確になるほど，システムの柔軟性，ロバスト性は低下する．また，MASにおける相互作用には協調と競合がある．協調ではエージェント同士が相互補完を行うことで，ただのエージェントの集合以上の効果を創発するなどし，競合ではエージェント同士のタスクや行動の迎合により互いに阻害し合う関係の中で起きる現象をシミュレートするなどする．サッカーなどのスポーツのシミュレーションでは，協調と競合の両方を対象として強化学習や遺伝的アルゴリズムを適用する研究が行われており，同じチーム内での協調行動や協調的フォーメーション，対戦チーム間での競合行動や競合的フォーメーションについて議論されている．一方，工学的な立場からは，マルチエージェントシステムのもつ頑強性，柔軟性，負荷分散といった性質から，新しいボトムアップ的なシステム設計手法として期待がかかる．それらは自律分散システムや自己組織化などについて議論されている．

マルチエージェントシステムには次の4つの特徴があると指摘されている。

(1) エージェントは制限された能力で不完全な野情報を扱う (2) システムの制御は分散している

(3) データや情報は分散している (4) 計算は非同期的に行われる

マルチエージェントシステムはシングルエージェントシステムに比べて以下のような利点があることが言われている．

・問題解決能力

(12)

最初の利点は，問題解決能力の向上である．例えば，1 個体のエージェントではできないことが，複数のエージェントになればできるようになる．または，1 個体の能力が低くても複数が協力することで，1 個体の場合よりも学習が効率良くなり，効果的な学習が行うことができる．

・適応能力

次の利点は，適応能力である．例えば，問題の規模が大きくなった場合や複雑になった場合に対して，マルチエージェントシステムでは，新たにエージェントを追加したり，エージェント間の相互作用を調整することでうまく対処できる可能性がある．

・ロバスト性

さらに，ロバスト性もマルチエージェントシステムの利点である．例えば，

あるエージェントが故障などで動かなくなったとしても，他のエージェントが代わりをすることで，マルチエージェントシステム全体の処理の停止を防ぐことが可能になる．

・並列性

マルチエージェントシステムの利点には，並列性もある．例えば，エージェント間の整合性をとる処理が少ない問題の場合，エージェントは同時に別のことができるので，全体の処理の高速化と効率をよくすることができる可能性が高い[23]．

・モジュール性

最後の利点は，モジュール性である．マルチエージェントシステムはエージェント単位でモジュール化されているので，はじめからシステムの詳細設計をしなくても，設計済みのエージェントを使ったり，組み合わせることによって設計するためのコストと時間を抑えることができる可能性がある．また，システムのテストや管理もエージェント単位で簡単に行うことができる．

2.2.3 マルチエージェントシステムの問題点

マルチエージェント学習は，シングルエージェント学習の問題が残るだけでなく、マルチエージェント固有の問題が新たに生じるため、難しくなっている．

代表的な問題として、以下の4つが挙げられる。

(13)

(1) 状態空間の爆発問題

状態空間の爆発問題とは，各状態におけるエージェントのとる行動の組み合わせが多すぎて，理論的には実行できても実行した時に，とてつもなく時間がかかってしまったり，メモリが不足してしまう問題である．これは状態空間を適切に設計すれば，ある程度，状態空間の爆発を抑えることができる．

しかし，マルチエージェントシステムでは，仮に適切に状態空間が設計できたとしても状態空間の爆発を避けることが難しい．それは，シングルエージェントシステムでは1つの状態と行動の組み合わせを考えればよいが，マルチエージェントシステムでは他のエージェントの状態や行動の組み合わせをもすべて考えなければならないためである．

(2) 同時学習問題

同時学習問題とは，複数のエージェントが各々で学習する場合に，自分の学習した結果が自分の行動によるものか，他のエージェントによるものか判断することが困難なために適切な学習ができない問題である．これは複数のエージェントが学習するたびに，各エージェントにおける環境(他のエージェントも含む)が動的に変化することが原因となっている．そのため，静的環境を学習するシングルエージェントと比べると難しさが異なる．

(3) 不完全知覚問題

不完全知覚問題とは，エージェントの知覚情報が限られているために別の状態を同じ状態として知覚するために適切な学習ができない問題である．

(4) 信頼度割り当て問題

信頼度割り当て問題とは，エージェントに報酬をどのように割り当てれば，

与えられた問題を解決できるのか，あるいは，問題解決効率を向上させるのかという問題である．言い換えれば，どのように報酬を配分すればよいかという問題である．この問題は次の2つに分類することができる．

・エージェント内の信頼度割当て問題

エージェントが複数の行動を行って問題を解決したときに，どの行動にどれだけの報酬を割り当てるべきかという課題をエージェント内の信頼度割り当て問題と呼ぶ．これは，シングルエージェントシステムの問題であるが，

マルチエージェントシステムでも取り組むべき問題である．

・エージェント間の信頼度割り当て問題

(14)

複数のエージェントが協力して問題を解決したときに，どのエージェントにどれだけの報酬を割り当てるべきかという課題をエージェント間の信頼度割り当て問題と呼ぶ．

2.2.4 マルチロボット

マルチエージェントシステムの知見をマルチロボットに応用したシステムをマルチエージェントロボットシステムと言う．日本工業規格（JIS）では「ロボットそれ自身，又は，ロボット内部の機能をそれぞれ自律して働くエージェントとみなして構成した複数台ロボットシステム」と定義されている．群ロボット工学が対象とする個のロボットと比較した場合，マルチエージェントロボットシステムで扱うロボットは個の知能が高く，1 台でも比較的複雑なタスクを処理可能な場合が多い．また，通信によりロボット同士で共有される情報の種類・量を多めに設計する場合が多く，全エージェントで共有する記憶領域を持たせる場合もある（黒板モデル）．ロボットの形状や搭載するセンサに差違を持たすなどし，群ロボットに比べ，より複雑なタスクの達成を目指す．ただし，

役割分担が進むほどシステムの柔軟性・ロバスト性は低下する．マルチエージェントロボットシステムの目的は作業効率の向上と複数台を用いることによる新たな価値の創発であるため，ロボット間の相互作用は基本的に協調であり，

競合的な相互作用に関してはあまり議論の対象とならない．本研究もまた，ロボットの協調的なフォーメーションの遠隔操作・モニタリングシステムにおいて有用であることを検証し，他のロボット群などに対する競合的行動などについては扱わない．図 2.3 にマルチエージェントロボットシステムと関連研究との関わりをまとめたものを示す[24]．

(15)

図2.3. マルチエージェントロボットシステムと関連研究[24]

2.3. 強化学習

強化学習 (Reinforcement Learning) とは，本来動物心理学あるいは動物行動学の分野で用いられた用語である．例えば，動物にある行動を起こしたときだけ

えさなどの報酬を与えるという操作を繰り返すと，だんだんとその行動をして

いくようになる．最終的には報酬が与えられなくても，同じような状況におかれるとその行動を起こすようになる．このようにして，報酬を手がかりとして環境に適応する行動パターンを学習することを強化学習という[8]．

強化学習とは，試行錯誤を通して環境に適応していく学習制御の一つである．

(16)

教師付き学習 (Supervised learning) とは違い，現在の状態に対する正しい行動を明確に示す教師が存在しない．代わりに報酬を手がかりに学習するが，報酬にはノイズや遅れがある．そのため，行動を実行した直後の報酬をみるだけでは，

学習自体はその行動が正しいかどうかを判断できない難しさがある．強化学習

の枠組みを図2.4に示す．学習主体「エージェント」と制御対象「環境」は以下

のやり取りを行う[9]．

図2.4 強化学習の枠組み

(1)エージェントは時刻tにおいて環境の状態S(t)に応じて意思決定を行い，行

動a(t)を出力する．

(2)エージェントの行動により，環境はS(t+1)へ状態が移り変わって，その変化

に応じた報酬r(t)をエージェントへ与える．

(17)

(3) 時刻tをt+1に進めてステップ1へ戻る．

エージェントは利得 (return : もっとも単純な場合、報酬の総計) の最大化を目的として，状態観測から行動出力への政策 (policy) を獲得する．環境とエージェントは一般に下記の性質が考えられる．

・エージェントは環境に関する知識を持たない

・環境の状態の変化は確率的

・報酬の与えられ方は確率的

・状態の変化を繰り返した後、やっと報酬へたどり着くような段取り的な行動を必要とする環境(報酬の遅れ)

さらに，制御としての強化学習の特徴として，確実ではない環境を扱うという点である．もう一つの特徴として，報酬に遅れが存在し，設計者がゴールについたら報酬を与えるというふうに，させたい問題をエージェントに指示しておくと，ゴールへ到達するにはエージェントの試行錯誤によって自動的に獲得される．設計者が「何をすべきか」をエージェントに報酬という形で指示をすると「どのように再現するか」をエージェントが学習によって自動的に獲得していくようになっている．

(18)

2.4. 予備実験

本研究では，動的環境で災害現場を対象としているため，環境適応を考慮した強化学習における様々な要因に関する議論を行うため，以下のような問題を考慮する．

・適切な温度係数の調整： exploration - exploitation 問題

ボルツマン選択の温度係数Tにおいて，Tが大きすぎれば最適な行動が選

ばれる確率が低くなり，探索がほぼランダムになってしまう．しかし，Tが

低すぎると序盤で得た報酬に伴い一番Q値が高い行動をとり続け，局所的最

適解に陥ってしまい，最終的に最適な行動を見つけ出すことができなくなっ

てしまう．適切なTを与えてやることで，いい塩梅を見つけ出すことが重要

である．後述の実際の災害現場を想定した動的環境に対応するために，時間とともに変動するTの有効性に関する検討を行う．

・環境変化を想定し，不整地空間の導入に対する学習性能

(19)

コスト関数，ここでは，Rewardに-1を含む領域を作成し，災害現場の障害

物や探索ロボットが動作不可能となる危険区域を想定しり．その結果，ロボットがその場所に近づかないように学習させ，グラフの変化によって学習した結果を考察する．次に、環境変化を想定し， Rewardに探索不可能とした

-1領域を配置したいくつかのパターンを作成し、それを一定の時間経過によ

って変化させる。それにより、学習したQ値の変化に関する考察を行う．

・動的環境における温度係数Tの変化に関する検討

動的環境に適応させるため，一定の温度係数 T ではなく時間経過によって

Tを変化させる．これにより変化した環境を再探索し，最適経路を見つけ直

しだすことが可能である．与えてやるTの種類により，探索の変化を確認す

る．与えてやるTは，機体ごとに定数を保つTをもつもの，基本的にはエピ

ソードが過ぎるごとにTを小さくするが，一定のエピソードごとに１エピソ

ードのみTを一時的に大きくしてやるもの，正弦波のように数値を変動させ

るものの３つを検討している．

(20)

2.4.1．Q-learningに関する基本性能に関する検討

（1）予備実験１

温度係数，学習率，割引率を変化させ動的環境への対応をQ値の変化によって

確認した．環境変化への適応を確認する前に，学習率及び割引率を変化させてQ

値の変化によって学習した結果の変化を確認した．

典型的な Q-Learning を用いて，100 エピソードの学習を学習率，割引率を変

化させて学習の変化を確認した．

パラメータ：温度係数T=0.3，学習率G=0.9，割引率W=0.97

図2.5 予備実験1-1

（グラフはセルのx軸-セルのy軸-セルの最大Q値）

パラメータ T=0.3，G=0.8，W=0.97

(21)

上記の予備実験結果より，予備実験結果 2 において，Q 値の値が下がり，ゴー

ルから遠ざかるほどQ値の値が少なくなりすぎている．

(22)

パラメータ T=0.3 ，G=0.9， W=0.9

予備実験結果3より，Q値の割引率を下げると，Q値の減衰率が大きくなり広

大な環境に対応できなくなることがわかる．

次に，環境変化への適応について温度係数を変化させ，ロボットが自身で環境

変化に対応できているかを確認した．環境を 300 エピソード分学習させた後，

マップを変化させてからの20エピソード後についてそれぞれの温度係数につい

てQ値の変化を確認した．

パラメータ T=0.3 G=0.9 W=0.97

(23)

予備実験４の結果より，最初のマップのQ値に沿った行動を多く行っているた

め，温度が下がった後，環境の変化には対応できていないことがわかる．

(24)

パラメータ T=0.5 G=0.9 W=0.97

温度係数を大きくすることで，ランダムな行動を多くとるようになり，環境変化後も，新しい経路を発見することができているが，まだ学習が不十分である．

パラメータ T=0.9 G=0.9 W=0.97

図2.10 予備実験1-6

(25)

さらに T を大きくすることで新しい経路を早く発見できるようになり，学習自

体は迅速に進ませることができる．しかしながら，ランダムな行動が多いため，

探索に多くのエピソードを必要とする．

（2）予備実験2

環境変化後，温度係数ごとに新たな経路を発見するまでにかかった平均エピソード数及び探索にかかった平均ステップ数についてまとめた．

図2.11 予備実験2-1

（縦軸は新たな経路を発見するまでにかかった平均エピソード数，横軸は温度係数T）

図2.11より，T=0.1では，新たな経路を発見することができていないことがわ

かる．温度係数を大きくすれば，ランダムな探索を多くすることで新たな経路の

(26)

探索を早くできることがわかる．

図2.12 予備実験2-2

（縦軸はエピソード全体の平均ステップ数、横軸は温度係数）

基本的には温度係数を小さくすればランダムな行動を取りにくくなるため，ス

テップ数が大きくなってしまう(T=0.1 と T=0.3 がその通りになっている)．一

方，温度係数を大きくした場合，ランダムな行動を取るため，ステップ数が多くなるはずであるが，この結果では，少なくなっている．これは，近道を発見することにより，状態遷移数が少ない数で新しい経路を早く見つけることにより，探索の効率化がされたことに起因する．

（３）予備実験3

(27)

環境変化前の 100 エピソードと変化後の 100 エピソードについて各セルの訪

問回数を3次元グラフとして表示することで，環境変化への対応を可視化した．

パラメータT=0.3 G=0.9 W=0.97

図2.13 予備実験3-1 （環境変化前：100エピソード）

（X軸はセルのx軸、Y軸はセルのy軸、Z軸はセルの訪問回数）

図2.14 予備実験3-1（環境変化後 100エピソード）

(28)

変化後の 100 エピソードはこの温度係数では新たな経路を発見することができ

ていないが，学習が進むことによりセルへの訪問回数が減っている．

(29)

パラメータT=0.7 G=0.9 W=0.97

図2.15 予備実験3-2（環境変化前 100エピソード）

図2.16 予備実験3-2 （環境変化後 100エピソード後）

温度係数を大きくしてやると，セルへの訪問回数がかなり増えている一方で，新たな経路を早く発見することができている．

(30)

（４）予備実験4

時間とともに温度係数を減少させる温度スケジューリングを組み込んで，エピソードごとにかかった平均ステップ数を，一定の温度係数のものと比較した．

図2.17 予備実験3-1（横軸はエピソード数、縦軸はステップ数）

温度係数を減少させていくと学習途中での収束は早くなる．しかし，最終的な収束値ではあまり変化が見られなかった．環境変化に対応するためには，環境変化を知覚できるのであれば，環境変化後に温度係数をある程度高くしてやる必要がある．どの数値まで高くするかは，初期の温度係数から減少した割合により

(31)

決定することが，効率が良いと思われる．

2.4.2．災害現場におけるQ-learningの定式化

上述の予備実験では，ある初期地点から，目標地点までの移動に関する学習の繰り返しである．つまり，目標地点まで到達した場合，強制的に初期地点に戻る問題である．したがって，災害現場では，災害時のベースステーションが初期地点となるが，救助や物資の輸送が必要となる目標地点が生成されれば，その地点

との往復移動となる．つまり，ベースステーションなどの初期地点を A 地点と

すると，もう一方の地点をB地点とし，A地点からB地点への移動，B 地点か

ら A 地点への移動というような問題が対象となる．ここでは，ゴールからスタ

ートに戻るためにスタート用のQ-tableとゴール用のQ-tableを用意し，帰還用

のアルゴリズムを用意した．また，複数のロボットで行った場合の比較を示す．

(32)

図2.18 予備実験4 シングルロボットとマルチロボット強化学習の比較

設定パラメータ T=0.3 G=0.9 W=0.97 において，シングルロボットとマルチ

ロボット（5機のうちの１機）の結果を表示したものである，マルチロボットを用いることにより，収束もはやく，最適な経路を発見することができている。そして環境変化への対応も早いことがわかる．

2.4.3．予備実験のまとめ

ここでは，動的環境における強化学習の基本性能について，様々な設定パラメタを用いた予備実験を行い，考察した．学習係数や温度変化に対し，センシティブであること，さらには，ロボットの意思決定に対し，移動できないことから，

間接的に環境変化を認識できることを示した．

(33)

第 3 章マルチロボットを用いた環境適応型強化学習

3.1．環境適応型強化学習の定式化

先述の通り，Q-Learning は，行動価値関数を用いた政策を更新しない TD 学習法と考えられる．ここで，を学習係数，を割引率とすると，状態と行動の組に関する価値関数に以下の更新式が適用される．

Q(s_t,a_t)¬Q(s_t,a_t)+a[^r_t+1+g^V^(s_t₊₁⁾-Q(s_t,a_t)]

=(1-a)^Q(st,a_t)+a[^rt+1+g^V(st+1)] ^(3.1)

V(s_t+1)=max

aÎA Q s( _t₊₁,a) ^(3.2)

この更新式では，行動の選択に依存せず，遷移した次の状態における最大の Q

値が更新に用いられることが本来の TD 法とは異なる．このように単純化することにより，エージェントはランダムな行動選択をし続けることにより，近似的に行動価値関数が求められることが知られている．また，行動選択には，ボルツマン選択（Soft-max選択）を用いる．状態stにおける行動aのQ(st, a)に基づく選択確率は，以下のように計算される．

p^(s_t,a)=Pr{a_t =a|s_t}⁼ ^exp(^Q(s^t^,^{a) /}^T)

exp(Q(s_t,b) /T)

bÎA

å ^(3.3)

ここで，Tは温度を表し，温度が低いときは，選好度が高い行動が決定論的に選択され，温度が高いときは，ランダムに行動が選択される．

前章までの予備実験結果などから，動的環境に適応するためには，温度係数T の変化方法や学習係数の設計指針などを考慮する必要がある．環境変化後に，

(34)

Q-tableを効率良く更新するためには，以下に示す二つのことを同時に考える必要がある．

（１）温度係数を高くし，環境変化があったところを中心として，Q-tableを広範囲にわたって再学習を行う

（２）再学習を高速に行うために，学習係数を高くし，学習済みのQ-tableを再構築する．

これらの方法論を実現するために，次に，簡単な実験を行い，基本戦略に関する考察を行う．

3.2．環境変化に関する学習し続けることの影響

ここでは，環境変化に関する議論を行うために，図3.1に示すような二つの環境条件を対象とし，これらの環境条件間での変化に伴う強化学習の学習状況について検討する．図3.1の右の左上をA地点，右下をB地点として， A地点からB地点への移動，B地点からA地点の往復移動を扱う．ここで，Case 1として，環境条件1から2 への変化，Case 2として，環境条件2から1 への変化を扱う．

(a) 環境条件１

(35)

(b) 環境条件２図3.1 二つの環境条件

3.2.1．Case 1：環境条件1から環境条件2への変化

ここでは，A地点とB地点間の往復の移動を対象とし，A地点，B地点への移動について，それぞれがQ-tableを持つ．図中では，障害物が青色の四角，目標地点が赤い円，各セルの外側の円の濃淡が，点(x,y)における Q 値の最大値を表し，ロボットの移動は，各セルの内側の円である．図3.2では，学習初期のため，

温度も比較的高く，ランダムに移動しながら，目標地点に移動している．目標地点を中心として，離れていくにつれて，Q値の最大値が減少している様子が分かる．つまり，Q値の勾配が生じることにより，目標地点までの誘導が可能になる．

(36)

(a) A地点からB地点への移動 (b) B地点からA地点への移動図3.2 学習初期（環境変化前）

(a) A地点からB地点への移動 (b) B地点からA地点への移動

図3.3 学習中期（環境変化直後）

図3.3では，図3.2に比べ，移動しているセルの数が減少しており，exploration

よりexploitationによる学習が進んでいる様子が分かる．また，環境変化により，

突然，右下に移動できる空間が出現したが，温度が低下しているため，その領域への探索（exploration）が行われていない．

(37)

(a) A地点からB地点への移動 (b) B地点からA地点への移動図3.4 学習後期

図3.4では，温度がかなり低下しているため，学習済みのQ-tableを用いて，最短経路での移動を試みている様子が分かるが，右下の空間に関する探索が行われていない．このように，温度が低くなりすぎると，環境変化に対し，探索が困難になるという問題点がある．

3.2.2．Case 2：環境条件2から環境条件1への変化

環境条件2は，障害物が少なく，また，右下が通行可能なため，左上から，下方向への移動に関する純粋な学習が行われる．その後，環境条件 1 に変化するが，その際，右下部分が閉鎖されるため，Q-tableの大幅な再学習が必要となる．

(a) A地点からB地点への移動 (b) B地点からA地点への移動

図3.5 学習中期（環境変化直前）

図 3.5に示すように，環境変化が起こる前には，右下の空間を積極的に利用する形で学習が進んでいる．

(38)

(a) A地点からB地点への移動 (b) B地点からA地点への移動図3.6 学習後期（環境変化後）

図3.6に示すように，環境変化後は，新たに出現した障害物を回避するように，

Q-tableの再学習が行われている．しかしながら図3.6(a)の学習結果では，なだら

かなQ値の変化を学習しているとはいえず，改善の余地がある．

Steps

21 150 300 episodes

図3.7 エピソードにおける意思決定回数の変化

図 3.7に，エピソードにおける意思決定回数（ステップ数）の変化を示す．最初の20エピソードは，乱数の偏りによる探索が不安定なため，学習結果として比較可能な 20 エピソード以降のステップ数を示す．黒い線が直近の 20 エピソードの平均ステップ数を示し，グレーの線が，ステップ数の変化を示し，緑色の直線は，温度の変化を示す．ただし，8000 ステップ以上のステップ数は，標示されていない．温度の初期値は，0.4とし，エピソード終了時に0.99倍しながら，

温度を低下させている．150エピソードまでは，温度の低下とともに，ステップ数が低下している．しかしながら，150 エピソード終了時に環境変化がおこり，

(39)

その後，再学習が行われているが，1エピソードあたり 8000以上のステップ数をたびたび必要としている．また，3台のロボットの 21エピソード以降の総ステップ数は，109万以上になっている．環境変化後に，右上方向に探索を行う必要があるが，図3.5に示すように，右上方向のQ値の最大値が低いため，ボルツマン選択では温度が低いと，温度が低い方への移動を選択する確率が低くなり，

探索が困難になるため，環境変化後に温度を高くする必要がある．さらに，同時に学習率が低いと学習済みのQ-tableの再学習が困難になるため，学習率を上げる必要がある．

3.3．Case 1における環境適応方法

3.2.1の事例では，環境変化の結果，より近い経路をたどることができる可能性

がでてきたが，温度が低くなりすぎると，環境変化に対し，このような新しく生じた空かの探索が困難になるという問題点がある．したがって，常に，ある確率

で，explorationを行う手法を提案する．ここでは，学習係数と温度係数を一時的

に高くするexplorationモードを導入し，このモードへの遷移確率を peで与えることとする．

ここでは，ランダムな探索と環境変化に対し，迅速に局所学習を実現するため，学習係数=0.8，温度係数T=0.8とする．表 3.1に示すような異なる4 種類の設定パラメータを用いた実験結果を図 3.8 から図 3.11 に示す．各ステップにおける遷移確率が非常に小さく，確率的な偏りもあるため，実際の遷移回数は，

確率にあわせて多少，ぶれている．探索回数は，Case 1-1の300回固定の場合は，

探索回数が少ないため，右下の空間の学習が行われていない．一方，Case 1-2から１−４までは，右下の空間の再学習が行われており，遷移確率や探索回数を増やすほど，再学習の可能性が経験的に高くなっている．一方，遷移確率や探索回数を大きくすればするほど，総ステップ数が増加するため，ここでも，exploitation

– exploration間のトレードオフの問題は，ここでも生じうる．

表3.1 Case 1における各種設定パラメタと実験結果

遷移確率pe 探索回数総ステップ数

Case 1-1 0.0001 300回固定 1043359

Case 1-2 0.0001 直近20エピソードの

平均ステップ数×3.0

1066264

1134369

1177263

(40)

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps