• 検索結果がありません。

マルチロボットの強化学習

N/A
N/A
Protected

Academic year: 2021

シェア "マルチロボットの強化学習"

Copied!
52
0
0

読み込み中.... (全文を見る)

全文

(1)

平成 30 年度 修士論文

首都大学東京大学院

システムデザイン研究科 博士前期課程 知能機械システム学域

学修番号 15889519

鈴木博之

指導教員 久保田 直行 教授

平成30 8

災害現場における

マルチロボットの強化学習

(2)

目次

1章 序論 ... 2

1.1 研究背景 ... 2

1.2 研究の目的 ... 5

1.3 論文構成 ... 5

2章 マルチロボットと強化学習 ... 7

2.1.災害時におけるマルチロボットの必要性 ... 7

2.1.1.マルチロボットフォーメーション ... 7

2.1.2.マルチロボットを用いた状況の特定と理解 ... 8

2.2.マルチロボットとマルチエージェント ... 9

2.2.1.エージェント ... 9

2.2.2 マルチエージェントシステムの概要 ... 10

2.2.3 マルチエージェントシステムの問題点 ... 11

2.2.4 マルチロボット ... 13

2.3. 強化学習 ... 14

2.4. 予備実験 ... 17

2.4.1.Q-learningに関する基本性能に関する検討... 19

(3)

2.4.2.災害現場におけるQ-learningの定式化 ... 30

2.4.3.予備実験のまとめ ... 31

3章 マルチロボットを用いた環境適応型強化学習 ... 32

3.1.環境適応型強化学習の定式化 ... 32

3.2.環境変化に関する学習し続けることの影響 ... 33

3.2.1.Case 1:環境条件1から環境条件2への変化 ... 34

3.2.2.Case 2:環境条件2から環境条件1への変化 ... 36

3.3.CASE 1における環境適応方法 ... 38

3.4.CASE 2における環境適応方法 ... 43

4章 まとめ ... 48

参考文献 ... 49

1 章 序論

1.1 研究背景

近年,災害ロボットの分野において,被災地における二次被害を避けるために,

被災地においても頑健に行動できる災害ロボットの開発が望まれている.また,

災害時において,人間が立ち入るには危険が伴い,かつ状況が外部から確認でき ない場所を人命救助などを目的とした探索を行う場合において,人間の代わり にロボットを探索に使用するのが有効な解決法である.実際,2011 年に発生し た福島第一原子力発電所事故では千葉工業大学などが開発する遠隔操作ロボッ

トのQuinceが投入され建物内部の放射線量の測定などを行った[1].現状のロボ

(4)

ットを用いた環境探索の問題点としては,計測の問題,遠隔操作の問題,制御の 問題などが挙げられる.計測の問題とは,ロボット大きさや形状,搭載されたセ ンサの性能などの物理的な要因によって計測が可能な範囲が制限されることな どを指し,遠隔操作の問題とは,操作者に熟練した技術が要求されることなどを 指す.そして,制御の問題とは,操作者の命令をどのようにロボットの出力とし て関連づけるか,危険回避や操作負担軽減のためにどれだけの自律性を持たせ るか,などということを指す.

被災地において,安全かつ迅速にロボットが行動をするためには,移動ロボッ トが環境地図と自己位置を認識し,次の移動経路を推定する必要があるが,災害 現場は時々刻々と変化しうる.また,人間が介入すること無く,ロボットに複雑 なタスクを実行させるために,ロボットに学習機能を搭載する研究が注目されて いる.ロボットの学習には,大きく,教師あり学習,教師無し学習,強化学習に 分類される.特に,強化学習は環境と相互作用を通してロボット自身の制御法を 学習する手法であり,実ロボットへの適用が期待されている.しかし,強化学習は 学習環境の状態空間が膨大である場合,学習が収束するために膨大な時間を要す るという問題がある.また,環境変化が起こった場合,再学習を行う必要がある.

例えば,実際の災害現場での探索を考えると,上述のように,ロボットが探索す る環境は時々刻々と変化する動的環境となる.したがって,ロボット自身が環境 の変化に対応し学習できるよう適切な制御法を必要とする.

一方,近年複数のロボット(マルチロボット)の協調制御に関する研究が注目され ており,大規模な空間や動的環境を対象としたロボットの探索において有効な手 法となることが期待されている.具体的には,ロボットを危険地帯で探索させる 場合,単体よりも複数のロボットで情報を共有し,探索を行うほうが短時間で多 くの情報を得ることが可能となり,環境変化への適応も迅速になり得る.実際,

災害現場や未知環境に対し複数のロボットを投入することで,1台のロボットだ けでは得られない効果を得ようとする研究開発が盛んに行われている[2-7].マ ルチロボットが協調することで,タスク分散による作業時間の短縮や,個々のセ ンサレンジを加味した隊列走行による探索範囲の重複回避が可能になり,作業 効率が向上する.また,マルチロボットの協調により,全体システムは単なるロ ボットの集合以上の効果を得ることができる.例えば,カメラを有するロボット を複数用いることにより 1 台のロボットでは得ることのできない広い視野の獲 得や死角の解消,外向きの環状配置によるパノラマビュー,内向きの環状配置に より物体を多視点で同時に計測する協調モニタリングなどが可能となる.集団 が協調して行動することにより,全体システムの機能が拡張され,単体での計測 では得られない高い次元の情報を得ることができる.このように構成要素間の 相互作用により,集団としての秩序や挙動が現れることを創発と呼ばれる.この

(5)

ような背景のもと,本研究では,マルチロボットの分散的情報収集の利点を生か し強化学習法を提案する.次に,災害現場を想定した動的環境を対象としたコン ピュータシミュレーションを行い,提案手法の有効性について検討する.

強化学習(Reinforcement Learning)とは,報酬を手がかりに環境に適応する行動

パターンを学習する教師なし学習法である[8,9].代表的な強化学習法である Q- learningでは,状態sで行動aを実行する状態-行動価値関数(Q) Q(s, a)の値を,

環境との相互作用から得られる報酬rの値を頼りに更新していく[10].環境変化 を伴わない定常状態での学習では,対象とする環境を膨大な探索回数を用いて,

網羅的に何度も何度も移動することにより行動価値関数を最適化することがで きるが,時々刻々と変化する動的環境では,Exploitation(探索) Exploration( ) 問題を扱う必要がある.ここで,探索とは未知環境の探索を意味し,搾取は 行動価値関数を繰り返し利用することで,最適化を行うことである.探索の比率 が多くなると収束時間が長くなる半面,最適な行動価値関数を求めることがで きる.一方,搾取の比率が多くなると,収束時間が短くなる半面,最適な行動価 値関数を求めることが困難になる.この探索と搾取のトレードオフを調整する ために,ボルツマン選択が用いられる.ボルツマン選択の温度係数Tにおいて,T が大きすぎれば最適な行動が選ばれる確率が低くなり,探索がほぼランダムにな ってしまう.しかし,Tが低すぎると序盤で得た報酬に伴い一番Q値が高い行動を とり続け,局所的最適解に陥ってしまい,最終的に最適な行動を見つけ出すこと ができなくなってしまう.したがって,本研究では,マルチロボットを用いた強 化学習において,動的環境への適応を考慮した方法論について議論を行う.

(6)

1.2 研究の目的

強化学習における重要なパラメタは,意思決定を行うためのボルツマン選択 の温度係数や学習係数であり,これらの設計が強化学習の性能に大きな影響を 与える.マルチロボットを動的環境に適応させるためには,一定の温度係数T はなく時間経過によってTを変化させる方法を提案する.これにより変化した環 境を再探索し,環境変化後に最適経路を見つけ直しだすことが可能である.した がって,本研究では,まず,温度Tに関する複数の変化パターン(以下,温度ス ケジューリング)を用いた予備実験を行うことにより,複数の環境変化のパター ンに対する温度スケジューリングの有効性に関する検討を行う.具体的には,最

100×100 の離散空間を対象とした危険領域回避とナビゲーションタスクを実

行させる.ここで,危険領域が時々刻々と変化するような問題を扱う.

次に,動的環境においてマルチエージェントへと拡張した強化学習法を提案 し,全てのロボットが同じ温度スケジューリングで学習を行った場合の比較(ホ モジニアスマルチエージェント),異なる温度スケジューリングで学習を行った 場合の比較(ヘテロジニアスマルチエージェント)を行い,比較を行う.最後に,

適応的温度スケジューリングに関する方法論を提案し,様々な動的環境を対象 としたコンピュータシミュレーションを行うことにより,提案手法の有効性を 検討する.

1.3 論文構成

本論文は、下記の4つの章で構成されている。

1 章は序論であり,災害現場におけるマルチロボットの必要性や問題点を

述べ,強化学習を適用する利点を述べ,研究の目標を述べている.

2 章では,マルチロボットに関する研究と強化学習の定義や概要を述べ,

様々な利点や解決しなければならない問題点について,予備実験を通して考察 する.

3 章では,マルチロボットを用いた環境適応型強化学習を提案し,様々な

(7)

比較実験を行うことにより,提案手法の有効性について述べる.

4章では,以上の比較実験で得られた結果をまとめて,考察を述べ,アルゴ

リズムの問題点や今後の課題や改良点について述べる.

(8)

2 章 マルチロボットと強化学習

2.1.災害時におけるマルチロボットの必要性

現在に至るまで,様々な移動ロボットが開発され,人にやさしい遠隔操作シス テムの研究開発がなされてきた.例えば,具体的には,図1に概念図を示すよう に,人にやさしい遠隔操作技術を,(1)操作者の意図の抽出,(2)半自動遠隔操作,

(3)マルチロボットによるフォーメーション行動,(4)センサ情報の統合・融合,

(5)状況の特定・理解,(6)情報支援,(7)操作者の注意領域の抽出と定義し,これ までに様々な方法論の確立を行う必要がある.

2.1. 災害時における人にやさしい遠隔操作とマルチロボットによる探索

2.1.1.マルチロボットフォーメーション

本研究と特に関係が深いのが,マルチロボットによるフォーメーション行動で ある.マルチロボットを用いた環境探索において,単体の集合以上の効果を創発 し,計測の問題を解決する上で重要なことは,ロボット同士の相対位置関係を適 切に制御することにある.つまり,ロボット間の距離や相対角度を適切に保つフ ォーメーションの形成が重要となる.さらに,センサの性能や物理的な配置を意 識して構成する協調的フォーメーションにより,より効果的な環境探索とモニ タリングが可能となる.また,マルチロボットにおける遠隔操作では,複数のロ ボットを扱うためにより操作者の負担が増加するといった問題が追加され,制 御に関してはフォーメーションの形成というタスクが増え,より高度な制御が 必要になるという問題が追加される.複数のロボットを用いた環境探索・モニタ リングシステムを操作者の負担の少ない遠隔操作システムとして実現するため には,個々のロボットがただ操作者の命令通りに行動するのではなく,フォーメ ーションを構成する集団としての知能と障害物回避などの個としての知能を統

(9)

合した行動を取る,自律分散的なマルチロボットシステムを構築する必要があ る.システムの要素としてはヒューマンインタフェースデバイスや操作者の意 図抽出を行うシステム,フォーメーション形成のためロボット制御アーキテク チャなどがある.現在までに,マルチロボットの隊列走行[11-17]やタスクに合わ せたロボットの配置[18-20]を扱う研究は多くなされてきたが,単に隊列を組む ことや物体の囲い込みを達成することだけを目的としたものがほとんどであり,

実際にマルチロボットを操作し環境探索やモニタリングを行う研究はあまり行 われていない.効率的な分散センシングやモニタリングを行うためには,状況に 応じた適切なフォーメーションの形状やフォーメーションの切替についての議 論が必要である.

2.1.2.マルチロボットを用いた状況の特定と理解

未知環境において,一刻も早く,環境の状態を推定し,災害状況を認識するた めには,2 次元地図の構築や 3 次元地図の構築などを必要とする.近年、

Simultaneous Localization and Mapping (SLAM)に関する様々な方法論が提案され ている。基本的に、画像情報や距離情報を用いて地図構築がなされるが、高速か つ、精度の高い地図構築を行うためには、環境状況に依存した情報計測が必要に なる。屋外環境における環境認識技術に対して,近年,LiDARなどの 3 次元距 離計測センサを用いた研究が盛んに行われている.このような研究では,3次元 点群データを用いることによって,3次元モデルを生成し,生成されたモデルか らロボットが移動に必要な 3 次元の経路計画や移動の際に必要な路面状態の推 定などを行なうことによって,ロボットの屋外におけるより頑健な行動を実現 している.このような3次元モデルの生成,3次元点群処理を効率良く行なうた めには,3次元点群における特徴点・量の抽出を行う必要があり,エッジや法線 ベクトルの推定など様々なソフトウェアを主体とした手法がこれまでに提案さ れている.また,マルチロボットシステムを適用するためには,ロボット同士の 相対位置を把握しなければならない.例えば,構築された同一の地図上で各ロボ ットの自己位置推定を行う手法など,様々な物が提案されている.

しかしながら,災害現場では不整地が多く,人間が認識可能な 3 次元環境地 図の構築だけで無く,実際に,ロボットを移動させることにより,災害現場での 移動や作業の可能性を認識する必要がある.さらに,危険な災害現場において,

全てのロボットに,LiDAR などの高価なセンサを搭載することができず,救助 を必要としている人間の検出には,バイタルセンサなどを搭載しつつ,より広範 な範囲を,できるだけ多くのロボットを導入することにより,迅速にタスクを行 うことが要求される.したがって,災害現場にマルチロボットを導入し,実際に 移動させることにより,環境の状況認識を行うための方法論が必要になる.この

(10)

ように,ロボットの移動の観点から環境の状況認識を行うためには,強化学習で 用いられているような状態価値関数や行動価値関数の同定が役に立つ.また,類 似のロボットを複数,導入することにより,高速にこれらの価値関数の推定を行 えるようになる.したがって,本研究では,マルチロボットを用いた強化学習の 方法論に焦点をあてる.以下,マルチロボットとマルチエージェントに関する関 連研究,強化学習に関する方法論について説明する.

2.2 基本的なエージェントの枠組み

2.2.マルチロボットとマルチエージェント

ここでは,マルチロボットに関する議論を行う前に,マルチロボットと深く関 係する理論的研究であるマルチエージェントについて,その研究背景や方法論 について,概説する.

2.2.1.エージェント

エージェントとは,一般的な意味では自分の変わりになにかを行ってくれる 代理人のことをいうが,コンピュータにおける意味では,図2.2に示すように,

「エージェントはある環境をセンサである受容器 (detector) を用いて知覚し (percept) し,効果器(effector) を通して行動 (action) するものである」と述べ ている[21].このとき,知覚した情報を実際の行動に変換する知的メカニズムも エージェントの構成要素となる.人間の処理に例えると目から情報を知覚し,そ れを脳で処理し,その結果を筋肉に伝えて行動するものと考えることができる.

(11)

ロボットで例えると,受容器はカメラや赤外線センサに相当し,効果器はアーム や車輪などのモータに相当する.そして,これらのエージェントが集まった集団 をマルチエージェントと呼ぶ.

2.2.2 マルチエージェントシステムの概要

問題を解決するために,複数のエージェントが,個々の知識や目標・技術など を調整し,集団でどのように行動をするか研究する分野をマルチエージェント システムと呼ぶ[22].例えば,複雑系の分析には,従来のような集中管理型シス テムトップダウン的なアプローチは難しく,多数の自律的な個体の相互作用に よって全体を創出するボトムアップ的なアプローチが適しているとされる.個 のエージェントは群知用におけるエージェントと比べ高次な知能を持っており,

知覚した環境の状況を基に自らの行動を決定することができる.エージェント ごとに個性を持たせ,人間社会の社会システムのシミュレーションなどに用い られる.個々の役割分担が明確になるほど,システムの柔軟性,ロバスト性は 低下する.また,MASにおける相互作用には協調と競合がある.協調ではエー ジェント同士が相互補完を行うことで,ただのエージェントの集合以上の効果 を創発するなどし,競合ではエージェント同士のタスクや行動の迎合により互 いに阻害し合う関係の中で起きる現象をシミュレートするなどする.サッカー などのスポーツのシミュレーションでは,協調と競合の両方を対象として強化 学習や遺伝的アルゴリズムを適用する研究が行われており,同じチーム内での 協調行動や協調的フォーメーション,対戦チーム間での競合行動や競合的フォ ーメーションについて議論されている.一方,工学的な立場からは,マルチエ ージェントシステムのもつ頑強性,柔軟性,負荷分散といった性質から,新し いボトムアップ的なシステム設計手法として期待がかかる.それらは自律分散 システムや自己組織化などについて議論されている.

マルチエージェントシステムには次の4つの特徴があると指摘されている。

(1) エージェントは制限された能力で不完全な野情報を扱う (2) システムの制御は分散している

(3) データや情報は分散している (4) 計算は非同期的に行われる

マルチエージェントシステムはシングルエージェントシステムに比べて以下 のような利点があることが言われている.

問題解決能力

(12)

最初の利点は,問題解決能力の向上である.例えば,1 個体のエージェン トではできないことが,複数のエージェントになればできるようになる.ま たは,1 個体の能力が低くても複数が協力することで,1 個体の場合よりも 学習が効率良くなり,効果的な学習が行うことができる.

適応能力

次の利点は,適応能力である.例えば,問題の規模が大きくなった場合や 複雑になった場合に対して,マルチエージェントシステムでは,新たにエー ジェントを追加したり,エージェント間の相互作用を調整することでうまく 対処できる可能性がある.

ロバスト性

さらに,ロバスト性もマルチエージェントシステムの利点である.例えば,

あるエージェントが故障などで動かなくなったとしても,他のエージェント が代わりをすることで,マルチエージェントシステム全体の処理の停止を防 ぐことが可能になる.

並列性

マルチエージェントシステムの利点には,並列性もある.例えば,エージ ェント間の整合性をとる処理が少ない問題の場合,エージェントは同時に別 のことができるので,全体の処理の高速化と効率をよくすることができる可 能性が高い[23].

モジュール性

最後の利点は,モジュール性である.マルチエージェントシステムはエー ジェント単位でモジュール化されているので,はじめからシステムの詳細設 計をしなくても,設計済みのエージェントを使ったり,組み合わせることに よって設計するためのコストと時間を抑えることができる可能性がある.ま た,システムのテストや管理もエージェント単位で簡単に行うことができる.

2.2.3 マルチエージェントシステムの問題点

マルチエージェント学習は,シングルエージェント学習の問題が残るだけでな く、マルチエージェント固有の問題が新たに生じるため、難しくなっている.

代表的な問題として、以下の4つが挙げられる。

(13)

(1) 状態空間の爆発問題

状態空間の爆発問題とは,各状態におけるエージェントのとる行動の組み 合わせが多すぎて,理論的には実行できても実行した時に,とてつもなく時 間がかかってしまったり,メモリが不足してしまう問題である.これは状態 空間を適切に設計すれば,ある程度,状態空間の爆発を抑えることができる.

しかし,マルチエージェントシステムでは,仮に適切に状態空間が設計でき たとしても状態空間の爆発を避けることが難しい.それは,シングルエージ ェントシステムでは1つの状態と行動の組み合わせを考えればよいが,マル チエージェントシステムでは他のエージェントの状態や行動の組み合わせ をもすべて考えなければならないためである.

(2) 同時学習問題

同時学習問題とは,複数のエージェントが各々で学習する場合に,自分の 学習した結果が自分の行動によるものか,他のエージェントによるものか判 断することが困難なために適切な学習ができない問題である.これは複数の エージェントが学習するたびに,各エージェントにおける環境(他のエージェ ントも含む)が動的に変化することが原因となっている.そのため,静的環境 を学習するシングルエージェントと比べると難しさが異なる.

(3) 不完全知覚問題

不完全知覚問題とは,エージェントの知覚情報が限られているために別の 状態を同じ状態として知覚するために適切な学習ができない問題である.

(4) 信頼度割り当て問題

信頼度割り当て問題とは,エージェントに報酬をどのように割り当てれば,

与えられた問題を解決できるのか,あるいは,問題解決効率を向上させるの かという問題である.言い換えれば,どのように報酬を配分すればよいかと いう問題である.この問題は次の2つに分類することができる.

エージェント内の信頼度割当て問題

エージェントが複数の行動を行って問題を解決したときに,どの行動にど れだけの報酬を割り当てるべきかという課題をエージェント内の信頼度割 り当て問題と呼ぶ.これは,シングルエージェントシステムの問題であるが,

マルチエージェントシステムでも取り組むべき問題である.

エージェント間の信頼度割り当て問題

(14)

複数のエージェントが協力して問題を解決したときに,どのエージェント にどれだけの報酬を割り当てるべきかという課題をエージェント間の信頼 度割り当て問題と呼ぶ.

2.2.4 マルチロボット

マルチエージェントシステムの知見をマルチロボットに応用したシステムを マルチエージェントロボットシステムと言う.日本工業規格(JIS)では「ロボ ットそれ自身,又は,ロボット内部の機能をそれぞれ自律して働くエージェン トとみなして構成した複数台ロボットシステム」と定義されている.群ロボッ ト工学が対象とする個のロボットと比較した場合,マルチエージェントロボッ トシステムで扱うロボットは個の知能が高く,1 台でも比較的複雑なタスクを 処理可能な場合が多い.また,通信によりロボット同士で共有される情報の種 類・量を多めに設計する場合が多く,全エージェントで共有する記憶領域を持 たせる場合もある(黒板モデル).ロボットの形状や搭載するセンサに差違を持 たすなどし,群ロボットに比べ,より複雑なタスクの達成を目指す.ただし,

役割分担が進むほどシステムの柔軟性・ロバスト性は低下する.マルチエージ ェントロボットシステムの目的は作業効率の向上と複数台を用いることによる 新たな価値の創発であるため,ロボット間の相互作用は基本的に協調であり,

競合的な相互作用に関してはあまり議論の対象とならない.本研究もまた,ロ ボットの協調的なフォーメーションの遠隔操作・モニタリングシステムにおい て有用であることを検証し,他のロボット群などに対する競合的行動などにつ いては扱わない.図 2.3 にマルチエージェントロボットシステムと関連研究と の関わりをまとめたものを示す[24].

(15)

2.3. マルチエージェントロボットシステムと関連研究[24]

2.3. 強化学習

強化学習 (Reinforcement Learning) とは,本来動物心理学あるいは動物行動 学の分野で用いられた用語である.例えば,動物にある行動を起こしたときだけ

えさなどの報酬を与えるという操作を繰り返すと,だんだんとその行動をして

いくようになる.最終的には報酬が与えられなくても,同じような状況におかれ るとその行動を起こすようになる.このようにして,報酬を手がかりとして環境 に適応する行動パターンを学習することを強化学習という[8].

強化学習とは,試行錯誤を通して環境に適応していく学習制御の一つである.

(16)

教師付き学習 (Supervised learning) とは違い,現在の状態に対する正しい行動 を明確に示す教師が存在しない.代わりに報酬を手がかりに学習するが,報酬に はノイズや遅れがある.そのため,行動を実行した直後の報酬をみるだけでは,

学習自体はその行動が正しいかどうかを判断できない難しさがある.強化学習

の枠組みを図2.4に示す.学習主体「エージェント」と制御対象「環境」は以下

のやり取りを行う[9].

2.4 強化学習の枠組み

(1)エージェントは時刻tにおいて環境の状態S(t)に応じて意思決定を行い,行

a(t)を出力する.

(2)エージェントの行動により,環境はS(t+1)へ状態が移り変わって,その変化

に応じた報酬r(t)をエージェントへ与える.

(17)

(3) 時刻tt+1に進めてステップ1へ戻る.

エージェントは利得 (return : もっとも単純な場合、報酬の総計) の最大化 を目的として,状態観測から行動出力への政策 (policy) を獲得する.環境と エージェントは一般に下記の性質が考えられる.

・エージェントは環境に関する知識を持たない

・環境の状態の変化は確率的

・報酬の与えられ方は確率的

・状態の変化を繰り返した後、やっと報酬へたどり着くような段取り的な行 動を必要とする環境(報酬の遅れ)

さらに,制御としての強化学習の特徴として,確実ではない環境を扱うという 点である.もう一つの特徴として,報酬に遅れが存在し,設計者がゴールについ たら報酬を与えるというふうに,させたい問題をエージェントに指示しておく と,ゴールへ到達するにはエージェントの試行錯誤によって自動的に獲得され る.設計者が「何をすべきか」をエージェントに報酬という形で指示をすると「ど のように再現するか」をエージェントが学習によって自動的に獲得していくよ うになっている.

(18)

2.4. 予備実験

本研究では,動的環境で災害現場を対象としているため,環境適応を考慮した 強化学習における様々な要因に関する議論を行うため,以下のような問題を考 慮する.

適切な温度係数の調整: exploration - exploitation 問題

ボルツマン選択の温度係数Tにおいて,Tが大きすぎれば最適な行動が選

ばれる確率が低くなり,探索がほぼランダムになってしまう.しかし,T

低すぎると序盤で得た報酬に伴い一番Q値が高い行動をとり続け,局所的最

適解に陥ってしまい,最終的に最適な行動を見つけ出すことができなくなっ

てしまう.適切なTを与えてやることで,いい塩梅を見つけ出すことが重要

である.後述の実際の災害現場を想定した動的環境に対応するために,時間 とともに変動するTの有効性に関する検討を行う.

環境変化を想定し,不整地空間の導入に対する学習性能

(19)

コスト関数,ここでは,Rewardに-1を含む領域を作成し,災害現場の障害

物や探索ロボットが動作不可能となる危険区域を想定しり.その結果,ロボ ットがその場所に近づかないように学習させ,グラフの変化によって学習し た結果を考察する.次に、環境変化を想定し, Rewardに探索不可能とした

-1領域を配置したいくつかのパターンを作成し、それを一定の時間経過によ

って変化させる。それにより、学習したQ値の変化に関する考察を行う.

・動的環境における温度係数Tの変化に関する検討

動的環境に適応させるため,一定の温度係数 T ではなく時間経過によって

Tを変化させる.これにより変化した環境を再探索し,最適経路を見つけ直

しだすことが可能である.与えてやるTの種類により,探索の変化を確認す

る.与えてやるTは,機体ごとに定数を保つTをもつもの,基本的にはエピ

ソードが過ぎるごとにTを小さくするが,一定のエピソードごとに1エピソ

ードのみTを一時的に大きくしてやるもの,正弦波のように数値を変動させ

るものの3つを検討している.

(20)

2.4.1.Q-learningに関する基本性能に関する検討

(1)予備実験1

温度係数,学習率,割引率を変化させ動的環境への対応をQ値の変化によって

確認した.環境変化への適応を確認する前に,学習率及び割引率を変化させてQ

値の変化によって学習した結果の変化を確認した.

典型的な Q-Learning を用いて,100 エピソードの学習を学習率,割引率を変

化させて学習の変化を確認した.

パラメータ:温度係数T=0.3,学習率G=0.9,割引率W=0.97

2.5 予備実験1-1

(グラフはセルのx軸-セルのy軸-セルの最大Q値)

パラメータ T=0.3,G=0.8,W=0.97

(21)

2.6 予備実験1-2

上記の予備実験結果より,予備実験結果 2 において,Q 値の値が下がり,ゴー

ルから遠ざかるほどQ値の値が少なくなりすぎている.

(22)

パラメータ T=0.3 ,G=0.9, W=0.9

2.7 予備実験1-3

予備実験結果3より,Q値の割引率を下げると,Q値の減衰率が大きくなり広

大な環境に対応できなくなることがわかる.

次に,環境変化への適応について温度係数を変化させ,ロボットが自身で環境

変化に対応できているかを確認した.環境を 300 エピソード分学習させた後,

マップを変化させてからの20エピソード後についてそれぞれの温度係数につい

Q値の変化を確認した.

パラメータ T=0.3 G=0.9 W=0.97

(23)

2.8 予備実験1-4

予備実験4の結果より,最初のマップのQ値に沿った行動を多く行っているた

め,温度が下がった後,環境の変化には対応できていないことがわかる.

(24)

パラメータ T=0.5 G=0.9 W=0.97

2.9 予備実験1-5

温度係数を大きくすることで,ランダムな行動を多くとるようになり,環境変 化後も,新しい経路を発見することができているが,まだ学習が不十分である.

パラメータ T=0.9 G=0.9 W=0.97

2.10 予備実験1-6

(25)

さらに T を大きくすることで新しい経路を早く発見できるようになり,学習自

体は迅速に進ませることができる.しかしながら,ランダムな行動が多いため,

探索に多くのエピソードを必要とする.

(2)予備実験2

環境変化後,温度係数ごとに新たな経路を発見するまでにかかった平均エピソ ード数及び探索にかかった平均ステップ数についてまとめた.

2.11 予備実験2-1

(縦軸は新たな経路を発見するまでにかかった平均エピソード数,横軸は温度 係数T)

2.11より,T=0.1では,新たな経路を発見することができていないことがわ

かる.温度係数を大きくすれば,ランダムな探索を多くすることで新たな経路の

(26)

探索を早くできることがわかる.

2.12 予備実験2-2

(縦軸はエピソード全体の平均ステップ数、横軸は温度係数)

基本的には温度係数を小さくすればランダムな行動を取りにくくなるため,ス

テップ数が大きくなってしまう(T=0.1 T=0.3 がその通りになっている).一

方,温度係数を大きくした場合,ランダムな行動を取るため,ステップ数が多く なるはずであるが,この結果では,少なくなっている.これは,近道を発見する ことにより,状態遷移数が少ない数で新しい経路を早く見つけることにより,探 索の効率化がされたことに起因する.

(3)予備実験3

(27)

環境変化前の 100 エピソードと変化後の 100 エピソードについて各セルの訪

問回数を3次元グラフとして表示することで,環境変化への対応を可視化した.

パラメータT=0.3 G=0.9 W=0.97

2.13 予備実験3-1 (環境変化前:100エピソード)

(X軸はセルのx軸、Y軸はセルのy軸、Z軸はセルの訪問回数)

2.14 予備実験3-1(環境変化後 100エピソード)

(28)

変化後の 100 エピソードはこの温度係数では新たな経路を発見することができ

ていないが,学習が進むことによりセルへの訪問回数が減っている.

(29)

パラメータT=0.7 G=0.9 W=0.97

2.15 予備実験3-2(環境変化前 100エピソード)

2.16 予備実験3-2 (環境変化後 100エピソード後)

温度係数を大きくしてやると,セルへの訪問回数がかなり増えている一方で,新 たな経路を早く発見することができている.

(30)

(4)予備実験4

時間とともに温度係数を減少させる温度スケジューリングを組み込んで,エピ ソードごとにかかった平均ステップ数を,一定の温度係数のものと比較した.

2.17 予備実験3-1(横軸はエピソード数、縦軸はステップ数)

温度係数を減少させていくと学習途中での収束は早くなる.しかし,最終的な 収束値ではあまり変化が見られなかった.環境変化に対応するためには,環境変 化を知覚できるのであれば,環境変化後に温度係数をある程度高くしてやる必 要がある.どの数値まで高くするかは,初期の温度係数から減少した割合により

(31)

決定することが,効率が良いと思われる.

2.4.2.災害現場におけるQ-learningの定式化

上述の予備実験では,ある初期地点から,目標地点までの移動に関する学習の 繰り返しである.つまり,目標地点まで到達した場合,強制的に初期地点に戻る 問題である.したがって,災害現場では,災害時のベースステーションが初期地 点となるが,救助や物資の輸送が必要となる目標地点が生成されれば,その地点

との往復移動となる.つまり,ベースステーションなどの初期地点を A 地点と

すると,もう一方の地点をB地点とし,A地点からB地点への移動,B 地点か

A 地点への移動というような問題が対象となる.ここでは,ゴールからスタ

ートに戻るためにスタート用のQ-tableとゴール用のQ-tableを用意し,帰還用

のアルゴリズムを用意した.また,複数のロボットで行った場合の比較を示す.

(32)

2.18 予備実験4 シングルロボットとマルチロボット強化学習の比較

設定パラメータ T=0.3 G=0.9 W=0.97 において,シングルロボットとマルチ

ロボット(5機のうちの1機)の結果を表示したものである,マルチロボットを 用いることにより,収束もはやく,最適な経路を発見することができている。そ して環境変化への対応も早いことがわかる.

2.4.3.予備実験のまとめ

ここでは,動的環境における強化学習の基本性能について,様々な設定パラメ タを用いた予備実験を行い,考察した.学習係数や温度変化に対し,センシティ ブであること,さらには,ロボットの意思決定に対し,移動できないことから,

間接的に環境変化を認識できることを示した.

(33)

3 章 マルチロボットを用いた環境適応型強化学習

3.1.環境適応型強化学習の定式化

先述の通り,Q-Learning は,行動価値関数を用いた政策を更新しない TD 習法と考えられる.ここで,を学習係数,を割引率とすると,状態と行動の組 に関する価値関数に以下の更新式が適用される.

Q(st,at)¬Q(st,at)+a[rt+1+gV(st+1)-Q(st,at)]

=(1-a)Q(st,at)+a[rt+1+gV(st+1)] (3.1)

V(st+1)=max

aÎA Q s( t+1,a) (3.2)

この更新式では,行動の選択に依存せず,遷移した次の状態における最大の Q

値が更新に用いられることが本来の TD 法とは異なる.このように単純化する ことにより,エージェントはランダムな行動選択をし続けることにより,近似的 に行動価値関数が求められることが知られている.また,行動選択には,ボルツ マン選択(Soft-max選択)を用いる.状態stにおける行動aQ(st, a)に基づく 選択確率は,以下のように計算される.

p(st,a)=Pr{at =a|st}= exp(Q(st,a) /T)

exp(Q(st,b) /T)

A

å (3.3)

ここで,Tは温度を表し,温度が低いときは,選好度が高い行動が決定論的に選 択され,温度が高いときは,ランダムに行動が選択される.

前章までの予備実験結果などから,動的環境に適応するためには,温度係数T の変化方法や学習係数の設計指針などを考慮する必要がある.環境変化後に,

(34)

Q-tableを効率良く更新するためには,以下に示す二つのことを同時に考える必 要がある.

(1)温度係数を高くし,環境変化があったところを中心として,Q-tableを広 範囲にわたって再学習を行う

(2)再学習を高速に行うために,学習係数を高くし,学習済みのQ-tableを再 構築する.

これらの方法論を実現するために,次に,簡単な実験を行い,基本戦略に関する 考察を行う.

3.2.環境変化に関する学習し続けることの影響

ここでは,環境変化に関する議論を行うために,図3.1に示すような二つの環 境条件を対象とし,これらの環境条件間での変化に伴う強化学習の学習状況に ついて検討する.図3.1の右の左上をA地点,右下をB地点として, A地点か B地点への移動,B地点からA地点の往復移動を扱う.ここで,Case 1とし て,環境条件1から2 への変化,Case 2として,環境条件2から1 への変化を 扱う.

(a) 環境条件1

(35)

(b) 環境条件2 3.1 二つの環境条件

3.2.1.Case 1:環境条件1から環境条件2への変化

ここでは,A地点とB地点間の往復の移動を対象とし,A地点,B地点への移 動について,それぞれがQ-tableを持つ.図中では,障害物が青色の四角,目標 地点が赤い円,各セルの外側の円の濃淡が,点(x,y)における Q 値の最大値を表 し,ロボットの移動は,各セルの内側の円である.図3.2では,学習初期のため,

温度も比較的高く,ランダムに移動しながら,目標地点に移動している.目標地 点を中心として,離れていくにつれて,Q値の最大値が減少している様子が分か る.つまり,Q値の勾配が生じることにより,目標地点までの誘導が可能になる.

(36)

(a) A地点からB地点への移動 (b) B地点からA地点への移動 3.2 学習初期(環境変化前)

(a) A地点からB地点への移動 (b) B地点からA地点への移動

3.3 学習中期(環境変化直後)

3.3では,図3.2に比べ,移動しているセルの数が減少しており,exploration

よりexploitationによる学習が進んでいる様子が分かる.また,環境変化により,

突然,右下に移動できる空間が出現したが,温度が低下しているため,その領域 への探索(exploration)が行われていない.

(37)

(a) A地点からB地点への移動 (b) B地点からA地点への移動 3.4 学習後期

3.4では,温度がかなり低下しているため,学習済みのQ-tableを用いて,最 短経路での移動を試みている様子が分かるが,右下の空間に関する探索が行わ れていない.このように,温度が低くなりすぎると,環境変化に対し,探索が困 難になるという問題点がある.

3.2.2.Case 2:環境条件2から環境条件1への変化

環境条件2は,障害物が少なく,また,右下が通行可能なため,左上から,下 方向への移動に関する純粋な学習が行われる.その後,環境条件 1 に変化する が,その際,右下部分が閉鎖されるため,Q-tableの大幅な再学習が必要となる.

(a) A地点からB地点への移動 (b) B地点からA地点への移動

3.5 学習中期(環境変化直前)

3.5に示すように,環境変化が起こる前には,右下の空間を積極的に利用す る形で学習が進んでいる.

(38)

(a) A地点からB地点への移動 (b) B地点からA地点への移動 3.6 学習後期(環境変化後)

3.6に示すように,環境変化後は,新たに出現した障害物を回避するように,

Q-tableの再学習が行われている.しかしながら図3.6(a)の学習結果では,なだら

かなQ値の変化を学習しているとはいえず,改善の余地がある.

Steps

21 150 300 episodes

3.7 エピソードにおける意思決定回数の変化

3.7に,エピソードにおける意思決定回数(ステップ数)の変化を示す.最 初の20エピソードは,乱数の偏りによる探索が不安定なため,学習結果として 比較可能な 20 エピソード以降のステップ数を示す.黒い線が直近の 20 エピソ ードの平均ステップ数を示し,グレーの線が,ステップ数の変化を示し,緑色の 直線は,温度の変化を示す.ただし,8000 ステップ以上のステップ数は,標示 されていない.温度の初期値は,0.4とし,エピソード終了時に0.99倍しながら,

温度を低下させている.150エピソードまでは,温度の低下とともに,ステップ 数が低下している.しかしながら,150 エピソード終了時に環境変化がおこり,

(39)

その後,再学習が行われているが,1エピソードあたり 8000以上のステップ数 をたびたび必要としている.また,3台のロボットの 21エピソード以降の総ス テップ数は,109万以上になっている.環境変化後に,右上方向に探索を行う必 要があるが,図3.5に示すように,右上方向のQ値の最大値が低いため,ボルツ マン選択では温度が低いと,温度が低い方への移動を選択する確率が低くなり,

探索が困難になるため,環境変化後に温度を高くする必要がある.さらに,同時 に学習率が低いと学習済みのQ-tableの再学習が困難になるため,学習率を上げ る必要がある.

3.3.Case 1における環境適応方法

3.2.1の事例では,環境変化の結果,より近い経路をたどることができる可能性

がでてきたが,温度が低くなりすぎると,環境変化に対し,このような新しく生 じた空かの探索が困難になるという問題点がある.したがって,常に,ある確率

で,explorationを行う手法を提案する.ここでは,学習係数と温度係数を一時的

に高くするexplorationモードを導入し,このモードへの遷移確率を peで与える こととする.

ここでは,ランダムな探索と環境変化に対し,迅速に局所学習を実現するた め,学習係数=0.8,温度係数T=0.8とする.表 3.1に示すような異なる4 種類 の設定パラメータを用いた実験結果を図 3.8 から図 3.11 に示す.各ステップに おける遷移確率が非常に小さく,確率的な偏りもあるため,実際の遷移回数は,

確率にあわせて多少,ぶれている.探索回数は,Case 1-1300回固定の場合は,

探索回数が少ないため,右下の空間の学習が行われていない.一方,Case 1-2 ら1−4までは,右下の空間の再学習が行われており,遷移確率や探索回数を増 やすほど,再学習の可能性が経験的に高くなっている.一方,遷移確率や探索回 数を大きくすればするほど,総ステップ数が増加するため,ここでも,exploitation

– exploration間のトレードオフの問題は,ここでも生じうる.

3.1 Case 1における各種設定パラメタと実験結果

遷移確率pe 探索回数 総ステップ数

Case 1-1 0.0001 300回固定 1043359

Case 1-2 0.0001 直近20エピソードの

平均ステップ数×3.0

1066264

Case 1-3 0.0002 直近20エピソードの

平均ステップ数×10.0

1134369

Case 1-4 0.0005 直近20エピソードの

平均ステップ数×10.0

1177263

(40)

(a) 環境変化前の学習状況

(b) 環境変化後の学習結果 Steps

21 150 300 episodes

(c) エピソードにおける意思決定回数の変化 3.8 Case 1-1の実験結果

図 2.3. マルチエージェントロボットシステムと関連研究[24]  2.3. 強化学習  強化学習  (Reinforcement  Learning)  とは,本来動物心理学あるいは動物行動 学の分野で用いられた用語である.例えば,動物にある行動を起こしたときだけ えさなどの報酬を与えるという操作を繰り返すと,だんだんとその行動をして いくようになる.最終的には報酬が与えられなくても,同じような状況におかれ るとその行動を起こすようになる.このようにして,報酬を手がかりとして環境 に適応する行動パターン
図 2.6  予備実験 1-2
図 2.8  予備実験 1-4
図 2.15  予備実験 3-2(環境変化前  100 エピソード)
+2

参照

関連したドキュメント

By us- ing a merit function, a sequential quadratic programming method associated with global trust regions bypasses the non-convex problem.. This method is established by following

In this paper, in quasigauge spaces see Section 2, we introduce the families of generalized quasipseudodistances and define three new kinds of dissipative set-valued dynamic

The input specification of the process of generating db schema of one appli- cation system, supported by IIS*Case, is the union of sets of form types of a chosen application system

Our goal is to define and examine the “manifold” of all solutions of the system ( ∗ ) using a generalized notion of manifold which, in effect, allows for non-standard solutions..

Moreover, it is important to note that the spinodal decomposition and the subsequent coarsening process are not only accelerated by temperature (as, in general, diffusion always is)

Keywords and phrases: super-Brownian motion, interacting branching particle system, collision local time, competing species, measure-valued diffusion.. AMS Subject

Udri¸ste: Poisson-Gradient Dynamical Systems with Convex Potential, Proceedings of the 3-rd International Colloquium ” Mathematics in Engi- neering and Numerical Physics ”, 7-9

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on