永久影を探査する月面ローバのための帰還可能性を考慮した行動決定

全文

(1)1C1-3 永久影を探査する月面ローバのための帰還可能性を考慮した行動決定 ○出頭智基（慶應義塾大学）井上博夏（宇宙航空研究開発機構／慶應義塾大学）足立修一（慶應義塾大学）. Action Planning with Returnability for a Lunar Rover Exploring Permanently Shadowed Regions ∗H.Shutto (Keio Univ.), H.Inoue (Japan Aerospace Exploration Agency. / Keio Univ.) and S.Adachi (Keio Univ.) Abstract– We consider a problem where a lunar rover explores the permanently shadowed region (PSR). The rover must learn the environment while obtaining scientiﬁcally interesting data, i.e. water ice, because PSRs are extremely uncertain environments. In addition, there are steep slopes in PSRs, so the rover may slip down. Therefore, it is required to keep the returnability to a safe region even if the rover couldn’t move as expected. In this report, we propose a safe exploration method for ﬁnding water ice while considering the uncertainty of movement of the rover. Key Words: Safe exploration, Permanently shadowed region, Action planning, Returnability, Reinforcement learning. 1. 研究背景・目的. 2. 帰還可能性を考慮したローバの行動決定. 月極域には，太陽高度の低さから，クレーターや岩. 本研究では，移動の不確かさを考慮したローバの行動. の間などに常に日光が届かない領域が存在する．この. を決定するために，マルコフ決定過程 [3]（MDP）の枠組. ような領域は永久影と呼ばれ，常に低温に保たれてい. みを適用する．時刻を t，ミッション終了時刻を T とし，. ることから，表層での水氷の存在が期待されている [1] ．. 時刻 t におけるローバの位置と充電率を状態 xt ，移動方. 水氷は有人ミッション時の飲料水や，エネルギーとし. 向を行動 ut ，状態の望ましさを報酬 r(xt ) と定義する．. ての利用が期待できるため，世界各国で月極域探査が. また，状態間の遷移法則を遷移関数 P (xt+1 |xt , ut , ϕ) で. 検討されており，日本でも JAXA が 2020 年代前半に. 表わし，地面の勾配 ϕ によって状態遷移が確率的に起. ローバを用いた月極域探査ミッションを検討している．. こるものとして扱うする．本研究では，探査の目的と. 月極域探査における，永久影外部でのローバの移動. して，安全性を保つこと，水氷の調査をすること，情. 経路は，月周回衛星「かぐや」や NASA の「LRO」か. 報収集のために未知の領域を探索することの 3 つを考. ら得られる観測情報をもとに安全な経路を事前に計画. えている．そこで，報酬 r(x) を，. する方法. [2]. などが提案されている．しかし，衛星から. r(x) = −c(x) + αw(x) + βs(x). 永久影内部の水氷や障害物の位置情報を観測できないため，事前の経路計画は困難である．したがって，ロー. (1). と定義する．ここで，c(x) は安全性に関わる報酬，w(x). バは永久影内を探索して環境情報を収集しながら，逐. は水氷の調査に与えられる報酬，s(x) は未知領域の探. 次的に進むべき方向を決定する必要がある．. 索に与えられる報酬を表わす．α, β はそれぞれ水氷，探. 永久影の多くはクレーターの内部に存在することか. 索の重みを表わすパラメータである．ローバの充電が空. ら，勾配が急でありローバが滑りやすい．このような. であるか，障害物に衝突している状態の集合を XUnsafe ,. ローバの想定外の移動によって，充電の枯渇や障害物. 探査終了時に帰還すべき地点を表わす状態の集合を. への衝突でローバが危険に晒されたり，時間を浪費し. XTerminal ，水氷の存在する状態の集合を XWater とお. てミッション期間を超過したりする可能性がある．ロー. くと，これらを    cunsafe c(x) = clost   csafe {. バが安全に探査するためには，このような移動の不確かさを考慮して行動を決定する必要がある．本研究の目的は，このような特徴をもつ永久影に対し，制限時間内に安全な地点に帰還するというローバの帰還可能性を考慮した，安全かつ効率的な探査方法. w(x) =. の提案である．. 第 63 回自動制御連合講演会（2020 年 11 月 21 日～ 22 日，オンライン開催）. 46. 1 n(x)+1. 0. if x ∈ XUnsafe if xT ∈ / XTerminal. (2). other x if x ∈ XWater other x. (3).

(2) Fig. 1: Data of a PSR. Left: Sunshine ratio [%]. Right: Slope angle [deg] and Gradient vector.. Fig. 2: Exploration area. White grid: illuminated region, red grid: unsafe region, blue dot: water ice.. のように定義する．ここで n(x) はローバが x に訪れた回数を表わし，各水氷の報酬が訪問回数に応じて減少していくように設定した．また，s(x) は状態 x に隣接する未探索領域の数と定義する．このとき，. u∗t = arg max u. T −t ∑. r(xt+τ ). (4). τ =1. のように，ミッションの残り時間である (T − t) 時刻先. Fig. 3: Rover’s path.. までの報酬を最大化する行動が時刻 t における最適な行動といえる．(4) 式を満たす行動は価値反復法 [3] で. は 74.3 %，発見した水氷は 16 地点中 11 地点であった．. 推定することができる．. 3. これらのことから，提案法によって未知環境である永. シミュレーション. 久影を探索し，多くの水氷を発見できているといえる．. 月極域の永久影周辺の日照率，傾斜の実データの一. 障害物周辺を通る経路に注目すると，傾斜を滑り落. 例を Fig. 1 に示す．これをもとに作成した Fig. 2 に示す. ちることによって障害物に衝突する可能性のある領域. 20 × 20 のグリッド状の領域を対象に提案法の有効性を. を避けていることが確認できる．充電率についても，最. シミュレーションにより検証する．ここで，日照率 55 %. 低でも 4 ステップ分の充電を残して日照領域へ戻って. 以上を日照領域（白），傾斜 20 deg 以上を走行不可能な障害物（赤）とし，水色の地点に水氷が存在するとする．また，各グリッドにおける軸方向の傾斜を ϕ とおくと，. 0.05ϕ の確率で斜面を下る方向へ 1 グリッド滑り落ちる. おり，リスクのある行動を避けていることがわかる．このことから，ローバの状態遷移の不確かさを考慮した行動決定ができているといえる．以上より，環境が未知であり状態遷移も不確かな環. とする．ローバは領域内の事前情報をもたず，現在の位. 境である永久影において，提案法が水氷の調査が行う. 置と周囲 8 グリッドを観測可能であり，上下左右への移. ことに有効であるといえる．. 動と停止の 5 つの行動が選択できるものとする．報酬. 4. 関数のパラメータは，cunsafe = clost = 1000, csafe = 1. まとめと今後の展望本稿では，永久影内において安全に水氷を探査する. とし，(1) 式の重みは α = 20, β = 2 とした．また，バッ. ために，帰還可能性を考慮した探査法を提案した．今後. テリ容量は 40 ステップ分であるとし，ミッション終了時刻を T = 400，終了時に初期位置に帰還するものと. は計算負荷の低減および他手法との比較を検討したい．. する．. 参考文献. このような問題設定に対して，提案法によって星の位置からローバを探査させた移動経路を Fig. 3 に示す．図より，ローバは障害物を避けながら充電と探査を繰. [1] AB Sanin, et al. Hydrogen distribution in the lunar polar regions. Icarus, Vol. 283, pp. 20–30, 2017.. り返し，水氷を調査できていることがわかる．時刻 0 ≤. [2] 菊池惟子他. 月極域探査ミッションのための時相論. t ≤ 150 の範囲では日照領域の近くから周囲を探索し. 理を用いた経路計画法. システム制御情報学会研究. ており，150 ≤ t ≤ 304 では発見済みの水氷を再度訪. 発表講演会講演論文集, Vol. 63, pp. 162–165, 2019.. 問して報酬を獲得していることがわかる．その後探査. [3] Richard Bellman.. 領域内の残報酬が減少した結果，305 ≤ t では初期位置. A markovian decision process.. Journal of mathematics and mechanics, pp. 679–684,. で停止し続ける行動が選択された．この探査領域の探. 1957.. 索率（探査領域に占めるローバが観測した領域の割合）. 47.

(3)