• 検索結果がありません。

学位論文題名A Study on Autonomous Blimp Control with Reinforcement Learning

N/A
N/A
Protected

Academic year: 2021

シェア "学位論文題名A Study on Autonomous Blimp Control with Reinforcement Learning"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 工 学 ) 本 山 恵 子

     学位論文題名

A Study on Autonomous Blimp Control     with Reinforcement Learning

( 強 化 学 習 を 用 い た 自 律 飛 行 船 制 御 に 関 す る 研 究 )

学位論文内容の要旨

  近年,3次元空間を移動可能な口ポットとして飛行船に関する研究が注目を集めている.

飛行船は,浮カにより低工ネルギーで長時間移動することができ,飛行機やヘリコプター などに 比べて室内の3次元空間を安全に飛行できる.そのため,災害時の建造物内や高所 など,人間や地上口ボットでは進入が困難である場所における実用化が期待される.しか し,飛行船は慣性が大きいため,制御入カがすぐさま飛行船の動きに反映されるとは限ら ない.また環境中のわずかな空気の流れの影響を受けやすい,非線形性が強いなどの特性 を持ち,制御が極めて困難である.このため従来の飛行船の研究では,障害物のない空間 で 目標 位 置 に停 滞 す るま た は 到達 す る と いう 簡 単 なタス クしか達 成され なかった ,   本学位論文では、飛行船のより実用的な利用にむけて,3次元空間における障害物回避が 可能な自律飛行を実現することを目的としている.3次元空間での制御は困難が予想される ため, まず2次元に限定された空間において,飛行船を質点として簡略化したモデルを用 い,強化学習に基づいた制御手法により複雑なタスクを達成できることを示している.さ らにシミュレーションによる結果を実機で有効に利用することにより,実機による制御が 可能であることを示している.

  これらの結果をふまえ,3次元空間における制御への拡張を行っている,3次元に拡張す るにあたり,飛行船を剛体としてモデル化し,遠心カやコリオリカを考慮することにより,

より詳 細なカ学モデルを構築レてシミュレータを作成している,最後に3次元空間での障 害物回避夕スクのための行動価値関数の設計をおこない,シミュレータにより効果を確認 している,

  結果として強化学習に基づいた制御手法により,シミュレーション及び実環境において2 次元空 間における複雑なタスクを達成できることを示した.また,飛行船の3次元力学モ デルを 構築し,適切な行動価値関数を設計することにより3次元空間での障害物回避が可 能であることをシミュレーションにより確認した.

  各章の内容を以下に要約する.

  第1章では,飛行船の特性とその従来研究を概観し,研究背景・研究意義について述べ ている.

  第2章では,飛行船に適用する学習手法について述べている.飛行船は慣性が大きいた     ―1075―

(2)

め,限定された空間で目標位置の方向が急に切り替わるようなタスクなどは非常に難しく,

PID制御の ようなフイードバック制御だけでは対応できないと考えられる.ここでは主に CMAC‑based Q‑learningと遺 伝的ア ルゴリズ ム(GA)を組 み合わせた手法について説明し て いる.凡 化能カの あるCMAC‑based Q‑learningと いう強化 学習手法とGAを組み合わせ ることによって,飛行船がセンサ入カの状態空間を適応的に決定することができることを 示している.

  第3章では、2次元平面における飛行船の制御について述べている.壁に囲まれた空間を 飛 行するタ スクと複数の目標位置をシーケンシャルに通過するというタスクに2章で述べ た学習手法を適用し,シミュレータにより効果を確認している,さらに,シミュレータで 得られた結果を実機に適用できることを示しでぃる.

  第4章で は、飛行船の大きさ・使用目的に応じたカ学モデルを構築する必要性から,本 研 究で対象 とする飛行船の実機の特性を基に,より詳細な飛行船の3次元シミュレータの 構 築につい て述べている.第3章で用いたモデルが飛行船を質点として表現しているのに 対し,ここでは飛行船を剛体としてモデルを記述し,遠心カなども考慮している.また,

シミュレータと実機に同じ出カを与えて位置を計測し,シミュレートされた飛行船が実機 の動きとほぼ等しい動きであることを観測することによルシミュレータの妥当性を示して いる.

  第5章で は、構築 したシ ミュレー タにより3次元空間での位置制御を学習制御およびPD 制御により実現している.また,特に慣性が大きいという特性に着目し,行動価値関数を 適 切に設計 することで3次元空間での障害物回避が可能であることをシミュレータにより 確認している.

  第6章では、本学位論文の結論について述べている.

1076

(3)

学位論文審査の要旨

     学位論文題名

A Study on Autonomous Blimp Control     with Reinforcement Learning

( 強 化 学 習 を 用 い た 自 律 飛 行 船 制 御 に 関 す る 研 究 )

  飛行船は,浮カを用いた空中移動を行うため移動にかかるェネルギーコス卜が小さく,

少ない資源で長時間移動が可能であり,また飛行機やへりコプターなどに比べ室内空間を 安全に飛行できる.そのため災害時の建造物内や高所など,人間や地上口ボットでは進入 が困難である空間においての観測活動や点検作業等への利用が期待される,しかし,飛行 船は慣性が非常に大きいため,制御入カが即時に飛行船の動きに反映されるとは限らない,

環境中のわずかな空気の流れの影響を受けやすい,プ口ペラ出カなどの非線形性が強い等 の特性を持ち制御が極めて困難である.

    1  丶

  本論文は、このように運動特性が不安定な飛行船の自律飛行制御を実現するための基礎 研究を行ったものである.このためにカ学モデルを構築し,自律飛行船制御のために強化 学習及び進化的手法を組み合わせた制御手法を提案している.さらに提案したカ学モデル 及 び制 御 手 法の 有 効 性を シ ミ ュ レー シ ョ ン及 び実 機による 実験に より示し ている .   飛 行 船 制御 の た めの 学 習 手 法と し て は, 強 化学習 手法の ひとつで あるCMAC‑based Q‑learningを用いている.この手法は近傍の経験の汎化に優れていることから学習速度の 上昇が期待できる.これに遺伝的アルゴリズム(GA)を組み合わせることにより,実環境に おいて連続値をとるセンサ空間を環境やタスクに応じて適応的に離散化することができる   強化学習を用いた自律飛行制御の可能性について,最初に飛行船を質点として簡略化し た2次元モデルにより詳細に検討している.すなわち,2次元平面におしゝて壁に囲まれた空 間を飛行するタスクと複数の目標位置を順に通過するタスクに対し,提案する制御方法を 適用して自律飛行が実現可能であることをシミュレーションにより示している,さらにシ ミュレーションで得られた結果を実機に適用することにより,実環境における飛行船制御 においてもこの手法が有効であることを示している.

  次に,2次元モデルでの詳細な検討結果を基に,3次元モデルに対する適用を検討してい     ―1077―

東 司

昇 雄

   

   

隆 侑

内 森

数 田

大 大

嘉 和

授 授

授 授

教 教

教 教

査 査

査 査

主 副

副 副

(4)

る.3次元モデルに拡張するにあたり,これまで提案されている大型飛行船のカ学モデルな どを参考にし,本研究で対象とする飛行船の実機の特性を考慮したより詳細な3次元力学 モデルを記述している.飛行船は剛体としてモデル化され,遠心カなども考慮されている.

また,シミュレータと実機に同じ出カを与えて位置を計測し,動作を比較レて3次元力学 モデルの妥当性を示している.さらに,シミュレーションにより3次元空間での学習制御 とPD制御による位置制御を比較検討し,夕スクが複雑な場合には学習制御が有効であるこ とを示している,また慣性が大きいという特性に着目し,行動価値関数を適切に設計する ことで3次元空間での障害物回避が可能であることをシミュレーションにより示している.

  これを要するに、著者は,運動特性が不安定な飛行船の自律飛行制御を実現する.ための 基礎研究として,飛行船のカ学モデルを構築し,自律飛行制御のために強化学習及び進化 的手法を組み合わせた制御手法を提案し,その有効性をシミュレーション及び実機による 実験により明らかにしたものであり、複雑調和系工学及び自律飛行船研究の進歩に寄与す るところ大なるものがある。よって著者は、北海道大学博士(工学)の学位を授与される 資格あるものと認める。

1078

参照

関連したドキュメント

   チロシンホスファターゼSHP2 は細胞質および核内に局在し、その脱制御が若年性骨髄単球性 白血病

ステオカルシンは従来から破骨細胞の制御への関与が報告されている。本研 究の結 果は、ルモ デリング期 に移行した 時期よルオステオカルシンとBSP の増加 傾向にほぼ 一致が認め

次に Par 複合体のも う 1 つの因子 Par3 について研究を進めた. Par3 は複数のドメイ ンからなるマルチドメインタンパク質である.PDZ

   砕波現 象の理 解を困難にしている主要を原因は,次のとおりである.(1) 流体中の気泡の径や数 など, 気泡に

  

3 )駆動系 が燃料電池,2 次電池とモーターよりなる FCEV システムについて,燃料      電池を充電に使用し2

また、系の動的性質を特徴づける重要な量である状態密度、および積分状態密度を定義し ている。第3 章はW ・

   結諭として,サイクリン依存性キナーゼ阻害剤であるpurvalanolA は放射線