免疫型強化学習器への適用

第 4 章安定化制御における強化学習の報酬関数

4.5 免疫型強化学習器への適用

0 1 2 3 4 5 6 7 8 9 10 x 10⁴ 0

500 1000 1500 2000 2500 3000 3500 4000 4500

Episode

Step

Q−learning

Profit sharing (Miyazaki’s reward Method) Proposed method

図 4.15: 倒立振子の学習収束時間比較

の平均ステップ数を図4.15に示す．この図の縦軸は安定化状態を維持することのできたステップ数，横軸はエピソード数を示している．

提案手法はエピソードを重ねる毎に安定化状態を維持することができているが，

ProﬁtSharingでは安定化時間を長くすることができていない．Q-learningでは安

定化状態を短時間だけのばすことができているが，さらなる学習時間を必要としている．

b) 外乱による学習性能への影響実環境に学習手法を適用した場合に以下にあげる外乱による影響が懸念される．

• 観測ノイズによる影響

• 初期偏差による影響

これらは制御対象が実際の適用環境に設置されるまで知ることができない．提案する強化学習器を用いることによって環境に左右されずに一定のパフォーマンスを得ることができることを検証する．

はじめに，観測ノイズの有無によるシミュレーション結果を図4.16に示す．この図の結果より観測ノイズの有無にかかわらず同等の学習結果を得ることができている．これは，観測ノイズの影響により若干の観測状態の混同が起きているが，

0 2000 4000 6000 8000 10000 0

500 1000 1500 2000 2500 3000 3500 4000

Episode

Step

観測ノイズあり観測ノイズなし

図 4.16: 観測ノイズを含んだ環境における学習収束速度の比較

SMDPによるモデル化を行っているため状態分割を荒くすることができたため大きな影響を受けなかったためである．

次に，初期偏差として台車の路面がϕ = [0.2,0.1,0.01][rad]だけ傾いている環境においてのシミュレーション結果を図4.18に示す．この図の結果より初期偏差があることにより学習の収束ステップ数の違いが見られるが，どの傾きにおいても安定化状態を長くする方策を学習することができている．このような環境では路面の傾きに応じて台車に適切なバイアスを加えなければならない. 今回のシミュレーションにおいて選択できる行動が離散化度合いが荒かったため適切な入力トルクを選択できなかったためである．

4.6 おわりに

安定化制御問題におけるモデルフリー型の強化学習法の報酬の割り当て方について考察を行い，報酬関数の一例を示した．提案した報酬関数はシミュレーション時間のみによって報酬を分配するので，与える報酬値を変える必要が無い．

今後の課題としては倒立振子の振り上げ制御器[50]と組み合わせることにより相反する一連のタスクを達成することができる学習器を構築することである．

図 4.17: 初期偏差(路面の傾き)がある倒立振子環境

0 2 4 6 8 10

x 10 ⁴ 0

500 1000 1500 2000

Episode

Step

φ = 0.2[rad]

φ = 0.1[rad]

φ = 0.01[rad]

図 4.18: 初期偏差がある環境における学習収束速度の比較

ドキュメント内獲得免疫系に基づいた強化学習による制御器設計に関する研究 (ページ 75-79)

第 4 章 安定化制御における強化学習 の報酬関数

4.5 免疫型強化学習器への適用

4.6 おわりに

第 4 章安定化制御における強化学習の報酬関数