第 4 章 安定化制御における強化学習 の報酬関数
4.5 免疫型強化学習器への適用
0 1 2 3 4 5 6 7 8 9 10 x 104 0
500 1000 1500 2000 2500 3000 3500 4000 4500
Episode
Step
Q−learning
Profit sharing (Miyazaki’s reward Method) Proposed method
図 4.15: 倒立振子の学習収束時間比較
の平均ステップ数を図4.15に示す.この図の縦軸は安定化状態を維持することの できたステップ数,横軸はエピソード数を示している.
提案手法はエピソードを重ねる毎に安定化状態を維持することができているが,
ProfitSharingでは安定化時間を長くすることができていない.Q-learningでは安
定化状態を短時間だけのばすことができているが,さらなる学習時間を必要とし ている.
b) 外乱による学習性能への影響 実環境に学習手法を適用した場合に以下にあ げる外乱による影響が懸念される.
• 観測ノイズによる影響
• 初期偏差による影響
これらは制御対象が実際の適用環境に設置されるまで知ることができない.提案 する強化学習器を用いることによって環境に左右されずに一定のパフォーマンス を得ることができることを検証する.
はじめに,観測ノイズの有無によるシミュレーション結果を図4.16に示す.こ の図の結果より観測ノイズの有無にかかわらず同等の学習結果を得ることができ ている.これは,観測ノイズの影響により若干の観測状態の混同が起きているが,
0 2000 4000 6000 8000 10000 0
500 1000 1500 2000 2500 3000 3500 4000
Episode
Step
観測ノイズあり 観測ノイズなし
図 4.16: 観測ノイズを含んだ環境における学習収束速度の比較
SMDPによるモデル化を行っているため状態分割を荒くすることができたため大 きな影響を受けなかったためである.
次に,初期偏差として台車の路面がϕ = [0.2,0.1,0.01][rad]だけ傾いている環境 においてのシミュレーション結果を図4.18に示す.この図の結果より初期偏差が あることにより学習の収束ステップ数の違いが見られるが,どの傾きにおいても 安定化状態を長くする方策を学習することができている.このような環境では路 面の傾きに応じて台車に適切なバイアスを加えなければならない. 今回のシミュ レーションにおいて選択できる行動が離散化度合いが荒かったため適切な入力ト ルクを選択できなかったためである.
4.6 おわりに
安定化制御問題におけるモデルフリー型の強化学習法の報酬の割り当て方につ いて考察を行い,報酬関数の一例を示した.提案した報酬関数はシミュレーショ ン時間のみによって報酬を分配するので,与える報酬値を変える必要が無い.
今後の課題としては倒立振子の振り上げ制御器[50]と組み合わせることにより 相反する一連のタスクを達成することができる学習器を構築することである.
図 4.17: 初期偏差(路面の傾き)がある倒立振子環境
0 2 4 6 8 10
x 10 4 0
500 1000 1500 2000
Episode
Step
φ = 0.2[rad]
φ = 0.1[rad]
φ = 0.01[rad]
図 4.18: 初期偏差がある環境における学習収束速度の比較