学習の安定化のために方策の埋め込みを利用する強化学習手法の検討

(1)

学習の安定化のために方策の埋め込みを利用する

強化学習手法の検討

On Policy Embeddings for Improving Stability of

Deep Reinforcement Learning

梅本晴弥

1∗

_{豊田哲也}

2

_{大原剛三}

2

Haruya Umemoto

1

_{Tetsuya Toyota}

2

_{Kouzou Ohara}

2 1

_{青山学院大学大学院理工学研究科}

1

_{Graduate School of Science and Engineering, Aoyama Gakuin University}

2

_{青山学院大学理工学部}

2

_{College of Science and Engineering, Aoyama Gakuin University}

Abstract: Deterministic policy gradient is known as a high sample eﬃcient reinforcement learning

method. But it is pointed out that the method is highlysensitive to hyper-parameter setting and may get unstable by getting trapped in a local optimal policy. One of the reasons for the instability is that it may update its action-value function inappropriately based on an action determined by a policy that has been updated in a wrong gradient direction. Its policy update is based only on the action-value function. Thus, once it updates the policy in a wrong direction, this cascade of updates easily leads to getting trapped in a local optimal policy whose performance is very poor. To alleviate this problem, in this paper, we attempt to use past policies in conjunction with the action-value function when updating the current policy. To this end, we propose a novel framework of reinforcement learning that has a module to embed past policies associated with their performance value by means of Variational Auto Encoder (VAE) that allows us to reproduce policies with an arbitrary level of performance.Indeed, we utilize the distance between an updated policy and a reproduced policy with a low performance level to measure the goodness of the updated policy. We will experimentally show that using embedded policies is eﬀective toimprove the stability of learning.

1 はじめに

近年，強化学習は深層学習と共に大きく発展し，シミュレーション環境ではゲームの学習 [1]，実世界環境ではロボットアームの動作の学習 [2] など，様々なタスクにおいて新たな成果が報告されている．強化学習の対象となるタスクは，環境におけるエージェントの行動に基づいて離散操作タスクと連続操作タスクに分けられる．たとえば，ロボットアームやドローンの行動学習はその制御対象がアクチュエータの回転角やプロペラモータの回転数などの連続値となるため，連続操作タスクに分類される．モデルフリーの強化学習手法は大きく価値反復型と方策勾配型に分けられるが，連続操作タスクでは，行動を決定する方策を陽に連続関 ∗_{連絡先：青山学院大学大学院理工学研究科} 〒 252-5258 神奈川県相模原市中央区淵野辺 5-10-1 E-mail: [email protected] 数で近似するため連続値の行動出力が容易なことから，方策勾配型の手法が多用される．近年の方策勾配型の強化学習手法では，行動価値関数の推定に一意な行動を出力する方策関数を利用する oﬀ-policy の Deep Deterministic Policy Gradient (DDPG) [3] が提案され，DDPG を発展させた Twin Delayed DDPG (TD3) [4] は強化学習手法のベンチマークによく用いられる物理シミュレーション環境 Mu-JoCo [5] の多くのタスクにおいて，確率的方策を用いる一般的な on-policy の手法よりも優れたサンプル効率を達成している．しかし，DDPG や TD3 は高いサンプル効率を持つものの，局所解へ陥り学習が不安定になることやハイパーパラメータに性能が大きく左右されてしまうことが指摘されている．そのため，学習の安定化のために進化戦略アルゴリズムを方策勾配型強化学習に組み合わせた手法 [6] や過去の行動との距離を誤差関数に加えることでより多様な方策へ更新する人工知能学会研究会資料 SIG-KBS-B902-03

(2)

ように促す手法 [7] が提案されている．決定論的方策勾配手法の学習が不安定となる理由の 1 つとして，方策の出力する行動が一意に決定されることが考えらる．決定論的な行動出力では，方策が誤った勾配方向へ更新されてしまった場合，誤った方策から一意に出力された誤った行動を用いて行動価値関数を更新することになるため，それ以降の学習が不安定になると考えられる．これは，DDPG や TD3 などの方策勾配定理を利用する方策勾配手法では，方策の更新は行動価値関数のみに依存するためである．つまり，過去に学習してきた方策を考慮せずに更新をしていることが問題として考えられる．このことから，方策の更新に行動価値関数だけではなく，過去の方策も利用することで方策更新の安定性の向上が期待できる．そこで本稿では，決定論的方策勾配手法の学習の安定性を改善するために，過去の方策を Variational Auto Encoder (VAE) [8] を用いて埋め込み，誤差関数に過去の方策との距離を加えることで安定的な学習を促す手法を検討する．

2

2.1 決定論的方策勾配法

強化学習手法の 1 つである Q-learning はそのままでは連続行動環境へ適用することは出来なかったが，Silver らは連続行動環境へ適用可能な actor-critic 型の強化学習手法である Deterministic Policy Gradient(DPG) を提案した [9]．ここで，マルコフ決定過程の下，タイム ステップ t でエージェントが状態 stを観測し，連続値 行動 at∈ RN を取り，報酬 rtを得るとする．また，γ を割引率，E を環境，β を探索方策，ρβ_{を方策 β によ} る状態遷移分布とする．このとき，DPG では行動価値 関数 Q のパラメータ θQ_{を式 (1) の誤差関数を最小化} するように更新し，決定論的方策 µ のパラメータ θµ_を式 (2) に従う勾配方向に更新する [3]． L(θQ) =Est∼ρβ,at∼β,rt∼E[(Q(st, at|θ Q₎_{− y} t)2] (1) yt= r(st, at) + γQ(st+1, µ(st+1)|θQ) ∇θµJ ≈ E_s t∼ρβ[∇θµQ(s, a|θ Q₎_| s=st,a=µ(st|θµ)] (2) =E_s_t_∼ρβ[∇aQ(s, a|θQ)|s=st,a=µ(st)∇θµµ(s|θ µ₎_| s=st]

2.2 方策の更新を工夫した強化学習手法

Pourchot ら [6] は，決定論的方策勾配強化学習手法の学習の不安定性とパラメータ依存性の解決のために進化戦略アルゴリズムと強化学習手法を組み合わせた ⎔ቃ ⤒㦂෌⏕ ࣂࢵࣇ࢓ ৽ୡभ৳ோ ⾏動 ৽ୡ॑৾ಆ ૾ଙ ᪉⟇ ⾜ື౯್㛵ᩘ $JHQW ্ੁभ 更新図 1: 提案手法の概要図図 2: 方策埋め込みモデルの概要図手法を提案した．パラメータの異なる複数の actor を同時に行動させ，エピソード報酬が多かった actor を用いて方策を更新しつつ，進化戦略アルゴリズムを用いてより良い方策を持つ actor のパラメータを直接探索する．Pourchot らは，これら 2 種類の方策探索アルゴリズムを組み合わせることで，高サンプル効率と安定的な学習の両方を実現可能であることを報告している．また，Hong ら [7] は方策が局所解に陥ることを防ぐために，過去の方策との距離を誤差関数に加える手法を提案した．過去の方策から離れるように現在の方策を更新することで，報酬のシグナルがなくとも方策を変化させることができ，大きな状態空間や報酬がスパースな環境において高い性能を示すと報告されている．

3 提案手法

提案手法は，決定論的方策勾配手法を対象に，過去の方策を埋め込み，方策更新の安定化のために利用する．以下，3.1 節において過去の方策を VAE を用いて埋め込むモデルについて述べ，3.2 節において過去の方策を学習したモデルを用いた安定的な方策更新について述べる．

(3)

図 3: Hopper-v2 タスクの例

3.1 過去の方策の埋め込み方法

過去の方策を埋め込む場合，最も単純な方法は，状態を入力とし行動を出力する関数を Neural Network (NN) などのモデルを用いて学習することである．しかし，これは本来の方策の学習と平行に報酬を考慮せずに別の学習モデルを用いて方策を学習していることに等しく，その結果は精度の違いはあるもののいずれも過去の方策を平均化したものと言える．その意味で，状態と行動のみを用いて学習した結果を，現在の方策が誤っていた場合に，その誤りを補正するための基準として用いることは難しい．むしろ，過去の悪い方策を明示的に再現できれば，その方策から離れるように現在の方策を更新すれば，過去の悪い方策へ戻ることを防げるため，学習の安定性に寄与する可能性があると考えらえる．そこで，本研究では方策の良さを定量的に計る指標を定義し，方策とその良さを合わせて入力として学習し，任意の良さの方策を再現できるような方策埋め込みモデルを作成する．以下に，本研究で定義した 2 種類の方策の良さの指標を示す． 1. エピソード報酬指標 2. 行動相対価値指標前者は方策に従った場合の 1 エピソードの累積報酬である．ここで，1 エピソードは環境の初期状態から，事前に設定された環境の終了条件が満たされるまでを指す．後者は式 (3) で表される行動相対価値である． α = Q(st, at) Q(st, µ(st)) (3) ここで，stと atはそれぞれ時刻 t における状態と，そ の時刻で実行した行動を表し，Q は行動相対価値関数， µ は状態 stに対する決定論的方策を表す．エピソード報酬を用いる場合は，1 エピソードにおける良い行動と悪い行動の差別化がされないため，学習回数が多くなければモデルが方策をうまく学習できない可能性がある．一方，行動相対価値を用いる場合は，行動の良さを行動価値関数を用いて評価するため，各行動の良さを評価しつつ学習することが可能である．ただし，行動価値関数は学習によって変化していくた め，学習前半と後半の行動相対価値 1.0 の方策が大き く異なり得る．そのため，以前に学習した方策を上書きするように継続的に方策を学習していく必要がある．また，本研究では埋め込みモデルに NN ではなく VAE を使用した．その理由としては，NN を使用した場合は特定の良さの方策として一意な方策を出力することになるが，同じエピソード報酬を得る方策は複数考えられるため，潜在変数によって出力を変化させることが可能な VAE のほうが多様な方策を再現でき，局所最適解に陥りにくいためである．図 1 に提案手法の概要を示し，図 2 に VAE を用いた方策埋め込みモデルの概要を示す．以下，提案手法を PE (Policy Embeddings) と表記する．

3.2 過去の方策を利用した方策更新

提案手法は行動価値関数だけでなく，過去の方策も利用することで方策更新の安定性の向上を図る．特に，性能が悪い過去の方策から離れつつ方策を更新することは，安定的な方策の更新に寄与すると考えられる．そ のため，提案手法では，式 (4) に示すような，状態 s に おいて過去の悪い方策から生成された行動 ν(s, α) と決 定論的方策により選択された行動 µ(s) の距離を加えた 誤差関数 LP Eを方策の更新に用いる． LP E(α) = L− Es_∼U(Z)[D(µ(s), ν(s, α))] (4) L =−Es∼U(Z)[Q(s, µ(s))] ここで，L は一般的な決定論的方策勾配手法で用いら れる方策の誤差関数，Z は経験再生バッファ，U は一 様分布を表し，D は任意のベクトル間距離尺度とする． また，Q を状態と行動のペアから状態行動価値を出力 する行動価値関数とし，µ を状態から行動を出力する 決定論的方策，α を 3.1 節で述べた方策の良さの指標， ν を状態と方策の良さの指標のペアから行動を出力す る方策埋め込みモデルとする．ベクトル間距離尺度 D に関しては，本研究では Mean Square Error (MSE) を 用いた．また，α を性能の低い値に設定することで，悪 い方策から離れるように教師あり学習の枠組みで学習する．

(4)

4 実験

4.1 実験環境

強化学習手法の連続操作タスクでの評価において一般的に用いられる MuJoCo シミュレータを，OpenAI1 が公開している OpenAI Gym 環境 [10] から利用し，提案手法を評価した．MuJoCo にはクモ型モデルや人型モデルの歩行タスクなど様々なタスクが存在するが，今回はその中の 1 タスクである Hopper-v2 タスクを用いた．図 3 に Hopper-v2 タスクの例を示す．Hopper-v2 は，11 次元ベクトルで表現される状態空間において， 3 つの関節をもつ 1 本足のモデルを各関節角を実数値で操作し，特定の方向へ移動させると報酬が得られるタスクである．他のタスクよりも比較的低次元な状態空間と行動空間のタスクである一方，足のモデルの傾きが少しでも誤ってしまうとすぐにエピソードが終了してしまうタスクであり，エピソード終了の条件が比較的厳しいと言える．つまり，他タスクよりも学習の安定性が全体的なパフォーマンスに大きく影響を与えるタスクであるため，提案手法による安定性向上の効果をより適切に評価することが出来るタスクと言える．なお，Hopper-v2 では，4,000 ステップ到達か，モデルの状態が歩行不可能と判定された場合に 1 エピソードが終了する．

4.2 比較手法とパラメータ設定

本実験では，多くの連続操作タスクで優れた性能を示している TD3 [4] を比較手法とした．TD3 の著者実装 2_{を使用し，ネットワークの構造と各種パラメータ} は論文で示されている値を使用した．提案手法は様々な強化学習手法をベースとすることが出来るが，本実験では比較のため TD3 をベースとして評価した．方策埋め込みのための VAE に関しては，エンコード部は隠れ層 1 層の NN とし，そのユニット数は 400 ノードとした．また，デコード部は隠れ層 2 層の NN とし，そのユニット数をそれぞれ 400 ノードと 300 ノードとし，潜在変数の次元数は 20 とした．また，活性化関数には Relu，最適化アルゴリズムには Adam を使用した．

4.3 実験方法

エージェントと環境の相互作用 1 回を 1 ステップ，100 万ステップを 1 試行とし，本実験では 8 試行における累積報酬の平均値を用いて各手法を評価した．ただし，決定論的方策勾配法では，探索のために方策にノイズを加えるため，探索時の累積報酬の比較は純粋な方策 1_{https://github.com/openai/gym} 2_{https://github.com/sfujim/TD3} 図 4: 10 万ステップ時のエピソード報酬を用いた方策埋め込みモデルの入力と再現方策の累積報酬の関係（横軸：入力するエピソード報酬値，縦軸：再現された方策の 1 エピソードの累積報酬）図 5: 10 万ステップ時の行動相対価値を用いた方策埋め込みモデルの入力と再現方策の累積報酬の関係（横軸：入力する行動相対価値，縦軸：再現された方策の 1 エピソードの累積報酬）の性能の評価とならない．そのため，1 万ステップ毎にノイズを加えずに方策のみで 10 エピソード実行し，その平均累積報酬を用いて性能を比較した．また，方策埋め込みモデルの精度の検証のため，ベース方策の更新が活発な 10 万ステップにおける累積報酬の比較を行った．

5 実験結果と考察

5.1 方策埋め込みの精度の検証

図 4 にエピソード報酬を用いた方策埋め込みの方策再現精度，図 5 に行動相対価値を用いた方策再現精度の結果を示す．図中の Base Policy は 10 万ステップ時の

(5)

ベースとなる方策の平均累積報酬を表している．まず，図 4 に示すエピソード報酬を用いた方策埋め込みの精度の結果から，入力値が 400 程度までは再現される方策はほぼ入力値と同じエピソード報酬を獲得できているのに対し，入力値が 400 以降は入力エピソード報酬と再現方策のエピソード報酬に乖離が生じていることがわかる．これはエピソード報酬が 400 程度までの学習データが豊富に存在したため，方策埋め込みモデルが正しく方策を埋め込むことができ，エピソード報酬が 400 以降のデータは学習しつつあるものの，不完全であるため入力値と再現値に乖離が生じてしまったと考えられる．この結果から，方策埋め込みは学習データさえ十分に存在すれば，問題なく方策を学習し再現することが可能であるといえる．また，10 万ステップ時においては，ベース方策よりも良い方策を，方策埋め込みモデルを用いて再現することができるため，悪い方策から離れるように方策を更新するだけでなく，良い方策に近づけるように方策を更新することで学習を安定させられる可能性が考えられる．次に，図 5 に示す行動相対価値を用いた方策埋め込みの結果から，行動相対価値を利用した方策埋め込みは学習があまり進んでいないことがわかる．この原因として，10 万ステップの時点では行動価値関数の更新が活発に行われるため，方策埋め込みモデルも行動価値関数の更新に合わせて学習をしていく必要があり，この時点では学習が不完全な状態であったため，このような結果になってしまったと考えられる．以上の結果から，行動相対価値よりもエピソード報酬を入力に用いた方策埋め込みが学習初期に優位であることがわかったため，以降の実験はエピソード報酬を用いた方策埋め込みを用いた．

5.2 提案手法の学習安定性の検証

図 6 に提案手法と比較手法の学習曲線を示す．まず，提案手法はベースとなる TD3 と比較し，平均的高い報酬を獲得していることがわかる．特に，学習の前半では大きく優位になっている．一方，学習の後半では得られる累積報酬が頭打ちになってしまうため，差が小さくなっている．次にこの学習曲線の標準偏差をプロットしたのもを図 7 に示す．この結果から，提案手法は TD3 と比較し，明らかに学習曲線の標準偏差が小さいことがわかる．これは，比較手法よりも学習における安定性が高くなっていることを意味し，過去の悪い方策から距離を保ちつつ方策更新することで，決定論的方策勾配法の欠点である学習の安定性が向上することを示唆するものである．次に，各手法の各試行における最大の累積報酬の平均値を表 1 に示す．提案手法は， Hopper-v2 タスクにおいて TD3 と比較し，平均的に高図 6: Hopper における各手法の 8 試行の平均学習曲線．薄い部分は標準偏差を表す．また，結果は window サイズ 9，次数 1 の Savitzky-Golay フィルタを用いて平滑化している．図 7: Hopper における各手法の学習曲線の 8 試行の標準偏差い最大累積報酬を得ることができており，その標準偏差も TD3 よりも低い値となっていることがわかる．これは，提案手法では方策の更新が大域的最適解周辺まで到達しやすいことを示しており，このことから，行動価値関数のみではなく過去の方策との距離も用いて方策を更新することは，局所的最適解へ陥りづらくなる作用があると考えられる．

6 おわりに

本稿では，決定論的方策勾配手法を対象に過去の方策を埋め込み，誤差関数に過去の方策との距離を加えることで安定的な学習を促す強化学習手法を提案した．評価実験を通して，2 種類の方策の良さの指標を用いて過去の方策の埋め込みの実現性を評価し，学習の初期ではエピソード報酬を用いた方策埋め込みモデルが

(6)

表 1: 1 エピソードの最大累積報酬の 8 試行における平均値と標準偏差 Environment TD3 TD3+PE Hopper 3609.01± 137.41 3712.12 ± 26.49 高い精度で方策を埋め込むことが可能なことを確認した．また，方策再現によって過去の悪い方策との距離を誤差関数に加えることで，従来手法と比較して方策の更新が安定し，局所的最適解へ陥りづらくなる効果があることも確認した．今後の研究の展望としては，現在は過去の悪い方策のみを用いて方策を更新しているが，過去の良い方策を再現し，それを方策の更新に利用できないか検討する予定である．また，方策埋め込みモデルを方策の更新に使うだけではなく，探索時のノイズの生成に利用し，より効率的に未知の行動を探索していくために利用することも検討する．

参考文献

[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis, “Human-level control through deep reinforcement learning,” Nature, vol. 518, no. 7540, pp. 529–533, 2015.

[2] S. Gu, E. Holly, T. Lillicrap, and S. Levine, “Deep reinforcement learning for robotic manip-ulation with asynchronous oﬀ-policy updates,” Proceedings of the 2017 IEEE international conference on robotics and automation (ICRA 2017), pp. 3389–3396, 2017.

[3] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wier-stra, “Continuous control with deep reinforce-ment learning,” Proceedings of the 4th Interna-tional Conference on Learning Representations (ICLR 2016), 2016.

[4] S. Fujimoto, H. van Hoof, and D. Meger, “Ad-dressing function approximation error in actor-critic methods,” Proceedings of the 35th Interna-tional Conference on Machine Learning (ICML 2018), pp. 1582–1591, 2018.

[5] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics engine for model-based control,” Proceed-ings of the 2012 IEEE/RSJ International Con-ference on Intelligent Robots and Systems (IROS 2012), pp. 5026–5033, 2012.

[6] A. Pourchot and O. Sigaud, “CEM-RL: combin-ing evolutionary and gradient-based methods for policy search,” Proceedings of the 7th Interna-tional Conference on Learning Representations (ICLR 2019), 2019.

[7] Z. Hong, T. Shann, S. Su, Y. Chang, T. Fu, and C. Lee, “Diversity-driven exploration strategy for deep reinforcement learning,” Proceedings of the Advances in Neural Information Processing Sys-tems 31: Annual Conference on Neural Informa-tion Processing Systems 2018 (NeurIPS 2018), pp. 10510–10521, 2018.

[8] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” Proceedings of the 2nd In-ternational Conference on Learning Representa-tions (ICLR 2014), 2014.

[9] D. Silver, G. Lever, N. Heess, T. Degris, D. Wier-stra, and M. A. Riedmiller, “Deterministic pol-icy gradient algorithms,” Proceedings of the 31th International Conference on Machine Learning (ICML 2014), pp. 387–395, 2014.

[10] G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schulman, J. Tang, and W. Zaremba, “Openai gym,” 2016.

学習の安定化のために方策の埋め込みを利用する強化学習手法の検討