学習の安定化のために方策の埋め込みを利用する
強化学習手法の検討
On Policy Embeddings for Improving Stability of
Deep Reinforcement Learning
梅本 晴弥
1∗豊田 哲也
2大原 剛三
2Haruya Umemoto
1Tetsuya Toyota
2Kouzou Ohara
2 1青山学院大学大学院 理工学研究科
1
Graduate School of Science and Engineering, Aoyama Gakuin University
2青山学院大学 理工学部
2
College of Science and Engineering, Aoyama Gakuin University
Abstract: Deterministic policy gradient is known as a high sample efficient reinforcement learning
method. But it is pointed out that the method is highlysensitive to hyper-parameter setting and may get unstable by getting trapped in a local optimal policy. One of the reasons for the instability is that it may update its action-value function inappropriately based on an action determined by a policy that has been updated in a wrong gradient direction. Its policy update is based only on the action-value function. Thus, once it updates the policy in a wrong direction, this cascade of updates easily leads to getting trapped in a local optimal policy whose performance is very poor. To alleviate this problem, in this paper, we attempt to use past policies in conjunction with the action-value function when updating the current policy. To this end, we propose a novel framework of reinforcement learning that has a module to embed past policies associated with their performance value by means of Variational Auto Encoder (VAE) that allows us to reproduce policies with an arbitrary level of performance.Indeed, we utilize the distance between an updated policy and a reproduced policy with a low performance level to measure the goodness of the updated policy. We will experimentally show that using embedded policies is effective toimprove the stability of learning.
1
はじめに
近年,強化学習は深層学習と共に大きく発展し,シ ミュレーション環境ではゲームの学習 [1],実世界環境 ではロボットアームの動作の学習 [2] など,様々なタス クにおいて新たな成果が報告されている.強化学習の 対象となるタスクは,環境におけるエージェントの行 動に基づいて離散操作タスクと連続操作タスクに分け られる.たとえば,ロボットアームやドローンの行動 学習はその制御対象がアクチュエータの回転角やプロ ペラモータの回転数などの連続値となるため,連続操 作タスクに分類される.モデルフリーの強化学習手法 は大きく価値反復型と方策勾配型に分けられるが,連 続操作タスクでは,行動を決定する方策を陽に連続関 ∗連絡先: 青山学院大学大学院理工学研究科 〒 252-5258 神奈川県相模原市中央区淵野辺 5-10-1 E-mail: [email protected] 数で近似するため連続値の行動出力が容易なことから, 方策勾配型の手法が多用される. 近年の方策勾配型の強化学習手法では,行動価値関 数の推定に一意な行動を出力する方策関数を利用す る off-policy の Deep Deterministic Policy Gradient (DDPG) [3] が提案され,DDPG を発展させた Twin Delayed DDPG (TD3) [4] は強化学習手法のベンチ マークによく用いられる物理シミュレーション環境 Mu-JoCo [5] の多くのタスクにおいて,確率的方策を用い る一般的な on-policy の手法よりも優れたサンプル効率 を達成している.しかし,DDPG や TD3 は高いサン プル効率を持つものの,局所解へ陥り学習が不安定に なることやハイパーパラメータに性能が大きく左右さ れてしまうことが指摘されている.そのため,学習の 安定化のために進化戦略アルゴリズムを方策勾配型強 化学習に組み合わせた手法 [6] や過去の行動との距離 を誤差関数に加えることでより多様な方策へ更新する 人工知能学会研究会資料 SIG-KBS-B902-03ように促す手法 [7] が提案されている. 決定論的方策勾配手法の学習が不安定となる理由の 1 つとして,方策の出力する行動が一意に決定されるこ とが考えらる.決定論的な行動出力では,方策が誤った 勾配方向へ更新されてしまった場合,誤った方策から一 意に出力された誤った行動を用いて行動価値関数を更 新することになるため,それ以降の学習が不安定にな ると考えられる.これは,DDPG や TD3 などの方策勾 配定理を利用する方策勾配手法では,方策の更新は行 動価値関数のみに依存するためである.つまり,過去に 学習してきた方策を考慮せずに更新をしていることが 問題として考えられる.このことから,方策の更新に 行動価値関数だけではなく,過去の方策も利用するこ とで方策更新の安定性の向上が期待できる.そこで本 稿では,決定論的方策勾配手法の学習の安定性を改善 するために,過去の方策を Variational Auto Encoder (VAE) [8] を用いて埋め込み,誤差関数に過去の方策 との距離を加えることで安定的な学習を促す手法を検 討する.
2
関連研究
2.1
決定論的方策勾配法
強化学習手法の 1 つである Q-learning はそのままで は連続行動環境へ適用することは出来なかったが,Silver らは連続行動環境へ適用可能な actor-critic 型の強化学 習手法である Deterministic Policy Gradient(DPG) を 提案した [9].ここで,マルコフ決定過程の下,タイム ステップ t でエージェントが状態 stを観測し,連続値 行動 at∈ RN を取り,報酬 rtを得るとする.また,γ を割引率,E を環境,β を探索方策,ρβを方策 β によ る状態遷移分布とする.このとき,DPG では行動価値 関数 Q のパラメータ θQを式 (1) の誤差関数を最小化 するように更新し,決定論的方策 µ のパラメータ θµを 式 (2) に従う勾配方向に更新する [3]. L(θQ) =Est∼ρβ,at∼β,rt∼E[(Q(st, at|θ Q)− y t)2] (1) yt= r(st, at) + γQ(st+1, µ(st+1)|θQ) ∇θµJ ≈ Es t∼ρβ[∇θµQ(s, a|θ Q)| s=st,a=µ(st|θµ)] (2) =Est∼ρβ[∇aQ(s, a|θQ)|s=st,a=µ(st)∇θµµ(s|θ µ)| s=st]2.2
方策の更新を工夫した強化学習手法
Pourchot ら [6] は,決定論的方策勾配強化学習手法 の学習の不安定性とパラメータ依存性の解決のために 進化戦略アルゴリズムと強化学習手法を組み合わせた ⎔ቃ ⤒㦂⏕ ࣂࢵࣇ ৽ୡभ৳ோ ⾏動 ৽ୡ॑৾ಆ ૾ଙ ᪉⟇ ⾜ື౯್㛵ᩘ $JHQW ্ੁभ 更新 図 1: 提案手法の概要図 図 2: 方策埋め込みモデルの概要図 手法を提案した.パラメータの異なる複数の actor を 同時に行動させ,エピソード報酬が多かった actor を用 いて方策を更新しつつ,進化戦略アルゴリズムを用い てより良い方策を持つ actor のパラメータを直接探索 する.Pourchot らは,これら 2 種類の方策探索アルゴ リズムを組み合わせることで,高サンプル効率と安定 的な学習の両方を実現可能であることを報告している. また,Hong ら [7] は方策が局所解に陥ることを防ぐた めに,過去の方策との距離を誤差関数に加える手法を 提案した.過去の方策から離れるように現在の方策を 更新することで,報酬のシグナルがなくとも方策を変 化させることができ,大きな状態空間や報酬がスパー スな環境において高い性能を示すと報告されている.3
提案手法
提案手法は,決定論的方策勾配手法を対象に,過去 の方策を埋め込み,方策更新の安定化のために利用す る.以下,3.1 節において過去の方策を VAE を用いて 埋め込むモデルについて述べ,3.2 節において過去の方 策を学習したモデルを用いた安定的な方策更新につい て述べる.図 3: Hopper-v2 タスクの例
3.1
過去の方策の埋め込み方法
過去の方策を埋め込む場合,最も単純な方法は,状 態を入力とし行動を出力する関数を Neural Network (NN) などのモデルを用いて学習することである.し かし,これは本来の方策の学習と平行に報酬を考慮せ ずに別の学習モデルを用いて方策を学習していること に等しく,その結果は精度の違いはあるもののいずれ も過去の方策を平均化したものと言える.その意味で, 状態と行動のみを用いて学習した結果を,現在の方策 が誤っていた場合に,その誤りを補正するための基準 として用いることは難しい.むしろ,過去の悪い方策 を明示的に再現できれば,その方策から離れるように 現在の方策を更新すれば,過去の悪い方策へ戻ること を防げるため,学習の安定性に寄与する可能性がある と考えらえる.そこで,本研究では方策の良さを定量 的に計る指標を定義し,方策とその良さを合わせて入 力として学習し,任意の良さの方策を再現できるよう な方策埋め込みモデルを作成する.以下に,本研究で 定義した 2 種類の方策の良さの指標を示す. 1. エピソード報酬指標 2. 行動相対価値指標 前者は方策に従った場合の 1 エピソードの累積報酬で ある.ここで,1 エピソードは環境の初期状態から,事 前に設定された環境の終了条件が満たされるまでを指 す.後者は式 (3) で表される行動相対価値である. α = Q(st, at) Q(st, µ(st)) (3) ここで,stと atはそれぞれ時刻 t における状態と,そ の時刻で実行した行動を表し,Q は行動相対価値関数, µ は状態 stに対する決定論的方策を表す. エピソード報酬を用いる場合は,1 エピソードにお ける良い行動と悪い行動の差別化がされないため,学 習回数が多くなければモデルが方策をうまく学習でき ない可能性がある.一方,行動相対価値を用いる場合 は,行動の良さを行動価値関数を用いて評価するため, 各行動の良さを評価しつつ学習することが可能である. ただし,行動価値関数は学習によって変化していくた め,学習前半と後半の行動相対価値 1.0 の方策が大き く異なり得る.そのため,以前に学習した方策を上書 きするように継続的に方策を学習していく必要がある. また,本研究では埋め込みモデルに NN ではなく VAE を使用した.その理由としては,NN を使用した場合は 特定の良さの方策として一意な方策を出力することに なるが,同じエピソード報酬を得る方策は複数考えら れるため,潜在変数によって出力を変化させることが 可能な VAE のほうが多様な方策を再現でき,局所最適 解に陥りにくいためである.図 1 に提案手法の概要を 示し,図 2 に VAE を用いた方策埋め込みモデルの概 要を示す.以下,提案手法を PE (Policy Embeddings) と表記する.3.2
過去の方策を利用した方策更新
提案手法は行動価値関数だけでなく,過去の方策も 利用することで方策更新の安定性の向上を図る.特に, 性能が悪い過去の方策から離れつつ方策を更新するこ とは,安定的な方策の更新に寄与すると考えられる.そ のため,提案手法では,式 (4) に示すような,状態 s に おいて過去の悪い方策から生成された行動 ν(s, α) と決 定論的方策により選択された行動 µ(s) の距離を加えた 誤差関数 LP Eを方策の更新に用いる. LP E(α) = L− Es∼U(Z)[D(µ(s), ν(s, α))] (4) L =−Es∼U(Z)[Q(s, µ(s))] ここで,L は一般的な決定論的方策勾配手法で用いら れる方策の誤差関数,Z は経験再生バッファ,U は一 様分布を表し,D は任意のベクトル間距離尺度とする. また,Q を状態と行動のペアから状態行動価値を出力 する行動価値関数とし,µ を状態から行動を出力する 決定論的方策,α を 3.1 節で述べた方策の良さの指標, ν を状態と方策の良さの指標のペアから行動を出力す る方策埋め込みモデルとする.ベクトル間距離尺度 D に関しては,本研究では Mean Square Error (MSE) を 用いた.また,α を性能の低い値に設定することで,悪 い方策から離れるように教師あり学習の枠組みで学習 する.4
実験
4.1
実験環境
強化学習手法の連続操作タスクでの評価において一 般的に用いられる MuJoCo シミュレータを,OpenAI1 が公開している OpenAI Gym 環境 [10] から利用し,提 案手法を評価した.MuJoCo にはクモ型モデルや人型 モデルの歩行タスクなど様々なタスクが存在するが,今 回はその中の 1 タスクである Hopper-v2 タスクを用い た.図 3 に Hopper-v2 タスクの例を示す.Hopper-v2 は,11 次元ベクトルで表現される状態空間において, 3 つの関節をもつ 1 本足のモデルを各関節角を実数値 で操作し,特定の方向へ移動させると報酬が得られる タスクである.他のタスクよりも比較的低次元な状態 空間と行動空間のタスクである一方,足のモデルの傾 きが少しでも誤ってしまうとすぐにエピソードが終了 してしまうタスクであり,エピソード終了の条件が比 較的厳しいと言える.つまり,他タスクよりも学習の 安定性が全体的なパフォーマンスに大きく影響を与え るタスクであるため,提案手法による安定性向上の効 果をより適切に評価することが出来るタスクと言える. なお,Hopper-v2 では,4,000 ステップ到達か,モデル の状態が歩行不可能と判定された場合に 1 エピソード が終了する.4.2
比較手法とパラメータ設定
本実験では,多くの連続操作タスクで優れた性能を 示している TD3 [4] を比較手法とした.TD3 の著者実 装 2を使用し,ネットワークの構造と各種パラメータ は論文で示されている値を使用した.提案手法は様々 な強化学習手法をベースとすることが出来るが,本実 験では比較のため TD3 をベースとして評価した.方策 埋め込みのための VAE に関しては,エンコード部は隠 れ層 1 層の NN とし,そのユニット数は 400 ノードと した.また,デコード部は隠れ層 2 層の NN とし,そ のユニット数をそれぞれ 400 ノードと 300 ノードとし, 潜在変数の次元数は 20 とした.また,活性化関数には Relu,最適化アルゴリズムには Adam を使用した.4.3
実験方法
エージェントと環境の相互作用 1 回を 1 ステップ,100 万ステップを 1 試行とし,本実験では 8 試行における 累積報酬の平均値を用いて各手法を評価した.ただし, 決定論的方策勾配法では,探索のために方策にノイズ を加えるため,探索時の累積報酬の比較は純粋な方策 1https://github.com/openai/gym 2https://github.com/sfujim/TD3 図 4: 10 万ステップ時のエピソード報酬を用いた方策埋 め込みモデルの入力と再現方策の累積報酬の関係(横 軸:入力するエピソード報酬値,縦軸:再現された方 策の 1 エピソードの累積報酬) 図 5: 10 万ステップ時の行動相対価値を用いた方策埋 め込みモデルの入力と再現方策の累積報酬の関係(横 軸:入力する行動相対価値,縦軸:再現された方策の 1 エピソードの累積報酬) の性能の評価とならない.そのため,1 万ステップ毎 にノイズを加えずに方策のみで 10 エピソード実行し, その平均累積報酬を用いて性能を比較した.また,方 策埋め込みモデルの精度の検証のため,ベース方策の 更新が活発な 10 万ステップにおける累積報酬の比較を 行った.5
実験結果と考察
5.1
方策埋め込みの精度の検証
図 4 にエピソード報酬を用いた方策埋め込みの方策 再現精度,図 5 に行動相対価値を用いた方策再現精度の 結果を示す.図中の Base Policy は 10 万ステップ時のベースとなる方策の平均累積報酬を表している.まず, 図 4 に示すエピソード報酬を用いた方策埋め込みの精 度の結果から,入力値が 400 程度までは再現される方 策はほぼ入力値と同じエピソード報酬を獲得できてい るのに対し,入力値が 400 以降は入力エピソード報酬 と再現方策のエピソード報酬に乖離が生じていること がわかる.これはエピソード報酬が 400 程度までの学 習データが豊富に存在したため,方策埋め込みモデル が正しく方策を埋め込むことができ,エピソード報酬 が 400 以降のデータは学習しつつあるものの,不完全 であるため入力値と再現値に乖離が生じてしまったと 考えられる.この結果から,方策埋め込みは学習デー タさえ十分に存在すれば,問題なく方策を学習し再現 することが可能であるといえる.また,10 万ステップ 時においては,ベース方策よりも良い方策を,方策埋め 込みモデルを用いて再現することができるため,悪い 方策から離れるように方策を更新するだけでなく,良 い方策に近づけるように方策を更新することで学習を 安定させられる可能性が考えられる. 次に,図 5 に示す行動相対価値を用いた方策埋め込 みの結果から,行動相対価値を利用した方策埋め込み は学習があまり進んでいないことがわかる.この原因 として,10 万ステップの時点では行動価値関数の更新 が活発に行われるため,方策埋め込みモデルも行動価 値関数の更新に合わせて学習をしていく必要があり,こ の時点では学習が不完全な状態であったため,このよ うな結果になってしまったと考えられる. 以上の結果から,行動相対価値よりもエピソード報 酬を入力に用いた方策埋め込みが学習初期に優位であ ることがわかったため,以降の実験はエピソード報酬 を用いた方策埋め込みを用いた.
5.2
提案手法の学習安定性の検証
図 6 に提案手法と比較手法の学習曲線を示す.まず, 提案手法はベースとなる TD3 と比較し,平均的高い報 酬を獲得していることがわかる.特に,学習の前半で は大きく優位になっている.一方,学習の後半では得 られる累積報酬が頭打ちになってしまうため,差が小 さくなっている.次にこの学習曲線の標準偏差をプロッ トしたのもを図 7 に示す.この結果から,提案手法は TD3 と比較し,明らかに学習曲線の標準偏差が小さい ことがわかる.これは,比較手法よりも学習における 安定性が高くなっていることを意味し,過去の悪い方 策から距離を保ちつつ方策更新することで,決定論的 方策勾配法の欠点である学習の安定性が向上すること を示唆するものである.次に,各手法の各試行におけ る最大の累積報酬の平均値を表 1 に示す.提案手法は, Hopper-v2 タスクにおいて TD3 と比較し,平均的に高 図 6: Hopper における各手法の 8 試行の平均学習曲線. 薄い部分は標準偏差を表す.また,結果は window サ イズ 9,次数 1 の Savitzky-Golay フィルタを用いて平 滑化している. 図 7: Hopper における各手法の学習曲線の 8 試行の標 準偏差 い最大累積報酬を得ることができており,その標準偏 差も TD3 よりも低い値となっていることがわかる.こ れは,提案手法では方策の更新が大域的最適解周辺ま で到達しやすいことを示しており,このことから,行 動価値関数のみではなく過去の方策との距離も用いて 方策を更新することは,局所的最適解へ陥りづらくな る作用があると考えられる.6
おわりに
本稿では,決定論的方策勾配手法を対象に過去の方 策を埋め込み,誤差関数に過去の方策との距離を加え ることで安定的な学習を促す強化学習手法を提案した. 評価実験を通して,2 種類の方策の良さの指標を用い て過去の方策の埋め込みの実現性を評価し,学習の初 期ではエピソード報酬を用いた方策埋め込みモデルが表 1: 1 エピソードの最大累積報酬の 8 試行における平 均値と標準偏差 Environment TD3 TD3+PE Hopper 3609.01± 137.41 3712.12 ± 26.49 高い精度で方策を埋め込むことが可能なことを確認し た.また,方策再現によって過去の悪い方策との距離 を誤差関数に加えることで,従来手法と比較して方策 の更新が安定し,局所的最適解へ陥りづらくなる効果 があることも確認した. 今後の研究の展望としては,現在は過去の悪い方策 のみを用いて方策を更新しているが,過去の良い方策 を再現し,それを方策の更新に利用できないか検討す る予定である.また,方策埋め込みモデルを方策の更 新に使うだけではなく,探索時のノイズの生成に利用 し,より効率的に未知の行動を探索していくために利 用することも検討する.
参考文献
[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis, “Human-level control through deep reinforcement learning,” Nature, vol. 518, no. 7540, pp. 529–533, 2015.
[2] S. Gu, E. Holly, T. Lillicrap, and S. Levine, “Deep reinforcement learning for robotic manip-ulation with asynchronous off-policy updates,” Proceedings of the 2017 IEEE international conference on robotics and automation (ICRA 2017), pp. 3389–3396, 2017.
[3] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wier-stra, “Continuous control with deep reinforce-ment learning,” Proceedings of the 4th Interna-tional Conference on Learning Representations (ICLR 2016), 2016.
[4] S. Fujimoto, H. van Hoof, and D. Meger, “Ad-dressing function approximation error in actor-critic methods,” Proceedings of the 35th Interna-tional Conference on Machine Learning (ICML 2018), pp. 1582–1591, 2018.
[5] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics engine for model-based control,” Proceed-ings of the 2012 IEEE/RSJ International Con-ference on Intelligent Robots and Systems (IROS 2012), pp. 5026–5033, 2012.
[6] A. Pourchot and O. Sigaud, “CEM-RL: combin-ing evolutionary and gradient-based methods for policy search,” Proceedings of the 7th Interna-tional Conference on Learning Representations (ICLR 2019), 2019.
[7] Z. Hong, T. Shann, S. Su, Y. Chang, T. Fu, and C. Lee, “Diversity-driven exploration strategy for deep reinforcement learning,” Proceedings of the Advances in Neural Information Processing Sys-tems 31: Annual Conference on Neural Informa-tion Processing Systems 2018 (NeurIPS 2018), pp. 10510–10521, 2018.
[8] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” Proceedings of the 2nd In-ternational Conference on Learning Representa-tions (ICLR 2014), 2014.
[9] D. Silver, G. Lever, N. Heess, T. Degris, D. Wier-stra, and M. A. Riedmiller, “Deterministic pol-icy gradient algorithms,” Proceedings of the 31th International Conference on Machine Learning (ICML 2014), pp. 387–395, 2014.
[10] G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schulman, J. Tang, and W. Zaremba, “Openai gym,” 2016.