強化学習における脱創発志向の潮流試行錯誤～見まね～目的理解へ

(1)

1．は　じ　め　に

1990年代，「未知の環境」における行動獲得の手段として強化学習 [Sutton 98, Watkins 92] が注目された．ここでの「未知」とは，対象とする環境のモデル＊1_をエージェントも，その設計者ももたない．したがって逐次的な教師信号は期待できないことを指す．唯一，ゴールとなる状態に対して報酬というスカラ量さえ定義できれば，後は試行錯誤に委ねられる設計者フリー，モデルフリーであることが強化学習の最大の売りであった．当時の進化計算アルゴリズムをはじめとする創発志向アルゴリズム研究の一端を担い，その後の 10 年は学習性能の向上を目指した階層化，モデルの導入，あるいは，状態観測の不完全性（Partiall Observability）[木村 97]，マルチエージェント系での収束性 [Hu 03, Littman 94, Littman 01, Wang 02]などのシナリオで研究が進められてきた． 1998年，強化学習で所与とされる「報酬」，「状態空間」の設計が案外難しいということに人々が気付き始めた頃，U. C. Berkeley の Stuart Russell [Russell 98]，

Ng [Ng 00]らによって，モデルから報酬を推定する逆強化学習の考え方が示された．さらに 2004 年には同グループの Abbeel [Abbeel 04] らが，行動軌跡から報酬を推定する見まねベースの逆強化学習，2004 年以後はさまざまな逆強化学習が提案され，2011 年には Levine [Levine 11]らが逆強化学習を用いて報酬と特徴＊2_空間設計を相互に改善する FIRL の提案が相次いだ．この流れに相まって，深層学習がにわかに注目され，そこに強化学習を導入した深層強化学習による Atari [Mnih 15a, Mnih 15b]の成功を受けて，再度強化学習が注目されている．しかし，教師なし・教師ありで二分されてきた機械学習のうち，強化学習はその立ち位置が明らかではなく，機械学習の解説書においても，AlphaGo [Silveret 16]や Atari など深層学習に付随する形で 1990 年代の創発志向の強化学習が紹介されている．深層強化学習として話題の DQN（Deep Q network）は，代表的 な強化学習の一つである Q 学習 [Watkins 92] の関数近 似器として深層学習を導入している．これらの基本形は Linら [Lin 92] であり，多層のニューラルネットワークによる関数近似を用いた強化学習は柴田ら [Shibata 09] が適用例を示している．従来，パターン分類などの診断型とプランニングに代表される合成形の問題解決は人工知能研究の両輪として位置付けられてきた．認識精度とプランの最適性は相互に影響し，切り離すことは難しい．前者に対しては，深

強化学習における脱創発志向の潮流

試行錯誤〜見まね〜目的理解へ

Trend Away from a Bottom-Up to a Top-Down

荒井　幸代

千葉大学大学院工学研究院都市環境システム

Sachiyo Arai Department of Urban Environment Systems, Graduate School of Science and Engineering, Chiba University. [email protected]

石川　翔太

（同　　　上）

Shota Ishikawa _{[email protected]}

中田　勇介

（同　　　上）

Yusuke Nakata _{[email protected]}

北里　勇樹

（同　　　上）

Yuki Kitazato _{[email protected]}

Keywords:

inverse reinforcement learning, apprenticeship learning, behavior cloning, generative adversarial networks.

「深層学習周辺の最新動向」

(2)

層学習が認識精度を飛躍的に向上させたが，後者に対しては強化学習が期待されている．その理由は，教師なしであることや，報酬の遅れ（delayed reward）を許容することがあげられる．しかし，前述のとおり「報酬」と「状態空間」の設計問題が実問題適用におけるボトルネックである．状態空間に関しては Atari [Mnih 15a, Mnih

15b]のように何も考えずにそのまま画像を入力することも可能であるが，画像のどんな特徴が状態を表象するのかに対する方策の説明可能性（explainablity）という新たな課題を生んでいる．一方，報酬設計問題とは，「試行錯誤によってゴールを実現したときに限り，報酬を与える」という強化学習の基本形は，大規模な環境に対して限界があることを指す．AlphaGo にしても「勝ち」というゴール状態に至る行動（手の）系列は長大であるし，ゴールに着く前に負け続ければ方策を得ることはできない．実際，人間と同様に過去の名人の棋譜に基づいた強化を行っている．囲碁と同様に実問題は，望ましい軌跡が既知であることが多く，試行錯誤だけによってプランニング問題を解くわけではなさそうである．それでは，この挙動を逐一コピーすればよいのか？エキスパートの軌跡をまねる方法として Behavioral cloning [Pomerleau 91]があるが，エキスパートの行動軌跡が再現できても，（1）エキスパートの目指すゴール（状態）の価値を知ることはできない．また，図らずも（2）エキスパートの辿る軌跡（状態系列）を踏み外したら，途方にくれるしかない．（1）に対しては報酬関数を求めること，（2）に対しては各状態に対する方策を求めておくことが必要になる．逆強化学習によって得られる報酬関数はこの課題に対する一つのアプローチである．本稿では，報酬設計に焦点を当て，報酬関数を同定する逆強化学習を取り上げる．2 章では準備として必要な記号と基本概念を整理し，3 章で逆強化学習の考え方と課題を示す．続く 4 ～ 6 章で各課題に対して提案されているアルゴリズムを概観し，7 章でまとめる．

2．準　　　備

本稿の理解に必要なマルコフ決定過程，強化学習の基礎理論に加え，代表的な逆強化学習である Ng [Ng 00] と Abbeel [Abbeel 04] の方法を説明する．表 1 に必要な記号の定義をまとめる． 2･1 マルコフ決定過程

マルコフ決定過程（Markov Decision Process ：MDP）は，エージェントの行動による状態遷移にマルコフ性を仮定した数学モデルである． 本稿の対象とする有限マルコフ決定過程は S, A, Pa ss′, γ, R からなる．S は有限状態集合，A は行動集合，Pa ss′ は状態 s ∈ S で行動 a ∈ A ととったとき，次状態 s_{∈ S} に遷移する確率である状態遷移確率，γは割引率，R:S R は状態 s ∈ S に遷移したときに報酬 r を返す報酬関数 を表す． 2･2 強　化　学　習強化学習 [Sutton 98] は，状態遷移確率など環境モデルを所与とせずに，最適な方策を獲得する方法である．学習主体であるエージェントには，状態入力に対する正しい出力を明示した教師信号はなく，報酬と呼ばれるスカラ量によって学習する．一般に，エージェントはこの報酬の期待総和を最大化する方策を学習する．本研究の対象とする強化学習では，環境モデルを S, A, R, π とする．ここで方策πは状態 s から可能な行動 aを選択する確率である．エージェントは時刻 t におい て状態 st∈ S を観測し，自身の方策πtに基づいて行動 at∈ A を選択する．その後，時刻（ t＋1）では st，atによっ て確率的に次状態 st＋1に遷移し，報酬 rtを得る．獲得 した報酬から価値関数 V（s）または行動価値関数 Q（s, a） を生成し，その値を用いて方策の評価と改善を行う．価 値関数 V（s），行動価値関数 Q（s, a）は方策πが与えられたとき，それぞれ式（1），式（2）を満たす． Vπ(s) = R(s) + γ s P_ssπ(s)Vπ(s ) （1） Qπ(s, a) = R(s) + γ s P_ssa Vπ(s ) （2）

3．逆強化学習の基本アルゴリズム

逆強化学習は，エージェントが学習すべき所望の軌跡，あるいは利用可能な環境モデル（状態遷移確率）を所与として報酬関数を推定する枠組みである．逆強化学習はその目的の違いから reward learning と apprenticeship learningに大別される [Ramachandran 07]．前者は所与とした軌跡の報酬関数を推定することにより，その軌跡が何を目的に生成されたかを発見しようとする立場で，Russell ら [Hadﬁeld-Menell 16, Ng 00, Russell 98] はこの立場である＊3_{．これに対して [Abbeel 04, Babes}

表 1　主な記号の定義

(3)

11, Neu 07, Syed 08a, Ziebart 08]は軌跡から方策を獲得しようと後者の立場である．ここでは前者から [Ng 00] を，後者から [Abbeel 04] のアルゴリズムをそれぞれ紹介する． 3･1 Ng の逆強化学習：reward learning [Ng 00]では逆強化学習を下記の二つに大別しているが，ii）の問題については 3･2 節に委ね，本章では reward learningとして位置付けられ，離散化された状態に対する定式化を紹介する． i）全状態の最適行動が所与． ● 離散化された状態空間（方策はテーブル表現）． ● _{連続の状態空間（関数近似）．} ii）軌跡が所与． Ngら [Ng 00] は，MDP から報酬関数 R を除くS, A, Pa ss′, γ と各状態 s における最適行動 a1を所与とし，報 酬関数 R を推定する問題を，式（3）に示す線形計画問 題として定式化した．目的関数：maximize M i=1 min a∈a2,··· ,ak − {(Pa1(i)− Pa(i))(I− γPa1)−1R} λ_||R||1 （3）制約条件：subject to ：

(Pa₁− Pa)(I− γPa₁)−1R≥ 0, ∀a ∈ A\a1 |Ri| ≤ Rmax, i = 1,· · ·, M （4） ここで，状態遷移行列 Paは状態遷移確率 Pi, ja の（i, j） 成分を要素とする M×M 行列，状態遷移ベクトル P（i）a は Paの第 i 行ベクトルを表す．M は全状態数である．λ はペナルティ係数で報酬の総量を調節するパラメータである． 式（4）は各状態の最適行動 a1から導かれる報酬の期 待値（Q 値）が，最適行動以外の行動の Q 値より大き くなることを保証する制約条件である．その導出を式（5） から式（9）に示す．最適行動 a1は各状態において最大 の Q 値を獲得することから，式（5）となる． ∀s ∈ S, a1≡ π(s) ∈ arg max a∈A R(s) + _s P_ssa Vπ(s ) （5） 各状態において，（最適行動 a1の Q 値）＞（他行動の Q値）であるため，式（2）の比較により式（6）が導かれる． ∀s ∈ S, a ∈ A, s Pa1 ss V π_{(s )} ≥ s P_ssa Vπ(s ) _（6） 状態価値関数ベクトル Vπ_＝{V_（sπ i）}Mi＝0，報酬関数ベク トル R＝{R（si）}Mi＝0を定義すれば，式（6），式（1）はそれぞれ式（7），式（8）と書き直せる． Pa1Vπ ≥ PaVπ （7） Vπ = R + γPa1V π _（8） 式（8）を Vπ_{について解き，式（7）に代入した後に整} 理すると，制約条件である式（9）が導かれる． (Pa1− Pa)(I− γPa1)−1R≥ 0 （9）式（3）に示す目的関数の第 1 項は最適方策と 2 番目に良 い方策から導かれる Q 値との差を最大化に供し，式（10） と等価である．第 2 項は総報酬量を最小化する項で，複雑な報酬関数より単純な報酬関数のほうが望ましいとの考えに基づく． s (Qπ(s, a1)− max a∈A\a1 Qπ(s, a)) （10）

3･2 Abbeel の逆強化学習：apprenticeship learning　 Abbeelらの逆強化学習 [Abbeel 04] は，エキスパート の状態遷移系列から特徴空間中での報酬関数 R を推定す る．状態空間 S が p 個の特徴を要素とした特徴ベクトル : S[0, 1]pを用いて表現可能であると想定すると，状 態 s ∈ S に与えられる報酬関数ベクトル R（s）は特徴ベ クトル （s）と重みパラメータ  の内積式（11）で表さ れる． R(s) = θ· φ(s), θ∈ Rp _（11） は特徴の重みを表し，その定義域は報酬の最大値を 1以下に保つために，∥∥2 ≤ 1とする．方策πのもとで観測される特徴の期待値を特徴期待値 （π）と呼び，式（12）で定義される． µ(π) = E ∞ t=0 γtφ(st)|π ∈ Rp     （12） 特に，エキスパートの U 個の状態遷移系列 {su 0， su1, 表 1

(4)

…}U u＝1が与えられたとき，エキスパートの特徴期待値 E＝（πE）は，式（13）によって求められる． µE= 1 U U u=1 ∞ t=0 γtφ(sut) （13）

Abbeelらの方法では Projection Method と呼ばれる表 1（Algorithm1）の手続きを通して，エキスパートの特徴期待値 Eと推定した特徴期待値 （π）の誤差を最小化する特徴ベクトルの重み  を繰返し計算によって推定する． 3･3 逆強化学習の課題 3章で紹介した逆強化学習アルゴリズムの課題として以下の三つをあげる．課題 1：ある最適方策を導く報酬関数が複数存在するという不良設定問題（ill-posed problem）．課題 2：報酬を更新する過程で，推定報酬を用いた強化学習によって方策を獲得し，エキスパートの方策と比較する必要がある．この Inner Loop の強化学習に要する計算量問題．課題 3：環境のダイナミクスに関する事前知識の利用．以下の章では各課題に対する提案を概観する．

4．報酬の最適化

本章では，ある最適方策を導く報酬関数が複数存在し得ることを示す．また，適切な一つの報酬関数の推定に最適化法を導入した研究を取り上げ，各目的関数を紹介する． 4･1 複数の報酬関数の存在 3･1 節において，Ng らは最適方策を導く報酬関数が式（9）の制約条件を満たす必要があることを示した．この制約条件を満たす報酬関数が複数存在することを，状態数 |S|＝2 の問題を例に，直観的に説明する．この問題の制約条件を図 1 に示す．横軸が状態 1 の報酬値，縦軸が状態 2 の報酬値である．塗りつぶされた実行可能領域（Feasible region）に存在する報酬関数はすべて最適方策を獲得する．すなわち，式（9）の制約条件を満たす報酬関数は複数存在し得る．ここで制約を充足するだけでなく，何らかの目的関数を導入した報酬関数の最適化問題として逆強化学習を拡張することが考えられる．線形の目的関数を設定した場合，一般に線形計画問題では制約条件の交点が解となるため，図 1 に示した複数の最適解（multiple optimal solution）が得られる．一方で，後述する Abbeel らの目的関数のような非線形の目的関数では，multiple optimal solution として示した点ではなく，実行可能領域内のいずれかの点が最適解となる．そのため，目的関数が非線形の場合には，線形の場合よりも不良設定問題における探索の指針を定めることが困難となる．ここで，最適方策を導く報酬関数を見つけることと，最適な報酬関数を見つけることを区別していることに注意されたい． 4･2 報酬の最適化における目的関数前述したとおり，最適方策を導く報酬関数が複数存在することから，実際の問題に適用する場合は，報酬関数を一本化する必要がある．既存の方法では複数の報酬関数の中から，「所与とした最適行動の再現」という観点から目的関数を定義し，最適化問題として解いている．代表的な方法における目的関数を以下にまとめる． Ngらは 3･1 節で示したとおり，最適な行動の Q 値が 他の行動の Q 値よりも可能な限り大きくなる報酬関数を 推定する．この目的関数を用いることにより，各状態において最適行動以外の行動は最適行動に比べ期待報酬が小さくなることから，選ばれにくくなる． Abbeelら [Abbeel 04] の目的関数は式（14）となる． min θ ||µθ− µE||, s.t.||θ||2≤ 1 （14）式（14）は推定した報酬関数により学習した特徴期待値μθとエキスパートの特徴期待値μEの差を最小化する．特徴期待値は遷移した状態と時間の要素を含んでおり，特徴期待値が一致する重みを選択することにより，エキスパートと同等の振舞いを実現する．Syed ら [Syed 08a]の目的関数は Abbeel らの方法の性能を改善するために提案されたもので，式（15）に示す． min θ θ(µθ− µE), s.t. θ≥ 0, θ = 1 （15）式（15）において，重みと特徴期待値の積μθは平均期待報酬値とみなせるため，エキスパートと同等の平均期待報酬値となるような重みを推定する．特に，特徴期待値のノルムの差をとるのではなく，平均期待報酬として考えることにより，より正確な推定を行う． Neuら [Neu 07] の目的関数を式（16）に示す．図 1　ある方策を再現する報酬の実行可能領域

(5)

min θ s∈S,a∈A νE(s)(πθ(a|s) − πE(a|s))2 s.t. πθ= G(Q＊θ) （16）ここでνE（s）＝1/n･ N t＝1 I（st＝s）∀s∈S は各状態の出現頻度，π（a｜s）は状態 s において行動 a をとる確率， G（Qθ＊）は重みで計算される最適 Q 値のボルツマン分布 に従った行動選択を表す．この目的関数はエキスパートの方策と推定方策の直接的な近似を行う．

Ziebartら [Ziebart 08] による Maximum Entropy IRL （以下，MaxEnt IRL）では，逆強化学習に最大エントロピーの原理を適用し，軌跡の確率分布のパラメータ（報酬が確率分布のパラメータ）を最尤推定で求める問題として再定式化している．その結果，特徴期待値が一致する軌跡の分布が複数存在する，という解の曖昧さが解消されている．具体的には，特徴期待値との一致の制約下で式（17）に示す目的関数を最大化する． max θ − ζ∈Z P (ζ|θ) log P (ζ) s.t. ζ∈Z P (ζ)φ(ζ) =EPE(ζ)[φ(ζ)], ζ∈Z P (ζ) = 1 （17） ζは軌跡，Z は軌跡の全体集合を表す．上式をラグラ ンジュの未定乗数法で解けば，P（ζ｜）∝ exp（T__（_ζ_））が得られる．ここで，ラグランジュ乗数θは報酬の重み に相当し，P（ζ｜）は，重みθのもとで軌跡が得られる確率を示す．所与の軌跡集合 D に対する尤度関数を式（18）に示す． ζ∈D PE(ζ) ˙logP (ζ|θ) （18）式（17）におけるラグランジュ乗数の推定は，式（18）の最大化と等価であり，対数尤度の最大化でθを求めることができる．MaxEnt IRL は凸性，微分可能性など優れた性質をもつ最適化問題とした学習であり，この研究以後，MaxEnt IRL に基づいた各種最適化理論の適用が試みられている．また，実装も比較的容易なため，論文の比較実験に用いられることも多く，最近の代表的な逆強化学習アルゴリズムといえる．ここでは報酬関数は離散であるが，深層ニューラルネットで近似した Deep MaxIRL [Wulfmeier 15]もある．ただし，MaxEnt IRL は確率分布の分配関数を動的計画法で求めるため，対象問題の状態行動空間が小さい問題に限られる．この課題について 5 章の Inner Loop における計算の高速化法で取り上げる．以上，ここで紹介した方法は，それぞれ異なる目的関数を導入することによって複数の報酬関数から最適な関数を獲得しているが，いずれも複数の報酬関数のうち，エキスパートの行動の再現性を高める目的関数となっている．しかし，他にもさまざまな目的関数を導入することは可能で，例えば，収束効率を最大化するなど他の目的関数の導入も考えられる [Kitazato 18].

5．推定報酬更新の効率化

3･3 節の課題 2 であげたとおり，報酬関数を最適化する過程で，推定報酬を用いた強化学習によって方策を獲得しエキスパートの方策と比較する必要がある．この Inner Loopと呼ばれる段階にかかる莫大な計算コストが逆強化学習のボトルネックになっている．本章では，はじめに，MaxEnt RL [Ziebart 08] における離散空間でのグラフを用いた特徴期待値の計算法を整理し，次に， Inner Loopの強化学習を経ずに報酬や方策を推定する

方法を紹介する [Boularias 11, Uchibe 16a, 内部 16b]． 5･1 状態遷移グラフに基づく特徴期待値の伝搬 MaxEnt IRLについて 4･2 節で報酬関数の最適化に関して説明したが，基本的には， のときのある軌跡ζの 発生確率を P（ζ｜）∝ exp（T__（_ζ_{））として，所与の軌} 跡集合 D の対数尤度 L（D｜）＝ i ln P（ζi｜）を最大化する重みベクトル ＊_{を推定する．}＊_{は式（19）で計} 算される．このとき，L（D｜）の勾配は式（20）の第 1 項（推定報酬の特徴期待値）と第 2 項：（所与の特徴期待値）の差となる． θ＊= argmin は正規化項． θ (L(D|θ) + Ω(θ)), Ω(θ) （19） ∂L(D|θ) ∂θ = s∈S,a∈A D(s)πθ(a|s)φ(s, a) − Ei[φ(ˆζi)] （20）この勾配計算に状態間の関係を示すグラフを用いたアルゴリズムを以下に示す．図 2 にグラフを用いた特徴期待値計算手順の概要を示 す．グリッド環境の各状態 s をノード，行動 a をエッジ， 状態遷移確率を接続関係として表したグラフを用いる．伝搬はそれぞれ報酬の伝搬（Backward pass），方策の推定（Policy estimation），状態訪問頻度の計算（Forward givenMDP\R = ,A, Pa ss, γ ,D 1. θ 2. . 3. (20) ∂L(D|θ)/∂θ ∂L(_D|θ)/∂θ ≈ 0 (a)，(b) (a) s D(s) πθ(a|s) (b) θ θ_{← θ +}

(6)

pass）の各ステップから構成され図 3 に例をあげて示す．以上のグラフに基づく報酬の伝搬法 [Ziebart 08] によ れば計算量は O（｜S｜｜A｜）へと緩和できるが，離散空間 を対象とした高速化である．また，[Shimosaka 17] では連続空間から Interval consistent を保証した状態遷移グラフを生成する方法を提案している． 5･2 重点サンプリングによる分配関数の推定報酬関数に関する分配関数（partition function）を，重点サンプリングによって推定する Relative Entropy IRL（以下，RelativeEnt IRL）[Boularias 11] を紹介する． MaxEnt IRLおよび Deep MaxEnt IRL において式

（21）の対数尤度 L（θ）を勾配法によって最大化する計

算に時間を要する．式（22）に示す MaxEnt IRL では， エキスパートと「特徴期待値」を比較して重み w を，式 （23）に示す Deep Max IRL ではエキスパートと「状態訪問頻度」の比較によって報酬を，それぞれ更新する． log P (ζ|θ) = R(ζ) − log Z ∇ log P (ζ|θ) = φ(ζ) − EP (ζ|θ)[φ(ζ)] （21） ∇L(θ) = ζ∈D ∇ log P (ζ|θ) = EP_πE(ζ)[φ(ζ)]− EP (ζ|θ)[φ(ζ)] （22） ∂ ∂θlog P (ζ|θ) = s∈ζ µζ(s)− EP (ζ|θ)[µζ(s)] ∂ ∂θf (φ(s), θ) ∂ ∂θL(θ) = × s∈S EP_πE(ζ)[µζ(s)]− EP (ζ|θ)[µζ(s)] ∂ ∂θf (φ(s), θ) （23）

MaxEnt IRLでは EP（ζ｜θ）[φ（ζ）]，Deep MaxEnt IRL

では EP（ζ｜θ）[μζ（s）]を求めるために動的計画法や強化学

習を経なければならない．ここでに対する最適方策が不要になればその計算量を減らすことができる．

RelativeEnt IRLでは，式（24）に示すとおり，エキ

図 2　Maximum Entropy IRL：特徴期待値の更新

(7)

スパートの軌跡の分布 Q（ζ）との相対エントロピーの最小化問題に帰着する．これをラグランジュ未定乗数法で解けば式（27）となり，求めたい EP（ζ｜θ）[φ（ζ）]は式（26） の Z ＝ _ζ∈ZQ（ζ）exp（R（ζ））を重点サンプリングによって近似することによって得られる．重点サンプリングは期待値を求めたい確率分布と，サンプリングする分布の比の計算を必要とする．ここでは， 「エキスパート方策のもとでの軌跡の生成確率 Q（ζ）」と，「軌跡のサンプリングに用いた方策のもとでの軌跡の生 成確率 P（ζ）」の比がそれにあたる． 式（28）の P（ζ）は，ある軌跡が得られる確率，Q（ζ）はエキスパートの軌跡ζが得られる確率で，それぞれ式（29）のように初期状態分布と「方策×状態遷移確率」 の総乗で表される．状態遷移確率 Pa ss′が共通のため相殺され，状態遷移確率に依存しない式（30）が得られる．したがって，状態遷移確率を必要としない．エキスパートの方策と，軌跡をプロットした方策の比を計算すれば，分配関数の推定値が得られるため，動的計画法，強化学習が不要で，比較的大規模な離散状態行動空間，連続空間にも適用可能である． mini ζ∈Z P (ζ) logP (ζ) Q(ζ) s.t. ζ∈Z P (ζ)φ(ζ) =EQ(ζ)[φ(ζ)], ζ∈Z P (ζ) = 1 （24） P (ζ|θ) = Q(ζ) exp (R(ζ)) ζ∈ZQ(ζ) exp (R(ζ)) = Q(ζ) exp (R(ζ)) Z , whereR(ζ) = θ · s∈ζ φ(s) （25） EP (ζ|θ)[φ(ζ)] = ζ∈Z P (ζ|θ)φ(ζ) = ζ∈Z Q(ζ) exp (R(ζ)) Z φ(ζ) （26） ζ∈Z Q(ζ) exp (R(ζ)) =EQ(ζ)[exp R(ζ)] （27） =EP (ζ) Q(ζ) P (ζ)exp R(ζ)_     （28） = × EP (ζ) d0(s1) H_t=1πE(at|st)P (st+1|st, at) d0(s1) H_t=1π(at|st)P (st+1|st, at) exp R(ζ)       （29）       =EP (ζ) H t=1πE(at|st) H t=1π(at|st) exp R(ζ) _（30）分配関数と重点サンプリングを用いた研究として Guided Cost Learning（GCL）[Finn 16a] がある．GCL は

MaxEnt IRLと同じ問題設定にモデルベース強化学習を

組み合わせた手法で，重点サンプリングと深層学習を用いて報酬関数を推定する．MaxEnt IRL の分配関数の推定に重点サンプリングを適用した式を式（31）に示 す．MaxEnt IRL の分配関数 Z は，RelativeEnt IRL と 異なるため，式（31）の式（29）で消えた状態遷移確率の項が残る．この状態遷移確率をモデルベース強化学習（Guided Policy Search）[Levine 13] を用いて推定し，

P（ζ）を求め，近似した状態遷移確率の（環境モデルの）下で最適な軌跡を生成する．軌跡の生成確率は，方策と状態遷移確率の総乗（式（29））で表されるため，環境のモデルを学習すれば，ある方策のもとでの軌跡の生成確率が計算できる．また，GCL では，状態遷移確率から計算した軌跡の生成確率の分布を，提案分布として重点サンプリングで分配関数を計算する．軌跡の生成方策を Guided Policy Searchで更新するため，重点サンプリングに最適な分 布 P（ζ）∝exp R（ζ）から軌跡をサンプルできる．したがって，その結果，試行錯誤が大幅に削減される一方，近似精度は高く，サンプル数が少なくても RelativeEnt IRL に比べて優れた学習性能が得られることがいくつかのタスクを用いた実験によって示されている． Z = ζ∈Z exp (R(ζ)) =EP (ζ) 1 P (ζ)exp R(ζ) （31） 5･3 その他の方法 § 1 線形可解マルコフ決定過程による定式化近年注目されている線形可解マルコフ決定過程（Linearly solvable Markov Decision Process：LMDP）

[Todorov 06]の定式化は，強化学習による問題依存の試行錯誤とコスト関数（報酬）設計の問題に対して有効であることが示されている [Uchibe 16b]．強化学習や最適制御では MDP のもとで導出される非線形のハミルトン・ヤコビ・ベルマン（Hamilton-Jacobi-Bellman ：HJB）方程式を解かなければならないが，LMDP では即時のコスト関数と，環境のダイナミクスを制限することによって HJB 方程式を線形化できる．最適制御問題を機械学習におけるグラフィカルモデルの推論などの確率推論問題に帰着できることが示され [Theodorou 12]，最適制御理論と機械学習や機械学習をつなぐ理論として注目されている．線形可解マルコフ決定過程を用いた強化学習および逆強化学習に関する解説は [Uchibe 16b] に委ねる． LMDPを用いた研究として，[Dvijotham 10, Uchibe 16a]がある．[Uchibe 16a] の提案した Deep IRL Logistic Regression（LogRegIRL）は RelativeEnt IRL とも重点サンプリングの考え方を導入している点で類似している．RelativeEnt IRL が任意の方策でサンプルした状

(8)

図 4　凸関数最適化問題としての逆強化学習態行動対を使って線形の報酬を推定するのに対して， LogRegIRLは任意の方策でサンプルした状態遷移（状態と次状態の対）を使って非線形の報酬，状態価値を推定する．報酬だけでなく，状態価値も推定できる点は， LMDPの IRL の売りの一つといえる．また，LogRegIRL と同様に離散状態行動空間を対象とする MaxEnt IRL，

MaxEnt Deep IRLがその莫大な計算量のために低次

元環境にその適用が限られるのに対し，LogRegIRL は順強化学習または DP 不要であるため，大規模な環境への適用にも期待できる．

5･2 節で紹介した RelativeEnt IRL [Boularias 11] や

GCL [Finn 16a]はいずれもモデルフリーで，深層学習

によって報酬を非線形関数として推定する方法である． § 2 生成敵対型ネット：GANs の導入

深層学習と逆強化学習に関する興味深い話題に逆強化学習と Generative Adversarial Networks（生成敵対型ネット：以下では GANs）をはじめとする生成モデルとの類似性がある．逆強化学習は報酬と方策を交互に更新するが，GANs は判別器と生成器を交互に更新する点である．また，MaxEnt IRL と，ある形式の GANs の等価性が理論的に示されている [Finn 16b]．時を同じくして

MaxEnt IRLで得られる方策と全く同じ方策を，GANs

を用いて学習する Generative Adversarial Imitation Learning（敵対生成形模倣学習：以下 GAIL）[Ho 16] が提案された．GAIL の特徴は以下である． ● 環境情報を必要としないモデルフリーアルゴリズム． ● コスト（報酬）を推定することなく方策を直接学習． ● _{Inner Loop}の強化学習に要するコストを低減． ● 大規模，高次元の状態行動空間に適用可能．

GAILは IRL に関する理論的な貢献も大きい．Ho ら

は，IRL の解が鞍点の座標であることを示し，IRL と双対上昇法＊4_{の関連性を明らかにした [Ho 16]．図 4 左は} 従来の逆強化学習，右は双対上昇法の概念図である．双対上昇法は凸関数最適化が容易な問題に対して有用な手法である．しかし，逆強化学習における凸関数最適化は強化学習である，そのため計算量が多く非効率である． GAILは GANs の枠組みで鞍点を求めるため，既存の IRLと比べて効率的な手法である．

GAIL [Ho 16]は 2015 年に提案された Trust Region Policy Optimization（TRPO）[Schulman 15] が用いられている．TRPO は深層強化学習の一つであり大規模状態行動空間（離散，連続ともに）において安定的に方策を学習するアルゴリズムである．その安定性が敵対学習による方策の学習性能に貢献している．

6．事前知識の導入

逆強化学習を考えるうえで，求めたい報酬関数や，エキスパートの軌跡，および環境のダイナミクスに対する非線形性や不完全性，マルコフ性などの前提が必要である．しかし，前提を置くにもかかわらず，報酬関数やエキスパートの軌跡に関する事前の知識を明示的には導入しない．これに対してベイズを導入した IRL（Bayesian IRL）は 2007 年の [Ramachandran 07] を皮切りにパラメトリックな IRL と並行して研究が進められている．事前知識を反映させた結果，確率モデルが複雑になったとしても MCMC などの近似解法によって推定が可能な点にベイズを用いる優位性がある． これまで紹介した IRL の報酬関数の多くが f（, ）＝ T，あるいはニューラルネットワークでは f（, ）＝ f（f1 2（…（f（, n n）, …）, 2）, 1）など，特徴ベクトルとパラメータによって記述されている．したがって，図 5 に示す各状態の同時確率分布などの知識を統合的に扱えない． Bayesian IRLでは，報酬 R の事前分布 P（R）から式 （32）を用いた尤度計算によって報酬の事後分布 P（R｜ζE_） を得る．状態 si，行動 ai，および，エキスパートの軌跡 ζE_{の尤度の計算は式（33）で，エキスパートの軌跡と} ＊4 鞍点を求める手法．表 2　事前知識と推定対象図 5　報酬関数への事前知識の導入

(9)

同じ行動の Q 値が大きいほど尤度が大きくなるような更 新となる．

導入された事前知識は，1）報酬関数，2）エキスパートの軌跡，3）環境に対してである．既存の Bayesian

IRLで導入された知識を表 2 にまとめた．

Bayesian IRLの基礎的論文 [Choi 11] ではベイズの事後確率最大（maximum a posteriori ：MAP）を式（34）に定義し，これを最大にする報酬を式（35）の勾配を用いて計算可能であることを示した．式（34）は，事後確率が所与のデータに対する適合度合い（尤度）の項と，正則化の項に分けられることを示しており，これにより，2010 年以前の IRL が，それぞれの解きたい問題に合わせて二つの項を仮定していることを指摘している．これを表 3 で紹介する．合わせて 2016年までの IRL の系譜も図 6 にまとめたので適宜ご参照いただきたい． P (R|ζE) =P (ζ E_{|R)P (R)} P (ζE₎ ∝ P (ζ E |R)P (R) （32） P (ai|si, R) = exp(Q π＊(si,ai,R)₎ b∈Aexp(Qπ＊(si,b,R)) P (ζE|R) = i∈ζE exp(Qπ＊(si,ai,R)₎ b∈Aexp(Qπ＊(si,b,R)) （33） RMAP = argmaxRP (R|ζE) = argmaxRlogP (R|ζE)

= argmaxR[logP (ζE|R) + logP (R)] （34） Rnew← R + δt∇RP (R|ζE) （35）

7．お　わ　り　に

本稿では脱創発志向と題して，試行錯誤だけによらずエキスパートの行動系列（軌跡）の観察に基づいて報酬関数，あるいは方策を獲得する逆強化学習に焦点を当て，近年の研究を紹介した．逆強化学習であげた三つ課題のうち，第一にあげた報酬の不良設定問題は，人間の徒弟学習を考えればよくあることで，同じ行動を見せても，さまざまな弟子が育ったりするのは非常に興味深い．しかし，ロボットの学習など工学的立場からは，正確かつ高速に方策を獲得させることは喫緊の課題である．一方，第二，第三の課題については，人間は多くの時間を費やすことなく，また，事前知識も苦もなく導入していることを思えば今後も新たな提案が見込まれる．人工知能研究が，人間に学ぶものであるとすれば，人のやり方を腰を据えて見直すことによって新たなブレークスルーがあるかもしれない．また，本稿は強化学習の「報酬設計に対する困難」から出発して逆強化学習を概観したが，強化学習モデルが S, A, R であることからしても状態空間の設計は切り離せない．多くの研究が認識の部分を深層学習でクリアしているが，師の行動が「どの状態」で実行されているのかを適切に捉える，すなわち的確に特徴抽出できる弟子はおそらく正確かつ高速に方策を獲得することは明らかである．これに関する研究として FIRL [Choi 13， Levine 10]をはじめとして特徴空間と報酬関数を相互に更新する枠組みが示されている．これに関しては別の機会にまた紹介させていただきたい．

◇　参　考　文　献　◇

[Abbeel 04] Abbeel, P. and Ng, A. Y.: Apprenticeship learning via inverse reinforcement learning, Proc. 21st Int. Conf. on

Machine Learning（ICML），pp. 1-8（2004）

[Babes 11] Babes-Vroman,M., Marivate, V., Subramanian, K. and Littman, M.: Apprenticeship learning about multiple intentions, Proc. 28th Int. Conf. on Machine Learning（ICML）， pp. 897-904（2011）

[Boularias 11] Boularias, A., Kober, J. and Peters, J.: Relative entropy inverse reinforcement learning, Proc. 14th Int. Conf.

on Artificial Intelligence and Statistics（AISTATS），Vol. 15, pp. 20-27（2011）

[Choi 11] Choi, J. and Kim, K. E.: MAP inference for Bayesian inverse reinforcement learning, Advances in Neural

Information Processing Systems（NIPS），Vol. 24, pp. 1-9（2011） [Choi 12] Choi, J. and Kim, K. E.: Nonparametric Bayesian inverse reinforcement learning for multiple reward functions,

Advances in Neural Information Processing Systems（NIPS）， Vol. 25, pp. 1-9（2012）

[Choi 13] Choi, J. and Kim, K. E.: Bayesian nonparametric feature construction for inverse reinforcement learning, Proc.

23rd Int. Joint Conf. on Artificial Intelligence（IJCAI），pp. 1287-1293（2013）

[Dvijotham 10] Dvijotham, K. and Todorov, E.: Inverse optimal control with linearly-solvable MDPs, Proc. 27th Int. Conf. on

Machine Learning（ICML），pp. 335-342（2010） 表 3　尤度と正則化項　[Choi 11] から引用

(10)

[Finn 16a] Finn, C., Levine, S. and Abbeel, P.: Guided cost learning: Deep inverse optimal control via policy optimization,

Proc. 33rd Int. Conf. on Machine Learning（ICML），pp. 49-58 （2016）

[Finn 16b] Finn, C., Christiano, P., Abbeel, P. and Levine, S.: A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models, NIPS 2016

Workshop on Adversarial Training, pp. 1-10（2016）

[Fu 17] Fu, J., Luo, K. and Levine, S.: Learning robust rewards with adversarial inverse reinforcement learning, arXiv preprint arXiv:arXiv:1710.11248, pp. 1-13（2017）

[Goodfellow 14] Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B. Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y.: Generative adversarial nets, _{http://arxiv.org/} abs/1406.2661（access 2018.1.1）

[Hadﬁeld-Menell 16] Hadﬁeld-Menell, D., Dragan, A., Abbeel, P. and Russell, S.: Cooperative inverse reinforcement learning,

Proc. 30th Conf. on Neural Information Processing Systems

（NIPS）（2016）

[Ho 16] Ho, J. and Ermon, S.: Generative adversarial imitation learning, Advances in Neural Information Processing Systems, Vol. 29, pp. 1-9（2016）

[Hu 03] Hu, J. and Wellman, M.: Nash Q-learning for general-sumstochastic games, J. of Machine Learning Research, Vol. 4, pp. 1039-1069（2003）

[木村 97] 木村元，Kaelbling, L. P.：部分観測マルコフ決定過程下での強化学習，人工知能学会誌，Vol. 12, No. 6, pp. 822-830 （1997）

[Kitazato 18] Kitazato, Y. Arai, S.: Estimation of reward function maximizing learning efficiency in inverse reinforcement learning, 10th Int. Conf. on Agents and Artificial Intelligence （ICAART），pp. 276-278（2018）

[Levine 10] Levine, S., Zoran, P. and Vladlen, K.: Feature construction for inverse reinforcement learning, Advances in

Neural Information Processing Systems, pp. 1342-1350（2010） [Levine 11] Levine, S., Popovic, Z. and Koltun, V.: Nonlinear inverse reinforcement learning with Gaussian processes,

Advances in Neural Information Processing Systems, Vol. 24

（NIPS），pp. 19-27（2011）

[Levine 13] Levine, S. and Abbeel, P.: Guided policy search, Proc.

30 th Int. Conf. on Machine Learning（ICML），pp. 1-9（2013） [Lin 92] Lin, L.: Self-improving reactive agents based on reinforcement learning, planning and teaching, Machine

Learning, Vol. 8, pp. 293-321（1992）

[Littman 94] Littman, M.: Markov games as a framework for multiagent reinforcement learning, Proc. 7th Int. Conf. on

Machine Learning, pp. 242-250（1994）

[Littman 01] Littman, M.: Value-function reinforcement learning in Markov games, Cognitive Systems Research, Vol. 2, No. 1, pp. 55- 66（2001）

[Michini 12] Michini, B. and P. How, J.: Bayesian nonparametric inverse reinforcement learning, Joint European Conf. on

Machine Learning and Knowledge Discovery in Databases

（ECML PKDD），pp. 148-163（2012）

[Mnih 15a] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D. and Riedmiller, M.: Playing Atari with deep reinforcement learning, NIPS Deep

LearningWorkshop, arXiv:1312.5602 [cs.LG]（2013）

[Mnih 15b] Mnih, V., et.al., Human-level control through deep reinforcement learning, Nature, Vol. 518, pp. 529-533（2015） [Neu 07] Neu, G. and Szepesv’ari, C.: Apprenticeship learning

using inverse reinforcement learning and gradient methods,

Proc. 23rd Conf. on Uncertainty in Artificial Intelligence

（UAI），pp. 295-302（2007）

[Ng 00] Ng, A. and Russell, S.: Algorithms for inverse reinforcement learning, Proc. 17th Int. Conf. on Machine

Learning（ICML），pp. 663-670（2000）

[Pomerleau 91] Pomerleau, D. A.: Efficient training of articial neural networks for autonomous navigation, Neural

Computation, Vol. 3, No. 1, pp. 88-97（1991）

[Ramachandran 07] Ramachandran, D. and Amir, E.: Bayesian inverse reinforcement learning, Proc. 20th Int. Joint Conf. on

Artificial Intelligence（IJCAI），pp. 2586-2591（2007） [Ratliff 06] Ratliff, N. D. and Bagnell, J. A.: Maximum margin

planning, Proc. 23rd Int. Conf. on Machine Learning（ICML）， pp. 729-736（2006）

[Russell 98] Russell, S.: Learning agents for uncertain environments（extended abstract），Proc. 11th Annual Conf.

on Computational Learning Theory（COLT），pp. 101-103 （1998）

[Schulman 15] Schulman, J., Levine, S., Moritz, P., Jordan, M. and Abbeel P.: Trust region policy optimization, Proc. 31st Int.

Conf. on Machine Learning（ICML），pp. 663-670（2015） [Shibata 09] Shibata, K. and Kawano, T.: Acquision of Flexible

Image Recognition by Coupling of Reinforcement learning and neural network, SICE Journal of Control, Measurement, and

system Integration, Vol. 2, No. 2, pp. 122-129（2009）

[Silver 16] Silver, D., et al.: Mastering the game of go with deep neural networks and tree search, Nature, Vol. 529, pp. 484-503 （2016）

[Shimosaka 17] Shimosaka, M., Sato, J., Takenaka, K. and Hitomi, K.: Fast inverse reinforcement learning with interval 10 consistent graph for driving behavior prediction, Proc. 31st

AAAI Conf. on Artificial Ingelligence, pp. 1532-1538（2017） [Surana 14] Surana, A. and Srivastava, K.: Bayesian

Nonpara-metric inverse reinforcement learning for switched Markov decision processes, Proc. 13th Int. Conf. on Machine Learning

and Applications（ICMLA），pp. 47-54（2014）

[Sutton 98] Sutton, R. S. and Barto, A. G.: Reinforcement

Learning: An Introduction, MIT Press（1998）

[Syed 08a] Shed, U., Bowling, M. and Schapire, R. E.: Appren-ticeship learning using linear programming, Proc. 25th Int.

Conf. on Machine Learning（ICML），pp. 1032-1039（2008） [Syed 08b] Syed, U. and Schapire, R. E.: A game-theoretic

approach to apprenticeship learning, Advances in Neural

Information Processing Systems（NIPS），Vol. 21（2008） [Todorov 06] Todorov, E.: Linearly-solvable Markov decision

problems, Advances in Neural Information Processing Systems （NIPS）， Vol. 19, pp. 1369-1376（2006）

[Theodorou 12] Theodorou, E. and Todorov, E.: Relative entropy and free energy dualities: Connections to path integral and KL control, Proc. 51st IEEE Conf. on Decision and Control, pp. 1466-1473（2012）

[Uchibe 16a] Uchibe, E.: Deep Inverse Reinforcement Learning by Logistic Regression, 23rd Int. Conf. on Neural Information

Processing（ICONIP），pp. 23-31（2016）

[内部 16b] 内部英治：線形可解マルコフ決定過程を用いた順・逆強化学習，日本神経回路学会誌，Vol. 23, No. 1, pp. 2-13（2016） [Wang 02] Wang, X. and Sandholm, T.: Reinforcement learning to play an optimal Nash equilibrium in team Markov games,

Advances in Neural Information Processing Systems, Vol. 15,

pp. 1571-1578（2002）

[Watkins 92] Watkins, C. and Dayan, P.: Q-learning, Machine

Learning, Vol. 8, No. 3, pp. 279-292（1992）

[Wulfmeier 15] Wulfmeier, M., Ondruska, P. and Posner, I.: Maximum entropy deep inverse reinforcement learning, arXiv preprint arXiv:1507.04888, pp. 1-10（2015）

[Ziebart 08] Ziebart, B. D., Maas, A., Bagnell, J. A. and Dey, A. K.: Maximum entropy inverse reinforcement learning, Proc. 23rd

AAAI Conf. on Artificial Intelligence（AAAI），pp. 1433-1438 （2008）

(11)

著　者　紹　介

荒井　幸代（正会員）慶應義塾大学理工学部卒業後，ソニー株式会社，東京工業大学院理工学研究科制御工学専攻を経て，1998 年博士（工学）．Carnegie Mellon University，Robotics Institute，Fraunhofer AIS，現在，千葉大学大学院教授．マルチエージェントシステムにおける計画問題に従事．計測自動制御学会，電気学会，日本 OR 学会，電子情報通信学会ほか，AAAI，ACM 各会員．石川　翔太（学生会員） 2014年千葉大学工学部都市環境システム学科卒業，2016 年同大学院工学研究科博士前期課程修了．現在，同研究科博士後期課程在学．自動運転，都市交通に興味をもつ．特に強化学習を用いた交通流制御の研究を行っている．日本建築学会会員．中田　勇介 2017年千葉大学工学部都市環境システム学科卒業．現在，同大学院融合理工学府博士前期課程在学．機械学習，特に逆強化学習の研究を行っている．日本建築学会会員．北里　勇樹（学生会員） 2013年千葉大学工学部都市環境システム学科卒業，2015 年同大学院工学研究科博士前期課程修了．現在，同研究科博士後期課程在学．逆強化学習の研究に従事．日本建築学会会員．

強化学習における脱創発志向の潮流 試行錯誤～見まね～目的理解へ

1．は じ め に

強化学習における脱創発志向の潮流

試行錯誤〜見まね〜目的理解へ

Trend Away from a Bottom-Up to a Top-Down

荒井 幸代

石川 翔太

中田 勇介

北里 勇樹

Keywords:

2．準 備

3．逆強化学習の基本アルゴリズム

4．報 酬 の 最 適 化

5．推定報酬更新の効率化

6．事前知識の導入

7．お わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

強化学習における脱創発志向の潮流試行錯誤～見まね～目的理解へ

1．は　じ　め　に

荒井　幸代

石川　翔太

中田　勇介

北里　勇樹

2．準　　　備

4．報酬の最適化

7．お　わ　り　に

◇　参　考　文　献　◇

著　者　紹　介