これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

(1)

(2)

「これからの強化学習」

サンプルページ

この本の定価・判型などは，以下の URL からご覧いただけます．

http://www.morikita.co.jp/books/mid/088031

(3)

(4)

i

はじめに

強化学習は，経験をもとに試行錯誤しながら最適な行動を獲得するための理論的枠組みである．近年，強化学習が注目を集めているのは，それがヒトや動物が環境に適応して行動を獲得するプロセスの本質を捉えているからである．生物が行動を獲得するときには，「正解」すなわち，各々の場面でとるべき行動が外部から与えられないことが多い．しかし，何度も試行しながら修正していくことで，何らかのハイレベルな目的を達成するような行動を自ら発見することができる．また，環境が変化して従来の方法が通用しなくなっても，誰からも教えてもらわなくても別の方法を見つけ出すことができる．このような，単なる知識の獲得では解けない問題を対象とするのが強化学習である．たとえば，ヒトが自転車を練習して乗れるようになるのは，何度も練習することで，感覚と操作を対応づけることができるからである．また，最初から料理が上手な人はいないが，ある調理手順を試してみて，その結果とかかった時間を振り返る，という試行錯誤のプロセスを経ることで，次第に美味しい料理を短時間でつくれるようになるであろう．自転車を運転するプログラムの設計は一筋縄ではいかないが，強化学習を利用すると，コンピュータが自ら行動ルールを獲得できるようになる．あるいは，シェフが料理する手順を分析するために強化学習を利用することも考えられるだろう．一般的には，強化学習は，機械学習とよばれる研究分野の一分野として捉えられることが多い．機械学習は，データから自動的に規則を獲得する枠組みであり，音声認識や自動識別など，すでに多くの分野で利用されている技術である．しかし，強化学習とそれ以外の機械学習では，決定的に違う点が一つある．それは，強化学習においては，アルゴリズムの出力によって，収集されるデータそのものが変化することである．ある操作に対して自転車の状態がどう変化するかは，その操作をすることではじめて知ることができるし，ある材料の組み合わせでつくった料理がどんな味になるかも，その材料で調理してみなければデータが得られない．通常の機械学習では扱えない，「データの足りない対象」に対して，試行することでデータを収集していくことが求められるのである．強化学習においては，この問題を，探索と利用のトレードオフとよんでいる．これまで収集したデータから単に最適なものを選ぶだけでは，まだ試していない領域についての知識が得られない．一方，新たな領域のデータを収集するためには，最適ではないかもしれない行動を試してみなければならないため，コストがかかる．別の言い方をすると，「十分なデータをもっておらず，データの収集にコストがかかる世界において，データをどのように収集するか」が強化学習である，とみることもできる．その意味で，強化学習は，いわゆるビッグデータとよばれるような，データが与えられることが前提とされる他の機械学習とは，本質的に異なる問題に取り組んでいる．むしろ，

(5)

ii データがない領域に対してどのように最適化するか，あるいは，どのようにデータをつくり出すかという，ビッグデータの次に必要となる技術であると言っても過言ではない．また，動物やヒトの脳を理解するための理論的道具としても，強化学習は重要な役割を果たしている．脳内のさまざまな伝達物質やホルモンのはたらきを強化学習の概念と結びつけることで，脳のはたらきや疾患についての新たな見方を得ることが可能になった．ヒトのメカニズムを再現することでヒトを理解する，構成論的アプローチによる研究も進んでいる．とはいえ，大きく広がった強化学習研究の全貌を把握することは容易ではない．これまで教科書とされてきたSuttonとBartoの『強化学習』†も発行から20年近く経過し，これだけで最新の研究を理解することは難しくなってきている．本書の目的は，そのような強化学習の現在の研究を俯瞰することである．これから研究を始める大学院生や研究者が，研究分野の全貌の見取り図を知ることで，最新の研究を理解する手がかりになるものを目指した．・第1章では，強化学習の基礎的概念を，最新の見方をもとに簡潔に整理する．探索と利用のトレードオフや，方策の最適化のための反復法といった，他の強化学習の研究を理解するために必要となる項目を，初学者でも理解しやすい形で提示することを目指した．・第2章では，最新の研究に取り組んでいる研究者の方々による，最先端の理論をまとめる．最近の研究論文を読むときの手がかりとして，また，新たな研究テーマを探す手がかりとして役立てていただきたい．・第3章は，強化学習を実際に応用に取り組んだ例について，具体的な事例を紹介する．どのような問題が強化学習で解けるのか，また，どのように強化学習を適用できるのかがわかる，大変興味深い内容である．・第4章では，ヒトの理解という面における，強化学習の関連研究を紹介する．強化学習がどのように脳のはたらきと対応づけられているのか，また，内発的動機付けなど，脳の研究から強化学習にもたらされた新しい概念についてもわかる，大きく広がる内容である．本書は，計測自動制御学会の学会誌『計測と制御』において掲載されたリレー解説「強化学習の最近の発展」をもとに，主に第1章を加筆する形で構成された．本書が，これから強化学習の研究を志す方々への道標となれば幸いである．編者

† Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998. 邦訳『強化学習』（三上貞芳,皆川雅章（訳），森北出版，2000）．

(6)

iii

1

章

強化学習の基礎的理論

1

1.1 強化学習とは 2 1.2 強化学習の構成要素 14 1.3 価値反復に基づくアルゴリズム 29 1.4 方策勾配に基づくアルゴリズム 42 1.5 部分観測マルコフ決定過程と強化学習 56 第

2

章

強化学習の発展的理論

71

2.1 統計学習の観点から見たTD学習 72 2.2 強化学習アルゴリズムの理論性能解析とベイズ統計による強化学習のモデル化 112

2.3 逆強化学習(Inverse Reinforcement Learning) 127 2.4 試行錯誤回数の低減を指向した手法：経験強化型学習XoL 136 2.5 群強化学習法 148 2.6 リスク考慮型強化学習 165 2.7 複利型強化学習 177 第

3

章

強化学習の工学応用

189

3.1 高次元・実環境における強化学習 190 3.2 連続的な状態・行動空間への拡張：マルチロボットシステムへの適用 199 3.3 対話処理における強化学習 214 3.4 マルチエージェント系の報酬設計 225 3.5 自然言語処理における逆強化学習・模倣学習の適用 237 3.6 医療臨床データ分析への応用 249 3.7 深層学習を用いたQ関数の学習：Atari 2600と囲碁への応用 257 第

4

章

知能のモデルとしての強化学習

283

4.1 脳の意思決定機構と強化学習 284 4.2 内発的動機付けによるエージェントの学習と発達 295 おわりに 309 索引 311

(7)

iv

執筆者一覧

■編著者牧野貴樹グーグル株式会社（はじめに，1.1∼1.3節，2.2節，3.5節，おわりに）澁谷長史筑波大学大学院システム情報工学研究科（1.2節，1.3節，1.5節，おわりに）白川真一横浜国立大学大学院環境情報研究院（1.4節，おわりに） ■著者（50音順）浅田稔大阪大学大学院工学研究科（4.2節）麻生英樹産業技術総合研究所（3.6節）荒井幸代千葉大学大学院工学研究科（2.3節，3.4節）飯間等京都工芸繊維大学（2.5節）伊藤真沖縄科学技術大学院大学（4.1節）大倉和博広島大学大学院工学研究院（3.2節）黒江康明京都工芸繊維大学（2.5節）杉本徳和情報通信研究機構脳情報通信融合研究センター（3.1節）坪井祐太日本IBM東京基礎研究所（3.5節）銅谷賢治沖縄科学技術大学院大学（4.1節）前田新一京都大学大学院情報学研究科（2.1節，3.7節）松井藤五郎中部大学生命健康科学部（2.7節）南泰浩電気通信大学大学院情報システム学研究科（3.3節）宮崎和光独立行政法人大学改革支援・学位授与機構（2.4節）目黒豊美 NTTコミュニケーション科学基礎研究所（3.3節）森村哲郎日本IBM東京基礎研究所（1.4節，2.6節）森本淳 ATR脳情報研究所（3.1節）保田俊行広島大学大学院工学研究院（3.2節）吉本潤一郎奈良先端科学技術大学院大学情報科学研究科（4.1節）所属は2016年5月現在のものです．

(8)

第

1

章

強化学習の基礎的理論

この章では，強化学習の基本的概念について概説する．1.1 節では，強化学習がどのような問題を対象にしており，一般的な機械学習と何が異なるのかについて，できるだけ専門用語を使わずに解説する．1.2節では，強化学習の理論を数式的に表す道具であるマルコフ決定過程 (MDP)を紹介する．1.3節では，強化学習で最もよく使われる解法である，価値反復法について解説する．ここまで読むことで，最も簡単な強化学習の実装方法を知ることができるだろう．1.4節では，価値反復法に代わって最近注目を集めている解法である方策勾配に基づくアルゴリズムを紹介する．また，1.5節では，より複雑な強化学習問題を表現する基盤となる部分観測可能マルコフ決定過程(POMDP) について紹介する．第2章で扱うような先進的な強化学習理論を学ぶためには本章に目を通しておくことが望ましい．

(9)

1.1

第1章強化学習の基礎的理論

強化学習とは

牧野貴樹強化学習とは試行錯誤しながら行動を最適化する理論的枠組みである，などという説明を聞くだけでは，強化学習とは何かを理解することは難しい．ここでは，強化学習がどのような問題を対象にしているのか，そこではどのような困難があるのか，ということを，まずは数式を使わず，例に基づいて説明したい．

1.1.1 強化学習の考え方

強化学習問題(reinforcement-learning problem)とは，対象について不完全な知識しかなく，また，対象へのはたらきかけによって観測できることが変わってくる場合に，最適なはたらきかけ方の系列を発見するような問題である．最も典型的なケースは，自律的に動く主体が，周囲にはたらきかける場合であるので，強化学習では，行動する主体をエージェント(agent)とよび，はたらきかけられる対象を環境(environment) とよぶ．たとえば，嵐で船が遭難し，無人の海辺に流れ着いた人を考えよう（図1.1.1）．目が覚めたら知らない場所にいて，どこに何があるかもわからない．もしかしたら，危険な場所や，人を襲う動物が周囲にいるかもしれない．しかし，飲み水や食べ物を手に入れなければ，死んでしまうのはわかっている．こうした状況において，どのようにすればよいかを考えるためには，歩きまわったり，いろいろなもののにおいをかいでみたり，食べてみたり，などの環境へのはたらきかけを通して，探索しながら生き延びる方法を探さなければいけない．これは，強化学習問題の一例である．この例では，流れ着いた人がエージェントであり，流れ着いた浜辺の周囲が環境となる．エージェントが環境に行うはたらきかけを，行動 (action) とよぶ．エージェントは，いろいろな行動をとることができるが，どの行動をとるかによって，その後に何が起きるかが変わってくる．たとえば，歩いていける方向はいくつもあるだろうが，どちらに行くかでその次に見るものは大きく変わるだろう．エージェントが行動することで，変化する環境の要素を，状態(state)とよぶ．この例では，エージェントがいまどこにいるか，何を持っているか，といったことが状態に相当する．同じ行動でも，どの状態でとるかによって，結果が大きく変わってくる．たとえば，同じ「水を飲む」という行動でも，手にしている水が海水であれば身体にダメージがあ

(10)

1.1 強化学習とは 3 図1.1.1 無人島で生き残る方法を探すことは，強化学習問題の一例である．る一方，きれいな湧き水を飲めば元気が出てくるだろう．あるいは，砂浜を歩くと別の場所に移動できるが，岩場を歩けば転倒して怪我をするかもしれない．強化学習では，未知の環境で発生するいろいろなことを統一的に比較する指標として，報酬(reward) とよばれるスカラー値で行動の結果の良さを表す．きれいな水を飲むなど，エージェントにとって良いことに対しては大きな報酬を，海水を飲むなど悪いことには少ない報酬を割り当てる（負値を使うことも多い）．報酬は，経済学では利得(utility)とよばれ，制御工学では符号を反転して損失(loss)またはコスト(cost)とよばれるが，強化学習の文脈では同じものと思ってよい．強化学習問題とは，置かれた環境のなかで，行動の選択を通して得られる報酬の総和を最大化する問題である．強化学習では，多くの場合，行動の結果や与えられる報酬は確率的に変化するものとして与えられるため，一連の行動を最初に決定しておくよりも，行動の結果を観測してから次の行動を決めるほうが，より良い行動を選択できる．そこで，エージェントの行動決定の方策(policy)を，観測の結果（現在の環境の状態）を入力として，行動を出力とする関数の形で表す．強化学習では，ありうる数多くの方策のなかから，最適な方策，すなわち，最も多くの報酬をもたらす方策を選択することが目的となる．単純には，エージェントはより多くの報酬につながる行動を選べばよいわけだが，ある行動をとった直後の報酬値（これを即時報酬(immediate reward)とよぶ）だけに

(11)

4 第1章 ▼ 強化学習の基礎的理論注目していると，局所的な解に落ち込んでしまう．たとえば，歩いて周囲を探索すると体力を消耗するので，流れ着いた浜辺で動かずにじっとしているほうが即時報酬が高い，という状況が考えられる．しかし，いつまでもじっとしていても状況はそれ以上良くなることはない．逆に，探索を始めたばかりのときには何も報酬が得られなくても，そのあとに別の行動を組み合わせることで，はじめて大きな報酬が得られるかもしれない（食べ物を見つけるなど）．これを遅延報酬(delayed reward)とよぶ．強化学習においては，即時報酬と遅延報酬を合わせ，得られる長期的な報酬を最大化するような行動を選ぶことが必要になる．遅延報酬の扱いは，強化学習における本質的な問題の一つである．遅延報酬を考慮に入れて考えようとすると，即時報酬だけでなく，その後に得られる報酬すべてを含めた結果，すなわち収益(return, income)を最大化することが必要になる．報酬は外部から与えられるものであるのに対し，収益は最大化したい目標としてはエージェントが自ら設定するものであるので，エージェントの考え方に応じて計算式が変わってくる．たとえば，より遠くの未来の報酬を割引(discount)した報酬和として収益を計算することも多い．しかし，収益は，まだ起きていない未来の出来事に依存する確率変数であるので，エージェントの現在の状態，使う方策などを固定した場合の条件つき期待値として，価値(value)を計算する．価値には遅延報酬も含まれているため，価値が大きくなる条件を探すことができれば学習ができることになる．方策が変わると価値も変わるため，あくまである方策をとった場合の価値しか計算することはできない．しかし，エージェントは，価値を計算することで，どう方策を変えればより多くの価値が得られるかを知ることができる．試行錯誤を通してデータを収集し，価値を計算しながら方策を改善していくことが，強化学習における基本的な戦略となる．この例の状況であれば，岩場は歩きにくい（=報酬が少ない）ため，ほかに何もなければ行く意味がない（=この人にとって価値が低い）ので，岩場には行かない（=岩場に向かう行動を避けるような方策を選ぶ）．しかし，岩場の奥まで行ってみると，洞窟があり，雨風をしのげる（=報酬が多い）ことがわかったとすれば，岩場を通る行動に変えるかもしれない（岩場を通って洞窟に向かう方策を選ぶ）．行動をとることで得られる情報を通じて，方策を改善し続けていけば，だんだん得られる報酬が増えていくだろう．とはいえ，もしもいま置かれた環境について完全にわかっているならば，試行錯誤によらなくても，価値を計算したり，最適な方策を求めたりすることは可能である．たとえば，東側にきれいな湧き水があると知っていれば，そこに行けば水が手に入ることがわかる．西側の浜に空き瓶が流れ着いているのを知っていれば，飲み水を汲むという一連の行動を計画することもできるだろう．

(12)

1.1 強化学習とは 5 実際，最適行動決定の問題は，制御工学においても多く扱われているが，古典的な問題設定では，エージェントはノイズ項以外は環境について完全な知識があると仮定されている．あるいは，オペレーションズ・リサーチやミクロ経済学においても，他の行動主体は常に理性的な行動を選択するという強い仮定があり，また全エージェントが行動を選択した後の結果については完全な知識があると仮定されている．しかし，このような仮定をおくと，解ける問題は限定されてしまう．強化学習の問題では，ほとんどの場合，エージェントが環境に関して事前の知識をもっていない，あるいは知識が不完全であると仮定する．すなわち，観測できるのは，現在の状態だけであり，どの行動をとると，どのように状態が変化するかはわかっていない．不完全な知識の上で，知識を収集しながら最適な行動を計画するためはどうすればよいかを考えることが，強化学習における中心的な課題となる．このことは，探索と利用のトレードオフ(exploration-exploitation tradeoﬀ)という，もう一つの強化学習の本質的な問題を引き起こす．単純な期待値だけを考えれば，これまで試したなかで最も良さそうな選択肢を選べばよいのだが，そうしていると，そのほかの選択肢がどの程度良い結果をもたらすか知ることができない．もしかすると，海にはたまに船が通るので，そのとき海辺にいれば助けを求めることができるかもしれないが，何もないのに何度も行っても手間がかかるだけである．かといって，一度行って船がいなかったので二度と行かないと決めてしまうと，チャンスを逃してしまうかもしれない．これまでの学習結果を利用(exploitation)しようとすると，探索(exploration)が減ってしまい，機会損失が増えてしまう．一方，探索を増やせば，学習した最良の行動とは異なる行動をとることが増えるため，得られる報酬が減ってしまう．学習した最良の行動との差が，探索のコストということになる．ここでは簡単のために極端な例をあげたが，環境の不完全な知識しかない状況で，学習結果により観測が変化する場合には，常に成り立つことに注意されたい．たとえば，どこに釣り針を垂らすと魚が釣れるか，どう自転車を操作すると転ばないか，どうWeb広告を出すと一番クリックされるか，といったようなことは，どれも強化学習問題の例であり，遅延報酬や探索と利用のトレードオフが問題になる例である．この節では，最も簡単な強化学習問題の例として，多腕バンディット問題を例に考える．多腕バンディット問題は，行動によって状態が変化しないので，遅延報酬や価値といった道具なしでも解ける，強化学習のなかでは非常に単純な状況設定と言える．しかし，その単純な例においても，強化学習の困難である探索と利用のトレードオフが発生する．以下では多腕バンディット問題を通して，探索と利用のトレードオフがなぜ発生するのか，そしてどのように克服するのか，を見ていきたい．

(13)

1.4

第1章強化学習の基礎的理論

方策勾配に基づくアルゴリズム

白川真一，森村哲郎前節までの価値反復に基づく強化学習では，方策(policy)は行動価値関数Qを通して表現されていた．すなわち，方策は行動価値関数から導出されるものとして定義され，エージェントは行動価値関数を試行錯誤を通して学習することで，最適な方策を求めていた．しかし，これとは異なるアプローチとして，方策を行動価値関数とは別のパラメータで表現することも考えられる．ここでは，確率的方策を，あるパラメータベクトルθによってパラメタライズされた確率モデルπθ(a|s)と考え，これをθについて最適化することで強化学習問題を解く方法を「方策勾配に基づく強化学習アルゴリズム」とよぶことにする．アルゴリズムの目的は，収益Gを最大化するような方策のパラメータθ∗を求めることして捉えることができる．方策勾配に基づく強化学習アルゴリズムでは，前節までに出てきたQ-learningや Sarsaなどの行動価値関数を更新していくタイプのアルゴリズムとは異なり，方策π を明示的に更新していくことになる．本節では，この方策勾配に基づく強化学習アルゴリズムの考え方と代表的なアルゴリズムを概説する．

1.4.1 概要

ここでは，方策勾配に基づく強化学習の概念を次のような1次元のゴルフ問題の例題を通して説明してみよう． ゴルフ問題 ・エージェントは状態として，ボールとカップの距離と風の強さを連続値として観測できる・各ステップでエージェントはスイングの速さを連続値で設定できる・エージェントはボールとカップまでの距離に応じて報酬を得るこの問題の概要図を図1.4.1に示す．このゴルフ問題のように，状態sや行動aの取りうる値が連続である場合，前節のように行動価値関数Q(s, a)の学習を通して行動を選択しようとすると，いくつかの問題に遭遇する．まず，状態sや行動aが連続の場合，それらの値をすべて数え上げることは不可能であるため，行動価値関数をテーブルとして保持するためには，状態や

(14)

1.4 方策勾配に基づくアルゴリズム 43 図1.4.1 ゴルフ問題の概念図行動の離散化が必要となる．状態や行動の離散化についてはさまざまな方法が存在するが，問題によっては適切な離散化方法をあらかじめ知ることは困難である．ゴルフ問題の状態を離散化する場合でも，何メートル刻みで離散化すればよいのか，等間隔な離散化でよいのかなど考えるべき項目を種々あげることができ，即座に最適な離散化方法を設定することは難しい．一般に，状態や行動の離散化が粗すぎるとエージェントが認識できる情報が減ってしまったり，緻密な行動ができなくなってしまったりする．一方，離散化が細かすぎると，行動価値関数のテーブルが膨大になり，莫大な量の試行が必要になったり，大量のメモリ空間が必要になったりする問題がある．それでは，行動価値関数Q(s, a)を何かしらの関数近似器で近似する方法はどうだろうか（関数近似器については2.1節に詳しい説明がある）．行動価値関数Q(s, a)を状態と行動を入力とする何かしらの関数f (s, a)で近似したとすると，状態や行動を離散化せずに連続値のまま扱うことができる．しかしながら，行動が連続値である場合，行動価値関数Q(s, a)が最大となるような行動を選択することはそれほど容易ではない．通常は，ある状態で行動価値関数Q(s, a)が最大となる行動a∗を解析的に求めることは困難であるため，探索的に求めることが必要となる．たとえば，連続版ゴルフ問題の場合，行動は打つ強さの1変数であるので，行動aの値を0.01刻みで変えて行動価値関数Q(s, a)の値を取得し，最大となる行動を全探索的に探すことが考えられる．この方法は，1変数であればそれほどコストがかからないかもしれないが，行動として出力すべきものが，スイングの速さだけでなく，エージェントの立つ位置，グリップの強さ，グラブの種類など行動の自由度（次元）が増えていくと探索数も指数関数的に増大し，行動選択に必要な計算量が爆発してしまう．とくに問題空間が連続であるような場合には，行動価値関数を計算機上で効率的に取り扱うために何かしらの工夫が必要になってしまう． 1.2節で登場したε-greedy法では，行動価値関数Q(s, a)に基づいて確率的方策が

(15)

44 第1章 ▼ 強化学習の基礎的理論表現されており，方策関数自体には学習により調整されるパラメータが存在していない†．このような場合，試行錯誤によって得られたデータを利用して行動価値関数の更新（価値反復）を行うことで方策が更新される．この行動価値関数Q(s, a)と方策 π(a|s)の更新のイメージを図1.4.2に示す．図中のある方策に従って行動した後には，行動価値関数が更新され最適な行動価値関数に近づいていくことをイメージしている．価値反復に基づく強化学習アルゴリズムでは，行動価値関数を更新していき，方策を明示的に更新することはしない．ただし，行動価値関数に応じて方策が決まるため，行動価値関数の更新によって方策は変化する．図中では方策が行動価値関数に付随して決まることを水平の矢印で表現している．価値反復に基づく強化学習アルゴリズムでは，行動価値関数によって方策がパラメタライズされ，行動価値関数を更新していくことがアルゴリズムの中心であった．強化学習本来の目的が最適な方策πを求めることであったことを思い出すと，行動価値関数Q(s, a)を用いて方策を定める必要性はなく，方策関数を別のパラメータベクト図1.4.2 価値反復に基づく強化学習アルゴリズムの行動価値関数と方策の更新イメージ方策が行動価値関数だけ表現される場合，行動価値関数が決まるとそれに応じて自動的に方策が決定するため，図中でQからπへの矢印は水平線とした．ある方策に従って行動した後には，行動価値関数が更新され最適な行動価値関数Q∗に近づいていくことをイメージしている． † ε-greedy法やボルツマン方策では，パラメータとして選択確率εや温度パラメータTが存在するが，これらはアルゴリズム使用者が事前に設定する外部パラメータであり，学習の対象にはなっていないため，方策パラメータとはみなさない．

(16)

1.4 方策勾配に基づくアルゴリズム 45 ルθによってパラメタライズすることも考えられる．方策勾配に基づく強化学習アルゴリズムでは，このように行動価値関数に着目するのではなく，方策そのものをパラメータ表現し，直接方策を求めることに重きを置く．さて，方策をパラメータベクトルθでパラメタライズするとはどういうことだろうか？ここでは，ゴルフ問題を例に方策表現を考えてみよう．ボールとカップの距離をs1，風の強さをs2として，この二つの状態変数s = [s1, s2]Tを入力とし，行動としてスイングの速さaを決定する関数f (s)を考える．この関数が次のような線形関数であるとすれば，この方策モデルのパラメータはw1とw2である． f (s) = w1s1+ w2s2 (1.4.1) アルゴリズムの表現を簡単にするために，この二つのパラメータをまとめて2次元ベクトルのθ = [w1, w2]Tと表すことにすると，fθ(s)はパラメータベクトルθでパラメタライズされた方策ということができる．このベクトルを構成する二つのパラメータを調整することで，方策を変化させることができ，これを調整することが方策勾配に基づく強化学習アルゴリズムの目的になる．方策勾配に基づく強化学習では，これまでの行動価値関数を通した方策表現とは異なり，方策モデルに行動価値関数を用いる必要はなく，方策のパラメータを試行錯誤を通して直接学習できればよいと考える．単純な方策モデルとして，式(1.4.1)の線形関数を例にあげたが，この関数に従って行動を決定した場合，エージェントの行動はある状態に対して決定的なものとなり，確率的な要素は入らない．環境に対しての知識を仮定しない強化学習の場合，エージェントがさまざまな状態，行動を経験し試行するために，確率的な方策モデルを導入するのが有効である．ゴルフ問題の例で，式(1.4.1)を方策関数として説明を行ったが，これを拡張して行動（スイングの速さ）は平均f (s)，分散σ2の正規分布_{N (f(s), σ}2₎ に従って決定されるとしよう．こうすることで，同じ状態観測でも正規分布に基づくゆらぎが行動に与えられ，確率的な方策を表現することができる．ここで，方策のパラメータに新たにσが導入されていることに注意していただきたい．すなわち，この場合の確率的な方策モデルのパラメータはθ ={w1, w2, σ}の三つとなり，これらを学習することが目的となる．本項の例では，方策表現として単純な線形モデルと正規分布モデルを紹介したが，ニューラルネットワークなどのより複雑なモデルを採用することも可能である．ここまでで概説したように，方策勾配に基づく強化学習では，方策を何かしらの確率モデルで表現し，そのパラメータを試行錯誤を通じて学習する．通常は，方策モデルのパラメータ学習には勾配法が用いられる．エージェントの目的は期待収益を最大化することなので，適当なパラメータから始めて，期待収益が大きくなる方向にこのパラメータを更新していくという手順を踏むことになる．方策勾配に基づく強化学習

(17)

46 第1章 ▼ 強化学習の基礎的理論では，行動価値関数を明示的に使うことなく方策モデルを直接表現し，パラメータの学習を通して方策の改善を繰り返す．方策を確率モデルで直接表現することで，状態や行動が離散の場合でも連続の場合でも，モデルを変更するだけで同じようにアルゴリズムを適用することができる．実際にエージェントの行動を実現する場合にも，確率モデルである方策からのサンプリングによって行動を決定するため，サンプリングが容易な確率モデルであれば，連続の行動を決定することも容易である．端的に言ってしまえば，前節までの強化学習アルゴリズムと本節の方策勾配に基づく強化学習アルゴリズムの違いは，アルゴリズムの主眼が行動価値関数の推定にあるのか，方策を直接推定することになるのかの違いである．図1.4.3は方策勾配に基づく強化学習アルゴリズムの方策更新のイメージ図である．この図では方策の評価に基づいて方策パラメータが更新され，最適な方策に近づいていくことをイメージしている．どちらのアプローチが良いかは，対象となる問題に応じて変わってしまうため，解きたい強化学習問題の特性を使用者が見極め，適切なアルゴリズムを選択する必要がある．さきに述べたように，一般には，連続の状態，行動空間を取り扱いたい場合は，方策勾配に基づく強化学習アルゴリズムを選択する利点が大きいと言える．一方，方策勾配に基づく強化学習アルゴリズムは方策モデルとは別に方策モデルを更新するための推定値が必要となるため，一般にアルゴリズムが煩雑になりやすく，調整パラメータの数も多い．図1.4.3 方策勾配に基づく強化学習アルゴリズムの方策更新のイメージ通常は，ある方策に対する評価方法は変わらないため，方策の評価への矢印は水平線とした．方策の評価に基づいて方策パラメータが更新され最適な方策πθ∗に近づいていくことをイメージしている．

(18)

3.7

第3章強化学習の工学応用

深層学習を用いた

Q

関数の学習：

Atari 2600

と囲碁への応用

前田新一

本節では，関数近似器としてdeep neural networkを用いてQ関数を学習させたことでこれまでにない性能を発揮させることに成功した研究について紹介する．ニューラルネットワークなど非線形関数を用いた強化学習アルゴリズムで，収束性を保証できるアルゴリズムは限られている．しかし，応用においては，収束の保証されない強化学習アルゴリズムであっても成功を収めている例（バックギャモン[30, 31]_，エレベータ運行計画問題[10]_{，ジョブショップスケジューリング問題}[39]_{）が存在する．} とくに近年，非線形関数近似器である多層ニューラルネットワークの表現能力の高さを，大量のデータによる学習とアーキテクチャと学習則の工夫によって引き出すことが可能であることが示されるようになり，大規模な状態行動空間をもつ問題に対して行動価値関数の学習が成功を収めることが示された．ここでは，昔の家庭用ゲーム機Atari 2600の多くのゲームを人間のプレイヤー以上の成績で解けるような学習に成功したことで注目された研究と，囲碁のプロ棋士のFan Hui氏に5戦全勝し，後にプロの中でもトップ棋士の一人と目されるLee Sedol氏に5戦中4勝したことで注目された研究について紹介する．

3.7.1 Deep Q-Network (DQN)

による

Atari 2600

のゲームの学習

これまでバックギャモン[30, 31]_やオセロ[18]_,_チェス[2]_{などのゲームの学習に強化学} 習が利用され成果を上げてきたが，人手で構築された特徴を用いることで，性能が向上することが示されることが多かった．しかし，Deep Q-Network (DQN)は，入力として画面のデータそのものを用いて，同じ学習アルゴリズムを適用するだけで，さまざまなゲームにおいて人間並みあるいは人間以上の高得点が達成できるようになったことで注目を集めた[20, 21]_{．ただし，恣意的な特徴抽出を行わない手法も古くから} 試されてはきていた．バックギャモン[31]_やオセロ[7, 16]_，将棋[3, 41]_{では，単純な盤面} 上のパターンを入力とした機械学習が行われている．とくに将棋では，機械学習による盤面の状態価値の学習がうまくはたらき，プロ棋士に劣らない実力を得るまでにいたっている．このように機械学習はゲームの学習に利用されてきていたが，それでも DQNは，既存研究が扱ってきたボードゲームのとりうる状態数より大きな状態数を表現可能な画面の画素情報を入力とし，ゲームによらずほぼ同じ構造をもつニューラ

(19)

258 第3章 ▼ 強化学習の工学応用ルネットワークでさまざまなゲームの状態価値の学習ができることを示したことは，注目に値する．DQNの論文は，NIPSという機械学習の国際会議のなかの深層学習ワークショップで2013年12月に発表された論文[20]と，2015年2月のNature誌に掲載された論文[21]の二つが存在する．これらを区別する際には，それぞれNIPS版 DQNとNature版DQNとよぶこととする．

3.7.2 DQN

のネットワーク構造

DQNは，その名が示すように，Q関数とよばれる行動価値関数を推定するための多層ニューラルネットワークである．多層ニューラルネットワークは，入力変数をn(0) 次元のベクトルx，入力層から直接入力を受ける1層目の中間層のユニットをn(1) 次元のベクトルh(1)で，2層目以降の中間層のユニットをn(l)次元のベクトルh(l) (2≤ l ≤ L − 1),出力をn(L)次元ベクトルyで表すと， h(1)= sig(W(1)x + b(1)) (3.7.1) h(l+1)= sig(W(l)h(l)+ b(l)) (3.7.2) y = o(W(l)h(L)+ b(L)) (3.7.3) と書けるような関数を指す．ここで，関数sig(x)，o(x)はそれぞれシグモイド関数 1/(1 + exp(−x))などの活性化関数を表し，入力変数がベクトルxの場合，各要素それぞれに活性化関数を作用させるものとする．関数o(x)には非線形関数が使われない場合があったり，出力の総和が1となるように制約されたりすることがあるため，それ以外の活性化関数sig(x)と区別した．W(l)，b(l)はそれぞれn(l+1)× n(l)行列，n(l+1)次元ベクトルのパラメータであり，これらをまとめてパラメータθと表記する．また，関数Q(s, a)がパラメータθで特徴づけられることを明示する際には Q(s, a; θ)と表記する．多層ニューラルネットワークの層の数Lが多いことをもって深層ニューラルネットワーク(deep neural network)とかその学習を深層学習(deep learning)†などとよぶ．深層ニューラルネットワークは，表現できる関数の自由度が高い一方で，過学習が問題になるため，その関数を適切に学習させることは困難であった．DQNもその例外ではなく，過度な自由度の高さを抑える工夫が施されている．一つ目は，畳み込みニューラルネットワークの利用，二つ目は，中間層のユニットの共有，である． 畳み込みニューラルネットワーク 畳み込みニューラルネットワークは，画像認識などの画像処理でよく用いられる構 † 最近の深層学習に関しては，簡単な理論から実践的な内容は[42]で，広範な理論や技術内容は[40],個別の技術的な詳細は[43]でそれぞれ述べられている．

(20)

3.7 深層学習を用いたQ関数の学習：Atari 2600と囲碁への応用 259 図3.7.1 畳み込みニューラルネットワークの構造上位層のユニットが受け取る下位層のユニットからの入力は空間的に近いユニットからの入力に限られ，またその重みのパターンは上位層の位置によらず，同じパターンをとる．こういった重みパターン（フィルタ）が複数，利用される．造であり，入力される画像の画素の幾何的な位置情報を利用した構造をもつ．本来のニューラルネットワークは，隣接する層間のユニットの間の結合を全結合とするが，畳み込みニューラルネットワークでは，図3.7.1に示すように上位層の隠れユニットは，空間的に近いユニットからの結合しかもたないように制約される．さらに，その重みのパターンは空間的な位置によらないよう制約される．この場合，重み行列W と下位層のユニットの入力hとの間の行列演算Whは，下位層のユニットの入力に対するフィルタによる畳み込み演算と同じ演算となるため，重み行列Wを構成する重みのパターンはしばしばフィルタとよばれ，こういった構造をもつネットワークは畳み込みネットワークとよばれる．通常，複数のフィルタが学習される．この畳み込みネットワークは，もともとの全結合するニューラルネットワークからみれば大幅に自由度が制限されているものの，空間的な位置に依存しない特徴や，空間的に近い状態間に強い相関をもつ入力データの学習は可能であり，そういった性質をもつ画像などの入力データを学習するのに適した構造となっている． 中間層のユニットの共有 DQNは，状態s，行動aに対する行動価値関数Q(s, a)を学習する．これは，状態行動対を入力とし，スカラーの行動価値を出力する関数と考えることができるが， DQNではその関数の複雑さを限定するために，多値関数として扱う．いま，行動aのとりうる種類がa∈ {a1, . . . , aN}のN通り†であったとすると， DQNはN通りの出力をもつ多値関数を一つのニューラルネットワークで表現する．すなわち，DQNのi番目の出力をfi(s)とすると，関数fi(s)が表すものはi番目の行動をとったときのQ関数fi(s) = Q(s, ai)となる．このN通りの関数を，独立な別のニューラルネットワークとして学習させると，ニューラルネットワークの自由度は高くなってしまうが，DQNでは入力や中間層を共通なものとし，中間層の最終段から出力層への重みのみを行動ごとに異なるものとすることで，ニューラルネットワー † とりうる行動の種類N はゲームごとに異なり，4から18の間の値をとる．

(21)

260 第3章 ▼ 強化学習の工学応用図3.7.2 DQNのアーキテクチャクの自由度を抑制し，過学習を防いでいる．また，このような構造をとると，行動ごとに関数を評価し直す必要がないため，高速にQ関数を評価するのに役立つ．このネットワーク構造を図3.7.2に示す．図3.7.2にあるとおり，DQNには四つのフレームの画面の情報が入力されている．ただし，実際の画面のフレームレートは60 Hzであり，Nature版DQNではそのうち連続する4フレームのうち3フレーム目と4フレーム目のピクセルの最大値をとって一つのフレームとしている†．また，その4フレームの間，行動は同じものを選択し続けるものとする．また，既存の深層学習フレームワークにおいてGPU計算機が効率的に畳み込み演算できるのが正方形の入力であったため，前処理において210× 160 の画面サイズをダウンサンプリングし，84× 84正方形の画面に整形している．RGB のカラーは，グレースケールの輝度値に変換される．

3.7.3 DQN

の学習アルゴリズム

DQNの学習は，基本的に以下の目的関数J (θ)の最小化を意図してパラメータ更新がなされる． J (θ) =E[(yt− Q(st, at; θ))2] (3.7.4) ここで，ytは，Q(st, at; θ)が出力するべきターゲットを表す．この目的関数のパラメータθに関する微分は， † NIPS版DQNでは4フレームおきのフレームをとっている．ただし，スペースインベーダーの場合，見えない弾が生じてしまうため3フレームおきのフレームとしている．

(22)

311

索引

□英数字 α-ベクトル 61 ε-greedyアルゴリズム 9, 27, 113 accumulating trace 83 ACh→アセチルコリン action 2 Actor-Criticアルゴリズム 50 Actor-Critic法 155, 290 agent 2 AlphaGo 265 apprenticeship learning 128, 226 BG→大脳基底核

BRM: Bellman Residual Minimization 89

CDR→認知発達ロボティクス classical conditioning 285 cost 3

Credit Assignment Problem→信用割当問題 DA→ドーパミン

DBN: Dynamic Bayesian Networks 218 deep learning→深層学習 delayed reward 4, 127 discount 4 double Q-learning 263 double sampling 89 DQN: Deep Q-Network 145, 257 DQN with PS 146 eﬀectance→イフェクタンス EM→外発的動機付け environment 2 experience replay 79, 261 exploitation 5 exploration 5 exploration-exploitation tradeoﬀ 5 fitted Q 99

GA: Genetic Algorithm 130 GAIRL 131

Gaussian Process 226 GQ: Gradient Q-learning 99

Gradient Temporal Diﬀerence (GTD)アルゴリズム 88 greedy GQ 99 greedyアルゴリズム 6 greedy方策 27 Hip→海馬 IM→内発的動機付け imitation learning→模倣学習 immediate reward 3 income 4 incremental pruning 63 instrumental conditioning 285 instrumental variable method 90 intracranial self-stimulation 286 inverse reinforcement learning→逆強化学習 law of eﬀect 285

LEM→易しいタスクからの学習 loss 3

LSPE(Least-Squares Policy Evaluation)法 96

LSPI(Least-Squares Policy Iteration)法 98

LSTD(Least-Squares TD)法 91

MDP: Markov Decision Process →マルコフ決定過程

mirror neuron system →ミラーニューロンシステム

multi-agent→マルチエージェント M推定量 103

N-Persons Iterated Prisoner’s Dilemma 160

NAC: Natural Actor-Critic 221 natural policy gradient→自然方策勾配法 NE→ノルアドレナリン

neuromodulator→神経修飾物質 NLP→自然言語処理

OnPS 183

operant conditioning 285

optimal learning policy→最適訓練方策 optimal learning trajectory→最適訓練行動列 Pavlov’s dog 284

PBVI: Point-Based Value Iteration 60, 216, 219

policy 3

POMDP→部分マルコフ決定過程

prioritized experience replay 263 Profit Sharing (PS)の合理性定理 137 PS: Profit Sharing 137, 182

PSO: Particle Swarm Optimization 153 Q-learning（Q学習） 37, 87, 150 QoL: Quality of Life 249 Q値 150 regret 112 reinforcement 285 reinforcement signal 285 reinforcement-learning problem 2 reinforcer 285 REINFORCEアルゴリズム 52 return 4 reward 3 RoboCup→ロボカップ

(23)

312 索引 R学習 177 Sarsa 33, 85 Sarsa(0) 288 Skinner box 285 state 2 state-action space→状態行動空間 structured prediction→構造化予測 TD(0) 286 TD学習 81, 109, 230 TD誤差 34, 81 Thompsonサンプリング 114 UCB1アルゴリズム 113

UCT: Upper Confidence bounds on Trees 114

Upper Confidence Bound (UCB)アルゴリズム 10, 113 utility 3 value 4 □あ行アセチルコリン 301 安全な強化学習 177 アントコロニー最適化 154 遺伝的アルゴリズム 130 イフェクタンス 300 医療臨床データ分析 249 迂回系列 138 エージェント 2 エピソード 21, 137 エンパワーメント 302 オペラント条件付け 285 オンライン勾配法 184 □か行海馬 301 外発的動機付け 295 ガウシアンプロセス 226 学習世界 149 価値 4, 22 環境 2 観測 56 関数近似法 155 完全協調問題 160 逆強化学習 128, 237, 242 強化 285 強化学習問題 2 強化関数 137 強化子 285 強化信号 285 教示 136 教師付き学習 127 グリーディ法→ greedyアルゴリズムグロス利益率 178 群強化学習法 148 群ロボット 162 経験強化型学習 136 効果の法則 285 構造化予測 238 行動 2, 15 行動価値 25 行動価値関数 25 行動空間 16 合理的政策 138 コスト 3 古典的条件付け 285 □さ行最適訓練行動列 239 最適訓練方策 239 最適状態価値関数 25 最適方策 25 時間ステップ 21 自己最良Q値 153 指数関数型割引 180 自然言語処理 237 自然方策勾配法 220 収益 4, 21, 150 囚人のジレンマ問題 160 終端状態 127 状態 2, 14 状態価値 22 状態空間 16 状態行動価値関数 150 状態行動空間 296 状態遷移確率 16 情報交換による学習 149 情報交換法 152 初期状態分布 16 自律的 225 神経修飾物質 291, 300 深層学習 137, 145, 258 信用割当問題 296 推定関数 102 スキナーの箱 285 スタグハントゲーム 227 スティルフェースパラダイム 306 生活の質→ QoL 正規化ガウシアンネットワーク 156 政策 138 制約緩和法 131 セロトニン 291 線条体 287 全体最良Q値 153 操作変数法 90 即時報酬 3 損失 3 □た行体験再生 79, 261 大脳基底核 287, 300 タイプ2の混同 138 多点探索型最適化法 148 多腕バンディット問題 6, 112, 178 探索 5

(24)

索引 313 探索と利用のトレードオフ 5 遅延報酬 4 道具的条件付け 285 投資比率 178 ドーパミン 286, 300 貪欲法→ greedyアルゴリズム □な行内発的動機付け 295 二重サンプル法 89 二重指数関数型割引 180 ニューロモジュレータ 291 認知発達ロボティクス 295 脳内自己刺激行動 286 ノルアドレナリン 301 □は行罰ルール 139 パブロフの犬 284 バンディット問題→多腕バンディット問題評価値 152 フェロモン 154 フォーメーション制御 162 不完全知覚問題 56 複利型Q学習 181 複利型Sarsa 182 複利型強化学習 177 複利利益率 178 不確かなときは楽観的に 9, 113 部分観測マルコフ決定過程 56, 214, 249 分布ベルマン方程式 172 平均報酬強化学習 177 ベイジアン強化学習 119 ベイズ環境モデル 118 ベルマン最適方程式 36 ベルマン残差最小化法 89 ベルマン方程式 31 方策 3, 15, 150 方策反復 86 報酬 3, 15, 150 報酬型MDP 179 報酬関数 16 報酬の遅れ 127 ボルツマン方策 27 □ま行マルコフ決定過程 16, 166, 214, 249 マルチエージェント 296 マルチエージェント学習 159 マルチエージェント群強化学習法 159 マルチスタート法 139 マルチロボット強化学習 200 マルチンゲール推定関数 104 見習い学習 128, 226 ミラーニューロンシステム 298 無効ルール 138 群れ行動 153 メタ学習 291 メタヒューリスティクス 163 目標状態 127 模倣学習 237 モンテカルロ木探索 266 □や行易しいタスクからの学習 296 有効ルール 138 優先順位付き体験再生 263 □ら行楽観主義原理→不確かなときは楽観的に楽観的初期価値法 115 楽観的初期値法 10 利益率 177 利益率型MDP 180 利益率の複利効果 177 リグレット 112 リスク考慮型強化学習 165–175, 177 リターン分布 167, 170 リターン分布推定 165, 172–174 利得 3 利用 5 累積履歴 83 ルール 137 連続状態行動空間 155 連続状態行動空間学習問題 155 ロボカップ 295 □わ行割引 4 割引収益 179 割引複利利益率 180 割引報酬和 22

(25)

編集担当丸山隆一（森北出版）編集責任藤原祐介・石田昇司（森北出版）組版藤原印刷印刷同製本同イラスト有限会社ケイデザイン北村裕子これからの強化学習 c ⃝牧野貴樹／澁谷長史／白川真一／浅田稔／麻生英樹／荒井幸代／飯間等／伊藤真／大倉和博／黒江康明／杉本徳和／坪井祐太／銅谷賢治／前田新一／松井藤五郎／南泰浩／宮崎和光／目黒豊美／森村哲郎／森本淳／保田俊行／吉本潤一郎 2016 2016年10月31日第1版第1刷発行【本書の無断転載を禁ず】編著者牧野貴樹／澁谷長史／白川真一発行者森北博巳発行所森北出版株式会社東京都千代田区富士見1-4-11（〒102-0071）電話03-3265-8341／FAX 03-3264-8709 http://www.morikita.co.jp/ 日本書籍出版協会・自然科学書協会会員＜（社）出版者著作権管理機構委託出版物＞落丁・乱丁本はお取替えいたします． Printed in Japan ／ ISBN978-4-627-88031-3

これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.