• 検索結果がありません。

これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

N/A
N/A
Protected

Academic year: 2021

シェア "これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです."

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)
(2)

「これからの強化学習」

サンプルページ

この本の定価・判型などは,以下の URL からご覧いただけます.

http://www.morikita.co.jp/books/mid/088031

(3)
(4)

i

はじめに

強化学習は,経験をもとに試行錯誤しながら最適な行動を獲得するための理論的枠組み である.近年,強化学習が注目を集めているのは,それがヒトや動物が環境に適応して行 動を獲得するプロセスの本質を捉えているからである.生物が行動を獲得するときには, 「正解」すなわち,各々の場面でとるべき行動が外部から与えられないことが多い.しか し,何度も試行しながら修正していくことで,何らかのハイレベルな目的を達成するよう な行動を自ら発見することができる.また,環境が変化して従来の方法が通用しなくなっ ても,誰からも教えてもらわなくても別の方法を見つけ出すことができる.このような, 単なる知識の獲得では解けない問題を対象とするのが強化学習である. たとえば,ヒトが自転車を練習して乗れるようになるのは,何度も練習することで,感 覚と操作を対応づけることができるからである.また,最初から料理が上手な人はいない が,ある調理手順を試してみて,その結果とかかった時間を振り返る,という試行錯誤の プロセスを経ることで,次第に美味しい料理を短時間でつくれるようになるであろう.自 転車を運転するプログラムの設計は一筋縄ではいかないが,強化学習を利用すると,コン ピュータが自ら行動ルールを獲得できるようになる.あるいは,シェフが料理する手順を 分析するために強化学習を利用することも考えられるだろう. 一般的には,強化学習は,機械学習とよばれる研究分野の一分野として捉えられること が多い.機械学習は,データから自動的に規則を獲得する枠組みであり,音声認識や自動 識別など,すでに多くの分野で利用されている技術である.しかし,強化学習とそれ以外 の機械学習では,決定的に違う点が一つある.それは,強化学習においては,アルゴリズ ムの出力によって,収集されるデータそのものが変化することである.ある操作に対して 自転車の状態がどう変化するかは,その操作をすることではじめて知ることができるし, ある材料の組み合わせでつくった料理がどんな味になるかも,その材料で調理してみなけ ればデータが得られない.通常の機械学習では扱えない,「データの足りない対象」に対 して,試行することでデータを収集していくことが求められるのである.強化学習におい ては,この問題を,探索と利用のトレードオフとよんでいる.これまで収集したデータか ら単に最適なものを選ぶだけでは,まだ試していない領域についての知識が得られない. 一方,新たな領域のデータを収集するためには,最適ではないかもしれない行動を試して みなければならないため,コストがかかる. 別の言い方をすると,「十分なデータをもっておらず,データの収集にコストがかかる 世界において,データをどのように収集するか」が強化学習である,とみることもできる. その意味で,強化学習は,いわゆるビッグデータとよばれるような,データが与えられる ことが前提とされる他の機械学習とは,本質的に異なる問題に取り組んでいる.むしろ,

(5)

ii データがない領域に対してどのように最適化するか,あるいは,どのようにデータをつく り出すかという,ビッグデータの次に必要となる技術であると言っても過言ではない. また,動物やヒトの脳を理解するための理論的道具としても,強化学習は重要な役割を 果たしている.脳内のさまざまな伝達物質やホルモンのはたらきを強化学習の概念と結び つけることで,脳のはたらきや疾患についての新たな見方を得ることが可能になった.ヒ トのメカニズムを再現することでヒトを理解する,構成論的アプローチによる研究も進ん でいる. とはいえ,大きく広がった強化学習研究の全貌を把握することは容易ではない.これま で教科書とされてきたSuttonとBartoの『強化学習』も発行から20年近く経過し,こ れだけで最新の研究を理解することは難しくなってきている. 本書の目的は,そのような強化学習の現在の研究を俯瞰することである.これから研究 を始める大学院生や研究者が,研究分野の全貌の見取り図を知ることで,最新の研究を理 解する手がかりになるものを目指した. ・第1章では,強化学習の基礎的概念を,最新の見方をもとに簡潔に整理する.探索と利 用のトレードオフや,方策の最適化のための反復法といった,他の強化学習の研究を理 解するために必要となる項目を,初学者でも理解しやすい形で提示することを目指した. ・第2章では,最新の研究に取り組んでいる研究者の方々による,最先端の理論をまとめ る.最近の研究論文を読むときの手がかりとして,また,新たな研究テーマを探す手が かりとして役立てていただきたい. ・第3章は,強化学習を実際に応用に取り組んだ例について,具体的な事例を紹介する. どのような問題が強化学習で解けるのか,また,どのように強化学習を適用できるのか がわかる,大変興味深い内容である. ・第4章では,ヒトの理解という面における,強化学習の関連研究を紹介する.強化学習 がどのように脳のはたらきと対応づけられているのか,また,内発的動機付けなど,脳 の研究から強化学習にもたらされた新しい概念についてもわかる,大きく広がる内容で ある. 本書は,計測自動制御学会の学会誌『計測と制御』において掲載されたリレー解説「強 化学習の最近の発展」をもとに,主に第1章を加筆する形で構成された.本書が,これか ら強化学習の研究を志す方々への道標となれば幸いである. 編 者 

Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998. 邦訳『強化学習』(三上 貞芳,皆川 雅章(訳),森北出版,2000).

(6)

iii

目 次

1

強化学習の基礎的理論

1

1.1 強化学習とは 2 1.2 強化学習の構成要素 14 1.3 価値反復に基づくアルゴリズム 29 1.4 方策勾配に基づくアルゴリズム 42 1.5 部分観測マルコフ決定過程と強化学習 56

2

強化学習の発展的理論

71

2.1 統計学習の観点から見たTD学習 72 2.2 強化学習アルゴリズムの理論性能解析とベイズ統計による強化学習の モデル化 112

2.3 逆強化学習(Inverse Reinforcement Learning) 127 2.4 試行錯誤回数の低減を指向した手法:経験強化型学習XoL 136 2.5 群強化学習法 148 2.6 リスク考慮型強化学習 165 2.7 複利型強化学習 177

3

強化学習の工学応用

189

3.1 高次元・実環境における強化学習 190 3.2 連続的な状態・行動空間への拡張:マルチロボットシステムへの適用 199 3.3 対話処理における強化学習 214 3.4 マルチエージェント系の報酬設計 225 3.5 自然言語処理における逆強化学習・模倣学習の適用 237 3.6 医療臨床データ分析への応用 249 3.7 深層学習を用いたQ関数の学習:Atari 2600と囲碁への応用 257

4

知能のモデルとしての強化学習

283

4.1 脳の意思決定機構と強化学習 284 4.2 内発的動機付けによるエージェントの学習と発達 295 おわりに 309 索 引 311

(7)

iv

執筆者一覧

■編著者 牧野貴樹 グーグル株式会社 (はじめに,1.1∼1.3節,2.2節,3.5節,おわりに) 澁谷長史 筑波大学大学院システム情報工学研究科 (1.2節,1.3節,1.5節,おわりに) 白川真一 横浜国立大学大学院環境情報研究院 (1.4節,おわりに) ■著者 (50音順) 浅田稔 大阪大学大学院工学研究科 (4.2節) 麻生英樹 産業技術総合研究所 (3.6節) 荒井幸代 千葉大学大学院工学研究科 (2.3節,3.4節) 飯間等 京都工芸繊維大学 (2.5節) 伊藤真 沖縄科学技術大学院大学 (4.1節) 大倉和博 広島大学大学院工学研究院 (3.2節) 黒江康明 京都工芸繊維大学 (2.5節) 杉本徳和 情報通信研究機構脳情報通信融合研究センター (3.1節) 坪井祐太 日本IBM東京基礎研究所 (3.5節) 銅谷賢治 沖縄科学技術大学院大学 (4.1節) 前田新一 京都大学大学院情報学研究科 (2.1節,3.7節) 松井藤五郎 中部大学生命健康科学部 (2.7節) 南泰浩 電気通信大学大学院情報システム学研究科 (3.3節) 宮崎和光 独立行政法人大学改革支援・学位授与機構 (2.4節) 目黒豊美 NTTコミュニケーション科学基礎研究所 (3.3節) 森村哲郎 日本IBM東京基礎研究所 (1.4節,2.6節) 森本淳 ATR脳情報研究所 (3.1節) 保田俊行 広島大学大学院工学研究院 (3.2節) 吉本潤一郎 奈良先端科学技術大学院大学情報科学研究科 (4.1節) 所属は2016年5月現在のものです.

(8)

1

強化学習の基礎的理論

この章では,強化学習の基本的概念について概説する.1.1 節では,強化学習がどのような問題を対象にしており,一 般的な機械学習と何が異なるのかについて,できるだけ専 門用語を使わずに解説する.1.2節では,強化学習の理論 を数式的に表す道具であるマルコフ決定過程 (MDP)を 紹介する.1.3節では,強化学習で最もよく使われる解法 である,価値反復法について解説する.ここまで読むこと で,最も簡単な強化学習の実装方法を知ることができるだ ろう.1.4節では,価値反復法に代わって最近注目を集め ている解法である方策勾配に基づくアルゴリズムを紹介す る.また,1.5節では,より複雑な強化学習問題を表現す る基盤となる部分観測可能マルコフ決定過程(POMDP) について紹介する.第2章で扱うような先進的な強化学 習理論を学ぶためには本章に目を通しておくことが望ま しい.

(9)

1.1

第1章 強化学習の基礎的理論

強化学習とは

牧野貴樹 強化学習とは試行錯誤しながら行動を最適化する理論的枠組みである,などという 説明を聞くだけでは,強化学習とは何かを理解することは難しい.ここでは,強化学 習がどのような問題を対象にしているのか,そこではどのような困難があるのか,と いうことを,まずは数式を使わず,例に基づいて説明したい.

1.1.1

強化学習の考え方

強化学習問題(reinforcement-learning problem)とは,対象について不完全な知識 しかなく,また,対象へのはたらきかけによって観測できることが変わってくる場合に, 最適なはたらきかけ方の系列を発見するような問題である.最も典型的なケースは, 自律的に動く主体が,周囲にはたらきかける場合であるので,強化学習では,行動する 主体をエージェント(agent)とよび,はたらきかけられる対象を環境(environment) とよぶ. たとえば,嵐で船が遭難し,無人の海辺に流れ着いた人を考えよう(図1.1.1).目 が覚めたら知らない場所にいて,どこに何があるかもわからない.もしかしたら,危 険な場所や,人を襲う動物が周囲にいるかもしれない.しかし,飲み水や食べ物を手 に入れなければ,死んでしまうのはわかっている.こうした状況において,どのよう にすればよいかを考えるためには,歩きまわったり,いろいろなもののにおいをかい でみたり,食べてみたり,などの環境へのはたらきかけを通して,探索しながら生き 延びる方法を探さなければいけない.これは,強化学習問題の一例である.この例で は,流れ着いた人がエージェントであり,流れ着いた浜辺の周囲が環境となる. エージェントが環境に行うはたらきかけを,行動 (action) とよぶ.エージェント は,いろいろな行動をとることができるが,どの行動をとるかによって,その後に何が 起きるかが変わってくる.たとえば,歩いていける方向はいくつもあるだろうが,ど ちらに行くかでその次に見るものは大きく変わるだろう.エージェントが行動するこ とで,変化する環境の要素を,状態(state)とよぶ.この例では,エージェントがい まどこにいるか,何を持っているか,といったことが状態に相当する. 同じ行動でも,どの状態でとるかによって,結果が大きく変わってくる.たとえば, 同じ「水を飲む」という行動でも,手にしている水が海水であれば身体にダメージがあ

(10)

1.1 強化学習とは 3 図1.1.1 無人島で生き残る方法を探すことは,強化学習問題の一例である. る一方,きれいな湧き水を飲めば元気が出てくるだろう.あるいは,砂浜を歩くと別の 場所に移動できるが,岩場を歩けば転倒して怪我をするかもしれない.強化学習では, 未知の環境で発生するいろいろなことを統一的に比較する指標として,報酬(reward) とよばれるスカラー値で行動の結果の良さを表す.きれいな水を飲むなど,エージェ ントにとって良いことに対しては大きな報酬を,海水を飲むなど悪いことには少ない 報酬を割り当てる(負値を使うことも多い).報酬は,経済学では利得(utility)とよ ばれ,制御工学では符号を反転して損失(loss)またはコスト(cost)とよばれるが,強 化学習の文脈では同じものと思ってよい.強化学習問題とは,置かれた環境のなかで, 行動の選択を通して得られる報酬の総和を最大化する問題である. 強化学習では,多くの場合,行動の結果や与えられる報酬は確率的に変化するもの として与えられるため,一連の行動を最初に決定しておくよりも,行動の結果を観測 してから次の行動を決めるほうが,より良い行動を選択できる.そこで,エージェン トの行動決定の方策(policy)を,観測の結果(現在の環境の状態)を入力として,行 動を出力とする関数の形で表す.強化学習では,ありうる数多くの方策のなかから, 最適な方策,すなわち,最も多くの報酬をもたらす方策を選択することが目的となる. 単純には,エージェントはより多くの報酬につながる行動を選べばよいわけだが,あ る行動をとった直後の報酬値(これを即時報酬(immediate reward)とよぶ)だけに

(11)

4 第1章 ▼ 強化学習の基礎的理論 注目していると,局所的な解に落ち込んでしまう.たとえば,歩いて周囲を探索する と体力を消耗するので,流れ着いた浜辺で動かずにじっとしているほうが即時報酬が 高い,という状況が考えられる.しかし,いつまでもじっとしていても状況はそれ以 上良くなることはない.逆に,探索を始めたばかりのときには何も報酬が得られなく ても,そのあとに別の行動を組み合わせることで,はじめて大きな報酬が得られるか もしれない(食べ物を見つけるなど).これを遅延報酬(delayed reward)とよぶ.強 化学習においては,即時報酬と遅延報酬を合わせ,得られる長期的な報酬を最大化す るような行動を選ぶことが必要になる.遅延報酬の扱いは,強化学習における本質的 な問題の一つである. 遅延報酬を考慮に入れて考えようとすると,即時報酬だけでなく,その後に得られ る報酬すべてを含めた結果,すなわち収益(return, income)を最大化することが必要 になる.報酬は外部から与えられるものであるのに対し,収益は最大化したい目標と してはエージェントが自ら設定するものであるので,エージェントの考え方に応じて 計算式が変わってくる.たとえば,より遠くの未来の報酬を割引(discount)した報酬 和として収益を計算することも多い. しかし,収益は,まだ起きていない未来の出来事に依存する確率変数であるので, エージェントの現在の状態,使う方策などを固定した場合の条件つき期待値として, 価値(value)を計算する.価値には遅延報酬も含まれているため,価値が大きくなる 条件を探すことができれば学習ができることになる. 方策が変わると価値も変わるため,あくまである方策をとった場合の価値しか計算 することはできない.しかし,エージェントは,価値を計算することで,どう方策を 変えればより多くの価値が得られるかを知ることができる.試行錯誤を通してデータ を収集し,価値を計算しながら方策を改善していくことが,強化学習における基本的 な戦略となる.この例の状況であれば,岩場は歩きにくい(=報酬が少ない)ため,ほ かに何もなければ行く意味がない(=この人にとって価値が低い)ので,岩場には行 かない(=岩場に向かう行動を避けるような方策を選ぶ).しかし,岩場の奥まで行っ てみると,洞窟があり,雨風をしのげる(=報酬が多い)ことがわかったとすれば,岩 場を通る行動に変えるかもしれない(岩場を通って洞窟に向かう方策を選ぶ).行動を とることで得られる情報を通じて,方策を改善し続けていけば,だんだん得られる報 酬が増えていくだろう. とはいえ,もしもいま置かれた環境について完全にわかっているならば,試行錯誤 によらなくても,価値を計算したり,最適な方策を求めたりすることは可能である. たとえば,東側にきれいな湧き水があると知っていれば,そこに行けば水が手に入る ことがわかる.西側の浜に空き瓶が流れ着いているのを知っていれば,飲み水を汲む という一連の行動を計画することもできるだろう.

(12)

1.1 強化学習とは 5 実際,最適行動決定の問題は,制御工学においても多く扱われているが,古典的な 問題設定では,エージェントはノイズ項以外は環境について完全な知識があると仮定 されている.あるいは,オペレーションズ・リサーチやミクロ経済学においても,他 の行動主体は常に理性的な行動を選択するという強い仮定があり,また全エージェン トが行動を選択した後の結果については完全な知識があると仮定されている.しかし, このような仮定をおくと,解ける問題は限定されてしまう. 強化学習の問題では,ほとんどの場合,エージェントが環境に関して事前の知識を もっていない,あるいは知識が不完全であると仮定する.すなわち,観測できるのは, 現在の状態だけであり,どの行動をとると,どのように状態が変化するかはわかって いない.不完全な知識の上で,知識を収集しながら最適な行動を計画するためはどう すればよいかを考えることが,強化学習における中心的な課題となる. このことは,探索と利用のトレードオフ(exploration-exploitation tradeoff)とい う,もう一つの強化学習の本質的な問題を引き起こす.単純な期待値だけを考えれば, これまで試したなかで最も良さそうな選択肢を選べばよいのだが,そうしていると, そのほかの選択肢がどの程度良い結果をもたらすか知ることができない.もしかする と,海にはたまに船が通るので,そのとき海辺にいれば助けを求めることができるか もしれないが,何もないのに何度も行っても手間がかかるだけである.かといって, 一度行って船がいなかったので二度と行かないと決めてしまうと,チャンスを逃して しまうかもしれない.これまでの学習結果を利用(exploitation)しようとすると,探 索(exploration)が減ってしまい,機会損失が増えてしまう.一方,探索を増やせば, 学習した最良の行動とは異なる行動をとることが増えるため,得られる報酬が減って しまう.学習した最良の行動との差が,探索のコストということになる. ここでは簡単のために極端な例をあげたが,環境の不完全な知識しかない状況で, 学習結果により観測が変化する場合には,常に成り立つことに注意されたい.たとえ ば,どこに釣り針を垂らすと魚が釣れるか,どう自転車を操作すると転ばないか,ど うWeb広告を出すと一番クリックされるか,といったようなことは,どれも強化学習 問題の例であり,遅延報酬や探索と利用のトレードオフが問題になる例である. この節では,最も簡単な強化学習問題の例として,多腕バンディット問題を例に考 える.多腕バンディット問題は,行動によって状態が変化しないので,遅延報酬や価 値といった道具なしでも解ける,強化学習のなかでは非常に単純な状況設定と言える. しかし,その単純な例においても,強化学習の困難である探索と利用のトレードオフ が発生する.以下では多腕バンディット問題を通して,探索と利用のトレードオフが なぜ発生するのか,そしてどのように克服するのか,を見ていきたい.

(13)

1.4

第1章 強化学習の基礎的理論

方策勾配に基づくアルゴリズム

白川真一,森村哲郎 前節までの価値反復に基づく強化学習では,方策(policy)は行動価値関数Qを通し て表現されていた.すなわち,方策は行動価値関数から導出されるものとして定義さ れ,エージェントは行動価値関数を試行錯誤を通して学習することで,最適な方策を 求めていた.しかし,これとは異なるアプローチとして,方策を行動価値関数とは別 のパラメータで表現することも考えられる.ここでは,確率的方策を,あるパラメー タベクトルθによってパラメタライズされた確率モデルπθ(a|s)と考え,これをθに ついて最適化することで強化学習問題を解く方法を「方策勾配に基づく強化学習アル ゴリズム」とよぶことにする.アルゴリズムの目的は,収益Gを最大化するような方 策のパラメータθ∗を求めることして捉えることができる. 方策勾配に基づく強化学習アルゴリズムでは,前節までに出てきたQ-learningや Sarsaなどの行動価値関数を更新していくタイプのアルゴリズムとは異なり,方策π を明示的に更新していくことになる.本節では,この方策勾配に基づく強化学習アル ゴリズムの考え方と代表的なアルゴリズムを概説する.

1.4.1

概要

ここでは,方策勾配に基づく強化学習の概念を次のような1次元のゴルフ問題の例 題を通して説明してみよう. ゴルフ問題 ・エージェントは状態として,ボールとカップの距離と風の強さを連続値として観測 できる ・各ステップでエージェントはスイングの速さを連続値で設定できる ・エージェントはボールとカップまでの距離に応じて報酬を得る この問題の概要図を図1.4.1に示す. このゴルフ問題のように,状態sや行動aの取りうる値が連続である場合,前節の ように行動価値関数Q(s, a)の学習を通して行動を選択しようとすると,いくつかの問 題に遭遇する.まず,状態sや行動aが連続の場合,それらの値をすべて数え上げる ことは不可能であるため,行動価値関数をテーブルとして保持するためには,状態や

(14)

1.4 方策勾配に基づくアルゴリズム 43 図1.4.1 ゴルフ問題の概念図 行動の離散化が必要となる.状態や行動の離散化についてはさまざまな方法が存在す るが,問題によっては適切な離散化方法をあらかじめ知ることは困難である.ゴルフ 問題の状態を離散化する場合でも,何メートル刻みで離散化すればよいのか,等間隔 な離散化でよいのかなど考えるべき項目を種々あげることができ,即座に最適な離散 化方法を設定することは難しい.一般に,状態や行動の離散化が粗すぎるとエージェ ントが認識できる情報が減ってしまったり,緻密な行動ができなくなってしまったり する.一方,離散化が細かすぎると,行動価値関数のテーブルが膨大になり,莫大な 量の試行が必要になったり,大量のメモリ空間が必要になったりする問題がある. それでは,行動価値関数Q(s, a)を何かしらの関数近似器で近似する方法はどうだ ろうか(関数近似器については2.1節に詳しい説明がある).行動価値関数Q(s, a)を 状態と行動を入力とする何かしらの関数f (s, a)で近似したとすると,状態や行動を 離散化せずに連続値のまま扱うことができる.しかしながら,行動が連続値である場 合,行動価値関数Q(s, a)が最大となるような行動を選択することはそれほど容易で はない.通常は,ある状態で行動価値関数Q(s, a)が最大となる行動a∗を解析的に求 めることは困難であるため,探索的に求めることが必要となる.たとえば,連続版ゴ ルフ問題の場合,行動は打つ強さの1変数であるので,行動aの値を0.01刻みで変 えて行動価値関数Q(s, a)の値を取得し,最大となる行動を全探索的に探すことが考 えられる.この方法は,1変数であればそれほどコストがかからないかもしれないが, 行動として出力すべきものが,スイングの速さだけでなく,エージェントの立つ位置, グリップの強さ,グラブの種類など行動の自由度(次元)が増えていくと探索数も指 数関数的に増大し,行動選択に必要な計算量が爆発してしまう.とくに問題空間が連 続であるような場合には,行動価値関数を計算機上で効率的に取り扱うために何かし らの工夫が必要になってしまう. 1.2節で登場したε-greedy法では,行動価値関数Q(s, a)に基づいて確率的方策が

(15)

44 第1章 ▼ 強化学習の基礎的理論 表現されており,方策関数自体には学習により調整されるパラメータが存在していな い.このような場合,試行錯誤によって得られたデータを利用して行動価値関数の 更新(価値反復)を行うことで方策が更新される.この行動価値関数Q(s, a)と方策 π(a|s)の更新のイメージを図1.4.2に示す.図中のある方策に従って行動した後には, 行動価値関数が更新され最適な行動価値関数に近づいていくことをイメージしている. 価値反復に基づく強化学習アルゴリズムでは,行動価値関数を更新していき,方策を 明示的に更新することはしない.ただし,行動価値関数に応じて方策が決まるため, 行動価値関数の更新によって方策は変化する.図中では方策が行動価値関数に付随し て決まることを水平の矢印で表現している. 価値反復に基づく強化学習アルゴリズムでは,行動価値関数によって方策がパラメ タライズされ,行動価値関数を更新していくことがアルゴリズムの中心であった.強 化学習本来の目的が最適な方策πを求めることであったことを思い出すと,行動価値 関数Q(s, a)を用いて方策を定める必要性はなく,方策関数を別のパラメータベクト 図1.4.2 価値反復に基づく強化学習アルゴリズムの行動価値関数と方策の更新イメージ 方策が行動価値関数だけ表現される場合,行動価値関数が決まるとそれに応じて自動的に方策が決定する ため,図中でQからπへの矢印は水平線とした.ある方策に従って行動した後には,行動価値関数が更 新され最適な行動価値関数Q∗に近づいていくことをイメージしている. † ε-greedy法やボルツマン方策では,パラメータとして選択確率εや温度パラメータTが存在するが, これらはアルゴリズム使用者が事前に設定する外部パラメータであり,学習の対象にはなっていないた め,方策パラメータとはみなさない.

(16)

1.4 方策勾配に基づくアルゴリズム 45 ルθによってパラメタライズすることも考えられる.方策勾配に基づく強化学習アル ゴリズムでは,このように行動価値関数に着目するのではなく,方策そのものをパラ メータ表現し,直接方策を求めることに重きを置く. さて,方策をパラメータベクトルθでパラメタライズするとはどういうことだろう か? ここでは,ゴルフ問題を例に方策表現を考えてみよう.ボールとカップの距離 をs1,風の強さをs2として,この二つの状態変数s = [s1, s2]Tを入力とし,行動と してスイングの速さaを決定する関数f (s)を考える.この関数が次のような線形関 数であるとすれば,この方策モデルのパラメータはw1とw2である. f (s) = w1s1+ w2s2 (1.4.1) アルゴリズムの表現を簡単にするために,この二つのパラメータをまとめて2次元ベ クトルのθ = [w1, w2]Tと表すことにすると,fθ(s)はパラメータベクトルθでパラ メタライズされた方策ということができる.このベクトルを構成する二つのパラメー タを調整することで,方策を変化させることができ,これを調整することが方策勾配 に基づく強化学習アルゴリズムの目的になる.方策勾配に基づく強化学習では,これ までの行動価値関数を通した方策表現とは異なり,方策モデルに行動価値関数を用い る必要はなく,方策のパラメータを試行錯誤を通して直接学習できればよいと考える. 単純な方策モデルとして,式(1.4.1)の線形関数を例にあげたが,この関数に従って 行動を決定した場合,エージェントの行動はある状態に対して決定的なものとなり,確 率的な要素は入らない.環境に対しての知識を仮定しない強化学習の場合,エージェ ントがさまざまな状態,行動を経験し試行するために,確率的な方策モデルを導入す るのが有効である.ゴルフ問題の例で,式(1.4.1)を方策関数として説明を行ったが, これを拡張して行動(スイングの速さ)は平均f (s),分散σ2の正規分布N (f(s), σ2) に従って決定されるとしよう.こうすることで,同じ状態観測でも正規分布に基づく ゆらぎが行動に与えられ,確率的な方策を表現することができる.ここで,方策のパ ラメータに新たにσが導入されていることに注意していただきたい.すなわち,この 場合の確率的な方策モデルのパラメータはθ ={w1, w2, σ}の三つとなり,これらを 学習することが目的となる.本項の例では,方策表現として単純な線形モデルと正規 分布モデルを紹介したが,ニューラルネットワークなどのより複雑なモデルを採用す ることも可能である. ここまでで概説したように,方策勾配に基づく強化学習では,方策を何かしらの確 率モデルで表現し,そのパラメータを試行錯誤を通じて学習する.通常は,方策モデ ルのパラメータ学習には勾配法が用いられる.エージェントの目的は期待収益を最大 化することなので,適当なパラメータから始めて,期待収益が大きくなる方向にこの パラメータを更新していくという手順を踏むことになる.方策勾配に基づく強化学習

(17)

46 第1章 ▼ 強化学習の基礎的理論 では,行動価値関数を明示的に使うことなく方策モデルを直接表現し,パラメータの 学習を通して方策の改善を繰り返す.方策を確率モデルで直接表現することで,状態 や行動が離散の場合でも連続の場合でも,モデルを変更するだけで同じようにアルゴ リズムを適用することができる.実際にエージェントの行動を実現する場合にも,確 率モデルである方策からのサンプリングによって行動を決定するため,サンプリング が容易な確率モデルであれば,連続の行動を決定することも容易である.端的に言っ てしまえば,前節までの強化学習アルゴリズムと本節の方策勾配に基づく強化学習ア ルゴリズムの違いは,アルゴリズムの主眼が行動価値関数の推定にあるのか,方策を 直接推定することになるのかの違いである.図1.4.3は方策勾配に基づく強化学習ア ルゴリズムの方策更新のイメージ図である.この図では方策の評価に基づいて方策パ ラメータが更新され,最適な方策に近づいていくことをイメージしている. どちらのアプローチが良いかは,対象となる問題に応じて変わってしまうため,解 きたい強化学習問題の特性を使用者が見極め,適切なアルゴリズムを選択する必要が ある.さきに述べたように,一般には,連続の状態,行動空間を取り扱いたい場合は, 方策勾配に基づく強化学習アルゴリズムを選択する利点が大きいと言える.一方,方 策勾配に基づく強化学習アルゴリズムは方策モデルとは別に方策モデルを更新するた めの推定値が必要となるため,一般にアルゴリズムが煩雑になりやすく,調整パラメー タの数も多い. 図1.4.3 方策勾配に基づく強化学習アルゴリズムの方策更新のイメージ 通常は,ある方策に対する評価方法は変わらないため,方策の評価への矢印は水平線とした.方策の 評価に基づいて方策パラメータが更新され最適な方策πθ∗に近づいていくことをイメージしている.

(18)

3.7

第3章 強化学習の工学応用

深層学習を用いた

Q

関数の学習:

Atari 2600

と囲碁への応用

前田新一

本節では,関数近似器としてdeep neural networkを用いてQ関数を学習させたこ とでこれまでにない性能を発揮させることに成功した研究について紹介する. ニューラルネットワークなど非線形関数を用いた強化学習アルゴリズムで,収束性 を保証できるアルゴリズムは限られている.しかし,応用においては,収束の保証さ れない強化学習アルゴリズムであっても成功を収めている例(バックギャモン[30, 31] エレベータ運行計画問題[10],ジョブショップスケジューリング問題[39])が存在する. とくに近年,非線形関数近似器である多層ニューラルネットワークの表現能力の高 さを,大量のデータによる学習とアーキテクチャと学習則の工夫によって引き出すこ とが可能であることが示されるようになり,大規模な状態行動空間をもつ問題に対し て行動価値関数の学習が成功を収めることが示された.ここでは,昔の家庭用ゲーム 機Atari 2600の多くのゲームを人間のプレイヤー以上の成績で解けるような学習に成 功したことで注目された研究と,囲碁のプロ棋士のFan Hui氏に5戦全勝し,後にプ ロの中でもトップ棋士の一人と目されるLee Sedol氏に5戦中4勝したことで注目さ れた研究について紹介する.

3.7.1

Deep Q-Network (DQN)

による

Atari 2600

のゲームの学習

これまでバックギャモン[30, 31]やオセロ[18],チェス[2]などのゲームの学習に強化学 習が利用され成果を上げてきたが,人手で構築された特徴を用いることで,性能が向 上することが示されることが多かった.しかし,Deep Q-Network (DQN)は,入力 として画面のデータそのものを用いて,同じ学習アルゴリズムを適用するだけで,さ まざまなゲームにおいて人間並みあるいは人間以上の高得点が達成できるようになっ たことで注目を集めた[20, 21].ただし,恣意的な特徴抽出を行わない手法も古くから 試されてはきていた.バックギャモン[31]やオセロ[7, 16],将棋[3, 41]では,単純な盤面 上のパターンを入力とした機械学習が行われている.とくに将棋では,機械学習によ る盤面の状態価値の学習がうまくはたらき,プロ棋士に劣らない実力を得るまでにい たっている.このように機械学習はゲームの学習に利用されてきていたが,それでも DQNは,既存研究が扱ってきたボードゲームのとりうる状態数より大きな状態数を 表現可能な画面の画素情報を入力とし,ゲームによらずほぼ同じ構造をもつニューラ

(19)

258 第3章 ▼ 強化学習の工学応用 ルネットワークでさまざまなゲームの状態価値の学習ができることを示したことは, 注目に値する.DQNの論文は,NIPSという機械学習の国際会議のなかの深層学習 ワークショップで2013年12月に発表された論文[20]と,2015年2月のNature誌に 掲載された論文[21]の二つが存在する.これらを区別する際には,それぞれNIPS版 DQNとNature版DQNとよぶこととする.

3.7.2

DQN

のネットワーク構造

DQNは,その名が示すように,Q関数とよばれる行動価値関数を推定するための多 層ニューラルネットワークである.多層ニューラルネットワークは,入力変数をn(0) 次元のベクトルx,入力層から直接入力を受ける1層目の中間層のユニットをn(1) 次元のベクトルh(1)で,2層目以降の中間層のユニットをn(l)次元のベクトルh(l) (2≤ l ≤ L − 1),出力をn(L)次元ベクトルyで表すと, h(1)= sig(W(1)x + b(1)) (3.7.1) h(l+1)= sig(W(l)h(l)+ b(l)) (3.7.2) y = o(W(l)h(L)+ b(L)) (3.7.3) と書けるような関数を指す.ここで,関数sig(x)o(x)はそれぞれシグモイド関数 1/(1 + exp(−x))などの活性化関数を表し,入力変数がベクトルxの場合,各要素そ れぞれに活性化関数を作用させるものとする.関数o(x)には非線形関数が使われな い場合があったり,出力の総和が1となるように制約されたりすることがあるため, それ以外の活性化関数sig(x)と区別した.W(l)b(l)はそれぞれn(l+1)× n(l)行 列,n(l+1)次元ベクトルのパラメータであり,これらをまとめてパラメータθと表 記する.また,関数Q(s, a)がパラメータθで特徴づけられることを明示する際には Q(s, a; θ)と表記する.多層ニューラルネットワークの層の数Lが多いことをもって 深層ニューラルネットワーク(deep neural network)とかその学習を深層学習(deep learning)などとよぶ. 深層ニューラルネットワークは,表現できる関数の自由度が高い一方で,過学習が 問題になるため,その関数を適切に学習させることは困難であった.DQNもその例 外ではなく,過度な自由度の高さを抑える工夫が施されている.一つ目は,畳み込み ニューラルネットワークの利用,二つ目は,中間層のユニットの共有,である. 畳み込みニューラルネットワーク 畳み込みニューラルネットワークは,画像認識などの画像処理でよく用いられる構 最近の深層学習に関しては,簡単な理論から実践的な内容は[42]で,広範な理論や技術内容は[40],個 別の技術的な詳細は[43]でそれぞれ述べられている.

(20)

3.7 深層学習を用いたQ関数の学習:Atari 2600と囲碁への応用 259 図3.7.1 畳み込みニューラルネットワークの構造 上位層のユニットが受け取る下位層のユニットからの入力は空間的に近いユニットからの入力に限 られ,またその重みのパターンは上位層の位置によらず,同じパターンをとる.こういった重みパ ターン(フィルタ)が複数,利用される. 造であり,入力される画像の画素の幾何的な位置情報を利用した構造をもつ.本来の ニューラルネットワークは,隣接する層間のユニットの間の結合を全結合とするが, 畳み込みニューラルネットワークでは,図3.7.1に示すように上位層の隠れユニット は,空間的に近いユニットからの結合しかもたないように制約される.さらに,その 重みのパターンは空間的な位置によらないよう制約される.この場合,重み行列W と下位層のユニットの入力hとの間の行列演算Whは,下位層のユニットの入力に 対するフィルタによる畳み込み演算と同じ演算となるため,重み行列Wを構成する 重みのパターンはしばしばフィルタとよばれ,こういった構造をもつネットワークは 畳み込みネットワークとよばれる.通常,複数のフィルタが学習される.この畳み込 みネットワークは,もともとの全結合するニューラルネットワークからみれば大幅に 自由度が制限されているものの,空間的な位置に依存しない特徴や,空間的に近い状 態間に強い相関をもつ入力データの学習は可能であり,そういった性質をもつ画像な どの入力データを学習するのに適した構造となっている. 中間層のユニットの共有 DQNは,状態s,行動aに対する行動価値関数Q(s, a)を学習する.これは,状 態行動対を入力とし,スカラーの行動価値を出力する関数と考えることができるが, DQNではその関数の複雑さを限定するために,多値関数として扱う. いま,行動aのとりうる種類がa∈ {a1, . . . , aN}N通りであったとすると, DQNはN通りの出力をもつ多値関数を一つのニューラルネットワークで表現する. すなわち,DQNのi番目の出力をfi(s)とすると,関数fi(s)が表すものはi番目の 行動をとったときのQ関数fi(s) = Q(s, ai)となる.このN通りの関数を,独立な 別のニューラルネットワークとして学習させると,ニューラルネットワークの自由度 は高くなってしまうが,DQNでは入力や中間層を共通なものとし,中間層の最終段か ら出力層への重みのみを行動ごとに異なるものとすることで,ニューラルネットワー とりうる行動の種類N はゲームごとに異なり,4から18の間の値をとる.

(21)

260 第3章 ▼ 強化学習の工学応用 図3.7.2 DQNのアーキテクチャ クの自由度を抑制し,過学習を防いでいる.また,このような構造をとると,行動ごと に関数を評価し直す必要がないため,高速にQ関数を評価するのに役立つ.このネッ トワーク構造を図3.7.2に示す. 図3.7.2にあるとおり,DQNには四つのフレームの画面の情報が入力されている. ただし,実際の画面のフレームレートは60 Hzであり,Nature版DQNではそのうち 連続する4フレームのうち3フレーム目と4フレーム目のピクセルの最大値をとって 一つのフレームとしている.また,その4フレームの間,行動は同じものを選択し続 けるものとする.また,既存の深層学習フレームワークにおいてGPU計算機が効率 的に畳み込み演算できるのが正方形の入力であったため,前処理において210× 160 の画面サイズをダウンサンプリングし,84× 84正方形の画面に整形している.RGB のカラーは,グレースケールの輝度値に変換される.

3.7.3

DQN

の学習アルゴリズム

DQNの学習は,基本的に以下の目的関数J (θ)の最小化を意図してパラメータ更新 がなされる. J (θ) =E[(yt− Q(st, at; θ))2] (3.7.4) ここで,ytは,Q(st, at; θ)が出力するべきターゲットを表す.この目的関数のパラ メータθに関する微分は, † NIPS版DQNでは4フレームおきのフレームをとっている.ただし,スペースインベーダーの場 合,見えない弾が生じてしまうため3フレームおきのフレームとしている.

(22)

311

索 引

□英数字 α-ベクトル 61 ε-greedyアルゴリズム 9, 27, 113 accumulating trace 83 AChアセチルコリン action 2 Actor-Criticアルゴリズム 50 Actor-Critic法 155, 290 agent 2 AlphaGo 265 apprenticeship learning 128, 226 BG大脳基底核

BRM: Bellman Residual Minimization 89

CDR認知発達ロボティクス classical conditioning 285 cost 3

Credit Assignment Problem信用割当問題 DAドーパミン

DBN: Dynamic Bayesian Networks 218 deep learning深層学習 delayed reward 4, 127 discount 4 double Q-learning 263 double sampling 89 DQN: Deep Q-Network 145, 257 DQN with PS 146 effectanceイフェクタンス EM外発的動機付け environment 2 experience replay 79, 261 exploitation 5 exploration 5 exploration-exploitation tradeoff 5 fitted Q 99

GA: Genetic Algorithm 130 GAIRL 131

Gaussian Process 226 GQ: Gradient Q-learning 99

Gradient Temporal Difference (GTD)アルゴ リズム 88 greedy GQ 99 greedyアルゴリズム 6 greedy方策 27 Hip海馬 IM内発的動機付け imitation learning模倣学習 immediate reward 3 income 4 incremental pruning 63 instrumental conditioning 285 instrumental variable method 90 intracranial self-stimulation 286 inverse reinforcement learning逆強化学習 law of effect 285

LEM易しいタスクからの学習 loss 3

LSPE(Least-Squares Policy Evaluation)法 96

LSPI(Least-Squares Policy Iteration)法 98

LSTD(Least-Squares TD)法 91

MDP: Markov Decision Process マルコ フ決定過程

mirror neuron system ミラーニューロンシ ステム

multi-agentマルチエージェント M推定量 103

N-Persons Iterated Prisoner’s Dilemma 160

NAC: Natural Actor-Critic 221 natural policy gradient自然方策勾配法 NEノルアドレナリン

neuromodulator神経修飾物質 NLP自然言語処理

OnPS 183

operant conditioning 285

optimal learning policy最適訓練方策 optimal learning trajectory最適訓練行動列 Pavlov’s dog 284

PBVI: Point-Based Value Iteration 60, 216, 219

policy 3

POMDP部分マルコフ決定過程

prioritized experience replay 263 Profit Sharing (PS)の合理性定理 137 PS: Profit Sharing 137, 182

PSO: Particle Swarm Optimization 153 Q-learning(Q学習) 37, 87, 150 QoL: Quality of Life 249 Q値 150 regret 112 reinforcement 285 reinforcement signal 285 reinforcement-learning problem 2 reinforcer 285 REINFORCEアルゴリズム 52 return 4 reward 3 RoboCupロボカップ

(23)

312 索 引 R学習 177 Sarsa 33, 85 Sarsa(0) 288 Skinner box 285 state 2 state-action space状態行動空間 structured prediction構造化予測 TD(0) 286 TD学習 81, 109, 230 TD誤差 34, 81 Thompsonサンプリング 114 UCB1アルゴリズム 113

UCT: Upper Confidence bounds on Trees 114

Upper Confidence Bound (UCB)アルゴリズム 10, 113 utility 3 value 4 □あ 行 アセチルコリン 301 安全な強化学習 177 アントコロニー最適化 154 遺伝的アルゴリズム 130 イフェクタンス 300 医療臨床データ分析 249 迂回系列 138 エージェント 2 エピソード 21, 137 エンパワーメント 302 オペラント条件付け 285 オンライン勾配法 184 □か 行 海馬 301 外発的動機付け 295 ガウシアンプロセス 226 学習世界 149 価値 4, 22 環境 2 観測 56 関数近似法 155 完全協調問題 160 逆強化学習 128, 237, 242 強化 285 強化学習問題 2 強化関数 137 強化子 285 強化信号 285 教示 136 教師付き学習 127 グリーディ法→ greedyアルゴリズム グロス利益率 178 群強化学習法 148 群ロボット 162 経験強化型学習 136 効果の法則 285 構造化予測 238 行動 2, 15 行動価値 25 行動価値関数 25 行動空間 16 合理的政策 138 コスト 3 古典的条件付け 285 □さ 行 最適訓練行動列 239 最適訓練方策 239 最適状態価値関数 25 最適方策 25 時間ステップ 21 自己最良Q値 153 指数関数型割引 180 自然言語処理 237 自然方策勾配法 220 収益 4, 21, 150 囚人のジレンマ問題 160 終端状態 127 状態 2, 14 状態価値 22 状態空間 16 状態行動価値関数 150 状態行動空間 296 状態遷移確率 16 情報交換による学習 149 情報交換法 152 初期状態分布 16 自律的 225 神経修飾物質 291, 300 深層学習 137, 145, 258 信用割当問題 296 推定関数 102 スキナーの箱 285 スタグハントゲーム 227 スティルフェースパラダイム 306 生活の質→ QoL 正規化ガウシアンネットワーク 156 政策 138 制約緩和法 131 セロトニン 291 線条体 287 全体最良Q値 153 操作変数法 90 即時報酬 3 損失 3 □た 行 体験再生 79, 261 大脳基底核 287, 300 タイプ2の混同 138 多点探索型最適化法 148 多腕バンディット問題 6, 112, 178 探索 5

(24)

索 引 313 探索と利用のトレードオフ 5 遅延報酬 4 道具的条件付け 285 投資比率 178 ドーパミン 286, 300 貪欲法→ greedyアルゴリズム □な 行 内発的動機付け 295 二重サンプル法 89 二重指数関数型割引 180 ニューロモジュレータ 291 認知発達ロボティクス 295 脳内自己刺激行動 286 ノルアドレナリン 301 □は 行 罰ルール 139 パブロフの犬 284 バンディット問題多腕バンディット問題 評価値 152 フェロモン 154 フォーメーション制御 162 不完全知覚問題 56 複利型Q学習 181 複利型Sarsa 182 複利型強化学習 177 複利利益率 178 不確かなときは楽観的に 9, 113 部分観測マルコフ決定過程 56, 214, 249 分布ベルマン方程式 172 平均報酬強化学習 177 ベイジアン強化学習 119 ベイズ環境モデル 118 ベルマン最適方程式 36 ベルマン残差最小化法 89 ベルマン方程式 31 方策 3, 15, 150 方策反復 86 報酬 3, 15, 150 報酬型MDP 179 報酬関数 16 報酬の遅れ 127 ボルツマン方策 27 □ま 行 マルコフ決定過程 16, 166, 214, 249 マルチエージェント 296 マルチエージェント学習 159 マルチエージェント群強化学習法 159 マルチスタート法 139 マルチロボット強化学習 200 マルチンゲール推定関数 104 見習い学習 128, 226 ミラーニューロンシステム 298 無効ルール 138 群れ行動 153 メタ学習 291 メタヒューリスティクス 163 目標状態 127 模倣学習 237 モンテカルロ木探索 266 □や 行 易しいタスクからの学習 296 有効ルール 138 優先順位付き体験再生 263 □ら 行 楽観主義原理不確かなときは楽観的に 楽観的初期価値法 115 楽観的初期値法 10 利益率 177 利益率型MDP 180 利益率の複利効果 177 リグレット 112 リスク考慮型強化学習 165–175, 177 リターン分布 167, 170 リターン分布推定 165, 172–174 利得 3 利用 5 累積履歴 83 ルール 137 連続状態行動空間 155 連続状態行動空間学習問題 155 ロボカップ 295 □わ 行 割引 4 割引収益 179 割引複利利益率 180 割引報酬和 22

(25)

 編集担当 丸山隆一(森北出版)  編集責任 藤原祐介・石田昇司(森北出版)  組  版 藤原印刷  印  刷   同    製  本   同    イラスト 有限会社ケイデザイン 北村裕子 これからの強化学習 c 牧野貴樹/澁谷長史/白川真一/浅田稔/麻生英樹/荒井幸代/飯間等/伊藤真/ 大倉和博/黒江康明/杉本徳和/坪井祐太/銅谷賢治/前田新一/松井藤五郎/ 南泰浩/宮崎和光/目黒豊美/森村哲郎/森本淳/保田俊行/吉本潤一郎 2016 2016年10月31日 第1版第1刷発行 【本書の無断転載を禁ず】 編 著 者 牧野貴樹/澁谷長史/白川真一 発 行 者 森北博巳 発 行 所 森北出版株式会社 東京都千代田区富士見1-4-11(〒102-0071) 電話03-3265-8341/FAX 03-3264-8709 http://www.morikita.co.jp/ 日本書籍出版協会・自然科学書協会 会員 <(社)出版者著作権管理機構 委託出版物> 落丁・乱丁本はお取替えいたします. Printed in Japan / ISBN978-4-627-88031-3

参照

関連したドキュメント

学校に行けない子どもたちの学習をどう保障す

仏像に対する知識は、これまでの学校教育では必

本時は、「どのクラスが一番、テスト前の学習を頑張ったか」という課題を解決する際、その判断の根

子どもたちは、全5回のプログラムで学習したこと を思い出しながら、 「昔の人は霧ヶ峰に何をしにきてい

脱型時期などの違いが強度発現に大きな差を及ぼすと

前回ご報告した際、これは昨年度の下半期ですけれども、このときは第1計画期間の

層の積年の思いがここに表出しているようにも思われる︒日本の東アジア大国コンサート構想は︑

□ ゼミに関することですが、ゼ ミシンポの説明ではプレゼ ンの練習を主にするとのこ とで、教授もプレゼンの練習