• 検索結果がありません。

3 回 : 強化学習手法のプログラムの理解 ゲーム理論と最適化手法第

N/A
N/A
Protected

Academic year: 2021

シェア "3 回 : 強化学習手法のプログラムの理解 ゲーム理論と最適化手法第"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

ゲーム理論と最適化手法 第 3 : 強化学習手法のプロ

グラムの理解

上田 俊

佐賀大学理工学部

Email: [email protected] Web: https://www.fu.is.saga-u.ac.jp/sgrueda/

2019 10 1

(2)

今日のプログラム

https://www.fu.is.saga-

u.ac.jp/sgrueda/?page id=65 から

Q-Learning.xlsx Q-Learning.txt をダウ ンロード

wifi の回線を開けるために,ダウンロー

ドが終わった人から wifi を切断してくだ

さい.

(3)

マルコフ決定過程

s S : 状態

a A : 行動

P (s

| s, a) : 状態遷移確率

状態 s で行動 a を取った時に次状態 s

に遷 移する確率

r(s) : 状態 s に遷移した時の報酬

(4)

政策

強化学習の目的は,よりよい政策 π を獲 得すること.

π(s, a) = P (a | s) : 状態 s において,ど

の行動 a を取るべきかについての確率的

な指針

(5)

25 を言った方が負け

2 人で交代に, 1 から順に 25 までの数を 言う.

言う数の個数は, 1 個, 2 個, 3 個のいず れか好きなのを選んでよい.

最後に 25 を言った方が負け.

(6)

後手必勝

24 を言えれば,相手に 25 を言わせて 勝ち.

20 を言えれば, 21 22 23 のどれが 返ってきても 24 を言うことができる.

あとは, 16 12 . . . , 4 とさかのぼる.

つまり,後手であれば, 1 2 3 のいず

れかが来て, 4 を言うことで必勝モード

になる.

(7)

マルコフ決定過程と政策の一部

4

1 2

4

3 5

3

7

6

𝜋 1,2 𝜋 1,3

𝜋 1,4

𝑃 3 1,2

𝑃 5 1,2

𝑃 4 1,3 𝑃 5 1,2 𝑃 5 1,3

𝑃 5 1,4 𝑃 6 1,3 𝑃 6 1,4

𝑃 7 1,4

(8)

状態価値関数と行動価値関数

V

π

(s) : 状態 s において政策 π に従う場 合に得られる報酬 ( の期待値 ) ,状態価値 関数

Q

π

(s, a) : 状態 s において行動 a をとっ た後に政策 π に従う場合に得られる報 酬 ( の期待値 ) ,行動価値関数

V

π

(s) = ∑

a

π (s, a)Q

π

(s, a) の関係に

ある.

(9)

ベルマン方程式

マルコフ決定過程において価値関数は以 下の再帰的な性質を満たす : V

π

(s) =

a

π(s, a)

s

P (s

| s, a)[r(s

) + V

π

(s

)]

同様に,行動価値関数に関して,

Q

π

(s, a) = r(s) +

s

V

π

(s

)P (s

| s, a) V

π

(s

) = ∑

a

π(s

, a

)Q

π

(s

, a

)

が成り立つ.

(10)

Q 学習

以下で定義される最適行動価値関数 Q

(s, a) を学習する : Q

(s, a) =

r(s) +

s

P (s

| s, a) max

a

Q

(s

, a

)

以下の更新式で少しずつ Q

(s, a) に近づ ける : Q(s, a)

Q(s, a)+ α(r(s

)+max

a

Q(s

, a

) Q(s, a))

α は更新率であり, α = 0.1 程度に設定

する.

(11)

Q 学習のアルゴリズム

1

Q 値を初期化する.

2

for i = 1 to L ( トライアル数 ) do

1

時刻 t = 0 とし, s

0

を観測する.

2

repeat

1

政策

π

に従って

at

を選択し行動する.

2

環境から

st+1

r(st+1)

を観測する.

3 Q

学習の更新式に従って

Q(st, at)

の値を更新 する.

4

時刻

t ←t+ 1

とする.

3

until ゲームが終了する.

3

end for

(12)

行動選択

完全にランダム

グリーディー法

最も Q 値の高い行動を選択する.

ε - グリーディー法

確率 ε で全行動からランダムに選択する.

確率 1 ε でグリーディー法を用いて選択 する.

ボルツマン選択

(13)

第 3 回小レポート課題

自分の分野における,強化学習が適用で

きそうな問題とその理由を説明しな

さい.

(14)

今日のプログラム ( 再掲 )

https://www.fu.is.saga-

u.ac.jp/sgrueda/?page id=65 から

Q-Learning.xlsx Q-Learning.txt をダウ ンロード

wifi の回線を開けるために,ダウンロー

ドが終わった人から wifi を切断してくだ

さい.

参照

関連したドキュメント

不変量 意味論 何らかの構造を保存する関手を与えること..

ü  modeling strategies and solution methods for optimization problems that are defined by uncertain inputs.. ü  proposed by Ben-Tal & Nemirovski

しかし何かを不思議だと思うことは勉強をする最も良い動機だと思うので,興味を 持たれた方は以下の文献リストなどを参考に各自理解を深められたい.少しだけ案

本節では本研究で実際にスレッドのトレースを行うた めに用いた Linux ftrace 及び ftrace を利用する Android Systrace について説明する.. 2.1

 中世に巡礼の旅の途上で強盗に襲われたり病に倒れた旅人の手当てをし,暖かくもてなしたのがホスピスの

システムであって、当該管理監督のための資源配分がなされ、適切に運用されるものをいう。ただ し、第 82 条において読み替えて準用する第 2 章から第

子どもたちは、全5回のプログラムで学習したこと を思い出しながら、 「昔の人は霧ヶ峰に何をしにきてい

ASTM E2500-07 ISPE は、2005 年初頭、FDA から奨励され、設備や施設が意図された使用に適しているこ