MG2 における状態価値関数と行動価値関数の学習

第 4 章 Minimum-Geister における実験 25

4.4 MG2 における状態価値関数と行動価値関数の学習

初期局面において駒の色を選択できる不完全情報ゲームであるMG2において，ランダム方策を用いた際のMC，TD(0)での状態価値関数V(st)とグリーディー方策を用いた際のMC，TD(0)での行動価値関数Q(st, a)およびQ(s0, s1, s2,· · · , st, a)を求めた．

MG1における実験と同様にゲーム中に発生する全局面を列挙し，その各々に対して一度ずつ状態価値関数の更新を行っていく．具体的には，互いに色がわかっている状態におけるゲーム木の全局面を列挙する．その全ての局面において，手番プレイヤが相手の駒の色を認識できない局面stもしくはルートからの局面系列s0, s1,· · · , stを生成し，局面におけるV(st)もしくはQ(st, a)，Q(s0, s1, s2,· · · , st, a)を更新する．

状態価値関数V(s_t)におけるs_tのとりうる状態数は履歴を考慮しない片側不完全情報となる局面の数と一致し，259となる．更新を開始するために用いる両側完全情報ゲームとした際の履歴を考慮した局面数は860となる．

片側不完全情報ゲームとした際の履歴込みの局面と手の可能な組合せは計2037となる．

つまり，これは行動価値関数Q(s0, s1, s2,· · · , st, a)の引数の組合せの数となる．

実験

ランダム方策を用いたMCにおいて1つの局面に対して状態価値関数の更新を100,000 回，TD(0)では1,000回行う．

さらに，グリーディー方策を用いたMCでのQ(st, a)の更新では3,000回，Q(s0, s1, s2,· · · , st, a)

では1,000回の更新を行う．また，グリーディー方策を用いたTD(0)でのQ(st, a)とQ(s0, s1, s2,· · ·, st, a) の更新では1,000回の更新を行う．

結果

全ての局面，手における状態価値関数および行動価値関数を求めるが，特に図4.3における局面および図4.4の手に対しての結果を見る．

図 4.3: 局面1,2,3,4

図 4.4: 手1,2

ランダム方策を用いた際のMCとTD(0)における片側不完全情報とした4つの初期局面の先手番に対する状態価値関数V(st)は表4.3となる．

表 4.3: ランダム方策を用いた際のMC,TD(0)における4つの初期局面での先手番の勝率 MC TD(0)

局面1 0.57316 0.50597 局面2 0.47536 0.49885 局面3 0.78338 0.82746 局面4 0.32598 0.16268

MCとTD(0)の方策の両方で局面1と局面2の両方で状態価値関数V(st)はほぼ5となり，状態価値関数の値が完全に一致しないのは乱数と更新回数の差とMCとTD(0)の収束性に違いがあるからだと考えられる．

グリーディー方策を用いた際のMCとTD(0)における片側不完全情報とした4つの初期局面の先手番に対するQ(s_t, a)は表4.4となる.

表 4.4: グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番の手に対するQ(st, a)

MC TD(0) 局面1+手1 0.7513 0.5000 局面1+手2 0.2487 0.4737 局面3+手1 0.5000 0.5000 局面3+手2 0.5000 0.4737

グリーディー方策を用いた際のMCとTD(0)における片側不完全情報とした4つの初期局面の先手番の手に対するQ(s0, s1, s2,· · · , st, a)は表4.5となる.

表 4.5: グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番の手に対するQ(s0, s1, s2,· · · , st, a)

MC TD(0) 局面1+手1 0.7632 0.5000 局面1+手2 0.2368 0.4737 局面3+手1 0.5000 0.5000 局面3+手2 0.5000 0.4737

Q(s_t, a)，Q(s₀, s₁, s₂,· · · , s_t, a)において，ほぼ同様の結果となった．両者のMCにおける局面1+手1と局面1+手2の結果に差があることは更新回数による違いによるものである．

MCとTD(0)において,結果が異なることとなったが,それぞれの次局面を末端局面まで辿っていった所，両者における勝率の計算は妥当であった. 完全情報でのガイスターにおけるゲーム木の全ての局面を用いて，行動価値関数の更新を行っているせいであると考えているが，なぜこのような結果になるのかを解き明かすには更なる考察が必要である．

4.5 MG2 ^での ϵ- グリーディー方策による行動価値関数の学

ドキュメント内修士論文の和文要旨研究科・専攻 (ページ 32-36)

MG2 における状態価値関数と行動価値関数の学習

第 4 章 Minimum-Geister における実験 25

4.4 MG2 における状態価値関数と行動価値関数の学習

4.5 MG2 での ϵ- グリーディー方策による行動価値関数の学

4.5 MG2 ^での ϵ- グリーディー方策による行動価値関数の学