• 検索結果がありません。

MG2 における状態価値関数と行動価値関数の学習

ドキュメント内 修 士 論 文 の 和 文 要 旨 研究科・専攻 (ページ 32-36)

第 4 章 Minimum-Geister における実験 25

4.4 MG2 における状態価値関数と行動価値関数の学習

初期局面において駒の色を選択できる不完全情報ゲームであるMG2において,ランダ ム方策を用いた際のMC,TD(0)での状態価値関数V(st)とグリーディー方策を用いた際 のMC,TD(0)での行動価値関数Q(st, a)およびQ(s0, s1, s2,· · · , st, a)を求めた.

MG1における実験と同様にゲーム中に発生する全局面を列挙し,その各々に対して一 度ずつ状態価値関数の更新を行っていく.具体的には,互いに色がわかっている状態にお けるゲーム木の全局面を列挙する.その全ての局面において,手番プレイヤが相手の駒の 色を認識できない局面stもしくはルートからの局面系列s0, s1,· · · , stを生成し,局面に おけるV(st)もしくはQ(st, a),Q(s0, s1, s2,· · · , st, a)を更新する.

状態価値関数V(st)におけるstのとりうる状態数は履歴を考慮しない片側不完全情報 となる局面の数と一致し,259となる.更新を開始するために用いる両側完全情報ゲーム とした際の履歴を考慮した局面数は860となる.

片側不完全情報ゲームとした際の履歴込みの局面と手の可能な組合せは計2037となる.

つまり,これは行動価値関数Q(s0, s1, s2,· · · , st, a)の引数の組合せの数となる.

実験

ランダム方策を用いたMCにおいて1つの局面に対して状態価値関数の更新を100,000 回,TD(0)では1,000回行う.

さらに,グリーディー方策を用いたMCでのQ(st, a)の更新では3,000回,Q(s0, s1, s2,· · · , st, a)

では1,000回の更新を行う.また,グリーディー方策を用いたTD(0)でのQ(st, a)とQ(s0, s1, s2,· · ·, st, a) の更新では1,000回の更新を行う.

結果

全ての局面,手における状態価値関数および行動価値関数を求めるが,特に図4.3にお ける局面および図4.4の手に対しての結果を見る.

図 4.3: 局面1,2,3,4

図 4.4: 手1,2

ランダム方策を用いた際のMCとTD(0)における片側不完全情報とした4つの初期局 面の先手番に対する状態価値関数V(st)は表4.3となる.

表 4.3: ランダム方策を用いた際のMC,TD(0)における4つの初期局面での先手番の勝率 MC TD(0)

局面1 0.57316 0.50597 局面2 0.47536 0.49885 局面3 0.78338 0.82746 局面4 0.32598 0.16268

MCとTD(0)の方策の両方で局面1と局面2の両方で状態価値関数V(st)はほぼ5とな り,状態価値関数の値が完全に一致しないのは乱数と更新回数の差とMCとTD(0)の収 束性に違いがあるからだと考えられる.

グリーディー方策を用いた際のMCとTD(0)における片側不完全情報とした4つの初 期局面の先手番に対するQ(st, a)は表4.4となる.

表 4.4: グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番の 手に対するQ(st, a)

MC TD(0) 局面1+手1 0.7513 0.5000 局面1+手2 0.2487 0.4737 局面3+手1 0.5000 0.5000 局面3+手2 0.5000 0.4737

グリーディー方策を用いた際のMCとTD(0)における片側不完全情報とした4つの初 期局面の先手番の手に対するQ(s0, s1, s2,· · · , st, a)は表4.5となる.

表 4.5: グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番の 手に対するQ(s0, s1, s2,· · · , st, a)

MC TD(0) 局面1+手1 0.7632 0.5000 局面1+手2 0.2368 0.4737 局面3+手1 0.5000 0.5000 局面3+手2 0.5000 0.4737

Q(st, a),Q(s0, s1, s2,· · · , st, a)において,ほぼ同様の結果となった.両者のMCにお ける局面1+手1と局面1+手2の結果に差があることは更新回数による違いによるもので ある.

MCとTD(0)において,結果が異なることとなったが,それぞれの次局面を末端局面ま で辿っていった所,両者における勝率の計算は妥当であった. 完全情報でのガイスターに おけるゲーム木の全ての局面を用いて,行動価値関数の更新を行っているせいであると考 えているが,なぜこのような結果になるのかを解き明かすには更なる考察が必要である.

4.5 MG2 での ϵ- グリーディー方策による行動価値関数の学

ドキュメント内 修 士 論 文 の 和 文 要 旨 研究科・専攻 (ページ 32-36)