MG3 での ϵ- グリーディー方策による価値関数の学習

第 4 章 Minimum-Geister における実験 25

4.6 MG3 での ϵ- グリーディー方策による価値関数の学習

実験

手番をパスすることが可能であるMinimum3においてランダム方策を用いた際のMCと TD(0)における状態価値関数V(st)を求める．さらに，Minimum3において，グリーディー方策およびϵ-グリーディー方策を用いた際の行動価値関数Q(st, a)，Q(s0, s1, s2,· · · , st, a) を求める．

結果

表4.8はMG3においてランダム方策を用いた際のMCおよびTD(0)における4つの初期局面での先手番プレイヤに対するV(s_t)を表す．

表 4.8: ランダム方策を用いた際のMC,TD(0)における4つの初期局面での先手番プレイヤに対するV(s_t)

MC TD(0) 局面1 0.3787 0.4182 局面2 0.6971 0.5808 局面3 0.5759 0.6495 局面4 0.3493 0.3657

表4.9はMG3においてϵ-グリーディー方策を用いた際のMCおよびTD(0)における2 つの初期局面での先手番プレイヤの手に対するQ(st, a)を表す．

表 4.9: ϵ-グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番の手に対するQ(st, a)

MC TD(0) 局面1+手1 0.3959 0.5129 局面1+手2 0.3698 0.4301 局面3+手1 0.5466 0.5211 局面3+手2 0.4921 0.4499

表??はMG3においてϵ-グリーディー方策を用いた際のMCおよびTD(0)における2つの初期局面での先手番プレイヤの手に対するQ(s0, s1, s2,· · · , st, a)を表す．

ϵ-グリーディー方策を用いて各学習を行ったQ(st, a)，Q(s0, s1, s2,· · · , st, a)を使い，手番プレイヤにとって最も行動価値が高くなるように手を指してゲームを進行させたところ，相手の駒を取らず，相手の駒の進路を防ぐ形で全て対局で引き分けとなった．

表 4.10: ϵ-グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番の手に対するQ(s0, s1, s2,· · · , st, a)

MC TD(0) 局面1+手1 0.4423 0.5208 局面1+手2 0.4806 0.4573 局面3+手1 0.4922 0.5597 局面3+手2 0.5000 0.4695

この実験からはMG3における最善戦略があるのかはわからなかった．ゲーム自体に大きく偏りがあり，どちらかに非常に有利となる場合には，必勝手順などが求まるが，そうでない場合においては多くは引き分けに持ち込む戦術に落ち着いている．

第 5 章ガイスターにおける学習

本章では，通常のガイスターにおける自己対戦によるニューラルネットワークを利用したSarsa(λ)による学習を行う．(1)全く推測を用いない学習，(2)相手の駒に対する推測を入力に加えることで推測状況に応じた行動価値関数を求めることを目標とした学習，

(3)相手の駒の推測と同様に自分の駒に対する推測も用い，相手から推測をされていることを考慮した状況に応じた行動価値関数を求めることを目標とした学習の３種類の学習を行う．その上で，学習を円滑に行うため，様々なルールのガイスターにおいて自己対戦による学習を行う．様々なルールとして，通常のガイスターに加え，判定勝ち等を加えた特殊なルールや着手制限を加えたルールなどのルールを考案する．さらに入力として与える特徴の種類を増やし，様々な入力での学習を行う．なお，駒の初期配置は完全ランダムで行なうこととした．

Sarsa(λ)学習におけるパラメータは本章を通じてλ = 0.7,γ = 0.95 とする．方策は ϵ-グリーディー方策を用い，ϵ = 0.2とする．ニューラルネットワークの重みの初期化には非常に小さな正の実数である乱数値を用いる．乱数により初期化されたニューラルネットワークの重みが大きいと，初期のニューラルネットワークの出力が1に限りなく近づき，

式(2.32)におけるシグモイド関数の導関数値σが0となり，適格度トレースが更新されないため，ニューラルネットワークの重みも更新されない．実際には入力層のユニットの数に応じて変えており，表5.1のようにした．

表 5.1: ニューラルネットワークにおける重みの初期値入力層のユニット数重みの初期値

100代 0∼0.20までの乱数 200代 0∼0.10までの乱数 300代 0∼0.05までの乱数

ドキュメント内修士論文の和文要旨研究科・専攻 (ページ 38-41)

MG3 での ϵ- グリーディー方策による価値関数の学習

第 4 章 Minimum-Geister における実験 25

4.6 MG3 での ϵ- グリーディー方策による価値関数の学習

第 5 章 ガイスターにおける学習

第 5 章ガイスターにおける学習