第 4 章 Minimum-Geister における実験 25
4.6 MG3 での ϵ- グリーディー方策による価値関数の学習
実験
手番をパスすることが可能であるMinimum3においてランダム方策を用いた際のMCと TD(0)における状態価値関数V(st)を求める.さらに,Minimum3において,グリーディー 方策およびϵ-グリーディー方策を用いた際の行動価値関数Q(st, a),Q(s0, s1, s2,· · · , st, a) を求める.
結果
表4.8はMG3においてランダム方策を用いた際のMCおよびTD(0)における4つの初 期局面での先手番プレイヤに対するV(st)を表す.
表 4.8: ランダム方策を用いた際のMC,TD(0)における4つの初期局面での先手番プレイ ヤに対するV(st)
MC TD(0) 局面1 0.3787 0.4182 局面2 0.6971 0.5808 局面3 0.5759 0.6495 局面4 0.3493 0.3657
表4.9はMG3においてϵ-グリーディー方策を用いた際のMCおよびTD(0)における2 つの初期局面での先手番プレイヤの手に対するQ(st, a)を表す.
表 4.9: ϵ-グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番 の手に対するQ(st, a)
MC TD(0) 局面1+手1 0.3959 0.5129 局面1+手2 0.3698 0.4301 局面3+手1 0.5466 0.5211 局面3+手2 0.4921 0.4499
表??はMG3においてϵ-グリーディー方策を用いた際のMCおよびTD(0)における2つ の初期局面での先手番プレイヤの手に対するQ(s0, s1, s2,· · · , st, a)を表す.
ϵ-グリーディー方策を用いて各学習を行ったQ(st, a),Q(s0, s1, s2,· · · , st, a)を使い,手 番プレイヤにとって最も行動価値が高くなるように手を指してゲームを進行させたとこ ろ,相手の駒を取らず,相手の駒の進路を防ぐ形で全て対局で引き分けとなった.
表 4.10: ϵ-グリーディー方策を用いた際のMC,TD(0)における2つの初期局面での先手番 の手に対するQ(s0, s1, s2,· · · , st, a)
MC TD(0) 局面1+手1 0.4423 0.5208 局面1+手2 0.4806 0.4573 局面3+手1 0.4922 0.5597 局面3+手2 0.5000 0.4695
この実験からはMG3における最善戦略があるのかはわからなかった.ゲーム自体に大 きく偏りがあり,どちらかに非常に有利となる場合には,必勝手順などが求まるが,そう でない場合においては多くは引き分けに持ち込む戦術に落ち着いている.
第 5 章 ガイスターにおける学習
本章では,通常のガイスターにおける自己対戦によるニューラルネットワークを利用 したSarsa(λ)による学習を行う.(1)全く推測を用いない学習,(2)相手の駒に対する推 測を入力に加えることで推測状況に応じた行動価値関数を求めることを目標とした学習,
(3)相手の駒の推測と同様に自分の駒に対する推測も用い,相手から推測をされているこ とを考慮した状況に応じた行動価値関数を求めることを目標とした学習の3種類の学習 を行う.その上で,学習を円滑に行うため,様々なルールのガイスターにおいて自己対戦 による学習を行う.様々なルールとして,通常のガイスターに加え,判定勝ち等を加えた 特殊なルールや着手制限を加えたルールなどのルールを考案する.さらに入力として与え る特徴の種類を増やし,様々な入力での学習を行う.なお,駒の初期配置は完全ランダム で行なうこととした.
Sarsa(λ)学習におけるパラメータは本章を通じてλ = 0.7,γ = 0.95 とする.方策は ϵ-グリーディー方策を用い,ϵ = 0.2とする.ニューラルネットワークの重みの初期化には 非常に小さな正の実数である乱数値を用いる.乱数により初期化されたニューラルネット ワークの重みが大きいと,初期のニューラルネットワークの出力が1に限りなく近づき,
式(2.32)におけるシグモイド関数の導関数値σが0となり,適格度トレースが更新されな いため,ニューラルネットワークの重みも更新されない.実際には入力層のユニットの数 に応じて変えており,表5.1のようにした.
表 5.1: ニューラルネットワークにおける重みの初期値 入力層のユニット数 重みの初期値
100代 0∼0.20までの乱数 200代 0∼0.10までの乱数 300代 0∼0.05までの乱数