防御側プレイヤの評価

5.3 評価実験

5.3.2 防御側プレイヤの評価

次に，防御側プレイヤの評価実験の結果を示す．ここでの実験でも，攻撃側は最初の50 手はランダムな手を選び，1,000ゲームの平均得点と最高得点を記録した．実験に用いた防御側プレイヤは以下に示すとおりである．

ランダム完全にランダムに手を選ぶプレイヤである．

minimax 単純な minimax法によるプレイヤである．末端ノードでの評価値として，そこまでに得られた得点を用いる．探索の深さ d は，1, 3, 5, 7 （0，1, 2, 3手先読み）

とした．

expectimax 単純なexpectimax法によるプレイヤである．末端ノードでの評価値として，そこまでに得られた得点を用いる．探索の深さ d は，1, 3, 5, 7 （0，1, 2, 3手先読み）とした．

1人ゲーム用に学習したN タプルネットワーク第5.1.1章で学習させたN タプルネットワークを用いて，さらに深さ d = 1,3,5 (0, 1, 2 手) までminimax探索を組み合わせたものである．タプルの個数 m として，2, 4, 8 の3種類を用いた．

対戦用に学習したN タプルネットワーク第5.2章で学習させたN タプルネットワークを用いて，さらに深さ d = 1,3,5 (0, 1, 2手) まで minimax探索を組み合わせたものである．タプルの個数 mとして，2, 4, 8 の3種類を用いた．

図5.4に深さ7 (3手) の単純minimax探索プレイヤを攻撃側としたときに，各防御側プレイヤが得た点数を示す．また，攻撃用に学習したタプル数 m= 4 のN タプルネットワークを評価関数に用いて深さ5 (2手) までminimax探索するプレイヤが攻撃側プレイヤであった場合に，各防御側プレイヤが得た点数を図5.3^に示す．

この実験では，いずれのプレイヤを攻撃側とした場合でも，対戦用に再学習したN タプルネットワークを用いるプレイヤが，単純なminimaxプレイヤや1人ゲーム用に学習したプレイヤよりもより大きな得点を得ていることが分かる．また，この場合では，タプル数が多い (m= 8) ほうが，より大きな得点を得る傾向が見られる．

5.3 ^評価実験

100 1000 10000 100000

w 1 3 5 7 1 3 5 7 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5

• m=2 m=4 m=8 m=2 m=4 m=8

N n

minimax expectimax 1Ç@ŠnÝûÛfçï NMey[QV}Š=

PSÝûÌÛfçï NMey[QV}Š=

¹’“l q±“l 20000

図5.4 深さ7 (3手)まで探索するminimaxプレイヤを攻撃側としたときの，各防御側プレイヤが得た平均得点と最大得点．グラフ下の1行目の数はminimax/expectimax 探索の深さを示す．防御側は，得点が大きいほうが良い．

500 5000 50000

w 1 3 5 7 1 3 5 7 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5

• m=2 m=4 m=8 m=2 m=4 m=8

N n

minimax expectimax 1Ç@ŠnÝûÛfçï NMey[QV}Š=

PSÝûÌÛfçï NMey[QV}Š=

¹’“l q±“l 20000

図5.5 攻撃用に学習したN タプルネットワーク（タプル数m= 4）を用いて深さ5

(2手) までminimax探索するプレイヤを攻撃側としたときの，各防御側プレイヤが得

た平均得点と最大得点．グラフ下の 1行目の数はminimax/expectimax探索の深さを示す．防御側は，得点が大きいほうが良い．

第 6 ^章

おわりに

本研究は著者のこれまでの研究をまとめたものである[8, 6, 5, 7]．

ドキュメント内 TD 2048 TD 1 N N 2048 N TD N N N N N N 2048 N 2048 TD 2048 TD TD TD 2048 TD 2048 minimax 2048, 2048, TD, N i (ページ 43-46)

5.3 評価実験

5.3.2 防御側プレイヤの評価

第 6 ^章

関連研究

第 7 ^章

おわりに

防御側プレイヤの評価

5.3 評価実験

5.3.2 防御側プレイヤの評価

第 6 章

関連研究

第 7 章

おわりに

第 6 ^章

第 7 ^章