5.3 評価実験
5.3.2 防御側プレイヤの評価
次に,防御側プレイヤの評価実験の結果を示す.ここでの実験でも,攻撃側は最初の50 手はランダムな手を選び,1,000ゲームの平均得点と最高得点を記録した.実験に用いた防 御側プレイヤは以下に示すとおりである.
ランダム 完全にランダムに手を選ぶプレイヤである.
minimax 単純な minimax法によるプレイヤである.末端ノードでの評価値として,そ こまでに得られた得点を用いる.探索の深さ d は,1, 3, 5, 7 (0,1, 2, 3手先読み)
とした.
expectimax 単純なexpectimax法によるプレイヤである.末端ノードでの評価値とし て,そこまでに得られた得点を用いる.探索の深さ d は,1, 3, 5, 7 (0,1, 2, 3手先 読み) とした.
1人ゲーム用に学習したN タプルネットワーク 第5.1.1章で学習させたN タプルネット ワークを用いて,さらに深さ d = 1,3,5 (0, 1, 2 手) までminimax探索を組み合わせ たものである.タプルの個数 m として,2, 4, 8 の3種類を用いた.
対戦用に学習したN タプルネットワーク 第5.2章で学習させたN タプルネットワークを 用いて,さらに深さ d = 1,3,5 (0, 1, 2手) まで minimax探索を組み合わせたもので ある.タプルの個数 mとして,2, 4, 8 の3種類を用いた.
図5.4に深さ7 (3手) の単純minimax探索プレイヤを攻撃側としたときに,各防御側プ レイヤが得た点数を示す.また,攻撃用に学習したタプル数 m= 4 のN タプルネットワー クを評価関数に用いて深さ5 (2手) までminimax探索するプレイヤが攻撃側プレイヤで あった場合に,各防御側プレイヤが得た点数を図5.3に示す.
この実験では,いずれのプレイヤを攻撃側とした場合でも,対戦用に再学習したN タプ ルネットワークを用いるプレイヤが,単純なminimaxプレイヤや1人ゲーム用に学習した プレイヤよりもより大きな得点を得ていることが分かる.また,この場合では,タプル数が 多い (m= 8) ほうが,より大きな得点を得る傾向が見られる.
5.3 評価実験
100 1000 10000 100000
w 1 3 5 7 1 3 5 7 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5
• m=2 m=4 m=8 m=2 m=4 m=8
N n
minimax expectimax 1Ç@ŠnÝûÛfçï NMey[QV}Š=
PSÝûÌÛfçï NMey[QV}Š=
¹’“l q±“l 20000
図5.4 深さ7 (3手)まで探索するminimaxプレイヤを攻撃側としたときの,各防御側 プレイヤが得た平均得点と最大得点.グラフ下の1行目の数はminimax/expectimax 探索の深さを示す.防御側は,得点が大きいほうが良い.
500 5000 50000
w 1 3 5 7 1 3 5 7 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5
• m=2 m=4 m=8 m=2 m=4 m=8
N n
minimax expectimax 1Ç@ŠnÝûÛfçï NMey[QV}Š=
PSÝûÌÛfçï NMey[QV}Š=
¹’“l q±“l 20000
図5.5 攻撃用に学習したN タプルネットワーク(タプル数m= 4)を用いて深さ5
(2手) までminimax探索するプレイヤを攻撃側としたときの,各防御側プレイヤが得
た平均得点と最大得点.グラフ下の 1行目の数はminimax/expectimax探索の深さ を示す.防御側は,得点が大きいほうが良い.
第 6 章
関連研究
ゲーム“2048”が公開されて以降,ゲームプレイアルゴリズムを適用したコンピュータプ
レイヤがいくつか提案されている[1, 15, 4, 12, 8].
中でも最先端のアルゴリズムは,expectimaxとTD学習を組み合わせている.
“2048”のコンピュータプレイヤへのTD学習の最初の適用は,SzubertとJa´skowski [12]
によって行われた.手で選んだ 2 個の 4 タプルと 2 個の 6 タプルを用いたプレイヤは 1,000,000 ゲームでTD学習を行い,平均得点 100,178を達成した.2 個の4タプルはWu らによって 2 個の6タプルに拡張され,平均得点は 142,727 に増加した.また Wuらは,
学習アルゴリズムのマルチステージ化を提案し,expectimax探索との組み合わせによって,
平均得点 328,946(マルチステージTD,expectimax探索の深さ = 5)を達成した.
expectimax法は,探索する深さが深い場合に非常に時間がかかる.ゲーム“2048”のコ
ンピュータプレイヤの競技では,しばしば 1–10 ミリ秒[10, 16]で1 回の移動を行うことが 要求される.著者が提案するN = 7,m= 10のプレイヤは大きなメモリ(約 10 GB)を 必要するが,遙かに高速である(1 回の移動に約 12 マイクロ秒).
第 7 章
おわりに
本研究は著者のこれまでの研究をまとめたものである[8, 6, 5, 7].