• 検索結果がありません。

5.3 評価実験

5.3.2 防御側プレイヤの評価

次に,防御側プレイヤの評価実験の結果を示す.ここでの実験でも,攻撃側は最初の50 手はランダムな手を選び,1,000ゲームの平均得点と最高得点を記録した.実験に用いた防 御側プレイヤは以下に示すとおりである.

ランダム 完全にランダムに手を選ぶプレイヤである.

minimax 単純な minimax法によるプレイヤである.末端ノードでの評価値として,そ こまでに得られた得点を用いる.探索の深さ d は,1, 3, 5, 7 (0,1, 2, 3手先読み)

とした.

expectimax 単純なexpectimax法によるプレイヤである.末端ノードでの評価値とし て,そこまでに得られた得点を用いる.探索の深さ d は,1, 3, 5, 7 (0,1, 2, 3手先 読み) とした.

1人ゲーム用に学習したN タプルネットワーク 第5.1.1章で学習させたN タプルネット ワークを用いて,さらに深さ d = 1,3,5 (0, 1, 2 手) までminimax探索を組み合わせ たものである.タプルの個数 m として,2, 4, 8 の3種類を用いた.

対戦用に学習したN タプルネットワーク 第5.2章で学習させたN タプルネットワークを 用いて,さらに深さ d = 1,3,5 (0, 1, 2手) まで minimax探索を組み合わせたもので ある.タプルの個数 mとして,2, 4, 8 の3種類を用いた.

図5.4に深さ7 (3手) の単純minimax探索プレイヤを攻撃側としたときに,各防御側プ レイヤが得た点数を示す.また,攻撃用に学習したタプル数 m= 4 のN タプルネットワー クを評価関数に用いて深さ5 (2手) までminimax探索するプレイヤが攻撃側プレイヤで あった場合に,各防御側プレイヤが得た点数を図5.3に示す.

この実験では,いずれのプレイヤを攻撃側とした場合でも,対戦用に再学習したN タプ ルネットワークを用いるプレイヤが,単純なminimaxプレイヤや1人ゲーム用に学習した プレイヤよりもより大きな得点を得ていることが分かる.また,この場合では,タプル数が 多い (m= 8) ほうが,より大きな得点を得る傾向が見られる.

5.3 評価実験

100 1000 10000 100000

w 1 3 5 7 1 3 5 7 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5

m=2 m=4 m=8 m=2 m=4 m=8

N n

minimax expectimax 1Ç@ŠnÝûÛfçï NMey[QV}Š=

PSÝûÌÛfçï NMey[QV}Š=

¹’“l q±“l 20000

5.4 深さ7 (3)まで探索するminimaxプレイヤを攻撃側としたときの,各防御側 プレイヤが得た平均得点と最大得点.グラフ下の1行目の数はminimax/expectimax 探索の深さを示す.防御側は,得点が大きいほうが良い.

500 5000 50000

w 1 3 5 7 1 3 5 7 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5 1 3 5

m=2 m=4 m=8 m=2 m=4 m=8

N n

minimax expectimax 1Ç@ŠnÝûÛfçï NMey[QV}Š=

PSÝûÌÛfçï NMey[QV}Š=

¹’“l q±“l 20000

5.5 攻撃用に学習したN タプルネットワーク(タプル数m= 4)を用いて深さ5

(2) までminimax探索するプレイヤを攻撃側としたときの,各防御側プレイヤが得

た平均得点と最大得点.グラフ下の 1行目の数はminimax/expectimax探索の深さ を示す.防御側は,得点が大きいほうが良い.

6

関連研究

ゲーム“2048”が公開されて以降,ゲームプレイアルゴリズムを適用したコンピュータプ

レイヤがいくつか提案されている[1, 15, 4, 12, 8]

中でも最先端のアルゴリズムは,expectimaxとTD学習を組み合わせている.

“2048”のコンピュータプレイヤへのTD学習の最初の適用は,SzubertとJa´skowski [12]

によって行われた.手で選んだ 2 個の 4 タプルと 2 個の 6 タプルを用いたプレイヤは 1,000,000 ゲームでTD学習を行い,平均得点 100,178を達成した.2 個の4タプルはWu らによって 2 個の6タプルに拡張され,平均得点は 142,727 に増加した.また Wuらは,

学習アルゴリズムのマルチステージ化を提案し,expectimax探索との組み合わせによって,

平均得点 328,946(マルチステージTD,expectimax探索の深さ = 5)を達成した.

expectimax法は,探索する深さが深い場合に非常に時間がかかる.ゲーム“2048”のコ

ンピュータプレイヤの競技では,しばしば 1–10 ミリ秒[10, 16]で1 回の移動を行うことが 要求される.著者が提案するN = 7,m= 10のプレイヤは大きなメモリ(約 10 GB)を 必要するが,遙かに高速である(1 回の移動に約 12 マイクロ秒).

7

おわりに

本研究は著者のこれまでの研究をまとめたものである[8, 6, 5, 7].

関連したドキュメント