引き分けを回避する自己対戦 - Minimum-Geister における実験 25

第 4 章 Minimum-Geister における実験 25

5.5 引き分けを回避する自己対戦

引き分けが多くなると互いが引き分けになるような手を指し続けるようになり，対局が人間プレイヤが行うガイスターのゲーム内容から乖離するを避けるため，引き分け数が増え過ぎなくなる工夫を導入する．

NEW，OPTION，EXTRAのそれぞれにおいて，100,000回の自己対戦を行い，500回ごとに先手勝ち，後手勝ち，引き分けの回数とニューラルネットワークの重みを出力させる．もし，500回の自己対戦における引き分けになった対局の回数が260を超えていた場合，ニューラルネットワークの重みを500戦を行う前に戻し，500戦の学習をなかったことにし，自己対戦を継続させる．また，この500戦は自己対戦回数としてカウントしない．つまり，500戦中引き分けが260戦以下になる自己対戦を200回行わなくてはならない．学習をなかったことにするため閾値は，500戦中の引き分け数が全体の三分の二よりも大きい数を取ると長い間引き分けが多くなることが頻繁に起こったため，それ以前の段階で引き分けが多くなることを食い止めるために260という値とした．

NEWの各入力を持つプレイヤの自己対戦における引き分けの数は図5.12となる．

0 50 100 150 200 250 300 350 400 450 500

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

the number of times

the number of games

NO-ESTIMATE draw OP-ESTIMATE draw BOTH-ESTIMATE draw

図 5.12: NEWの各AIにおける500戦ごとの引き分け数

NEWの全てのプレイヤは学習の途中において，引き分けの数が増え，常に引き分けの数が260を超えるようになった．その後，数十回も500戦中の引き分け数が260を超えたため学習を中止した．

OPTIONの各入力を持つプレイヤの自己対戦における引き分けの数は図5.13となる．

0 50 100 150 200 250 300 350 400 450 500

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

the number of times

the number of games

NO-ESTIMATE draw OP-ESTIMATE draw BOTH-ESTIMATE draw

図 5.13: OPTIONの各AIにおける500戦ごとの引き分け数

EXTRAの各入力を持つプレイヤの自己対戦における引き分けの数は図5.14となった．

0 50 100 150 200 250 300 350 400 450 500

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

the number of times

the number of games

NO-ESTIMATE draw OP-ESTIMATE draw BOTH-ESTIMATE draw

図 5.14: EXTRAの各AIにおける500戦ごとの引き分け数

表 5.29: EXTRA-NO-ESTにおける学習対戦数と直前の500戦の結果学習対戦数先手勝ち数後手勝ち数引き分け数

22500 249 251 0

31500 162 178 160

44000 235 258 7

69500 264 229 7

100000 258 234 8

表 5.30: 自己対戦回数でのEXTRA-NO-ESTを入力とする行動価値関数を持つAIプレイヤとランダムプレイヤとの3000戦における結果

EXTRA-NO-EST先手ランダム先手

先手勝ち先手負け引き分け先手勝ち先手負け引き分け

15500 724 663 113 650 720 130

22500 879 619 2 619 877 4

31500 306 344 850 364 269 867

44000 283 367 850 361 283 856

69500 672 695 133 694 658 148

100000 424 802 274 789 424 287

表 5.31: EXTRA-BOTH-ESTにおける学習対戦数と直前の500戦の結果学習対戦数先手勝ち数後手勝ち数引き分け数

9000 234 238 28

15500 182 186 132

33000 212 284 4

100000 246 254 0

表 5.32: 自己対戦回数でのEXTRA-BOTH-ESTを入力とする行動価値関数を持つAIプレイヤとランダムプレイヤとの3000戦における結果

EXTRA-BOTH-EST先手ランダム先手

先手勝ち先手負け引き分け先手勝ち先手負け引き分け

9000 1278 27 195 24 1260 216

15500 150 129 1221 153 123 1224

33000 685 682 133 696 671 133

100000 640 783 77 765 646 89

NEWと同様にEXTRA-NO-ESTとEXTRA-BOTH-EST以外において，学習の途中で引き分け数が260以上になる続けることを避けられなかったため，学習を打ち切った．これは，攻撃的な手を学習した後，それに対応するための守備的な手を急激に学習している時に学習結果をなかったことにするため，AIプレイヤが守備的な手を指すような流れを止めること，及び，そこから攻撃的な手を学習することが非常に難しいからだと考えられる．

学習したAIプレイヤのランダムとの対局結果から，引き分けが少ない状態で学習を続けたからといって，よりAIが強くなっていくとは限らないことがわかる．

次節では，全く引き分けから学習しない場合においてAIがどのようになるかを実験により調べる．

ドキュメント内修士論文の和文要旨研究科・専攻 (ページ 66-70)