第 4 章 Minimum-Geister における実験 25
5.5 引き分けを回避する自己対戦
引き分けが多くなると互いが引き分けになるような手を指し続けるようになり,対局が 人間プレイヤが行うガイスターのゲーム内容から乖離するを避けるため,引き分け数が増 え過ぎなくなる工夫を導入する.
NEW,OPTION,EXTRAのそれぞれにおいて,100,000回の自己対戦を行い,500回 ごとに先手勝ち,後手勝ち,引き分けの回数とニューラルネットワークの重みを出力させ る.もし,500回の自己対戦における引き分けになった対局の回数が260を超えていた場 合,ニューラルネットワークの重みを500戦を行う前に戻し,500戦の学習をなかったこ とにし,自己対戦を継続させる.また,この500戦は自己対戦回数としてカウントしな い.つまり,500戦中引き分けが260戦以下になる自己対戦を200回行わなくてはならな い.学習をなかったことにするため閾値は,500戦中の引き分け数が全体の三分の二より も大きい数を取ると長い間引き分けが多くなることが頻繁に起こったため,それ以前の段 階で引き分けが多くなることを食い止めるために260という値とした.
NEWの各入力を持つプレイヤの自己対戦における引き分けの数は図5.12となる.
0 50 100 150 200 250 300 350 400 450 500
0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000
the number of times
the number of games
NO-ESTIMATE draw OP-ESTIMATE draw BOTH-ESTIMATE draw
図 5.12: NEWの各AIにおける500戦ごとの引き分け数
NEWの全てのプレイヤは学習の途中において,引き分けの数が増え,常に引き分けの 数が260を超えるようになった.その後,数十回も500戦中の引き分け数が260を超えた ため学習を中止した.
OPTIONの各入力を持つプレイヤの自己対戦における引き分けの数は図5.13となる.
0 50 100 150 200 250 300 350 400 450 500
0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000
the number of times
the number of games
NO-ESTIMATE draw OP-ESTIMATE draw BOTH-ESTIMATE draw
図 5.13: OPTIONの各AIにおける500戦ごとの引き分け数
EXTRAの各入力を持つプレイヤの自己対戦における引き分けの数は図5.14となった.
0 50 100 150 200 250 300 350 400 450 500
0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000
the number of times
the number of games
NO-ESTIMATE draw OP-ESTIMATE draw BOTH-ESTIMATE draw
図 5.14: EXTRAの各AIにおける500戦ごとの引き分け数
表 5.29: EXTRA-NO-ESTにおける学習対戦数と直前の500戦の結果 学習対戦数 先手勝ち数 後手勝ち数 引き分け数
22500 249 251 0
31500 162 178 160
44000 235 258 7
69500 264 229 7
100000 258 234 8
表 5.30: 自己対戦回数でのEXTRA-NO-ESTを入力とする行動価値関数を持つAIプレイ ヤとランダムプレイヤとの3000戦における結果
EXTRA-NO-EST先手 ランダム先手
先手勝ち 先手負け 引き分け 先手勝ち 先手負け 引き分け
15500 724 663 113 650 720 130
22500 879 619 2 619 877 4
31500 306 344 850 364 269 867
44000 283 367 850 361 283 856
69500 672 695 133 694 658 148
100000 424 802 274 789 424 287
表 5.31: EXTRA-BOTH-ESTにおける学習対戦数と直前の500戦の結果 学習対戦数 先手勝ち数 後手勝ち数 引き分け数
9000 234 238 28
15500 182 186 132
33000 212 284 4
100000 246 254 0
表 5.32: 自己対戦回数でのEXTRA-BOTH-ESTを入力とする行動価値関数を持つAIプ レイヤとランダムプレイヤとの3000戦における結果
EXTRA-BOTH-EST先手 ランダム先手
先手勝ち 先手負け 引き分け 先手勝ち 先手負け 引き分け
9000 1278 27 195 24 1260 216
15500 150 129 1221 153 123 1224
33000 685 682 133 696 671 133
100000 640 783 77 765 646 89
NEWと同様にEXTRA-NO-ESTとEXTRA-BOTH-EST以外において,学習の途中で 引き分け数が260以上になる続けることを避けられなかったため,学習を打ち切った.こ れは,攻撃的な手を学習した後,それに対応するための守備的な手を急激に学習している 時に学習結果をなかったことにするため,AIプレイヤが守備的な手を指すような流れを 止めること,及び,そこから攻撃的な手を学習することが非常に難しいからだと考えら れる.
学習したAIプレイヤのランダムとの対局結果から,引き分けが少ない状態で学習を続 けたからといって,よりAIが強くなっていくとは限らないことがわかる.
次節では,全く引き分けから学習しない場合においてAIがどのようになるかを実験に より調べる.