概要 - ベンチマークマップの提案 - JAIST Repository https://dspace.jaist.ac.jp/

第 4 章ベンチマークマップの提案

4.1 概要

4.1.1 さまざまなゲーム研究におけるベンチマーク問題群

将棋や囲碁では本来のゲームの部分問題として練習用に詰将棋や詰碁問題群が存在し，初心者の練習用や棋力判定，将棋や囲碁のコンピュータアルゴリズムの性能評価などに用いられてきた．また最適化問題や数理計画法の世界でもベンチマーク問題はしばしば用いられ，アルゴリズムの特定の能力・総合的な能力を誰もが評価できるよう整備されてきた．たとえば巡回セールスマン問題のベンチマーク問題集 [55]は有名である．将棋のソフト開発では次の一手問題 [56] などが使用されたことがあり，

囲碁でもベンチマーク問題 [57]が用意されてアルゴリズムの性能を評価することが行われた．

このようなことからTUBSTAPについて，アルゴリズムに必要なさまざまな能力ごとに，難易度の低いものから高いものまでを含むベンチマーク問題群を提案し，既存プログラムでそれらが解けるのかを確認する．

4.1.2 ^背景

TUBSTAPではターン制戦略ゲームの基本的なプレイができるようになっている

が，2016年の時点において用意されている対戦用のマップの数は10程度で，十分とはいえなかった．対戦用マップをアルゴリズムの性能評価に使用する場合，マップごとに駒の価値や取るべき戦略も異なってくることに注意する必要がある．それゆえ，

各アルゴリズムにはマップごとに得手不得手があることが頻繁に生じ，性能評価を公平に行うためにはできるだけ多様かつ多数のマップが準備されていることが望ましいと言える．

加えて，いままで使用されてきたマップは概して全探索が困難なほどに大規模であり，アルゴリズムに必要とされる能力が複合的であった．これらのマップは人間が遊んだり，プレイヤの総合的な能力を測るのには問題ないが，「どんな能力が原因で勝率差が出ているのか」「最善手は打てているのか」「最善結果は出せているのか」などを分析することは困難であった．

TUBSTAPで動作する，コンピュータアルゴリズムには，「広い探索空間を適切に

削減する」「相手の壁役を排除しながら正しい順番で攻撃する」「重要ユニットを同定し，それを壁役で守りながら進軍する」「相手の逃げ道を塞ぐように回り込む，逆に回り込まれないように逃げる」などなど様々な能力が要求される．これらの総合能力を測るだけであれば，人間がプレイしても面白いような大規模で対等に近いようなマップを複数用意すればよいかもしれない．しかし，アルゴリズムの開発あるいは評価のためには，各要素それぞれを評価できるようなマップが整備されていることが望ましい．

つまりベンチマーク問題として必要なマップの条件として，簡単で評価がしやすいこと，難易度がレベル的に設定されていること，問題定義がはっきりしているという事が挙げられる．

4.1.3 ベンチマークマップの意義

通常のゲームAI開発においてゲームAIの性能評価には対戦評価が行われることが多い．対戦による評価では対戦相手との相対的な強さの評価を測定していることになる．対戦相手が弱い場合は測定AIは強く測定され，対戦相手が強い場合は弱く測定される．対戦による評価では相手との相対的な強さのみの測定になる．用意する対戦相手との強さの差が極端な場合，対戦結果は一方の勝利ばかりとなり，対戦結果から情報を多く取り出すことができず対戦相手より強いか弱いか程度の情報しか得る事ができず，どの程度の差があるのかについてはよくわからない．

これに比較して，ベンチマーク問題は特定状況での課題をこなすことができるかどうかをみているので，ベンチマーク問題は絶対評価であると言える．絶対評価ができるようになることで，作成したAIがどの程度の性能向上したのかをより正確にそして簡単に測定することができるようになる．

これらことや前節で述べた理由などから，本論文では小規模で解析が容易で，必要とされる能力が限定的で，対戦による相対評価ではなく絶対評価が行えるベンチマークマップを，多様にかつ多数用意する．また，既存の比較的強いコンピュータプレイヤに実際に問題を解かせることで，現時点でのアルゴリズムの課題を見つけることを目指す．

本章で紹介するベンチマークマップのファイルはTUBSTAPのホームページ [42]

にて公開されている．

4.1.4 ベンチマークマップの設定等

各マップは，全て評価したい側を先攻（RED軍）とし，主に8×8のサイズを用いた．TUBSTAPのマップ設定ファイルには「最大ターン数」と「HPしきい値」の設定があり，マップごとに異なった設定となっている．TUBSTAPでは勝敗の決定条件は，相手を全滅させるかまたは，最大ターン数に達した時に，REDとBLUEのそれぞれでHPの総和を求め，その差がHPしきい値をこえて大きい方が勝利となる．

総HPの差がHPしきい値より小さい場合は引分けと判定される．本章では，HPしきい値の設定をマップで用いるHPの総和より大きな値を設定して，最大ターンに達した場合は必ず引分けになるようにした．この設定は，もしHPしきい値の設定が小さな値の場合は，マップによっては最大ターンまで生きのびたにもかかわらず，HP の少ない設定側が自動的に負けの判定となってしまうのを防止するためである．マップによっては引分けが最善の結果である．

評価に用いたプログラムは，2016年3月のUEC-GAT大会[58]で上位３位までに入賞したMilitary, M-UCT [59], M3Lee [60] の三つである．これらのプログラムはソースコードも含め現在 TUBSTAPのパッケージに標準搭載されており，誰でも参考にすることができる．

ただし，これらのプログラムはもともといわゆる対戦用マップ向けに開発されたものであるため，今回のベンチマークマップに最適化されておらず性能的には高くならないとしても不思議はない．逆にベンチマークマップを解けるように最適化した設定にした場合，通常の対戦で性能を発揮できるかどうかは別の問題である．

敵側（BLUE軍側）をどのように動かすかは，最適な敵としての行動が自明ではないため難しい問題であるが，評価用のプログラムのうち最強と思える行動をするものを適時選定した．

さらに，いくつかの問題は「ターン最大まで逃げ切れれば正解」「最大ターンまでに倒しきらないと不正解」といったやや通常とは趣の異なる条件を持つため，これに対応していないプログラムも存在する．具体的には，Military はモンテカルロシミュレーションの結果評価として合計HPが相手より1でも大きければ勝ちと判定しており，これは「最大ターンまでに倒しきらないと不正解」の問題には不適切な対応である．従って，Military については，モンテカルロシミュレーションの結果評価を合計HPが相手よりマップで指定された閾値以上大きければ勝ちに変更して用いた．

各評価プログラムごと10試行を行い，最善の結果を導いた回数を成功としてカウントした．

本章では，マップの命名規則としては，「chase A1」のように，「目的＋＋テーマ番号（ A,B,C ）＋レベル（1,2,3 ）」を用いる．

表 4.1: 追跡・逃走能力検証用マップにおける搭載AIの成績

マップ名目標最大ターン Military M-UCT M3Lee

run A1 赤逃げ切り（引分け） 39 0 0 6

run A2 赤逃げ切り（引分け） 39 0 0 2

run A3 赤逃げ切り（引分け） 19 0 2 0

chase A1 青全滅（勝ち） 19 0 10 9

chase A2 青全滅（勝ち） 19 0 7 10

chase A3 青全滅（勝ち） 19 0 2 0

run B1 赤逃げ切り（引分け） 10 10 1 0

run B3 赤逃げ切り（引分け） 30 0 0 0

chase B1 青全滅（勝ち） 19 4 8 7

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 39-42)

概要

第 4 章 ベンチマークマップの提案