ターン制ストラテジーのための状態評価型深さ限定モンテカルロ法における消極的行動の抑制

全文

(1)The 19th Game Programming Workshop 2014. ターン制ストラテジーのための状態評価型深さ限定モンテカルロ法における消極的行動の抑制藤木翼†1. 村山公志朗†1. 池田心†1. {s1310062,kosiro_murayama,kokolo}@jaist.ac.jp 将棋などと異なり，ターン制ストラテジーでは全ての駒を任意の順序で動かすことができ，合法手数が膨大になることが探索の障害となる．ターン制ストラテジーのための探索手法としては，攻撃に優れた攻撃行動探索や，防御に優れた DLMC などが存在している．本稿ではこれら 2 つの手法を紹介し，これらを組み合わせた新たな手法を提案する．対戦実験では，提案手法が DLMC に対して 77%の勝率と大きく性能が向上したことを示す．. Depth-Limited Monte-Carlo with a State Evaluation Function for Reducing Negative Behavior TSUBASA FUJIKI†1 KOSHIRO MURAYAMA†1 KOKOLO IKEDA†1. In turn-based strategy games, all the pieces can be moved in any order in one turn. In this article, we introduce an application of UCT and the previous method DLMC in turn-based strategy games. Moreover, two methods of improving the negative behavior of DLMC were proposed. As the result, the winning ratio of our program against DLMC increased to 77% in battle experiments.. 案された手法である深さと着手を限定したモンテ. 1. はじめに. カルロ法（Depth-Limited Monte-Carlo : DLMC）[2]. これまで，チェスや将棋などの古典的なゲーム. や，標準的な探索手法である UCT にターン制スト. のコンピュータプレイヤに関する研究は幅広く行. ラテジー用の工夫を加えたもの，攻撃行動探索な. われてきた．しかし，「一回の手番に複数の駒を. どを紹介し，それぞれの手法について改めて記述. 動かせる」タイプのターン制ストラテジーと呼ば. する．その上で，DLMC が消極的な行動を取りや. れるゲームは広く遊ばれているにも関わらず，新. すいという点を改善する 2 つの新しい手法を紹介. しいゲームであることや，探索空間の大きさ，ル. し，性能評価のため過去に提案された AI との対戦. ールの煩雑さなどもあって，学術的研究は少数が. 実験を行う．. 行われているのみである．. 2. 対象ゲーム. ターン制ストラテジーの既存ゲームとしては Battle of Wesnoth，Final Fantasy Tactics，ファミコン. 2.1 TUBSTAP のルール. ウォーズなどが挙げられるが，コンピュータプレ. 既存ターン制ストラテジーの要素は内政要素や. イヤは人間の中級者とハンデなしで戦える強さに. キャラクタの成長要素など数多い．. はほど遠い．ゲーム内ではハンデでその弱さを補. TUBSTAP（図 1）はその中でも重要な要素であ. っているが，対等に戦いたいという要求には応え. る複数着手性に注目し，不完全情報性や占領・生. られていない．. 産などの要素を排除した二人零和有限確定完全情. そこで本稿では，自然さや楽しさといったもの. 報ゲームである．将棋などと比べると複雑ではあ. の前にまず“強い”コンピュータプレイヤ（AI と. るが，既存のターン制ストラテジーに比べると非. 略す）を作成することを目的とする．. 常にシンプルなゲームとなっている．以下に重要. 対象とするゲームは研究用ターン制ストラテジ. なルールを抜粋する．尚，紹介するこれらの要素. ー「TUBSTAP」[1][8]とする．本稿では，過去に提. は既存のターン制ストラテジーであれば殆どが持. †1 北陸先端科学技術大学院大学 Japan Advanced Institute of Science and Technology. っている共通の要素である．. - 32 -.

(2) The 19th Game Programming Workshop 2014. れる行動の数数は 7 億 20000 万通り( 取れ. 10. 6!)にも. 及ぶぶ（同一局面面に遷移するるものも含むむ）．実際にはより駒数や 1 駒あたりの合合法手数が多い場合も珍珍しくくない．. 2.3 3 ゲーム木木の生成方方針ターン制スタトラテジーはは複数着手性性を持つといい図 1. TUB BSTAP のプレイ画面（先先手左手側））. う特特性上，木探探索の実装方方法には大きく分けて 2 通りが存在するる．1 つは図 2 のように個々の駒の行行. R1. R 駒. 動をを枝として 1 ターン内の行動を数段に分けた探探. R)，戦闘機(F)，攻撃機(A)，戦車(T)，対空戦車(R. 索木木を作る方法法，もう 1 つつは図 3 のように 1 ターー. 歩兵(I)，自走歩走砲(U)の 6 種類の駒を用種用いる．これれら. ン内内に行動可能能な全ての駒駒の行動をままとめて 1 つ. の駒間には相の相性が存在すする．相性はは後述する HP. の枝枝として探索索木を作成すする方法である．これら. に与えるダメにメージ量に影影響する．. は根根からの枝のの数こそ異ななるものの，1 ターンを終終. R2. R マップ. えたた後に辿りつつくノードはは同じ数とななり， 2.2 で説明明した特徴かからこれら全全てのノードを調べきる. は常に同じ盤盤面サイズ・・駒の初期配配置将棋等では. ことは難しい．過去に提案案された AI はどちらかの. を用いる．しをしかし，ターーン制ストララテジーではは通. 木のの生成法を選選択しているる．. 常，プレイ毎常毎に異なる設設定の駒配置置や盤面を用用い対戦を行う．対マスには複複数の種類（地地形）がありり，被るダメージ被ジが増減するる． R3. R 着手順各手番ではは，プレイヤヤは全ての自自駒を 1 回ずずつ. 図 2. 自由な順番で自で行動させるることが出来来る．すべてての. 1 駒の行動をを枝としたゲゲーム木. 駒を行動させ駒せると相手のの手番となるる．両者それれぞれの手番をタれターンと呼ぶぶ． R4. R 勝利条件件いずれかののチームの駒駒が全滅したた場合，駒がが盤. 図 3. 面に存在して面ているチームムが勝利とななる．ただしし，. 1 ターーンの行動全全てを枝とししたゲーム木木. 3. 手法概略略. ターン数に上タ上限を設け，その上限以以内に全滅条条件. 本稿では，既本既存手法，提提案手法を合合わせ 6 つの. を満たさないをい場合の判定定条件はチーーム毎の総 HP. AI を紹介し，性能評価を行行う．そのため，それぞぞ. 量の差で決定量定される．. れにについての立立ち位置を予予め述べる．．性能やそれれ. R5. R HP. ぞれれの特徴などどは図 4 に示示す通りとなっている．. 各駒は 1 かから 10 の HP P を持つ．攻攻撃を受けるるこ. これれらの中で 1 駒の行動がが 1 つの枝となるゲーム. とでと HP は減減少し，0 にななるとその駒駒は盤上からら取. 木にによる探索を行うのはは UCT，UC CT+Progressivve. り除かれる．り. Wid dening の 2 つであり，つそその他の AI は 1 ターン内. 2.2 2 TUBST TAP の特徴徴. の全全ての行動ををまとめて 1 つの枝とししている．図にある図 UC CT，UCT+Prrogressive Widening，攻撃 W 撃. 1 ターン内内における複複数着手性により，ターンン制. 行動動探索，DLM MC は既存手手法であり，DLMC+攻撃撃. ストラテジースーではプレイヤがとれれる行動の順順列. 整は今回提案行動動探索，DLM MC+局所調整案する手法で. （合法手）がが非常に多いい．例えば 1 駒あたりのの平. あるる．各手法にについて簡単単に概要を述述べる．. 均合法手が均 110，駒数が 6 とすると，，1 ターン内内に. - 33 -.

(3) The 19th Game Programming Workshop 2014. 4. 既存手法法以下下に本稿で用用いる記号をを示す． s : 盤面の状態態． S : 全ての盤面面の状態sの集集合． a : 1 つの駒の行動 A s : 状態sのの合法手とななる全ての行行動aの集合． s′ s, s. : 状態ssで行動aを行行った次状態態．行ったた場合，行動動可能な駒がが残っているる．. 図 4. 1,. 手手法の関係. P. …. :1 ターン内全全ての駒による行動の順列列．. : 状態sのの合法手とななる行動の順順列pの集合．. s′ s, s. ・UCT ・ 1 駒の行動動を 1 ノードとして探索索を行う標準準的な手法．な 1 ターーン内に駒数数分の探索をを繰り返し行行う．. 2,. : 状態ssで行動の順順列pを行ったた次状態．行った場合，相相手の手番となる．る状態sの評価関数による評価値． : 状態評価. 4.1 1 UCT. ・UCT+Prog ・ gressive Wiidening UCT では 1 ターン全てての行動を満満足に探索ししき. の指指標に UCB1 値（式 1）を用いる．囲碁や将棋な. れないため，れ Progressivee Widening を使用する．を. ど様様々なゲームムでしばしばば用いられる手法であり，. UCT U はモンテカルロ木探索の一種であり，探索索. ターーン制ストララテジーでああっても有望望な手法であ. ・攻撃行動探・探索. る可可能性が高いい．しかし，，ターン制スストラテジーー. 攻撃行動にによる順列ののみ探索するる手法．移動動行. は 1 ターンの候候補手が膨大大であるといいう理由からら，. 動は別のルー動ーチンによっって処理するる．攻撃行動動の. 単純純に UCT による探索をにを行ったとしても，強いい. みを探索するみるため，攻撃撃的な着手が強い．一方でで，. AI を作ることは難しい．一一方で，過去去に UCT の枝枝. 防御的な着手防手は移動ルーーチンに依存存する．. 刈りを行う事でで AI の性能が向上する事が確認されれ. ・DLMC ・陣形を重視視するため，全駒によるる行動を 1 つつの. ている [3] ．そこで枝刈りの代わりとして. ノードとしてノて探索を行うう手法．ただだし，膨大なな探. 尚，尚 1 ターンの行動全ててを 1 つの枝枝とするゲーー. 索空間の中で索で，ランダムムに選んだ一一部のノードドの. ム木木を用いる場場合，UCT としての利点が生かせな. み評価を行うみう．また，各各着手の評価価はシミュレレー. いたため，1 駒のの行動を 1 枝枝として実装装する．. Pro ogressive Wid dening を用いいて探索空間間を狭める．. ションによっシって行う．ここの際，終局局までのシミミュ. UCB1＝ U ̅. レーションをレを行わず，途中で打ち切途切る．打ち切切った局面に対したして状態評価価関数を用いいることで着着手. （式式 1）. ̅ ：あるノーード j の勝率. の評価とするのる．着手の生生成方法が原原因となり，防. :あるノード j のシミュュレーションン回数. 御的な行動を御を取りやすいい性質を持つつ．また，U UCT. :シミュレーーション回数数の合計. と異なり選択と択されたノーードは全駒のの行動を含むむた. 4.1.1 Progressiive Wideninng Progressive P Widening（PW W W と略す）[4]とは，ある局面面の訪問回数数 n に応じて，有望な着手だけを探探索すする手法であある．本稿ででは，攻撃行行動を優先して探探索させる為為 PW を導入入する．具体的には，具式 2[5]に従従って探索すする候補手を増ややしていく．追加する候候補手は，攻攻撃行動を重重複無無くランダムムに選ぶもののとする．攻攻撃行動を全全て追追加した場合合，移動行動動をランダムムに追加するる．. め，1 めターンンにおける探探索は 1 回でよい．・DLMC+攻・攻撃行動探索索攻撃に優れた攻撃行動探索，防御に優れた DLMC D の2つつを用い，そそれぞれの得得意分野を利利用することで総す総合的に優れれた手を選択択する手法．・DLMC+局・局所調整 DLMC の探探索対象に攻攻撃行動が含含まれやすいいように調整するうる手法．. - 34 -.

(4) The 19th Game Programming Workshop 2014. 候補手候候補手候. log. 40 1..4. る． 2. n. 2000 log 45 1.2. 30 000. それぞれのパそパラメータははシミュレーーション数 600 00 とした．計算時間はほほぼ同一となっている．．. 11 n. 30 000 （式 2）. 結果果を表 1 に示示す．尚，勝勝率は引き分分けを勝利のの半分分として算出出している．. n:シミュレーーション数. 表 1 UCT+PW U の UCT に対すする戦績. 4.1.2 シミュレーションのの詳細 TUBSTAP における駒駒の行動は大大きく分けてて単純に移動する純るだけの行動動と攻撃を含含む行動の 2 通りがある．り 1つつの駒が持つつ行動のうちち攻撃する行行動は移動するだはだけの行動にに比べると平平均的には非非常に少ない．そにそのため，完完全にランダダムなシミュュレーションを行ー行うと指定タターン内に勝勝敗が決せずず，引き分けで終引終わることがが多々発生すする．これははチェス等でも指ェ指摘される点点である．ででは攻撃を優優先してシミュレしレーションをを行えば良いいかというとと，今度はシミュ今ュレーションン中で安易ああるいは無謀謀な攻撃が増加す攻するために，探索結果ととしてそれららを期待する待ち期ちの行動が多多くなってししまう．そこで本稿稿では攻撃可可能な駒が存存在する状況況ならば必ず攻撃ら撃を行う方策策と完全にラランダムな行行動を行う方策のをの 2 つを混合合して用いてている（前者がが8 割，後者が割 2 割）．尚，これららのシミュレレーション手手法には様々々な改善が考えら改られるが，探探索手法の比比較という観観点から本論文のかの実験ではすすべての手法法で同じシミミュレーション手レ手続きを用いいている．. 表 1 から UC CT+PW の勝率が十分に伸びていることがが確認できるる．UCT+PW W の式 1，2 は調整していいないいため，性能能を向上でききる余地は大大きく残されれていいる．. 4.2 2 攻撃行動動探索村山らは攻撃村撃する行動にに注目した手手法を提案した[[1]．以下に詳詳細を示す．．【攻攻撃行動探索索】 I.. 状態sにおおける長さℓ以以下の攻撃行行動のみで構構成される順順列を全て列列挙する．攻攻撃行動が存存在しない場場合と長さ ℓ以降の行動動は特定のルルーチンに従従った行動をを順列に追加加し 1 ターン分の順列ととする． P s. ,. , …,. ⊂P s. II. P s に含まれる順列から遷移する次状態 s′ s,. 状態評価関数数により評評価し，最も評評を状. 価の高い順順列を選択択する． ∗. 4.1.3 予備実験：PW の効果 PW の効果果を確認するために予備備実験を行った．実験条件は以実以下の通りでである．. argmaxx ∈. s s,. 攻撃行動にのみで構成さ I において長長さℓ以下の攻れるる順列しか探探索を行わなないのは計算算量爆発を防防. ・マップは図・図 1 と同じもものを用いるる. ぐ為為である．たたとえ攻撃行行動のみに限限定したとし. ・先手後手・ 5500 戦，計 1000 1 戦. てもも全駒が偶然然攻撃行動ををとれる場合合，計算量の. ・AI ・は UCT，UCT+PW の 2 種. 爆発発が起こりええる．そこでで事前に探索索する順列の長ささを制限してておくことでで，計算量の爆発を防いい. また，本稿稿で用いる UCT U は 1 ターーン内に行ええる. でいいる．. シミュレーシシション数を固固定とし，1 回の行動に使回使用. この手法は図こ図 5 のような駒の行動順が重要とな. するシミュレすレーション数数は駒数で割割った数を用用いる．例えば，る操作可能な駒が 6 駒存在し，1 ターーン. る局局面で上手く動作する．．ここで大文文字小文字は. 内に行えるシ内シミュレーシション数が 6000 回であるると. チーームを表してており，数字字は残り HP P，×印は移動動. すると，1 すターン内に 6 回の行動が行われる為，1. でききないマスをを表す．駒 U（自走砲）は移動しな. 回の行動に費回費やすシミュュレーションンは 1000 回ととな. けれれば距離 2-3 3 までの位置置に攻撃するることができき，. - 35 -.

(5) The 19th Game Programming Workshop 2014. 駒 P（戦車）はは移動後も攻攻撃が可能だだが隣接するる駒. DLMC】【D. にしか攻撃でにできない．そそのため，P P を先に動かかし. I.. 順列をランダムにm m個サンプルルする．. てしまうとて u を攻撃でききずターンがが終了してししま. P s. う．最善となうなるのは U で先にで p を攻攻撃し P で u を. II.. 攻撃する場合攻合である．攻攻撃行動探索索は攻撃行動動の. ,. ,…,. ⊂P s. P′ s に含含まれるによる次局面ss s,. をdタ. ーン先ままでシミュレレーションしし，状態評価関. み 2 手目以降降を読み切るるためこういいった局面ででも. 数. 上手く探索が上が行える．たただし，上手手く動作するるの. により評価をにを行う．これれをn回繰り返返. し，評価価値の合計をを測定する．. は攻撃が行えはえる場合のみみである．. h . i 回目ののシミュレーーション.. : →. d ターンン進める. III. 図 5. 攻攻撃行動探索索がうまく働く局面の例. ∑. P′ s の中中で評価最大大の行動 ∗を選択する．を . （先手：：大文字）図 6 のような状況は攻攻撃行動探索索で上手く探探索. ,. ∗. argm max ∈. DLMC D ではシミュレーションによる局面の評価価. できない例ででである．U は隣接するは p に対して攻攻撃. を 1 ターン内の全ての駒の行動が終了した局面に. できず，で u に対対しては攻撃撃できるが戦戦果が低く反反撃. 限定定している．これにより，全駒の動動作が決まっ. を受けてしまをまう．また，U の位置取取りが邪魔ななた. た状状態を評価すするため，駒駒間の相互位位置を評価し. め P も p に対対して攻撃でできない．ここのような状状況. やすすい．しかし，全駒を動動作させた場場合，遷移すす. であれば，先で先に U を退かかした上で，P で p を攻攻撃. る局局面は膨大なな数となる．．そこで，探探索空間を減減. するのが最善す善となる．. らすすため，ランンダムな前向向き枝刈りをを用いているる．これれにより高速速な動作が可可能となってていが，良いい手のの見落としののリスクが大大きく存在すする．ランダムな着ラ着手を用いるる DLMC は移移動するだけ. 図 6. の行行動を取りややすく，防御御的な行動をを取りやすいい．. 探索が失敗する局面例攻撃行動探. これれは攻撃するる行動より移移動する行動動の方が多いい. （先手：：大文字）. ためめである．ここのような特特性から図 1 のような初初. 初期局面でもも上手く動作作しまた，図 1 のような初. 期局局面においてて上手く動作作するが，図図 5 のような. ない，このよなような初期局局面は移動ルルーチンしかか動. 局面面には弱い．また，図 6 のような状況であれば，，. 作しない為で作である．図 1 のような局局面を得意ととす. DL LMC は一旦引く手を取りやすく，その後の相手手. るのは次に紹る紹介する DLM MC となる．. の行行動次第で打打開できる状状況に持ち込込みやすい．. 4.3 4 DLMC Depth-Limiited Monte-C Carlo[2]は図 7 に示す通り 2 つの特徴があつある．1 つは膨膨大なノード（合法手ととなる順列）の中る中で極一部ししか探索を行行わない事．もう 1 つはモンンテカルロ手手法をベースとしているが，シミュレーシシションは途中中で打ち切るることであるる．シミュレーションの打ち切りはボードゲーム Amazon A におおいて優れたた結果を示ししている手法法である[6][7]．尚あ尚，UCT+PW W に打ち切りりを加える事事も行ったが，単行単純な実装ででは性能が落落ちてしまうう為. 図 7. 本稿では扱わ本わない．. - 36 -. DLMC C の概要図.

(6) The 19th Game Programming Workshop 2014. III. P′ s に含ままれるによよる次局面s s,. 4.3.1 状態評価関数打ち切ったた後に使用すする状態評価価関数 g(s)はは重要な要素では要はあるが，1 回のシミュレ回レーション毎毎に使用するため使め， DLMC ではシンプルでルな状態評価価関数を用いてい数いる．. B. s. M 2, 1,. E. ン先までシシミュレーシションし，状状態評価関数数によりり評価を行うう．これをn n回繰り返しし，評価値の合合計を測定すする． h . i 回目ののシミュレーーション.. : →. B. d ターンン進める.. 0 orr E. if M else. ーを d ター. 0. ∑. . ,. で評価最大のの行動 ∗ を選選択する． IV.. P′ s の中で. M:自チームの M の駒の HP の総和（駒の I は 0.2 倍）. . E:敵チームの E の駒の HP の総和（駒 I は 0.2 倍）. ∗. argm max ∈. B:ボーナス係 B 係数. ここで B はは勝敗が決しした際に，対対戦中の場合合と. この手法は特こ特定の局面ににおける良いい手の見逃し. 区別し，評価区価値を倍にすするための係係数である．勝. を防防ぐ事を目的的としているる．図 8 にあるように攻攻. 利であれば自利自チームの方方が敵チームムよりも HP P の. 撃行行動探索にととって最も評評価の高い 1 つの順列を. 総和が大きい総いためより良良い評価とななり，敗北でであ. DL LMC の着手にに加える事でで動作していいる．. れば敵チームれムの方が自チチームよりもも HP の総和和が. 攻撃行動探索攻索による最善善手と DLM MC のランダム. 大きいためよ大より悪い評価価となる．. な合合法手がそれれぞれ別個ににシミュレーーションによ. また，駒 I の HP を 0.2 倍して使用し倍しているのはは，. ってて評価されるる為，図 1 やや図 5 のような状態どち. I の攻撃力が非常に弱く，活躍があままり期待でききな. らのの状況にも対対応することとが出来る．. いためであるいる．他の駒にに重みはかけけられていなない．. 5. 5 提案手法法攻撃行動探探索は攻撃的的な手を取るることに優れれている一方で，い防御的な手手を取れないい．特に図 1 のような状況でよで陣形を取るることが出来来ない．DL LMC であればこのでのような状況況であってもも陣形を取るることが可能であとある．しかしし，図 5 のよような詰め行行動. 図 8 DLMC+攻撃 D 撃行動探索の概要図. は非常に弱くはくなる．これら 2 つつはお互いにに明確な欠点点を持っておおり，. 5.2 2 局所調整整. 補える立場に補にある．そここで， DLMC C に攻撃行動動探. 局所調整では局は DLMC でサンプルした解のうち有有. 索を組み合わ索わせることでで性能の向上上を図る．. 望ななものを更にに選別し，そそのうえで最最後の数駒のの. 5.1 5 攻撃行動動探索と DLMC の併用の. 行動動に攻撃行動動探索を用いいて変更するる．【提提案手法 2:D DLMC の局局所調整】. 単純な手法法ではあるがが DLMC の着着手に攻撃行行動. I.. 探索の最善手探手を組み込むむ事で性能のの改善を図るる．. 順列をラランダムにm m個サンプルする． P s. 【提案手法 11: DLMC+攻攻撃行動探索索】 I... P s III.. II.. 順列ををランダムにに m 個サンプルする． ,. ,…,. 数. をdタ. により評価をにを行う．これれをn回繰り返返. し，評価価値の合計をを測定する． h . に加ええる． ,…,. ⊂P s. ーン先ままでシミュレレーションしし，状態評価関. ⊂P s. の高いい順列 ′を求めめる．さらにに行動 ′をP P s ,. ,…,. 含まれるによる次局面ss s, P′ s に含. 状態sをを攻撃行動探探索し，そのの中で最も評評価. P s. ,. : →. i 回目ののシミュレーーション. d ターンン進める.. , ′ ⊂P s. . - 37 -. ∑. ,.

(7) The 19th Game Programming Workshop 2014. IIII. P′ s で評評価の高い上上位 j 個の順順列を抜き出出す． P s. ,. ,…,. ⊂ P s. 6. 対戦実験験本稿で紹介し本した UCT+PW PW，DLMC，DLMC+攻撃撃. 含まれる順列列の行動をを末尾から k 個 s に含. 行動動探索，提案案手法 1，提提案手法 2，提案手法 1+ +2. 削除し，攻撃行動探探索をよる k 個の行動かから. のそそれぞれを用用いて対戦実実験を行う．．実験条件は. 成る順列列 ′をに加ええる．ここでで 1 ターンにに行. 4.1.3 と同様とし，計算時時間を揃える為，パラメーー. 動可能なな駒数は u とする．と. タはは表 2 の通通りとした． 1 ターンのの実行時間は. IV V. P. , ′. , s. ′′ , ′′ , … , ′′. VI. V P′ s , P. 程度度としているる．尚，表にには存在しなないが DLM MC. ′の生成. と提提案手法におおいて使うシシミュレーションの深さ. , ′ , ′ ,…, ′. ,…,. V. V II と同様様にP. Corre i5 3.3GHzz，メモリ 8G GB の PC を用いて約 3 秒. 行動の削除. ′ , ′ ,…, ′. ′′ P. ,…,. d は 2，提案手法 1 において攻撃行動探索が調べる. ⊂P s. 順列列の長さℓはは 4，提案手手法 2 の抜きき出す順列数数 j. s を評価する．. は 10，書き換える行動数 k は 4 とした．また，提提. 最も評価の高高い順列を選選 s の中で最. 案手手法 1+2 は提提案手法 2 のⅠ～Ⅲを実行した後に. 択する． ∗ ∈. argmax ∪. 提案案手法 1 のⅡ Ⅱ～Ⅳを動作作させる形でで成り立たせせ，. サンンプル数とシシミュレーシション数以外外のパラメーータははそれぞれとと同じものをを使う．. 提案手法 2 は DLMC の中で評価ののの高い合法手手を. 対戦結果を表対表 3 に示す．数値はそれぞれ，勝利利. 攻撃行動探索攻索に調整させせることで動動作しているる．. 数－－引き分け数数－敗北数となっており，括弧内は. 図 9 に示すよように攻撃的的な調整がされた合法手手が j. 勝率率を表す．. 個増えること個とになる．提案手法提 2 において順列列に. 結果より，提結提案手法がそそれぞれ DL LMC と UC CT. おける末尾行お行動を変更すするのは，動動作可能な駒駒数. に大大きく勝ち越越している事事がわかる．また DLM MC. が減った状況が況であれば提提案手法 1 に比べれば探に探索. ける引き分け数が減ってに比比べると自己己対戦におけ. すべき局面がすが減り，同じじ長さの順列列分探索したたとしても計算コしコストが少ななくなるためめである．また，経験則となる経るが 1 ターンンの全行動のの内，末尾ににお. おり，防御的なな行動を取りやすかったた問題点を解解決でできている．UCT+PW のの方が DLM MC に比べて提提案手法に対する勝率が良いのは，提案手法が. いて攻撃をかいかける事が良良い合法手ととなる場合がが多. DL LMC に比べて改善している点が攻撃的な部分で. いように思えいえる．例えばば図 6 のよううな状況で最最善. あるる為，元々攻攻撃的な部分分が強い UCT+PW に対すす. となる合法手と手は攻撃行動動を全行動のの内の末尾ににお. る勝勝率は DLM MC からあまり伸びなかったものと考考. いて行う事でいで得られる．. えられる．表 2 AI のパララメータ. 図 9. DLMC+局局所調整の概概要図表 3 対戦結果 win – draw - loss (winratte). - 38 -.

(8) The 19th Game Programming Workshop 2014. 7. 人間プレイヤとの対戦. 参考文献 [1]. TABSTAP の元となったファミコンウォーズ DS2. 村山，藤木，池田，“学術研究用プラットフォームとしての大戦略系ゲームのルール提. を 50 時間以上プレイしたプレイヤ 2 人が手法 1+2. 案”，IPSJ-GPW 2013-11-01，pp.146-153. を用いた AI と対戦した結果，AI の 4 勝 3 分 3 敗. [2]. という結果となった．対戦回数は少ないものの，. 藤木，村山，池田，ターン制ストラテジーのための状態評価型深さ限定モンテカルロ法，. AI 側が勝ち越している．現状，対戦に用いるマッ. 第 8 回 E&C シンポジウム,2014-3-19. プサイズは小さな物に限定している．小さなマッ [3]. プという前提条件さえあれば AI であっても人間と. 加藤，三輪，鶴岡，“ターン制ストラテジーゲームにおける戦術決定のための UCT 探索. まともな対戦が出来るという結果となった．. とその効率化”，IPSJ-GPW 2013-11-01，. また，人間プレイヤの感想を聞くと「一度防御. pp.138-145. に周ると的確に攻めてくる」「面倒な人間プレイヤ [4]. に近い」といった感想が多く聞けた．人間プレイ. Remi Coulom，“Computing Elo Ratings of Move Patterns in the Game of Go” ， ICGA. ヤが楽しむ相手としてはあまり良くない AI かもし. Journal Vol.30 pp.198-208，2007. れないが，AI の強さという面では十分な性能が出 [5]. せている．. 美添，山下， “コンピュータ囲碁モンテカルロ法の理論と実践” ，共立出版，（2011）. [6]. 8. まとめと今後の展望. Kloetzer, J., Iida, H., Bouzy, B., “The Monte-Carlo Approach in Amazons”. 本稿では，ターン制ストラテジーにおけるゲー. Computer Games Workshop,2007. ム木の生成方針から，DLMC の詳細，UCT のター. [7]. Kloetzer, J.,“Monte-Carlo. ン制ストラテジーへの適用方法，などを紹介した. Techniques:Applications to the Game of. 上で新たに 2 つの手法を提案した．. the Amazons”, Japan Advanced Institute. 提案した 2 つの手法と過去に提案されている手. of Science and Technology, 2010, 博情第. 法で対戦実験を行う事で提案手法の有用性を示し，. 240 号 Includes bibliographical references. UCT+PW の AI に対し最大で 66.65%の勝率を示し. pp. 87-92. た．また，UCT+PW に勝ち越す DLMC に対しては. [8]. 77.05%の勝率となることを報告した．. ターン制戦略ゲーム学術用基盤プロジェクト TUBSTAP，. また，現在の対戦実験で用いているマップは非. http://www.jaist.ac.jp/is/labs/ikeda-lab/tbs. 常に小さいものであり，実際のターン制ストラテジーでは駒数やマップサイズはより大きなものとなる．生産などのルールを含めると現在の AI の方針では対応しきれない．そこで盤面の一部を抽出して現在の AI に与えるために局面の分割をする機構や，分割されたそれぞれの局面に整合性を持たせた上で動作させる為の統合 AI などが必要である．. - 39 -.

(9)