予備実験

第 5 章格闘ゲーム 43

5.4 予備実験

ゲームの各時間にある内部コントローラーの行動ルーティンを対応づけることによりもたらされる．

また内部コントローラーを別の設計者のプレイヤから流用できる場合には，本研究ではゲームシステムや各プレイヤへの特別な知識抜きにそれらのプレイヤより強いかもしれないAI を本手法により実装できる．

欠点

我々の手法は全ての内部コントローラーのもつIf-then ルールに含まれない行動をとれない．つまりオンラインの対応の細やかさに欠ける．また一定時間ごとにキャラクターをコントロールする内部コントローラーを切り替えることにより，行動の文脈を破壊する恐れがある．各内部コントローラーの設計者の想定を外れた状況に陥ることによって非常に悪い動きをある状況で行う恐れがある．

また内部コントローラーの１つのみを使う場合に比べて，本手法は探索（exploration）

によって原理的に性能を悪くする場合がある．現在の対戦相手に対してその内部コントローラーが全ての内部コントローラーの中で勝負を通じて一貫して最も有利な場合，探索により他の内部コントローラーが使用されることで性能が劣化しうる．

こうした欠点の多くは，内部コントローラーとしてルールベースド型プレイヤを用いることが原因となるが，しかしオンライン学習型プレイヤを内部コントローラーとする場合

には5.3.3節に示したような問題が生じる恐れがある．

5.4.2 使用プレイヤ

本研究ではこのゲームにおける３つのルールベース型プレイヤとオンライン学習型プレイヤと提案手法プレイヤを用意した．

ルールベースド型プレイヤ

本研究ではルールベースド型プレイヤ，π_win, π_lose and π_drawを用意した．π_win は直前の勝負がdraw でなければ，直前の相手の行動に対して有利な行動を85%の確率で選択し，それ以外の場合にランダムに行動を選ぶ．同様に直前の勝負がdrawで無いとき，π_lose は直前の相手の行動に対して不利な行動を，π_draw はその直前の相手の行動と同じ行動を 85%の確率で選択する．

これらのAI には３すくみ関係がある．π_win はπ_lose に強く，π_draw に弱い．そしてπ_lose はπ_draw に強い．例えばπ_winとπ_loseの対戦を考える．π_winがact-rを，π_loseがact-s を選択した場合，次の対戦でπ_winはact-rを，π_loseはact-s を高い確率で選び，π_winは勝ちを継続しやすい．その結果として，異なるルールベースド型プレイヤ同士の対戦は片方が長期的に約70%の割合のゲームを勝つことが実験的に解っている．

Online learning プレイヤ

本研究の用意したOnline learning AI は現在の対戦の行動履歴を参照する．このAI は対戦相手の着手の系列と自分の着手の系列を以下のように保存する．

My actions[] ={m 1, m 2, m 3,. . .} Enemy actions[] = {e 1, e 2, e 3, . . .}

ただしm x および e x はx 回目の対戦における自分の着手と対戦相手の着手である．

ここから次のt (t ≥3)回目の対戦における相手の着手を以下の図5.6のように推測する．

ただしこのアルゴリズムの中で各行動は0，1，または2により数値化されて扱われているものとする．

そして推測した敵の着手に対して有利な着手をこのプレイヤは行う．このオンライン学習型プレイヤのオポネントモデリングは上述のルールベースド型プレイヤのルールの前提条件部と出力の関係を十分に捉えられる．このAI がそのルールベースド型プレイヤの１つと対戦すれば長期的に90%近くの割合の試合に勝利する．

提案プレイヤ

このプレイヤは前節で述べたπ_win，π_loseおよびπ_drawをその内部プレイヤとして切り替える．10 戦ごとに報酬の計算を行い，次の“アーム”に切り替える．報酬は直近10戦の勝率である．パラメータBとξは1.0と10．またτは20とした．実験の最初にキャラクターのコントロールを受け持つプレイヤはπ_winとした．

1: count[] ← {0,0,0}

2: for i= 1 to t−2 do

3: if My actions[i]==My actions[t−1]then

4: if Enemy actions[i]==Enemy actions[t−1]then

5: count[Enemy actions[i+ 1]]++

6: end if

7: end if

8: end for

9: return argmaxe(count[e])

図 5.6: 予測アルゴリズム

図 5.7: 提案プレイヤとルールベースド型の対戦. 1000戦勝率を100試行分平均

5.4.3 ^実験

対ルールベース型プレイヤ

提案プレイヤは３種のルールベース型プレイヤと各1000試合戦い，これを100試行繰り返した．結果は図5.7に示す．提案プレイヤはそれぞれの対戦相手に70%の勝率を示した．もしも内部コントローラーの切り替えを行わない場合には勝率は原理的に50% (各相手に70%，50%，30%ずつの平均）になるので，提案手法によるコントローラー切り替えによって単純なルールベースド型よりも高い勝率を，この場合は獲得できた．

対オンライン学習型プレイヤ

提案手法は敵のオンライン学習型プレイヤからのモデリングをある程度妨害できると考えている．それの効果を実証するために，オンライン学習型プレイヤと1000回の対戦を行い，それを100試行繰り返して勝率を観察した．

図 5.8: 提案プレイヤとルールベース型プレイヤがオンライン学習型プレイヤと対戦結果を図5.8に示す．同様にオンライン学習型と対戦したルールベース型たちが10%の勝率しか達成していない一方で提案プレイヤは50%の勝率を達成している．よってオンライン学習型との対戦においても提案手法は，この設定においては，単純なルールベース型より高い性能を発揮したと言える．

5.4.4 結論

予備実験において提案手法はルールベース型とオンライン学習型の両方の対戦相手に対し有効に働いた．よって提案手法が，このような極度に単純化された「連続的な同時行動型のゲーム」においては効果的に働いたと本研究では結論する．

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 61-64)

第 5 章 格闘ゲーム 43

5.4 予備実験

5.4.2 使用プレイヤ

5.4.3 実験

5.4.4 結論

第 5 章格闘ゲーム 43

5.4.3 ^実験