第 5 章 格闘ゲーム 43
5.5 実験
図 5.8: 提案プレイヤとルールベース型プレイヤがオンライン学習型プレイヤと対戦 結果を図5.8に示す.同様にオンライン学習型と対戦したルールベース型たちが10%の 勝率しか達成していない一方で提案プレイヤは50%の勝率を達成している.よってオンラ イン学習型との対戦においても提案手法は,この設定においては,単純なルールベース型 より高い性能を発揮したと言える.
5.4.4 結論
予備実験において提案手法はルールベース型とオンライン学習型の両方の対戦相手に 対し有効に働いた.よって提案手法が,このような極度に単純化された「連続的な同時行 動型のゲーム」においては効果的に働いたと本研究では結論する.
表 5.1: FIGHTING ICE 2014競技会“1C”部門ランキング
AI Ranking AI Ranking
CodeMonkey 1 thunder final 6
VS 2 ragonKing1C 7
T1c 3 ATteam 8
LittleFuzzy 4 SomJang 9
PnumaSON AI 5 ThrowLooper 10
これら3つのルールベースドプレイヤは自他の行動履歴を利用せず,単に現時刻での ゲーム状態のみから次の行動を決定する.ゆえに各時刻ステップにおいて本研究の提案プ レイヤは以下の手順を実行する.
1. 現在のゲーム状態をデータとして受け取る
2. もしも一定の時刻の間隔が経過していたら,SW-UCBアルゴリズムを用い内部コン トローラーの切り替えを行う
3. 現在選択されているコントローラーに現在のゲーム状態データを渡し,次行動を受 け取る
4. 最後に,その得られた次行動を提案プレイヤの出力としてゲームシステムに出力する 本項の実験でSW-UCB でのアームの切り替えはゲーム内180時刻ステップ(現実の時 間で3秒に相当)ごとに行う.報酬は,その時間ステップ内に相手に与えたダメージと自 分が受けたダメージの差に設定する.しかしいくつかの例外がある.その時間ステップ内 に自分がダメージを受けなかった場合に報酬値は十分に大きな値として定め,いかなる状 況でも次の時間ステップには同じアームが選択される.その状態から最初に自分がダメー ジを受けた時にその時間ステップの報酬は十分に小さな負の値となり,その大きな報酬値 の影響をキャンセルする.またSW-UCB手法のパラメータとしてBは100,ξは0.5,τ は16とした.
実験対戦相手としてのプレイヤは,ルールベース型のATTeam,T1c,Somjang AI で ある.また,オンライン学習型プレイヤとして競技会1位のCodeMonkeを用意した.
評価指標としてFightingICEプラットフォーム内のスコアシステムを用いた.各試合は 3つのラウンドで構成され,各ラウンド後に以下の値のスコアを受け取る.
Score= self HP+opponentHPopponentHP ∗1000
このスコア値の最小値は0で最大値は3000である.そして両者が戦いで互角だった場合 にはスコアは1500となる.
表 5.2: 対ルールベースド型プレイヤ 100戦平均スコア opponent
Switch AI ATTeam Somjang T1c Total (95% CI) Switch AI - 2172 1639 1577 5388 (±76)
ATTeam 828 - 397 2647 3872 (±96)
Somjang AI 1361 2603 - 1019 4983 (±93)
T1c 1423 353 1981 - 3757 (±76)
表 5.3: 対オンライン学習型プレイヤ100戦平均スコア(一部300戦)
CodeMonkey(95% CI) Switch AI (300 matches) 579 (±58)
ATTeam 312 (±54)
Somjang AI 316 (±56)
T1c (300 matches) 552 (±63)
5.5.2 結果と考察
本研究では結果を表5.2と表5.3に示す.“95% IC”は95%信頼区間である.
提案プレイヤは有意に他のルールベースド型プレイヤを上回った.一方で提案プレイヤ はオンライン学習型プレイヤに対し,他のルールベースド型よりわずかに高いスコアを取 りつつも,それほど効果的でなかったようにみえる.
T1c (表5.2)との試合においては提案プレイヤは特に低いスコアを記録した.これは
ATteamのコードに記述された特定の連続行動のためである.この連続行動はT1cにと
ても有効に働くものの,タイミングがシビアであり,本研究の「一定時間毎の切り替え」
によるシステムではうまく効果を発揮しなかったと考える.学習履歴の例を図5.9と5.10 に示す.これらの図で1, 2, 3とy軸上に記されたのはそれぞれ人工プレイヤのSomjang
AIとT1cとATTeamを意味し,提案プレイヤ内部で各時間にどのプレイヤに操作が切り
替えられたのかの履歴である.図5.9は適応がうまくいったケースで提案手法は相手に有 利なコントローラーに頻繁にキャラクタを操作させている.一方で図5.10の場合では適 応がうまくいってない.ATTeamとT1cは,敵プレイヤT1cに対して有利なコントロー ラーではないにも関わらず頻繁に選ばれている.しかしそれでも,敵T1cに対して不利
となるATTeamはゲームが終盤に進むにつれて次第に選択されにくくなっている.
図 5.9: 対ATTeam学習履歴(y軸 1:Somjang AI, 2:T1c, 3:ATTeam)
図 5.10: 対T1C学習履歴(y軸 1:Somjang AI, 2:T1c, 3:ATTeam)
5.5.3 パラメータ変更による検証
本研究ではパラメータを変えて実験を行った.変更したパラメータは,コントローラー 切り替えの時刻間隔とτである.τは行動履歴データをいくつまでさかのぼって利用する かのパラメータであり,もしこれが無限題ならSW-UCBアルゴリズムは単なるUCBア ルゴリズムと等価となる.
τが小さいほど切り替えは“近視眼的”になって,ごく最近の「各コントローラーが得 た報酬値」のみしか考慮しなくなる.よって小さいτはオンライン学習型プレイヤと戦う ときに,相手の挙動の変化に素早く適応でき,有効であると考える.似たような理由で,
コントローラー切り替えの時刻間隔を短くするとまたオンライン学習型に有利になると 予想できる.しかし逆に,小さいτや切り替え時刻間隔は提案システムの挙動の安定性を 損なうリスクがある.
表 5.4: τを変化させた場合の勝率変化 opponent
ATTeam Somjang AI T1c CodeMonkey Total(95% CI)
τ = 4 1862 1629 1111 664 5266 (±146)
τ = 16 2172 1639 1577 573 5961 (±96)
τ = 32 2085 1591 1186 682 5544 (±138)
τ =∞ 2359 1613 1401 557 5930 (±154)
表 5.5: コントローラー切り替え間隔を変化させた場合の勝率変化 opponent
intervals ATTeam Somjang AI T1c CodeMonkey Total (95% CI)
60 2359 1546 1093 760 5758 (±134)
90 1781 1564 1361 753 5459 (±120)
180 2172 1639 1577 573 5961 (±96)
600 2019 1540 1438 442 5439 (±127)
1800 2045 1554 1362 406 5367 (±101)
このパラメータ変化の実験も,相手プレイヤは前節と同じく,ATTeam,Somjong AI,
T1c,CodeMonkeyを用意した.100戦の平均スコアを用いて評価した.変更対象でない
パラメータは前節同様である.τを変化させるときはコントローラー切り替え時刻間隔を 180に,切り替え時刻間隔を変化させるときはτ は16に固定した.
結果を表5.4と5.5に示す.理論的な予測,つまり「τが小さいほどオンライン学習型 に対し有利でルールベースド型に不利」という傾向とは一致しない結果が得られた.しか し表のスコアが最小で0から最大12000までの分布であることと結果の数値を合わせて考 えると,提案手法がパラメータの変化にある程度頑健である,という解釈の仕方も可能で ある.