シミュレーション実験

第 2 章人間プレイヤに適応するゲーム AI の自律的構成 15

2.5 シミュレーション実験

戦略学習機構に基づく学習エージェント(RL-agent)を，ルールベースエージェ

ント(Rule-based)と対戦させることで，戦略学習機構の有効性を評価する．

RL-agentがRule-based相手に100ゲーム学習する毎に，同じRule-basedと200 ゲームの評価ゲームを行い，RL-agentの勝率などを求める．戦略型ビデオTCG の勝敗は，モンスター3体の組み合わせに大きく依存するため，Rule-basedが評価ゲームで用いるモンスターの組み合わせは，あらかじめ200ゲーム分をランダムに決定しておく．RL-agentのモンスターの組み合わせは最適組み合わせ学習機構が決定する．一方，学習ゲームにおけるモンスターの組み合わせは，RL-agent，

Rule-based共に，完全にランダムで決定した．

戦略学習機構が，プレイヤの様々な戦略に適応可能かどうか調べるため，Rule-basedの個性として，攻守のバランスがとれた“バランス型”，攻撃志向の“力押

し型”，防御志向の“堅実型”を用意した(以降，バランス型Rule-based，力押し型

Rule-based，堅実型Rule-based)．次に，戦略学習機構が，新たなルールの追加に臨

機応変に対応できるかどうかを調べるため，最初は状態異常攻撃と罠設置を禁止し，途中から使用可能にした場合において実験する．最後に，戦略学習機構の内部の学習状況を確認するため，行動予測器と属性相性学習器における正解率を調べる．

2.5 シミュレーション実験

2.5.1 Rule-based のルール

実験に用いたバランス型Rule-basedは以下の11個のルールを持ち，(1)を最優先ルールとして，以下順番に優先度が低くなるよう設定されている．

1. まだ罠を使っておらず，かつ，現状態で罠を使うことが有効ならば，罠設置．

2. まだ毒攻撃をしておらず，かつ，相手モンスターに対して毒攻撃が有効ならば，状態異常攻撃．

3. 自分の戦闘状態モンスターの属性(自属性)が，相手の戦闘状態モンスターの

属性(敵属性)に対し「○」ならば特殊攻撃．

4. 自属性が敵属性に対し「○」となるモンスターに入れ替え．

敵属性が自属性に対し「○」ならば，

5. 「×」となるモンスターに入れ替え．

6. 「△」となるモンスターに入れ替え．

7. 「−」となるモンスターに入れ替え．

自属性が敵属性に対し「×」ならば，

8. 「−」となるモンスターに入れ替え．

9. 「△」となるモンスターに入れ替え．

10. 自属性が敵属性に対し「△」ならば，「−」となるモンスターに入れ替え．

11. 攻撃か特殊攻撃か，ダメージの大きい方を選択．

個性を変えたものとして，攻撃志向の“力押し型”Rule-basedはルール8〜10をルール5よりも優先度が高くなるように設定してあり，できる限り相手に多くのダメージを与えられるような行動を選択する．また，“堅実型”Rule-basedはルール 5〜7をルール4よりも優先度が高くなるように設定してあり，できる限り自分がダメージを受けないような行動を選択する．

第2章人間プレイヤに適応するゲームAIの自律的構成

2.5.2 様々な戦略への適応性

戦略学習機構に基づく学習エージェント(RL-agent)を，バランス型ルールベースエージェント(バランス型Rule-based)相手に，5,200ゲーム学習させた際のRL-agent の勝率を図2.2に示す．グラフは，RL-agentの3回の学習過程における，RL-agentの勝率の500ゲーム間の移動平均であり，横軸は学習したゲーム数，縦軸はRL-agent の勝率を表す．（以降，グラフはすべて同じ条件で表す．）

図2.2: RL-agentの勝率

シミュレーション実験の結果，学習をしていない段階でのRL-agentの勝率は25

約2,200ゲーム学習後には80%程度まで上昇した(図2.2)．よって，戦略学習機構は

正常に戦略を学習していることが確認できた．また，RL-agentの勝率が50%を超えるのは約500ゲーム学習後であり，戦略学習機構は比較的早い段階で，Rule-based と拮抗する程度の戦略を得ることができている．

図2.3はRL-agentと力押し型Rule-basedを，図2.4はRL-agentと堅実型

Rule-basedを5,200学習ゲーム対戦させた際のRL-agentの勝率である．どちらのグラ

フも，学習をしていない段階でのRL-agentの勝率は25約2,200ゲーム学習後には 80%程度まで上昇した．この結果は，バランス型Rule-basedと対戦させた結果とほぼ同様である（図2.2）．どのRule-basedと対戦した場合も，RL-agentの勝率が

80%程度まで上昇したことから，Rule-basedの個性が変化しても，対戦相手の戦略

に応じて戦略学習ができているといえる．

2.5 シミュレーション実験

図2.3: RL-agentの勝率(対力押し型)

図2.4: RL-agentの勝率(対堅実型)

第2章人間プレイヤに適応するゲームAIの自律的構成

2.5.3 新たなルールの追加への適応性

RL-agent，Rule-based共に，最初は状態異常攻撃と罠設置を禁止しておき，2,500 ゲーム学習後から使用を許可した場合のシミュレーション実験を実施した．

図2.5: 途中で毒と罠を追加（毒と罠の学習あり）

図2.5は状態異常攻撃と罠に関して学習をする場合，図2.6は状態異常攻撃と罠に関して学習を全くしない場合である．状態異常攻撃と罠を戦略学習機構に学習させた場合(図2.5)，RL-agentの勝率は2,500ゲームを機に一度下がるが，すぐに上昇に転じ，最終的には図2.2と同じ80%程度となる．しかし，状態異常攻撃と罠を戦略学習機構に学習させなかった場合(図2.6)，RL-agentの勝率は上昇しない．

よって，途中で新しいルールを追加した場合でも，戦略学習機構はルールの変化に適応できていることが示された．また，図2.5において，状態異常攻撃と罠設置を許可する前ではRL-agentの勝率は70%程度だが，許可することで勝率は80%程度まで上昇するようになる．つまり，ゲームのルールが複雑になることで，より戦略性が増していることがわかる．

2.5.4 内部の学習状況

戦略学習機構の内部の学習状況を確認するため，行動予測器と属性相性学習器における正解率を調べる．

図2.7，図2.8は，RL-agentがRule-basedを相手に5,200学習ゲームの対戦をした際の，行動予測器の正解率と属性相性学習器の正解率である．行動予測器の正解

2.5 シミュレーション実験

図2.6: 途中で毒と罠を追加（毒と罠の学習なし）

図2.7: 行動予測器の正解率

第2章人間プレイヤに適応するゲームAIの自律的構成

図2.8: 属性相性学習器の正解率

率とは，行動予測器の出力と相手エージェントの行動が一致したかどうかを示す．

学習をしていない段階では40%程度だが，学習開始から急激に増加し，500ゲーム学習後には80%程度の行動予測が可能となっている．それ以降も学習することで徐々に増加し，2,500ゲーム学習後にはほぼ正確に相手の行動を予測している．属性相性学習器の正解率とは，RL-agentが，自分の属性と相手エージェントの属性の相性を正確に学習できているかどうかを示す．学習開始から急激に増加し，1,000 ゲーム学習後にはほぼ正確に属性の強弱を判断できていることが分かる．

ドキュメント内人間らしい振る舞いを自動獲得するゲームAIに関する研究 (ページ 43-49)

第 2 章 人間プレイヤに適応するゲーム AI の自律的構成 15

2.5 シミュレーション実験

2.5.1 Rule-based のルール

2.5.2 様々な戦略への適応性

2.5.3 新たなルールの追加への適応性

2.5.4 内部の学習状況

第 2 章人間プレイヤに適応するゲーム AI の自律的構成 15