被験者実験

前節の実験では，学習対象となる人工プレイヤは，「学習に用いる効用モデルと同じ効用モデル」と「学習に用いる行動決定アルゴリズム（戦略付きモンテカルロ法）」を持つものであり，いわば学習者にとって理想的な条件が用いられた．そこで次は，実際の人間プレイヤに対してどの程度学習ができるのかを確認するための被験者実験を行った．

4.10.1 ^実験条件

被験者にはまず戦闘を2回行ってもらい，対象ゲームに慣れてもらった．戦闘の状況は表4.2の「設定2」のみを使う．次に戦闘8回を1セットにして，4セットの戦闘を行ってもらった．各セットでは被験者に以下の指示を与えた．

• なるべくHPを高く保ちながら戦う

表 4.5: キャラクタのパラメータ設定1，3，4，5 設定1

キャラクタ HP MP 攻撃力守備力使用可能術技

味方1 134 30 60 28 単体攻撃・小回復・防御単体攻撃・グループ攻撃味方2 102 80 44 32 ・小回復・中回復

・全体回復・防御敵1〜3 52 0 38 26 単体攻撃

敵4〜6 52 0 38 26 単体攻撃敵7〜8 52 0 38 26 単体攻撃敵9〜10 52 0 38 26 単体攻撃

設定3

キャラクタ HP MP 攻撃力守備力使用可能術技

味方1 138 30 62 30 単体攻撃・小回復・防御単体攻撃・グループ攻撃味方2 110 62 46 34 ・小回復・中回復

・全体回復・防御敵1〜2 52 0 40 26 単体攻撃

敵3 56 0 56 56 単体攻撃設定4

味方1 142 32 66 36 単体攻撃・小回復・防御単体攻撃・グループ攻撃味方2 112 64 48 38 ・小回復・中回復

・全体回復・防御敵1 84 0 84 20 単体攻撃

敵2 84 0 44 60 単体攻撃敵3 60 0 48 26 単体攻撃

設定5

味方1 160 36 74 48 単体攻撃・小回復・防御単体攻撃・グループ攻撃味方2 122 72 52 44 ・小回復・中回復

・全体回復・防御敵1 120 0 54 26 単体攻撃

敵2 222 0 80 40 単体攻撃・小回復敵3 102 32 52 24 単体攻撃

図 4.6: 行動一致率・戦闘の設定別

• なるべくMPを温存しながら戦う

• なるべく早いターン数で勝ちを目指す

• なるべく早いターン数で，なおかつMPも温存しながら戦う

1セットの中で前半の戦闘4回は学習フェイズで，被験者に味方キャラクタを全て操作してもらう．このとき味方2の操作を提案手法により学習する．

1セットの中で後半の戦闘4回は評価フェイズで，被験者に味方1のみ操作してもらい，

AIが操作する味方2の挙動を1戦ごと，5段階で評価してもらった．評価してもらったAI は3種類で，一つは提案手法（効用関数を推定したAI），一つは固定の効用重み [1, 0.3, 3] を持つ Turn重視のAI，一つは固定の効用重み [1, 4, 0.25]を持つ MP重視のAIである．計4回の戦闘のうち，提案手法AIは2回，他のAIは1回ずつ戦う．AIの登場順はランダムである．また今回の実験ではx_HP の計算法を少し変えた．ゲーム終了時のHP ではなく戦い全体を通じての平均HP量をx_HP の計算に用いた．こうすることによって，

人工プレイヤが「ゲームの終了時のみ体力を慌てて回復する」ようなことを避け，ゲーム全体を通じて体力を高く保って安全に戦うという価値観に近い挙動が得られると考える．

4.10.2 結果

いずれもRPGゲームの経験を持つ被験者10人による自然さの評価値の平均を表4.6に示す．実験はWindowsのGUIプログラムを通じて行われ，それぞれ1時間から2時間程度を各被験者が要した．

表 4.6: 自然さの評価結果

指示したスタイル使用AIと重み自然さの平均評価値 HP温存

提案手法 3.8

MP重視AI 3.2

Turn重視AI 2.9

MP温存

提案手法 3.4

MP重視AI 3.0

Turn重視AI 2.1

速い勝利

提案手法 4.2

MP重視AI 2.5

Turn重視AI 4.0

速い勝利かつMP温存

提案手法 4.0

MP重視AI 3.0

Turn重視AI 2.7

表の数値をみると提案手法がどの場合も固定重みの人工プレイヤより良いスコアを獲得している．例えばMP重視を指示した場合，MP重視AIに対する評価(3.0)はTurn重視AIに対する評価(2.1)よりも高いが，提案手法はそれ以上の評価(3.4)となった．学習された重みは [1, 20, 0.025] などより極端なものであり，固定で与えた[1, 4, 0.25] では不十分だったことを示唆している．人手で効用関数を設計することは困難な場合が多く，提案手法のように行動から自動で推定することに価値があることが示せた．

最後に与えた指示は速さ重視かつMP重視という幾分漠然としたもので，人間被験者によるさじ加減もまちまちだった．そのため推定された効用重みベクトルも[1, 11, 24]か

ら[1, 23, 23]までばらついて分布した．このように提案手法は，単一の種類（指示）なが

らも個々人でバラつきがある効用にもそれぞれ対応できるため，そうした状況が頻繁に生じるような実際のゲームでも有用であると考える．

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 46-49)

4.10.1 実験条件

4.10.2 結果

4.10.1 ^実験条件