• 検索結果がありません。

第 3 章 生物学的制約に基づく人間的なゲーム AI の自律的構成 39

3.4 主観評価実験

人間の生物学的制約を導入したQ学習エージェント及びA*エージェントによっ て獲得された振る舞いが,本当に人間らしいかどうかを検証するため,実験参加 者20名を対象に主観評価実験を実施した.まず,主観評価実験の実験計画につい て記述し,次に,得られたデータの分析手法とその分析結果を述べる.

3.4.1 実験計画

20〜24歳の男女20名(男性13名,女性7名)を対象に主観評価実験を実施し た.実験参加者20名における,横スクロール型マリオのプレイ時間の累計は平均 µ = 34時間,標準偏差σ = 29時間であった.そこで,本実験においては,横ス クロール型マリオの熟練度を3つのグループに分類した.横スクロール型マリオ のプレイ時間が5時間(µ−σ)未満の実験参加者4名を「初級者」(うち,3名は

3.4 主観評価実験

表3.3: プレイ動画のラベルと内容

ラベル 操作者 生物学的制約 再生時間 スコア

[強化,無し] 強化学習 導入なし 10.62秒 5448

[強化,導入] 強化学習 導入あり 14.25秒 4069

[強化,導入,

挑戦のみ] 強化学習

導入あり

(挑戦のみ) 15.57秒 3458

[探索,無し] 経路探索 導入なし 7.29秒 7926

[探索,導入] 経路探索 導入あり 9.34秒 3118

[中級者] 中級者(人間) − 10.08秒 6031

[初級者] 初級者(人間) − 14.25秒 3644

[上級者] 上級者(人間) − 7.68秒 7371

プレイ時間が0時間の初心者),63時間(µ+σ)以上の実験参加者2名を「上級 者」,5時間以上63時間未満の実験参加者14名を「中級者」と定義した.

実験手続きは以下のとおりである.まず,実験参加者に「ブロック,アイテム,

コインなどは無視して,ステージの先に進め」と教示し,“Infinite Mario Bros.”を 10回プレイ(1プレイ25秒)させた.次に,プレイ動画を2つずつ比較させ「ど ちらのマリオが人間らしいプレイか」を7段階で評価させた.最後に,プレイ動 画を1つずつ見せ「どのような振る舞いが人間らしい(人間らしくない)と感じ たか」を自由記述で回答させた.

実験に使用したプレイ動画を表3.3に示す.本実験では,Q学習エージェントに よるプレイ動画を3つ,A*エージェントによるプレイ動画を2つ,人間が操作し たプレイ動画を上記熟練度を考慮して3つ用意した.Q学習エージェントに関し ては,生物学的制約の導入ありと導入無しの2つに加えて,訓練をせず失敗に対 する挑戦のみを実施するエージェントも用意した.このQ学習エージェントにお けるランダム選択確率ϵは0,失敗を繰り返しているゲーム局面でのϵは0.2と設 定した.人間の操作者に関しては,初級者動画は横スクロール型マリオのプレイ 時間が5時間の人間プレイヤ,中級者動画は50時間の人間プレイヤ,上級者動画 は200時間の人間プレイヤとした.また,敵,土管,穴といった障害物の有無や,

マリオが敵に接触しダメージをうけるシーンが,人間らしさの評価に大きく影響 を与えると考えられる.そこで,全ての動画でプレイ区間を統一し,マリオが敵 に接触しダメージをうけたプレイ区間は不採用とした.これ以降,プレイ動画を 表3.3のラベル名で表記する.

第3章 生物学的制約に基づく人間的なゲームAIの自律的構成

3.4.2 分析手法と結果

本実験では,ランダムな順序で呈示される2つのプレイ動画を比較し,人間らし さについて7段階で評価する.統計的分析手法としてシェッフェの一対比較法[57]

(中屋の変法)を使用し,分散分析で主効果の有無を確認する.その後,ヤードス ティック法によりプレイ動画の嗜好度を一本の直線上にプロットし、動画同士の相 対的な関係性と,信頼区間について検討する.本実験では,エージェントにおけ る生物学的制約の導入の有無による比較,エージェントと人間プレイヤとの比較 に焦点を当てるため,Q学習エージェントとA*エージェントを分けて分析するこ ととした.

3.4は,人間らしさに関する相対的嗜好度を直線上にプロットしたものであ る.まず,Q学習エージェントどうしの比較結果を述べる.人間の生物学的制約 を導入した[強化,導入](相対的嗜好度:0.66)は,人間の生物学的制約を導入し ていない[強化,無し](相対的嗜好度:0.29)と比較して,人間らしいという結果 が得られた.しかしながら,相対的嗜好度の差(0.660.29 = 0.37)が95%信頼 区間である0.48より小さいため,5%水準の有意差は認められなかった.この結果 を,以降(差:0.37<95%信頼区間:0.48)と表記する.

次に,Q学習エージェントと人間プレイヤの比較結果を述べる.人間の生物学 的制約を導入した[強化,導入]は,人間プレイヤの[初級者][中級者][上級者]より 人間らしいという結果が得られた.ただし,有意差が認められたのは,[強化,導 入]と[初級者](差:1.12>99%信頼区間:0.58),[強化,導入]と[上級者](差:

1.33>99%信頼区間:0.58)であり,[強化,導入]と[中級者](差:0.44<95%信 頼区間:0.48)では有意差が認められなかった.

図3.4は,人間らしさに関する相対的嗜好度をプロットしたものである.上の直 線はQ学習エージェントと人間プレイヤの比較,下の直線はA*エージェントと人 間プレイヤの比較である.まず,Q学習エージェント同士の比較結果を述べる.生 物学的制約を導入した[強化,導入](相対的嗜好度:0.66)は,生物学的制約を導入 していない[強化,無し](相対的嗜好度:0.29)と比較して,人間らしいという結 果が得られた.しかしながら,相対的嗜好度の差(0.660.29 = 0.37)が95%信 頼区間である0.48より小さいため,5%水準の有意差は認められなかった.この結 果を,以降(差:0.37<95%信頼区間:0.48)と表記する.次に,A*エージェント同 士の比較結果を述べる.生物学的制約を導入した[探索,導入]は,生物学的制約を 導入していない[探索,無し]と比較して,1%水準で有意に人間らしいという結果 が得られた(差:1.35>99%信頼区間:0.72).最後に,エージェントと人間プレイ ヤの比較結果を述べる.生物学的制約を導入したQ学習エージェント[強化,導入]

は,人間プレイヤの[初級者][中級者][上級者]より人間らしいという結果が得られ た.また,生物学的制約を導入したA*エージェント[探索,導入]は,人間プレイ