チューリングテストによるゲームAIの客観的評価方法

全文

(1)情報処理学会第 74 回全国大会. 3C-7 チューリングテストによるゲーム AI の客観的評価方法. Using the Turing Test for Objective Evaluation of Game AI 安武諒† 岩崎信也† 山口崇志† マッキンケネスジェームス† 永井保夫† Ryo Yasutake. Shinya Iwasaki Takashi Yamaguchi. Kenneth J. Mackin Yasuo Nagai. すなわち人間が操作するキャラクターと AI が操作するキャラクターとの区別がつかなければ作製した AI は人間らしい近年、ビデオゲームにおける人工知能技術(ゲーム AI)へと判断できる。これを、ゲーム AI におけるチューリングテの関心が高まり重要視されている[1]。ゲーム AI が未熟だとストの定義とする。チューリングテストが質問に対するコンゲーム内のキャラクター動作や環境が不自然になり、プレイピューターの答えを、人間の答えであると錯覚させることだヤーは非常に不快感を覚えることになる。プレイヤーのゲーと考えると、ゲーム AI の人間らしさの評価に、チューリンム AI のリアリティに対する意識が高まりつつある背景から、グテストを適用することの有効性が見出せる。ゲーム AI のリアリティを追求することでビデオゲームの発 3. 実験環境展とおもしろさを向上させることが望まれている。ゲーム AI とは、プレイヤーに対して知性を感じさせる存実験環境として、対戦型アクションゲームを簡易モデル化在のことを指し、主にキャラクターAI とメタ AI にわけられした 1 対 2 の追跡ゲームを利用した。この追跡ゲームでは、る。ゲーム AI では、それぞれの持つ役割がゲームの挙動を壁が存在する限られた空間内において、逃亡側 1 体と追跡違和感がないよう自然に見せることが要求される[2]。特に側 2 体によるキャラクターが表現されている。終了条件はキャラクターAI は、ゲーム内におけるキャラクターの人間逃亡側が追跡側に捕まるか、制限時間 30 秒を経過した場合らしい思考を表現したものであり、プレイヤーに直接認識さとした。検証では、被験者に逃亡側のキャラクターを操作しれる部分である。そのため、より知性の表現が重要となり、てもらいテストを行った。追跡ゲームは、アクションゲームゲーム AI の人間らしさを担っている。以降、本稿におけるの基本機能である移動に着目し、キャラクターがフィールドゲーム AI はキャラクターAI のことを指す。内を移動する部分のみを取り扱った。本研究は、ゲーム内のキャラクターの人間らしい思考・動図 1 は実験を行ったゲーム実行画面である。画面上のキ作を表現することで、ゲーム AI のリアリティ追求を目標とャラクターP がプレイヤーによって操作される逃亡側キャしている。ここで、ゲーム AI の人間らしさについて、AI ラクターを、キャラクターEa・Eb が被験者以外の人間によが操作するキャラクターを人間が操作しているとプレイヤって制御される追跡側キャラクターを示している。ーが錯覚することであると定義する。過去の研究では、ゲーム AI の人間らしさを定量的に評価するため、対戦型アクションゲームにチューリングテストを適用し、その有効性の検証・考察を行った[4]。結果として、人間の主観に基づく評価を数値として表わし比較評価することで、客観的評価を行うことができた。しかしながら、 AI 同士の比較評価では相対評価に留まってしまうことがわかった。そこで本稿では、人間同士によるチューリングテストを行うことにより、人間のゲーム操作における人間らしさを抽出し、基準値を設定することで絶対評価を可能にできると想定し、検証を行った。. 1. はじめに. 2. チューリングテストゲーム AI の人間らしさにおける定義から、その評価はプレイヤーの主観に基づき判断される。つまり、ゲーム AI の人間らしさにおける評価は、主観的な体験によって定義されているため、客観的な評価指標が確立されていない。本稿では、人間の主観的判断によるチューリングテストを対戦型アクションゲームに適用し、複数の被験者のテスト結果に対して統計データを求めることで、ゲーム AI の人間らしさを客観的に評価することを提案する。チューリングテストでは、質問をいくつか繰り返しそれに対する人間とコンピューターの答えがどちらだか区別がつかなければそのコンピューターは知能的であると判断する [5]。ゲーム AI では、AI が制御するキャラクターを人間が操作していると錯覚させることが要件として挙げられる[2]。 †東京情報大学総合情報学部情報システム学科 Department of Information Systems, Tokyo University of Information Sciences. 図 1 ゲームの実行画面. 4. 検証本稿では、人間同士によるチューリングテストを行い、ゲーム操作における人間らしさの評価を行えるか検証する。その際に、主観に基づいた被験者の評価から、どのような傾向がみられるかを調査する目的で判断理由をたずねた。図 1 のようなゲーム画面において、追跡側キャラクター Ea・Eb の内、一方のキャラクターを正解データとして固定した人間が操作し、もう一方のキャラクターを対象データとして別の人間(今回は 6 人)が操作する。ここで、対象データを人間と同等の思考をする AI であると仮定する。Ea・Eb の内、被験者に一方は人間が操作しており、もう一方は AI が制御していると伝え、人間が操作しているキャラクターは. 2-13. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 74 回全国大会. どちらであるかを、図 2 および図 3 の評価尺度を用いてゲームプレイ 1 回ごとに被験者に判断してもらった。仮に、被験者に対し、追跡側を両方人間が操作していると事前に伝えたとする。この場合、正解データの操作パターンを見せ、操作の癖などを見てもらったうえで評価を行う必要がある。さらに、判断内容もどちらが正解データの操作であったかというものになり、趣旨と異なる評価になってしまう。しかし、今回のような状況を設定することで、以前に行ったチューリングテスト[4]と同様の認識で検証を行える。その結果、人間の操作における人間らしさから、ゲーム AI の人間らしさにおける評価の基準値が求められ、絶対評価を行うことができると想定される。今回は被験者 20 人に対しテストを行った。評価については 5 段階評価とし、0~4 の評価値を設定した。被験者の判断が正解データと一致していれば低い評価値 0 を、外れていれば被験者を錯覚させたとして高い評価値 4 を与える。評価値は、正解データと被験者の選択とのギャップになるので、 Ea が正解データだった場合を考えると、図 2 のように「Ea が人間」という項目から 0,1,2,3,4 となり、Eb が正解データの場合、評価値は逆になる。テストは対象データごとに 5 回ずつ計 30 回行った。. 0. 1. 2. 3. 4. 図 2 評価尺度(正解データが Ea の場合). 4. 3. 2. 1. 0. 図 3 評価尺度(正解データが Eb の場合). その評価は中央に収束することになる。ゲーム AI の人間らしさにおける評価の基準値を中央値である 2(評価尺度における「わからない」)と設定することで、従来、相対尺度を用いていたゲーム AI の評価を絶対評価で行うことができる。すなわち、チューリングテストによるゲーム AI の評価は、中央値 2 に近づくほど人間らしいゲーム AI であると言える。テスト過程では、「最初はそれぞれの動きを確認するために、純粋に逃げきろうとするが、ある程度動きの確認ができると周回行動や不規則な行動などを行い、その行動に対する反応を確認していた」というような被験者の判断傾向が見られた。このような傾向から、ゲームプレイにおいて、被験者が主観に基づき、機械らしい行動と人間らしい行動をそれぞれモデル化し、比較・評価していることが明らかになった。人間が無意識のうちに行っている、主観に基づいた行動のモデル化を定義することができれば、より人間らしいゲーム AI を作製できると想定される。. 6. おわりに本稿では、ゲーム AI の客観的な人間らしさの判断基準を確立することを目的とし、チューリングテストによる評価を提案、その適用方法について議論した。実験では、人間同士によるチューリングテストを行い、人間の操作における人間らしさから、被験者が感じる人間らしさを表す評価尺度を設定した。その結果、評価値は中央に収束することがわかり、中央値をゲーム AI の人間らしさにおける評価の基準値として設定した。これにより、相対評価に留まっていたゲーム AI の評価を、絶対評価で行うことができた。また被験者は、人間と AI の各操作を比較して判断する場合、個人の主観によりそれぞれの行動をモデル化し、評価していることがわかった。このことから、人間が無意識のうちに行っている、主観に基づいた行動のモデル化を定義することができれば、より人間らしいゲーム AI を作製できると想定される。今後の課題として、被験者の主観的モデルの定義方法について考えていくことが求められる。. 5. 結果および考察表 1 は、4 章で実施したテスト結果の一部を抜粋したものである。●が正解データを示し、○が被験者の評価を示している。表の左脇の数字は、図 2 および図 3 の評価尺度に基づいて求めた評価値である。テストより得られた評価値の平均を求めたところ、1,93 という値が得られた。表１赤が人間 1回目 2回目 3回目 4回目 5回目. ● ●. 2. 30回目. ●. ●. どちらかとどちらかとわからない緑が人間いえば赤いえば緑 ○ ○ ○● ○ ○●. …. ・・・. 4 2 0 4 0. テスト結果. ○. 本実験において、被験者は追跡側キャラクターを操作しているのは人間と AI だと認識して評価している。しかし、実際にはどちらも人間が操作しているので、どちらが人間の操作しているキャラクターであるか、という質問に対して被験者は明確に判断することができない。これは、2 章で示したゲーム AI におけるチューリングテストの定義と合致している。結果として、人間同士でチューリングテストを行うと、. 参考文献 [1]. 三宅陽一郎, デジタルゲームにおける人工知能技術の応用, 人工知能学会誌, Vol.23, No.1, pp.44-51 (2008) [2] 三宅陽一郎, プログラミング AI, デジタルコンテンツ制作の先端技術応用に関する調査報告書 2008 年度版, pp73-136, 財団法人デジタルコンテンツ協会(DCAJ) (2008) [3] 安武諒, 山口崇志, マッキンケネスジェームス, 永井保夫, 対戦型ビデオゲーム用ゲーム AI におけるチューリングテストの有効性検証, 第 9 回情報科学技術フォーラム(2010) [4] 安武諒, 岩崎信也, 山口崇志, マッキンケネスジェームス, 永井保夫, ゲーム AI におけるチューリングテストの適用評価, 第 10 回情報科学技術フォーラム(2011) [5] Stuart Shieber (ed.), The Turing Test, The MIT Press (2004) [6] 小渕洋一, 離散情報処理とオートマトン, 朝倉書店 (1999) [7] Foost Raessens, Jeffrey Goldstein, Handbook of Computer Game Studies, The MIT Press(2005) [8] J.Barnes, J.Hutchens, S.Rabin (ed.), Testing Undefined Behavior as a Result of Learning, AI Game Programming Wisdom, pp.615-623, Charles River Media Inc. (2002) [9] Daniel Livingstone, Turing’s Test and Believable AI in Games, ACM Computers in Entertainment (CIE), Vol.4, No.1 (2006) [10] 松原仁, チューリングテストとは何か, 人工知能学会誌, Vol.26, No.1, pp.42-44(2011) [11] 石黒浩, アンドロイドによるトータルチューリングテストの可能性, 人工知能学会誌, Vol.26, No.1, pp.50-54(2011). 2-14. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(3)