• 検索結果がありません。

チューリングテストによるゲームAIの客観的評価方法

N/A
N/A
Protected

Academic year: 2021

シェア "チューリングテストによるゲームAIの客観的評価方法"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 74 回全国大会. 3C-7 チューリングテストによるゲーム AI の客観的評価方法. Using the Turing Test for Objective Evaluation of Game AI 安武 諒† 岩崎 信也† 山口 崇志† マッキン ケネスジェームス† 永井 保夫† Ryo Yasutake. Shinya Iwasaki Takashi Yamaguchi. Kenneth J. Mackin Yasuo Nagai. すなわち人間が操作するキャラクターと AI が操作するキャ ラクターとの区別がつかなければ作製した AI は人間らしい 近年、ビデオゲームにおける人工知能技術(ゲーム AI)へ と判断できる。これを、ゲーム AI におけるチューリングテ の関心が高まり重要視されている[1]。ゲーム AI が未熟だと ストの定義とする。チューリングテストが質問に対するコン ゲーム内のキャラクター動作や環境が不自然になり、プレイ ピューターの答えを、人間の答えであると錯覚させることだ ヤーは非常に不快感を覚えることになる。プレイヤーのゲー と考えると、ゲーム AI の人間らしさの評価に、チューリン ム AI のリアリティに対する意識が高まりつつある背景から、 グテストを適用することの有効性が見出せる。 ゲーム AI のリアリティを追求することでビデオゲームの発 3. 実験環境 展とおもしろさを向上させることが望まれている。 ゲーム AI とは、プレイヤーに対して知性を感じさせる存 実験環境として、対戦型アクションゲームを簡易モデル化 在のことを指し、主にキャラクターAI とメタ AI にわけられ した 1 対 2 の追跡ゲームを利用した。この追跡ゲームでは、 る。ゲーム AI では、それぞれの持つ役割がゲームの挙動を 壁が存在する限られた空間内において、逃亡側 1 体と追跡 違和感がないよう自然に見せることが要求される[2]。特に 側 2 体によるキャラクターが表現されている。終了条件は キャラクターAI は、ゲーム内におけるキャラクターの人間 逃亡側が追跡側に捕まるか、制限時間 30 秒を経過した場合 らしい思考を表現したものであり、プレイヤーに直接認識さ とした。検証では、被験者に逃亡側のキャラクターを操作し れる部分である。そのため、より知性の表現が重要となり、 てもらいテストを行った。追跡ゲームは、アクションゲーム ゲーム AI の人間らしさを担っている。以降、本稿における の基本機能である移動に着目し、キャラクターがフィールド ゲーム AI はキャラクターAI のことを指す。 内を移動する部分のみを取り扱った。 本研究は、ゲーム内のキャラクターの人間らしい思考・動 図 1 は実験を行ったゲーム実行画面である。画面上のキ 作を表現することで、ゲーム AI のリアリティ追求を目標と ャラクターP がプレイヤーによって操作される逃亡側キャ している。ここで、ゲーム AI の人間らしさについて、AI ラクターを、キャラクターEa・Eb が被験者以外の人間によ が操作するキャラクターを人間が操作しているとプレイヤ って制御される追跡側キャラクターを示している。 ーが錯覚することであると定義する。 過去の研究では、ゲーム AI の人間らしさを定量的に評価 するため、対戦型アクションゲームにチューリングテストを 適用し、その有効性の検証・考察を行った[4]。結果として、 人間の主観に基づく評価を数値として表わし比較評価する ことで、客観的評価を行うことができた。しかしながら、 AI 同士の比較評価では相対評価に留まってしまうことがわ かった。そこで本稿では、人間同士によるチューリングテス トを行うことにより、人間のゲーム操作における人間らしさ を抽出し、基準値を設定することで絶対評価を可能にできる と想定し、検証を行った。. 1. はじめに. 2. チューリングテスト ゲーム AI の人間らしさにおける定義から、その評価はプ レイヤーの主観に基づき判断される。つまり、ゲーム AI の 人間らしさにおける評価は、主観的な体験によって定義され ているため、客観的な評価指標が確立されていない。本稿で は、人間の主観的判断によるチューリングテストを対戦型ア クションゲームに適用し、複数の被験者のテスト結果に対し て統計データを求めることで、ゲーム AI の人間らしさを客 観的に評価することを提案する。 チューリングテストでは、質問をいくつか繰り返しそれに 対する人間とコンピューターの答えがどちらだか区別がつ かなければそのコンピューターは知能的であると判断する [5]。ゲーム AI では、AI が制御するキャラクターを人間が 操作していると錯覚させることが要件として挙げられる[2]。 †東京情報大学 総合情報学部 情報システム学科 Department of Information Systems, Tokyo University of Information Sciences. 図 1 ゲームの実行画面. 4. 検証 本稿では、人間同士によるチューリングテストを行い、ゲ ーム操作における人間らしさの評価を行えるか検証する。そ の際に、主観に基づいた被験者の評価から、どのような傾向 がみられるかを調査する目的で判断理由をたずねた。 図 1 のようなゲーム画面において、追跡側キャラクター Ea・Eb の内、一方のキャラクターを正解データとして固定 した人間が操作し、もう一方のキャラクターを対象データと して別の人間(今回は 6 人)が操作する。ここで、対象データ を人間と同等の思考をする AI であると仮定する。Ea・Eb の内、被験者に一方は人間が操作しており、もう一方は AI が制御していると伝え、人間が操作しているキャラクターは. 2-13. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 74 回全国大会. どちらであるかを、図 2 および図 3 の評価尺度を用いてゲ ームプレイ 1 回ごとに被験者に判断してもらった。 仮に、被験者に対し、追跡側を両方人間が操作していると 事前に伝えたとする。この場合、正解データの操作パターン を見せ、操作の癖などを見てもらったうえで評価を行う必要 がある。さらに、判断内容もどちらが正解データの操作であ ったかというものになり、趣旨と異なる評価になってしまう。 しかし、今回のような状況を設定することで、以前に行った チューリングテスト[4]と同様の認識で検証を行える。その 結果、人間の操作における人間らしさから、ゲーム AI の人 間らしさにおける評価の基準値が求められ、絶対評価を行う ことができると想定される。 今回は被験者 20 人に対しテストを行った。評価について は 5 段階評価とし、0~4 の評価値を設定した。被験者の判断 が正解データと一致していれば低い評価値 0 を、外れてい れば被験者を錯覚させたとして高い評価値 4 を与える。評 価値は、正解データと被験者の選択とのギャップになるので、 Ea が正解データだった場合を考えると、図 2 のように「Ea が人間」という項目から 0,1,2,3,4 となり、Eb が正解データ の場合、評価値は逆になる。テストは対象データごとに 5 回ずつ計 30 回行った。. 0. 1. 2. 3. 4. 図 2 評価尺度(正解データが Ea の場合). 4. 3. 2. 1. 0. 図 3 評価尺度(正解データが Eb の場合). その評価は中央に収束することになる。ゲーム AI の人間ら しさにおける評価の基準値を中央値である 2(評価尺度にお ける「わからない」)と設定することで、従来、相対尺度を 用いていたゲーム AI の評価を絶対評価で行うことができる。 すなわち、チューリングテストによるゲーム AI の評価は、 中央値 2 に近づくほど人間らしいゲーム AI であると言える。 テスト過程では、「最初はそれぞれの動きを確認するため に、純粋に逃げきろうとするが、ある程度動きの確認ができ ると周回行動や不規則な行動などを行い、その行動に対する 反応を確認していた」というような被験者の判断傾向が見ら れた。このような傾向から、ゲームプレイにおいて、被験者 が主観に基づき、機械らしい行動と人間らしい行動をそれぞ れモデル化し、比較・評価していることが明らかになった。 人間が無意識のうちに行っている、主観に基づいた行動のモ デル化を定義することができれば、より人間らしいゲーム AI を作製できると想定される。. 6. おわりに 本稿では、ゲーム AI の客観的な人間らしさの判断基準を 確立することを目的とし、チューリングテストによる評価を 提案、その適用方法について議論した。実験では、人間同士 によるチューリングテストを行い、人間の操作における人間 らしさから、被験者が感じる人間らしさを表す評価尺度を設 定した。その結果、評価値は中央に収束することがわかり、 中央値をゲーム AI の人間らしさにおける評価の基準値とし て設定した。これにより、相対評価に留まっていたゲーム AI の評価を、絶対評価で行うことができた。また被験者は、 人間と AI の各操作を比較して判断する場合、個人の主観に よりそれぞれの行動をモデル化し、評価していることがわか った。このことから、人間が無意識のうちに行っている、主 観に基づいた行動のモデル化を定義することができれば、よ り人間らしいゲーム AI を作製できると想定される。今後の 課題として、被験者の主観的モデルの定義方法について考え ていくことが求められる。. 5. 結果および考察 表 1 は、4 章で実施したテスト結果の一部を抜粋したもの である。●が正解データを示し、○が被験者の評価を示して いる。表の左脇の数字は、図 2 および図 3 の評価尺度に基 づいて求めた評価値である。テストより得られた評価値の平 均を求めたところ、1,93 という値が得られた。 表1 赤が人間 1回目 2回目 3回目 4回目 5回目. ● ●. 2. 30回目. ●. ●. どちらかと どちらかと わからない 緑が人間 いえば赤 いえば緑 ○ ○ ○● ○ ○●. …. ・・・. 4 2 0 4 0. テスト結果. ○. 本実験において、被験者は追跡側キャラクターを操作して いるのは人間と AI だと認識して評価している。しかし、実 際にはどちらも人間が操作しているので、どちらが人間の操 作しているキャラクターであるか、という質問に対して被験 者は明確に判断することができない。これは、2 章で示した ゲーム AI におけるチューリングテストの定義と合致してい る。結果として、人間同士でチューリングテストを行うと、. 参考文献 [1]. 三宅陽一郎, デジタルゲームにおける人工知能技術の応用, 人工知能学会誌, Vol.23, No.1, pp.44-51 (2008) [2] 三宅陽一郎, プログラミング AI, デジタルコンテンツ制作の 先端技術応用に関する調査報告書 2008 年度版, pp73-136, 財団法人デジタルコンテンツ協会(DCAJ) (2008) [3] 安武諒, 山口崇志, マッキンケネスジェームス, 永井保夫, 対 戦型ビデオゲーム用ゲーム AI におけるチューリングテスト の有効性検証, 第 9 回情報科学技術フォーラム(2010) [4] 安武諒, 岩崎 信也, 山口崇志, マッキンケネスジェームス, 永井保夫, ゲーム AI におけるチューリングテストの適用評価, 第 10 回情報科学技術フォーラム(2011) [5] Stuart Shieber (ed.), The Turing Test, The MIT Press (2004) [6] 小渕洋一, 離散情報処理とオートマトン, 朝倉書店 (1999) [7] Foost Raessens, Jeffrey Goldstein, Handbook of Computer Game Studies, The MIT Press(2005) [8] J.Barnes, J.Hutchens, S.Rabin (ed.), Testing Undefined Behavior as a Result of Learning, AI Game Programming Wisdom, pp.615-623, Charles River Media Inc. (2002) [9] Daniel Livingstone, Turing’s Test and Believable AI in Games, ACM Computers in Entertainment (CIE), Vol.4, No.1 (2006) [10] 松原仁, チューリングテストとは何か, 人工知能学会誌, Vol.26, No.1, pp.42-44(2011) [11] 石黒浩, アンドロイドによるトータルチューリングテストの 可能性, 人工知能学会誌, Vol.26, No.1, pp.50-54(2011). 2-14. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(3)

参照

関連したドキュメント

究機関で関係者の予想を遙かに上回るスピー ドで各大学で評価が行われ,それなりの成果

以上の結果について、キーワード全体の関連 を図に示したのが図8および図9である。図8

本稿で取り上げる関西社会経済研究所の自治 体評価では、 以上のような観点を踏まえて評価 を試みている。 関西社会経済研究所は、 年

実効性 評価 方法. ○全社員を対象としたアンケート において,下記設問に関する回答

通関業者全体の「窓口相談」に対する評価については、 「①相談までの待ち時間」を除く

図および図は本学で運用中の LMS「LUNA」に iPad 版からアクセスしたものである。こ こで示した図からわかるように iPad 版から LUNA にアクセスした画面の「見た目」や使い勝手

「TEDx」は、「広める価値のあるアイディアを共有する場」として、情報価値に対するリテラシーの高 い市民から高い評価を得ている、米国