チューリングテストによるゲームAIの客観的評価方法
2
0
0
全文
(2) 情報処理学会第 74 回全国大会. どちらであるかを、図 2 および図 3 の評価尺度を用いてゲ ームプレイ 1 回ごとに被験者に判断してもらった。 仮に、被験者に対し、追跡側を両方人間が操作していると 事前に伝えたとする。この場合、正解データの操作パターン を見せ、操作の癖などを見てもらったうえで評価を行う必要 がある。さらに、判断内容もどちらが正解データの操作であ ったかというものになり、趣旨と異なる評価になってしまう。 しかし、今回のような状況を設定することで、以前に行った チューリングテスト[4]と同様の認識で検証を行える。その 結果、人間の操作における人間らしさから、ゲーム AI の人 間らしさにおける評価の基準値が求められ、絶対評価を行う ことができると想定される。 今回は被験者 20 人に対しテストを行った。評価について は 5 段階評価とし、0~4 の評価値を設定した。被験者の判断 が正解データと一致していれば低い評価値 0 を、外れてい れば被験者を錯覚させたとして高い評価値 4 を与える。評 価値は、正解データと被験者の選択とのギャップになるので、 Ea が正解データだった場合を考えると、図 2 のように「Ea が人間」という項目から 0,1,2,3,4 となり、Eb が正解データ の場合、評価値は逆になる。テストは対象データごとに 5 回ずつ計 30 回行った。. 0. 1. 2. 3. 4. 図 2 評価尺度(正解データが Ea の場合). 4. 3. 2. 1. 0. 図 3 評価尺度(正解データが Eb の場合). その評価は中央に収束することになる。ゲーム AI の人間ら しさにおける評価の基準値を中央値である 2(評価尺度にお ける「わからない」)と設定することで、従来、相対尺度を 用いていたゲーム AI の評価を絶対評価で行うことができる。 すなわち、チューリングテストによるゲーム AI の評価は、 中央値 2 に近づくほど人間らしいゲーム AI であると言える。 テスト過程では、「最初はそれぞれの動きを確認するため に、純粋に逃げきろうとするが、ある程度動きの確認ができ ると周回行動や不規則な行動などを行い、その行動に対する 反応を確認していた」というような被験者の判断傾向が見ら れた。このような傾向から、ゲームプレイにおいて、被験者 が主観に基づき、機械らしい行動と人間らしい行動をそれぞ れモデル化し、比較・評価していることが明らかになった。 人間が無意識のうちに行っている、主観に基づいた行動のモ デル化を定義することができれば、より人間らしいゲーム AI を作製できると想定される。. 6. おわりに 本稿では、ゲーム AI の客観的な人間らしさの判断基準を 確立することを目的とし、チューリングテストによる評価を 提案、その適用方法について議論した。実験では、人間同士 によるチューリングテストを行い、人間の操作における人間 らしさから、被験者が感じる人間らしさを表す評価尺度を設 定した。その結果、評価値は中央に収束することがわかり、 中央値をゲーム AI の人間らしさにおける評価の基準値とし て設定した。これにより、相対評価に留まっていたゲーム AI の評価を、絶対評価で行うことができた。また被験者は、 人間と AI の各操作を比較して判断する場合、個人の主観に よりそれぞれの行動をモデル化し、評価していることがわか った。このことから、人間が無意識のうちに行っている、主 観に基づいた行動のモデル化を定義することができれば、よ り人間らしいゲーム AI を作製できると想定される。今後の 課題として、被験者の主観的モデルの定義方法について考え ていくことが求められる。. 5. 結果および考察 表 1 は、4 章で実施したテスト結果の一部を抜粋したもの である。●が正解データを示し、○が被験者の評価を示して いる。表の左脇の数字は、図 2 および図 3 の評価尺度に基 づいて求めた評価値である。テストより得られた評価値の平 均を求めたところ、1,93 という値が得られた。 表1 赤が人間 1回目 2回目 3回目 4回目 5回目. ● ●. 2. 30回目. ●. ●. どちらかと どちらかと わからない 緑が人間 いえば赤 いえば緑 ○ ○ ○● ○ ○●. …. ・・・. 4 2 0 4 0. テスト結果. ○. 本実験において、被験者は追跡側キャラクターを操作して いるのは人間と AI だと認識して評価している。しかし、実 際にはどちらも人間が操作しているので、どちらが人間の操 作しているキャラクターであるか、という質問に対して被験 者は明確に判断することができない。これは、2 章で示した ゲーム AI におけるチューリングテストの定義と合致してい る。結果として、人間同士でチューリングテストを行うと、. 参考文献 [1]. 三宅陽一郎, デジタルゲームにおける人工知能技術の応用, 人工知能学会誌, Vol.23, No.1, pp.44-51 (2008) [2] 三宅陽一郎, プログラミング AI, デジタルコンテンツ制作の 先端技術応用に関する調査報告書 2008 年度版, pp73-136, 財団法人デジタルコンテンツ協会(DCAJ) (2008) [3] 安武諒, 山口崇志, マッキンケネスジェームス, 永井保夫, 対 戦型ビデオゲーム用ゲーム AI におけるチューリングテスト の有効性検証, 第 9 回情報科学技術フォーラム(2010) [4] 安武諒, 岩崎 信也, 山口崇志, マッキンケネスジェームス, 永井保夫, ゲーム AI におけるチューリングテストの適用評価, 第 10 回情報科学技術フォーラム(2011) [5] Stuart Shieber (ed.), The Turing Test, The MIT Press (2004) [6] 小渕洋一, 離散情報処理とオートマトン, 朝倉書店 (1999) [7] Foost Raessens, Jeffrey Goldstein, Handbook of Computer Game Studies, The MIT Press(2005) [8] J.Barnes, J.Hutchens, S.Rabin (ed.), Testing Undefined Behavior as a Result of Learning, AI Game Programming Wisdom, pp.615-623, Charles River Media Inc. (2002) [9] Daniel Livingstone, Turing’s Test and Believable AI in Games, ACM Computers in Entertainment (CIE), Vol.4, No.1 (2006) [10] 松原仁, チューリングテストとは何か, 人工知能学会誌, Vol.26, No.1, pp.42-44(2011) [11] 石黒浩, アンドロイドによるトータルチューリングテストの 可能性, 人工知能学会誌, Vol.26, No.1, pp.50-54(2011). 2-14. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..
(3)
関連したドキュメント
究機関で関係者の予想を遙かに上回るスピー ドで各大学で評価が行われ,それなりの成果
以上の結果について、キーワード全体の関連 を図に示したのが図8および図9である。図8
本稿で取り上げる関西社会経済研究所の自治 体評価では、 以上のような観点を踏まえて評価 を試みている。 関西社会経済研究所は、 年
実効性 評価 方法. ○全社員を対象としたアンケート において,下記設問に関する回答
通関業者全体の「窓口相談」に対する評価については、 「①相談までの待ち時間」を除く
図および図は本学で運用中の LMS「LUNA」に iPad 版からアクセスしたものである。こ こで示した図からわかるように iPad 版から LUNA にアクセスした画面の「見た目」や使い勝手
「TEDx」は、「広める価値のあるアイディアを共有する場」として、情報価値に対するリテラシーの高 い市民から高い評価を得ている、米国