第 5 章 総合考察 69
5.2 ゲーム AI における人間らしさのあり方
3章では,生物学的制約を導入することで,人間プレイヤに人間らしいと解釈さ れる振る舞いを表出するゲームAIを実現した.主観評価実験では,本手法による エージェントは,人間プレイヤよりも人間らしいと評価されている.しかしなが ら,「人間を模倣する」という意味での人間らしさと,「人間が人間らしいと感じる」
人間らしさは,必ずしもイコールではない可能性が高い.例えば,似顔絵におけ る「本人らしさ」の評価実験では,本人の顔の目や鼻,口などの特徴量を誇張した 似顔絵の方が,より本人らしいと評価される傾向にあることが示されている[64].
5.2 ゲームAIにおける人間らしさのあり方 さらに,似顔絵の経験者は似顔絵の初心者に比べ,各特徴をより大きく誇張した 似顔絵を描く傾向にあることも示されており[65],似顔絵経験者は意図的に本人 の顔の完全なトレースを避けていることが分かる.人間らしいゲームAIにおいて も,人間プレイヤの振る舞いの完全な模倣よりも,ある人間らしい特徴を誇張し て振る舞う方が,より人間らしいと評価される可能性もある.
4章では,横スクロール2Dアクションゲームを対象に,ゲームAIの人間らしさ の主観評価を実施した.本実験では,評価者の経験や知識量によって,人間らし さの評価軸が異なることを示した.しかし,他のリアルタイムゲームやターン制 ゲームでは,評価者の経験や知識量以外にも,評価者を統制する指針が必要にな ると考えられる.例えば,一人用ゲームか複数人で遊ぶゲームかによっても,人間 らしさの評価に差異が生じる可能性がある.スーパーマリオワールドやヨッシー アイランドなどの横スクロール2Dアクションゲームは,一人用として制作されて いるものが多い.人間らしさの評価の際は,自身の操作経験に基づいて形成され た人間らしさのモデルと,他者のゲームプレイとを比較していると思われる.一 方で,FPSやターン制ゲームでは,二人ないし複数人での対戦ゲームとして制作 されている.自身の操作経験と対戦相手の振る舞いから人間らしさのモデルを形 成できるため,人間らしさの評価が容易,もしくは,評価軸がより多い可能性が ある.最近では,動画サイトでゲームのプレイ動画が配信されていることも多く,
ゲームのプレイスキルはないがゲームの知識だけはある,というケースも考えら れるため,より精緻な評価者統制を検討する必要がある.
第 6 章 結論
本論文では,ビデオゲームを対象とし,機械学習を用いた「人間らしい」ゲー ムAIの自動獲得手法を提案した.人間らしい振る舞いを表出するゲームAIの構 成要素として,人間プレイヤに戦略レベルで適応するゲームAI,及び,生物学的 制約に基づく人間的なゲームAIを実装した.
戦略型ビデオTCGにおける人間らしい振る舞いを表出するゲームAIは,ラン ダムサンプリングと,状態の次元圧縮により,計算量を削減し,相手の行動予測 器,属性相性推定器,状態価値関数により真の状態を推定することで,最適行動 を選択する機構を設計することで実現した.加えて,モンスター特徴推定器,モ ンスター組み合わせの有効値学習器により,最適なモンスター組み合わせを学習 する機構を設計した.シミュレーション実験により,戦略学習機構が正常に動作 していること,比較的早期に相手の複数の戦略に適応して拮抗するような戦略を 得られること,新たなルールの追加に対して対応できていることが確認された.
アクションゲーム(Infinite Mario Bros.)における人間らしい振る舞いを表出す るゲームAIは,機械学習手法に生物学的制約を導入することにより実現した.生 物学的制約を導入した強化学習や経路探索により,「人間プレイヤがゲームをして いる」かのような振る舞いが表出され,また,主観評価実験により,それらの振 る舞いが人間プレイヤよりも人間らしいことを示した.生物学的制約は,開発者 のヒューリスティックや,人間らしさの解析に依らない要素であり,リアルタイム な操作が要求されるゲームであれば,ゲームジャンルや振る舞い獲得の手法を問 わず,人間らしいエージェントの振る舞いを獲得できる.
最後に,ゲームAIの人間らしさを評価する際の主観評価実験における,実験結 果の妥当性や再現性を確保するためのユーザ統制及び実験手法について述べた.考 慮すべき統制視点として,実験参加者の熟練度と知識量,実験刺激の提示順序,実 験参加者の評価基準と評価軸を挙げ,具体的な実験例として,アクションゲーム
(ヨッシーアイランド)を対象とした主観評価実験を実施した.評定結果と発話プ ロトコル分析からは,実験参加者の熟練度,知識量によっては,実験参加者間で 評定結果に差異が認められることが分かった.また,実験の途中に,実験参加者 内での評価基準に変化が生じる具体例も示した.
第6章 結論
ビデオゲームにおけるプレイフィールの向上には,人間らしいゲームAIの実装 が必要不可欠であり,その自律的獲得には,従来,ゲームジャンルやゲームタイ トルに合った作り込みが必要であった.本論文で提案した人間らしい振る舞いを 表出するゲームAIの自動獲得手法は,ヒューリスティックの導入に係る煩多な作 業負荷(開発コスト)を削減できると考えられる.また,人間らしいエージェン トが実現されることで,人間プレイヤの満足感の確保やエンタテインメント性の 持続といった,ユーザエクスペリエンスの向上につながる.
今後の展望としては,異なる機械学習手法でも人間らしいゲームAIの実現を目 指す,異なるゲームジャンルを学習対象として提案手法の実装を試みる,などが 挙げられるが,特に,主観評価実験における「評定結果に差異が生じる原因」の 特定,及び,主観評価実験の信頼性を確保するためのユーザ統制や実験計画の指 針の確立が急務である.実験参加者をさらに細かく群分けして評価実験を実施し,
評定結果分析と発話プロトコル分析を執り行う必要がある.
参考文献
[1] Claude Shannon. Programming a computer for playing chess. Philosophical Mag-azine, Vol. 7-41, No. 314, 1950.
[2] A. M. Turing. Computing machinery and intelligence. Mind, Vol. 49, pp. 433–460, 1950.
[3] 小谷善行. 第3回将棋電王戦を振り返って:3.コンピュータ将棋の棋力の客 観的分析〜人間のトップに到達したか?〜. 情報処理学会誌, Vol. 55, No. 8, pp. 851–852, 2014.
[4] カドカワ株式会社マーケティングセクション. ファミ通ゲーム白書 2015.
KADOKAWA・DWANGO /エンターブレイン, 2015.
[5] Jacob Schrum, Igor V. Karpov, and Risto Miikkulainen. Human-like behavior via neuroevolution of combat behavior and replay of human traces. 2011 IEEE Conference CIG’ 11, pp. 329–336, 2011.
[6] Juan Ortega, Noor Shaker, Julian Togelius, and Georgios N. Yannakakis. Imitating human playing styles in super mario bros. Entertainment Computing, Vol. 4, pp.
93–104, 2013.
[7] 仲道隆史,伊藤毅志. 機械学習を用いた棋力の調整方法の提案と認知科学的評 価. 研究報告ゲーム情報学, Vol. 2013-GI-30, No. 7, pp. 1–7, 2013.
[8] 杵渕哲彦,伊藤毅志. 手の流れを考慮して自然な手を選ぶ将棋aiの試作. 研究 報告ゲーム情報学, Vol. 2015-GI-33, No. 12, pp. 1–8, 2015.
[9] 池田心, Simon Viennot. モンテカルロ碁における多様な戦略の演出と形勢の 制御〜接待碁AIに向けて〜. ゲームプログラミングワークショップ2012論文 集, pp. 47–54, December 2012.
[10] 伊藤毅志,杵渕哲彦,藤井叙人. ゲームにおけるヒューマンエラー −将棋にお ける考察−. ゲームプログラミングワークショップ2014論文集, pp. 196–201, 2014.
参考文献
[11] 保木邦仁. 局面評価の学習を目指した探索結果の最適制御. ゲームプログラミ ングワークショップ2006論文集, pp. 78–83, 2006.
[12] Takuya Sugiyama, Takuya Obata, Kunihito Hoki, and Takeshi Ito. Optimistic selection rule better than majority voting system. Computers and Games, Lecture Notes in Computer Science, Vol. 6515, pp. 166–175, 2011.
[13] Kunihito Hoki and Tomoyuki Kaneko. The global landscape of objective functions for the optimization of shogi piece values with a game-tree search. Advances in Computer Games 2012, Lecture Notes in Computer Science, Vol. 7168, pp. 184–
195, 2012.
[14] Takenobu Takizawa. Computer shogi 2012 through 2014. ゲームプログラミン グワークショップ2014論文集, pp. 1–8, 2014.
[15] 瀧澤武信. コンピュータ将棋の現状 2015春. 研究報告ゲーム情報学, Vol.
2015-GI-34, No. 7, pp. 1–8, 2015.
[16] Julian Togelius, Sergey Karakovskiy, and Robin Baumgarten. The 2009 mario AI competition. Evolutionary Computation (CEC) 2010 IEEE, pp. 1–8, 2010.
[17] J.Togelius, S.Karakovskiy, J.Koutnik, and J.Schmidhuber. Super mario evolution.
2009 IEEE Conference on Computational Intelligence and Games(CIG’09), pp.
156–161, 2009.
[18] Jyh-Jong Tsay, Chao-Cheng Chen, and Jyh-Jung Hsu. Evolving intelligent mario controller by reinforcement learning. 2011 Conference on Technologies and Ap-plications of Artificial Intelligence, pp. 266–272, 2011.
[19] 藤田肇,石井信. マルチエージェントカードゲームのための強化学習法の改良. 電子情報通信学会技術研究報告, Vol. 102, No. 731, pp. 167–172, 2003.
[20] Shin Ishii and Hajime Fujita. A reinforcement learning scheme for a partially-observable multi-agent game. Machine Learning, Vol. 59, pp. 31–54, 2005.
[21] 藤田肇,石井信. 部分観測カードゲームのためのモデル同定型強化学習. 電子 情報通信学会論文誌, Vol. J88-D-II, No. 11, pp. 2277–2287, 2005.
[22] Hajime Fujita and Shin Ishii. Model-based reinforcement learning for partially observable games with sampling-based state estimation. Neural Computation, Vol. 19, pp. 3051–3087, 2007.
参考文献 [23] 美添一樹. モンテカルロ木探索: コンピュータ囲碁に革命を起こした新手法.
情報処理学会論文誌, Vol. 49, No. 6, pp. 686–693, 2008.
[24] 田中一樹,徳重毅,藤田玄. コンピュータ囲碁におけるプレイアウト情報に基づ く局面評価を用いたモンテカルロ木探索. ゲームプログラミングワークショッ プ2015論文集, pp. 1–4, 2015.
[25] 渡辺順哉, 美添一樹, 金子知適. モンテカルロ木探索を統合したプレイアウト 方策の最適化. ゲームプログラミングワークショップ2015論文集, pp. 5–11, 2015.
[26] 武藤孝輔, 西野順二. ターン制戦略ゲームにおけるファジィ評価を用いた探 索木の枝刈り. ゲームプログラミングワークショップ2015論文集, pp. 54–60, 2015.
[27] 佐藤直之, 藤木翼,池田心. ターン制戦略ゲームにおける局面評価値構成のた めの局面分割および単純化ゲームのオフライン木探索. ゲームプログラミン グワークショップ2015論文集, pp. 61–68, 2015.
[28] 水上直紀,鶴岡慶雅. 期待最終順位の推定に基づくコンピュータ麻雀プレイヤ の構築. ゲームプログラミングワークショップ2015論文集, pp. 179–186, 2015.
[29] Santiago Ontanon, Gabriel Synnaeve, Alberto Uriarte, Florian Richoux, David Churchill, and Mike Preuss. A survey of real-time strategy game ai research and competition in starcraft. Computational Intelligence and AI in Games, Vol. 5, No. 4, pp. 293–311.
[30] 鎌田徹朗,橋本剛,高野誠也. Starcraft aiへの隊列導入. 研究報告ゲーム情報学, Vol. 2015-GI-33, No. 10, pp. 1–6, 2015.
[31] David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershel-vam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalch-brenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. Mastering the game of go with deep neural networks and tree search. Nature, Vol. 529, pp. 484–489, 2016.
[32] 稲葉通将, 大澤博隆, 片上大輔, 篠田孝祐, 鳥海不二夫. 議論の構造に着目し た人狼ゲームの分析. ゲームプログラミングワークショップ2014論文集, pp.
61–66, 2014.