研究業績藤井叙人（ふじいのぶと，Nobuto Fujii）

(1)

観測情報の信頼性に着目した

ビデオゲームエージェントの自律的行動獲得

藤井叙人

*1

佐藤祐一

∗₁

若間弘典

∗₁

片寄晴弘

*2

Autonomously Acquiring a Video Game Agent’s Behavior Imposed by Biological Constraints Nobuto Fujii^*1, Yuichi Sato^∗¹and Hironori Wakama^∗¹and Haruhiro Katayose^*2

Abstract – ビデオゲーム開発におけるコンピュータプレイヤ_(COM)の振る舞いの実装にあたり，経路

探索や機械学習による振る舞いの自律的獲得手法が多々提案されている．これらの手法では，時に人間プレイヤよりも優れた振る舞いや戦略の獲得に成功しているものの，非常に「機械的」であり，「人間的」であるとは言いがたい．本研究では，強化学習の枠組みに人間の_“生物学的制約_”を導入することで，人間プレイヤに人間的であると解釈されるような振る舞いの自律的獲得を目指す．アクションゲームの“Infinite Mario

Bros.”^{を学習対象とし，}“^{生物学的制約}”として，センサ系や運動系の_“ゆらぎ_”，知覚と運動制御のプロセス

における_“遅れ_”，キー操作による身体的な_“疲れ_”を導入することで，_COMの振る舞い獲得を試みる．また，得られた_COMの振る舞いの評価，及び，本研究の発展可能性について述べる．

Keywords : Video game agent, COM player, Human player, Machine learning, Q-learning, Biological perceptual and Physical constraints, Autonomously strategy acquisition system, behavior pattern, Infinite Mario Bros., Super Mario Bros.

1 ^はじめに

ユーザとシステムとのインタラクションデザインは，現在のＩＴ研究領域の中核として位置付けられ，多くの研究成果が報告されている．従来の検討の多くはユーザビリティの確保を主眼としたものであった．これに対し，システムへの人間らしさの実装と，それがユーザに及ぼす影響の重要性に認識が進み，最近では，ヒューマノイド型ロボットの主要研究テーマの一つに取り上げられるに至っている．機械への人間らしさの実現が可能なのか，また，どう実現されるのかは人工知能の根幹的な興味の一つであり，古くは，J.Weizenbaum によるELIZA(1966)[15]^{，戸田らによる}NENE^プロジェクト_(1988)[17]が知られている．現在では，ビデオゲームデベロップメント分野において，シ

*1

関西学院大学大学院理工学研究科情報科学専攻_{, nob-} [email protected]

*2

関西学院大学理工学部人間システム工学科_, [email protected]

*1_Department _of Informatics, Graduate School of Science and Technology, Kwansei Gakuin University, mail:[email protected]

*2_Department _of _Human _System Interaction, School of Science and Technology, Kwansei Gakuin University, mail:[email protected]

ステム₍コンピュータ：_COM)の実装という具体的なニーズに根ざした実践的な研究開発が執り行われている．

ビデオゲームは，人間プレイヤの相手₍協力関係ないし敵対関係₎という視点から分類すると，人間が相手を務める場合と，_COMが相手を務める場合の二つに分類される．後者においては，COMの振る舞いや戦略が人間プレイヤの楽しみを決めると言っても過言ではない．そのため，市販ビデオゲームでは，プログラマの経験に基づく綿密な作り込みと，数多くのデバッグプレイにより，これらの実現がなされてきた．しかし，極めて煩雑な作業であり，リアリティを追求すると開発コストが膨大とならざるをえない．その解決策として，_COMの振る舞いや戦略の自動獲得に向けての研究が行われている．具体的には，学習フェーズを持たない経路探索に帰着するアプローチ_{[14, 7]}，人間のプレイデータや学習試行に基づく機械学習によるアプローチ[20, 19, 5, 18, 4]などが提案されており，将棋やトランプゲームに適用され，自動化の可能性が実証されている．

COMの振る舞いや戦略に関連するコンテストとして，“Mario AI Competition”[1, 9]^や“^世界コン

(2)

ピュータ将棋選手権_”[3]などが毎年開催されている．これらのコンテストでは，最も強い振る舞いや戦略を有するアルゴリズムが優勝となり，そのアプローチとして経路探索や機械学習が多く用いられている．しかしながら，これらの手法で獲得された_COMの振る舞いや戦略は，時に人間のエキスパートより優れているものの，機械的で人間離れしており，人間プレイヤに楽しみを提供するという目的に立った場合，十分な成果が得られているとは言いがたい．人間らしい振る舞いや戦略の自動獲得には，プログラマのヒューリスティックスが多数必要となるため，強い振る舞いや戦略を獲得するよりも困難である．

本研究では，「人間プレイヤがゲームをしている」と感じられるような「振る舞い」や「戦略」を，可能な限りヒューリスティックスを排除した環境下で自律的に獲得する機構（自律的行動獲得機構）について検討する．その方策として，強化学習の枠組み[19, 5, 18, 4]^{に対して，人間の}“^{身体的制約}” をパラメータとして組み込み，身体的制約下で学習を進め最適化することで，「人間プレイヤがゲームをしている」ような振る舞いが表出されるかについて検証する．人間の_“身体的制約_”として組み込むのは，見間違いや手が滑ったというようなセンサ系や運動系の「ゆらぎ」，知覚と運動制御の一連のプロセスにおける「遅れ」，キー操作による身体的な「疲れ」というシンプルな生物学的制約のみである．

以下，第₂章で関連研究を紹介し，第₃章で，本研究で自律的行動獲得に使用する学習方法と，学習対象とする“Infinite Mario Bros.”^{の仕様ついて} 紹介する．第₄章で，自律的行動獲得機構の実装方法について述べ，第₅章で，学習実験によって COMの振る舞いの獲得状況について検証する．第 6章で，本研究で獲得された_COMの振る舞いが人間らしいかどうか議論する．

2 ^関連研究

本研究では，ヒューリスティックスの導入に代わって，人間の身体的制約を強化学習の枠組みに組み込むことにより，人間らしいと感じられる振る舞いを自律的に獲得する機構の構築を目指す．本

章では，振る舞いや戦略を自動的に獲得する関連研究と，人間の身体的制約に関する関連研究を紹介する．

2.1 「振る舞い」や「戦略」を自動的に獲得する手法

振る舞いや戦略を自動的に獲得する手法として，経路探索問題に帰着する手法_{[14, 7]}と，人間のプレイデータや試行による機械学習を用いる手法がある．

経路探索問題によるアプローチのうち代表的なものとして，_Robinは，₂₀₀₉年のMario AI Competi- tion^{において，}A*アルゴリズムに基づいたエージェントを構築し優勝している_[14]．Mario AI Compe- titionとは，“Infinite Mario Bros.”（ランダムに生成されるマリオライクなステージを，制限時間中に攻略するアクションゲーム．詳しい仕様は第₃章で説明する．）を対象としたエージェント評価コンテストである_{[1, 9]}．マリオや敵キャラクタの動きを事前に学習・解析し，_A*アルゴリズムを用いたルート探索によってステージを攻略することで，敵キャラクタを可能な限り避け，ステージをより早く，より遠くまで攻略することが可能となっている．しかし，経路探索問題の解法を用いて構築されたエージェントは，極めて最適な行動パターンを獲得しているものの，その「振る舞い」は人間離れしたものといえる．

機械学習を用いるアプローチとして，教師あり学習[20, 10, 13]，教師なし学習，強化学習_{[19, 5,} 18, 4, 12, 11, 16, 6]の３つに大きく分類される．

教師あり学習は，事前に与えられた大量のデータセットを教師データ（入力データに対して出力されるべきデータの例）とし，有用なルールを学習する手法である．人間のプレイデータによる教師あり学習の代表的な研究として，保木は，将棋を対象としたコンピュータ将棋プログラムである Bonanza^{を提案している}[20]^．Bonanza^{は，プロ棋} 士の棋譜₆万局のデータを教師とし，将棋の局面における評価関数を自動学習することで，従来手法よりも良い戦略を得ることに成功している．将棋のように強いプレイヤの膨大な棋譜データが用意できる場合には，自動学習による戦略獲得は有効である．

(3)

一方，強化学習は，同じ機械学習に分類されるアプローチでも，膨大な事例を与える必要がなく，自身の「振る舞い」の試行を重ねて最適な戦略を獲得していく．

藤田らは，カードゲームの_Heartsを題材とし，_Q 学習を用いて戦略獲得に成功している_{[19, 5]}．カード₅₂枚を使用するため巨大な状態空間となること，相手の所持するカードは観測できないため部分観測状況となること，₄人対戦のマルチエージェントゲームであること，の₃つを_Heartsにおける戦略学習の困難性と考察している．その上で，解決手法として，パーティクルフィルタ，相手の行動予測器，状態を評価する状態価値関数，ゲームの特徴に基づく次元圧縮を提案している．計算機実験として，提案手法に基づく学習エージェントと，人間の熟達者とを対戦させた結果，人間の熟達者よりも優れた戦略を得ることに成功している．

また，藤井らはポケットモンスターや遊戯王といったメジャーなトレーディングカードゲーム（_TCG）

を基にした戦略型ビデオ_TCGを設定し，多層パーセプトロンを用いた戦略獲得を検討している_[18, 4]．戦略型ビデオ _TCGでの戦略学習は，将棋や

Heartsと異なる学習フレームワークが必要となる．

準備段階でのカードの組合せ，魔法などの特殊効果，罠などの特定の条件で発動する効果，といった戦略型ビデオ_TCG特有の戦略学習が必要不可欠だからである．計算機実験として，提案手法に基づく学習エージェントと，異なる戦略をもつ３つのルールベース戦略とを対戦させた結果，相手の戦略に適応できる戦略の獲得に成功している．

これらの研究では，学習対象のゲームに対する振る舞いや戦略の自動獲得には成功しているものの，それが人間らしいかどうかという議論はなされていない．

2.2 ^人間の“^{身体的制約}”^の導入

生物の_“身体的制約_”がシステムの振る舞いにどのような影響を与えるかの検討を実施した研究と

して，_Cabreraらは，人間の指先による直立棒の制

御実験を実施している_[8]．人間は，情報処理能力の限界により反応に「遅れ」が生じ，また，物体の位置を観測するうえで「誤差（ゆらぎ）」が生じる，といった行動制御の特徴がある．この実験で

は，指先の動きの特徴的スケールが反応時間よりも短い場合が頻繁に観測され，また，訓練によって制御がうまくなるという実験結果が示されている．この結果から，身体的制約を意識的もしくは無意識的に考慮し，指先の行動制御に対してノイズを取り入れているのではないか，と_Cebreraらは提唱している．

人間は，_“身体的制約_”を考慮し，安全性とパフォーマンスを両立する行動制御を実現している．ゲームの振る舞いや戦略の自動獲得において，積極的に_“身体的制約_”を組み込んだ研究例は報告されていないが，ステージ条件が変わった場合に頑健な動作をする方略や行動パターンが獲得される可能性がある．

3 強化学習手法と学習対象ゲーム本研究では，人間の持つ_“身体的制約_”を強化学習エージェントに組み込むことで，「人間らしい」と感じられるゲームの振る舞いの自動的な獲得を目指す．振る舞い学習に用いる強化学習手法として Q学習を用い，人間の持つ_“身体的制約_”として，センサ系や運動系の「ゆらぎ」，知覚と運動制御のプロセスにおける「遅れ」，キー操作による身体的な「疲れ」を，_Q学習を実施する際の付帯条件として課す．以下，振る舞い学習に用いる強化学習手法の_Q学習，学習対象とするアクションゲーム

“Infinite Mario Bros.”のルールについて説明する． 3.1 ^{強化学習手法の検討}

振る舞いの学習には大量の学習データが必要となるが，ビデオゲームにおいては，教師データとなる熟達者のプレイデータが大量に用意できないため，学習試行により振る舞いの獲得が可能な強化学習の手法を用いる．また，将棋や_TCGと違い，ゲームの状態の評価はあまり重要ではなく，あるゲームの状態におけるエージェントの行動に対する評価が重要となる．本研究では，上記を鑑み，行動に対して直接評価を与え学習することができる Q学習を用いて，自律的行動獲得機構を実装する． 3.2 Q^{学習の概要}

Q学習は，あるゲーム状態における行動の価値を学習する強化学習手法の一つである．あるゲー

(4)

ム状態を_s,その状態下でエージェントが可能な行動を_aとした場合，状態_sと行動_aを組とし，その組に対する_Q値とよばれる評価値を算出する．あるゲーム状態での最適行動は数式₁で決定され， Q値が最も高い行動が最適であると出力する．また，_Q学習における_Q値の更新式は数式₂であり，エージェントが行動するたびに_Q値を更新することで振る舞いの獲得が可能となる．

argmax_a_tQ(s_t,a_t) (1) Q(st,at) = (1 − α)Q(st,at) + α((r + γmaxpQ(st+1,p)) (2)

数式₂において，_tはゲームのフレーム，_s_tはフレーム_tにおける状態，_a_t はフレーム_tにおいてとった行動，_Q(s_t_,_a_t₎は_(s_t_,_a_t₎に対応する_Q値である．α は学習率呼ばれ，Q^{値の更新において新} たな報酬をどれだけ重視するかを示す値であり，_γ は割引率と呼ばれる₀以上₁以下の定数である．_r は状態_s_tにおいて行動_a_tをとったことによって得られる報酬である．エージェントの行動選択手法としては_{ϵ −}_greedy法を用いる．_{ϵ −}_greedy法は，

1 − ϵ^の確率でQ値が最大となる最適行動を選択し，

ϵ の確率でランダムに行動を選択する． 3.3 Infinite Mario Bros.

学習対象としては，ゲーム世界の状態が正確に観測できること，リアルタイムにプレイヤ操作を反映できるゲームであること，かつ，限りなく同じ状況を再現できることが求められる．また，強化学習において行動パターンを獲得するためには，明確な学習目標が設定できることも重要である．本研究では，“Inifinite Mario Bros.”[2]^{を学習対象} とし，振る舞いの獲得と，その比較，検証を実施する．第₂章で述べた_Robinのエージェント_[14] を１つの最適解として扱うこととし，学習環境等

は_Robinのエージェントのものと同一に設定する．

“Inifinite Mario Bros”は，世界的に有名なゲームである“Super Mario Bros.”を模したアクションゲームであり，そのゲーム画面を図₁に示す．

“Infinite Mario Bros.”における仕様は以下のとおりである．

• ステージの自動生成

図₁ “Infinite Mario Bros.”^{のゲーム画面} エージェントは，制限時間内に進んだ距離や倒した敵の数から算出されるスコアを競う．

事前に与えたシード値に従って無限にステージが生成される．

• エージェントの操作キャラクタ（マリオ）エージェントはマリオを操作する．エージェントによるマリオの操作はキー入力_(LEFT, RIGHT, DOWN, SPEED, JUMP)^{により行う．} フレーム毎のキーの押下状態により，マリオは対応した行動を行う．また，マリオには「でかマリオ」「ちびマリオ」が存在する．「でかマリオ」でダメージを受けた場合は「ちびマリオ」に変化し，「ちびマリオ」でダメージを受けた場合は死亡する．ダメージについては，後述の接触判定において説明する．穴に落ちた場合は「でかマリオ」「ちびマリオ」を問わず，死亡する．

• 敵キャラクタ

複数種類の敵キャラクタが登場し，敵キャラクタはそれぞれ独自のアルゴリズムで動作している．この敵キャラクタはいわゆる「お邪魔キャラ」として設定されており，エージェントはこの敵キャラクタを避けて進むか，倒して進むか，どのように処理するかが求められる．マリオは敵キャラクタとの接触判定によってダメージを受ける場合がある．踏むことができる敵キャラクタは，踏む以外の行動

(5)

で接触した場合ダメージを受ける．踏むことができない敵キャラクタは，接触した場合ダメージを受ける．

• スコアの獲得

マリオが死亡する，または，設定された制限時間に達すると攻略は終了し，スコアを獲得する．スコアは既定の評価関数で計算され，敵キャラクタを倒した数，ステージを攻略した距離などに応じてスコアが上昇する．獲得スコアが高いほど優秀なエージェントとして評価することができる．

• エージェントの観測情報

観測情報として，マリオの座標，マリオの状態，画面内の敵キャラクタの種類および座標，地形情報といったものを観測情報として得ることができる．エージェントの観測する地形情報は，ステージに配置されているブロックのうち，画面内にある_{22 × 22}のブロックの配置情報となる．“Infinite Mario Bros.”^は毎秒₂₄フレームで動作しており，エージェントは毎フレーム観測情報を受け取り，マリオの行動制御を行うためのキー入力を返す必要がある．

“Infinite Mario Bros.”^はWeb^{サイトからダウン} ロード可能なオープンソースであり，プレイヤは

“Super Mario Bros.”^{のようなゲームを}JAVA^環境でプレイすることができる．ゲームにおける詳細なパラメータも制御可能であるため，_COMの振る舞いを自動的に獲得する機構の構築に適しているといえる．

4 “^{身体的制約}”下での行動パターン獲得

“^{身体的制約}”の「ゆらぎ」と「遅れ」を強化学習の枠組みに組み込むことにより，観測情報が必ずしも信頼できる情報ではない「非理想環境」で学習を進めることになる．そのため，正確なゲームの状態を得ることができず，エージェントの自律的行動獲得には困難性が生じる．本章では，この困難性を解決し，エージェントの振る舞いを獲得するための手法について述べる．まず，強化学習の枠組みにおける身体的制約の扱いについて説

明し，次に，観測情報とエージェントの行動における状態圧縮について述べる．最後に，_Q学習における報酬の設定について記述する．

4.1 ^{学習機構における}“^{身体的制約}”^の扱い人間の_“身体的制約_”による「ゆらぎ」「遅れ」「疲れ」を，強化学習の枠組みに組み込むにあたり，「観測位置情報のゆらぎ」「情報認識の遅れ」「キー操作の疲れ」として以下のとおり定義する．

1. ^{観測位置情報のゆらぎ}

人間プレイヤは，観測した操作キャラクタと敵キャラクタの位置（座標）を正確に認識することは難しく，観測位置情報には誤差（ゆらぎ）が発生する．つまり，観測した座標は，正しい座標に対してノイズが付与された情報と扱うことができる．これを観測位置情報のゆらぎと定義し，操作キャラクタ，敵キャラクタの座標に対してガウスノイズを付与したものを，エージェントの観測とすることで再現する．節_3.2で述べた数式₁の_Q(s_t_,_a_t₎ の計算の際に_s_tとして与える操作キャラクタと敵キャラクタの位置情報に対して，さまざまな分散₍分散₈₌ブロック半分，分散₁₆₌ ブロック１つ分₎をもつガウスノイズを付与する．

2. ^{情報認識の遅れ}

人間プレイヤは，ゲームの状態を観測し認識してから，実際に行動をするまでに遅れが発生する．つまり，実際に行動する時点では観測情報は過去の情報となっている．これを情報認識の遅れと定義し，エージェントの観測するゲーム状態を数フレーム過去の情報にすることで再現する．節_3.2で述べた数式₁の Q(st,at)^{の計算の際に}st^{として与えるゲーム}

状態を，数フレーム前の状態₍遅れ₆フレーム_=0.25秒，遅れ₁₂フレーム_=0.5秒₎とする． 3. ^{キー操作の疲れ}

人間プレイヤは，キー操作を極めて短時間で，または，長時間連続して実施すると疲れが生じる．これをキー操作の疲れと定義し，エージェントは可能な限り少ないキー操作で攻略

(6)

するよう学習することで再現する．節_3.2で述べた数式₂の_Q値の更新の際に，報酬_rにキー操作による負の報酬として与える．報酬 r^{については，節}4.3^{で詳しく述べる．}

上記の_1.，_2.における，位置情報に付与するガウスノイズの分散値の大きさ，情報認識の遅れの大きさについては，観測情報の信頼性パラメータとして定義する．信頼性パラメータを操作することで，観測情報に対する信頼性を変化させることが可能となる．

4.2 観測情報と行動の状態圧縮

Q学習は学習時間が状態数の指数関数オーダーとなる．そのため，現実的な学習時間で学習が収束し，行動パターンを獲得できるような状態数に状態圧縮する必要がある．そこで，観測情報は以下のとおり圧縮する．

• マリオを中心とした _{7 × 7}ブロックの地形情報

エージェントが観測可能な地形情報は画面を

22 × 22ブロックに分割したものである．し

かし，₁フレームあたりのマリオの移動距離は小さく，画面内全ての地形情報がマリオの行動に影響することはない．そこで，学習に使用する地形情報は，マリオを中心とした₇

×₇ブロックとする．

• マリオを中心とした_{7 × 7}ブロックの敵キャラクタの配置

地形情報と同じく，₁フレームあたりのマリオの移動距離は小さいため，マリオに近い敵キャラクタの位置情報が重要となる．また，観測情報における敵キャラクタの位置は座標で与えられるが，_x軸_y軸単位の座標で状態設定した場合，状態数の肥大化につながる．そこで，学習に使用する敵キャラクタの配置は，マリオを中心とした_{7 × 7}ブロックのブロック単位の座標に圧縮する．

• 「でかマリオ」か「ちびマリオ」か

「でかマリオ」か「ちびマリオ」かは，マリオの行動に大きく影響しない．しかし，「で

表₁ 行動の種類とキー入力の組み合わせ行動の種類 (Left,Right,Down,Jump,Speed)

右に歩く (OFF,ON,OFF,OFF,OFF)

右に走る (OFF,ON,OFF,OFF,ON)

右に歩きジャンプ (OFF,ON,OFF,ON,OFF) 右に走りジャンプ (OFF,ON,OFF,ON,ON)

左に歩く (ON,OFF,OFF,OFF,OFF)

左に走る (ON,OFF,OFF,OFF,ON)

左に歩きジャンプ (ON,OFF,OFF,ON,OFF) 左に走りジャンプ (ON,OFF,OFF,ON,ON)

しゃがむ (OFF,OFF,ON,OFF,OFF)

かマリオ」でダメージを受けた場合は「ちびマリオ」に変化するだけで攻略を続行できるが，「ちびマリオ」でダメージを受けた場合は死亡扱いになるため，より長く攻略を進めるうえでは，_Q学習の観測情報として設定する必要がある．

• マリオの進行方向

“Infinite Mario Bros.”^{においてマリオの進行} 方向は重要である．例えば右に敵キャラクタがいる状況を想定した場合，マリオが右に移動している場合は，その敵キャラクタを考慮した行動をとる必要がある．しかし，マリオが左に移動している場合は，敵キャラクタから離れていく行動となるため，その敵キャラクタを考慮する必要性は少ない．そこで，マリオの進行方向を₈方向＋停止の₉状態として設定する．

次に，行動の設定について述べる．マリオの制御はキー入力のよって行う．このキー入力の組み合わせにおいて，行動制御に影響がある９つの組み合わせを，可能な行動として設定する（表₁）．

節_3.2で述べた_Q(s_t_,_a_t₎の算出において，_s_tと atには上記の状態圧縮を施したものとすることで，計算量を削減し現実的な学習時間で学習を収束させることが可能となる．

4.3 ^{報酬の設定}

Mario AI Competitionでは「敵キャラクタを可能な限り避け，ステージをより早く，より遠くまで攻略する」ことが目標とされている．そのため，ス

(7)

テージを早く攻略することに対して正の報酬を与え，逆にダメージを受ける，死亡するといった攻略を阻害する要因に対して負の報酬を与えることが望ましい．また，節_4.1で述べた，キー操作による疲れを実現するため，キー操作を変更した場合は負の報酬を与える必要がある．

そこで，報酬_rewardを以下のとおり設定する．

reward = distance + damaged + death + keyPress (3)

数式₃において，_distanceは行動によって進んだ距離であり，そのまま正の報酬とする．_damaged は行動によってダメージを受けた場合に与える負

の報酬，_deathは行動によって死亡した場合に与え

る負の報酬である．また，_keyPressは前フレームから行動を変更した場合に与える負の報酬である．

5 ^{計算機実験}

本章では，自律的行動獲得機構を用いて，実際に行動パターンを獲得することができたかについて検証を行う．また，観測情報の変化により獲得行動パターンにどのような違いが生まれたかについて考察する．

5.1 エージェントの学習性能の検証

提案した自律的行動獲得機構が有効であることを示すため，異なる身体的制約を与えた場合における獲得スコアの推移を調べる．毎回新たにランダム生成されるステージを対象として学習試行を行い，学習試行回数は₁₀万ゲーム，₂₀₀ゲームごとの獲得スコアの平均をとる．_Q学習に関連するパラメータ設定として，学習率_{α を}_0.2，割引率_{γ を} 0.9^，ϵ −greedy法におけるランダム選択確率を_0.05 と設定した．また，報酬_rにおける_distanceは進んだ距離×_2.0，_damagedは_-50.0，_deathは_-100.0， keyPress^は-5.0とした．エージェントに与える身体的制約の信頼性パラメータとして，遅れ₆フレーム₍約_0,25秒）・分散₈₍半ブロック分相当₎，遅れ₁₂ フレーム₍約_0.5秒）・分散₁₆₍₁ブロック分相当₎，および理想環境に相当する遅れ₀フレーム・分散₀ という３組を用い，３つのエージェントを用意した．また，獲得スコアの比較対象として第₂章で

紹介した_Robinのエージェントを用いた．その結

果を図₂に示す．図₂から，どの信頼性パラメータの組においても学習が進んでいることを確認できた．理想環境に相当する信頼性パラメータを与えたエージェントの獲得スコアについて，最適解に相当する_A*エージェントの獲得スコアに近いスコアを獲得できていることから，自律的行動獲得機構により，比較的良い行動パターンを学習できていることが示された．

次に，あらかじめ信頼性パラメータを与え行動パターンを獲得したエージェントに対して，新たに様々な信頼性パラメータを与えて獲得スコアがどのように変化するか検証する．_Q学習に関連するパラメータおよび信頼性パラメータは先程と同じものを用い，自律的行動獲得機構により３つのエージェントを用意した．比較対象として，_“身体的制約_”を考慮しない，_Q学習のみを用いたエージェントも用意した．学習試行回数は₁₀万ゲームとし，₁₀万ゲーム試行後に学習をストップさせ，様々な信頼性パラメータを与え₂₀₀ゲームの獲得スコアの平均をとった．その結果を図₃に示す．図 3^{において，}Q学習のみのエージェントは，信頼性パラメータによって観測情報の変化が大きくなるにつれ，大きく性能が低下していることがわかる．一方，自律的行動獲得機構によるエージェントは観測情報の変化が大きくなるにつれ，スコアの減少は見られるが，対応手法を持たせていないエージェントと比べると減少の幅は小さい．この結果から，学習に用いた環境から更に環境が変化した場合でも，性能の揺れ幅を小さく抑えることができたことがわかる．また，状況の変化に弱いという強化学習の問題を低減できたことがわかる．自律的行動獲得機構が，環境の変化に対して適切に対応できていることが示された．

5.2 ^{行動パターンの検証}

身体的制約を与えたエージェントが獲得した行動パターンが，理想環境で獲得した行動パターンと比べ，どのように変化したか検証する．理想環境（遅れ₀フレーム・分散₀）と，非理想環境（遅れ₆フレーム・分散₈）で学習したエージェントの行動パターンを比較する．それぞれの最適な行動パターンを比較するために，毎回同じステージが生成されるようにした状態で₁₀万ゲーム学習試行

(8)

図₂ 異なる信頼性パラメータを与え学習した際の獲得したスコアの推移

どの信頼性パラメータの組においても学習が進んでおり，行動パターンの獲得に成功している．

図₃ 学習後に信頼性パラメータを変化させた際の獲得スコアの推移

身体的制約の導入により環境の変化に対する性能の揺れ幅を抑制することに成功している．

を行い，試行中最も高いスコアを獲得したプレイを比較する．_Q学習に関連するパラメータ設定は 5.1節と同じものを用いた．

比較の結果，現れた行動パターンの傾向の違いについて図₄∼図₆に示す．図₄は，触れることができない敵キャラクタの攻略における行動パターンの違いである．理想環境では最小限のジャンプでノンストップで攻略しているのに対し，非理想環境では大きくジャンプし，また途中一瞬止まるような動作をしつつ攻略した．次に，図₅は大量の敵キャラクタが存在する区間の攻略における行動パターンの違いである．理想環境では正確な行動制御を持って敵キャラクタが大量に存在する区間を攻略しているのに対し，非理想環境では区間の手前で待機し，安全にいける状態に変化するのを待ってから攻略した．最後に，図₆は落ちると死亡する穴に対する攻略における行動パターンの違いである．理想環境では穴に落ちる寸前のところで最小限のジャンプで攻略しているのに対し，非理想環境では穴の少し手前で大きくジャンプをし，余裕を持って攻略した．理想環境ではパフォーマンスのみを重視しており，非理想環境では安全性も考慮した行動パターンを獲得しているといえる．

“^{身体的制約}”を強化学習に組み込むことで行動パターンの特徴が変化していることが示された．

6 行動パターンの人間らしさの考察 6.1 行動パターンの視聴実験

自律的行動獲得機構によって獲得した行動パターンがどの程度「人間らしさ」を持ったかについて，初期的検討を行う．初期的検討として_5.2節で用いた２つのエージェントのプレイ動画と，人間プレイヤのプレイ動画を被験者₆名による視聴実験によって人間らしさを判定した．エージェントのプレイ動画は，_5.2節と同じ_Q学習に関連するパラメータを用い，学習対象のステージに対して10 万回学習試行を行い，試行中最も高いスコアを獲得したプレイログを抽出した．人間プレイヤのプレイ動画は，対象のステージを₁₅分間プレイしてもらい，最も高いスコアを獲得したプレイを採用した．

２つのエージェントと人間プレイヤのプレイ動

(9)

図₄ 理想環境（左）と非理想環境（右）での獲得行動パターンの比較画像₍敵を回避₎ 理想環境では最小限のジャンプで走り抜けるのに対し，非理想環境では大きくジャンプする．

図₅ 理想環境（左）と非理想環境（右）での獲得行動パターンの比較画像₍大量の敵が存在₎

理想環境ではためらわずに攻略しているのに対し，非理想環境では安全になるまで待つ．

図₆ 理想環境（左）と非理想環境（右）での獲得行動パターンの比較画像₍穴を飛び越える₎

理想環境では穴のギリギリからジャンプしているのに対し，非理想環境では余裕を持ってジャンプする．

画に対し，「踏めない敵が存在する」「敵が大量に存在する」「穴が存在する」といった特定の区間で切り取った動画をそれぞれ₆動画ずつ作成した．比較手法は，シェッフェの一対比較法の浦の変法を用いた．同じ区間を対象とした₂動画を被験者に視聴してもらい，どちらが人間らしかったかを₄段階で点数化し判定してもらった．

実験の結果，ある₁区間について，非理想環境のエージェントが理想環境のそれよりも人間らしいという有意傾向が見られた（有意水準_0.1)．また，人間プレイヤが理想環境のエージェントよりも人間らしいという有意傾向も見られた．この区間は，触れることのできない敵キャラクタの存在する区間である．理想環境のエージェントは最小限のジャンプを行いノンストップで攻略するという行動パターンであったが，人間プレイヤおよび非理想環境のエージェントは，敵キャラクタに対してためらうかのように一瞬止まり，その後大きくジャンプして回避する行動パターンであった．「何を基準に人間らしいと判断したか」という自由記述質問において，「敵キャラクタの前で一瞬ブレーキをかける」「ためらいがある」といった回答があったことから，安全性を考慮した行動パターンが人間らしいと感じる要因の一つであること，_“身体的制約_”を強化学習の枠組みに組み込むことで人間らしい行動パターンの獲得に成功していることが示された．

6.2 様々なゲームジャンルへの適用に向けて第₅章の実験結果から，強化学習の枠組みに人間の身体的制約を導入することで，状況の変化に対して適切に対応できていること，人間プレイヤだと解釈されるような行動パターンの獲得が可能であることが示された．

ビデオゲームエージェントにおける「人間らしさ」は，ゲームジャンルごと，ゲームタイトルごとに違った要素が必要となる．それゆえ，ビデオゲームに人間らしいエージェントを組み込む場合，ゲームタイトルに合った人間らしさの解析が重要となる．しかし，本研究では，_“身体的制約_”のみを組み込むことで，「人間プレイヤがゲームをしている」ような行動パターンが表出できる可能性を示した．様々なゲームジャンル，ゲームタイトル

(10)

に対して，自律的行動獲得機構は有効であると考えられる．

7 おわりに

本稿では，ビデオゲームを対象とし，人間離れした「機械的な」行動パターンではなく，「人間プレイヤがゲームをしている」ような行動パターンを自律的に獲得する機構を提案した．ヒューリスティックスをできる限り排除するため，人間の_“身体的制約_”のみを強化学習の枠組みに組み込むことで実現した．本研究の自律的行動獲得機構を用いた計算機実験では，“身体的制約”下において，最適解に近い行動パターンを学習できていること，環境の変化に対して適切に対応できていることが示された．また，視聴実験では，_“身体的制約_”を考慮し学習することで，安全性とパフォーマンスを両立した人間らしい行動パターンの表出が可能であることが示された．_“人間プレイヤのためのビデオゲームエージェント_”の自律的行動獲得の可能性を示すことができたといえる．

今後の課題として，身体的制約である_“ゆらぎ_”，

“^遅れ”^，“^疲れ”の信頼性パラメータや報酬の与え方を調整すること，信頼性パラメータや報酬の変化によって行動パターンの特徴も変化するか検証すること，また，他のゲームジャンルにも同様の手法が適応可能か検討すること等が挙げられる．

参考文献 [1] Mario AI Championship 2012

. http://www.marioai.org/. [2] Infinite Mario Bros.

. http://www.mojang.com/notch/mario/. [3] World Computer Shogi Championship

. http://www.computer-shogi.org/.

[4] Nobuto Fujii, Mitsuyo Hashida, and Haruhiro Katayose. Strategy-acquisition system for video trading card game. International Conference on Ad- vances in Computer Entertainment Technology 2008 (ACE 2008), pp. 175–182, December 2008. [5] Hajime Fujita and Shin Ishii. Model-based rein-

forcement learning for partially observable games with sampling-based state estimation. Neural Com- putation, Vol. 19, pp. 3051–3087, 2007.

[6] BINKLEY Kevin J., SEEHART Ken, and Hagiwara Masafumi. A study of artificial neural network ar- chitectures for othello evaluation functions. Trans- actions of the Japanese Society for Artificial Intelli- gence, Vol. 22, pp. 461–471, November 2007.

[7] Jia jia Tang. A heuristic pathfinding approach based on precomputing and post-adjusting strategies for online game environment. In Games Innovations Conference (ICE-GIC), 2010 International IEEE Consumer Electronics Society, pp. 1–8, December 2010.

[8] J.L.Cabrera and J.G.Milton. On-off intermittency in a human balancing task. Physical Review Letters, Vol. 89, No. 15, September 2002.

[9] J.Togelius, S.Karakovskiy, J.Koutnik, and J.Schmidhuber. Super mario evolution. In 2009 IEEE Conference on Computational Intelligence and Fames(CIG’09), pp. 156–161, 2009.

[10] Toshiki Matsui, Tsuyoshi Hashimoto, Jyunichi Hashimoto, and Haruki Noguchi. An enhancement of the bonanza method by game progress criterion. In IPSJ SIG Technical Reports GI, Vol. 59, pp. 9–15, June 2008.

[11] McPartland.M. Reinforcement learning in first per- son shooter games. Computational Intelligence and AI in Games, Vol. 3, No. 1, pp. 43–56, March 2011. [12] Kathryn Merrick. Modeling motivation for adap- tive nonplayer characters in dynamic computer game worlds. Computers in Entertainment (CIE) - Theo- retical and Practical Computer Applications in En- tertainment, Vol. 5, No. 4, January 2007.

[13] Takuya Obata and Takashi Ito. Machine learning of move orderng in alpha-beta search. In IPSJ SIG Technical Reports GI, Vol. 27, pp. 49–54, March 2009.

[14] Julian Togelius, Sergey Karakovskiy, and Robin Baumgarten. The 2009 mario ai competition. Evo- lutionary Computation (CEC) 2010 IEEE, pp. 1–8, 2010.

[15] Joseph Weizenbaum. Eliza–a computer program for the study of natural language communication be- tween man and machine. Commungicatins of the ACM, Vol. 9, No. 1, January 1966.

[16] Osaki Y., Shibahara K., Tajima Y., and Kotani Y. An othello evaluation function based on temporal dif- ference learning using probability of winning. In 2008 IEEE Conference on Computational Intelli- gence and Fames(CIG’08), pp. 205–211, December 2008.

[17] ^戸田正直.^{日常会話システム}nene^の開発:^人間の情報処理への認知科学的アプローチ_. 日本音響学会誌, Vol. 42, No. 2, pp. 144–149, February 1986. [18] ^藤井叙人,^片寄晴弘. 戦略型トレーディングカー

ドゲームのための戦略獲得手法_. 情報処理学会論文誌, Vol. 50, No. 12, pp. 2796–2806, December 2009.

[19] ^藤田肇,^石井信.マルチエージェントカードゲームのための強化学習法の改良_.電子情報通信学会技術研究報告, Vol. 102, No. 731, pp. 167–172, 2003. [20] ^保木邦仁.局面評価の学習を目指した探索結果の最適制御_. 第₁₁回ゲームプログラミングワークショップ, pp. 78–83, 2006.

研究業績 藤井 叙人 （ふじい のぶと，Nobuto Fujii）

観測情報の信頼性に着目した

ビデオゲームエージェントの自律的行動獲得

藤井 叙人

佐藤 祐一

若間 弘典

片寄 晴弘

研究業績藤井叙人（ふじいのぶと，Nobuto Fujii）

藤井叙人

佐藤祐一

若間弘典

片寄晴弘