実験 2：実験結果と考察

第 5 章実験 24

5.3 実験 2：他手法との比較

5.3.2 実験 2：実験結果と考察

実験結果を図5.4に示す．まず，FSS2012で優勝したアルゴリズムである遺伝アルゴリズムは，学習のみで行動している．Inﬁnite Tuxにおいて，１つのステージをクリアするためには，非常に多くの行動の組合せから選択する必要がある．そのため，学習のみでそれらを取得しようとする場合，10000ステージ分のデータ量でも十分ではない．そのため，スコア基準ではある程度の点数を得ることはできたが，大きな壁が出現するようなステージではクリアするまでには至らなかった．対して，提案手法の学習は先程も述べたとおり，プランの学習であり，2000 ステージ分という少ないデータ量でも十分に学習ができた．結果として，遺伝アルゴリズムとは大きな差がついたことがわかる．

更に，A*アルゴリズムと提案手法を比較すると，クリア回数では約29.9%，スコアでは約11.4%の性能向上が見られた．これから，提案手法は2009年度優勝アルゴリズムとくらべても有効であることがわかる．これは，A*アルゴリズム単体で進むことができない状況においても，Q学習によりプランニングすることでその状況を突破することが可能となったためである．クリア回数とスコアで性能に変化があった理由としては，A*アルゴリズム単体で進む場合，ステージ中に大きな壁が出現するまでは，提案手法と同じように進むことが可能であるため，クリアできないステージでもある程度のスコアを得ることができたからである．

これらの結果から，プランナー数と学習に用いるデータ量を適切に調節することができれば，制限された環境下において有効であることがわかる．

表 5.4: 提案手法と他手法の比較

クリアステージ数コンペティションスコア

提案手法 330.2 1,735,076

A*アルゴリズム単体 254.2 1,512,285 遺伝アルゴリズム 0 291,335

第 6 章まとめと今後の課題

本研究では，計算時間，得られるデータ量，計算リソースの三つの制限が課せられている環境であるプラットホームゲームベンチマーク「Inﬁnite Tux」を題材とし，制限された環境下において自律的に効率よくプランニングできるアルゴリズムの開発を目指す．「Inﬁnite Tux」はIEEEのコンペティションでも使用されており，特にA*アルゴリズムやルールベースシステムなどが好成績を残している．

しかし，A*アルゴリズムはエージェントの行動探索において優秀であるが，状況によっては膨大な探索時間を必要とするため，制限された環境下においてはA*アルゴリズム単体でのプランニングでは難しい場合もある．また，ルールベースシステムは，ルール作成の負担やルールの環境特化などが問題となる．

このような制限された環境下において効率的にプランニングを行うために，本研究では，エージェントが遭遇する状況に合わせ，その状況に特化された学習型プランナーを選択することで，プランニングを行う手法を提案した．各プランナーはそれぞれが担当する状況でのみプランニングを行うため，計算時間，得られるデータ量，計算リソースが少ない環境下においても有効に働く．更に，学習型プランナーを使用するため，細かいルール作成などの手間も必要としない．具体的には，行動はA*アルゴリズムで探索し，プランナーはA*アルゴリズムの目標節点の位置をQ学習により学習し，変更することでプランニングを行う．

本手法の性能には，プランナーの数と各プランナー自身の性能の二つが関係する．そこで，プランナーの数と，プランナーが学習に用いるデータ量を変化させた時のプランニングの有効性について実験を通じて調査し，より効率よくプランニングできる条件について調査し，各プランナーがある程度のデータを持つことが可能であれば，各プランナーが特定の状況に対して効果的にプランニングすることができ，結果全体的なプランニングができたと考えた．最後に，提案手法の有効性を確かめるため，提案手法と，コンペティション優勝アルゴリズムであるA*

アルゴリズム，日本で開催された国内コンペティション優勝アルゴリズムである遺伝的アルゴリズムを使用したプランニング手法との比較実験を行った結果，約

29.9%の性能向上が見られた．

本稿では，Q学習を使用するプランナーのみを使用している．本手法においては，Q学習以外にも様々なプランナーを適用することが可能であることが考えられる．そこで，今後どのような状況にどのようなプランナーを割り当てればよいかについて検討する必要がある，更に，今回は状況認識をハードコーディングで行っているため，今後は自律的な状況認識についても検討する．また，今回の手法は題材としたInﬁnite Tuxでのみ実験を行った．本手法が様々な制限された環境下において有効であるかどうかについて，Inﬁnite Tux以外の制限された環境を利用し調査する必要がある．

謝辞

本論文は，著者が三重大学にて行った研究をまとめたものである．本論文を進めるにあたり，懇切丁寧なご指導と御督励を賜った三重大学の鶴岡信治教授，高瀬治彦准教授，川中普晴助教，北英彦准教授，および立命館大学の高野敏明特任教授に感謝いたします．また，日頃熱心に討論していただいた情報処理研究室の皆様方に厚く御礼申し上げます．

最後に，本論文をまとめるにあたり，助言，討論，その他お世話になったすべての方々に感謝いたします．

参考文献

[1] 福田敏男編著: インテリジェントシステム―適応・学習・進化システムと計算機知能―，昭晃堂 (2000).

[2] 金子知適:最近のコンピュータ将棋の技術背景とGPS将棋，情報処理，Vol.50，

No.9，pp.878–886 (2009).

[3] 一丸貴則: WCSC21ツツカナアピール文章，http://www.computer-shogi.

org/wcsc21/appeal/tsutsukana/WCSC21_tsutsukana_20110327.pdf， (2014/1/13アクセス).

[4] 山本一成:第 22 回世界コンピュータ将棋選手権 Ponanaza アピール文章，

http://www.computer-shogi.org/wcsc22/appeal/ponanza/appeal.pdf， (2014/1/13アクセス).

[5] D.A. Ferrucci, E.W. Brown, J. Chu-Carroll, J. Fan, D. Gondek, A. Kalyanpur, A. Lally, J.W. Murdock, E. Nyberg, J.M. Prager, N. Schlaefer, C.A. Welty:

Building Watson: An overview of the DeepQA project，AI Magazine，Vol.31，

pp.59–79 (2010).

[6] 金子知適，田中哲朗: GPS将棋とテキストプロトコルによる大規模将棋ソフトウェアの組み立て，コンピュータソフトウェア，Vol.29，No.1，pp.75–81 (2012).

[7] Darla W.Jackson: Watson, Answer Me This: Will you Make Librarians Ob-solete or Can I Use Free and Open Source Software and Cloud Computing to Ensure a Bright Future?，LAW LIBRARY JOURNAL，Vol.103:3，pp.497–

505 (2011).

[8] Andr´e R. Brodtkorb, Trond R. Hagen, Christian Sehulz, Geir Hasle: GPU computing in discrete optimization. Part I: Introduction to the GPU, EURO

Journal on Transportation and Logistics， Vol. 2， Issue 1-2， pp.129–157 (2013).

[9] Christian Schulz, Gair Hasle, Andr´e R. Brodtkorb, Trond R. Hagen: GPU computing in discrete optimization. Part II: Survey focused on routing prob-lems，EURO Journal on Transportation and Logistics， Vol. 2， Issue 1-2，

pp.159–186 (2013).

[10] Yuta Tsuchida, Michifumi Yoshioka: Acceleration of Neural Network Learn-ing by GPGPU, Electronics and Communications in Japan， Vol. 96， Issue 8， pp.59–66 (2013).

[11] 阪田史郎，高田広章: 組込みシステム，オーム社 (2006).

[12] Platformer AI Competition， http://platformersai.com/ (2014/2/5アクセス).

[13] Noor Shaker Personal Website， http://noorshaker.com/index.html (2014/2/5アクセス).

[14] 鴨井良介，佐藤圭佑，酒井英明，竹内信一: 迷路探索法に基づく6自由度アーム型ロボットの動作計画，日本ロボット学会誌，Vol.28，No. 8，pp. 915–922 (2010).

[15] 狩野均: 遺伝的アルゴリズムを用いたカーナビのための経路案内方式，情報処理学会研究報告. ITS, [高度交通システム]，Vol. 2002, No. 21, pp. 51–58 (2002).

[16] Stuart Russell, Peter Norvig著，古川康一監訳: エージェントアプローチ人工知能，共立出版 (1997).

[17] Richard S. Sutton, Andrew G. Barto著，三上貞芳，皆川雅章訳：強化学習，

森北出版 (2000).

[18] 小林一郎: Computer Science Library-13 人工知能の基礎，サイエンス社 (2008).

[19] Julian Togelius, Sergey Karakovskiy, Jan Koutn´ık, J¨urgen Schmidhuber: Su-per Mario Evolution，Proceedings of the IEEE Symposium on Computational Intelligence and Games， pp.156–161 (2009).

[20] Sergey Karakovskiy Julian Togelius: The Mario AI Benchmark and Compe-titions，IEEE Transactions on Computational Intelligence and AI in Games (TCIAG)， Vol. 4，Issue 1，pp. 55-67 (2012).

[21] Julian Togelius, Sergey Karakovskiy, Robin Baumgarten: The 2009 Mario AI Competition， Proceedings of the 2010 IEEE Congress on Evolutionary Computation(CEC)， pp. 1–8 (2010).

[22] Slawomir Bojarski, Clare Bates Congdon: REALM: A Rule-Based Evolu-tionary Computation Agent that Learns to Play Mario， the Proceedings of the 2010 IEEE Symposium on Computational Intelligence and Games(CIG)，

pp.83–90 (2010).

[23] 半田久志: Mario AI における Deep Boltzmann Machine 適用の検討，システム・情報部門学術講演会2013論文集， pp. 633–636 (2013).

[24] Ruslan Salakhutdinov, Geoﬀrey Hinton: Deep Boltzmann Machines， Inter-national Conference on Artiﬁcial Intelligence and Statistics， pp. 448–455 (2009).

[25] Sergey Karakovskiy, Julian Togelius: Mario AI Competition @ CIG 2009，

http://julian.togelius.com/mariocompetition2009/

CIG2009Competition.pdf (2014/2/5 参照).

[26] 高野敏明: 同一エージェント間での転移学習を用いた強化学習の高速化に関する研究，三重大学大学院工学研究科博士論文 (2012).

ドキュメント内制限された環境下における学習型行動プランニング (ページ 32-39)

第 5 章 実験 24

5.3 実験 2：他手法との比較

5.3.2 実験 2：実験結果と考察

第 6 章 まとめと今後の課題

謝辞

参考文献

第 5 章実験 24

第 6 章まとめと今後の課題