7.2 “ 対戦型 2048” のまとめと今後の展望

7.2 “ ^対戦型 2048” ^{のまとめと今後の展望}

また，本論文では，N タプルネットワークとTD学習を用いることで“対戦型2048”のプレイヤが得られることも示し，その強さを調査した．N タプルネットワークについては，

ゲーム “2048”に対して松崎が示した有用なN タプルを転用した[9]．それらのN タプル

を用いて，1人ゲーム用の防御側の学習，攻撃側の学習，対戦用の防御側の学習と3段階で N タプルネットワークの学習を進めた．対戦相手とのゲームプレイからのTD学習においては，盤面の多様性を確保するため攻撃側が一定割合でランダムにプレイすることが有用であった．

得られたN タプルネットワークによるプレイヤは，特に防御側プレイヤにおいて単純な

minimaxプレイヤに大きく勝ち越した．攻撃側では，防御側プレイヤがminimaxである場

合にあまり差がなかったものの，N タプルネットワークによる強いプレイヤに対しては良い結果が得られた．

本研究では，プレイヤの探索速度については追求しなかった．枝刈りや並列化をしない単純な実装において，単純なminimaxとN タプルネットワークを用いるminimaxでは，同じ計算時間でおよそ1手分探索の深さが異なる．枝刈りや並列化を含むより実践的な状況のもとで，計算時間と強さの関係を明確にすることは今後の課題である．

本研究の結果，特に図5.5より，著者は“攻撃側が最善を尽した場合，2048のタイルを作ることができない”と予想する．“2048”は手数が長いゲームであるため網羅的に調べ上げることは困難 [8]であり，上記の仮説の証明にはゲーム情報学の手法の適用が必須であろう．

謝辞

本研究の完遂にあたり，本研究の主査であり，私の指導教員である高知工科大学情報学群の松崎公紀准教授には，2年間に渡り，研究活動や論文執筆において多くのご指導を賜りました．心より感謝いたします．

吉田真一准教授には，ゲームプログラミングに応用できる人工知能の手法を授業だけでなく輪講にも参加させていただく中で，学ばせていただきました．本研究の副査としても貴重なご意見をいただきました．厚くお礼申し上げます．岩田誠教授には，本研究の副査としてだけでなく，日頃の研究進捗を発表する場でも鋭くも優しい指摘をいただき，その後の研究の方針を考える助けになりました．感謝申し上げます．また，鵜川始陽准教授には日頃の輪講において，研究やその発表の方法についてご指導を賜りました．ありがとうございました．

佐藤重幸助教授には，ストーリーが研究を発表するうえで如何に重要かを丁寧に教えていただきました．また，研究の貢献の設定の方針など，いくつもの助言をいただきました．ここにお礼申し上げます．ありがとうございました．高度プログラミング研究室の皆様には，議論の際や研究で行き詰った際に，親切に助けていただきました．ありがとうございました．

最後に，この研究を遂行する上で，その実験の多くは高知工科大学のIACPクラスタ計算機を使用させていただきました．ありがとうございました．

参考文献

[1] Ahmad Zaky, “Minimax and Expectimax Algorithm to Solve 2048”, http:

//informatika.stei.itb.ac.id/~rinaldi.munir/Stmik/2013-2014-genap/

Makalah2014/MakalahIF2211-2014-037.pdf, 2014.

[2] Gabriele Cirulli, “2048”, http://gabrielecirulli.github.io/2048/, 2014.

[3] Gerald Tesauro, “TD-Gammon, a self-teaching backgammon program, achieves master-level play”, Neural computation, Vol. 6, No. 2, pp. 215–219, 1994.

[4] I-Chen Wu, Kun-Hao Yeh, Chao-Chin Liang, Chia-Chuan Chang and Han Chiang,

“Multi-Stage Temporal Diﬀerence Learning for 2048”, Technologies and Applica-tions of Artificial Intelligence, Lecture Notes in Computer Science, Vol. 8916, pp.

366–378, 2014.

[5] Kazuto Oka, Kiminori Matsuzaki, “Systematic Selection of N-Tuple Networks for 2048”, CG 2016, pp. 81–92, 2016.

[6] 岡和人, 松崎公紀, “「2048」プレイヤの評価関数：1人プレイと対戦プレイでの評価”，第57回プログラミングシンポジウム予稿集, pp. 9–18, 2016.

[7] 岡和人, 松崎公紀, “システム的選択による N-tuple networks の対戦型2048”への適用”, 第58回プログラミングシンポジウム予稿集, 2017.

[8] 岡和人，松崎公紀，原口和也, “対戦型2048の網羅的解析とモンテカルロ木探索プレイヤ”，高知工科大学紀要，Vol. 12, No. 1, pp. 123–130, 2015.

[9] Kiminori Matsuzaki, “Systematic Selection of N-tuple Networks with Consider-ation of Interinfluence for Game 2048”, Proceedings of the 2016 Conference on Technologies and Applications of Artificial Intelligence (TAAI 2016), 2016.

[10] Kun-Hao Yeh, Chao-Chin Liang, Kun-Hao Yeh and I-Chen Wu, “2048-bot tour-nament in Taiwan”, https://icga.leidenuniv.nl/wp-content/uploads/2015/

参考文献

04/2048-bot-tournament-report-1104.pdf, 2014.

[11] 松原仁（編）, 竹内郁雄, “bit別冊ゲームプログラミング”,共立出版, 1997.

[12] Marcin Szubert and Wojciech Ja´skowski, “Temporal Diﬀerence Learning of N-Tuple Networks for the Game 2048”, 2014 IEEE Conference on Computational Intelli-gence and Games, pp. 1–8, 2014.

[13] Michiel van der Ree and Marco Wiering, “Reinforcement learning in the game of Othello: Learning against a fixed opponent and learning from self-play”, IEEE Sym-posium on Adaptive Dynamic Programming And Reinforcement Learning (AD-PRL), pp. 108–115, 2013.

[14] 寺田実, “対戦型2048”, 情報処理学会夏のプログラミング・シンポジウム[2015]報告集, pp. 19–22, 2015.

[15] Philip Rodgers and John Levine, “An Investigation into 2048 AI Strategies”, 2014 IEEE Conference on Computational Intelligence and Games, pp. 1–2, 2014.

[16] Wojciech Ja´skowski and Marcin Szubert, “Game 2048 AI controller compe-tition GECCO 2015”, http://www.cs.put.poznan.pl/wjaskowski/pub/

2015-GECCO-2048-Competition/GECCO-2015-2048-Competition-Results.pdf, 2015.

付録 A

N タプルの有用性を用いた順序付けと部分得点のより詳しいリスト

盤面のマスに左上から 0 から 15 までの番号を振り分ける．

ドキュメント内 TD 2048 TD 1 N N 2048 N TD N N N N N N 2048 N 2048 TD 2048 TD TD TD 2048 TD 2048 minimax 2048, 2048, TD, N i (ページ 47-52)