対戦実験

4.1 3 層ニューラルネットワークにおける出力値の計算

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤの性能調査

6.2.2 対戦実験

対戦実験では，比較用に作成した 5 つのプレイヤと UECdaライト級基準プレイヤの

Nakanaka を対戦させた．対戦は5人対戦で行い，その組み合わせは，「比較するプレイヤ

の数」と「Nakanakaの数」が 1対1もしくは 2対2となるようにし，残りのプレイヤは Sampleとした．

対戦結果を表6.3，6.4に示す．表中の点数は，平民を0点として，大富豪を+2点，富豪を+1点，大貧民を−2点，貧民を−1点としたときの総獲得点数である．試合数は 2012 年度の大会試合数と同じ400である．

表6.3，6.4を見ると，いずれの対戦でもMonte，EVM，EVHはNakanakaに獲得点数で負けている．一方，表6.3のMonteEVMとNakanakaの対戦結果を見ると，MonteEVM

はNakanakaに獲得点数で勝っている．この結果から，モンテカルロ法に提出手役評価関数

を適用することでプレイヤが強化されたことがわかる．

また参考として，対Nakanaka戦において最も獲得点数が多いMonteEVMと2012年度 UECda優勝プログラムのpaoonR2を対戦させた．対戦結果を表6.5，6.6に示す．

表6.5，6.6を見ると，どちらの対戦においてもMonteEVMはNakanakaとpaoonR2に獲得点数で負けている．また，表6.4のMonteEVMとNakanakaの対戦を見ると，1対1 の対戦ではMonteEVMの方が獲得点数が多かったが，2対2の対戦ではNakanakaの方が獲得点数が多くなっている．

表6.3，6.4のMonteEVMについて見ると，Monteよりも獲得点数が少なくなっている

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤの性能調査

表6.3 1対1の対戦結果（VS Nakanaka）

プレイヤ名プレイヤ Nakanaka Sample Sample Sample プレイヤとNakanakaの差

Monte +182 +395 −134 −168 −275 −213

EVM −191 +468 −87 −120 −70 −659

EVH −537 +434 +86 +42 −25 −971

MonteEVM +346 +239 −154 −190 −241 +107

MonteEVH −18 +428 −56 −173 −181 −446

表6.4 2対2の対戦結果（VS Nakanaka）

プレイヤ名プレイヤプレイヤ Nakanaka Nakanaka Sample プレイヤとNakanakaの差

Monte +24 −23 +157 +116 −274 −272

EVM −284 −306 +430 +312 −152 −1332

EVH −468 −479 +463 +396 +88 −1806

MonteEVM +85 −56 +240 +99 −368 −310

MonteEVH −102 −223 +323 +225 −223 −873

表6.5 1対1の対戦結果（VS paoonR2）

プレイヤ名プレイヤ paoonR2 Sample Sample Sample

MonteEVM +243 +533 −202 −273 −301

表6.6 2対2の対戦結果（VS paoonR2）

プレイヤ名プレイヤ MonteEVM paoonR2 paoonR2 Sample

MonteEVM −61 −61 +314 +290 −482

ため，人間の棋譜から学習した提出手役評価関数をモンテカルロ法に適用してもプレイヤが強化されていないことが分かる．これは盤面データ数が3,245と少ないことや，盤面データの中に人間が明らかなミスをしたものも含まれている可能性があることなどが原因であると考える．人間の棋譜から学習した提出手役評価関数の性能は，棋譜を充実化することで改善できると考える．

第 7 _章

おわりに

モンテカルロ法プレイヤにおいて，プレイアウトの精度は重要である．本研究では，手札情報の精度がモンテカルロ法プレイヤに与える影響と，3層ニューラルネットワークを用いた提出手役評価関数の性能の調査を行った．

手札情報の精度がモンテカルロ法プレイヤに与える影響の調査では，モンテカルロ法プレイヤは，与えられる手札情報が多くなるにつれて正しい手役の評価値に近い値を得られる傾向が見られた．しかし，最善手の推定には至らず，手札情報の推定だけでは強いプレイヤにならないことが確認できた．

3層ニューラルネットワークを用いた提出手役評価関数の性能調査では，モンテカルロ法プレイヤのプレイアウト部分に提出手役評価関数を適用することでプレイヤの強化を図った．提出手役評価関数の性能を評価した結果，学習に使用する盤面データを増やすことで提出手役の一致率が上昇し，盤面データ数15,000程度で充分に学習できていることが確認できた．盤面データ数15,000の提出手役評価関数では，未知の盤面に対する提出手役一致率がおよそ69%となった．また，中間層数50の場合でも同様に，盤面データを増やすことで提出手役の一致率が上昇した．盤面データ数27,000までの提出手役一致率を調査したが，

一致率が頭打ちになっておらず，充分な学習にはこれ以上の盤面データが必要であることが確認できた．対戦実験では，2012年度のコンピュータ大貧民大会優勝プレイヤには勝てなかったが，モンテカルロ法に対して提出手役評価関数を適用することでプレイヤが強化された．

今後の課題として，提出手役評価関数の改良と，棋譜の充実化が挙げられる．提出手役評価関数の改良では，評価項目の設計を改良することや，序盤・中盤・終盤で使用する評価関

数を分ける，などの方法が考えられる．また，棋譜を充実化させることで，学習によって得られたプレイヤの棋譜による再学習や，強い人間の棋譜による学習などを行えるようになる．改良された提出手役評価関数を用いて，充実化した棋譜からの学習を行うことで，強いプレイヤを作り出すことができると考える．

謝辞

本研究の完遂にあたって，丁寧な御指導と的確なアドバイスをしていただいた高知工科大学情報学群准教授松崎公紀先生に心より感謝し厚く御礼申し上げます．松崎先生には研究室に所属してからの4年間本当にいろいろとお世話になりました．私自身，学生の研究というものはもっと孤独なものであると勝手に想像していたのですが，松崎先生には想像をはるかに超えるレベルで親身になってサポートしていただきました．おいしい食べ物やお酒に対して経験的な知見を得られたことも，とてもありがたく感じています．

また，副査として本研究を支援して頂いた同学群教授福本昌弘先生，並びに，同学群准教授吉田真一先生に深く感謝いたします．福本先生には，コンピュータリテラシーのTAでも 2年間お世話になりました．おかげさまで，「他人に対する物事の教え方」の良い勉強になりました．吉田先生には，学部時代にも私の卒業論文の副査を担当していただきました．学部時代にいただいたアドバイスはその後の研究にも役立てることができたと思います．

また，日頃より本研究について熱心な討論と有益なアドバイスをしていただいた松崎研究室の皆さまに感謝いたします．皆さまのおかげで，松崎研究室は実家のように居心地の良い場所となりました．私の4年間の研究室生活はとてもとても有意義なものでした（ここには書ききれないほどに）．

最後に，6年間の学生生活を精神的にも経済的にも支えていただいた両親と両祖父母に対して深く感謝し，謝辞とさせていただきます．

参考文献

[1] L. Kocsis and C. Szepesv´ari. Bandit Based Monte-Carlo Planning, 17th European Conference on Machine Learning (ECML 2006), Lecture Notes in Computer Sci-ence 4212, pp. 282-293 (2006).

[2] M. Buro. Improving heuristic mini-max search by supervised learning. Artiﬁcial Intelligence, Artiﬁcial Intelligence 134(1–2), pp. 85–99 (2002).

[3] P. Auer, N. Cesa-Bianchi and P. Fischer. Finite-time Analysis of the Multi-armed Bandit problem. Machine Learning, Vol. 47, pp. 235–256 (2002).

[4] 池畑望, 伊藤毅志. Ms. Pac-Manにおけるモンテカルロ木探索. 情報処理学会論文誌, Vol. 52, No. 12, pp. 3817–3827 (2011).

[5] 伊藤祥平, 但馬康宏, 菊井玄一郎. コンピュータ大貧民における高速な相手モデル作成と精度向上. 数理モデル化と問題解決研究会報告, Vol. 2013-MPS-96, No. 4, pp.1–3 (2013).

[6] 金子知適. 兄弟節点の比較に基づく評価関数の調整. 第 12 回ゲームプログラミングワークショップ, pp. 9–16 (2007).

[7] 金子知適, 田中哲朗, 山口和紀, 川合慧. 駒の関係を利用した将棋の評価関数. 第8回ゲームプログラミングワークショップ, pp. 14–21 (2003).

[8] 金子知適, 山口和紀. 将棋の棋譜を利用した，大規模な評価関数の調整. 第13回ゲームプログラミングワークショップ, pp. 152–159 (2008).

[9] 北川竜平, 三輪誠, 近山隆. 麻雀の牌譜からの打ち手評価関数の学習. 第12回ゲームプログラミングワークショップ, pp. 76–83 (2007).

[10] 小沼啓, 西野哲朗. コンピュータ大貧民に対するモンテカルロ法の適用. 研究報告ゲーム情報学 (GI), Vol. 2011-GI-25, No. 3, pp.1–4 (2010).

[11] 佐藤佳州, 高橋大介. モンテカルロ木探索によるコンピュータ将棋. 情報処理学会論文

ドキュメント内 i (ページ 38-44)

4.1 3 層ニューラルネットワークにおける出力値の計算

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤ の性能調査

6.2.2 対戦実験

第 7 章

おわりに

謝辞

参考文献

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤの性能調査

第 7 _章