• 検索結果がありません。

対戦実験

ドキュメント内 i (ページ 38-44)

4.1 3 層ニューラルネットワークにおける出力値の計算

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤ の性能調査

6.2.2 対戦実験

対戦実験では,比較用に作成した 5 つのプレイヤと UECdaライト級基準プレイヤの

Nakanaka を対戦させた.対戦は5人対戦で行い,その組み合わせは,「比較するプレイヤ

の数」と「Nakanakaの数」が 1対1もしくは 2対2となるようにし,残りのプレイヤは Sampleとした.

対戦結果を表6.3,6.4に示す.表中の点数は,平民を0点として,大富豪を+2点,富豪 を+1点,大貧民を2点,貧民を1点としたときの総獲得点数である.試合数は 2012 年度の大会試合数と同じ400である.

表6.3,6.4を見ると,いずれの対戦でもMonte,EVM,EVHはNakanakaに獲得点数 で負けている.一方,表6.3のMonteEVMとNakanakaの対戦結果を見ると,MonteEVM

はNakanakaに獲得点数で勝っている.この結果から,モンテカルロ法に提出手役評価関数

を適用することでプレイヤが強化されたことがわかる.

また参考として,対Nakanaka戦において最も獲得点数が多いMonteEVMと2012年度 UECda優勝プログラムのpaoonR2を対戦させた.対戦結果を表6.5,6.6に示す.

表6.5,6.6を見ると,どちらの対戦においてもMonteEVMはNakanakaとpaoonR2に 獲得点数で負けている.また,表6.4のMonteEVMとNakanakaの対戦を見ると,1対1 の対戦ではMonteEVMの方が獲得点数が多かったが,2対2の対戦ではNakanakaの方が 獲得点数が多くなっている.

表6.3,6.4のMonteEVMについて見ると,Monteよりも獲得点数が少なくなっている

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤの性能調査

6.3 11の対戦結果(VS Nakanaka

プレイヤ名 プレイヤ Nakanaka Sample Sample Sample プレイヤとNakanakaの差

Monte +182 +395 134 168 275 213

EVM 191 +468 87 120 70 659

EVH 537 +434 +86 +42 25 971

MonteEVM +346 +239 154 190 241 +107

MonteEVH 18 +428 56 173 181 446

6.4 22の対戦結果(VS Nakanaka

プレイヤ名 プレイヤ プレイヤ Nakanaka Nakanaka Sample プレイヤとNakanakaの差

Monte +24 23 +157 +116 274 272

EVM 284 306 +430 +312 152 1332

EVH 468 479 +463 +396 +88 1806

MonteEVM +85 56 +240 +99 368 310

MonteEVH 102 223 +323 +225 223 873

6.5 11の対戦結果(VS paoonR2

プレイヤ名 プレイヤ paoonR2 Sample Sample Sample

MonteEVM +243 +533 202 273 301

6.6 22の対戦結果(VS paoonR2

プレイヤ名 プレイヤ MonteEVM paoonR2 paoonR2 Sample

MonteEVM 61 61 +314 +290 482

ため,人間の棋譜から学習した提出手役評価関数をモンテカルロ法に適用してもプレイヤが 強化されていないことが分かる.これは盤面データ数が3,245と少ないことや,盤面データ の中に人間が明らかなミスをしたものも含まれている可能性があることなどが原因であると 考える.人間の棋譜から学習した提出手役評価関数の性能は,棋譜を充実化することで改善 できると考える.

7

おわりに

モンテカルロ法プレイヤにおいて,プレイアウトの精度は重要である.本研究では,手札 情報の精度がモンテカルロ法プレイヤに与える影響と,3層ニューラルネットワークを用い た提出手役評価関数の性能の調査を行った.

手札情報の精度がモンテカルロ法プレイヤに与える影響の調査では,モンテカルロ法プレ イヤは,与えられる手札情報が多くなるにつれて正しい手役の評価値に近い値を得られる傾 向が見られた.しかし,最善手の推定には至らず,手札情報の推定だけでは強いプレイヤに ならないことが確認できた.

3層ニューラルネットワークを用いた提出手役評価関数の性能調査では,モンテカルロ法 プレイヤのプレイアウト部分に提出手役評価関数を適用することでプレイヤの強化を図っ た.提出手役評価関数の性能を評価した結果,学習に使用する盤面データを増やすことで 提出手役の一致率が上昇し,盤面データ数15,000程度で充分に学習できていることが確認 できた.盤面データ数15,000の提出手役評価関数では,未知の盤面に対する提出手役一致 率がおよそ69%となった.また,中間層数50の場合でも同様に,盤面データを増やすこと で提出手役の一致率が上昇した.盤面データ数27,000までの提出手役一致率を調査したが,

一致率が頭打ちになっておらず,充分な学習にはこれ以上の盤面データが必要であることが 確認できた.対戦実験では,2012年度のコンピュータ大貧民大会優勝プレイヤには勝てな かったが,モンテカルロ法に対して提出手役評価関数を適用することでプレイヤが強化さ れた.

今後の課題として,提出手役評価関数の改良と,棋譜の充実化が挙げられる.提出手役評 価関数の改良では,評価項目の設計を改良することや,序盤・中盤・終盤で使用する評価関

数を分ける,などの方法が考えられる.また,棋譜を充実化させることで,学習によって得 られたプレイヤの棋譜による再学習や,強い人間の棋譜による学習などを行えるようにな る.改良された提出手役評価関数を用いて,充実化した棋譜からの学習を行うことで,強い プレイヤを作り出すことができると考える.

謝辞

本研究の完遂にあたって,丁寧な御指導と的確なアドバイスをしていただいた高知工科大 学情報学群准教授松崎公紀先生に心より感謝し厚く御礼申し上げます.松崎先生には研究室 に所属してからの4年間本当にいろいろとお世話になりました.私自身,学生の研究という ものはもっと孤独なものであると勝手に想像していたのですが,松崎先生には想像をはるか に超えるレベルで親身になってサポートしていただきました.おいしい食べ物やお酒に対し て経験的な知見を得られたことも,とてもありがたく感じています.

また,副査として本研究を支援して頂いた同学群教授福本昌弘先生,並びに,同学群准教 授吉田真一先生に深く感謝いたします.福本先生には,コンピュータリテラシーのTAでも 2年間お世話になりました.おかげさまで,「他人に対する物事の教え方」の良い勉強になり ました.吉田先生には,学部時代にも私の卒業論文の副査を担当していただきました.学部 時代にいただいたアドバイスはその後の研究にも役立てることができたと思います.

また,日頃より本研究について熱心な討論と有益なアドバイスをしていただいた松崎研究 室の皆さまに感謝いたします.皆さまのおかげで,松崎研究室は実家のように居心地の良い 場所となりました.私の4年間の研究室生活はとてもとても有意義なものでした(ここには 書ききれないほどに).

最後に,6年間の学生生活を精神的にも経済的にも支えていただいた両親と両祖父母に対 して深く感謝し,謝辞とさせていただきます.

参考文献

[1] L. Kocsis and C. Szepesv´ari. Bandit Based Monte-Carlo Planning, 17th European Conference on Machine Learning (ECML 2006), Lecture Notes in Computer Sci-ence 4212, pp. 282-293 (2006).

[2] M. Buro. Improving heuristic mini-max search by supervised learning. Artificial Intelligence, Artificial Intelligence 134(1–2), pp. 85–99 (2002).

[3] P. Auer, N. Cesa-Bianchi and P. Fischer. Finite-time Analysis of the Multi-armed Bandit problem. Machine Learning, Vol. 47, pp. 235–256 (2002).

[4] 池畑 望, 伊藤 毅志. Ms. Pac-Manにおけるモンテカルロ木探索. 情報処理学会論文誌, Vol. 52, No. 12, pp. 3817–3827 (2011).

[5] 伊藤 祥平, 但馬 康宏, 菊井 玄一郎. コンピュータ大貧民における高速な相手モデル作 成と精度向上. 数理モデル化と問題解決研究会報告, Vol. 2013-MPS-96, No. 4, pp.1–3 (2013).

[6] 金子 知適. 兄弟節点の比較に基づく評価関数の調整. 第 12 回ゲームプログラミング ワークショップ, pp. 9–16 (2007).

[7] 金子 知適, 田中 哲朗, 山口 和紀, 川合 慧. 駒の関係を利用した将棋の評価関数. 第8回 ゲームプログラミングワークショップ, pp. 14–21 (2003).

[8] 金子 知適, 山口 和紀. 将棋の棋譜を利用した,大規模な評価関数の調整. 第13回ゲー ムプログラミングワークショップ, pp. 152–159 (2008).

[9] 北川 竜平, 三輪 誠, 近山 隆. 麻雀の牌譜からの打ち手評価関数の学習. 第12回ゲーム プログラミングワークショップ, pp. 76–83 (2007).

[10] 小沼 啓, 西野 哲朗. コンピュータ大貧民に対するモンテカルロ法の適用. 研究報告ゲー ム情報学 (GI), Vol. 2011-GI-25, No. 3, pp.1–4 (2010).

[11] 佐藤 佳州, 高橋 大介. モンテカルロ木探索によるコンピュータ将棋. 情報処理学会論文

ドキュメント内 i (ページ 38-44)

関連したドキュメント