• 検索結果がありません。

評価関数の違いがモンテカルロ木探索プレイヤの強さに与える影響

N/A
N/A
Protected

Academic year: 2021

シェア "評価関数の違いがモンテカルロ木探索プレイヤの強さに与える影響"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

平成29年度 学士学位論文梗概 高知工科大学 情報学群

評価関数の違いがモンテカルロ木探索プレイヤの強さに与える影響

1180319

北村 直輝 【 高度プログラミング研究室 】

1

はじめに

ゲーム研究の分野において,探索手法のひとつであ るモンテカルロ木探索を改良する手法のひとつとして,

評価関数を併用する手法がある.モンテカルロ木探索の 乱数部分に対して局面評価によるバイアスをかけるこ とで,短時間でより良い結果を得られると期待される.

しかし,評価関数の局面評価の違いなどがモンテカルロ 木探索の強さにどのような影響を与えるのかは,著者の 知る限り明らかになっていない.

本研究では,既に優れた評価関数が存在するオセロ を題材にこの問題に取り組む.評価関数には,オープン ソースのオセロプログラムZebra [1]の評価関数を用い る.また,Zebraの評価関数を改変し異なる評価関数を 複数用意し,モンテカルロ木探索でより良い評価関数を 用いることの優位性を検証する.

2

モンテカルロ木探索とその改良

モンテカルロ木探索では,ある局面から仮想的に乱数 で手を選びながら,終局までプレイするプレイアウトを 複数回行い,その結果より手を選ぶ.モンテカルロ木探 索では,プレイアウトを有望な手に割り当てることで効 率的に探索を行う.さらに,ある局面でのプレイアウト 数が増えると,その局面から1手進んだ先からプレイ アウトを行い,より深く探索することができる.

プレイアウトを無限回行うことで,最適解が得られる ことが理論的に証明されているが,現実には限られた時 間内で解を得ることが求められる.そこで,評価関数に よる改良を行うことで,短時間でより良い解を得られる ことが期待される.

改良の例として,プレイアウトの改良とUCB1値の 改良について説明する.

プレイアウトの改良は,プレイアウト中の着手に対し 評価関数による評価を行い,局面評価上良いとされる手 がプレイアウト中に選ばれやすいようにする.これによ り,プレイアウトがある程度強いプレイヤ同士の対戦に 近くなる.

UCB1値は,有望な手の判定に用いられる値である.

プレイアウトの勝率が高い,あるいは行われたプレイア ウト数が少ない局面のUCB1値が高くなる.UCB1値 の計算に評価関数を併用し,局面評価上良いとされる手 が有望な手と判定されやすくする.

3

評価関数

本研究で用いるZebraの評価関数は,パターンによ る局面評価を行う.盤面から11種のパターンを抽出し,

その状態に応じて評価値を求める.

0 20 40 60 80 100

W0 W1 W2 W3 W4 W5 W6 W7 W8 W9 UCB1値とプレイアウトを改良した場合

プレイアウト1000回の場合 プレイアウト10000回の場合

Baseline1000 Baseline10000

1 UCB1値とプレイアウトを改良した場合の勝数

3.1 評価関数の改変

本研究では,Zebraの評価関数からパターンを2つま たは4つ除去し改変した評価関数を9種作成し,それ をW1からW9とする.オリジナルをW0とし,計10 種の評価関数を用意した.

4

実験

4.1 実験方法

モンテカルロ木探索に,評価関数によるプレイアウト とUCB1値の改良を適用し,用意した10種の評価関数 を逐次切り替えて用いる.また,改良もUCB1値のみ 改良した場合,プレイアウトのみ改良した場合,UCB1 値とプレイアウトを改良した場合の3通りを用意する.

これらのモンテカルロ木探索プレイヤをアルファベータ 法プレイヤと対戦させ,その結果を評価する.

4.2 実験結果

実験の結果,評価関数毎に強さに差が現れ,勝数に最 大で4割程度の差がついた.ただし,改良を行なった場 所によってその差が変化し,最大で2割程度の差に留ま る場合もあった.

1に結果の一部を示す.横軸が評価関数の種類,縦 軸が100戦中のモンテカルロ木探索の勝利回数である.

5

まとめ

実験結果より,評価関数の違いはモンテカルロ木探索 の強さに,大きな影響を与えることが分かった.ただ し,評価関数を用いる場所によって,その影響は変わっ てくる可能性があると考えられる.

参考文献

[1] Gunnar Andersson: Zebra,http://radagast.se/

othello/index.html.

[2] 北村直輝,松崎 公紀: 評価関数の違いがモンテカル ロ木探索プレイヤの強さに与える影響.第59回プロ グラミング・シンポジウム予稿集, pp 173-183, 2018.

参照

関連したドキュメント

○齋藤部会長 ありがとうございました。..

いてもらう権利﹂に関するものである︒また︑多数意見は本件の争点を歪曲した︒というのは︑第一に︑多数意見は

本稿で取り上げる関西社会経済研究所の自治 体評価では、 以上のような観点を踏まえて評価 を試みている。 関西社会経済研究所は、 年

検討対象は、 RCCV とする。比較する応答結果については、応力に与える影響を概略的 に評価するために適していると考えられる変位とする。

通関業者全体の「窓口相談」に対する評価については、 「①相談までの待ち時間」を除く

「TEDx」は、「広める価値のあるアイディアを共有する場」として、情報価値に対するリテラシーの高 い市民から高い評価を得ている、米国

それらのデータについて作成した散布図を図 15.16 に、マルチビームソナー測深を基準に した場合の精度に関する統計量を表 15.2 に示した。決定係数は 0.977