• 検索結果がありません。

提出手役評価関数の性能調査

ドキュメント内 i (ページ 33-36)

4.1 3 層ニューラルネットワークにおける出力値の計算

6.1 提出手役評価関数の性能調査

本研究では,3 層ニューラルネットワークを用いた提出手役関数を作成し性能を評価し た.教師データには,大貧民の棋譜を図2.1のような盤面データに切り出したもの使用した.

図2.1の盤面データでは相手プレイヤの手札がわかっているように表現されているが,教 師データでは相手プレイヤの手札枚数だけがわかっている状態とした(Player1,Player2,

Player3,Player4,の手札の集合が場の残存カードに対応する).教師データにおける正解

の入力は,Player0が実際に出した手役であり,不正解の入力は,それ以外の合法手である.

図2.1であれば正解の入力はH8,不正解の入力はH7,HQ,PASSとなり,この盤面データ からは4個の教師データが作成される.多数の教師データを用いて,提出手役評価関数の重

みをPlayer0が実際に出した手役を提出するように調整することで,Player0のプレイ方策

を模倣した提出手役評価関数が作成されることが期待される.

教師データの作成には2種類の大貧民の棋譜を用いた.1つは「各合法手に対して500回 のプレイアウトを行う原始モンテカルロ法プレイヤ5名」の対戦を棋譜にしたものである.

もう 1つは「人間のプレイヤ1名と各合法手に対して500回のプレイアウトを行う原始モ

6.1 提出手役評価関数の性能調査

6.1 評価項目に使用した盤面情報

盤面情報の種類 評価項目 評価項目数

場の情報 場のオーダ 1

場の役と提出役のランク差 5 場の残存カードのランク 41 提出役の情報 手役のランク 17

手役のタイプ 2

手役のサイズ 5

革命が発生するか 1 しばりが発生するか 1 8切りが発生するか 1

JOKERを含むか 1

プレイヤの情報 自プレイヤの手札のランク 41 他プレイヤのカード枚数 4

ンテカルロ法プレイヤ 4名」の対戦を棋譜にしたものである.すべての教師データに対し て1回だけ学習を行うことを1イテレーションとし,1,000イテレーションの学習を行った.

提出手役評価関数の中間層数は15と50の2通りを用意した.学習率は初期値を0.9とし,

1イテレーションごとに 0.99を掛けて使用した.評価項目に使用した盤面情報を表6.1に 示す.

以上の条件で提出手役評価関数の学習を行った.また,重みの初期値によって提出手役評 価関数の性能が変動することが考えられるため,初期値が異なるものを100個用意しそれぞ れ学習した.

性能調査実験では,提出手役評価関数の性能を調査するため「棋譜で提出された手役」と

「提出手役評価関数によって得られた評価値が最も大きい手役」がどの程度一致するか調査 した.調査に使用する盤面には,学習時に使用していないものを1,000盤面用意した.学習 時に使用していない盤面に対して調査を行うことで,未知の盤面に対して調査を行ったこと になり,実戦時の性能が評価できる.

実験結果を図6.1,6.2と表6.2に示す.図中と表中では原始モンテカルロ法プレイヤを MCMPと表記する.Ave は平均的中数,Maxは最大的中数,Minは最小的中数,エラー バーは標準偏差における95%信頼区間を表している.

6.1 提出手役評価関数の性能調査

6.1 提出手役一致数(MCMPの棋譜 中間層数15

6.2 提出手役一致数(MCMPの棋譜 中間層数50

図6.1,6.2を見ると,中間層の数に限らず,学習に使用する盤面データを増やすことで提 出手役の一致率が上昇していることがわかる.

図6.1の平均最善手的中数を見ると,盤面データ数15,000付近で最善手的中数が頭打ち になっており,そのときの最善手一致率はおよそ69%である.盤面データ数1,000の場合と

6.2 提出手役一致数

棋譜 中間層数 盤面データ数 平均 最大 最小 標準偏差

MCMP 15 3,000 653.22 694 603 16.17

MCMP 15 19,000 691.29 737 647 16.07

MCMP 50 3,000 670.27 714 635 14.81

MCMP 50 27,000 705.97 742 666 14.86

人間 15 2,245 420.65 469 362 29.45

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤの性能調査

比較すると,およそ4%最善手一致率が向上していることがわかる.

図6.2の平均最善手的中数を見ると,盤面データ数27,000まで最善手的中数がゆるやか に上昇し続けており,盤面データ数27,000での最善手一致率はおよそ71%である.中間層 数50の場合では最善手一致数が頭打ちになっていないため,盤面データ数をさらに増やす ことで最善手一致率が上昇する可能性がある.

表6.2を見ると,人間の棋譜を用いた学習は,原始モンテカルロ法プレイヤの棋譜を用い て学習した場合に比べて平均一致率が低くなっている.そのため,人間の棋譜を用いて充分 に学習を行うためには,原始モンテカルロ法プレイヤの棋譜よりも多くの棋譜が必要になる ことがわかる.

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤ

ドキュメント内 i (ページ 33-36)

関連したドキュメント