提出手役評価関数の性能調査 - 4.1 3 層ニューラルネットワークにおける出力値の計算

4.1 3 層ニューラルネットワークにおける出力値の計算

本研究では，3 層ニューラルネットワークを用いた提出手役関数を作成し性能を評価した．教師データには，大貧民の棋譜を図2.1のような盤面データに切り出したもの使用した．

図2.1の盤面データでは相手プレイヤの手札がわかっているように表現されているが，教師データでは相手プレイヤの手札枚数だけがわかっている状態とした（Player1，Player2，

Player3，Player4，の手札の集合が場の残存カードに対応する）．教師データにおける正解

の入力は，Player0が実際に出した手役であり，不正解の入力は，それ以外の合法手である．

図2.1であれば正解の入力はH8，不正解の入力はH7,HQ,PASSとなり，この盤面データからは4個の教師データが作成される．多数の教師データを用いて，提出手役評価関数の重

みをPlayer0が実際に出した手役を提出するように調整することで，Player0のプレイ方策

を模倣した提出手役評価関数が作成されることが期待される．

教師データの作成には2種類の大貧民の棋譜を用いた．1つは「各合法手に対して500回のプレイアウトを行う原始モンテカルロ法プレイヤ5名」の対戦を棋譜にしたものである．

もう 1つは「人間のプレイヤ1名と各合法手に対して500回のプレイアウトを行う原始モ

6.1 提出手役評価関数の性能調査

表6.1 評価項目に使用した盤面情報

盤面情報の種類評価項目評価項目数

場の情報場のオーダ 1

場の役と提出役のランク差 5 場の残存カードのランク 41 提出役の情報手役のランク 17

手役のタイプ 2

手役のサイズ 5

革命が発生するか 1 しばりが発生するか 1 8切りが発生するか 1

JOKERを含むか 1

プレイヤの情報自プレイヤの手札のランク 41 他プレイヤのカード枚数 4

ンテカルロ法プレイヤ 4名」の対戦を棋譜にしたものである．すべての教師データに対して1回だけ学習を行うことを1イテレーションとし，1,000イテレーションの学習を行った．

提出手役評価関数の中間層数は15と50の2通りを用意した．学習率は初期値を0.9とし，

1イテレーションごとに 0.99を掛けて使用した．評価項目に使用した盤面情報を表6.1に示す．

以上の条件で提出手役評価関数の学習を行った．また，重みの初期値によって提出手役評価関数の性能が変動することが考えられるため，初期値が異なるものを100個用意しそれぞれ学習した．

性能調査実験では，提出手役評価関数の性能を調査するため「棋譜で提出された手役」と

「提出手役評価関数によって得られた評価値が最も大きい手役」がどの程度一致するか調査した．調査に使用する盤面には，学習時に使用していないものを1,000盤面用意した．学習時に使用していない盤面に対して調査を行うことで，未知の盤面に対して調査を行ったことになり，実戦時の性能が評価できる．

実験結果を図6.1，6.2と表6.2に示す．図中と表中では原始モンテカルロ法プレイヤを MCMPと表記する．Ave は平均的中数，Maxは最大的中数，Minは最小的中数，エラーバーは標準偏差における95%信頼区間を表している．

6.1 提出手役評価関数の性能調査

図6.1 提出手役一致数（MCMPの棋譜中間層数15）

図6.2 提出手役一致数（MCMPの棋譜中間層数50）

図6.1，6.2を見ると，中間層の数に限らず，学習に使用する盤面データを増やすことで提出手役の一致率が上昇していることがわかる．

図6.1の平均最善手的中数を見ると，盤面データ数15,000付近で最善手的中数が頭打ちになっており，そのときの最善手一致率はおよそ69%である．盤面データ数1,000の場合と

表6.2 提出手役一致数

棋譜中間層数盤面データ数平均最大最小標準偏差

MCMP 15 3,000 653.22 694 603 16.17

MCMP 15 19,000 691.29 737 647 16.07

MCMP 50 3,000 670.27 714 635 14.81

MCMP 50 27,000 705.97 742 666 14.86

人間 15 2,245 420.65 469 362 29.45

6.2 モンテカルロ法に提出手役評価関数を適用したプレイヤの性能調査

比較すると，およそ4%最善手一致率が向上していることがわかる．

図6.2の平均最善手的中数を見ると，盤面データ数27,000まで最善手的中数がゆるやかに上昇し続けており，盤面データ数27,000での最善手一致率はおよそ71%である．中間層数50の場合では最善手一致数が頭打ちになっていないため，盤面データ数をさらに増やすことで最善手一致率が上昇する可能性がある．

表6.2を見ると，人間の棋譜を用いた学習は，原始モンテカルロ法プレイヤの棋譜を用いて学習した場合に比べて平均一致率が低くなっている．そのため，人間の棋譜を用いて充分に学習を行うためには，原始モンテカルロ法プレイヤの棋譜よりも多くの棋譜が必要になることがわかる．

ドキュメント内 i (ページ 33-36)