ニューラノレネットワークを用いた囲碁の評価関数の設計
永吉宏之等々力賢 東京大学大朝境工学系研噴桝システム量子工学専攻 n盟醤働mano.t.u"tA:北W.凪10 概要 本海院では、囲碁の評価関数のモデルとしてユニット聞の接続を近傍のみに限定レ句メータの共通化を 行うことにより対物牲を考慮したニューラルネットワークを提案した。プロの棋譜を用いて学習を行b\ 結 果について検証を行った。対局終了時における石の苑耐強中局面に対する地の予担1擁率で良好な結果必滑 られ、本手法の妥当性が示されたゐ臨時nofEvalua也,n
F
u
n
c
t
i
o
n
u
s
i
n
g
N
e
u
r
a
l
Ne旬。æ-ks 面白e 伊meofgo
Hiroyuki N噌町叫li,陥舗ru 'I凶orikiDep町加lentofQuan加mE暗泊開討碍 andSy脚>ms Scien館, SchoolofE唱祖国語ng,恒le
U
n
i
v
e
r
s
i
t
y
of'I凶'YO Abs回ctIn tl由 P却er, weprop卿 aneura! ne旬。ækeva畑出n 釦nctionintl鴎伊meof伊・ τ'he ièa加瑚 ofour neura! ne同町:>rk
a
r
e
10cal∞m脱出,nofi飽 neuraluni旬 andparam脚æshare 釦∞聞血血19 町mm.etryofg
o
board.蜘蜘.鴨回ino町田町aln
e
t
w
o
r
k
w
i
t
h
pmゐ蜘'00 伊me l'eOOI"曲I, and 臨,nweob凶ngood 期曲血血飽園初'l'Y醐mationand
1i島削 deathdi甜即出nattbee凶伊me.1. はじめに 情報処理の分野において、オセロ、チェス、 囲碁などの二人完封肯報ゲームは、研究の対象 としてよく用いられてきた。その中で囲碁は、 コンピュータにとって最も難しいヂームとされ ている。そ¢哩由として、一局面あたりの可能 な指し手が多いため探索空聞が広い、明確な評 価制E存在しないな出港げられる。そのうち 探索空聞が広いという特徴は、囲碁の持地質 であり、探索手法を工夫することにより読みの 省略は可能だが、本節句には探索空間を小さく することはできなb 、一方で精密な評価ができ れば、浅b 場際でも強いプログラムを作ること が可能になるため、評価関数の改良は探索空間 の広大さを補う方法として有力である。そのた め、評価関数の研究というのは強い囲碁プログ 実際に囲碁の評価関数を作るとき、 2 通りの アプローヂを考えることができる。ひとつは囲 碁の強い人の評価方法をプログラム上で実現す ることであり、もうひとつは対局待相題集を用 いて輔餓昨学習などにより評価関数を件嘱骨すると いう方法である。前者の場合、強い人の大局観 をアルゴリズム化しなけれJまならないが、本人 でさえもどのように翻面しているカ明確にでき ない要素もあり、完全に再硯すること材難し凡 後者の場合、囲碁の評価関数として適当な関数 モデルを与え、そのパラメータをチューニング することにより学習させることになる。この場 合、最初にどのような関数を与えるカヰこよって、 評価関数の近似精度の限界が決定され、関数を どのような手法で学習させるかにより、うまく パラメータをチューニングできるかカ帯淀され る。そのため、関数のモデルと学習手法により
そこで本砂院では、囲碁の矧面関数のモデ〉レ としてユニット聞の結合を近傍のみに限定し、 パラメータの共通化を行うことによって対新牲 を考慮した多階層ニューラルネットワークを提 案し、それに対しプロの棋譜を用いた学習を行 うことにより矧面関数を作成し、その有効性を 示すことを目的とする。 2. ニューラルネットワークの構造 囲碁の号訓面関数を設計する場合、関数の出力 として、単に評価直のみを出力する関数と、盤 上の各々について地になる確率を求め、その合 計を評価値として出力する関数が考えられる。 本研究では、棋譜から得られる情報を有効に活 用するために、後者を採用した。 本研究で用いるニューラルネットワークとし て、多階層フィードフォワード型ニューラルネ ットワークを用いた。ユニット聞の接続に工夫 を躍らすことにより、局面の対物牲などを考慮 したエューラルネットワークを設計した。 ニューラルネットワークの入力として局面情 報を数値化したデータを用いる。数値化は黒白 別々に行い、それぞれ局面上の各点に対して石 の有無により 1 と 0 を割り当てる。盤のサイズ を N とすると、入力層のユニット数は 2N2と なる。 出力周 入力層 鳳右の有無 図 1 ニューラノレネットの構造
-9-ニューラルネットワークの出力は、盤上の 各々の点における地になる確率である。そのた め出力層のユニット数は2N2となる。 中間層のユニット数は自由に取ることができ るが、本手法では入力層や出力層と閉じ構宣を もつように 2N2個とした。このような構造によ り、局面の対物性の考慮が容易になる。 真下の 中間層 図2 ユニット聞の接続 ユニット聞の接続は、上方のユニットから見 て、一段下の中間層と入力層のユニットとのみ 接続し、各々の黒白に属する 3X3 近傍に位置 する 36 ユニットと接続してしも個 2) 。この ような構造により、ユニットの持つ情報の直接 的影響を受ける領域I持団芽のみになり、それ以 上遠醐いま、情報出獄的に伝達する。中間 層の数が 1 つ増えるにつれ、匪持佐が 1 勺漣い場 所へ影響が及ぶようになり、例えば中間層が 3 層の場合には匪滴14 までを考慮することができ る。ユニット聞の接続を近傍のみにした場合の メリットとデメリットを下表に示す。近倒鋪雌盟 全櫨融型 間最盛似 ー般的に部、 語捕に良い パラ弁事 少ない 多い 計算遺産 溜,、 組,、
3
ご鵠1~i~1
以
¥
¥
¥
¥
\[ヌ
‘ ‘
‘ ‘
.
司同岡崎r---司 ーーーーーーーー -・・-- ・・・・・・-,2
.
5
制.
1
1
.
5
表 1 近傍接続型の特徴1
ニューラルネットワークのパラメータを共通 {ヒすることにより、対称性を考慮し、パラメータ数を対面に減らすことが出来る。共通化の方
法として 3X3 近傍中で真下、縦横、斜めに分 類して共通化する。また盤上の位置により、中 央、辺、隅に分類し共通イじする。このことによ り 1 層あたりのパラメータ数は 39 に抑えるこ とができる。@@e・e・-e@
.4
ももももももも@
@ももももももも@
@ももももももも@
@ももももももも@
@ももももももも・
・ももももももも@
@ももももももも@
@ee--ee・@
@
嗣辺@
中央も
図 3 パラメータの共通化 その他の処理として局面上において同ーの連 に属するユニットの出力値を、そのまま出力と せず、連内で平均化することを行う。この処狸 により同ーの連に属する石は死活を共にするこ とを表現できる。0
.
5
。 。2
3
4
5
中間層の敏 図 4 連内の出力平均化の効果 3. 棋譜を用いた学習 評価関数を学習させる方法として、最も理想 的なのは梯市データとして真の矧耐直を用いる ことである。しかしながら、囲碁などのゲーム において、真の矧剛直料辱られるのは、終局直 前の局面に対してだけであり、事実上不可能で ある。そのため、実際の学習には、真の矧耐直 に変わる指標が必要となる。そのひとつの手段 として TD学習[1]などの強化学習がある。強化 学習は菌踊句な耕肝データを必要とせず、経験 (対局など)を通して適闘に学習を行うとし、 うものである。この手法は人間の学習過程に近 い点もあり学習法としては優秀であるが、囲碁 に適用する場合、経験に相当するのが自己対局 であるため、プログラム自身がある程度以上強 けれは対局から得られる情報の信頼性が高く なり、その結果、良好な学習が可能であるが、 プログラムが弱b 暢合は、得られた情報の信頼 性州底下し、学習の質が悪くなることが考えら れる包局。そこで本研究では、情報の信網生が 高いプロの棋譜を用いて学習することを考えた。 プロの棋譜を用いて学習を行う場合、利点とし て途中の局面における評価値を最終的な対局結果から推定しても大きな誤差は生じなし、と仮定 できる点がある。 欠点として学習できる局面が 棋譜上に現れる局面に限定され任意の局面に対 して学習を男子できない点がある。本研究にお いて出関普中の局面に対して、事後確率に相当 する対局終了即コ地の状態を耕帝データとする 学習を行った。これにより、単に評価値だけで なく、局面上の模傑キ勢力を学習することが可 能になる。
~
~
・~
弓画面高語扇瓦肩F写孟亘亘亘-ー ~曹司-司・..,・ w 晶画園田-・・. ...:ぜIITI
.1
)
~.rr
•••
]
•••
••
•
入力局面 対局終了時の局面教蹄データ
@・・・ 1
も ..・0 図 5 耕帝データの与え方 調擦の学習は、評価関数の良さを湘防庁る基 準となる目的関数を作戒し、それが最小になる ようにパラメータをチューニングすることによ り行う。ニューラルネットワークの学習の場合、 目的関数のパラメータによる婿己情報lがック プロパグーションを用いることにより容易に求 めることができる。得られた箱国育報をもとに、 非線形最適化手法を用いることにより目的関数 を最:/Jイヒするパラメータを決定する。通常、ニ ューラルネットの学習には最急降下法が用いら れることが多いが、多階層ニューラルネットワ ークに適用した場合、学習速度が遅く有効では ない[4]。 そこで本研究では準ニュートン法[5] を用いる。準ニュートン怯は、ニュートン法で 必要とされるヘッセ行列(目的関数の 2 階勝士 行列を勾配情報から適附句に求めることによ り誌面ヒを行う手法である。一般に準ニュート ン怯は最急降下法と比べ学習速度が速し〈図 6)。 1∞|コ型空軍ン法|
.
、‘ \、.
・、・..
'
、.
ーーーーーーー-
_
.
.
_
-
-
.
ーーーーーーーー 10l
!
I
I
l
E礎 知A
0.1o
2∞ 4∞ e∞ 8∞ 1側 反復回数 図 6 準ニュートン怯と最急降下法の比較 4. 計算結果4
.
1
終局面に対する学習 100 局の棋譜から対局終了時の 100 局面 を抽出し、そのうちの 80 局面に対して学習を 行い、残り 20 局面を検証用データとした。学 習の反復回数は 10000 回、ニューラノレネッ トワークの中間層の数を 1~6 とした。その結 果、中間層の数が増えるにつれ浮署誤差が少な くなり、中間層が 5 層以上の場合において、石 の摺舌、欠け目をほぼ正しく判断することが出 来た。また予調時援にっし、ても、中間層の数 が増えるに従って滅少しており、過学習の傾向 は見られなかった。結果を図に示す。1 1
図 7 終局面に対する学習結果 守 ''Anu-phuaa ,内 ιu ・内, 州統 GPU 品情阻畑町 F
一
k
一・…一学予習盟国銀鼠量盤産
、 、\~\
、.
.
.
ーーーーーーー 、、、 ー-ーー帽. 。 。2
3
4
5
6
中閉店の数 ( ~ 図 8 中間層数と誤差の関係、4
.
2
対局途中の局面に対する学習 50 局の棋譜を用意し、 そのうち30局の棋譜 を用い、棋譜中の局面すべてに対して学習を行 った。 その結果に対し、学習で用いていない残 りの 20 局を用いて統計約な検証を行った。 統 言尚切輝国去として、 予測した確率を5% ごとに 区切りヒストグラムをとり、 それぞれに対し求 められる統制句な確率と上撤した。 例えば黒地 になる確率が50%の点を 1 00点集め、 それ らの点に対応する終局面上の点が50程度黒地 になってしれば予'1!l,~擁割ま妥当であると考える ことができる。検証併吉果、 本手法により得ら れた確率と棋譜により得られた統苦情句確率を比 較するとよく一致し、本手法により妥当な評価 が得られることがわかった。 AU < v a n v n n u (ま}聞術館冨お鋸 5 10 15 20 25 30 35ω4650 騎 ω6570 75ω85ω951∞ 予測確率(%) 図 9 学習データに対する予測鵬率の検証 5 101620 お 30354045ω656065707680 85 90951 ∞ 予測確率(%) 図10 非学習データに対する予1!l,r擁率の検証5. 考察 本研究で用いたニューラルネットワークはユ ニット聞の接続を近傍のみに限定し、さらにパ ラメータの共通化を行っている。これにより通 常で射材、ニューラルネット¢特つ高い関数 近似能力が得られないと考えられる。しかしな がら、本ニューラルネットワークは、囲碁局面 上の地になる確率をよく近似できることがわか った。このことは、石の影響力が近傍から遠方 へ逐次的に拡散すると b 、う仮定が妥当なもので あることを示しており、対税牲を考慮してパラ メータを共通化することの妥当性も示している。 6. 今後の課題 本研究で用いたニューラルネットワークには、 ユニット間接続の近傍のみの限定、対税牲を考 慮したパラメータの共通化、同一似車に属する ユニットの出力平均化などの特徴を持ち、それ らは有効に働くことがわかった。しかしながら、 本来取り入れるべきものが残っている。連と連 との関係、各連の持っているダメの数、各連が いくつ眼を持っているか、などの情報である。 これらは石の死活に直接関わる重要な要素であ り、この情報抜きに摺舌の判定を学習させるの は無謀とも言える。本研究で取り入れなかった 理由として、これらの要素が場合によっては探 索も伴うため時間が掛かる要素である点を挙げ ておく。しかし、これらの要素は非常に重要で あるため、何らかの形で取り入れる必要がある と恩bれる。 6. まとめ 本布院において、ユニット聞の接続を潤芳の みに限定しパラメータの共通化を行うことによ り対税牲を考慮したニューラルネットワークを 囲碁の評価関数のモデルとして提案し、プロの 棋譜を用いて学習を行った。その結果、終局時 における石の死活判定と対局途中の局面におけ る予劃鵬率において良b 糖果科専られ、本手法 の妥当性を示した。 参考文献
[
I
.
]
R
.
8u伽n,“Lean出tg むo pre枇tby 位協 地位凶 of 'Ièmporal 間島mnæLearning",
nゐchineL倒m珂r.3
,
~44, 1鋭抱 凶 M Enzenbe申!~"
T
h
e
Int碍国語on
o
f
A
P由d 胎wwJedge 泊加 aGo
P
l
a
y
i
n
g
N
e
u
r
a
l
Ne回世'~',a
v
a
i
l
a
b
J
e
f
r
o
m
In飴ロ凱 [同司N
.
N
.
S<立蛤官a加.ud也o】~h,P
.
Da
yan,
T
.
J,よ.
S 制吋即明k凪LR踊魁on Ev湘a曲lua凶6伽ο阻n
i
n
tlu硲~Game
o
f
白。,",:G,
Aゐ匂m閤必 A地TeuralInIDn宜11Btion P1αm錨崎g凶
G
Mo喝a阻n Ka'加ufm創m叫, 8阻Fra凶s∞ 1鈎4
[
4
]
D
.
P
.
Bert鵠,}æ,J,
N, τh蜘副お,明euro 均namお日曜amming", A伽,na S<海副fic,Be
lmon
t,
M A
1
9
9
6
.
[5] 矢部博、八巻直一、"応用数値計算ライブラ リ 非糠形計画'ît', 朝倉書店 u腕.