パターンマッチングの階層的評価

第 4 章コラージュパターンの提案と評価

4.3 パターンマッチングの階層的評価

パターンマッチングの評価方法には，調べたい特徴やパターンの用とによって様々なものが考えられるが．パターンの抽出時に決まるもの，学習によって決まるもの，フィルタ値によるもの，実際にプレイアウトに用いて分かるもの，そして実際のプログラムの強さ

視点から評価することでどのようなプレイアウトが良いか，確率はどうあるべきか，何が強さにとって重要なのかを調べるためである．

現在我々のプロジェクトで用いている評価項目は表 4.3 の通りである．決定時期はその項目が決定する時期，フィルタ値はフィルタ値に依存するか，番号は各項目の番号でパターン抽出時に決定するものは P，学習時に決定するものは L，使用によって決定する ものはU が付き，またフィルタ依存のものはf が付く．また似た項目の場合はa, bが付く．基本的にこの表は階層を示しており，上の項目の評価は下の項目の評価に影響を与えると考えることができる．例えば自己対戦はプレイアウト速度，占有率（プレイアウトの質），平均選択確率などの影響を受ける．次に各項目について説明する．なお各項目はテストに用いた全局面について評価関数によって合法手の各手に評価値を与え評価値の大きい順に並べているとする．この中にはその善悪をスカラで表現できないものも含む．

表 4.3 Nomitan で用いている評価項目

決定時期フィルタ値番号項目名略称

パターンの抽出時非依存 P −1 パターン数に関する情報 P attern

学習時

非依存

L−1 誤差関数値 Error

L−2.a 平均順位 Rank

L−2.b 平均逆数順位 Rank_Inv L−2 誤差関数値 Error L−3.a 累積一致率分布 M atchn

L−3.b 累積一致率係数 Co_{M atch}

依存

Lf −4.a 平均選択確率 Select Lf −4.b 平均ルート選択確率 SelectRoot

Lf −5 選択確率 α 到達割合 Over_α

Lf −6 α 非着手率 N ot_α

Lf −7 平均対数尤度 M LE

使用時

非依存 U −1 パターンの最大マッチングサイズ Size_{M ax}

依存

U f −2 占有率 Ownership

U f −3 形勢判断問題 J udge U f −4 次の一手問題 N extmove U f −5 プレイアウト速度 Speed

U f −6 自己対戦 Self play

U f −7 他のプログラムとの対戦 Battle U f −8 CGOS でのレーティング計測 Rating

P −1 パターン数に関する情報（P attern）

これはパターンの抽出によって得られたパターンについての情報である．主な情報はパターン数であるが，他にも登場回数の多いパターンがどのようなパターンかを調べるという使い方もできる．

L−1 誤差関数値（Error）

最適化対象である誤差関数（式3.8 ）の値を誤差関数値 Error と呼ぶ．小さいほど最適化されているといえる．式 3.8 はどちらかというと順位を優先する指標であり，確率分布については考慮しないためフィルタ値を導入している．これは UCT用評価関数の評価に用いることができる．またこの値は誤差関数が変われば何を最適化するかも変わるため，それによって用途も変わり得る．

L−2.a, b 平均順位と平均逆数順位（Rank, RankInv）

教師信号が平均的に何位であったかを平均順位 Rank と呼び，低い方が良い．また平均逆数順位 RankInv は順位の逆数の和の逆数をとったもので，低い方が良い．これらは r_h を局面h での教師信号の順位としたとき，次のように表される．

Rank =

∑H h=1

r_h

H (4.1)

Rank_Inv =

∑H h=1

1 r_h

H (4.2)

順位が重要となる UCT 用評価関数において重要である．RankInv は Rank に比べると上位の順位を重視する傾向がある．

L−3.a, b 累積一致率分布と累積一致率係数（M atch_n, Co_{M atch}）

教師信号が 1位（評価値最大）となった割合を1 位一致率と呼ぶ．同様にn位となった割合をn 位一致率と呼ぶ．これを1 位から合法手数まで累積したグラフを累積一致率分布と呼ぶ．ここで n位までの一致率の和をn 位累積一致率と呼び，M atchn と表記する．累積一致率分布の例を図4.5 に示す．A，B 2 つのグラフがあるがどちらも1 位一致率は 30% である．しかしその後の分布が異なる．B の方が上位に集中しているため，B の方が良いといえる．この累積一致率の良さを示す指標として累積一致率係数CoM atchと

いうものを考える．これは式 4.3 で表される．m は合法手数で M atch_i は i 位累積一致率である．

Co_{M atch}=

∑m i=1

M atch_i

m (4.3)

もし全ての手が 100% で教師信号と一致するとこの値は 1 となる．この値が大きいほど上位に手が集中していると言える．これは図4.6のように累積一致率を棒グラフで表したときの面積を求め，それを合法手数で割っている．UCT用評価関数では手の制限に用いるため教師信号がある程度上位（例えば20位以内）にあるほうが好ましいのでこれらの指標が重要となる．

図 4.5 累積一致率の例図 4.6 棒グラフで表した累積一致率

Lf −4.a, b 平均選択確率と平均ルート選択確率（Select, Select_Root）

教師信号の選択確率の平均を平均選択確率 Selectとする．高い方が良く，特に MC用評価関数において重要となる．また中程度の確率の場合を相対的に強調するために教師信号の確率のルートを取り平均したものの2 乗を平均ルート選択確率 Select_Rootとする．

これらはm_h を局面h での教師信号，f(m_h)をその確率としたとき次のように表される．

Select =

∑H h=1

f(mh)

H (4.4)

Select_Root =







∑H h=1

√f(m_h)







(4.5)

Lf −5 選択確率 α 到達割合（Overn）

教師信号の確率が α 以上であった割合を選択確率 α 到達割合 Over_α と呼ぶ．たとえば選択確率 20 到達割合 Over₂₀ が 0.3 だと全局面の 3 割で教師信号の確率が 20% 以上だったということになる．これは高い方が良いが UCTではあまり関係がない．これらは H を局面集合，Ph を局面 h での教師信号の確率としたとき次のように表される．

Overα = | {h∈H |P_h > α} |

H (4.6)

Lf −6 α 非着手率（N ot_n）

ある手の確率がα以上であるのに教師信号でなかった割合をα 非着手率N ot_α と呼ぶ．

たとえば 30非着手率 N ot₃₀ が 0.5 だとある手の確率が 30% 以上であるのに棋譜では打たれなかった割合が 5割であったことになる．特に MC用評価関数では非常に高い確率で選択される手が実は良くない手であるとするとプレイアウトに与える悪影響は非常に大きい．これは次のように表される．式4.7 の右辺第2 項は α 着手率で，これを 1から引いたものがα 非着手率となる．

N otα = 1− | {h∈H |P_h > α} |

| {h∈H , j ∈M_h|P_h,j > α} | (4.7) Lf −7.a, b 平均対数尤度とその平均（M LE, M LE_Average）

教師信号の確率の log を取り全棋譜の n 手目についてその平均を取ったものを平均対数尤度（Mean Log Evidence）と呼び，他論文[11][9]でも用いられている．n 手目の平均対数尤度M LEn は次のように表される．k は全棋譜でn手目が表れた回数，fn,i は n手目のi 番目の確率である．

∑k

log(f_n,i)

もし教師信号の確率が100% であれば0 となるので，0に近いほど良いといえる．log を

取るため Select_Root に近いが，低い確率をより重視している．また全手数での平均対数

尤度を平均した M LE_Average も計算できる．ただしこの値は他の項目で代用できるため Nomitan では用いていない．

U −1 パターンの最大マッチングサイズ（Size_{M ax}）

プレイアウトにおいてどれだけ大きいサイズにマッチングしているかを示す．初期局面

（石がまったく置かれていない局面）からのプレイアウト中の各手数で全合法手についてどのサイズのパターンにマッチングしたかをグラフにしたもの．できるだけ大きなサイズでマッチングしていた方が局所化性能が高いと言える．

U f −2 占有率（Ownership）

複数回プレイアウトを行った時盤上の各点が最終的に黒白どちらの地であったかの割合のことを占有率と呼ぶ（図 4.10 がその例である）．普通に打てば黒地になる点について黒の占有率が高ければ良いプレイアウトと言える．これはその値の大小を比較することで善し悪しを評価する．定量的な判断は全ての交点に最終的にどちらの地になるかを指定しなくてはならないため難しいが，人間が見て石の強弱や勢力の大小を正しく反映しているかを見るには適している．

U f −3 形勢判断問題（J udge）

aの方が勝率が高くなるような2 つの似た局面a，b を与え，それぞれに対して複数回プレイアウトを行いその勝率を比較するというものである．a の勝率が b より大きいほどプレイアウトの質が良いと言える．

U f −4 次の一手問題（N extmove）

ある局面について人間が各交点にスコアを与えておき，その局面に対して探索を行い選ばれた最善手の交点のスコアがいくつかを求める．探索は複数回行い平均でどれだけのスコアを取れたかを調べる．プレイアウトの質が良ければ良い手を早く，重点的に調べることができるのでプレイアウトの評価に用いることができる他，探索の評価にも用いることができる．囲碁の問題集の多くはこの形式に近いが，正解手を一手に限らずまた失敗手の問にも序列を設けることでより頑健な評価を可能にしている．

U f −5 プレイアウト速度（Speed）

1秒当たりのプレイアウトの回数をプレイアウト速度と呼ぶ．広い範囲を見るパターンマッチングでは速度が落ちやすい傾向がある．モンテカルロ囲碁ではプレイアウト速度は速い方が良いが，プレイアウトの質が良ければ遅くても強いということはありうる．

U f −6 自己対戦（Self play）

Nomitan 同士で対戦をさせ，その勝率を見るもの．本論文ではこれまで用いていた着

手点を中心とするパターンと CPで対戦を行い勝率を求める．勝率は95% 信頼区間で区間推定する．

U f −7 他のプログラムとの対戦（Battle）

フリーである GNU Go や Fuego と Nomitanを対戦をさせその勝率を見るもので，自己対戦より客観的な評価を行える．

U f −8 CGOS でのレーティング計測（Rating）

CGOS（Computer Go Server）とはサーバ上でプログラム同士を対戦させ，そのレーティングを測ることのできるサイトである．客観的な評価ができるが，レーティングが安定するまで時間がかかるのと，投入時期によってレーティングのインフレ，デフレが生じやすいという問題点もある．

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 38-44)

第 4 章 コラージュパターンの提案と評価

4.3 パターンマッチングの階層的評価

第 4 章コラージュパターンの提案と評価