• 検索結果がありません。

. はじめにコンピュータ将棋の一つの大きな課題として, 局面評価の難しさがあげられる. ゲームの複雑性を反映して, 形成の優劣判断をおこなう静的評価関数の設計は非常に困難な作業となる. 今年開催された第 16 回コンヒ ュータ将棋選手権時のBon 釦却は. この関数の振る舞いを決定する特徴ベクトルの

N/A
N/A
Protected

Academic year: 2021

シェア ". はじめにコンピュータ将棋の一つの大きな課題として, 局面評価の難しさがあげられる. ゲームの複雑性を反映して, 形成の優劣判断をおこなう静的評価関数の設計は非常に困難な作業となる. 今年開催された第 16 回コンヒ ュータ将棋選手権時のBon 釦却は. この関数の振る舞いを決定する特徴ベクトルの"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

概要

GP納繍轍 (2)

局面評価の学習を目指した探索結果の最適制御

保木邦仁

東北大学大学院理学研究科化学専攻

k

h

o

k

i

@

m

a

i

l

.

t

a

i

n

s

.

t

o

h

o

k

u

.

a

c

.

i

o

将棋プログラムBonanza の思考アルゴリズムの主要な特徴の一つである,局面評価の機械学習に関する手法を 紹介する.これの手法では. minimax 探索の振る舞いを決める特徴ベクトルの自動学習を目指す.熟練した人間 の棋譜との指し手一致の度合いを測る目的関数を設計し,これに停留値を与える静的評価関数 j(v) の特徴ベクト ル v を求める.さらに .

v

0 となる自明な解の除去や,棋矯サンプル数の不足に起因するオーバーフィッティ ングを回避するため,ラグランジュ未定乗数法を用いて目的関数に拘束条件を課す.目的関数の停留値は静的評 価関数の勾配 Vj(v) を用いて探索される.これは,古くから知られている最適制御理論の枠組みに沿った手法で ある.しかし,約 6 万局の学習データから 1 万以上の要素を持つ特徴ベクトルを生成し,駒割に加え序盤の駒組 み,中盤の駒の働き,終盤の速度計算等の複雑な盤面特徴の把握が必要とされる将棋において,有効に働く局面 評価関数が生成された.筆者の知る限り,本稿で提案される手法は,チェスやその変種の静的評価関数の自動学 習法として“実用に耐え,役に立つ"初めてのものである.

O

p

t

i

m

a

l

c

o

n

t

r

o

l

o

f

m

i

n

i

m

a

x

s

e

a

r

c

h

r

e

s

u

l

t

s

t

o

l

e

a

m

p

o

s

i

t

i

o

n

a

l

e

v

a

l

u

a

t

i

o

n

K

u

n

i

h

i

t

o

H

o

k

i

A

b

s

t

r

a

c

t

De

p

a

r

t

m

e

n

t

o

[

C

h

e

m

i

s

t

r

y

.

Grad附te Schωlo[釦ence.

T

o

h

o

k

u

U

n

i

v

e

r

s

i

t

y

.

S抑制 980-8578. ‘lap仰

E

m

a

i

l

:

I

d

l

o

k

i

@

m

a

i

l

.

t

a

i

n

s

.

l

o

h

o

k

u

.

a

c

.

i

D

A

new m

a

c

h

i

n

e

l

e

a

m

i

n

g

s

c

e

n

a

r

i

o

i

n

S

h

o

g

i

i

s

p

r

e

s

e

n

l

e

d

f

o

r

ob凶ning 批 optim叫 eva1uation 印刷ionj(v)

o

f

a

featur抑制orv

i

n

a

c

c

o

r

d

wi血 asetofg闘争問。rds be抑制抑制 player宮.

T

h

is

isωπied

o

u

l

b

y

desi伊ing

a

n

o

b

j

e

c

t

i

v

e

function 白紙旬kes 出e

minimum v

a

1

u

e

w

h

e

n

minimax 鈴釘ch r凶叫ts agr'白明白血e reωrds.ηle

L

a

g

r

a

n

g

e

'

s

me出od ofundet開nined

mu

1

t

i

p

l

i

e

r

i

s

a

p

p

1

i

e

d

t

o

s

e

e

k

t

h

e

o

p

t

i

m

a

1

f

e

a

t

u

r

e

vecωr

s

u

b

j

e

c

t

s

t

o

c

o

n

s

t

r

a

i

n

t

s

.

Here,白ec∞抑制ts

a

r

e

intr叫ucedωremove

t

r

i

v

i

a

1

solutio

n,

v

=

0

,

a

n

d

t

o

a

v

o

i

d

o

v

e

r

f

i

U

i

n

g

of 批 model 伽t

h

a

s

in釦節cient num加 of 蜘 re町ds.

A

soluti叩伽t give唱 a

s

t

a

t

i

o

n

a

r

y

v

a

1

u

e

ω 白州ective 伽ction

i

s

searchωbym伺nsof 白e

g

r

a

d

i

e

n

t

of 血e

e

v

a

1

u

a

t

i

o

n

func回1, Vj(v). 百lC同rning sωnario

i

s

p

r

o

p

o

s

e

d

w

i

t

h

i

n

a

s

i

m

p

1

e

f

r

a

m

e

w

o

r

k

o

f

t

h

e

o

p

t

i

n

1

a

1

∞ntro1 thωry. However,血e 必signed eval凶li∞ functionj(v)

cand,ω1wi白 really ∞mpliωtedpωitional

f

e

a

t

u

r

e

s

i

n

S

h

o

g

i

byωning

a

1

a

r

g

e

f

e

a

t

u

r

e

v

e

c

t

o

r

h

a

v

i

n

g

more 也m 刷出拙and

e1ements 合側E 創nong

o

f

sixty 曲。凶組d

o

f

g

a

m

e

-

r

e

c

o

r

d

s

.

Th

e

t

u

n

e

d

eva1uati∞ function is 略。d by 血.e

1

6

1b

wo

r

1

d

∞mputer

(2)

1

.はじめに

コンピュータ将棋の一つの大きな課題として,局面 評価の難しさがあげられる.ゲームの複雑性を反映し て,形成の優劣判断をおこなう静的評価関数の設計は 非常に困難な作業となる.今年開催された第 16回コン ヒ。ュータ将棋選手権時のBon釦却は.この関数の振る 舞いを決定する特徴ベクトルの要素数が 1 万を超えて いた.人の手による調整は不可能であり,機械学習に よる自動調整が不可欠である. Bonanza は 2004年頃から筆者が趣味として作成し た将棋プログラムである.幸運にも今年の世界コンピ ュータ将棋選手権で優勝した.局面評価の機械学習の 他の特徴としては, bitboard による盤面構造の取り扱 いや,全幅探索に基づく思考アルゴリズムがあげられ る [1]. 他の強いプログラムでは通常行われている詰 み探索や必死探索,指し手の高度な戦略的意味や戦形 の解釈は一切行わない.探索アルゴリズムは,将棋に 特化した部分が非常に少なく,チェスやオセロ等で一 般的に用いられているものとほぼ同じである.思考プ ログラムは,今まで選手権で上位成績を収めた将棋プ ログラムと比較すると,非常に単純なものと思われる. 将棋の知識のほとんどは, bitboard を用いて合法手を 生成する関数と,静的評価関数の振る舞いを決める特 徴ベクトルが持っている. 本稿では,最適制御法の枠組みに沿って,この巨大 な特徴ベクトルの自動調整を行なう手法を紹介する. これは,チェスやその変種のゲームとしては“実用に 耐え,役に立つ"初めての手法である.筆者の知る限 り,評価関数の自動設計が意味をなすほど複雑なゲー ムでの成功例は, G.T,闘仰の TD-臼mmω のみであ る [2]. ゲームにおける思考アルゴリズムの犠械学習 は,人工知能の研究分野において長く研究されてきた 魅力的な繰題の一つであり,興味深い自動学習法がい くつも提案されてきた [3]. 将棋では, TD 法を用いた 駒割りの学習[何,囲いのパターンを棋譜から抽出す る手法 [5] ,飽和パターン抽出による踏み評価関数の ¥.0 岳 0.5 。。 』 ・2 -1 0 2 %/歩の交換値 図 1 :

n

.

.

.

)の関数形ー {実線}階段型関数 {破線)計算で実際に用いられたもの 学習 [6] ,遺伝的アルゴリズムを用いた評価関数の自 動生成等が挙げられる [7].

2. 理論的な枠組み

Minimax 探索結果の最適制御法に関する理論的な 枠組みを述べる.この手法では,サンプルされた複数 の棋譜中に現れる全ての局面 P/ に対応する指し手と, minimax 探索の結果が良く一致する特徴ベクトル v の発見を目指す.ここで , v は静的評価関数 j(P, v) の 振舞いを決定する L 次元ベクトルであり,駒割りや 駒の位置関係等の重要性を表すパラメタに相当する. はじめに,棋譜中の指し手と minimax 探索の結果 の一致度を測る目的関数 J'(P,品ー.., v) を以下のように 設計する.

N

-

'

J'(凡,p',K ,p.山v)= 玄l(弓,v)

-(1) ここで ,

1(p/,

v) は,この棋譜中の手と,他の指し手の 評価値の違いの度合いを表現する関数である.

l(P

,

v)

=

LT[4(p.., v)-4(p..o'v)]

・ (2)

但し , Pm は局面 P を合法手 m により一手進めた子 局面, M は合法手の数,棋譜中で実際に指された手を m=O とする.関数 4(P., v) は, minimax 探索の結果 としての評価値を表す . T(x) は一価の単調湘加関数で あり,棋譜で実際に採用された指し手と,他の合法手

(3)

による評価値の差を,棋譜との指し手一致度を表す指 標に変換する関数である.図 1 に示されるように,実 際の関数形として,同が大きい領域で傾きが小さく,

x

0 付近で傾きが大きくなる 1 階微分可能なものを 選ぶと都合がよい.緩端な例として T(x) を階段型関 数にとると. (1)式の J'(P,晶.... v) は,サンプルされた 全局面中,棋譜で実際に指された手よりも「良いJ と 判断してしまった合法手の総数を表す.従って強 いプレイヤーと同じ手を指す評価関数の発見J という 目標は目的関数 J'(P,品…, v) に停留値を与える特徴 ベクトル v の求解J という数学的な問題に置き換えら れる. 次に,この目的関数 J'(Po... v) に適当な拘束条件を 課すことを考える.いま,我身は自明解. v=O や,駒 嘗j り等のパラメタが定数倍変化した別解の発見には興 味がない.これらの不適切な極小点を除去するため, 目的関数を以下のように修正する. J"(凡K , v)=J'(凡K ,v)+ λ[M, (v)-Mo] ー (3) ここで, λ はラグランジュの未定乗数である. Mt(v) は, 歩の交換値などのように,駒割りに関する特徴ベクト ル要素の大きさに相当し,これを定数 Mo に拘束する. さらに.特徴ベクトルの大きさにペナルティーを課 すと都合がよい.即ち,出来るだけ駒の位置関係、に関 する評価を小さくしながら,棋譜との指し手一致の度 合いを大きくするのに最適な特徴ベクトルを求めるこ とを考える.これにより,特徴ベクトルの要素数に対 し棋譜サンプル数が十分でない場合においても,特徴 ベクトルの要素が必要以上に大きくなる等のオーバー

J(凡K

,

v)=

~)(P', v)+ λ[M, (v)-Mo] +

wM

,

(v)

-(4) ここで , w はペナルティーの強さ . M2(v) は駒の位置 関係に対する特徴ベクトル要素の大きさに相当する関 数である.

3. 最適化の数値的手法

目的関数 J(P,伽叶 v) の最小化は,目的関数の勾配ベ クトル V.J(P,品… , v) を用いて行う.この勾配は,以下 のように表される. V.J(

Po,

K +λV.M, (v) +wV.M, (v) 一 (5) ここで, minimax 探索の結果としての最善応手列が v

近傍で単ーと仮定し,関係 VVÇ(Pi..'V)

=

v.f(p::

,

v)

を用いた.但し , P!~ は局面 P.m を最善応手の末端ま で進めた局面である. 多次元関数の最小化を数値的に行う場合,この勾配 ベクトルに基づいて .L 次元実数空間上の関数の坂を 繰り返し下っていくと効率がよい.しかし,共役勾配 法のような 2次収束の性質を持つ手法は,目的関数が 十分滑らかではないので上手く働かない.そこで,本 研究では以下のように特徴ベクトルを更新する.

v

;

-

=

V

r

d

-

hsi伊[呼,v)]

ー (6) フィッテイング問題が回避される.また,解は多数の 但し, sign(x) は x の符号を返す関数,添え字 I はベ 任意性を持ちうる.このような問題も,特徴ベクトル クトルの要素 . h は 1 ステップのベクトル要素の変化 の大きさにペナルティーを課すことによりある程度回 量を表す.この手法は,静的評価関数 j{P. v) が v に 避され,数値的な極小点の探索が安定に行われる.目 対してして非線形の場合においても働く.初期特徴ベ 的関数 J(P,伽叶 v) の最終的な表式は以下のように表さ クトル戸と h を整数にとると . v は最適化の計算 れる. 中常に墜数となり都合がよい.また,はじめは h を粗 くとり,じよじょに小さくしていくと効率がよい.

(4)

香亙 106 272 279 363 415 銀金角馬飛竜 428 527 617 698 700 854 図 2 :駒の交換値 歩 27 33 21 6 -8 -17 -23

香 28 39 51 63 桟 22 12 -15 -48 銀 37 28 -2 -51 金 31 21 -4 -39 角 28 9 飛 59 45 図 3: 持ち駒の数に対する得点 角:ー55 -25 -7 0 8 14 6 9 馬:ー28 -12 -3 8 10 16 11 図 4: 角・馬が移動可能な緋数の得点 ' A q o ' a n d 寸銀 M B 王5 -1・lpo n u d l 金 9 マ SF 巳 nL -コ J-図 5 :玉が 8 八,銀(左) ,金(右) が 7 八の時の金の位置に対する得点 この手法に基づき目的関数点PO,…, v) の最適化を行 うさい,計算時間の大部分は,思考プログラムによる 最善応手の末端局面 p!e:! を求めるのに費やされる.そ こで,実際の計算では v を 3~7 回更新するごとに一 回 pjr を更新する.また , T(X) については同が十分 大きい領域で dT(x) / 依 =0 と考え,局面 Pi 岬o の探索 時にa1pha-beta ウインドウを阿が小さい領域に制限 する.

4. 結果・考察

棋譜データとしてプロ棋士の公式戦から 3 万局と, 将棋クラブの棋譜集から 3 万局の [8] ,計 6 万局を集 めた.将棋クラブからの 3 万局は,全50万局中,先手 (後手)玉が 4 段目 (6 段目)に侵入したものを選ぶ. これは,王が敵陣付近に存在する局面を増やすためで ある.この 6 万棋譜中,投了局面をのぞいた全ての局 面を用いる.拘束条件を課す特徴ベクトノレの大きさ 720478208555312586 に点 cocO 凋唯 CO 弓dpOA 汐 FO--巧rn , tponHUAU 勾 4 マ,。 0 ・ 1 且守 一-一『-『-'且'且-一 --SA--'a'a 、 J 例制ド ---「 F ,,、 u qdqfu--nwdEU 必“ zqOFO 。、 uAudnvcocococooO 守,。。「 i13 、 785435782785555023rk 「 ---一一---‘ z---'A'i ・ 1JEE--8757756 ト 056393Arqr ト 444 寸寸 444m44n-4444UU9に 135835911S8205574 ト 6 と置 51--2235131-25795 ム ML --一---一一一一--064732560327947924 上の no--一 'l ・ 19u-aq--内Jhqu'tndaqnδ ・1r ‘、 hz ---一-, aM 740388963898318910 八の nL--E-'i'lnLn4ηLnδ'in4 ・ 133+ 忽リ 一一 ----εE 骨骨 :>

5860353097187927814U36

42221-134 寸 l---113 王あ

-m---AUnwuρOPOPOPO 内 JrEaaτRUFDQM'hυQdpoρ07 ・ AU-­ pokun4qunδ ‘ h 一 14qδa-Rυn4 『 υauznr-qυn4a 句、、, 】四--一一 ---6ζ 77875747091241945E 図 noro--roFORU 向。 nudauIcon4si--noF0 ・ tau--1 一----』 ---m-M,(v) は,歩香桂銀金角飛の駒割りの総和とする. M2(v) の関数形は以下のように設定した.

M

,

(v)=

LA, (v)イ

-(7) 但し,上記の l に対する総事日は駒割りに関するもの以 外に対してとる • AÆ:v) は (5) 式で表される目的関数 の勾配への VI の寄与の度合いを表す.

制=器|宇和f(p::,v)-

f(p:::.

,

v)JI

-(8) (7,8) 式のように M2(v) を設定することにより,目的 関数に対してより寄与の大きな特性ベクトル要素に強 いペナルティーが課される p'::, は畑町の通常 の思考プログラムを用いて求めた.基準深さを 2 とし (1レート局面の深さを 1 とする) ,末端で主に駒の取り 合いを考慮する静止探索を行う. A1pha-beta 枝刈りや

n

u

l

l

move

pruning,将棋に応用された白ti1ity pruning も おこなうが,探集結果は minimax 探索とほぼ同じで ある[ 1]. 特徴ベクトルが考慮する駒の包置の特徴は,

(5)

r

X :

-

1

0

6

-

2

5

-

5

2

-

4

2

-

1

1

-

2

0

-

4

1

-

6

7

-

5

3

-

7

1

0

-

4

5 -

3

8

-

1

8

-

7

2

-

6

2

-

2

6

-

1

8

9

-

2

1

4

-

1

1

-

2

8

-

8

5

-50 -

1

4

9 -

9

-

9

-

2

0

-

1

3

-

2

8

-

8

6

-

1

2

2

4

2

5

4

-

2

0

-

2

7

-

3

0

-

4

7

-

6

3

1

1

0

1

8

6

1

4

4

4

9

2

-

2

9

-

2

8

-

3

6

-

4

0

4

5

0

4

5

0

4

5

0

1

4

9

2

7

-

1

2

-

2

2

-

2

5

-

3

4

450 玉 450

1

5

6

1

5

-

2

4

-

4

0

-

3

1

-

4

4

1

1

2

4

5

0

2

1

2

6

3

-

1

9

-

5

2

-

6

9

-

5

9

-

7

2

-

5

2

-

8

1

5

7

-

4

7

-

3

4

-

3

2

-

5

7

-

1

7

7

-

5

4

1

4

3

0

5 -

2

-

1

6

6

-

4

9

-

9

8

-

8

0

-

1

1

-

1

1

2

-

1

7

-

1

-

2

2

-

3

1

-

7

9

-

5

8

-

9

-

8

-

1

0

-

2

5

-

3

0

-

2

8

-

4

0

-

1

3

0

-

2

6

-

7

-6

-

8

-

3

2

-

4

6

-

4

2

-

8

5

-

1

8

2

1

2

8

1

2

0

3

5

-

1

5

-

7

-

5

7

-

5

6

-

6

2

-

1

1

6

3

2

0

2

7

1

2

0

6

6

5

1

1

-

1

8

-

4

5

-

3

6

-

6

8

3

1

8

4

4

4

2

1

4

1

0

6

1

4

-

3

1

-

4

7

-

5

5

-

7

7

王 448

2

0

7

5

1

-

8

-

6

1

-

9

1

-

9

9

-

9

6

図 7: 王が 8 八(上)と 9 九(下)に ある時の敵の金の位置に対する得点 -駒割り ・王,他の駒 2 つの位置 ・王,隣接した味方の駒,他の味方の駒 3 つの位置 .隣接しあった駒 2 つの位置関係 -竜馬飛角桂香の利き上にいる駒の種類 .竜馬飛角香が動ける緋の数 ・ピンされている駒の穏類,方向,王との距離 ・角と同じ色の析にいる味方の歩の数 -歩桂銀が前進できるか -竜飛香の前・後の歩 ・王の周囲 25緋の利きの配置 である. 棋譜から学習された特徴ベクトルの一部を図 2-8 に示す.これは第 16回コンピュータ将棋選手権時にも 用いたものと同一である.結果は大体人聞の直感と一 致していることがわかる.持ち駒の数に対する得点(図 3) をみると,同じ種類の持ち駒が糟えると得点が減 っていくが,例外的に香車のみは増えている.角・馬 が移動可能なー列の緋数(図 4) は多いほど高得点で あり,成っていない状態では機動性はより重要になる. 本稿では示されていないが,この性質は飛・竜の場合 にも成り立つ.王が 8 八,銀・金が 7 八の時の金の位 置に対する得点(図 5) は,銀の横や金の斜め後ろの

X75442290

aaa 咽 i"'ano

-x70358374

日 vqunfu--n4n ,“ 一

-m-X52410641

aazqo'z--。。。。

----X93165393

aa ‘-。, U 『 --'AnL

-X60540335

d2---X23141003

E0 ・ An ,“, i'a'a

-X A a n d u p D ' i n 4 n o o n U F O aaZ4 ・ 3Aaaz'l

-OV ・ A ・-。, u の FuqSF 』勾,

X332111d9

一-一一-po'in4 月 d X 咽 i'inzun47 ・ Ruau 角。

-

4

8

-

1

1

1

-

5

7

-

3

8

-

2

1

-

2

5

-

2

9

-

6

0

-

5

6

8 -

5

2

-

4

1

-6

-

3

-

2

-

2

4

-

2

4

2

-

8

-

3

-

7

-

7

-

2

-

1

-

4

3

-9

-

3

-

1

-

1

-

1

4

-

1

3

1

9

4 4 1

5

-

3

-

2

0

-

1

1

-

1

9

8

6

1

5

6

8

2

3

1

2

7

1

1

3 1

7

-

2

0

1

1

5

0 7

7

5

0

4

-

1

3

-

1

8

-

2

1

-

8

0

83 王 84

-

1

9

-

4

-

3

9

-

2

5

-

2

9

-

8

6

x

x x x x x x x x

図 8 :玉が 8 八にある時の味方(上) と赦(下)の歩の伎置に対する得点 得点が低い. 図 6 は王が 8 八. 8 九にある時の金,と,成香,成 桂,成銀の位置に対する得点を示す.主に近いほうが 高得点になる傾向があるのが分かる.本稿では示され ていないが,これらの傾向は金のみに限らず他の駒に も当てはまる.また,これらの傾向は玉が 8 八の場合 より 9 九の場合の方が強い.金が 5 三付近では高得点 になる傾向も見られる.王が 8 八の場合は 9 筋,特に 9 八の得点が低い.また. 7 九の位置も得点が低くな るようである. 図 7 は王が 8 八. 8 九にある時の敵の金,と,成香, 成桂,成銀の位置に対する得点を示す.図 5 と同様に, 王に近い方が高得点になる傾向があるが,この傾向は 敵の駒の方が強い.本稿では示されないが,金以外の 駒でも同様である.また,敵の金が 3 二 7 二にいる 時の得点がやや高めになっている.これは,棋譜中で は敵玉が 2 二や 8 二にいる場合が多いからである.こ れはあまり好ましい結果とは言えない.改善方法とし ては,棋譜の収集法の工夫や,王ー玉ー金 3 枚の位置 の得点に相当する特徴の考慮が挙げられる. 図 8 は玉が 8 八にいる時の見方と敵の歩の位鐙に対 する得点を示す.敵陣手前の 4 (6) 段目は比較的高 得点になっている.味方の歩が 8 九にいる時の得点が

(6)

-

6

9

5

8

350 玉 2

1

7

6

6

4

1

0

7

-

1

1

9

1

2

6

1

3

2

3

5

0

-

8

0

9

2

1

5

0

1

8

1

-

1

5

1

7

2

9

7

4

8

1

0

1

-

1

4

6

5

7

-

1

4

1

0 1

2

8

5

6

-

2

2

2

-

1

3

7

9

0

-

7

4

7

5

9

9

-

1

3

5

-

1

2

9-

4

0

0

-

3

5

9

-

1

1

2

9

4

-

3

2

-

2

2

5

1

5

-

3

0

3

-

2

8

1

-

5

6

3

1

2

-

3

1

5

-

1

2

8

-

4

0

0

3

4

4

-

3

8

2

3

9

1

5

3

-

3

0

3

-

2

3

1

-

4

0

0

-

4

0

0

-

3

7

-

7

7

-

4

0

0

-

4

0

0

-

4

0

0

3

9

-

2

-

9

2

6

6

1

5

1

0

5

-

3

6

9

-

4

0

0

-

2

0

5

-

9

5

7

7

-

2

0

0

-

1

5

5

-

2

1

7

-

8

1

5

1

-

1

8

7

-

2

1

2

-6

3

図 9: 王が 6 ーにある時の敵の飛の位置に 対する得点 低いことに注目されたい.敵の歩が 8 七にある時の得 点が Oなのは, Bonanza の思考アルゴリズムの性質上, 8 七に歩がある末端局面が現れないからである{歩の 不成りは生成せず,王手がかかっている局面では静止 探索開数を呼ばず,静止探索では駒を打つ手を生成し ない) . 最後に上手くいっていない例として,玉が 6 ーにい る時の敵の飛車の位置に対する得点を図 9 に示す.こ の状況はサンプル中の局面に現れる頻度が極めて低く, 値が全く収束していない.かろうじて右下の得点が低 い傾向が見える程度である.棋譜の数を増やす改善方 法も考えられるが 3 枚以上の駒の位置関係の評価等 を考えた場合,王の位置も含めて一粉ずつ特徴ベクト ル要素を割り当てる手法では限界があるように思える. 得点を多数の駒の位置の多項式で表し,それぞれの次 数の係数を特徴ベクトル要素とする等,補間法の使用 を考えたほうがよさそうである.

参考文献

川保木邦仁,情報処理,

47

,

8

8

4

(

2

0

0

6

)

[

2

]

G

.

Tesa町0,

A

r

t

i

j

i

c

i

a

l

i

n

t

e

l

l

i

g

e

n

c

e

.

134

,

1

8

1

(

2

0

0

2

)

[

3

]

A

.

L

.

Samue1

,

IBM J

.

R

e

s

.

D

e

v

.

3

,

2

1

0

(1

9

5

9

)

;

A

.

NOW8tzyk,覚書, http://tim-m釦n.orgld白pthought.h回1;0.

F.Beal, M. C. Smi

th,

i

n

f

o

r

m

a

t

i

o

n

scien民 122, 3 (2∞0);

M

.

Buro

,

A

r

t

i

j

i

c

i

a

l

i

n

t

e

l

.

134

,

8

5

(

2

0

0

2

)

[

4

]

O

.

F

.

Be

81

,

M

.

C

.

Sm地,

T

h

e

o

r

e

t

i

c

a

l

白mputer

&ience

,

252

,

105

(2∞ 1) [5] 金子知適,問中哲郎,夏のプログラミングシンポ ジウム予稿集,

p

.

6

3

(

2

0

0

3

)

[句三輪誠,横山大作,近山隆,

GPW

,

p

.

48 (

2

0

0

5

)

[

7

]

:鈴木彰,柴原一友,但馬康宏,小谷善行,

GPW

, p

5

6

(

2

0

0

5

)

[8] 久米宏,将棋クラブ 24万局集,ナイタイ出版, (2∞2); 最強の棋譜データベース,株式会社成甲書房, (2∞4)

参照

関連したドキュメント

⑴ 次のうち十分な管理が困難だと感じるものは ありますか。 (複数回答可) 特になし 87件、その他 2件(詳細は後述) 、

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

( 同様に、行為者には、一つの生命侵害の認識しか認められないため、一つの故意犯しか認められないことになると思われる。

この大会は、我が国の大切な文化財である民俗芸能の保存振興と後継者育成の一助となることを目的として開催してまい

 親権者等の同意に関して COPPA 及び COPPA 規 則が定めるこうした仕組みに対しては、現実的に機

既存の精神障害者通所施設の適応は、摂食障害者の繊細な感受性と病理の複雑さから通 所を継続することが難しくなることが多く、

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

としても極少数である︒そしてこのような区分は困難で相対的かつ不明確な区分となりがちである︒したがってその