• 検索結果がありません。

大富豪におけるペア温存戦略基準の獲得

N/A
N/A
Protected

Academic year: 2021

シェア "大富豪におけるペア温存戦略基準の獲得"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

大富豪におけるべア温存戦略基準の獲得

0 坂田 浩平(九州工業大学大学院情報工学府) 大橋健(九州工業大学大学院情報工学研究院) 本 Ji衛文で、は、不完全情報ゲームであるトランプゲームの大町去を対象として、不能定な状況への適応 学習について考察した。まず、予備実.験により、ベア混存戦略が有効であることが確認できた。しかし、 大富豪では、対戦相手・ルールによってベア温存戦略の基準が変わってくる。そこで、ベア温存戦略を 動的に学習する手評価学習を実装した。手評価学習では、対戦結果に応じて、各手の評価値を更新する。 対戦実験の結果、対戦相手・ルールに応じたベア温存戦略の基準が獲得出来た。

Acquisition ofpair keeping strategy standard

i

n

DAIFUGOU

game

*

K

o

h

e

i

S

a

k

a

t

a

(

G

r

a

d

u

a

t

e

S

c

h

o

o

l

ofKyushu I

n

s

t

i

t

u

t

e

ofTechnology)

,

T

a

k

e

s

h

i

O

h

a

s

h

i

(

G

r

a

d

u

a

t

e

S

c

h

o

o

l

ofKyushu I

n

s

t

i

t

u

t

e

o

f

T

e

c

h

n

o

l

o

g

y

)

I

n

t

h

i

s

thesis

,

t

h

e

a

d

j

u

s

t

m

e

n

t

s

t

u

d

y

o

f

t

h

e

un印刷 nty

t

o

t

h

e

s

i

t

u

a

t

i

o

n

was c

o

n

s

i

d

e

r

e

d

f

o

r

t

h

e

DAIFUGOU game t

h

a

t

was t

h

e

i

m

p

e

r

f

e

c

t

i

n

f

o

r

m

a

t

i

o

n

g

a

m

e

.

At first

,

i

t

was a

b

l

e

t

o

b

e

c

o

n

f

i

r

m

e

d

t

h

a

t

t

h

e

p

a

i

r

k

e

e

p

i

n

g

s

t

r

a

t

e

g

y

was e

f

f

e

c

t

i

v

e

by a

p

r

e

l

i

m

i

n

a

r

y

e

x

p

e

r

i

m

e

n

t

.

However,

t

h

e

s

t

a

n

d

a

r

d

of t

h

e

p

a

i

r

k

e

e

p

i

n

g

s

t

r

a

t

e

g

y

c

h

a

n

g

e

s

i

n

t

h

e

DAIFUGOU game a

c

c

o

r

d

i

n

g

t

o

t

h

e

o

p

p

o

n

e

n

t

p

l

a

y

e

r

s

a

n

d

t

h

e

r

u

l

e

.

Then

,

we i

m

p

l

e

m

e

n

t

e

d

t

h

e

p

l

a

y

e

v

a

l

u

a

t

i

o

n

l

e

a

m

i

n

g

t

h

a

t

d

y

n

a

m

i

c

a

l

l

y

s

t

u

d

i

e

d

t

h

e

p

a

i

r

k

e

e

p

i

n

g

s

t

r

a

t

e

g

y

.

I

n

t

h

e

p

l

a

y

e

v

a

l

u

a

t

i

o

n

leaming

,

t

h

e

e

v

a

l

u

a

t

i

o

n

v

a

l

u

e

o

f

e

a

c

h

p

l

a

y

i

s

u

p

d

a

t

e

d

a

c

c

o

r

d

i

n

g

t

o

t

h

e

game

r

e

s

u

l

t

.

As a

r

e

s

u

l

t

of t

h

e

experiment

,

t

h

e

s

t

a

n

d

a

r

d

o

f

t

h

e

p

a

i

r

k

e

e

p

i

n

g

s

t

r

a

t

e

g

y

c

o

r

r

e

s

p

o

n

d

i

n

g

t

o

t

h

e

o

p

p

o

n

e

n

t

p

l

a

y

e

r

s

and t

h

e

r

u

l

e

was a

b

l

e

t

o

b

e

a

c

q

u

i

r

e

d

.

1.はじめに 近年のゲームプログラミングは、ハードウェア の進歩、洗練されたアルゴリズムの開発によって、 急速な発展を遂げている。チェス、将棋、囲碁の ような完全情報ゲームで、コンビュータが人間に 勝利する日は、刻々と近づいている。一方、麻雀 やカードゲームなどの不完全情報ゲームでは、プ レイヤーに隠されたゲーム状態(相手の手札)や 確率的な要素(座る席、相手の出す手)が存在する など、不確定な要素が多く、難しい課題となって いる。 そこで、本論文では、不完全情報ゲームである トランプゲームの「大富豪J を対象として、ルー ルや対戦相手に応じたプレー戦略をオンライン 学習により獲得することを目的とする。 2. 大富豪とは?

2

.

1

基本ルール 大富豪は、ジョーカーを含めたカードをシャツ フルして、数名の参加者に配り、手札を順番に場 に出していき、いくつかの場を繰り返すことで、 早く手札を無くすことを競うゲームである。カー ドには強さがあり、弱し、順に 3、 4...K、 A、 2 、 ジョーカーとなる。同じランクの数字が 2 枚以上 あった場合は、同時に出すことができる(ベア)。 また、同じマークの 3 枚以上の続き数字のカード も同時に出すことができる(階段)。ローカルルー ルと呼ばれる追加ルールの樋類が多く、ルールの 組み合わせや人数に応じてプレー戦略を変える 必要がある。

(2)

2

.

2

本研究でのルール

本研究では、 UECda2007[l] の Java 版IJH 楚キ ットを用いた。開発キットでは、サーバ側は変更 できない仕様になっている。 UEC 標準ルールを そのまま採用すると、あまりに複雑になってしま うので、クライアント側で、限られた手だけを生 成することでルールの変更を実現した。 ただし‘サーパ側の制約により、対戦人数の変 更や 8 切り (8 を出すと強制的に場が流れるル­ Jレ)なしとすることはできない。 本研究でのルールを以下に示す。×はサーバの 制約により変更不可能なルール。 0 はクライアン トで対応したルール。

-

対戦人数は 5 人×

・ ジョーカーは 1 枚× ・ ベアあり O 、階段なし O 、 8 切りあり× ・ 革命なし(よって、 4 枚以上のベアはなし)0 ・ スベ 3 あり(スペード 3 の 1 枚で単独のジョ ーカーを切れる )x ・ マークしぱりあり× ・ 全員がパスを宣言するまで(自分も含め)、 場は流れない× 圃 反則上がりなし× ・ 階級問でのカード交換は行わないO ・ ジョーカーのワイルドカード扱いなしO 3. 予備実験 まず、適応手法を考察するために、開発キット で提供されているサンプルプレイヤー(名称 Enemy) を参考に、戦略の異なるコンピュータプ レイヤーを作成した。コンピュータプレイヤーの 比較表を表 1 に示す。この表の「ベア温存j とは、 2 枚以上あるカード崩さないという戦略を言う。 「切り札考慮」とは切り札になりそうな A, 2 な どの強い手札に限つてはベアを1îll して 1 枚で使 う戦略で、 r8 切り身I~J とは、 8 のベアを 1M し て 1 枚で使う戦略を言う。伊!として、 PSUnderl2No8 のアルゴリズムの疑似コードを 図 1 に示す。表 1 の隣合うプレイヤーで 5000 試 合づっ対戦させた結果、より下に記載しているプ レイヤーほど強いことが分かつた。ここから、「ベ ア温存j 戦略が有効であり、切り札や 8 のベアは 崩して使う戦略がより有効であることが分かつ た。 この予備実験を暗まえて、ベアを温存するか崩 すかの基準を学習により獲得する手法を検討し、 これを実装したプレイヤーを UseMEL とする。 ベア 切り札 8 切り i!il.存 考慮 考慮

Enemy

しない しない しない する

P

a

i

r

S

a

v

e

(親の時 しない しない しなし、)

PSI

n

A

l

l

S

t

a

t

e

する しない しない

PSUnder12

する する しない

PSUnder12No8

する する する

UseMEL

学習 学習 学習 表1.コンピュータプレイヤー比較表 if(自分が親){ 可能な全ての手を候補手として生成する

}

e

l

s

e

{

場に出ているカードを考慮し、可能な手を 候補手とする ランク 11 以下の候補手の内、ランク 8 でない同 一ランクにおいて、より大きなサイズのベアが可 能な場合、それを候補手から外す

(3)

-68-評価値に基づいた手の選択

4

.

1

.

2

供~>>手の内、民低ランクの手を出す (候補がないならパス) 手の選択は、同一ランクで評価値の高い手を選 択するようにした。ただし、良手を発見するため、

PSU

n

d

e

r

12No8 擬似コード 図 1 ある確率で評価値無関係に探査的な手を試すよ E と記述する。図 2 にランク 9 での評価値に基づいた手の選択の具 体例を示す。探査的な手でない場合、図 3 の灰色 この確率を以降、 うにした。 「ベア温存」戦略への適応

4

.

の手が選択されることになる。 予備実験の結果、「ベア温存J 戦略が有効であ ることが分かつたが、相手・ルールによって「ベ ア温存J の基準(どの強さまでのベアを温存する

一一博一

0

'

……知一

ミ宇。『

ミミコ。r

持ちの 持ちの 持ちの のか等)が変わってくる。そこで、「ベア温存J 戦 略を動的に学習する「手評価学習 J を考案した。 手評価学習 この学習手法は、評価値に基づいた手の選択、 手の評価値更新の二つで成り立っている。

4

.

1

…鞠一

。,

弓ミコ。『

持ちの

j!?:・!

i ¥4

+

+

t 手の評価値

4

.

1

.

1

ランク 9 での評価値に基づいた手の選択 図 3 カードの各ランクにおいて、保有枚数、手 (1 枚出し、 2 枚出し、 3 枚出し)ごとに評価値を設定 し、順次更新するようにした。更新法は 4. 1. 3 で 4. 1. 3 手の評価値の更新 示す。ランク 9 の学習結果の例を図 2 に示す。 評価値は対戦経験により更新され、値が大きいほ ど良手であることを表す。 評価値の更新は、階級によって得られる得点を 用いた(大富豪 +2 、富豪 +1 、平民 :::!::O 、貧民・ 1 、 大貧民ー2) 。評価値更新は、以下の式(I)で行った。 更新は 1 ゲームごとにそのゲーム中指した全て の手について行う。 得点一以前の評価値 評価値= その手が出現した回数 一一一一 (1)

提起

#

寺会。r

器。r

評価値更新の例を図 4 に示す。

空耳

。, 。,

I

n

.

i

l

明治i

持ちの 持ち Ð

守F 町

待ちの

γ的」

漏れ川内山

ランク 9 における評価値 図 2

(4)

たということは「切り札考慮J 、 r8 切り考慮J ができたということになる。学V!l 後のランク 3 と 2 の評価値を図 6 に示す。なお 4 枚持ちは、 出現数が極端に少ないため、ここでは省略した。 .11ゅ手札 1 08

"

.,

E事 0・ 価 値目 判.2

属議被

日締…

J

評価値更新の例 図 4 切3た帰番

l

j

J

託24ぎ

-<>. -<>, テスト

4

.

2

学習後のランク 3 と 2 の評価値 図 6 前章の手評価学習を実装したプレイヤー 3 は弱し、手札なので、 2 枚出しがある際は 2 枚 と自作のコンピュータプレイヤー 出し、 3 枚出しがある際は 3 枚出しが高い評価値 を示しており、ベア温存する方向へ評価値が推移 していることが分かる。逆に 2 は強し、手札なので、 PSlnAllState と 30000 試合対戦させた。結果を 図 3 に示す。また E は 0.05 に設定した。償軸が 試合数、縦軸が総得点を表す。得点は、大富豪 +2、富豪+1 、平民+0、貧民・ 1 、大貧民・2 とな

UseMEL

2 枚出し、 3 枚出しより 1 枚出しの評価値が高く なっており、崩して使う方向へ評価値が推移して いることが分かる。 次に、初期状態の UseMEL と PSUnder12 を 30000 試合対戦させた。先ほどと同様で、 E は 0.05 に設定した。 っている。

fζ一一U酬乱

21'~崎 時t;:j . 叫ー・ _...Jt.ケ‘,.../'.、 も -.,;;r;.之E丹、,...、 よ-- ,'^~".片晴、,、 ι 1 -.九十司6総

-

与弓雪凶"..l;j~' 古,~,i'--~;;及。'~'--~.::!~j,)~、、-:'(1(, 1,句 I~ :.~"!I "叫 ú: 't~t;. '-..J+-...?-咽h、 一〆、二 ブ ヤ〓\. .~. U~eMEL 11

,

0

.

.

.

.

.

.

-

r

"

.

PSl nAllSta 乞e -36 ゐ 1:"....:.1・・ .l ~~: ..~ ~ '. -よ_-,....l~J -;t. . . , ‘J ゐよ1.. "_l~.". .1 ー同" " 町 三三吉c__.掴由 ...リ。 1 ~C~ '・ 4 1('j!J') S 4 42 Jι ・ム po 'B -5 ・ ,,11/\1 -l:::r I ~.:)( -l('Ij:

UseMELvsPSl

n

A

l

lS

t

a

t

e

図 5 寸 εみ :*~::~~f;:'

UseMEL

VS

PSUnder12

図 7 j~r)') 最初の負けこみが激しいが、 5000 試合あた りから、グラフが上昇傾向を示し、勝ち越して いることが分かる。 PSInAllState に勝利でき

(5)

-10-PSUnder12 相手には、 UseMEL は勝ち越すこ とはできなかった。しかし、グラフを見ると、品 初のほうは激しく負けこみ、その後、緩やかにな っていることが分かる。手評価学習では、良手を 凡つけるため、 E の確率で、評価値無関係に手を 山す。序般のうちは、これは必要であるが、学習 が進んだ終慌では、これが敗因にもなる。そこで、 学習後の評価値を用いて、探査的な手を打たない れ =0.00 の)UseMEL と PSUnder12 を対戦させ た。次ページ図 8 に結果を示す。 !';'.l{ 図 8

UseME

L

(

E

=

0

.

0

0

)

v

s

PSUnder12

探査的な手を打たなければ、図 8 のように PSUnder12 にも勝ち越すことができる。 PSUnder12 に勝ち越すことができたので、この 評価値は 8 を上手く考慮していると考えられる。 図 9 に 8 の評価値を示す。 O. 0.5 O.~ 作 価 0.3 檀 0.2 Ql 8の1 歓待ち 割02 住持ち 匹。 3&縛ち 図 9 学習後のランク 8 の評価値 2 枚出し、 3 枚出しより 1 枚出しの評価値が 高くなっていることが分かる。これにより、親 となる機会が増え、不要な手札を効率よく処理 できたため、 PSUnder12 に勝ち越すことがで きたと考えられる。 さらに、 PSUnder12 と対戦して学習した

UseMEL を E =0.00 で、 PSU

nder

12No8 を 50000 試合対戦させた。結果を図 10 に示す。

』 ν.,

図 10

UseMELvs PSUnder12No8

図 10 では、 UseMEL は PSU

n

d

e

r

12No8 との

対戦による学習を行っていないにも関わらず勝 ち泣すことができた。

このことから、この UseMEL は、

(6)

ア i~l 作j 戦略基準よりも良い基準を得ることが出

7

.

参与文献 来たと考えられる。

5

.

まとめ I) UECda2007:UEC(電気通信大学)が主催する

コンビュータ大貧民大会!

h

t

t

n

:

l

l

w

w

w

.

t

n

l

a

b

.

i

c

e

.

u

e

C

.

H

c

.

i

o

/

d

a

i

h

i

n

m

i

n

/

2

0

0

手評価学習を使って、 3 などの弱いカードはベ 型 ア温存の方向へ、 8 や 2 などの強し、カードはベア 2) 強化学習 を崩す方向へと、状況に合わせた「ベア温存J 戦

R

i

c

h

a

r

d

S

.

S

u

t

t

o

n

and

An

drew G

.

B

a

r

t

o

略への適応ができた。また、学習後の評価値を用 三上貞芳・皆川雅章共訳 いて、探査的な手を打たない状態では、現状最強 の PSUnder12No8 に勝てる強さを示した。自動 的にこの状態にするためには、学習が進んだら探 査的な手を打つ確率 E を減らすなどの手法を実 装する必要がある。 また、今回はジョーカーのワイルドカード扱い を無しにしている。これがあれば、手持ちが 1 枚の場合でも組み合わせてベアを作れる。対応す るためには、ジョーカーを使うタイミング、ベア として使用するかどうかなどの判断要素を盛り 込む必要がある。

6

.

おわりに 今回は、周囲の状況に注目せず、大富豪全体と してどの手を切った方が良 b 、かについて考察し た。しかし、これは対戦の結果から学習したもの なので、対戦相手と強い相闘があると推測される。 今後はこのような対戦相手の違いによる学習の 動向の違いについても考察する必要がある。また、 今回は戦略的パス(出せる手札はあるが、わざと 出さな b 、)を考慮していない。これについてもさ らに検討する必要がある。

図 8 UseME L (   E  = 0 . 0 0 )  v s  PSUnder12 

参照

関連したドキュメント

は、金沢大学の大滝幸子氏をはじめとする研究グループによって開発され

は、金沢大学の大滝幸子氏をはじめとする研究グループによって開発され

 よって、製品の器種における画一的な生産が行われ る過程は次のようにまとめられる。7

市場を拡大していくことを求めているはずであ るので、1だけではなく、2、3、4の戦略も

前述のように,本稿では地方創生戦略の出発点を05年の地域再生法 5)

したがって,一般的に請求項に係る発明の進歩性を 論じる際には,

はじめに

当初申請時において計画されている(又は基準年度より後の年度において既に実施さ