• 検索結果がありません。

大貧民において他プレイヤのプレイアルゴリズムより受けるプレイヤの強さへの影響

N/A
N/A
Protected

Academic year: 2021

シェア "大貧民において他プレイヤのプレイアルゴリズムより受けるプレイヤの強さへの影響"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 大貧民において他プレイヤのプレイアルゴリズムより 受けるプレイヤの強さへの影響 森田 茂彦1,a). 松崎 公紀2,b). 概要:多人数ゲームでは,自分のプレイが自分の利得と関係なく他プレイヤの利得のみに影響する状態が 発生する.そのため,多人数ゲームでは,他のプレイヤのプレイアルゴリズムに影響を受けて各プレイヤ の強さが変動する可能性がある.本研究では,多人数不完全情報ゲームである大貧民を用いて,他プレイ ヤのプレイアルゴリズムの違いがプレイヤの強さに与える影響について調査した.同程度の強さを持つプ レイヤとして,ヒューリスティックなルールに基づいてプレイするルールベース型,手役につけた評価値 をもとにプレイする評価値型,モンテカルロ法により手役を決定するモンテカルロ型の 3 種類を用意した. さらに,これらよりも強いものを 1 種類,弱いものを 1 種類用意した.これらのプレイヤによる組合せを 複数つくり対戦させ,対戦結果を比較した.その結果,自身と同じプレイヤが増えると,増えた分だけ得 点を下げていく組合せを発見した.また,異なる強さのプレイヤの存在により,同程度の強さのプレイヤ の得点差が変化することを確認した. キーワード:大貧民,不完全情報ゲーム,多人数ゲーム,モンテカルロ法. How Play Algorithms of Others Affect to the Strength of a Player in Daihinmin Shigehiko Morita1,a). Kiminori Matsuzaki2,b). Abstract: In multi-player games, one’s play may bring no gain to oneself but do some gain to others. This means the strength of a player can be affected by play algorithms of other players. In this study, we made a survey, for a multi-player imperfect-information game Daihinmin, how the difference of play algorithms of other players affect the strength of a player. We have made many experiments on several combinations of five players: three of them, rule-based player, evaluation-value-based player and naive Monte-Carlo player, are of almost the same strength; one is weaker than these three; the other is the strongest. From the experiments, we found some interesting results. First, in some combinations, the more players of the same algorithm attend, the less points the players get. Second, the strength of the three players varies when weaker or stronger players attend to the game. Keywords: Daihinmin, Imperfect information game, Multi-player game, Monte-Carlo method. 1. はじめに 1. 2. a) b). 高知工科大学大学院工学研究科 Graduate School of Engineering, Kochi University of Technology 高知工科大学情報学群 School of Information, Kochi University of Technology [email protected] [email protected]. ⓒ 2013 Information Processing Society of Japan. 麻雀やポーカー,ブリッジなどのような多人数ゲームで は,自分のプレイが自分の利得と関係なく,他者の利得に のみに影響する状態が発生する特徴がある [2].このため, 完全情報であっても従来の意味でのゲーム木探索を一意に 行うことができず,計算量に関わらず最適着手を決められ. 1.

(2) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. ない場合が発生する [2][3].自分のプレイが自分の利得と 関係なく他者の利得にのみに影響することにより,自分の 戦略が他者の戦略へ有利もしくは不利に作用したりするこ とがある.このことから,多人数ゲームでの各プレイヤの 強さは,他のプレイヤの戦略に影響を受けることで変動す る可能性がある. 近年では,大貧民の研究はさかんに行われるようになっ た.理由としては,コンピュータプレイヤを使った大貧民 大会が行われるようになり,一定の評価機構が入手できる ようになったからである.当初は知識ベースによるプレイ ヤが主流であったが,近年ではモンテカルロ法を実装した プレイヤが主流である.モンテカルロ法によりプレイヤの 強さは進歩している.しかし,複数のプレイヤ間での相性 に関する研究は単純なものにとどまっている. 本研究では,多人数不完全情報ゲームである大貧民を題 材として,あるプレイヤの強さに対して他のプレイヤープ レイアルゴリズムが与える影響を調べることを目的として いる.実験のために強さが同程度ではあるがプレイアルゴ リズムの違う 3 つのプレイヤとこれらの強さの基準となる. 2 つのプレイヤを用意した.プレイアルゴリズムの違う 3 つのプレイヤのうち,1 つ目は,ヒューリスティックなルー ルをもとにゲームをプレイするルールベース型である.2 つ目は,カードや手役の評価値を計算し,その評価値から 場に出す役を決定する評価値型である.3 つ目は,原始的 なモンテカルロ法を用いて場に出す役を決定するモンテカ ルロ型である.基準となるプレイヤは,3 つのどのプレイ ヤよりも強いものと弱いものを用意した.実験では,これ ら 5 つのプレイヤを使用して複数の組合せをつくり大貧民 をプレイさせた.そして,得られた結果をもとに他のプレ イヤのプレイアルゴリズムがプレイヤ間での強弱関係に影 響があるのかを調査した. 本論文の貢献は以下の 3 点である.. • 強さが同程度なプレイアルゴリズムを設計した.相性 の研究では,このような強さが等しいアルゴリズムは 重要である.. • 同程度な強さを持つプレイヤ同士の対戦においてプレ イヤ数と強さの関係を調査した.. • 強さの異なる他プレイヤが存在する場合においてのプ レイヤの強さへの影響を調査した. 本論文の構成は以下の通りである.第 2 章では,本研究 で用いた 5 つの大貧民プレイヤについてそのアルゴリズム を説明する.第 3 章では,中程度の強さのプレイヤ同士に おけるプレイヤ数と強さの関係,および,他プレイヤの強 さが異なる場合のプレイヤの強さへの影響について実験を 行い,その結果と注目すべき点について考察を述べる.関 連研究を第 4 章に示し,本論文のまとめと今後の課題を第. 5 章に述べる.. ⓒ 2013 Information Processing Society of Japan. 2. 実験に用いる大貧民プレイヤ 本章では,本研究で用いる大貧民のルールと 5 つのプレ イヤについて説明する.本研究では,同程度の強さのプレ イヤ 3 つ(ルールベース型,評価値型,モンテカルロ型) に加えて,それらより弱いプレイヤ(サンプル)と強いプ レイヤ(TaiTai)をそれぞれ 1 つずつ用意した.. 2.1 大貧民のルール 大貧民における基本的な用語を以下に定義する. あがり 手札が 0 枚になった状態をあがりと呼び,あがっ たプレイヤは勝利となる. ランク カードのランクとは,カードの強さの順に大きく なるよう割り振った値である.エース,2,ジョーカー 以外のカードのランクはそのカードの数とする.エー スは 14,2 は 15,ジョーカーは 16 とする. 手役 大貧民の手役は,階段役・複数役・単体役からなる. ゲーム カードをプレイヤに配った状態から,1 人を除く すべてのプレイヤがあがった状態となるまでを 1 回の ゲームと呼ぶ. ターン 場札が空である新しい場から始めて,各プレイヤ が順次手札から手役を出していく.全てのプレイヤが パスをするか,後述の 8 切り,スペ 3 切りが発生した ときには場札を空とする.これを場を流すと呼ぶ.新 しい場から場が流れるまでを 1 ターンと呼ぶ. 本研究では電気通信大学コンピュータ大貧民大会の標準 ルール [7] を使用した.このルールで採用されている特殊 なルールを以下に示す. 得点 1 回のゲームの順位に応じ,1 位は 2 点,2 位は 1 点,. 3 位は 0 点,4 位は −1 点,5 位は −2 点を得る. あがり時の役制限なし どんな役を使用してもあがること ができる.特にモンテカルロ型プレイヤのプレイアウ トにおいてあがり時の処理を単純に実装することがで きる. しばり 場役と同じスートを持った役 (複数枚の場役なら すべて同じスート) がでると,しばりが発生する.し ばりが発生すると,場が新しくなるまで縛られたスー トと同じスートの役しか場に出せなくなる.. 8 切り ランクが 8 のカードを含む手役が場に出ると,場 が流され,その手役を出したプレイヤから新しく手番 が始まる. スペ 3 切り. ジョーカーの単体役に対して,スペードの 3. を出すことができる.そのとき,場が流され,スペー ドの 3 を出したプレイヤから新たに手番が始まる.ど のスートでしばりが発生していたとしても,このス ペードの 3 は出すことができる.. 2.

(3) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 2.2 ルールベース型プレイヤ. 表 1 各プレイヤの 1 ゲームあたりの平均得点. ルールベース型プレイヤ(記号 R で表す)では,ヒューリ スティックなルールをもとに場に出す役を決定する.ルー. 評価値型. ルールベース型. モンテカルロ型. TaiTai. 0.315. 0.323. 0.356. 0.654. ルベース型プレイヤは,場に役が出せる場合,以下のルー ルをもとに役を選出する.. ( 1 ) 序盤では特定のカードを出さない ゲーム開始から 3 ターンが経過するまでは,ランクが. 8 または 11 から 15 まで (革命時は 3 から 5 まで) の カードを含む手役は出さない.. ( 2 ) 場が新しくないとき. 2.5 サンプルプレイヤ サンプルプレイヤ(記号 S で表す)は,電気通信大学が 配布しているコンピュータ大貧民開発キット*1 に付属して いる Java 版のクライアントプログラム BotPlain クラス である.. 場にすでに役が出ている場合,合法手のなかでランク が最小のものを出す.ただし,候補が複数ある場合は 場を縛れるものを優先して出す.. ( 3 ) 場が新しいとき 場が新しい場合,最小ランクのカードを含む手役を出. サンプルプレイヤは,貪欲なプレイを行うプレイヤであ る.場が新しいときは,使用するカードの枚数が一番多い 役のうち,最も弱いランクの役を場に出す.場に役が出て いるときは,合法手からもっとも弱いランクの役を場に 出す.. す.ただし,候補が複数あった場合は以下の条件で役 を出していく.. ( a ) 階段役がある場合は優先して出す.ただし,階段 役の最上位のランクが 12 以上となる場合は候補 としない.その階段役を出してもあがりまでの最 短手数 [6] が減らない場合には候補としない.. ( b ) 候補となる階段役が無く,複数役がある場合は, その複数役を出す.. ( c ) そうでない場合は単体役のみからなるはずである.. 2.6 TaiTai プレイヤ TaiTai(記号 T で表す)は,電気通信大学で配布されて いる第 2 回コンピュータ大貧民大会準優勝のプレイヤプロ グラムである [4]*2 .. TaiTai のプレイアルゴリズムの重要な点は次の 2 つで ある.まず,必勝となる役の出し方のパターンがあるなら そのパターンで役を出していく.それがない場合は,強い カードと弱いカードの枚数のバランスを取りつつ,縛りを 行える手役を積極的に出す.. 2.3 評価値型プレイヤ 評価値型プレイヤ(記号 E で表す)では,手役の評価値 により場に出すカードを決定する. 手役の評価値は,その手役を出した後に残るカードのラ ンクの平均値とした.評価値型プレイヤは,パスを除く合 法手があるとき,それらのうち評価値が最大となる手役を 場に出す.. 2.4 モンテカルロ型プレイヤ モンテカルロ型プレイヤ(記号 M で表す)は,原始的な モンテカルロ法 [12] によるプレイヤである. プレイアウトの対象となる手役は,場が新しい場合はパ スを除く合法手すべて,場が新しくない場合にはパスを含. 2.7 各プレイヤの強さの計測 ルールベース型・評価値型・モンテカルロ型プレイヤの 強さを計測するため,各プレイヤをサンプルプレイヤ 4 つ と対戦させた.1 回の対戦では 5000 ゲーム行い,これを. 5 回行った.1 ゲームあたりの平均得点を表 1 に示す.表 1 に示すとおり,評価値型とルールベース型とモンテカル ロ型は TaiTai の半分程度の得点であった.これら 3 つの プレイヤはおおよそ同程度の強さであり,サンプルより強 く,TaiTai よりは弱い.. 3. プレイアルゴリズムによる強弱関係への影 響の調査. む合法手とする.ただし,ジョーカーの単体役は,しばり のスートもしくはスペードの最高ランクの役 1 つのみとす る.プレイアウトにおいて,仮想的な各プレイヤは,手役 を出せる場合にはパスを含まない合法手からランダムに手 役を選択する.プレイアウトは合計 600 回行い,すべての 候補手に対して均等に行う.. 第 2 章で示した 5 つのプレイヤを用いて,他プレイヤの プレイアルゴリズムが強さに与える影響について実験を 行った.実験は大きく分けて 2 種類行った.1 つ目は,中 程度の強さのプレイヤ同士におけるプレイヤ数と強さの関 係の調査である.2 つ目は,他プレイヤの強さが異なる場 合のプレイヤの強さへの影響の調査である.. プレイアウトによって得られる評価値は,1 回のゲーム の得点と同じ 2 点から −2 点とする.モンテカルロ型プレ イヤは,それらの評価値の相加平均が最も高い手役を場に 出す手として選ぶ. ⓒ 2013 Information Processing Society of Japan. *1 *2. http://uecda.nishino-lab.jp/2012/download.html より入手で きる. http://uecda.nishino-lab.jp/2010/download/taitai.zip よ り 入手できる.. 3.

(4) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 3.1 実験 1:中程度の強さのプレイヤ同士におけるプレイ. 0.6. ヤ数と強さの関係 この実験では,同程度の強さを持つルールベース型・評 それらのプレイヤ数を変えた組合せで大貧民をプレイさせ る.これにより,自身と同じプレイヤが存在することより, プレイヤの強さへの影響を調べる.. 0.4 Rel. Score. 価値型・モンテカルロ型のプレイヤのうち,2 種類を選び. 0.3 0.2 0.1 0. 具体的には,以下の 3 種類のプレイヤの組合せそれぞれ. -0.1. に 4 通りの実験を行った.. Ri E5−i. -0.2. ルールベース型 i 個と評価値型 5 − i 個(ただし,. 1. i = 1, . . . , 4) Ri M5−i. R E. 0.5. 2. 3. 4. Number of R-players. ルールベース型 i 個とモンテカルロ型 5 − i 個. 図 1 ルールベース型と評価値型の組合せにおける得点. (ただし,i = 1, . . . , 4) i. E M5−i. 評価値型 i 個とモンテカルロ型 5 − i 個(ただ. 0.5. し,i = 1, . . . , 4). R M. 0.4. これらの組合せのそれぞれについて,5000 回のゲームを との平均得点を求めた.ルールベース型と評価値型の組合 せ(Ri E5−i )による得点のグラフを図 1,ルールベース型. 0.3 Rel. Score. 5 セットずつ行った.各セットごとに,プレイヤの種類ご. フを図 2,評価値型とモンテカルロ型の組合せ(E M. 5−i. 0.1 0. とモンテカルロ型の組合せ(Ri M5−i )による得点のグラ i. 0.2. ). -0.1. による得点のグラフを図 3 に示す.各グラフにおいて,5. -0.2 1. セットの平均値を線で結び,最大値と最小値をエラーバー で示している. これらの結果は,著者らの予想とは大きく異なるもので. 0.5. レイヤのいずれの組合せにおいても,プレイヤの数を変 えると得点が大きく変化した.例えば,R E の場合では. 0.654 であったことを考えると,これらは非常に大きな得 点差である.一方で,それぞれのプレイヤの組合せにおい て,R1 E4 ,R2 M3 ,E4 M1 では,2 つのプレイヤはほぼ同 じ得点を得ている. また,これらの結果のうち,ルールベース型と評価値型. 0.3 Rel. Score. の得点差となった.サンプルプレイヤと TaiTai との差が. E M. 0.4. 1. 0.620,R4 M1 の場合では 0.477,E1 M4 の場合では 0.473. 0.2 0.1 0 -0.1 -0.2 1. の組合せと,モンテカルロ型と評価値型の組合せが類似し ている.したがって,評価値型にとっては,ルールベース. 4. 図 2 ルールベース型とモンテカルロ型の組合せにおける得点. あった.ルールベース型・評価値型・モンテカルロ型のプ 4. 2 3 Number of R-players. 2 3 Number of E-players. 4. 図 3 評価値型とモンテカルロ型の組合せにおける得点. 型とモンテカルロ型が同様に見えている可能性がある.そ うであっても,ルールベース型とモンテカルロ型の組合せ の結果(図 2)より,それらの間でも差が生じている.. ヤの強さに与える影響について調べる. 具体的には,まず,中程度の強さを持つプレイヤから 2 つを選び,それぞれについて 4 通りの実験を行った.. 3.2 実験 2:他プレイヤの強さが異なる場合のプレイヤの 強さへの影響 この実験では,中程度の強さを持つルールベース型・評 価値型・モンテカルロ型のプレイヤから 2∼3 つを選び固. RESi T3−i. ルールベース型と評価値型それぞれ 1 つに. 加えて,サンプル i 個と TaiTai 3 − i 個(ただし,. i = 0, . . . , 3) RMSi T3−i. ルールベース型とモンテカルロ型それぞれ 1. 定し,残りのプレイヤについて弱いプレイヤ(サンプル). つに加えて,サンプル i 個と TaiTai 3 − i 個(ただし,. と強いプレイヤ(TaiTai)の任意の組合せを作って大貧民. i = 0, . . . , 3). をプレイさせた.これにより,他プレイヤの強さがプレイ ⓒ 2013 Information Processing Society of Japan. EMSi T3−i. 評価値型とモンテカルロ型それぞれ 1 つに. 4.

(5) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 0.3. 0.3. R E. 0.2 0.1. 0.1. 0. Rel. Score. Rel. Score. R E M. 0.2. -0.1 -0.2 -0.3. 0 -0.1 -0.2. -0.4. -0.3. -0.5 -0.6. -0.4. 0. 1. 2. 3. 0. 1. Number of T-players 図 4 強さの異なるプレイヤが存在する場合のルールベース型と評. 図 7 強さの異なるプレイヤが存在する場合のルールベース型と評 価値型とモンテカルロ型の得点. 価値型の得点. 0.3. (EMSi T3−i )の得点のグラフを図 6 に示す.. R M. 0.2. また,中程度の強さを持つプレイヤ 3 種類を 1 つずつ含. 0.1 Rel. Score. 2. Number of T-players. む次の組合せについて 3 通りの実験を行った.. 0. REMSi T2−i. -0.1. ルールベース型と評価値型,モンテカルロ型. それぞれ 1 つに加えて,サンプル i 個と TaiTai 3 − i. -0.2. 個(ただし,i = 0, . . . , 2). -0.3. この組合せ(REMSi T2−i )における平均得点を図 7 に. -0.4. 示す.. -0.5. これらの実験結果では,強いプレイヤが増えると,中程. -0.6 0. 1 2 Number of T-players. 3. 度の強さのプレイヤの得点が下がっている.それは当然の. 図 5 強さの異なるプレイヤが存在する場合のルールベース型とモ ンテカルロ型の得点. 結果であるが,注目すべきはその下がり方である.3 つの 中程度の強さのプレイヤにおいて,ルールベース型の得点 が最も大きく下がっており,評価値型の得点の下がり幅が 最も小さい.中程度のプレイヤのうち,サンプルに対する. 0.4 E M. 0.3. 得点は評価値型が最も少なかったが,TaiTai を含む組合せ においては評価値型が最も大きな得点を得ている.. Rel. Score. 0.2 0.1. 図 4,5,6 より着目すべき点がもう 1 つある.それは,. 0. 組合せの中で,中程度の強さのプレイヤのもう一方がどち. -0.1. らであっても,得点の減少幅がほぼ同じであることである.. -0.2. 例えば,ルールベース型は 0.238±0.007 から 0.459±0.008,. -0.3. 評価値型は 0.255 ± 0.014 から −0.213 ± 0.007,モンテカル. -0.4. ロ型は 0.241 ± 0.005 から 0.367 ± 0.013 と変化している.. -0.5 0. 1 2 Number of T-players. 中程度のプレイヤが 3 つある場合,2 つの場合とは多少. 3. 異なるものの,プレイヤ間の順位の関係は変わっていない.. 図 6 強さの異なるプレイヤが存在する場合の評価値型とモンテカ ルロ型の得点. 以上の結果より,次のような仮説を立てる. 仮説. 自分自身と同じプレイアルゴリズムが存在すると,. プレイヤの強さに大きな影響がある.特に,その影響は得 加えて,サンプル i 個と TaiTai 3 − i 個(ただし,. i = 0, . . . , 3). この仮説の検証は今後の課題である.. 実験 1 と同様に,これらの組合せのそれぞれについて,. 5000 回のゲームを 5 セットずつ行い,平均得点を求めた. ルールベース型と評価値型(RESi T3−i )の得点のグラフ i. を図 4 に,ルールベース型とモンテカルロ型(RMS T. 3−i. ). の得点のグラフを図 5 に,評価値型とモンテカルロ型 ⓒ 2013 Information Processing Society of Japan. 点を下げる方向に働く.. 4. 関連研究 二人完全情報ゼロ和ゲームの研究はさかんに行われて きた。一方で,多人数ゲームの研究はそれほど多くはない ものの行われていた [2][3][1].近年,UEC コンピュータ大. 5.

(6) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 貧民大会 (UECda) [11] を契機として,多人数不完全情報. 仮説を検証することである.. ゲームである大貧民を対象とした研究が,特に国内で多く 行われている [9][5][6][8][10]. 初期の UECda では,プレイヤの多くは本研究で用いた ようなルールベース型もしくは評価値型のプレイヤであっ. 謝辞 本研究の実験は,高知工科大学 高度計算研究プロジェク トの PC クラスタによる計算リソースにより実施した.. たが,2010 年にモンテカルロ法を用いたプレイヤが登場 してからモンテカルロ法が有力なプレイアルゴリズムとさ. 参考文献. れている [5].近年の大会では,相手手札の推定機能を含. [1]. めたプログラムが優勝するなど [10],大貧民の多人数性・ 不完全情報性を考慮に入れたプログラムの開発も行われて いる. コンピュータ大貧民大会とは独立した形での大貧民の研. [2]. 究も行われている.本研究に最も関連の深い研究は,佐藤 らによるプレイアルゴリズム間の比較に関する研究であ る [6].そこでは,縛りと階段役の使い方に関して 14 のプ. [3]. レイヤを考え,それらの間の強さの関係を調べている.そ れらのプレイヤの中で安定して強いプレイヤを発見する に至っているものの,プレイアルゴリズム間に自明でない. [4]. 相性が存在するかどうかについてまでは議論されていな かった. 地曳らは,大貧民の不完全情報性がプレイヤに与える影. [5]. 響に関する研究も行っており [8],その研究の中で大貧民に おける次の一手問題を作成している.本研究では,5000 回. [6]. のゲームを行うことによるマクロな視点での評価を行った が,そのような次の一手問題によるミクロな視点での評価 によりプレイヤへの影響の研究も考えられる.. 5. おわりに. [7] [8]. 本研究では,大貧民を対象に,ルールベース型・評価値 型・モンテカルロ型・サンプル・TaiTai という 5 つのプレ. [9]. イヤを使用して,他プレイヤのプレイアルゴリズムによっ て受けるプレイヤの強さへの影響を調査した.実験は大き く 2 種類に分けて行った.ひとつは,中程度の強さのプレ. [10]. イヤ同士におけるプレイヤ数と強さの関係を調査であり, もうひとつは,他プレイヤの強さが異なる場合のプレイヤ の強さへの影響を調査することであった. 中程度の強さのプレイヤ同士プレイヤ数と強さの関係の 調査では,ルールベース型・評価値型・モンテカルロ型い. [11] [12]. Ulf Lorenz and Tobias Tscheuschner: Player modeling, search algorithms and strategies in multi-player games. Proceedings of the 11th international conference on Advances in Computer Games (ACG’05), pp. 210–224, 2006. Carol A. Luckhardt and Keki B. Irani: An algorithmic solution of N-person games. Proceedings of The Fifth National Conference on Artificial Intelligence (AAAI86), pp. 158–162, 1986. Nathan R. Sturtevant: An analysis of UCT in multiplayer games. Proceedings of the 6th international conference on Computers and Games (CG ’08), pp. 37–49, 2008. 大久保 誠也, 本多 武尊, 眞鍋 秀聡, 青木 輝人, 柿下 容弓, 小松原 頌之, 飯塚 拓郎, 常田 宏和, Khan Md. Mahfuzus Salam, 西野 哲朗: 第 2 回 UEC コンピュータ大貧民大会 (UECda-2007) の報告. 情報処理学会研究報告, GI, [ゲー ム情報学], Vol. 2008, No. 28, pp. 25–32, 2008. 小沼 哲, 西野 哲朗: コンピュータ大貧民に対するモンテ カルロ法の適用. 情報処理学会研究報告, GI, [ゲーム情 報学], Vol. 2011-GI-25, No. 3, pp. 1–4, 2011. 佐藤 裕紀, 伊藤 毅志: 大貧民におけるプレースタイルの 相性に関する研究. 情報処理学会研究報告, GI, [ゲーム 情報学], Vol. 2008, No. 59, pp. 37–43, 2008. 第 5 回 UEC コンピュータ大貧民大会マニュアル 20101114 版. http://uecda.nishino-lab.jp/2010/man/index.html. 地曳 隆将, 松崎 公紀: 大貧民において不完全情報性がモ ンテカルロ法によるプレイヤに与える影響の調査. 情報 処理学会研究報告, GI, [ゲーム情報学], Vol. 2012-GI-28, No. 6, pp. 1–8, 2012. 西野 順二, 西野 哲朗: 多人数不完全情報ゲームの簡略化 評価値による探索を用いた終盤データベースの構築. 情 報処理学会論文誌 数理モデル化と応用, Vol. 3, No. 2, pp. 11–21, 2010. 西野 順二, 西野 哲朗: 大貧民における相手手札推定. 情報 処理学会研究報告, MPS, 数理モデル化と問題解決研究 報告, Vol. 2011-MPS-85, No. 9, pp. 1–6, 2011. UEC コ ン ピ ュ ー タ 大 貧 民 大 会 ホ ー ム ペ ー ジ. http://uecda.nishino-lab.jp/. 美添 一樹: モンテカルロ木探索 ― コンピュータ囲碁に革 命を起こした新手法. 情報処理, Vol. 49, No. 6, pp. 686– 693, 2008.. ずれの組合せでも,プレイヤの数を変えると得点が大きく 変化した.ルールベース型が 1 つ評価値型が 4 つの時の得 点差は 0.01 以下であったのに対し,ルールベース型が 4 つ 評価値型が 1 つの時の得点差は 0.62 にもなった. 他プレイヤの強さが異なる場合のプレイヤの強さへの影 響の調査では,プレイヤごとに得点の減少幅が異なる結果 となった.しかし,あるプレイヤに関してみると,その減 少幅は組合せによらないようであった. 今後の課題は,自身と同じプレイアルゴリズムが複数あ る場合について詳しく調べることで第 3 章の最後に示した ⓒ 2013 Information Processing Society of Japan. 6.

(7)

参照

関連したドキュメント

Comparing the Gauss-Jordan-based algorithm and the algorithm presented in [5], which is based on the LU factorization of the Laplacian matrix, we note that despite the fact that

We note that, in order to study the behavior of a parametric fuzzy difference equation we use the following technique: we investigate the behavior of the solutions of a related family

She reviews the status of a number of interrelated problems on diameters of graphs, including: (i) degree/diameter problem, (ii) order/degree problem, (iii) given n, D, D 0 ,

In this article we study a free boundary problem modeling the tumor growth with drug application, the mathematical model which neglect the drug application was proposed by A..

Here we do not consider the case where the discontinuity curve is the conic (DL), because first in [11, 13] it was proved that discontinuous piecewise linear differential

delineated at this writing: central limit theorems (CLTs) and related results on asymptotic distributions, weak laws of large numbers (WLLNs), strong laws of large numbers (SLLNs),

delineated at this writing: central limit theorems (CLTs) and related results on asymptotic distributions, weak laws of large numbers (WLLNs), strong laws of large numbers (SLLNs),

In this paper, based on the concept of rough variable proposed by Liu 14, we discuss a simplest game, namely, the game in which the number of players is two and rough payoffs which