大貧民において他プレイヤのプレイアルゴリズムより受けるプレイヤの強さへの影響

全文

(1)Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 大貧民において他プレイヤのプレイアルゴリズムより受けるプレイヤの強さへの影響森田茂彦1,a). 松崎公紀2,b). 概要：多人数ゲームでは，自分のプレイが自分の利得と関係なく他プレイヤの利得のみに影響する状態が発生する．そのため，多人数ゲームでは，他のプレイヤのプレイアルゴリズムに影響を受けて各プレイヤの強さが変動する可能性がある．本研究では，多人数不完全情報ゲームである大貧民を用いて，他プレイヤのプレイアルゴリズムの違いがプレイヤの強さに与える影響について調査した．同程度の強さを持つプレイヤとして，ヒューリスティックなルールに基づいてプレイするルールベース型，手役につけた評価値をもとにプレイする評価値型，モンテカルロ法により手役を決定するモンテカルロ型の 3 種類を用意した．さらに，これらよりも強いものを 1 種類，弱いものを 1 種類用意した．これらのプレイヤによる組合せを複数つくり対戦させ，対戦結果を比較した．その結果，自身と同じプレイヤが増えると，増えた分だけ得点を下げていく組合せを発見した．また，異なる強さのプレイヤの存在により，同程度の強さのプレイヤの得点差が変化することを確認した．キーワード：大貧民，不完全情報ゲーム，多人数ゲーム，モンテカルロ法. How Play Algorithms of Others Affect to the Strength of a Player in Daihinmin Shigehiko Morita1,a). Kiminori Matsuzaki2,b). Abstract: In multi-player games, one’s play may bring no gain to oneself but do some gain to others. This means the strength of a player can be affected by play algorithms of other players. In this study, we made a survey, for a multi-player imperfect-information game Daihinmin, how the difference of play algorithms of other players affect the strength of a player. We have made many experiments on several combinations of five players: three of them, rule-based player, evaluation-value-based player and naive Monte-Carlo player, are of almost the same strength; one is weaker than these three; the other is the strongest. From the experiments, we found some interesting results. First, in some combinations, the more players of the same algorithm attend, the less points the players get. Second, the strength of the three players varies when weaker or stronger players attend to the game. Keywords: Daihinmin, Imperfect information game, Multi-player game, Monte-Carlo method. 1. はじめに 1. 2. a) b). 高知工科大学大学院工学研究科 Graduate School of Engineering, Kochi University of Technology 高知工科大学情報学群 School of Information, Kochi University of Technology [email protected] [email protected]. ⓒ 2013 Information Processing Society of Japan. 麻雀やポーカー，ブリッジなどのような多人数ゲームでは，自分のプレイが自分の利得と関係なく，他者の利得にのみに影響する状態が発生する特徴がある [2]．このため，完全情報であっても従来の意味でのゲーム木探索を一意に行うことができず，計算量に関わらず最適着手を決められ. 1.

(2) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. ない場合が発生する [2][3]．自分のプレイが自分の利得と関係なく他者の利得にのみに影響することにより，自分の戦略が他者の戦略へ有利もしくは不利に作用したりすることがある．このことから，多人数ゲームでの各プレイヤの強さは，他のプレイヤの戦略に影響を受けることで変動する可能性がある．近年では，大貧民の研究はさかんに行われるようになった．理由としては，コンピュータプレイヤを使った大貧民大会が行われるようになり，一定の評価機構が入手できるようになったからである．当初は知識ベースによるプレイヤが主流であったが，近年ではモンテカルロ法を実装したプレイヤが主流である．モンテカルロ法によりプレイヤの強さは進歩している．しかし，複数のプレイヤ間での相性に関する研究は単純なものにとどまっている．本研究では，多人数不完全情報ゲームである大貧民を題材として，あるプレイヤの強さに対して他のプレイヤープレイアルゴリズムが与える影響を調べることを目的としている．実験のために強さが同程度ではあるがプレイアルゴリズムの違う 3 つのプレイヤとこれらの強さの基準となる. 2 つのプレイヤを用意した．プレイアルゴリズムの違う 3 つのプレイヤのうち，1 つ目は，ヒューリスティックなルールをもとにゲームをプレイするルールベース型である．2 つ目は，カードや手役の評価値を計算し，その評価値から場に出す役を決定する評価値型である．3 つ目は，原始的なモンテカルロ法を用いて場に出す役を決定するモンテカルロ型である．基準となるプレイヤは，3 つのどのプレイヤよりも強いものと弱いものを用意した．実験では，これら 5 つのプレイヤを使用して複数の組合せをつくり大貧民をプレイさせた．そして，得られた結果をもとに他のプレイヤのプレイアルゴリズムがプレイヤ間での強弱関係に影響があるのかを調査した．本論文の貢献は以下の 3 点である．. • 強さが同程度なプレイアルゴリズムを設計した．相性の研究では，このような強さが等しいアルゴリズムは重要である．. • 同程度な強さを持つプレイヤ同士の対戦においてプレイヤ数と強さの関係を調査した．. • 強さの異なる他プレイヤが存在する場合においてのプレイヤの強さへの影響を調査した．本論文の構成は以下の通りである．第 2 章では，本研究で用いた 5 つの大貧民プレイヤについてそのアルゴリズムを説明する．第 3 章では，中程度の強さのプレイヤ同士におけるプレイヤ数と強さの関係，および，他プレイヤの強さが異なる場合のプレイヤの強さへの影響について実験を行い，その結果と注目すべき点について考察を述べる．関連研究を第 4 章に示し，本論文のまとめと今後の課題を第. 5 章に述べる．. ⓒ 2013 Information Processing Society of Japan. 2. 実験に用いる大貧民プレイヤ本章では，本研究で用いる大貧民のルールと 5 つのプレイヤについて説明する．本研究では，同程度の強さのプレイヤ 3 つ（ルールベース型，評価値型，モンテカルロ型）に加えて，それらより弱いプレイヤ（サンプル）と強いプレイヤ（TaiTai）をそれぞれ 1 つずつ用意した．. 2.1 大貧民のルール大貧民における基本的な用語を以下に定義する．あがり手札が 0 枚になった状態をあがりと呼び，あがったプレイヤは勝利となる．ランクカードのランクとは，カードの強さの順に大きくなるよう割り振った値である．エース，2，ジョーカー以外のカードのランクはそのカードの数とする．エースは 14，2 は 15，ジョーカーは 16 とする．手役大貧民の手役は，階段役・複数役・単体役からなる．ゲームカードをプレイヤに配った状態から，1 人を除くすべてのプレイヤがあがった状態となるまでを 1 回のゲームと呼ぶ．ターン場札が空である新しい場から始めて，各プレイヤが順次手札から手役を出していく．全てのプレイヤがパスをするか，後述の 8 切り，スペ 3 切りが発生したときには場札を空とする．これを場を流すと呼ぶ．新しい場から場が流れるまでを 1 ターンと呼ぶ．本研究では電気通信大学コンピュータ大貧民大会の標準ルール [7] を使用した．このルールで採用されている特殊なルールを以下に示す．得点 1 回のゲームの順位に応じ，1 位は 2 点，2 位は 1 点，. 3 位は 0 点，4 位は −1 点，5 位は −2 点を得る．あがり時の役制限なしどんな役を使用してもあがることができる．特にモンテカルロ型プレイヤのプレイアウトにおいてあがり時の処理を単純に実装することができる．しばり場役と同じスートを持った役 (複数枚の場役ならすべて同じスート) がでると，しばりが発生する．しばりが発生すると，場が新しくなるまで縛られたスートと同じスートの役しか場に出せなくなる．. 8 切りランクが 8 のカードを含む手役が場に出ると，場が流され，その手役を出したプレイヤから新しく手番が始まる．スペ 3 切り. ジョーカーの単体役に対して，スペードの 3. を出すことができる．そのとき，場が流され，スペードの 3 を出したプレイヤから新たに手番が始まる．どのスートでしばりが発生していたとしても，このスペードの 3 は出すことができる．. 2.

(3) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 2.2 ルールベース型プレイヤ. 表 1 各プレイヤの 1 ゲームあたりの平均得点. ルールベース型プレイヤ（記号 R で表す）では，ヒューリスティックなルールをもとに場に出す役を決定する．ルー. 評価値型. ルールベース型. モンテカルロ型. TaiTai. 0.315. 0.323. 0.356. 0.654. ルベース型プレイヤは，場に役が出せる場合，以下のルールをもとに役を選出する．. ( 1 ) 序盤では特定のカードを出さないゲーム開始から 3 ターンが経過するまでは，ランクが. 8 または 11 から 15 まで (革命時は 3 から 5 まで) のカードを含む手役は出さない．. ( 2 ) 場が新しくないとき. 2.5 サンプルプレイヤサンプルプレイヤ（記号 S で表す）は，電気通信大学が配布しているコンピュータ大貧民開発キット*1 に付属している Java 版のクライアントプログラム BotPlain クラスである．. 場にすでに役が出ている場合，合法手のなかでランクが最小のものを出す．ただし，候補が複数ある場合は場を縛れるものを優先して出す．. ( 3 ) 場が新しいとき場が新しい場合，最小ランクのカードを含む手役を出. サンプルプレイヤは，貪欲なプレイを行うプレイヤである．場が新しいときは，使用するカードの枚数が一番多い役のうち，最も弱いランクの役を場に出す．場に役が出ているときは，合法手からもっとも弱いランクの役を場に出す．. す．ただし，候補が複数あった場合は以下の条件で役を出していく．. ( a ) 階段役がある場合は優先して出す．ただし，階段役の最上位のランクが 12 以上となる場合は候補としない．その階段役を出してもあがりまでの最短手数 [6] が減らない場合には候補としない．. ( b ) 候補となる階段役が無く，複数役がある場合は，その複数役を出す．. ( c ) そうでない場合は単体役のみからなるはずである．. 2.6 TaiTai プレイヤ TaiTai（記号 T で表す）は，電気通信大学で配布されている第 2 回コンピュータ大貧民大会準優勝のプレイヤプログラムである [4]*2 ．. TaiTai のプレイアルゴリズムの重要な点は次の 2 つである．まず，必勝となる役の出し方のパターンがあるならそのパターンで役を出していく．それがない場合は，強いカードと弱いカードの枚数のバランスを取りつつ，縛りを行える手役を積極的に出す．. 2.3 評価値型プレイヤ評価値型プレイヤ（記号 E で表す）では，手役の評価値により場に出すカードを決定する．手役の評価値は，その手役を出した後に残るカードのランクの平均値とした．評価値型プレイヤは，パスを除く合法手があるとき，それらのうち評価値が最大となる手役を場に出す．. 2.4 モンテカルロ型プレイヤモンテカルロ型プレイヤ（記号 M で表す）は，原始的なモンテカルロ法 [12] によるプレイヤである．プレイアウトの対象となる手役は，場が新しい場合はパスを除く合法手すべて，場が新しくない場合にはパスを含. 2.7 各プレイヤの強さの計測ルールベース型・評価値型・モンテカルロ型プレイヤの強さを計測するため，各プレイヤをサンプルプレイヤ 4 つと対戦させた．1 回の対戦では 5000 ゲーム行い，これを. 5 回行った．1 ゲームあたりの平均得点を表 1 に示す．表 1 に示すとおり，評価値型とルールベース型とモンテカルロ型は TaiTai の半分程度の得点であった．これら 3 つのプレイヤはおおよそ同程度の強さであり，サンプルより強く，TaiTai よりは弱い．. 3. プレイアルゴリズムによる強弱関係への影響の調査. む合法手とする．ただし，ジョーカーの単体役は，しばりのスートもしくはスペードの最高ランクの役 1 つのみとする．プレイアウトにおいて，仮想的な各プレイヤは，手役を出せる場合にはパスを含まない合法手からランダムに手役を選択する．プレイアウトは合計 600 回行い，すべての候補手に対して均等に行う．. 第 2 章で示した 5 つのプレイヤを用いて，他プレイヤのプレイアルゴリズムが強さに与える影響について実験を行った．実験は大きく分けて 2 種類行った．1 つ目は，中程度の強さのプレイヤ同士におけるプレイヤ数と強さの関係の調査である．2 つ目は，他プレイヤの強さが異なる場合のプレイヤの強さへの影響の調査である．. プレイアウトによって得られる評価値は，1 回のゲームの得点と同じ 2 点から −2 点とする．モンテカルロ型プレイヤは，それらの評価値の相加平均が最も高い手役を場に出す手として選ぶ． ⓒ 2013 Information Processing Society of Japan. *1 *2. http://uecda.nishino-lab.jp/2012/download.html より入手できる． http://uecda.nishino-lab.jp/2010/download/taitai.zip より入手できる．. 3.

(4) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 3.1 実験 1：中程度の強さのプレイヤ同士におけるプレイ. 0.6. ヤ数と強さの関係この実験では，同程度の強さを持つルールベース型・評それらのプレイヤ数を変えた組合せで大貧民をプレイさせる．これにより，自身と同じプレイヤが存在することより，プレイヤの強さへの影響を調べる．. 0.4 Rel. Score. 価値型・モンテカルロ型のプレイヤのうち，2 種類を選び. 0.3 0.2 0.1 0. 具体的には，以下の 3 種類のプレイヤの組合せそれぞれ. -0.1. に 4 通りの実験を行った．. Ri E5−i. -0.2. ルールベース型 i 個と評価値型 5 − i 個（ただし，. 1. i = 1, . . . , 4） Ri M5−i. R E. 0.5. 2. 3. 4. Number of R-players. ルールベース型 i 個とモンテカルロ型 5 − i 個. 図 1 ルールベース型と評価値型の組合せにおける得点. （ただし，i = 1, . . . , 4） i. E M5−i. 評価値型 i 個とモンテカルロ型 5 − i 個（ただ. 0.5. し，i = 1, . . . , 4）. R M. 0.4. これらの組合せのそれぞれについて，5000 回のゲームをとの平均得点を求めた．ルールベース型と評価値型の組合せ（Ri E5−i ）による得点のグラフを図 1，ルールベース型. 0.3 Rel. Score. 5 セットずつ行った．各セットごとに，プレイヤの種類ご. フを図 2，評価値型とモンテカルロ型の組合せ（E M. 5−i. 0.1 0. とモンテカルロ型の組合せ（Ri M5−i ）による得点のグラ i. 0.2. ）. -0.1. による得点のグラフを図 3 に示す．各グラフにおいて，5. -0.2 1. セットの平均値を線で結び，最大値と最小値をエラーバーで示している．これらの結果は，著者らの予想とは大きく異なるもので. 0.5. レイヤのいずれの組合せにおいても，プレイヤの数を変えると得点が大きく変化した．例えば，R E の場合では. 0.654 であったことを考えると，これらは非常に大きな得点差である．一方で，それぞれのプレイヤの組合せにおいて，R1 E4 ，R2 M3 ，E4 M1 では，2 つのプレイヤはほぼ同じ得点を得ている．また，これらの結果のうち，ルールベース型と評価値型. 0.3 Rel. Score. の得点差となった．サンプルプレイヤと TaiTai との差が. E M. 0.4. 1. 0.620，R4 M1 の場合では 0.477，E1 M4 の場合では 0.473. 0.2 0.1 0 -0.1 -0.2 1. の組合せと，モンテカルロ型と評価値型の組合せが類似している．したがって，評価値型にとっては，ルールベース. 4. 図 2 ルールベース型とモンテカルロ型の組合せにおける得点. あった．ルールベース型・評価値型・モンテカルロ型のプ 4. 2 3 Number of R-players. 2 3 Number of E-players. 4. 図 3 評価値型とモンテカルロ型の組合せにおける得点. 型とモンテカルロ型が同様に見えている可能性がある．そうであっても，ルールベース型とモンテカルロ型の組合せの結果（図 2）より，それらの間でも差が生じている．. ヤの強さに与える影響について調べる．具体的には，まず，中程度の強さを持つプレイヤから 2 つを選び，それぞれについて 4 通りの実験を行った．. 3.2 実験 2：他プレイヤの強さが異なる場合のプレイヤの強さへの影響この実験では，中程度の強さを持つルールベース型・評価値型・モンテカルロ型のプレイヤから 2∼3 つを選び固. RESi T3−i. ルールベース型と評価値型それぞれ 1 つに. 加えて，サンプル i 個と TaiTai 3 − i 個（ただし，. i = 0, . . . , 3） RMSi T3−i. ルールベース型とモンテカルロ型それぞれ 1. 定し，残りのプレイヤについて弱いプレイヤ（サンプル）. つに加えて，サンプル i 個と TaiTai 3 − i 個（ただし，. と強いプレイヤ（TaiTai）の任意の組合せを作って大貧民. i = 0, . . . , 3）. をプレイさせた．これにより，他プレイヤの強さがプレイ ⓒ 2013 Information Processing Society of Japan. EMSi T3−i. 評価値型とモンテカルロ型それぞれ 1 つに. 4.

(5) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 0.3. 0.3. R E. 0.2 0.1. 0.1. 0. Rel. Score. Rel. Score. R E M. 0.2. -0.1 -0.2 -0.3. 0 -0.1 -0.2. -0.4. -0.3. -0.5 -0.6. -0.4. 0. 1. 2. 3. 0. 1. Number of T-players 図 4 強さの異なるプレイヤが存在する場合のルールベース型と評. 図 7 強さの異なるプレイヤが存在する場合のルールベース型と評価値型とモンテカルロ型の得点. 価値型の得点. 0.3. （EMSi T3−i ）の得点のグラフを図 6 に示す．. R M. 0.2. また，中程度の強さを持つプレイヤ 3 種類を 1 つずつ含. 0.1 Rel. Score. 2. Number of T-players. む次の組合せについて 3 通りの実験を行った．. 0. REMSi T2−i. -0.1. ルールベース型と評価値型，モンテカルロ型. それぞれ 1 つに加えて，サンプル i 個と TaiTai 3 − i. -0.2. 個（ただし，i = 0, . . . , 2）. -0.3. この組合せ（REMSi T2−i ）における平均得点を図 7 に. -0.4. 示す．. -0.5. これらの実験結果では，強いプレイヤが増えると，中程. -0.6 0. 1 2 Number of T-players. 3. 度の強さのプレイヤの得点が下がっている．それは当然の. 図 5 強さの異なるプレイヤが存在する場合のルールベース型とモンテカルロ型の得点. 結果であるが，注目すべきはその下がり方である．3 つの中程度の強さのプレイヤにおいて，ルールベース型の得点が最も大きく下がっており，評価値型の得点の下がり幅が最も小さい．中程度のプレイヤのうち，サンプルに対する. 0.4 E M. 0.3. 得点は評価値型が最も少なかったが，TaiTai を含む組合せにおいては評価値型が最も大きな得点を得ている．. Rel. Score. 0.2 0.1. 図 4，5，6 より着目すべき点がもう 1 つある．それは，. 0. 組合せの中で，中程度の強さのプレイヤのもう一方がどち. -0.1. らであっても，得点の減少幅がほぼ同じであることである．. -0.2. 例えば，ルールベース型は 0.238±0.007 から 0.459±0.008，. -0.3. 評価値型は 0.255 ± 0.014 から −0.213 ± 0.007，モンテカル. -0.4. ロ型は 0.241 ± 0.005 から 0.367 ± 0.013 と変化している．. -0.5 0. 1 2 Number of T-players. 中程度のプレイヤが 3 つある場合，2 つの場合とは多少. 3. 異なるものの，プレイヤ間の順位の関係は変わっていない．. 図 6 強さの異なるプレイヤが存在する場合の評価値型とモンテカルロ型の得点. 以上の結果より，次のような仮説を立てる．仮説. 自分自身と同じプレイアルゴリズムが存在すると，. プレイヤの強さに大きな影響がある．特に，その影響は得加えて，サンプル i 個と TaiTai 3 − i 個（ただし，. i = 0, . . . , 3）. この仮説の検証は今後の課題である．. 実験 1 と同様に，これらの組合せのそれぞれについて，. 5000 回のゲームを 5 セットずつ行い，平均得点を求めた．ルールベース型と評価値型（RESi T3−i ）の得点のグラフ i. を図 4 に，ルールベース型とモンテカルロ型（RMS T. 3−i. ）. の得点のグラフを図 5 に，評価値型とモンテカルロ型 ⓒ 2013 Information Processing Society of Japan. 点を下げる方向に働く．. 4. 関連研究二人完全情報ゼロ和ゲームの研究はさかんに行われてきた。一方で，多人数ゲームの研究はそれほど多くはないものの行われていた [2][3][1]．近年，UEC コンピュータ大. 5.

(6) Vol.2013-GI-29 No.4 2013/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 貧民大会 (UECda) [11] を契機として，多人数不完全情報. 仮説を検証することである．. ゲームである大貧民を対象とした研究が，特に国内で多く行われている [9][5][6][8][10]．初期の UECda では，プレイヤの多くは本研究で用いたようなルールベース型もしくは評価値型のプレイヤであっ. 謝辞本研究の実験は，高知工科大学高度計算研究プロジェクトの PC クラスタによる計算リソースにより実施した．. たが，2010 年にモンテカルロ法を用いたプレイヤが登場してからモンテカルロ法が有力なプレイアルゴリズムとさ. 参考文献. れている [5]．近年の大会では，相手手札の推定機能を含. [1]. めたプログラムが優勝するなど [10]，大貧民の多人数性・不完全情報性を考慮に入れたプログラムの開発も行われている．コンピュータ大貧民大会とは独立した形での大貧民の研. [2]. 究も行われている．本研究に最も関連の深い研究は，佐藤らによるプレイアルゴリズム間の比較に関する研究である [6]．そこでは，縛りと階段役の使い方に関して 14 のプ. [3]. レイヤを考え，それらの間の強さの関係を調べている．それらのプレイヤの中で安定して強いプレイヤを発見するに至っているものの，プレイアルゴリズム間に自明でない. [4]. 相性が存在するかどうかについてまでは議論されていなかった．地曳らは，大貧民の不完全情報性がプレイヤに与える影. [5]. 響に関する研究も行っており [8]，その研究の中で大貧民における次の一手問題を作成している．本研究では，5000 回. [6]. のゲームを行うことによるマクロな視点での評価を行ったが，そのような次の一手問題によるミクロな視点での評価によりプレイヤへの影響の研究も考えられる．. 5. おわりに. [7] [8]. 本研究では，大貧民を対象に，ルールベース型・評価値型・モンテカルロ型・サンプル・TaiTai という 5 つのプレ. [9]. イヤを使用して，他プレイヤのプレイアルゴリズムによって受けるプレイヤの強さへの影響を調査した．実験は大きく 2 種類に分けて行った．ひとつは，中程度の強さのプレ. [10]. イヤ同士におけるプレイヤ数と強さの関係を調査であり，もうひとつは，他プレイヤの強さが異なる場合のプレイヤの強さへの影響を調査することであった．中程度の強さのプレイヤ同士プレイヤ数と強さの関係の調査では，ルールベース型・評価値型・モンテカルロ型い. [11] [12]. Ulf Lorenz and Tobias Tscheuschner: Player modeling, search algorithms and strategies in multi-player games. Proceedings of the 11th international conference on Advances in Computer Games (ACG’05), pp. 210–224, 2006. Carol A. Luckhardt and Keki B. Irani: An algorithmic solution of N-person games. Proceedings of The Fifth National Conference on Artificial Intelligence (AAAI86), pp. 158–162, 1986. Nathan R. Sturtevant: An analysis of UCT in multiplayer games. Proceedings of the 6th international conference on Computers and Games (CG ’08), pp. 37–49, 2008. 大久保誠也, 本多武尊, 眞鍋秀聡, 青木輝人, 柿下容弓, 小松原頌之, 飯塚拓郎, 常田宏和, Khan Md. Mahfuzus Salam, 西野哲朗: 第 2 回 UEC コンピュータ大貧民大会 (UECda-2007) の報告. 情報処理学会研究報告, GI, [ゲーム情報学], Vol. 2008, No. 28, pp. 25–32, 2008. 小沼哲, 西野哲朗: コンピュータ大貧民に対するモンテカルロ法の適用. 情報処理学会研究報告, GI, [ゲーム情報学], Vol. 2011-GI-25, No. 3, pp. 1–4, 2011. 佐藤裕紀, 伊藤毅志: 大貧民におけるプレースタイルの相性に関する研究. 情報処理学会研究報告, GI, [ゲーム情報学], Vol. 2008, No. 59, pp. 37–43, 2008. 第 5 回 UEC コンピュータ大貧民大会マニュアル 20101114 版. http://uecda.nishino-lab.jp/2010/man/index.html. 地曳隆将, 松崎公紀: 大貧民において不完全情報性がモンテカルロ法によるプレイヤに与える影響の調査. 情報処理学会研究報告, GI, [ゲーム情報学], Vol. 2012-GI-28, No. 6, pp. 1–8, 2012. 西野順二, 西野哲朗: 多人数不完全情報ゲームの簡略化評価値による探索を用いた終盤データベースの構築. 情報処理学会論文誌数理モデル化と応用, Vol. 3, No. 2, pp. 11–21, 2010．西野順二, 西野哲朗: 大貧民における相手手札推定. 情報処理学会研究報告, MPS, 数理モデル化と問題解決研究報告, Vol. 2011-MPS-85, No. 9, pp. 1–6, 2011. UEC コンピュータ大貧民大会ホームページ. http://uecda.nishino-lab.jp/. 美添一樹: モンテカルロ木探索 ― コンピュータ囲碁に革命を起こした新手法. 情報処理, Vol. 49, No. 6, pp. 686– 693, 2008．. ずれの組合せでも，プレイヤの数を変えると得点が大きく変化した．ルールベース型が 1 つ評価値型が 4 つの時の得点差は 0.01 以下であったのに対し，ルールベース型が 4 つ評価値型が 1 つの時の得点差は 0.62 にもなった．他プレイヤの強さが異なる場合のプレイヤの強さへの影響の調査では，プレイヤごとに得点の減少幅が異なる結果となった．しかし，あるプレイヤに関してみると，その減少幅は組合せによらないようであった．今後の課題は，自身と同じプレイアルゴリズムが複数ある場合について詳しく調べることで第 3 章の最後に示した ⓒ 2013 Information Processing Society of Japan. 6.

(7)