確率解析から導き出される最良攻略～ポーカーを題材として～

(1)

－ 295 －

確率解析から導き出される最良攻略

ポーカーを題材として

教科・領域教育専攻自然系コース(数学) 藤里悠史

1 概要

本研究では不確定な要素が多数存在するポーカーなどの不完全情報ゲームをゲーム場とし，最良戦略を導出するメソッドを確率解析から研究することを目的とした. このゲームにおける決定基準のモデルは後述するが，期待値を算出するために仮想の対戦相手に以下のような典型的戦略に設定した. ① high cardである場合一枚を残し，

4

枚をチェンジする. ② one pair， two pairである場合ベア以外の残りをチェンジする ③ three cardである場合トリオ以外の残りをチェンジする. ④ その他チェンジなし. 上記の操作を行い，変化した 1次手札の手役確率を条件付き確率として計算することで¥ 典型的戦略を行った結果を導き，その結果に対する最良戦略を考察する.

2 最良戦略

以下の計算式を用いて典型的戦略を行った諜の 1次手札の手役確率を算出する. 4 て-， ( A B h ¥ P日 )I一一二一×一一」ニーl d

合¥

52C5 全通り/ 次に，期待値の算出モデ、ノレを述べる. 初期定義 i) 1ゲームの勝ちの利得を+1，負けの利得を 1とする. 指導教員宮口智成並) 1 次手札のそれぞれの手役確率を pl~P9 とし，相手の予想手役確率を ql~q9 とする.決定基準としての期待値Expは Qn+ =

I

q

i

p+

=

工

時

Qn-

エ

=

q

i

p

-

=

IPiQi-1=1 Exp

=

p+ -Pーとなるいわゆるp+が勝率，Pーが敗率となり，期待値は勝率と敗率の差で算出される. これまでの結果から最良戦略をO次手札の状態ごとにまとめる.0次手役がhighcard以上であるときは典型的戦略と同様の戦略が好ましい.さらにhighcardに関して最良戦略の詳細を以下に示す. ① 同色 4枚以上 V2'""1Oの数字から始まる 4 連番の場合 flash→straightの順に優先度を置き，一枚をチェンジする. ② 同色 3枚以上八3'""10の数字から始まる 3連番〈連番が同色の場合 3連番かっ同色のカードを残し2枚をチェンジする ③ それ以外のhighcardの場合 4枚をチェンジする.

3 戦略予測と戦略変化

本研究でのゲーム環境は先攻と後攻という概念が存在する展開型ゲームだといえる.同時に行動する状況と交互に行動する状況では，ゲームの結果は異なることは多い.後攻のプ

(2)

－ 296 －－ 295 －レイヤーについて展開型ゲームの観点を導入することで，最良戦略を見直す. 具体的には棺手の捨てた枚数という情報を元に相手が前章で述べた最良戦略をしてくると仮定し，条件付き確率計算を用いて相手の手役を予想、し.変化した環境に対応した最良戦略を考察する.第2章では仮想、の相手として典型的戦略を用いた結果の 1次手札の手役確率を用いたが，本章では先攻のプレイヤーの行動ごとに絞り込んだ手役確率を仮想の相手として期待値を求めた.

4 f

a

k

e

の考察

本節ではここまで求めて来たデータを基に fakeの考察を行う.ここでいう fakeとは先攻のプレイヤーが，後攻のプレイヤーの戦略を変えさせることを目的として意図的に期待髄の最も高い戦略ではなく他の戦略を取ることを指す.fakeが有益か無益か判断する基準としてこれまで同様期待値から考察を行う. 例えば i)~先攻 3 枚替え(最良)Jl対『後攻対 3枚替え戦略』証)~先攻 2 枚替え (fake)Jl対『後攻対

2

枚替え戦略Jlと註についてそれぞれ先攻側から見た期待{直を比べ， i >註となればfakeは無益， i

<

iiとなればf討ceは有益であると判断する. これにより fakeは無益であると判断した.

5 遺伝的プログラミング

上記の最良戦略は確率論で求めた理論値である.理論を確かめるため遺伝的プラグラミングを用いて実践を行う.遺伝的アノレゴ、リズムとは，生物の進化のメカニズムを真似たアプローチである進化論的手法を用いたアルゴリズムのことである.この方法では，データ構造を変形，合成，選択し，これにより純最良解や望ましい構造物の獲得を目指す. 遺伝的アノレゴ、リズム(以下 GA)では，複数の個体が集団を構成する.各個体は各々の遺伝子コードをもちそれによってもたらされる適応度を持っている.これらの掴体は生殖活動を行い，次の世代に子孫を作り出す.生殖の擦には，適応度の良いものほどたくさん子孫を作りやすく，適応度の悪いものほど淘汰されやすいように設定する. こういった生殖と淘汰によって，次の世代での各個体の遺伝子コードは少しずつ変化していくとともに，適応度は前の世代よりもいいことが期待できる.これを繰り返すことで，世代が進むにつれ次第に集団全体がより適応度が良くなってくる. 本実践では，遺伝子コードとして様々な状態ごとの捨てる枚数と捨てるカードの選択という情報を次世代に遺伝させ，適応度として勝利時の利得を+1，負け時の利得を-1とした時の合計{直を設定する.これにより，より本実践のゲーム環境に適した戦略を残すことができ、でてきた結果と前章までで述べた理論を比べ考察する。

6 参考文献

渡辺隆裕 2004 ゲーム理論側ナツメ社天谷研一 2011 図解で学ぶゲーム理論入円日本能率境界マネイジメントセンター市川惇信 1983 意思決定論共立出版会社マーティン・ホリス 1998 ゲーム理論の哲学側晃洋書房伊庭斉志 2008 Cによる探索プログラム閥オーム社