• 検索結果がありません。

確率解析から導き出される最良攻略~ポーカーを題材として~

N/A
N/A
Protected

Academic year: 2021

シェア "確率解析から導き出される最良攻略~ポーカーを題材として~"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

- 295 -

確率解析から導き出される最良攻略

ポーカーを題材として

教科・領域教育専攻 自然系コース(数学) 藤 里 悠 史

1

概要

本研究では不確定な要素が多数存在するポ ーカーなどの不完全情報ゲームをゲーム場と し,最良戦略を導出するメソッドを確率解析 から研究することを目的とした. このゲームにおける決定基準のモデルは後 述するが,期待値を算出するために仮想の対 戦 相 手 に 以 下 の よ う な 典 型 的 戦 略 に 設 定 し た. ① high cardである場合 一枚を残し,

4

枚をチェンジする. ② one pair, two pairである場合 ベア以外の残りをチェンジする ③ three cardである場合 トリオ以外の残りをチェンジする. ④ その他 チェンジなし. 上記の操作を行い,変化した 1次手札の手 役確率を条件付き確率として計算することで¥ 典型的戦略を行った結果を導き,その結果に 対する最良戦略を考察する.

2 最良戦略

以下の計算式を用いて典型的戦略を行った諜 の 1次手札の手役確率を算出する. 4 て-, ( A B h ¥ P日 )I一一二一×一一」ニーl d

合¥

52C5 全通り/ 次に,期待値の算出モデ、ノレを述べる. 初期定義 i) 1ゲームの勝ちの利得を+1,負けの利得 を 1とする. 指 導 教 員 宮 口 智 成 並) 1 次手札のそれぞれの手役確率を pl~P9 とし,相手の予想手役確率を ql~q9 とする.決 定基準としての期待値Expは Qn+ =

I

q

i

p+

=

Qn-

=

q

i

p

-

=

IPiQi-1=1 Exp

=

p+ -Pーとなる いわゆるp+が勝率,Pーが敗率となり,期待値は 勝率と敗率の差で算出される. これまでの結果から最良戦略をO次手札の状 態ごとにまとめる.0次手役がhighcard以上 であるときは典型的戦略と同様の戦略が好ま しい.さらにhighcardに関して最良戦略の詳 細を以下に示す. ① 同 色 4枚以上 V2'""1Oの数字から始まる 4 連番の場合 flash→straightの順に優先度を置き,一枚 をチェンジする. ② 同 色 3枚以上八3'""10の数字から始まる 3連番〈連番が同色の場合 3連番かっ同色のカードを残し2枚をチ ェンジする ③ そ れ 以 外 のhighcardの場合 4枚をチェンジする.

3 戦略予測と戦略変化

本研究でのゲーム環境は先攻と後攻という 概念が存在する展開型ゲームだといえる.同 時に行動する状況と交互に行動する状況では, ゲームの結果は異なることは多い.後攻のプ

(2)

- 296 - - 295 - レイヤーについて展開型ゲームの観点を導入 することで,最良戦略を見直す. 具体的には棺手の捨てた枚数という情報を 元に相手が前章で述べた最良戦略をしてくる と仮定し,条件付き確率計算を用いて相手の 手役を予想、し.変化した環境に対応した最良 戦略を考察する.第2章では仮想、の相手とし て典型的戦略を用いた結果の 1次手札の手役 確率を用いたが,本章では先攻のプレイヤー の行動ごとに絞り込んだ手役確率を仮想の相 手として期待値を求めた.

4 f

a

k

e

の考察

本節ではここまで求めて来たデータを基に fakeの考察を行う.ここでいう fakeとは先攻 のプレイヤーが,後攻のプレイヤーの戦略を 変えさせることを目的として意図的に期待髄 の最も高い戦略ではなく他の戦略を取ること を指す.fakeが有益か無益か判断する基準と してこれまで同様期待値から考察を行う. 例えば i)~先攻 3 枚替え(最良)Jl対『後攻対 3枚替え戦略』証)~先攻 2 枚替え (fake)Jl対 『後攻対

2

枚替え戦略Jlと註についてそれ ぞれ先攻側から見た期待{直を比べ, i >註と なればfakeは無益, i

<

iiとなればf討ceは有 益であると判断する. これにより fakeは無益であると判断した.

5

遺伝的プログラミング

上記の最良戦略は確率論で求めた理論値で ある.理論を確かめるため遺伝的プラグラミ ングを用いて実践を行う.遺伝的アノレゴ、リズ ムとは,生物の進化のメカニズムを真似たア プローチである進化論的手法を用いたアルゴ リズムのことである.この方法では,データ構 造を変形,合成,選択し,これにより純最良解や 望ましい構造物の獲得を目指す. 遺伝的アノレゴ、リズム(以下 GA)では,複数の個 体が集団を構成する.各個体は各々の遺伝子 コードをもちそれによってもたらされる適応 度を持っている.これらの掴体は生殖活動を 行い,次の世代に子孫を作り出す.生殖の擦に は,適応度の良いものほどたくさん子孫を作 りやすく,適応度の悪いものほど淘汰されや すいように設定する. こういった生殖と淘汰によって,次の世代 での各個体の遺伝子コードは少しずつ変化し ていくとともに,適応度は前の世代よりもい いことが期待できる.これを繰り返すことで, 世代が進むにつれ次第に集団全体がより適応 度が良くなってくる. 本実践では,遺伝子コードとして様々な状 態ごとの捨てる枚数と捨てるカードの選択と いう情報を次世代に遺伝させ,適応度として 勝利時の利得を+1,負け時の利得を-1とした 時の合計{直を設定する.これにより,より本実 践のゲーム環境に適した戦略を残すことがで き、でてきた結果と前章までで述べた理論を 比べ考察する。

6 参考文献

渡辺隆裕 2004 ゲ ー ム 理 論 側 ナ ツ メ 社 天谷研一 2011 図解で学ぶゲーム理論入円 日本能率 境界マネイジメントセンター 市川惇信 1983 意 思 決 定 論 共 立 出 版 会 社 マーティン・ホリス 1998 ゲ ー ム 理 論 の 哲 学 側 晃 洋 書 房 伊 庭 斉 志 2008 Cによる探索プログラム 閥オーム社

参照

関連したドキュメント

を軌道にのせることができた。最後の2年間 では,本学が他大学に比して遅々としていた

攻撃者は安定して攻撃を成功させるためにメモリ空間 の固定領域に配置された ROPgadget コードを用いようとす る.2.4 節で示した ASLR が機能している場合は困難とな

取締役会は、事業戦略に照らして自らが備えるべきスキル

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

1 単元について 【単元観】 本単元では,積極的に「好きなもの」につ

手動のレバーを押して津波がどのようにして起きるかを観察 することができます。シミュレーターの前には、 「地図で見る日本

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

第一の場合については︑同院はいわゆる留保付き合憲の手法を使い︑適用領域を限定した︒それに従うと︑将来に