• 検索結果がありません。

ゲーム理論 第 2 回 戦略形ゲーム

N/A
N/A
Protected

Academic year: 2021

シェア "ゲーム理論 第 2 回 戦略形ゲーム"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

ゲーム理論

第 2 回 戦略形ゲーム

佐賀大学大学院 工学系研究科 知能情報システム学専攻

上田 俊

Email: [email protected]

https://sites.google.com/view/sgrueda/in-japanese

(2)

アウトライン

戦略形ゲーム

ゲームの要素

支配戦略と支配戦略均衡

囚人のジレンマ

最適反応とナッシュ均衡

混合戦略

2 人ゼロ和ゲームとミニマックス定理

ナッシュ均衡の計算方法

(3)

新聞社の競争

ライバル関係にある 2 つの新聞社 ( 旭日新 聞,東都日報 ) が翌日の 1 面記事を経済記事 にするか,スポーツ記事にするか悩んでいる

80% の人は 1 面記事が経済ニュースなら買 い, 20% の人はスポーツニュースなら買う

( 新聞社目線 ) どの記事を 1 面に載せるべき か?

( ゲーム理論目線 ) 翌朝の 2 つの新聞の一面

(4)

利得表

2 人戦略形ゲームは利得表を用いて表現でき る.

経済 スポーツ

経済 (40, 40) (80, 20)

スポーツ (20, 80) (10, 10) 旭日

東都

1 プレイヤーの戦略 ( 選択可能な行動 )

1 プレイヤーの利得

(5)

戦略形ゲームの定義

戦略形ゲーム (game in strategic form)

: プレイヤーの集合

はプレイヤーの選択可能な行動あるいは戦略の 集合

は直積集合 上の実数値関数であり,プレイ ヤーの利得関数を表す.

標準形ゲーム (game in normal form) とも

(6)

ゲームの流れ

すべてのプレイヤー は他のプレイヤーの選 択を知らずにそれぞれの戦略 を選択する.

その結果,プレイヤー は利得 を得る.

プレイヤーの目的は自己の利得の最大化であ る.

ゲームのプレイにおいてゲームの各要素はす べてのプレイヤーの共有知識 (common kno wledge) とする.

(7)

ゲームの分析

旭日新聞の立場に立っ て,どの戦略をとるべ きか考える.

東都が経済 ⇒ 経済

東都がスポーツ ⇒ 経 済

つまり,東都がどちら の戦略を取っても経済 ニュースを 1 面に掲載 することが最適

経済 スポーツ

経済 (40, 40) (80, 20)

スポーツ (20, 80) (10, 10) 旭日

東都

(8)

支配戦略 (dominant strategy)

相手の取る戦略に関わらず,得られる利得が 最大となる戦略のこと

プレイヤー の 2 つの戦略 と に対して,

戦略 が戦略 を支配する (dominate) とは

,他の 人のプレイヤーが持つすべての戦略 の組 に対して, が成立することである.

(9)

支配戦略均衡

すべてのプレイヤー が支配戦略を持つと き,その組合せを支 配戦略均衡と呼ぶ.

常に存在するとは限 らない.

人が遊んで面白いと 思うゲームには,普 通支配戦略はない.

経済 スポーツ

経済 (40, 40) (80, 20)

スポーツ (20, 80) (10, 10) 旭日

東都

支配戦略均衡

(10)

囚人のジレンマ (1/2)

重大な犯罪を犯した2人が個別に取 り調べを受けている.

証拠が不足しており,容疑者の自白が なければ逮捕できない.

別件の軽微な犯罪の証拠は揃っている

検察は自白が欲しいため,司法取引 を持ち掛ける.

両方が黙秘の場合,別件容疑だけのた め,1年の懲役

両方が自白した場合,両方に8年の懲役

片方が黙秘,片方が自白の場合

黙秘した方はすべての罪を被り10年の懲役

自白した方は司法取引により3か月の拘留の

黙秘 自白

黙秘 (1, 1 ) (10, 3)

自白 (3ヵ月), 10 (8, 8 )

(11)

囚人のジレンマ (2/2)

(自白,自白 ) の支配戦略均衡が 存在する.

相手が黙秘する場合,1> 3 月なので自白する.

相手が自白する場合,10> 8 なので自白する.

2 人にとって,最も良い結果は (黙秘,黙秘 )

パレート最適な結果という.

なぜこのゲームが注目されてい るのか?

社会状況における個人合理性 ( 分の利得の追及) 全体合理性 ( 全 体の利得の追及 )

黙秘 自白

黙秘 (1, 1 ) (10, 3)

自白 (3ヵ月), 10 (8, 8 )

支配戦略均衡

(12)

最適反応

プレイヤー の戦略 が他の 人のプレイ

ヤーの戦略の組 に対する最適反応 (best re sponse) であるとは,

であるときをいう.戦略の組 に対するプレ イヤー  の最適反応の全体を, とおく.

(13)

ナッシュ均衡

戦略形 人ゲーム において,プレイヤーの 戦略の組 がナッシュ均衡点 (Nash equilibri

um point) であるとは,すべてのプレイヤー

に対して戦略 が他のプレイヤーの戦略の 組 に対する最適反応であるときをいう.

(14)

推論と戦略決定の連鎖

10 20

1

1∗∗

2

2∗∗

推論が停止する.

10 20

1

1∗∗

2

2∗∗

1∗∗ ∗ 1∗∗ ∗

(15)

硬貨合わせゲーム

2 人 (P1, P2) がそ れぞれ硬貨の表か裏 を選択する.

違う面を選択したら

, P1 の勝ち. P2 が P1 に 100 円を支払う

同じ面を選択したら

, P2 の勝ち. P1 が P2 に 100 円を支払う

(-1, 1) (1, -1)

(1, -1) (-1, 1) P1

P2

(16)

混合戦略

確率的に行動を選択する戦略を混合戦略 (mi xed strategy) と呼ぶ.

行動 上の確率分布 が戦略となる.

利得の期待値の最大化を行う.

最適反応,均衡点等は期待利得に関して同様に定 義される.

これまでのように確定的に行動を選択する戦 略を純粋戦略 (pure strategy) と呼ぶ.

(17)

ゲームの混合拡大

戦略形ゲーム  の混合拡大 (mixed extension)

: プレイヤーの集合

は 上の確率分布の全体である. 上の確率分布 をプ レイヤーの混合戦略という.

は直積集合 上の実数値関数で,次のように定義され る.

 

ただし, は混合戦略 が純粋戦略 に付与する確率を 表す. をプレイヤー の期待利得関数 (expected payo ff function) という.

(18)

混合戦略の例

P2 が常に表を選択する とき, P1 が表 1/2, 裏 1 /2 の混合戦略をとる.

P1 の期待利得は

このゲームのナッシュ均 衡は互いに 1/2 の確率で 表・裏を選ぶ ( 混合 ) 戦略の組.

純粋戦略同士の組では ナッシュ均衡は存在しな

(-1, 1) (1, -1)

(1, -1) (-1, 1) P1

P2

(19)

均衡点の存在

戦略形 人ゲーム において,混合戦略の範 囲で少なくとも1つの均衡点が存在する.

角谷の不動点定理 (Kakutani, 1941) を用いて証 明できる.

2 人ゲームのナッシュ均衡計算問題は PPAD 完全である. (Chen and Deng, 2006)

PPAD 完全な問題を解く多項式時間アルゴリズム は発見されていない.

ただし, 2×2 (2 2 行動 ) ゲームであれば容易 に計算できる.

(20)

ゼロ和ゲーム

すべてのプレイヤーの利得の和が常に 0 であ るゲーム

2 人ゼロ和ゲーム

( プレイヤー 1 の利得 ) = – ( プレイヤー 2 の利 得 )

硬貨合わせゲームも 2 人ゼロ和ゲーム

じゃんけんも 2 人ゼロ和ゲーム

(21)

マックスミニ戦略とミニマックス 戦略

を満たす戦略 をプレイヤー 1 のマックス ミニ戦略 (maxmini strategy) と呼び,右辺 の値をマックスミニ値という.

最小の利得を最大化した戦略

を満たす戦略 をプレイヤー 2 のミニマッ クス戦略 (minimax strategy) と呼び,右辺 の値をミニマックス値という.

(22)

ミニマックス定理

ゼロ和 2 人ゲームにおいて,以下が成り立つ ( ミニマックス定理 ) :

マックスミニ戦略とミニマックス戦略の組 はゼロ和 2 人ゲームのナッシュ均衡点となっ ている.

(23)

精巧堂 vs. 便乗工房

右のゲームのナッ シュ均衡を求める.

精巧堂の混合戦略

ゴジラ :

モスラ :

便乗工房の混合戦略

ゴジラ :

モスラ :

ゴジラ モスラ

ゴジラ (120, 120) (216, 24)

モスラ (192, 48) (96, 96)

精巧堂

便乗 工房

(24)

精巧堂の期待利得

精巧堂の期待利得を 求める.

ゴジラ

モスラを選択した場合

ゴジラ モスラ

ゴジラ (120, 120) (216, 24)

モスラ (192, 48) (96, 96)

(120, 120) (216, 24)

(192, 48) (96, 96)

精巧堂

便乗 工房

(25)

精巧堂の最適反応グラフ

ゴジラ :

モスラ :

精巧堂の最適反応戦略

のとき,

のとき,任意の

のとき,

2

0 1

1

1

5 8

(26)

便乗工房の最適反応グラフ

ゴジラ :

モスラ :

便乗工房の最適反応戦略

のとき,

のとき,任意の

のとき,

2

0 1

1

1

5 8

ナッシュ均衡点

(27)

まとめ

戦略形ゲーム

支配戦略

相手の取る戦略に関わらず,得られる利得が最大 となる戦略

その戦略の組による均衡を支配戦略均衡と呼ぶ.

ナッシュ均衡

互いに最適反応になっている戦略の組

( 混合戦略まで拡張した場合 ) すべてのゲームに ナッシュ均衡点が少なくとも 1 つ存在する.

(28)

小レポート

2 人対戦じゃんけんにおいて,互いに 1/3 の確率でランダムな手を出す戦略同士がナッ シュ均衡となる. 1/3 の確率でランダムな 手を出す戦略に対して別の戦略を用いると期 待利得 ( 期待勝率 ) が減少することを示せ

日常生活でできる範囲で 1/3 の確率でラン

ダムな手を出す方法を自由な発想で考えよ.

参照

関連したドキュメント

1970 年には「米の生産調整政策(=減反政策) 」が始まった。

AI: Artificial Intelligence, DFFT: Data Free Flow with Trust, C4IR: Centre for the fourth Industrial Revolution network, GTGS: Global Technology Governance Summit, NFT:

DX戦略 知財戦略 事業戦略 開発戦略

1.2020年・12月期決算概要 2.食パン部門の製品施策・営業戦略

54 Zero Emission Tokyo 2020 Update & Report Zero Emission Tokyo 2020 Update & Report 55

子ども・かがやき戦略 元気・いきいき戦略 花*みどり・やすらぎ戦略

子ども・かがやき戦略 元気・いきいき戦略 花*みどり・やすらぎ戦略

第3章で示した 2050 年東京の将来像を実現するために、都民・事業者・民間団体・行政な