公開中の記事安田洋祐の研究室 Ch7 slide

(1)

Chapter 7: The Basic Structure of Repeated Games with

Imperfect Public Monitoring

安田洋祐

Mailath and Samuelson (2006) —第 7 章のまとめ

2012年 3 月

(2)

この章のポイント

✞

✝

☎

目的¹✆プレーヤーたちが過去の行動を完全には観測できない場合に，今までの章の分析とどのような違いが生じるかをきちんと理解する．

✞

✝

☎

目的2 Abreu, Pearce and Stacchetti (1986, 1990)✆ によって提唱された，繰り返しゲームの再帰的(recursive)な構造を生かして均衡利得の集合を特徴付ける手法(decomposabilityやself-generation)をマスターする．

再帰的な構造とは何か？

(無限回)繰り返しゲームでは，各期から始まるその期以降のゲームが元の(時点 0から始まる)繰り返しゲームと全く同じ構造をしている．

⇒ 1人エージェントによる動学的最適化問題を解く際のダイナミック・プログラミング(DP)の複数エージェント版と考えることができる．APSの本質はDP！

(3)

観測 (monitoring) 精度の違い

完全観測(perfect monitoring) ：プレーヤーたちは過去に採られた全員の行動をすべて正確に観測できる．^→今までの章で置かれていた仮定

◮ _cf—_{不完全記憶}(imperfect/bounded recall)：過去に観測した情報を忘れる．

不完全観測(imperfect monitoring) ：過去のプレイヤーたちの行動を直接観測することができない代わりに，前期の行動に依存したシグナルを観測する．

◮ _公的観測(public monitoring) → 7-11章：プレーヤーたちが各期ごとに共通のシグナルを観測する．

◮ _私的観測(private monitoring) → 12-14章：プレーヤーたちが個別のシグナルを受け取る．

(4)

不完全公的観測 (imperfect public monitoring) の難しさ

“_裏切り”( =_{均衡外行動})_と“_おしおき”( = punishment_{）の関係が間接的に}

◮ 相手の行動を直接見ることができないので，観測したシグナルに応じておしおきすることしかできない．

◮ きちんと均衡行動を採っていても正の確率で(悪いシグナルが出てしまうため)おしおきすることになる．

⇒完全観測と比べて、おしおき方法の決め方が格段に難しい… しかしその一方で，実は再帰的(recursive)な構造は保たれる！

◮ _{完全公的均衡}(Perfect Public Equilibrium)は再帰的構造を持つ．

◮ _PPE_{に均衡解を限定すれば}₍₂_{章で学んだ}self-generation_{の考え方を拡張} して⁾完全観測と同じように問題を分析することができる．

◮ 私的観測のもとでは再帰的構造が保たれない→分析が質的に異なる．

(5)

例：囚人のジレンマ — 第 2 節

次のような囚人のジレンマを考える．ただし，プレーヤーたちは相手の行動を直接観測することができないとする．

Table: 事前の利得表

1 \ 2 C D

C 2, 2 -1, 3 D 3, -1 0, 0

✞

✝

☎

素朴な疑問実現した自分の利得✆ (および自分の選んだ行動)から，相手の行動を見破ることができるのではないだろうか？

⇒これが可能であればそもそも^“不完全^”観測ではないことになってしまうが…

(6)

不完全公的観測のモデル化

ステージ・ゲームにおける個々のプレーヤーiの利得は，iの行動ai∈ {C, D} と公的シグナルy∈ {g, b}のみに依存すると仮定する．

◮ 公的シグナルの実現値から相手の行動a−iを割り出すことはできない．

◮ _{実際にプレイヤーが}₍_事後的に₎受けとる利得は以下の形となる． Table: 事後の利得表

i\ y g b

C ^{3 − p − 2q}

p− q ⁻

p+ 2q p− q D ^{3(1 − r)}

q− r ⁻

3r q− r

ここでp, q, r(_ただし0 < q, r < p < 1)_{はシグナル}gが出る条件付き確率： p= Pr{g|CC}, q = Pr{g|DC} = Pr{g|CD}, r = Pr{g|DD}.

(7)

トリガー戦略の罠

完全観測とのアナロジーで次のようなトリガー戦略を考えよう：

◮ _第₀_期は_{(C, C)}_{をプレーする．}

◮ _シグナル_g_{が出続ける限り}_{(C, C)}_{をプレーする．}

◮ _過去に₁_度でも_b_{が出たら，それ以降は}_{(D, D)}_{をずっとプレーする．}

このトリガー戦略は，pとqの大きさが十分に異なり，かつ割引因子δが十分に大きいときに，均衡となることを示すことができる．具体的には

δ(3p − 2q) ≥ 1 ⇐⇒ δ ≥ ¹

3p − 2q ^(7.2.4)

がトリガー戦略が均衡になるための必要十分条件となる．このとき均衡利得は^{2(1 − δ)}

1 − δp ^{となり，割引因子}^δ^が¹^{に近づくと}⁰^に収束．

→均衡利得が効率点(= 2)から変わらない完全観測の場合とは大きく異なる．

(8)

均衡利得はなぜ低くなってしまったのか？

悪いシグナルbが実現すると，その期以降の利得が最低(= 0)になってしまう．

◮ _{トリガーはいつかは}₍_{長期的には確率}₁_で₎_{引かれてしまう．}

◮ _δが大きくなるにつれ，将来トリガーによって発生する利得のマイナス分のインパクトが相対的に大きくなるため，均衡利得が低下してしまった．おしおきの仕方を工夫することで利得を上げることができる！たとえば…

◮ _「ずっと_{(D, D)}_{」ではなく，途中で}_{(C, C)}_{に戻れるようにする．}

◮ _b_{が実現した時に，}₁より厳密に小さい確率でトリガーを引くようにする．

◮ _{対称行動である}_{(D, D)}をおしおきにつかうのでなく，非対称な^{(C, D)}および^{(D, C)}を用いる．^→第⁸・⁹章を参照．フォーク定理証明の肝！

✞

✝

☎

疑問場当たり的に特定の戦略を調べるのではなく，もっと一般的に均衡利得✆ を求める方法は無いのだろうか？^{→ DP}の考え方を使う！

(9)

不完全公的観測の一般モデル

n人の長期(long-lived)プレーヤーたちが無限回繰り返しゲームを行う．各期プ

レーされるステージ・ゲームは以下によって定義される．

◮ _a_i_{∈ A}_i_{：各プレーヤー}_i_の行動_(A_i_{は有限と仮定}₎

◮ _y_{∈ Y}：各期の終わりに受けとる公的シグナル(Y は有限と仮定)

◮ _ρ(y|a)：シグナルの実現確率を指定した確率関数⁽フル・サポートを仮定⁾

◮ _u^∗

i(y, ai)：プレーヤーiの事後利得

◮ _u

i(a)_{：プレーヤー}iの事前利得．次のように書くことができる： ui(a) =^X

y∈Y

u^∗i(y, ai)ρ(y|a) (7.1.1)

◮ _V_(δ)_{：割引因子}_δ_{のもとでの均衡}₍_{完全公的均衡}₎_{利得の集合}

(10)

完全公的均衡 (PPE)

定義7.1.1 プレーヤーの戦略のうち，各期の行動がその期以前の公的シグナ

ルの歴史のみに依存するものを，公的戦略(public strategy)と呼ぶ．

定義7.1.2 公的戦略の組のうち，すべての起こりうる公的シグナルの歴史に

対して，その期以降の戦略がすべてのプレーヤーで同一のものを，強対称 (strongly symmetric)_{であると言う．}

定義^7.1.3 公的戦略の組のうち，すべての起こりうる公的シグナルの歴史に

対して，その期以降の戦略の組がナッシュ均衡となっているようなものを，完全公的均衡(perfect public equilibrium)_と呼ぶ．

◮ 純粋戦略のみを考える場合には，公的戦略への限定は制約とはならない．

◮ 自分以外のすべてのプレーヤーが公的戦略をとっているとき，最適反応は同じく公的戦略となる．(→すべてのPPEは逐次均衡になっている．)

(11)

繰り返しゲームにおける DP アプローチ

1. Decomposition

◮ 本来は複雑な動学的意思決定の問題を，あたかも静学的な問題へと変換．

◮ 鍵を握るのは，繰り返しゲームの再帰的構造と，第2章で学んだ一回逸脱の原理(one-shot deviation principle)．→後者は定理2.2.1を参照

2. Self-generation

◮ Decomposition_{を生かした，均衡利得}(_の集合)_{に関する便利な性質．}

◮ ゲームを直接解かずに均衡利得集合を完全に特定化することができる．

(12)

DP の考え方その 1 ： Decomposition— 完全観測の場合

今期以降の将来利得(Continuation Payoff_，DP_のValue_に相当) viを今期のステージ・ゲームの利得と，来期から始まる繰り返しゲームの将来利得に分解：

vi= (1 − δ)ui(a) + δγi(a) (1)

◮ _ここで，_γ: A → V (δ) (⊂ Rⁿ)は，今期の行動の組に応じて来期以降の将来利得ベクトルを割り当てる写像．γiはその第i要素．

◮

✞

✝

☎

注意来期以降の将来利得が均衡利得にならなければならない．✆ ⁽再帰性⁾

◮ 潜在的には非常に複雑な動学的なインセンティブの問題を劇的に単純化．

v_{が部分ゲーム完全均衡}(_{の平均利得})で達成可能な条件は，以下と同値：

∀i ∀a^′i (1 − δ)ui(a) + δγi(a) ≥ (1 − δ)ui(ai^′, a−i) + δγi(a^′i, a−i) (2) を満たすような戦略の組aと写像γ: A → V (δ)が存在する．

(13)

DP の考え方その 1 ： Decomposition— 不完全観測の場合

完全観測の場合と同様に，今期以降の期待将来利得を今期のステージ・ゲームの利得と，来期から始まる繰り返しゲームの期待将来利得に分解：

vi= (1 − δ)ui(a) + δ^X

y∈Y

γi(y)ρ(y|a) (3)

◮ _ここで，_γ: Y → V (δ) (⊂ R)は，今期末に実現するシグナルyに応じて来期以降の期待将来利得ベクトルを割り当てる写像．γiはその第i要素．

◮

✞

✝

☎

注意来期以降の将来利得が完全公的均衡利得にならなければならない．✆ vが完全公的均衡で達成可能な条件は，以下と同値：

∀i ∀a^′i (1 − δ)ui(a) + δ^X

y∈Y

γi(y)ρ(y|a) ≥

(1 − δ)ui(a^′i, a⁻i) + δ^X

y∈Y

γi(y)ρ(y|a^′i, a⁻i) (4)

を満たすような戦略の組^aと写像^γ: Y → V (δ)_{が存在する．}

(14)

DP の考え方その 2 ： Self-Generation— 準備段階

✞

✝

☎

（高度な）疑問 ✆⁽⁴⁾式のdecomposition_{において，}γの値域を均衡利得ではなく任意の集合W ⊂ Rⁿとしたときに何が起こるだろうか？

定義すべてのプレイヤーiについて以下を満たすベクトルwの集合を^{B(W )} と定義する．⁽⁴⁾を満たすような戦略の組^aと写像^γ^{: Y → W} が存在して，

wi:= (1 − δ)ui(a) + δ^X

y∈Y

γi(y)ρ(y|a) (5)

定義非空かつ有界な集合W∈ RⁿがW ⊆ B(W )を満たすとき，「Wは self-generatingである」という．

定理完全公的均衡利得V(δ)_は写像Bの不動点V(δ) = B(V (δ))_である．定理 W ⊆ W^′ ならばつねにB(W ) ⊆ B(W^′)が成り立つ．

(15)

DP の考え方その 2 ： Self-Generation— 主要な性質 (1)

Self-generation もしもW がself-generatingであれば以下が成り立つ： W ⊆

∞

[

t=1

B^t(W ) ⊆ V (δ) (6)

◮ _均衡_“_戦略_”について何も知らなくても均衡“利得”を判定できる．

◮ 均衡利得を具体的にどうやって達成するかについては何も教えてくれない．

アルゴリズムもしもW が有界でV ⊂ W であれば以下が成り立つ：

∞

\

t=1

B^t(W ) = V (δ) (7)

◮ 機械的に均衡利得の集合を完全に計算することができる．

(16)

DP の考え方その 2 ： Self-Generation— 主要な性質 (2)

単調性任意の0 < δ1< δ2<1について，δ1のもとでの均衡利得集合 V(δ1)_{が凸となるとき，}V(δ1) ⊆ V (δ2)_{が成り立つ．}

◮ プレーヤーが我慢強くなると，より多様な利得が均衡で維持される．

◮ Public Randomizationが使える場合には均衡利得はかならず凸集合．

→単調性はつねに成り立つ．

Bang-bang _{均衡利得集合}V(δ)はコンパクトになる．すべてのv∈ V _について，値域としてV(δ)_のextreme point_をとるγのみを選ぶことができる．

◮ 一般性を失うことなく，extreme pointに焦点をあてることができる．

◮ ₍_{追加的な条件のもとで}₎効率的な均衡利得を達成するためにはextreme

pointをとるγのみを使わなければならない，という必要性も成り立つ．

公開中の記事 安田洋祐の研究室 Ch7 slide