• 検索結果がありません。

2人两阶段重复博弈ppt 最新協作平台活動 衛道中學程式設計 2人两阶段重复博弈

N/A
N/A
Protected

Academic year: 2018

シェア "2人两阶段重复博弈ppt 最新協作平台活動 衛道中學程式設計 2人两阶段重复博弈"

Copied!
40
0
0

読み込み中.... (全文を見る)

全文

(1)

重複博弈

完全且非完美信息動態博弈

Unit 5

(2)

第 3 章和第 4 章要點

博弈類型 舉例 解的概念

簡單的完全且完美信息

動態博弈

Stackelberg

(1934) 雙寡 頭壟斷模型

魯賓斯坦 (1982) 討價還 價模型

Backwards Induction

Outcome (BIO) 後向歸納結果 2 人兩階段重複博弈

(“ 同時行動” 意味著

“不完美信息” )

Lazear&Rosen

Tournaments (1981 ) 工作 競賽模型

Subgame Perfect

Outcome (SPO) 子博弈完美結果 動態博弈主題 : 可信威脅與

承諾會影響現在的行為 下一次博弈開始前的所

有博弈的結果都能被觀 察到的重複博弈

Subgame- perfect Nash equilibrium

子博弈完美 NE

(3)

完全信息動態博弈 表述 Normal-form / Strategic-

form 標準式 / 策略式

Extensive-form 擴展式

解的概念

Nash Equilibrium (NE) Nash 均衡

Subgame-perfect Nash equilibrium (SPNE)

子博弈完美 Nash 均衡 Central Issue

中心問題

credibility threats or promise (self-enforcement) 可信性威脅或承諾

Theme 主題思想

一個完全信息動態博弈可能會有很多個納什均衡,但 是有些均衡包含了不可置信的威脅和承諾。子博弈完 美納什均衡就是通過了可信任檢測的均衡。

第 3 章和第 4 章要點

(4)

重複博弈

要點

– 在(參與者)重複關係中,關於將來行動的威脅或承諾能否影響 到當前的行動。

• 直觀

– 大部分直觀的結論是由兩階段的例子給出的 – 一些觀點需要討論無限次的情況

• 子博弈完美納什均衡

– 我們還將定義重複博弈中子博弈完美納什均衡的概念

• 這一定義在重複博弈的條件下表述比較容易理解,而在 2.4.B. 節分析一般完全信息動態博弈中則要複雜一些;

• 我們在本節先作簡要介紹,以便後面的展開。

(5)

兩階段重複博弈

• 兩階段囚徒困境

• 兩階段博弈的階段博弈有多個納什均衡

– 預測第二階段的行動

– 重複博弈的子博弈完美結果

(6)

兩階段囚徒困境

考慮囚徒困境

給定如圖 2.3.1 的標準式

納什均衡為 (L1, L2)

同時行動博弈

參與人 2

參與人 1

L2 R2

L1 1,1 5, 0

R1 0,5 4, 4

圖 2.3.1

• 讓兩個參與人進行兩次囚徒困境博弈,觀察第二次博弈

開始之前第一次博弈的結果,並假設整個過程博弈的總

收益等於兩階段博弈收益的簡單相加 ( 即不考慮貼現因

素 ) 。

(7)

“2×2×2” 博弈和子博弈完美結果

• 兩階段囚徒困境博弈是“ 2×2 兩人同時行動”博弈的一

個特殊例子。在這個博弈中,我們在上一節利用後向歸納

法的思路分析了“子博弈完美結果”,具體見 2.2.1 。

• 子博弈完美結果

如果參與人 1 和 2 預測到參與人 3 和 4 在第二階段的行動將由 (a3*(a1,a2) , a4*(a1,a2)) 給出,則參與人 1 和 2 在第一階段的問題 就可以用以下的同時行動博弈表示:

1. 參與人 1 和 2 同時從各自的可行集 A1 和 A2 中選擇 a1 和 a22. 收益情況為 ui(a1,a2,a3*(a1,a2),a4*(a1,a2)) , i=1,2 ;

假定( a1*,a2* )為以上同時行動博弈唯一的納什均衡,我們稱 (a1*,a2*,a3*(a1*,a2*),a4*(a1*,a2*)) 為這一兩階段博弈的子博弈完

(8)

兩階段囚徒困境

得到 a

3

*(a

1

,a

2

) , a

4

*(a

1

,a

2

)

– 根據第一階段的行動 a1和 a2,預測第二階段參與人的反應; – 請注意,在囚徒困境博弈中存在唯一的納什均衡,因此參與人

的反應獨立於其在第一階段的行動。

計算 u

i

(a

1

,a

2

,a

3

*(a

1

,a

2

),a

4

*(a

1

,a

2

)) , i=1,2

* *

i 1 2 1' 1 2 2' 1 2

* *

i 1 2 1' 2'

* *

i 1 2 i 1' 2'

u (a ,a ,a (a ,a ),a (a ,a ))

= u (a ,a ,a ,a )

= u (a ,a )+ u (a ,a )

(9)

兩階段囚徒困境

• 第二階段博弈的結果為納什均衡 (L1, L2) ,兩人收益為 (1, 1) ;參與 人在兩階段囚徒困境博弈中第一階 段的交互行動如圖 2.3.2 所示;

• 這個一次性博弈有唯一的納什均衡 (L1,L2)

參與人 2

參與人 1

L2 R2

L1 2,2 6, 1

R1 1,6 5, 5

圖 2.3.2

• 兩階段囚徒困境唯一的子博弈完美結果就是第一階段的 (L1,L2) 和第二階段的 (L1,L2)

• 在子博弈完美結果中,任意階段都不能達成相互合作 (R1,R2)

(10)

有限重複博弈 : 重複獨立

令 G = {A1, ...,An; u1, ..., un} 表示一個完全信息博弈,其中參與人 1 到 n 同時從各自的行動空間 A1到 An中分別選擇行動 a1到 an ,得到的 收益分別為 u1(a1, ..., an) , ..., un(a1, ..., an), 我們稱博弈 G 為重複博弈

中的階段博弈。

• 定義 1

對給定的階段博弈 G ,令 G(T) 表示 G 重複進行 T 次的 有限博弈,並且在下一次博弈開始前,所有以前博弈的進行都可以 被觀察到。 G(T) 的收益為 T 次階段博弈收益的簡單相加。

• 定理 1

如果階段博弈 G 有唯一的納什均衡,則對任意有限的 T

,重複博弈 G(T) 有唯一的子博弈完美結果:即 G 的納什均衡結果 在每一階段重複進行。

(11)

兩階段重複博弈 :

階段博弈有多個納什均衡

• 設圖 2.2.3 表示的階段博

弈重複進行兩次,並在第

二階段開始前可以觀察到

第一階段的結果。

• 我們可以證明在這一重複

博弈中存在一個子博弈完

美結果,其中第一階段的

策略組合為 (M

1

,M

2

)

參與人 2

參與人 1

L2 M2 R2

L1 1,1 5, 0 0, 0

M1 0,5 4, 4 0, 0

R1 0, 0 0, 0 3,3

圖 2.3.3

• 圖 2.2.3 中表示的博弈有兩

個納什均衡 (L

1

,L

2

),(R

1

,R

2

)

(12)

兩階段重複博弈 :

階段博弈有多個納什均衡

• 由於這個階段博弈有不止一個納什均衡,因此參與人可能會預測: 根 據第一階段的不同結果,在第二階段的博弈中將會出現不同的納什均衡

• 關鍵問題是:預測對第一階段的 行動 a1 和 a2 的反應。

參與人 2

參與人 1

L2 M2 R2

L1 1,1 5, 0 0, 0

M1 0,5 4, 4 0, 0

R1 0, 0 0, 0 3,3

第一階段 第二階段 收益

(L1, L2) (1,1)+(?,?) (R1, R2) (3,3)+(?,?) (M1, M2) (4,4)+(?,?) (M1, L2) (0,5)+(?,?) (L1, M2) (5,0)+(?,?) others (0,0)+(?,?)

圖 2.3.3

• 第二階段的結果 ?

(13)

信 號

• 設參與人預測到第一階段的結果是 (M1,M2) ,第二階段的結果將會是 (R1,R2) ;如果第一階段出現其他 8 個結果中任何一個,第二階段的 結果就會是 (L1,L2) 。那麼,這個 兩階段博弈就如同圖 2.3.4 的一次 性博弈。

參與人 2

參與人 1

L2 M2 R2

L1 2,2 6, 1 1, 1

M1 1,6 7,7 1, 1

R1 1, 1 1, 1 4,4

圖 2.3.4

• 在圖 2.3.4 所示的博弈中有 3 個純策略納什均衡 : (L1,L2), (M1,M2) 和 (R1,R2)

• 和圖 2.3.2 中一樣 , 這個一次性博弈中的納什均衡對應著重複博弈 的子博弈完美結果。

(14)

兩階段重複博弈的子博弈完美結果

• 標記

– 令 ((w, x), (y, z)) 表示重複博弈的一個結果——第一階段和第二階段 的行動分別為 (w, x) 和 (y, z) 。

• 圖 2.3.4 中的納什均衡 (L1,L2) 對應著重複博弈的子博弈完美結果 ((L1,L2), (L1,L2)) ,因為除第一階段的結果是 (M1,M2) 外,其他任何情 況發生時,第二階段的結果都是 (L1,L2)

• 類似地,圖 2.3.4 中的納什均衡 (R1,R2) 對應了重複博弈的子博弈完美 結果 ((R1,R2), (L1,L2)) 。重複博弈的這兩個子博弈完美結果都簡單地

由兩個階段博弈的納什均衡解相串而成。

• 第一階段的非合作傾向在第二階段遭到報復或懲罰 !

(15)

兩階段重複博弈的子博弈完美結果

• 圖 2.3.4 裏的第三個納什均衡結果與前兩者存在質的差別: – 圖 2.3.4 中的 (M1,M2) 對應的重複博弈子博弈完美結果為

((M1,M2),(R1,R2)) ,因為對 (M1,M2) 之後第二階段結果預期是 (R1,R2), 亦即正如我們前面講過的,在重複博弈的子博弈完美結果中,合作

可以在第一階段達成 下面是更為一般的情況

如果 G = {A1, ...,An; u1, ..., un} 是一個有多個納什均衡的完全信息靜態 博弈,則重複博弈 G(T) 可以存在子博弈完美結果,其中對每一 t < T, t 階段的結果都不是 G 的納什均衡。

– 重複博弈的子博弈完美結果允許在階段博弈中出現非 Nash 均衡

(16)

子博弈完美結果對可信性的要求

• 如果第一階段兩個參與人不選 擇 (M1,M2) ,那麼第二階段為什 麼不選擇可以獲得收益 (3,3) 、 帕累托優於 (L1,L2) 的 (R1,R2)

• 但是如果對每個第一階段的結 果,第二階段的結果都將是

(R1,R2) 的話,則第一階段選擇 (M1,M2) 的動機就被破壞了:

參與人 2

參與人 1

L2 M2 R2

L1 1,1 5, 0 0, 0

M1 0,5 4, 4 0, 0

R1 0, 0 0, 0 3,3

–兩個參與人在第一階段面臨的局勢可以簡化為在 2.3.3 所示階段 博弈的每一單元格中的收益都加上 (3, 3) 後形成的一次性博弈, 於是 i 對 Mj 的最優反應就是 Li

圖 2.3.3

(17)

問題 : 同時懲罰了懲罰者 ?

• 在基於圖 2.3.3 的兩階段重複博弈中,對一個參與人

在第一階段不守信用的懲罰,只能是在第二階段的

帕累托居劣均衡,從而同時懲罰了懲罰者。

參與人 2

參與人 1

L2 M2 R2

L1 1,1 5, 0 0, 0

M1 0,5 4, 4 0, 0

R1 0, 0 0, 0 3,3

圖 2.3.3

(18)

三個均衡處於帕累托邊界上的博弈

四個純策略納什均衡: (L1,L2) (R1,R2), 同時有 (P1, P2) 和 (Q1,Q2). 與上例相同,和 (L1,L2) 相比,參與 雙方都更傾向於選擇 (R1,R2)

更重要的是,不存在一個納什均衡 (x, y) ,使參與雙方與 (P1, P2)

(Q1,Q2) 或 (R1,R2) 相比,都傾向於選 擇 (x, y)

我們稱 (R1,R2) 帕累托優於 (L1,L2)

(P1, P2), (Q1,Q2) 和 (R1,R2) 都處於

2.3.5 所示博弈的納什均衡收益的帕 累托邊界之上 .

(19)

三個均衡處於帕累托邊界之上的博弈

假設參與人預期的第二階段結果如下: 如果第一階段的結果是 (R1,R2) 第二階段將是 (M1,M2)

– 如果第一階段的結果是 (M1, w) ,其中 w 為除 M2 之外的任意策略,則第二階段將是 (P1, P2) – 如果第一階段的結果是 (x,M2) ,其中 x 為除 M1 之外的任意策略,則第二階段將是 (Q1,Q2)

如果第一階段的結果是 (y, z) ,其中 y 是除 M1 之外的任意策略除, z 是 M2 之外的任意策略, 則第二階段將是 (R1,R2)

((M1,M2) , (R1,R2)) 是重複博弈的子博弈完美結果

•以這個博弈作為兩階段重複博 弈的階段博弈

(20)

• 這裏與圖 2.3.3 不同的是 , 有 三個均衡處於帕累托邊界之上

— 其中之一可以獎勵參與雙方在 第一階段的良好行為,

— 另外兩個則可以在懲罰第一階 段不守信用者的同時,獎勵 懲 罰者。

— 一旦在第二階段有必要實施懲 罰,懲罰者就不會再考慮選擇 階段博弈的其他均衡,也就無 法說服懲罰者就第二階段的行 動進行重新談判。

三個均衡處於帕累托邊界之上的博弈

•以這個博弈作為兩階段重 複博弈的階段博弈

(21)

效率工資

• 在效率工資的模型中,一個企業勞動力的產出決定於企業支付 的工資水平。

– 在發展中國家,更高的工資收入可提供良好的營養;在發達 國家,更高的工資收入可吸引更多有能力的工人到企業求

職,或者可以激勵現有工人更加努力工作。

• Shapiro and Stiglitz (1984) 建立了一個動態模型,其中企業為 激勵工人努力工作,一方面支付很高的薪水;同時又威脅一旦 被發現偷懶,立即開除。

– 作為這種高薪的一個後果,企業減少了對勞動力的需求,造 成部分工人的高薪就業,與其他工人(非自願)失業並存。 – 失業工人的人數越多,一個被解雇的工人尋找新的工作崗位 所需時間就越長,於是解雇的威脅就更加有效。

(22)

效率工資

– 在競爭均衡條件下,工資水平 w 和失業率 u 恰好可以使 i 工人不 去偷懶,並且企業在工資水平 w 時的勞動需求恰好使失業率等於 u

– 我們分析一個企業和一個工人的情況,從重複博弈的角度研究這 一模型(而不考慮其競爭均衡的特點)

(23)

工資效率 : 一階段偷懶模型

一個企業和一個工人的兩階段博弈

1) 第一階段,企業開出一個工資水平 w

2) 第二階段,工人考慮工資水平 w 並決定接受或拒絕這份工 作;

2-1) 如果工人拒絕了 w ,則工人成為自我雇傭者,工資水 平為 wn

2-2) 如果工人接受了 w ,則工人選擇是努力工作(會帶來 e 的負效用)還是偷懶(不會帶來任何負效用)。

3) 企業觀測工人的產出 y

3-1) 如果 y=0, 企業獲得收益 -w , 工人獲得 w

如果 y>0, 企業的收益是 y-w, 工人的收益是 w-e 。

(24)

工資效率 : 一階段偷懶模型

• 工人的努力程度企業無法觀測,但是 企業和工人都可以觀測到工人的產出 水平。

• 產出可能高也可能低,為簡單起見, 我們認為低水平的產出為 0 ,高水平 的產出為 y >0

– 假設如果工人努力工作則肯定可 以得到高產出;

– 但是如果工人偷懶則以 p 的概率 得到高產出, 1 -p 的概率的到低產出

– 從而,在這個模型中,低產出是偷懶 無可辯駁的證據。

• 顯然地,企業不能強

制工人努力工作 ---

偷懶總是存在的。

• 為了聘請工人,企業

只需要支付工人 w

0

---

支付更多的工資是沒

有意義的,因為偷懶

總是存在。

(25)

工資效率 : 社會效率

• 如果企業以工資 w 雇傭工人 ,則參與人的收益為

– 如果工人努力工作並帶來高產出,則

企業收益為: y - w ,工人收益為: w – e

– 如果工人偷懶,則 e= 0 ;

如果出現低產出,則 y= 0

我們假定 y - e >w

0

> py

這就使得

• 工人付出努力工作是有社會效率的

• 工人自我雇傭要優於受雇於企業並偷懶

同樣意味著

企業不會事先預付工資,因為最低工資將超出

(26)

工資效率 : 階段博弈

• 這一階段的子博弈完美結果是使人失望的:因為企業先

付給工人工資 w ,工人沒有動機去努力工作,於是企業

將會開出 w<w

0

,且工人會選擇自我雇傭。

• 在無限重複博弈中,企業給工人高於 w

c

的工資水平 w

, 並且威脅一旦出現低產出,就將工人開除。

• 下面我們將證明在某些取值範圍內,企業給出較高的工

資並借此激勵工人努力工作是值得的。

(27)

考慮無限重複博弈中下面的戰略,其中包含了將在以後決定的 。如果所有前面的工資開價都是 ,所有的開價都被接 受了,並且所有前期的產出都是高的,我們就稱博弈的過程是“高工 資、高產出”。

企業的策略為第一階段開出工資水平 ,並且在 其後的每一階段,如果博弈的過程是高工資、高產出,則繼續開出工 資水平 ;但其他情況下開出 。

工人的策略為如果 ,則接受企業的工資(否則, 選擇自我雇傭),並且如果博弈的過程(包括本階段的工資)是高工 資、高產出,則努力工作(否則偷懶)。

請注意,如果 ,但 ,則工人將接受企業的 工資但選擇偷懶。

*

w w

0

w

*

效率工資 : 無限重複博弈

0

w

w w0

w w

*

w w

*

w

*

w w0

(28)

子博弈

• 一個子博弈是全部博弈的一部分,當全部博弈進行到任何

一個階段,到此為止的進行過程已成為參與各方的共同知

識,而其後尚未開始進行的部分就是一個子博弈。

定義

在有限重複博弈 G(T) 中 , 由第 t + 1 階段開始的一個子博弈為 G 進行 T – t 次的重複博弈,表示為 G(T- t) 。

由第 t + 1 階段開始有許多子博弈;到第 t 階段為止的每一可能的進 行過程之後都是不同的子博弈。

在無限重複博弈 G(∞,δ) 中 , 由第 t + 1 階段開始的每個子博弈都 等同於初始博弈 G(∞,δ)

– 與在有限情況下相似,博弈 G(∞,δ) 到第 t 階段為止有多少不同 的可能進行過程,就有多少從 t + 1 階段開始的子博弈。

(29)

子博弈

• 請注意,重複博弈的第 t 階段本身(在有限情況下假

定 t < T )並不是整個博弈的一個子博弈。

• 子博弈是原博弈的一部分,不只是說博弈到此為止的

進行過程已成為全體參與人的共同知識,還包括了原

博弈在這一點之後的所有進程。

• 只單獨分析第 t 階段的博弈就等於把第 t 階段稱為原

重複博弈的最後一個階段,這樣的分析也可能會得到

一些結論,但卻完全無助於對整個博弈的分析。

(30)

子博弈完美納什均衡

納什均衡是一個策略集,即對每一個參與人,其選

擇的策略是對其他參與人所選策略的最優反應。

• 定義 (Selten 1965)

如果參與人的策略在每一個子博弈中都構成了

納什均衡,則稱納什均衡是子博弈完美的。

子博弈完美納什均衡把納什均衡的概念進一步嚴

格化,即一個子博弈完美均衡首先必須是納什均

衡,然後還必須通過其他檢驗。

(31)

效率工資 : 子博弈完美納什均衡

• 下面我們將討論上述雙方的策略成為子博弈完美均衡

的條件。論證由兩部分組成 :

(i) 導出雙方策略成為納什均衡的條件;

(ii) 證明他們是子博弈完美的。

(32)

效率工資 : 子博弈完美納什均衡

• 假設企業在第一階段開出的工資是 w*

• 給定企業的策略,工人接受這一工資水平是最優

– 如果工人努力工作,則他可以肯定得到高產出,那麼企 業將再次開出工資水平 w* ,而工人將在下一階段就努力 與否進行相同的決策。從而,如果對工人來講努力工作 是最優的,則工人收益的現值為

(33)

效率工資 : 子博弈完美納什均衡

– 如果工人偷懶,則工人將以 p 的概率得到高產出;

– 這時下一階段他還可以就努力與否進行決策;但工人還將 以 1-p 的概率得到低產出,這時企業將在以後永遠開出工資

w=0 ,於是工人亦將永遠選擇自我雇傭。

– 從而,如果對工人來講偷懶是最優的,則工人收益的現值 為

* { (1 ) 0 }

s s 1

V w pV p w

 

*

[(1 ) (1 ) 0] / (1 )(1 ) Vs w p w p

(34)

• 對工人來講,如果,選擇努力工作是最優的,即 (2.3.5)

• 於是,為激勵工人努力工作,企業必須向工人支付的,不僅足以 補償工人自我雇傭時的機會收入以及努力工作帶來的負效用

,還包括工資升水 。

– 很自然地,如果 p 接近於 1( 即如果偷懶很難被發現 ) ,則工資 升水必須非常高才可以激勵工人努力工作。

效率工資 : 子博弈完美納什均衡

e s

V V

*

0 0

1 1

(1 )

(1 ) (1 )

w w p e w e

p p

 

 

 

   

�  

w

0

e

1

(1 p)e

(35)

效率工資 : 子博弈完美納什均衡

即使 (2.3.5) 成立,從而令工人的策略為其對企業策略的

最優反應,還應該研究企業為什麼支付 w*

• 給定工人的策略,企業在第一階段的問題可歸為就以下

進行選擇 :

(1) 支付 w = w* ,並通過威脅工人一旦出現低產出就將其開除來激勵 工人努力工作,這樣每一階段都可能得到 y-w* 的收益;

(2) 支付 w= 0 ,促使工人選擇自我雇傭,自己在每一階段的收益均 為 0 。於是,企業策略成為工人戰略最優反應的條件為

y -w* >0(2.3.7)

(36)

效率工資 : 子博弈完美納什均衡

前面我們已假定 y-e > w

o

( 即對工人而言,選擇受雇

於企業並努力工作是有效率的 ) 。

• 要使這些策略成為子博弈完美均衡,我們要求進一步

的條件:

– (2.3.5) 和 (2.3.7) 合併為

對此,仍可沿用前面的解釋,即要使合作能夠得以

維持,貼現因子 δ 的值必須足夠大

(37)

效率工資 : 子博弈完美納什均衡

• 到此為止,我們已證明如果 (2.3.5) 和 (2.3.7) 成立,則前面給出 的策

略為納什均衡。

(2.3.5)

y -w* >0 (2.3.7)

• 是工資升水。 1

(1 p) e

*

0 0

1 1

(1 )

(1 ) (1 )

w w p e w e

p p

 

 

 

   

�  

(38)

效率工資 : 子博弈完美納什均衡

• 要檢驗這些策略是子博弈完美的,參考教科書頁

111-2

(39)

Assignment-1

(40)

Assignment-2

参照

関連したドキュメント

実験の概要(100字程度)

 階段室は中央に欅(けやき)の重厚な階段を配

士課程前期課程、博士課程は博士課程後期課程と呼ばれることになった。 そして、1998 年(平成

脅威検出 悪意のある操作や不正な動作を継続的にモニタリングす る脅威検出サービスを導入しています。アカウント侵害の

特定非営利活動法人..

常設常設耐震重要重大事故防止設備 常設重大事故緩和設備- 直流125V蓄電池A-2 常設常設耐震重要重大事故防止設備

エリアP 雑固体廃棄物 焼却設備 処理設備     瓦礫保管エリア     伐採木保管エリア

計画道路及びその周辺は、台地に当たる立川段丘上に位置しています。計画道路