重複博弈的基本概念ppt 最新協作平台活動衛道中學程式設計重複博弈的基本概念

(1)

重複博弈與進化博弈

馬林

(2)

一、重複博弈

重複博弈：

基本博弈重複進行構成的博弈過程

但是博弈方的行為和博弈結果卻不一定是基本博弈的簡單重複，因為博弈方對於博弈會重複進行的意識，會使他們對利益判斷發生變化，從而影響策略選擇。

將整個重複博弈的過程作為整體進行研究。

(3)

Nobel Prize in Economic

Sciences 2005

Robert J. Aumann

奧曼認為，完全信息的重複博弈論與人們之間相互作用的基本形式的演化相關。它的目的是解釋諸如合作、利他主義、報復、威脅（自我破壞或其他）等現象。

(4)

重複博弈的現實意義

靜態和動態博弈—社會活動中短期一次性的合作與競爭關係。

重複博弈—長期反復的合作與競爭關係。如兩家企業在一個市場的長期競爭，商業中

的回頭客問題

(5)

重複博弈的分類

有限次重複博弈——有明確的重複次數或結束時間。

無限次重複博弈——一個基本博弈一直重複下去，沒有次數限制。

隨機結束的重複博弈_{——雖然重複博弈的} 次數是有限的，但是重複的次數或博弈結束的時間是不確定的。

(6)

重複博弈的得益

一、總得益：

即博弈方各次重複得益的總和二、平均得益：

總得益 _{÷ 重複次數}

(7)

重複博弈的決策特點

一、決策受之前決策及其收益的影響二、決策的選擇更依賴于平均得益

(8)

失火門博弈

酒吧的少數者博弈

100 個人很喜歡泡酒吧，每個週末這些人都要決定去酒吧還是在家裏休息。酒吧的容量是 60 人，如果去的人多了，那麼去酒吧的人就會不舒服，那麼他們留在家中就會更舒服。那麼每週這 100 個人是如何做出決策的呢？

(9)

前提條件：

每個參與者的信息只是以前去酒吧的人數，所以只能根據歷史數據進行決策，而沒有其他的信息參考。

那麼，每個人將如何作出決策？

對真實實驗的結果顯示，實驗對象的預測呈有規律的波浪狀形態。

周

數 ^N N+1 N+2 N+3 N+4 N+5 N+6 N+7 人

數 ⁴⁴ ⁷⁶ ²³ ⁷⁷ ⁴⁵ ⁶⁶ ⁷⁸ ²²

(10)

採取策略的方式不同，但都基於歸納法實驗結果代表現實中多數人理性的選擇

周

數 ^N N+1 N+2 N+3 N+4 N+5 N+6 N+7 人

數 ⁴⁴ ⁷⁶ ²³ ⁷⁷ ⁴⁵ ⁶⁶ ⁷⁸ ²² 錯

誤率

56 76 77 77 55 66 78 78

(11)

計算機的模擬結果：不固定—— 60 ： 40

人員不固定，比例不變。結論：

在實際生活中，人們根據歷史進行預測多數情況是不準確的，是一個非線形的過程，即未來的情形對初始值有著強烈的敏感性

。

(12)

決策更依賴于平均得益

菜場買菜。“我是天天在這裏賣菜的”！

”

火車站商販和街道商販的區別

為什麼換防的部隊總要小小的進攻一下

₅₉ _歲現象

(13)

一次性博弈—機會主義，最大化利益

— 增加“交易成本”。重複博弈—增加信任

因為上當受騙的人能夠來進行報復行動，報復來報復去的長期結果是，理性的人們會認識到，這樣大家誰也沒有好處，於是就把相互的欺騙行為減少了，誠信就產生了。

重複博弈的優點

(14)

一報還一報的偉大勝利

密西根大學羅伯特．愛克斯羅德教授。

計算機競賽：要求參加者根據囚徒困境設計程序，並將程序輸入計算機，通過各種程序的相互對局的最後得分評判優劣。

驗證面對囚徒困境時人們可選擇的策略以及這些策略的有效程度。

(15)

參賽者二參賽者一

_合作 _背叛

合作 ^{3 ， 3} ^{0 ， 5} 背叛 ^{5 ， 0} ^{1 ， 1}

競賽的遊戲方法是：遊戲雙方都在

不知對方將如何選擇的情況下，選

擇合作或背叛。

(16)

1 、博弈進行多次， N ＝ 200 次。所謂的“ 重複的囚徒困境”，它更逼真地反映了具有經常而長期性的人際關係。

2 、允許程序參考對手前幾次的選擇之後做出合作或背叛的抉擇。如果兩個程序已經交手過多次，則雙方就建立了各自的歷史檔案，用以記錄與對手的交往情況。

(17)

第一回合： _{14 個程序。}

競賽的桂冠屬於其中最簡單的策略：一報還一報（ TIT FOR TAT ）。多倫多大學心理學家阿納托．拉帕波特提交。

第二回合： _{62 個程序。} 一報還一報又一次奪魁。

(18)

一報還一報策略：

以合作開局，但從此以後就採取以其人之道還治其人之身的策略。

^{永遠不先背叛對方}^——“^善意的”

對對手的前一次合作給予回報（哪怕曾經背叛過它）

——“_寬容的”

採取背叛的行動來懲罰對手前一次的背叛_——“_強硬的”

策略極為簡單，對手一望便明_{——“簡單明瞭的}_”

(19)

“ 一報還一報”的穩定成功的原因它綜合了善良性

、報復性、寬容性和清晰性。

善良性：防止它陷入不必要的麻煩。

報復性：使對方試著背叛一次後就不敢再背叛。寬容性：有助於重新恢復合作。

清晰性：容易被對方理解，引出長期合作。

啟示：重複博弈中，一報還一報能夠贏得競賽不是靠打擊對方，而是靠從對方引出使雙方都有好處的行為。

(20)

什麼樣的人容易成功 1 ．善意的

2 ．寬容的 3 ．強硬的 4 ．簡單明瞭

孔子：己所不欲，勿施於人以德報德，以直報怨

毛澤東：人不犯我，我不犯人人若犯我，我必犯人

(21)

有限理性和進化博弈

有限理性及其對博弈的影響 1 、理性的局限性和有限性 2 _{、有限理性：}

均衡結果的尋找和偏離過程

(22)

有限理性博弈分析框架

1 、適用的均衡：具有真正穩定性和較強可預測性的均衡。即必須通過博弈方模仿、學習的調整過程達到，可以經受錯誤偏離的干擾，受到少量干擾後仍然可以恢復的穩健的均衡。

2 、更具有現實性，且理論意義和應用性也很高。

(23)

有限理性快速學習模型

分析條件：

博弈方有較強的學習能力，雖然在複雜局面下準確判斷分析和運用預見性的能力稍差

，但是能對不同策略的結果作出比較正確的事後評估，並相應調整策略。

(24)

博弈方二博弈方一

_A _B

A ⁵⁰ ^{， 50} ⁴⁹ ^{， 0} B 0 ， 49 ⁶⁰ ， 60

(25)

A

A _A

B

B B

(26)

A

B

A

A _A

1 個 B

B

A

A _A

2 連 B

A

B

A

B _A

2 非連 B

(27)

B

A _A

3 連 B

A

B

A

B _B

3 非連 B

B

A

B

B _B

4 個 B

(28)

• 經過計算可以知道

• 第 n 個時期博弈方 i 的兩個鄰居中只要有 1 個選擇 _{A ，那麼第 n} ＋ 1 階段 i 就就會選擇 A

• 第 n 個時期博弈方 i 的兩個鄰居都選擇 B ， 那麼第 _n ＋ 1 階段 i 就就會選擇 B

(29)

A

B

A

A A

A

A A

B

A

A A

A

A A

1 個 B 的情況

2 連 B 的情況

(30)

A

B

A

B A

B

A

A A

A

A A

B

A

B A

B

A

A A

A

A A

2 非連 B 的情況

3 連 B 的情況

(31)

A

B

A

B B

B

A

B

A A

A

B

A

A A

3 非連 B 的情況

A

A A

(32)

B

A

B

B B

A

B

A

B B

B

A

B

A A

4 個 B 的情況

A

B

A

A A

A

A A

(33)

A 策略是進化穩定策略，即在 32 種情況中除了 5 個 B 的情況外，其他 31 種情況最後都會收斂到 A 策略均衡。而 B 不是。

社會道德的演變。

(34)

博弈論的進化博弈與生物進化理論有異曲同工之處。

問答題

1 、請問這是什麼動物的聲音？ 2 、是不是所有的青蛙都會叫？ 3 、青蛙為什麼要叫？

(35)

蛙鳴博弈

億萬年前青蛙的祖先既沒有耳朵也不會發聲

，但是經過長期進化的現代青蛙變成了雄蛙能夠非常響亮的鳴叫，而雌蛙則有相當好的聽力。根本原因是為了獲得更多的交配和繁衍後代的機會，或者說能夠發聲的雄蛙和有較好聽力的雌蛙有較多的交配機會。

(36)

實驗表明兩隻都不鳴叫的青蛙獲得交配的幾率各是 0.5 ，當一隻不叫一隻叫的情況下，鳴叫的青蛙的交配幾率上升到 _{0.6 。}

鳴叫的代價：

容易被天敵發現，消耗寶貴的能源

(37)

青蛙的博弈

都不鳴叫，吸引來的雌蛙為 0 ，交配機會是 0 。

1 只叫， 1 只不叫，可以吸引來 1 只雌蛙，交配的機會為 _m ， (0.5<m<1) ，但要消耗成本 z 。

如果都鳴叫，則各能吸引 p 只雌蛙，或者說交配的幾率為 (m<p<1) ，各有成本 z _。

青蛙甲

青蛙乙

鳴叫不鳴叫

鳴叫 ^p － z ， p － z m － z ， 1 － m 不鳴叫 ¹ ^{－ m ， m －}_z ⁰ ， 0

(38)

該博弈的納什均衡關鍵在於 _p 、 m 、 z 的相對水平。 m<p<1, 所以 m － z<p － z

(1) m － z<0 ：因為 p<1 ，則有 p － z<1 － m m=0.6, z=0.7, p=0.8

兩隻青蛙都不鳴叫就是納什均衡

青蛙甲

青蛙乙

鳴叫不鳴叫

鳴叫 ^p － z ， p － z

(0.1) (0.1) ^m － z ， 1 － m (-0.1) (0.4)

不鳴叫 ¹ － m ， m － z

(0.4) (-0.1) ⁰ ^{， 0}

(39)

(2) m － z>0, 即 m>z ，且 p － z<1 － m m=0.6 z=0.5 p=0.8

都鳴叫多帶來的好處不足以抵消多付出的成本

則有兩個納什均衡或者都以一定的概率決定是否鳴叫

。青蛙甲

青蛙乙

鳴叫不鳴叫

鳴叫 ^p － z ， p － z

(0.3) (0.3) ^m － z ， 1 － m (0.1) (0.4)

不鳴叫 ¹ － m ， m － z

(0.4) (0.1) ⁰ ^{， 0}

(40)

(3) m － z>0, 即 m>z ，且 p － z>1 － m m=0.6, z=0.2, p=0.8,

都鳴叫多帶來的好處足以抵消多付出的成本這種情況下，都鳴叫就是最後的納什均衡。

青蛙甲

青蛙乙

鳴叫不鳴叫

鳴叫 ^p － z ， p － z

(0.6) (0.6) ^m － z ， 1 － m (0.4) (0.4)

不鳴叫 ¹ － m ， m － z

(0.4) (0.4) ⁰ ^{， 0}

重複博弈的基本概念ppt 最新協作平台活動 衛道中學程式設計 重複博弈的基本概念

重複博弈與進化博弈

馬林

一、重複博弈

Nobel Prize in Economic

Sciences 2005

重複博弈的現實意義

重複博弈的分類

重複博弈的得益

重複博弈的決策特點

決策更依賴于平均得益

重複博弈的優點

一報還一報的偉大勝利

競賽的遊戲方法是：遊戲雙方都在

不知對方將如何選擇的情況下，選

擇合作或背叛。

有限理性和進化博弈

有限理性快速學習模型

1 個 B

2 連 B

2 非連 B

3 連 B

3 非連 B

4 個 B

蛙鳴博弈

重複博弈的基本概念ppt 最新協作平台活動衛道中學程式設計重複博弈的基本概念