重複博弈與進化博弈
馬林
一、重複博弈
重複博弈:
基本博弈重複進行構成的博弈過程
但是博弈方的行為和博弈結果卻不一定是基 本博弈的簡單重複,因為博弈方對於博弈 會重複進行的意識,會使他們對利益判斷 發生變化,從而影響策略選擇。
將整個重複博弈的過程作為整體進行研究。
Nobel Prize in Economic
Sciences 2005
Robert J. Aumann
奧曼認為,完全信息的重複博弈 論與人們之間相互作用的基本形 式的演化相關。它的目的是解釋 諸如合作、利他主義、報復、威 脅(自我破壞或其他)等現象。
重複博弈的現實意義
靜態和動態博弈—社會活動中短期一次性的 合作與競爭關係。
重複博弈—長期反復的合作與競爭關係。 如兩家企業在一個市場的長期競爭,商業中
的回頭客問題
重複博弈的分類
有限次重複博弈——有明確的重複次數或 結束時間。
無限次重複博弈——一個基本博弈一直重 複下去,沒有次數限制。
隨機結束的重複博弈——雖然重複博弈的 次數是有限的,但是重複的次數或博弈結 束的時間是不確定的。
重複博弈的得益
一、總得益:
即博弈方各次重複得益的總和 二、平均得益:
總得益 ÷ 重複次數
重複博弈的決策特點
一、決策受之前決策及其收益的影響 二、決策的選擇更依賴于平均得益
失火門博弈
酒吧的少數者博弈
100 個人很喜歡泡酒吧,每個週末這些人都 要決定去酒吧還是在家裏休息。酒吧的容 量是 60 人,如果去的人多了,那麼去酒吧 的人就會不舒服,那麼他們留在家中就會 更舒服。那麼每週這 100 個人是如何做出 決策的呢?
前提條件:
每個參與者的信息只是以前去酒吧的人數,所以 只能根據歷史數據進行決策,而沒有其他的信 息參考。
那麼,每個人將如何作出決策?
對真實實驗的結果顯示,實驗對象的預測呈有規 律的波浪狀形態。
周
數 N N+1 N+2 N+3 N+4 N+5 N+6 N+7 人
數 44 76 23 77 45 66 78 22
採取策略的方式不同,但都基於歸納法 實驗結果代表現實中多數人理性的選擇
周
數 N N+1 N+2 N+3 N+4 N+5 N+6 N+7 人
數 44 76 23 77 45 66 78 22 錯
誤 率
56 76 77 77 55 66 78 78
計算機的模擬結果: 不固定—— 60 : 40
人員不固定,比例不變。 結論:
在實際生活中,人們根據歷史進行預測多數 情況是不準確的,是一個非線形的過程, 即未來的情形對初始值有著強烈的敏感性
。
決策更依賴于平均得益
菜場買菜。“我是天天在這裏賣菜的”!
”
火車站商販和街道商販的區別
為什麼換防的部隊總要小小的進攻一下
59 歲現象
一次性博弈—機會主義,最大化利益
— 增加“交易成本”。 重複博弈—增加信任
因為上當受騙的人能夠來進行報復行動,報復 來報復去的長期結果是,理性的人們會認識 到,這樣大家誰也沒有好處,於是就把相互 的欺騙行為減少了,誠信就產生了。
重複博弈的優點
一報還一報的偉大勝利
密西根大學羅伯特.愛克斯羅德教授。
計算機競賽:要求參加者根據囚徒困境設計 程序,並將程序輸入計算機,通過各種程 序的相互對局的最後得分評判優劣。
驗證面對囚徒困境時人們可選擇的策略以及 這些策略的有效程度。
參賽者二 參賽者一
合作 背叛
合作 3 , 3 0 , 5 背叛 5 , 0 1 , 1
競賽的遊戲方法是:遊戲雙方都在
不知對方將如何選擇的情況下,選
擇合作或背叛。
1 、博弈進行多次, N = 200 次。所謂的“ 重複的囚徒困境”,它更逼真地反映了具有 經常而長期性的人際關係。
2 、允許程序參考對手前幾次的選擇之後做 出合作或背叛的抉擇。如果兩個程序已經 交手過多次,則雙方就建立了各自的歷史 檔案,用以記錄與對手的交往情況。
第一回合: 14 個程序。
競賽的桂冠屬於其中最簡單的策略:一報還 一報( TIT FOR TAT )。多倫多大學心理 學家阿納托.拉帕波特提交。
第二回合: 62 個程序。 一報還一報又一次奪魁。
一報還一報策略:
以合作開局,但從此以後就採取以其人之道還 治其人之身的策略。
永遠不先背叛對方——“善意的”
對對手的前一次合作給予回報(哪怕曾經背叛過它)
——“寬容的”
採取背叛的行動來懲罰對手前一次的背叛——“強硬 的”
策略極為簡單,對手一望便明——“簡單明瞭的”
“ 一報還一報”的穩定成功的原因它綜合了善良性
、報復性、寬容性和清晰性。
善良性:防止它陷入不必要的麻煩。
報復性:使對方試著背叛一次後就不敢再背叛。 寬容性:有助於重新恢復合作。
清晰性:容易被對方理解,引出長期合作。
啟示:重複博弈中,一報還一報能夠贏得競賽不是 靠打擊對方,而是靠從對方引出使雙方都有好處 的行為。
什麼樣的人容易成功 1 .善意的
2 .寬容的 3 .強硬的 4 .簡單明瞭
孔 子:己所不欲,勿施於人 以德報德,以直報怨
毛澤東:人不犯我,我不犯人 人若犯我,我必犯人
有限理性和進化博弈
有限理性及其對博弈的影響 1 、理性的局限性和有限性 2 、有限理性:
均衡結果的尋找和偏離過程
有限理性博弈分析框架
1 、適用的均衡:具有真正穩定性和較強可 預測性的均衡。即必須通過博弈方模仿、 學習的調整過程達到,可以經受錯誤偏離 的干擾,受到少量干擾後仍然可以恢復的 穩健的均衡。
2 、更具有現實性,且理論意義和應用性也 很高。
有限理性快速學習模型
分析條件:
博弈方有較強的學習能力,雖然在複雜局面 下準確判斷分析和運用預見性的能力稍差
,但是能對不同策略的結果作出比較正確 的事後評估,並相應調整策略。
博弈方二 博弈方一
A B
A 50 , 50 49 , 0 B 0 , 49 60 , 60
A
A
A
A A
B
B B
B B
A
B
A
A A
1 個 B
B
B
A
A A
2 連 B
A
B
A
B A
2 非連 B
B
B
B
A A
3 連 B
A
B
A
B B
3 非連 B
B
A
B
B B
4 個 B
• 經過計算可以知道
• 第 n 個時期博弈方 i 的兩個鄰居中只要有 1 個選擇 A ,那麼第 n + 1 階段 i 就就會選擇 A
• 第 n 個時期博弈方 i 的兩個鄰居都選擇 B , 那麼第 n + 1 階段 i 就就會選擇 B
A
B
A
A A
A
A
A
A A
B
B
A
A A
A
A
A
A A
1 個 B 的情況
2 連 B 的情況
A
B
A
B A
B
A
A
A A
A
A
A
A A
B
B
A
B A
B
A
A
A A
A
A
A
A A
2 非連 B 的情況
3 連 B 的情況
A
B
A
B B
B
A
B
A A
A
B
A
A A
3 非連 B 的情況
A
A
A
A A
B
A
B
B B
A
B
A
B B
B
A
B
A A
4 個 B 的情況
A
B
A
A A
A
A
A
A A
A 策略是進化穩定策略,即在 32 種情況中除 了 5 個 B 的情況外,其他 31 種情況最後都 會收斂到 A 策略均衡。而 B 不是。
社會道德的演變。
博弈論的進化博弈與生物進化理論有異曲同 工之處。
問答題
1 、請問這是什麼動物的聲音? 2 、是不是所有的青蛙都會叫? 3 、青蛙為什麼要叫?
蛙鳴博弈
億萬年前青蛙的祖先既沒有耳朵也不會發聲
,但是經過長期進化的現代青蛙變成了雄 蛙能夠非常響亮的鳴叫,而雌蛙則有相當 好的聽力。根本原因是為了獲得更多的交 配和繁衍後代的機會,或者說能夠發聲的 雄蛙和有較好聽力的 雌蛙有較多的交配機 會。
實驗表明兩隻都不鳴叫的青蛙獲得交配的幾 率各是 0.5 ,當一隻不叫一隻叫的情況下, 鳴叫的青蛙的交配幾率上升到 0.6 。
鳴叫的代價:
容易被天敵發現,消耗寶貴的能源
青蛙的博弈
都不鳴叫,吸引來的雌蛙為 0 ,交配機會是 0 。
1 只叫, 1 只不叫,可以吸引來 1 只雌蛙,交配 的機會為 m , (0.5<m<1) ,但要消耗成本 z 。
如果都鳴叫,則各能吸引 p 只雌蛙,或者說交配 的幾率為 (m<p<1) ,各有成本 z 。
青蛙甲
青蛙乙
鳴叫 不鳴叫
鳴叫 p - z , p - z m - z , 1 - m 不鳴叫 1 - m , m -z 0 , 0
該博弈的納什均衡關鍵在於 p 、 m 、 z 的相對水平。 m<p<1, 所以 m - z<p - z
(1) m - z<0 :因為 p<1 ,則有 p - z<1 - m m=0.6, z=0.7, p=0.8
兩隻青蛙都不鳴叫就是納什均衡
青蛙甲
青蛙乙
鳴叫 不鳴叫
鳴叫 p - z , p - z
(0.1) (0.1) m - z , 1 - m (-0.1) (0.4)
不鳴叫 1 - m , m - z
(0.4) (-0.1) 0 , 0
(2) m - z>0, 即 m>z ,且 p - z<1 - m m=0.6 z=0.5 p=0.8
都鳴叫多帶來的好處不足以抵消多付出的成本
則有兩個納什均衡或者都以一定的概率決定是否鳴叫
。 青蛙甲
青蛙乙
鳴叫 不鳴叫
鳴叫 p - z , p - z
(0.3) (0.3) m - z , 1 - m (0.1) (0.4)
不鳴叫 1 - m , m - z
(0.4) (0.1) 0 , 0
(3) m - z>0, 即 m>z ,且 p - z>1 - m m=0.6, z=0.2, p=0.8,
都鳴叫多帶來的好處足以抵消多付出的成本 這種情況下,都鳴叫就是最後的納什均衡。
青蛙甲
青蛙乙
鳴叫 不鳴叫
鳴叫 p - z , p - z
(0.6) (0.6) m - z , 1 - m (0.4) (0.4)
不鳴叫 1 - m , m - z
(0.4) (0.4) 0 , 0