<4D F736F F F696E74202D D8C7689E682C68DC5934B89BB B D985F8CE394BC816A2E707074>

(1)

ゲーム理論

•ゲーム理論の目的 • 動的価値環境下におけるエージェント群の意志決定・戦略的な反応の科学 •エージェント • 選択可能な手番の集合，最良戦略の導出と行動 • 戦略は「純粋」（特定の動作）または，「混合」（ランダム動作） •「ナッシュ均衡」（同じような手行動の繰り返しに落ち込む） • すべてのプレーヤーの最適な反応が、お互いに調和したものになる

(2)

復習：「ミニ・マックス定理」

フォン・ノイマン • ゼロ和2人ゲームの最適戦略 • 「一方のプレイヤーは最小利得を最大化する戦略（マックス・ミニ戦略）をもち，他方のプレイヤーは最大損失を最小化する戦略（ミニ・マックス戦略）をもっており，しかも，これらの戦略は同じ値をもたらす」 • 最小利得の最大化をもたらす．

(3)

繰り返しゲームの落ち着く先

• ２人ゲームのナッシュ均衡（利己的状態） • 互いに，相手が選んでいる戦略のもとでは，自分の選んだ戦略は自分の利得を最大化している， • 一般に，相手が選ぶ戦略に対しては，自分の利得を最大化する自分の戦略「最適反応」をとる． • すると，互いに最適反応となっているような戦略の組「ナッシュ均衡」となる． • 互いに最適反応になっているので，自分だけが，ほかの戦略に切り替えるという動機は存在しない．

(4)

ジョン・

_{F・ナッシュの主要論文}

• "Equilibrium points in N-Person Games", 1950, Proceedings

of NAS.

• "The Bargaining Problem", 1950, Econometrica.

• "A Simple Three-Person Poker Game", with L.S. Shapley, 1950, Annals of Mathematical Statistics.

• "Non-Cooperative Games", 1951, Annals of Mathematics. • "Two-Person Cooperative Games", 1953, Econometrica.

(5)

ｎ人ゲームのナッシュ均衡

• 各プレイヤーの選んだ戦略の組で，各プレイヤーについて，自分が選んだ戦略が他のすべてのプレイヤーの選んでいる戦略に対する最適反応となっている場合． • ナッシュは，このゲームの定式化と均衡の定義，およびその存在証明をほとんど数式を用いずに，１ページの論文として発表． • 証明には，不動点定理が使われた，この方法は，それ以後，経済の均衡の存在証明のための標準的方法となる．

(6)

ゼロ２人和ゲームのナッシュ均衡

＝ミニ・マックス定理

• ゼロ和２人ゲームでは，相手はこちらの利得を最小化するように行動． • そのため，ナッシュ均衡での利得は，相手の戦略についての最小値となる． • 解説：相手がその戦略からほかの戦略に切り替えても相手の利得は決して増加しないので，ゼロ和である以上，自分の利得は決して減少しないことになる．すなわち，均衡での自分の利得は，確実に保証できる利得である．しかし，自分だけがほかの戦略に切り替えたとすると，ナッシュ均衡から外れることになるので，自分の利得は減少することはあっても決して増加しない．つまり，その戦略ではもはや均衡利得以下の値しか保証できません．こうして，ナッシュ均衡は，保証利得を最大化する戦略，すなわちマックス・ミニ戦略の組となっている．

(7)

ナッシュの非協力ｎ人ゲーム

• ナッシュの非協力ｎ人ゲームは，フォン・ノイマンの２人ゼロ和ゲームの壮大な拡張となっている． • ゲームの解であるナッシュ均衡も，概念としては単純でよりわかりやすい． • 保証利得が最大化されていることを検証するより，ナッシュ均衡であることを確かめることのほうが一般には容易． • たとえば，ジャンケンでは，相手が(1/3,1/3,1/3)という混合戦略をとるならば，自分は，どんな混合戦略(p,q,r)をとっても期待利得はゼロとなることが容易に計算できる．つまり，どんな混合戦略も，相手の (1/3,1/3,1/3)に対する最適反応となっているわけですから，とくに (1/3,1/3,1/3)も相手の(1/3,1/3,1/3)に対する最適反応となり，この組はナッシュ均衡となる．

(8)

ナッシュ均衡の定義

• 交渉（negotiation）とは

– 複数の人間もしくは集団の間で共同で行う意思決定のプロセスである．交渉を分析するために定式化をおこなったものがゲーム理論（_game theory）である．

• 交渉の参加者：プレーヤー（player）（p,q）

• 各プレーヤーがとり得る行為：戦略

（

_{strategy）： s}

_p

，

_s

_q

(9)

• プレーヤーp，qのとり得るすべての戦略の集合： S_p、_S_q • 戦略の組（s_p , s_q）に対し各プレーヤーの効用（_{utility）： u}_p（_s_p _{, s}_q）、 _u_q（_s_p _{, s}_q） • （s_p , s_q）が選択される確率を _z_{sp sq} • ここで，確率分布 Z = ( z_{sp sq} | s_p ∈ _S_p _{, s}_q ∈ _S_q₎ を混合戦略（_{mixed strategy）と呼び，その集合 Z} を混合戦略集合という． • z が Z のすべての値を取った時の集合 S S = { (u_p(z),u_q(z)) | z ∈ Z } をゲームＧの交渉集合（_{negotiation set）という．} • 現状を表す基準点を d で表すものとする．このとき交渉は（_{S,d）で表す．}

(10)

交渉の成立要件

• 交渉が成立するためには以下の３条件が成立することが必要である。１．_{S は有界で閉な凸集合である。sx＋(1-s)y∈Ｓ} （両プレーヤーとも混合戦略をとる）２．現状点を表す _{d = (d}_p_,d_q_{)をもつ。} （現状は実行可能な交渉解の１つである）３．_u_p ≧ _d_p かつ _u_q ≧ _d_qとなるような _(u_p_,u_q_{) が少} なくとも１つは _{S に存在する。} （交渉の可能性の保証） • さて、この条件のもとで交渉の合理的な妥結点 f(S,d) = （u* p,u*q）がどのような条件を満たすべきかを吟味する。

(11)

合理的な妥結点

(12)

個人合理性

• 交渉が続くためには，現状（ d

_p

，

_d

_q

）より

良くなっている必要がある．

• 【公準１】個人合理性

• u* p ≧ dp かつ u*q ≧ dq

(13)

集団合理性

• プレーヤーの少なくとも一方の効用が改善される限り交渉は継続されることも要求される。 • 【公準２】集団合理性（ナッシュ最適性） • (u_p,u_q) ∈ S かつ u_p≧_u* p,uq≧u*q ならば、(up,uq) = (u* p,u*q) である。 • ただしこれだけでは妥結点は１点にはならない。

(14)

独立性

_I

• そこでさらに「合理的」と思われる条件を追加し，妥結点を絞る． • 【公準３】正１次変換からの独立性 • 集合 _{T 及び点 d'を(S,d)からの正１次変換で得られ} たものとする。 • u'_p = α_pu_p + β_p u'_q = α_qu_q + β_q d_p = α_pd_p + β_p d_q = α_qd_q + β_q • ただしα_p,α_q,β_p,β_q∈ Ｒ _{, α}_p_,α_q＞ ₀ • このとき _{f( S , d ) = ( u}* p , u*q ) ならば _{f( T , d' ) = ( u'}* p , u'*q )

(15)

対称性

• すなわち、効用を測定する単位や尺度を

正１次変換しても交渉は本質的に変化しな

いということを要求している。

• 【公準４】対称性

• S が座標原典を通る４５°線について対象で d1 = d2 ならば u* p = u*q である。

(16)

独立性

_II

• 【公準５】無関係な代替案からの独立性

• f( S,d ) = ( u* p , u*q ) とするとき、( u*p , u*q )∈ T ⊂ S を満たす集合 T を交渉集合とする交渉問題 _{(T,d)に対し f( T , d ) = ( u}* p , u*q )

• この時次の定理が成立する。

(17)

定理：ナッシュ均衡点

• 交渉ゲーム (S,d)において、上記の公準１から５をすべて満たす妥結点 _{( u}* p , u*q ) はただ一つ存在する。この解をナッシュ均衡解という。逆にナッシュ均衡解は上記の公準をすべて満たす。 • ( u* p - dp )( u*q - dq ) = MAX( up - dp )( uq - dq ) • http://www.mahoroba.ne.jp/~felix/Notes/Complex ity/Nash.html

(18)

例題１（支配戦略）

（1，6）（4，6） A2 （2，4）（5，2） A1 B2 B1 A/B 純粋戦略ゲーム：参加者（プレーヤー）が必ずどれかの戦略を選ぶゲーム結果：_{Aにとっての最適戦略はA1，Bにとっての最適戦略はB2とな} り，両者ともここから戦略を変更しても利得は減る可能性がある．よって，この組み合わせ_{(A1, B2)がナッシュ均衡となる．} （支配するとは，ある戦略を選ぶことが他方の戦略を選ぶより有利であるという意味）弱支配戦略強支配戦略

(19)

例題２

Pa/Pb B1 B2 B3 A1 5, 2 2, 4 4, 0 A2 4, 6 3, 6 2, 5 A3 3, 3 1, 2 7, 2 B3はB2に支配ÆB3を消去 A3はA2に支配ÆA3を消去 B1はB2に支配ÆB1を消去ナッシュ均衡は_{(A2, B2)} 強支配の状態にある戦略を残してゆく

(20)

例題３（混合戦略）

Pa/Pb B1 確率 _q B2 確率 _(1-q) A1 確率 _p 1, 2 0, 0 A2 確率 _(1-p) 0, 0 2, 1 この表のゲームの場合は_Pa の得る利得の期待値は： 1・pq + 2・(1 - p)(1 - q) = 3pq - 2p - 2q + 2 = (3q - 2)p + 2(1 - q) これをpの関数だと考えると： •q > 2/3 なら：単調増加の直線Æ期待値の最大値は p = 1 のとき 2q •q < 2/3 なら：単調減少の直線Æ期待値の最大値は p = 0 のとき 2 - 2q •q = 2/3 なら：期待値は一定で 2/3 Pbの得る利得の期待値の最大値も、pによって同様に決定される。この二つのグラフの交点がナッシュ均衡となる。このゲームの場合は(2/3, 2/3)

(21)

例題４（ジレンマ状態）

（-10,-10）（-1，-15） A裏切り（自白）（-15,-1）（-2，-2） A協調（黙秘） B裏切り（自白） B協調（黙秘）価値観テーブルナッシュ均衡解パレート最適解群互いに完全に優越する解を持たない解の群

(22)

心理経済学

• 2002年のノーベル経済学賞を米国とイスラエルの二重国籍を持つダニエル・カーネマン米プリンストン大学教授（_{68）と､米国人のバーノン・スミ} ス・米ジョージ・メイソン大学教授（_{75）に授与され} る｡カーネマン氏は心理経済学の発展に貢献し､投資家心理を分析｡投資家の意思決定は客観的な確率ではなく､主観で行われるとの結論を導いた｡例えば､_{10万円の利益と損失を比べた場合に､} 損失の方を多く見積もる傾向がある点や､損失が発生したときに一かばちかの大勝負に出る傾向があるとした｡バーノン・スミス教授は実験経済学を確立した｡

(23)

どっちが得？？

2日後なら100万円損（ただし15％の人はゼロ） 80万円損 2日後なら100万円得（ただし15％の人はゼロ） 80万円得価値観テーブル