(1)ゲーム理論
•ゲーム理論の目的
• 動的価値環境下におけるエージェント群の意志決
定・戦略的な反応の科学
•エージェント
• 選択可能な手番の集合,最良戦略の導出と行動
• 戦略は「純粋」(特定の動作)または,「混合」(ラン
ダム動作)
•「ナッシュ均衡」(同じような手行動の繰り返しに落ち込む)
• すべてのプレーヤーの最適な反応が、お互いに調
和したものになる
(2)復習:「ミニ・マックス定理」
フォン・ノイマン
• ゼロ和2人ゲームの最適戦略
• 「一方のプレイヤーは最小利得を最大化する戦
略(マックス・ミニ戦略)をもち,他方のプレイヤー
は最大損失を最小化する戦略(ミニ・マックス戦
略)をもっており,しかも,これらの戦略は同じ値
をもたらす」
• 最小利得の最大化をもたらす.
(3)繰り返しゲームの落ち着く先
• 2人ゲームのナッシュ均衡(利己的状態)
• 互いに,相手が選んでいる戦略のもとでは,自分
の選んだ戦略は自分の利得を最大化している,
• 一般に,相手が選ぶ戦略に対しては,自分の利
得を最大化する自分の戦略「最適反応」をとる.
• すると,互いに最適反応となっているような戦略
の組「ナッシュ均衡」となる.
• 互いに最適反応になっているので,自分だけが,
ほかの戦略に切り替えるという動機は存在しな
い.
(4)ジョン・
F・ナッシュの主要論文
• "Equilibrium points in N-Person Games", 1950, Proceedings
of NAS.
• "The Bargaining Problem", 1950, Econometrica.
• "A Simple Three-Person Poker Game", with L.S. Shapley,
1950, Annals of Mathematical Statistics.
• "Non-Cooperative Games", 1951, Annals of Mathematics.
• "Two-Person Cooperative Games", 1953, Econometrica.
(5)n人ゲームのナッシュ均衡
• 各プレイヤーの選んだ戦略の組で,各プレイ
ヤーについて,自分が選んだ戦略が他のすべて
のプレイヤーの選んでいる戦略に対する最適反
応となっている場合.
• ナッシュは,このゲームの定式化と均衡の定義,
およびその存在証明をほとんど数式を用いずに,
1ページの論文として発表.
• 証明には,不動点定理が使われた,この方法は,
それ以後,経済の均衡の存在証明のための標
準的方法となる.
(6)ゼロ2人和ゲームのナッシュ均衡
= ミニ・マックス定理
• ゼロ和2人ゲームでは,相手はこちらの利得を最
小化するように行動.
• そのため,ナッシュ均衡での利得は,相手の戦略
についての最小値となる.
• 解説:相手がその戦略からほかの戦略に切り替えても相手の利得は決
して増加しないので,ゼロ和である以上,自分の利得は決して減少しな
いことになる.すなわち,均衡での自分の利得は,確実に保証できる利
得である.しかし,自分だけがほかの戦略に切り替えたとすると,ナッ
シュ均衡から外れることになるので,自分の利得は減少することはあっ
ても決して増加しない.つまり,その戦略ではもはや均衡利得以下の値
しか保証できません.こうして,ナッシュ均衡は,保証利得を最大化する
戦略,すなわちマックス・ミニ戦略の組となっている.
(7)ナッシュの非協力n人ゲーム
• ナッシュの非協力n人ゲームは,フォン・ノイマ
ンの2人ゼロ和ゲームの壮大な拡張となっている.
• ゲームの解であるナッシュ均衡も,概念としては
単純でよりわかりやすい.
• 保証利得が最大化されていることを検証するより,
ナッシュ均衡であることを確かめることのほうが
一般には容易.
• たとえば,ジャンケンでは,相手が(1/3,1/3,1/3)という混合戦略をとる
ならば,自分は,どんな混合戦略(p,q,r)をとっても期待利得はゼロと
なることが容易に計算できる.つまり,どんな混合戦略も,相手の
(1/3,1/3,1/3)に対する最適反応となっているわけですから,とくに
(1/3,1/3,1/3)も相手の(1/3,1/3,1/3)に対する最適反応となり,この組は
ナッシュ均衡となる.
(8)ナッシュ均衡の定義
• 交渉(negotiation)とは
– 複数の人間もしくは集団の間で共同で行う意思
決定のプロセスである.交渉を分析するために
定式化をおこなったものがゲーム理論(
game
theory)である.
• 交渉の参加者:プレーヤー(player)(p,q)
• 各プレーヤーがとり得る行為:戦略
(
strategy): s
p,
s
q
(9)• プレーヤーp,qのとり得るすべての戦略の集合:
Sp、Sq
• 戦略の組(sp , sq)に対し各プレーヤーの効用
(utility): up(sp , sq)、 uq(sp , sq)
• (sp , sq)が選択される確率を zsp sq
• ここで,確率分布 Z = ( zsp sq | sp ∈ Sp , sq ∈ Sq)
を混合戦略(mixed strategy)と呼び,その集合 Z
を混合戦略集合という.
• z が Z のすべての値を取った時の集合 S
S = { (up(z),uq(z)) | z ∈ Z } をゲームGの交渉
集合(negotiation set)という.
• 現状を表す基準点を d で表すものとする.このと
き交渉は(S,d)で表す.
(10)交渉の成立要件
• 交渉が成立するためには以下の3条件が成立
することが必要である。
1.
S は有界で閉な凸集合である。sx+(1-s)y∈S
(両プレーヤーとも混合戦略をとる)
2.現状点を表す
d = (dp,dq)をもつ。
(現状は実行可能な交渉解の1つである)
3.
up ≧
dp かつ
uq ≧
dqとなるような
(up,uq) が少
なくとも1つは
S に存在する。
(交渉の可能性の保証)
• さて、この条件のもとで交渉の合理的な妥結点
f(S,d) = (u*
p,u*q)がどのような条件を満たすべき
かを吟味する。
(11)(12)個人合理性
• 交渉が続くためには,現状( d
p ,
d
q )より
良くなっている必要がある.
• 【公準1】個人合理性
• u*
p ≧ dp かつ u*q ≧ dq
(13)集団合理性
• プレーヤーの少なくとも一方の効用が改善され
る限り交渉は継続されることも要求される。
• 【公準2】集団合理性(ナッシュ最適性)
• (u
p,u
q) ∈ S かつ u
p≧
u*
p,uq≧u*q ならば、(up,uq) =
(u*
p,u*q) である。
• ただしこれだけでは妥結点は1点にはならない。
(14)独立性
I
• そこでさらに「合理的」と思われる条件を追加し,
妥結点を絞る.
• 【公準3】正1次変換からの独立性
• 集合
T 及び 点 d'を(S,d)からの正1次変換で得られ
たものとする。
• u'
p = α
pu
p + β
p
u'
q = α
qu
q + β
q
d
p = α
pd
p + β
p
d
q = α
qd
q + β
q
• ただしα
p,α
q,β
p,β
q∈ R
, αp,αq>
0
• このとき
f( S , d ) = ( u*
p , u*q )
ならば
f( T , d' ) = ( u'*
p , u'*q )
(15)対称性
• すなわち、効用を測定する単位や尺度を
正1次変換しても交渉は本質的に変化しな
いということを要求している。
• 【公準4】対称性
• S が座標原典を通る45°線について対象で
d1 = d2 ならば u*
p = u*q である。
(16)独立性
II
• 【公準5】無関係な代替案からの独立性
• f( S,d ) = ( u*
p , u*q ) とするとき、( u*p , u*q )∈
T ⊂ S を満たす集合 T を交渉集合とする交渉
問題
(T,d)に対し f( T , d ) = ( u*
p , u*q )
•
この時次の定理が成立する。
(17)定理:ナッシュ均衡点
• 交渉ゲーム (S,d)において、上記の公準1から5
をすべて満たす妥結点
( u*
p , u*q ) はただ一つ存
在する。この解をナッシュ均衡解という。逆にナッ
シュ均衡解は上記の公準をすべて満たす。
• ( u*
p - dp )( u*q - dq ) = MAX( up - dp )( uq - dq )
• http://www.mahoroba.ne.jp/~felix/Notes/Complex
ity/Nash.html
(18)例題1(支配戦略)
(1,6)
(4,6)
A2
(2,4)
(5,2)
A1
B2
B1
A/B
純粋戦略ゲーム:参加者(プレーヤー)が必ずどれかの戦
略を選ぶゲーム
結果:
Aにとっての最適戦略はA1,Bにとっての最適戦略はB2とな
り,両者ともここから戦略を変更しても利得は減る可能性がある.
よって,この組み合わせ
(A1, B2)がナッシュ均衡となる.
(支配するとは,ある戦略を選
ぶことが他方の戦略を選ぶより
有利であるという意味)
弱支配戦略
強支配戦略
(19)例題2
Pa/Pb B1 B2 B3
A1 5, 2 2, 4 4, 0
A2 4, 6 3, 6 2, 5
A3 3, 3 1, 2 7, 2
B3はB2に支配ÆB3を消去
A3はA2に支配ÆA3を消去
B1はB2に支配ÆB1を消去
ナッシュ均衡は
(A2, B2)
強支配の状態にある戦略を残してゆく
(20)例題3(混合戦略)
Pa/Pb B1
確率
q
B2
確率
(1-q)
A1
確率
p 1, 2 0, 0
A2
確率
(1-p) 0, 0 2, 1
この表のゲームの場合は
Pa
の得る利得の期待値は:
1・pq + 2・(1 - p)(1 - q)
= 3pq - 2p - 2q + 2
= (3q - 2)p + 2(1 - q)
これをpの関数だと考えると:
•q > 2/3 なら:単調増加の直線Æ期待値の最大値は p = 1 のとき 2q
•q < 2/3 なら:単調減少の直線Æ期待値の最大値は p = 0 のとき 2 - 2q
•q = 2/3 なら:期待値は一定で 2/3
Pbの得る利得の期待値の最大値も、pによって同様に決定される。この二
つのグラフの交点がナッシュ均衡となる。このゲームの場合は(2/3, 2/3)
(21)例題4(ジレンマ状態)
(-10,-10)
(-1,-15)
A裏切り
(自白)
(-15,-1)
(-2,-2)
A協調
(黙秘)
B裏切り
(自白)
B協調
(黙秘)
価値観
テーブル
ナッシュ均衡解
パレート最適解群
互いに完全に優越す
る解を持たない解の
群
(22)心理経済学
• 2002年のノーベル経済学賞を米国とイスラエル
の二重国籍を持つダニエル・カーネマン米プリン
ストン大学教授(
68)と、米国人のバーノン・スミ
ス・米ジョージ・メイソン大学教授(
75)に授与され
る。 カーネマン氏は心理経済学の発展に貢献し、
投資家心理を分析。投資家の意思決定は客観的
な確率ではなく、主観で行われるとの結論を導い
た。例えば、
10万円の利益と損失を比べた場合に、
損失の方を多く見積もる傾向がある点や、損失が
発生したときに一かばちかの大勝負に出る傾向
があるとした。バーノン・スミス教授は実験経済学
を確立した。
(23)どっちが得??
2日後なら100万円損
(ただし15%の人は
ゼロ)
80万円損
2日後なら100万円得
(ただし15%の人は
ゼロ)
80万円得
価値観テーブル