第 3 章 進化ゲーム理論およびネットワーク互恵に関する基礎
3.2 ゲーム理論
3.2.1 緒言
ゲーム理論では複数の意思決定主体が存在する中で,連携的ではなく個人的な目的で合 理的に意思を決定する非協力ゲームを考える.本論ではこの個体をエージェント i,エージ ェントの取る戦略を si と呼ぶ.エージェントはゲームにおいてある戦略を取ることで何か しらの結果を得ることになる.この結果を一般に利得と呼ぶ.非協調ゲームにおいての合 理的な行動とは,つまりこの利得を最大にするように戦略を取ることに相当する. [2]
現実的には対戦するエージェントの数は多数いることも考えられるが,非協力ゲームの 場合対戦相手は一度に 1 人であることが多い.ここでエージェント1(自分)の戦略が s11,s12,…s1m の m 個,エージェント 2(相手)の戦略が s21,s22,…s2n の n 個の場合,お互 いの取る戦略の組み合わせによって決まる利得を,表 3-1 のように m×n 行列に表すこと が出来る.表中の前後コンマ区切りで並べた前の値がエージェント 1 の利得,コンマ後ろ の値はエージェント2の利得を示している.
表 3-1 利得表
s21 s22 … s2n
s11 u111, u211 u112, u212 … u11n, u21n
s12 u121, u221 u122, u222 … u12n, u22n
… … … … …
s1m u1m1, u2m1 u1m2, u2m2 … u1mn, u2mn
合理的に自分の戦略を決めようとするとき,相手の戦略によって自分の最適戦略,つま
34
り利得を最大にする戦略は異なり,当然相手もその状況に置かれている.ここで,相手が
「ある戦略」をとっているときの自分の最適戦略において,相手にとっての最適戦略が「あ る戦略」であるとき,これをナッシュ均衡と言う.このナッシュ均衡はどのようなゲーム に置いても必ず存在するが,必ずしも 1 つとは限らない.表 3-2 にある 2人3戦略(2×
3)ゲームにおけるナッシュ均衡の例を示した.
表 3-2 利得行列上でのナッシュ均衡探索 s21 s22 s23
s11 4,4 3,1 2,3 s12 1,3 2,2 4,2 s13 3,2 2,4 5,5
太字で示した要素がそれぞれの相手の戦略に対しての最大利得を示している.この例を 詳しく見てみる.例えば仮に相手が s21 の戦略をとると仮定する.その場合自分は s11 を とることが最適である.このことは相手にも言えるため,s11,s21 の組み合わせはナッシュ 均衡である.次に相手が s22 の戦略をとる場合を考える.この場合自分は s11 をとること が最適であるが,相手からするとこの s11 を取る場合 s22 をとることは適当ではない.こ のように考えると,ナッシュ均衡であるためには同一ブロックで両方とも太字となってい る場合であることがわかる.よってこの場合は s13,s23 の組み合わせもナッシュ均衡であ る. 表 3-2 を更に詳しく見てみる.両者にとって理想的な帰結は,お互いが 5 の利得を 上げることが出来る s13,s23 の組み合わせである.一般に,全エージェントにとって状態 A の方が状態 B より望ましいとき,A は B よりパレート優位であるとい,B は A よりパ レート劣位であるという.更に A が全ての状態において最良の状況であるとき A はパレ ート最適であるといい,この例ではまさに s13,s23 の組み合わせがパレート最適である.
しかしこの例ではこの組み合わせ以外にもナッシュ均衡が存在している.このように,パ レート最適以外にもナッシュ均衡を持つ状況を,非協調ゲームではジレンマという.
3.2.2 2 × 2ゲーム
エージェント1(自分),エージェント 2(相手)とも2つの戦略を持ち(戦略は一般に 協調 Cooperate(C)と裏切り Defect(D)で表される),さらに両者条件が同じである場合 を 2×2 ゲームという.この 2×2 ゲームは非常に単純でありながらも非常に興味深い性 質を有するので,ゲーム理論の議論に頻繁に登場する.本論でもこの 2×2 ゲームを扱う.
無限の母集団から,ランダムに2個体を選んできて,ゲームをさせる.ゲームでは,表 3-3 に示すように協調(Cooperation,以下Cとも略す)か裏切り(Defection,以下Dとも略す)
の離散的2戦略が定義され,自他の手組4通り毎の自他の利得(Payoff)が決められている.
35
これを利得行列(Payoff Matrix)とよぶ.なお自他で対称な構造を仮定するので,表 3-4の ように簡単に表すこともできる.以後本論では表 3-4 のような表現をした場合は対称ゲー ムを示しているものとする.
表 3-3 2×2ゲームの利得行列
C(協調) D(裏切り)
C(協調) R,R S,T
D(裏切り) T,S P,P
R;Reward, T;Temptation, S;Sucker, P;Punishment
表 3-4 簡易表現した2×2ゲームの利得行列
C(協調) D(裏切り)
C(協調) R S
D(裏切り) T P
この行列要素 P,R,S,Tの大小関係により,ゲームは4 つのクラスに分類される.ジ レンマのないTrivialゲームとジレンマゲームである囚人のジレンマ(Prisoner’s Dilemma,
以下PDとも略す),チキン(Chicken,Snow Drift GameあるいはHawk-Dove Gameともい う),鹿狩り(Shag Hunt,以下SHとも略す)である.この4 つのジレンマクラスについて,
Tanimoto & Sagara[3]が提唱したギャンブル性ジレンマ,リスク回避性ジレンマを用いて,委
細に説明する.
ギャンブル性ジレンマ,リスク回避性ジレンマをそれぞれDg,Drと表し,以下のように 定義する.
Dg≡T-R
Dr≡P-S (3-1)
Dg >0ならギャンブル性ジレンマがあり,Dr >0ならリスク回避性ジレンマがある.
図 3-1に各4ゲームクラスの利得行列の例と縦軸,横軸にエージェント1,2の利得 をプロットした図を示した.この図を解可能域という.図 3-1において,エージェント 1の戦略,すなわち自分の手がCであれば○,D であれば●を表示しており,エージェ ント2の戦略,すなわち相手の手がCであればグレーの破線で,Dであれば黒の破線で プロットを囲んである.PD とチキンの解可能域でピンク色にハッチしてある部分は R を中心にしたときの第1,第2,第4象限に相当するエリアである.ここに複数のプロッ トが存在する場合,平等なエージェント1と2の間で,どのゲーム帰結が最も望ましい
36
か決めがたいことになる.実際,このエリアにはR以外にTとSがあるが,エージェン ト1にとっては,無論,Tが望ましいことになり,このことは対称に成り立って相手に とってはSが望ましい.といって両者折り合って,公平なRを採るかといえば,この場 であくまで自己利得最大を求める限り採り得ない.このような場合,Rは最適たり得ず,
公平なパレート(Pareto)最適に過ぎないということにする.これに対し,SHとTrivial ではピンクのハッチ領域に(描いていないが)R 以外の解は存在せず,最適解が唯一存 在し,それがRになっている.
図 3-1 各ゲームクラスの解可能域とDg,Drの例
〔出典〕Tanimoto, Jun; Fundamentals of Evolutionary Game Theory and its Applications, Springer Japan, 2015, p18
図 3-1で,以下のことに気が付く.PDを例に取ると,相手の手がCに固定されている のなら,グレー破線の2プロットを比較して,より横軸方向(エージェント1の利得を 大きくする向き)に大きくなる手Dを出すことが合理的で,相手の手がDに固定されて いるのなら,黒破線の2プロットを比較して,より横軸方向に大きいDを出すことが合
1 3 5 7
1 3 5 7
P S
エージェント1 エージェント2
Dr=2>0
3, 3 7, 1 D
1, 7 5, 5 C
D C
3, 3 7, 1 D
1, 7 5, 5 C
D C
PD
R
T Dg=2>0
1 5 7
1 5 7
P
R S
T
エージェント1 エージェント2
Dg=2>0 Dr= -1<0
0, 0 7, 1 D
1, 7 5, 5 C
D C
0, 0 7, 1 D
1, 7 5, 5 C
D C
チキン チキン チキン チキン
1 3 5 7
1 3 5 7
P S R
T
エージェント1 エージェント2
Dg= -2<0 Dr=
-2<0
1, 1 5, 3 D
3, 5 7, 7 C
D C
1, 1 5, 3 D
3, 5 7, 7 C
D C
Trivial
1 3 5 7
1 3 5 7
P
R S
T
エージェント1 エージェント2
Dg= -1<0 Dr=2>0
3, 3 7, 1 D
1, 7 8, 8 C
D C
3, 3 7, 1 D
1, 7 8, 8 C
D C
SH SH SH SH SH
37
理的,つまり相手の手に依らずD を出すことが合理的だと解読出来る.これは 3.2.1章 で説明したナッシュ均衡に他ならない.Trivial ゲームについても同様に,黒とグレー破 線の囲みそれぞれをみて,相手の手に依存せずエージェント1の自手としてはCを出す ことが合理的であり,ナッシュ均衡が(C,C)の手組である Rであることが理解されよう.
チキンとSHゲームにおけるナッシュ均衡は,3.2.1章に説明した方法で利得行列から求 めると,チキンでは(C,D)と(D,C)の手組である SとTが,SHでは(C,C)と(D,D)の手組で あるRとPがナッシュ均衡であることがわかる.チキンと SHでは,PDとTrivialのよ うに図 3-1から,解可能域を見てナッシュ均衡を諒解することは出来ないが,相手の手 がCかDなのかによって,自手として出すべき戦略が異なってくるとの状況は,上記で 説明した黒およびグレーの囲みプロットの大小から理解できる.
3.2.1章で,非協調ゲームにおいてはパレート最適以外にもナッシュ均衡を持つ状況を
ジレンマと呼ぶ,と説明した.上記の説明よりPD,チキン,SHでは,パレート最適と ナッシュ均衡が一致していない為,ジレンマがあると言うことができる.(SHは一部合 致しているが((C,C)はナッシュ均衡の一つ),少なくとも一部は一致していないから,
やはりジレンマあると言える).以下,仔細を説明する.
まずPDについて説明する.PDではT>R>P>Sの大小関係がある.従って,(3-1)式よ
りDg >0かつDr >0だから,ギャンブル性ジレンマもリスク回避性ジレンマもある.前
者は,Dg=T-R が正値を採ることから生じるが,これは図 3-1のPDとチキンの解可能域
から諒解されるように,この条件が満たされるときRを中心にしたときの第1,第2,第 4象限に相当するエリアに TとSが必ず存在し,解可能域の含意からして,このことは
「相手を貪ろうとのインセンティブがある」ことを示唆する.同様に考えると,後者は,
Dr=P-S が正値を採ることから生じるが,この条件が満たされるときには図 3-1の解可能
域はPを中心にしたときの第 2,第 3,第4象限に相当するエリアにTとSが存在し,
解可能域の含意からして,このことは「相手に貪られまいとのインセンティブがある」
ことを示唆する.
次にチキンについて説明する.チキンではT>R>S>Pの大小関係があり,(3-1)式より
Dg >0かつDr <0だから,ギャンブル性ジレンマだけあり,リスク回避性ジレンマはない.
このゲームでは,相手に貪られまいと考える必要はないけれど,相手を貪ってやろうと のインセンティブがある.チキンの特徴はS>Pの大小関係にある.つまり,自分にとっ て最も都合がよいのは,相手はCを出してくれて自分はDを出して貪ること(T>R)だ が,相手がDを出して自分もD出すと最悪の結末になる(Pを取り合うことが最低). それならば,相手に貪られる方がまだよい(S>P)との構造である.
次にSHについて説明する.SHではR>T>P>Sの大小関係がある.(3-1)式よりDg <0
かつDr >0だから,ギャンブル性ジレンマはなく,リスク回避性ジレンマだけある.こ
のゲームでは,相手を貪ろうとのインセンティブは存在しない(なぜなら最適たるRが 存在し,R>Tであるから)けれど,相手に貪られまいと疑心暗鬼になることで生じるジ