ゲーム理論

第 3 章進化ゲーム理論およびネットワーク互恵に関する基礎

3.2 ゲーム理論

3.2.1 緒言

ゲーム理論では複数の意思決定主体が存在する中で，連携的ではなく個人的な目的で合理的に意思を決定する非協力ゲームを考える．本論ではこの個体をエージェント i，エージェントの取る戦略を s_i と呼ぶ．エージェントはゲームにおいてある戦略を取ることで何かしらの結果を得ることになる．この結果を一般に利得と呼ぶ．非協調ゲームにおいての合理的な行動とは，つまりこの利得を最大にするように戦略を取ることに相当する． [2]

現実的には対戦するエージェントの数は多数いることも考えられるが，非協力ゲームの場合対戦相手は一度に 1 人であることが多い．ここでエージェント１（自分）の戦略が s¹1,s¹2,…s¹_m の m 個，エージェント 2（相手）の戦略が s²₁,s²2,…s²_n の n 個の場合，お互いの取る戦略の組み合わせによって決まる利得を，表 3-1 のように m×n 行列に表すことが出来る．表中の前後コンマ区切りで並べた前の値がエージェント 1 の利得，コンマ後ろの値はエージェント2の利得を示している．

表 3-1 利得表

s²1 s²2 … s²n

s¹1 u¹11, u²11 u¹12, u²12 … u¹1n, u²1n

s¹2 u¹21, u²21 u¹22, u²22 … u¹2n, u²2n

… … … … …

s¹m u¹m1, u²m1 u¹m2, u²m2 … u¹mn, u²mn

合理的に自分の戦略を決めようとするとき，相手の戦略によって自分の最適戦略，つま

り利得を最大にする戦略は異なり，当然相手もその状況に置かれている．ここで，相手が

「ある戦略」をとっているときの自分の最適戦略において，相手にとっての最適戦略が「ある戦略」であるとき，これをナッシュ均衡と言う．このナッシュ均衡はどのようなゲームに置いても必ず存在するが，必ずしも 1 つとは限らない．表 3-2 にある 2人3戦略（2×

3）ゲームにおけるナッシュ均衡の例を示した．

表 3-2 利得行列上でのナッシュ均衡探索 s²1 s²2 s²3

s¹1 4,4 3,1 2,3 s¹2 1,3 2,2 4,2 s¹3 3,2 2,4 5,5

太字で示した要素がそれぞれの相手の戦略に対しての最大利得を示している．この例を詳しく見てみる．例えば仮に相手が s²₁ の戦略をとると仮定する．その場合自分は s¹₁ をとることが最適である．このことは相手にも言えるため，s¹₁，s²₁ の組み合わせはナッシュ均衡である．次に相手が s²₂ の戦略をとる場合を考える．この場合自分は s¹₁ をとることが最適であるが，相手からするとこの s¹₁ を取る場合 s²₂ をとることは適当ではない．このように考えると，ナッシュ均衡であるためには同一ブロックで両方とも太字となっている場合であることがわかる．よってこの場合は s¹₃，s²₃ の組み合わせもナッシュ均衡である．表 3-2 を更に詳しく見てみる．両者にとって理想的な帰結は，お互いが 5 の利得を上げることが出来る s¹₃，s²3 の組み合わせである．一般に，全エージェントにとって状態 A の方が状態 B より望ましいとき，A は B よりパレート優位であるとい，B は A よりパレート劣位であるという．更に A が全ての状態において最良の状況であるとき A はパレート最適であるといい，この例ではまさに s¹₃，s²₃ の組み合わせがパレート最適である．

しかしこの例ではこの組み合わせ以外にもナッシュ均衡が存在している．このように，パレート最適以外にもナッシュ均衡を持つ状況を，非協調ゲームではジレンマという．

3.2.2 ２ × ２ゲーム

エージェント１（自分），エージェント 2（相手）とも2つの戦略を持ち（戦略は一般に協調 Cooperate（C）と裏切り Defect（D）で表される），さらに両者条件が同じである場合を 2×2 ゲームという．この 2×2 ゲームは非常に単純でありながらも非常に興味深い性質を有するので，ゲーム理論の議論に頻繁に登場する．本論でもこの 2×2 ゲームを扱う．

無限の母集団から，ランダムに2個体を選んできて，ゲームをさせる．ゲームでは，表 3-3 に示すように協調（Cooperation，以下Cとも略す）か裏切り（Defection，以下Dとも略す）

の離散的2戦略が定義され，自他の手組4通り毎の自他の利得（Payoff）が決められている．

これを利得行列（Payoff Matrix）とよぶ．なお自他で対称な構造を仮定するので，表 3-4のように簡単に表すこともできる．以後本論では表 3-4 のような表現をした場合は対称ゲームを示しているものとする．

表 3-3 2×2ゲームの利得行列

C（協調） D（裏切り）

C（協調） R,R S,T

D（裏切り） T,S P,P

R;Reward, T;Temptation, S;Sucker, P;Punishment

表 3-4 簡易表現した2×2ゲームの利得行列

C（協調） D（裏切り）

C（協調） R S

D（裏切り） T P

この行列要素 P，R，S，Tの大小関係により，ゲームは4 つのクラスに分類される．ジレンマのないTrivialゲームとジレンマゲームである囚人のジレンマ（Prisoner’s Dilemma，

以下PDとも略す），チキン（Chicken，Snow Drift GameあるいはHawk-Dove Gameともいう），鹿狩り（Shag Hunt，以下SHとも略す）である．この4 つのジレンマクラスについて，

Tanimoto & Sagara[3]が提唱したギャンブル性ジレンマ，リスク回避性ジレンマを用いて，委

細に説明する．

ギャンブル性ジレンマ，リスク回避性ジレンマをそれぞれDg，D_rと表し，以下のように定義する．

Dg≡T-R

Dr≡P-S (3-1)

Dg >0ならギャンブル性ジレンマがあり，D_r >0ならリスク回避性ジレンマがある．

図 3-1に各4ゲームクラスの利得行列の例と縦軸，横軸にエージェント1，2の利得をプロットした図を示した．この図を解可能域という．図 3-1において，エージェント 1の戦略，すなわち自分の手がCであれば○，D であれば●を表示しており，エージェント2の戦略，すなわち相手の手がCであればグレーの破線で，Dであれば黒の破線でプロットを囲んである．PD とチキンの解可能域でピンク色にハッチしてある部分は R を中心にしたときの第1，第2，第4象限に相当するエリアである．ここに複数のプロットが存在する場合，平等なエージェント1と2の間で，どのゲーム帰結が最も望ましい

か決めがたいことになる．実際，このエリアにはR以外にTとSがあるが，エージェント1にとっては，無論，Tが望ましいことになり，このことは対称に成り立って相手にとってはSが望ましい．といって両者折り合って，公平なRを採るかといえば，この場であくまで自己利得最大を求める限り採り得ない．このような場合，Rは最適たり得ず，

公平なパレート（Pareto）最適に過ぎないということにする．これに対し，SHとTrivial ではピンクのハッチ領域に（描いていないが）R 以外の解は存在せず，最適解が唯一存在し，それがRになっている．

図 3-1 各ゲームクラスの解可能域とDg，D_rの例

〔出典〕Tanimoto, Jun; Fundamentals of Evolutionary Game Theory and its Applications, Springer Japan, 2015, p18

図 3-1で，以下のことに気が付く．PDを例に取ると，相手の手がCに固定されているのなら，グレー破線の2プロットを比較して，より横軸方向（エージェント1の利得を大きくする向き）に大きくなる手Dを出すことが合理的で，相手の手がDに固定されているのなら，黒破線の2プロットを比較して，より横軸方向に大きいDを出すことが合

1 3 5 7

P S

エージェント1 エージェント2

Dr=2>0

3, 3 7, 1 D

1, 7 5, 5 C

D C

3, 3 7, 1 D

1, 7 5, 5 C

D C

T Dg=2>0

1 5 7

R S

エージェント1 エージェント2

Dg=2>0 Dr= -1<0

0, 0 7, 1 D

1, 7 5, 5 C

D C

0, 0 7, 1 D

1, 7 5, 5 C

D C

チキンチキンチキンチキン

1 3 5 7

P S R

エージェント1 エージェント2

Dg= -2<0 Dr=

-2<0

1, 1 5, 3 D

3, 5 7, 7 C

D C

1, 1 5, 3 D

3, 5 7, 7 C

D C

Trivial

1 3 5 7

R S

エージェント1 エージェント2

Dg= -1<0 Dr=2>0

3, 3 7, 1 D

1, 7 8, 8 C

D C

3, 3 7, 1 D

1, 7 8, 8 C

D C

SH SH SH SH SH

理的，つまり相手の手に依らずD を出すことが合理的だと解読出来る．これは 3.2.1章で説明したナッシュ均衡に他ならない．Trivial ゲームについても同様に，黒とグレー破線の囲みそれぞれをみて，相手の手に依存せずエージェント1の自手としてはCを出すことが合理的であり，ナッシュ均衡が(C,C)の手組である Rであることが理解されよう．

チキンとSHゲームにおけるナッシュ均衡は，3.2.1章に説明した方法で利得行列から求めると，チキンでは(C,D)と(D,C)の手組である SとTが，SHでは(C,C)と(D,D)の手組であるRとPがナッシュ均衡であることがわかる．チキンと SHでは，PDとTrivialのように図 3-1から，解可能域を見てナッシュ均衡を諒解することは出来ないが，相手の手がCかDなのかによって，自手として出すべき戦略が異なってくるとの状況は，上記で説明した黒およびグレーの囲みプロットの大小から理解できる．

3.2.1章で，非協調ゲームにおいてはパレート最適以外にもナッシュ均衡を持つ状況を

ジレンマと呼ぶ，と説明した．上記の説明よりPD，チキン，SHでは，パレート最適とナッシュ均衡が一致していない為，ジレンマがあると言うことができる．（SHは一部合致しているが（(C,C)はナッシュ均衡の一つ），少なくとも一部は一致していないから，

やはりジレンマあると言える）．以下，仔細を説明する．

まずPDについて説明する．PDではT>R>P>Sの大小関係がある．従って，(3-1)式よ

りDg >0かつDr >0だから，ギャンブル性ジレンマもリスク回避性ジレンマもある．前

者は，Dg=T-R が正値を採ることから生じるが，これは図 3-1のPDとチキンの解可能域

から諒解されるように，この条件が満たされるときRを中心にしたときの第1，第2，第 4象限に相当するエリアに TとSが必ず存在し，解可能域の含意からして，このことは

「相手を貪ろうとのインセンティブがある」ことを示唆する．同様に考えると，後者は，

Dr=P-S が正値を採ることから生じるが，この条件が満たされるときには図 3-1の解可能

域はPを中心にしたときの第 2，第 3，第4象限に相当するエリアにTとSが存在し，

解可能域の含意からして，このことは「相手に貪られまいとのインセンティブがある」

ことを示唆する．

次にチキンについて説明する．チキンではT>R>S>Pの大小関係があり，(3-1)式より

Dg >0かつDr <0だから，ギャンブル性ジレンマだけあり，リスク回避性ジレンマはない．

このゲームでは，相手に貪られまいと考える必要はないけれど，相手を貪ってやろうとのインセンティブがある．チキンの特徴はS>Pの大小関係にある．つまり，自分にとって最も都合がよいのは，相手はCを出してくれて自分はDを出して貪ること（T>R）だが，相手がDを出して自分もD出すと最悪の結末になる（Pを取り合うことが最低）．それならば，相手に貪られる方がまだよい（S>P）との構造である．

次にSHについて説明する．SHではR>T>P>Sの大小関係がある．(3-1)式よりDg <0

かつDr >0だから，ギャンブル性ジレンマはなく，リスク回避性ジレンマだけある．こ

のゲームでは，相手を貪ろうとのインセンティブは存在しない（なぜなら最適たるRが存在し，R>Tであるから）けれど，相手に貪られまいと疑心暗鬼になることで生じるジ

ドキュメント内第 1 部序論 (ページ 35-40)

第 3 章 進化ゲーム理論およびネットワーク互恵に関する基礎

3.2 ゲーム理論

3.2.1 緒言

3.2.2 ２ × ２ゲーム

第 3 章進化ゲーム理論およびネットワーク互恵に関する基礎