論文要旨:n人囚人のジレンマの利得構造を持ちプレイヤーが他者による非協 力の選択の有無を知ることができるゲームにおいては,利得関数が一定の条 件を満たすとき,プレイヤー全員による協力を含む複数のナッシュ均衡が存在 する.本論文の目的は,線形利得関数のもとで,Kandori, Mailath and Rob
(1993)の進化ゲームにおける長期均衡(確率的安定均衡)の概念によって,こ のゲームの均衡選択を行うことである.分析の結果,全てのプレイヤーが同一 の利得関数を持つ場合,全員が非協力を採る状態のみが長期均衡となることが 示される.しかし,プレイヤーが2タイプありそれぞれのタイプが同一の利得 関数をもつ場合には,一定の条件のもとで,一方のタイプのプレイヤーは非協 力を採りもう一方のタイプのプレイヤーは協力を採る状態が長期均衡となる.
1 序
人々が私的利益を追求することにより社会的に好ましくない結果が生じる 状況を社会的ジレンマという.環境汚染,環境破壊,資源の濫費,交通問題,
フリーライダー問題など,現代社会には社会的ジレンマと見なされる問題は 多い.
非協力が観察されるジレンマゲームにおける 確率的安定均衡
西 原 宏
**福岡大学経済学部
−339−
( 1 )
社会的ジレンマの状況は,n人囚人のジレンマという標準形ゲームによって 記述される.その利得関数のもとでは協力と非協力の2つの行動の間で後者が 支配戦略1となっているため,人々は非協力を採り社会的ジレンマが生じると 説明される.(Schelling (1978),Dawes(1980))
社会的ジレンマの解消の糸口を求めて,n人囚人のジレンマに何らかの要素 を追加して協力の実現可能性を探る研究が,これまで多くの研究者によって 行われている.そのような要素で代表的なものは,ゲームの繰り返しである が(Friedman 1971, Fudenberga and Maskin 1986,Axelrod 1987,Neyman 1999),それ以外にも交渉プロセス(Kakai 1981),監視と処罰のしくみ(Okada 1993)などがある.
Nishihara(1997)は,誰かが非協力を採ったか否かが分かるという「非協
力の有無が観察される情報構造」を追加的要素として,社会的ジレンマの解消 の可能性を検討した.その結果,人々の利得が一定の条件を満たすならば全員 または一部のプレイヤーが協力を行うナッシュ均衡が存在することを示した.
ただし,このゲームには全員が非協力を行う均衡も存在する.
この複数均衡における選択の問題を考えるために,Nishihara(2010)は,
Kandoriet al.(1993)の進化ゲームの理論を適用した.そして,プレイヤー は弱支配される戦略を用いないことを仮定してプレイヤーの選択可能な戦略 を限定するとき,一定の条件のもとで全員による協力が唯一の長期均衡(確率 的安定均衡)となることを明らかにした.本論文の目的は,プレイヤーの戦略 の選択範囲を限定することなく,Kandoriet al.(1993)の進化ゲームの理論 を適用し,均衡選択の問題を再検討することである.
1戦略の支配についての正式な定義は第3節で与える
−340−
( 2 )
分析の結果,まず,全てのプレイヤーが同一の利得関数を持つ場合,プレイ ヤー全員が非協力を行う状態のみが長期均衡となることが示される.これは 協力実現に関しては悲観的な結果である.しかし,プレイヤーが2タイプあ り,各タイプのプレイヤーが同一の利得関数をもつ場合には,一定の条件のも とで,一方のタイプのプレイヤーは非協力を採り,もう一方のタイプのプレイ ヤーは協力を採る状態が長期均衡になることが示される.
次節では,基本モデルを定式化する.第3節では,戦略および均衡概念の 定義を与え,Nishihara(1997, 2007)で得られた結果を述べる.第4節では,
進化ゲームの定式化を行う.第5節ではプレイヤーが1タイプの場合の分析を 行い,第6節では2タイプの場合の分析を行う.第7節を結句とする.
2 基本モデル
次の(i)から(iv)の構造をもつn人展開形ゲームを非協力の有無が観察 可能なジレンマゲームと呼びΓ(R)で表す.
(i)最初のノードは「自然」の手番で,1,2, ..., nの順列の全体から等確率 で1つが選び出される.順列の全体をΠで表す.Πの要素を一般にπで表し 順序と呼ぶ.順序πが与えられたとき,π(i)によってプレイヤーiの順番を 表す2.
(ii) 各プレイヤーは,「自然」の選んだ順序に従って手番を持ち,C(協力)
またはD(非協力)を選択する.
(iii)プレイヤー1, ..., nは,情報分割R ={R1, ...,Rn}を持つ.ただし,
2例えば,π= (2, n, ...,3)のとき,π(2) = 1,π(n) = 2,π(3) =nである.
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −341−
( 3 )
Ri={R0i, R1i}で,R0iは,プレイヤーiの手番の前に誰もDを採らなかった ときに到達するプレイヤーiの意思決定ノードの集合であり,R1i はそれ以外 の彼の意思決定ノードの集合である.
(iv) すべてのプレイヤーがCまたはDの選択を行った後,各プレイヤー iは,自分の選択aと他のプレイヤーの中でCを採った人数kによって,利得 fi(a, k)を獲得する.fi(a, k)の値は,そのときのプレイヤーiのフォンノイマ ン・モルゲンシュテルン効用関数の値を表す.本論文では,次のような利得関 数を考える(このクラスの利得関数を平行型線形利得関数と呼ぶ):
fi(C, k) =αk,fi(D, k) =αk+β (ただし,α, β >0,α(n−1)> β)
このゲームは以下のように解釈される.「自然」による順序の決定は,人々 の行動の選択の順序がアトランダムに決まることを表す.各プレイヤーは,自 分の手番の前に誰かが非協力を採ったか否かが分かる.全てのプレイヤーが選 択を行った後,各プレイヤーは,自分および他者の選択の結果として利得を獲 得する.
上の利得関数では,どのプレイヤーにおいても他のプレイヤーの選択にかか わらずCよりもDによってより高い利得が得られる.また,全員がDを採る 状況よりも全員がCを採る状況の方が,誰にとっても望ましい.よって,も し展開形の構造がなく標準形ゲームで各プレイヤーが上記の利得関数をもつな らば,どのプレイヤーにとってもDが支配戦略となるが,それよりも全員が Cを採る状況の方が全員にとって望ましい.こうして,「社会的ジレンマ」状 況が生ずると考えられている.これは,利得関数に仮定を置くことでより一般 的な関数においても成り立つが,以下の分析のためにここでは上述の線形利得
−342−
( 4 )
関数を考える.
3 戦略,均衡,これまでの結果
Γ(R)を分析するための基本的な概念と記号を以下のように定義する.プレ イヤーiの戦略をab(a, b∈ {C, D})で表す.ここで,aはR0iで採る行動,b はR1iで採る行動を表す.Siで,プレイヤーiの戦略の集合を表す.プレイヤー 1からnの戦略を並べたものを戦略プロファイルと呼ぶ.S=
i∈NSiは,戦 略プロファイルの集合である.S−i=
j=iSjと定義する
戦略プロファイルsにおけるプレイヤーiの期待利得をui(s)によって表す.
プレイヤーiの戦略siとtiにおいて,
ui(si, s−i)> ui(ti, s−i) ∀s−i∈S−i
が成り立つとき,siはtiを強支配すると言う.また,
ui(si, s−i)≥ui(ti, s−i) ∀s−i∈S−i かつ ui(si, s−i)> ui(ti, s−i) ∃s−i∈S−i
が成り立つとき,siはtiを弱支配すると言う.
戦略プロファイルsが,すべてのi∈Nとsi∈Siについてui(s)≥ui(si, s−i) を満たすとき,sはナッシュ均衡であると定義する.ただし,s−iはsに含ま れる戦略の中で,プレイヤーi以外のプレイヤーの戦略の組を表し,(si, s−i) はsiとs−iの組み合わせからなる戦略プロファイルを表す.
Γ(R)の均衡について次のことが分かっている.
命題 3.1. (Nishihara 1997)CDはCCを弱支配し,DDはDCを弱支配 する.
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −343−
( 5 )
命題3.2. (Nishihara 1997)(CD, ..., CD)は,次の条件(c1)が成り立つとき ナッシュ均衡である.
条件(c1):すべてのプレイヤーiについて
fi(C, n−1)≥ 1 n
n−1
k=0
fi(D, k).
命題 3.3. (Nishihara 1997)(DD, ..., DD)は,ナッシュ均衡である.
命題3.4.(Nishihara 2007)全てのプレイヤーが同一の平行型線形利得関数を 持つときは,CDとCCの組み合わせである戦略プロファイルと(DD, ..., DD) 以外にナッシュ均衡は存在しない.
これらの結果は,Γ(R)には協力均衡が存在しても全員が非協力を採る均衡 も同時に存在するので,複数均衡からの選択の問題が存在することを示してい
る.Nishihara(2010)は,この問題に対して,各プレイヤーが弱支配されな
い2つの戦略CDとDDから選択を行うとした場合に限定して,次節のKMR 進化ゲームを用いて分析した.本論文では,この限定を外して均衡選択問題を 再検討する.
4 KMR 進化ゲーム
Kandori, Mailath and Rob (1993)の進化ゲームをΓ(R)に適用すると以下 のように定式化される.
期t= 1,2, ...を考える.各期において,m人(mはnの倍数)のプレイヤー がランダムにマッチングしてn人ずつのグループを作りΓ(R)をプレイする.
−344−
( 6 )
各期の期首において各プレイヤーは,CC,CD,DC,DDの4つの戦略の中 の1つを選択する.戦略abを採るプレイヤーをabプレイヤーと呼ぶ.各期に おける社会の状態を以下では,z= (z1, z2, z3, z4)によって表す.ただし,z1, z2,z3,z4は,それぞれCC,CD,DC,DDをとるプレイヤーの数を表す.第 t期の状態をz(t)で表わす.状態の空間を
Z={(z1, z2, z3, z4) :z1+...+z4=m, zi∈ {0,1, ..., m}(i= 1, ...,4)}
で表す.
次のような状況を考える.プレイヤーはマッチングによってn人のグルー プを作り,そのグループのメンバーでΓ(R)を何度もプレイする.そして,そ の間に得られる平均利得から他のプレイヤーがどのような戦略を採っている かを推し測る.さらに,そのようなマッチングとプレイを繰り返すことによっ て,全体の母集団の中の戦略の分布を知ることができる.戦略siを採っている プレイヤーが戦略をsiに変更したときの期待利得は,次のように表わされる.
vsi(si, z) =
x1+x2+x3+x4=n−1
p(x1, x2, x3, x4:z, si)U(si:x1, x2, x3, x4).
ここで,p(x1, x2, x3, x4:z, si)は次のような確率関数である.
p(x1, x2, x3, x4:z, si)
=
z1−eCC(si) x1
z2−eCD(si) x2
z3−eDC(si) x3
z4−eDD(si) x4
n−1
m−1
,
ただし,
et1(t2) =
⎧⎪
⎨
⎪⎩
1 t1=t2のとき, 0 t1=t2のとき,
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −345−
( 7 )
とする.p(x1, x2, x3, x4:z, si)は,状態zにおいてsiを採るプレイヤーi以外 のm−1人のプレイヤーからn−1人がランダムにとりだされるときに,CC, CD,DC,DDを採るプレイヤーの数がそれぞれx1,x2,x3,x4である確率を 表す.U(si:x1, x2, x3, x4)は,戦略siを採るプレイヤーiがx1, x2, x3, x4人 のCD, CC, DC, DDプレイヤーとΓ(R)をプレイするときの彼の期待利得を 表わす.
上記の期待利得を用いて所与の状態に対する最適反応を考える.ここで,
上述の解釈によって,各プレイヤーは状態を把握すると考えられるが,z = (z1, z2,0,0)と表される状態については注意が必要である.この状態において は,全てのプレイヤーが情報集合Ri0でCを採るので,CCプレイヤーとCD プレイヤーの区別がつかない.そこで,このような場合については,最適反 応は現在自分が採っている戦略であるとする.それ以外の状態については,戦 略を変更したときに期待利得が最大となる戦略を最適反応とする.そこで,
z3+z4≥1のとき,si=CC, CD, DC, DDについて, Bsi(z) = arg max
si∈{CC,CD,DC,DD}vsi(si, z) (1) z3=z4= 0のとき,si=CC,CDについて
Bsi(z) ={si} (2)
として,siを採るプレイヤーの状態z= (z1, z2, z3, z4)に対する最適反応の集 合Bsi(z)を定義する.
Kandoriet al(1993)では,最適反応の定義について2つの定式化が提案 されている.1つは,所与の状態において,各プレイヤーは自分の平均利得と 他者の平均利得を比較し,それらの平均利得の中で最大となる戦略をその状
−346−
( 8 )
態に対する最適反応とするいうものである.これは,プレイヤーの直面する状 態に対する状況把握能力を非常に低く想定したものである.Nishihara(2010) はそのモデルを採用した.もう1つは,同論文脚注20において提案されてい るもので,他者の採る戦略の分布を知ることができ,それに基づいて最適な戦 略を導き出すというものである.このモデルにおいては,プレイヤーの状況把 握能力は不完全であるが,各プレイヤーは,一定の確率(下で述べるη(si, z)) で他者の採る戦略の分布を知り,それに対する最適反応を計算して自分が採っ ている戦略が最適反応でなければ最適反応に変更すると想定する.本論文で は,この後者の定式化を採用している.
戦略si∈Siに対してη(si, z)を適応確率と呼ぶ.これは,siを採るプレイ ヤーがsi∈/Bsi(z)のときにBsi(z)に含まれる戦略に変更を行う確率である. どの戦略にどのような確率で変更するかはBsi(z)をサポートとする所与の確 率分布γ(si, z)に従うとする.以下の展開は,η(si, z)やγ(si, z)の確率分布に 依存しないので,これらの関数形については詳述しない.ただし,η(si, z)と γ(si, z)はすべてのプレイヤーに共通であると仮定する.
各期t= 1,2, ...において各プレイヤーは確率ε >0でこのマッチングの母 集団から離れ新たなプレイヤーに置き換えられる.これをミューテーションと 呼ぶ.新しいプレイヤーは,一定の確率分布で戦略CC, CD, DC, DDのいず れかを採るとする.ただし,全ての戦略siが何らかの正の確率で採られると する.これは,新しくゲームに参加するプレイヤーはゲームについては全く無 知で,戦略の比較は行わずアトランダムに戦略を採ると想定している.
以上の設定のもとで,状態の時間的推移は有限状態空間Z上のマルコフチェー ンとなる.推移確率をPr(z(t+ 1) =z|z(t) =z) =pzz(ε)と表す.pzz(ε)を
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −347−
( 9 )
要素とする推移確率行列をP(ε)で表す.
定義 4.1. Z上の確率分布μ(ε)がμ(ε)P(ε) =μ(ε)を満たすとき,μ(ε)を定 常分布と呼ぶε >03.
定義 4.2. lim
ε→0μ(ε) =μ∗を極限分布と呼ぶ.極限分布のサポートに入る状態 を長期状態と呼ぶ4.
定義 4.3. .状態の集合A⊆Zが以下の2つの条件(i), (ii)を満たすときA を極限集合と呼ぶ.極限集合のクラスをΩで表す.
(i)P(0)において,Pr(z(t+ 1)∈A|z(t)∈A) = 1
(ii)P(0)において,任意のz, z∈Aについてあるk >0が存在してPr(z(t+ k) =z|z(t) =z)>0.
P(0)においてPr(z(t+k) =z|z(t) =z)>0が成り立つとき,zからzへ k期で推移可能であるという.あるk >0が存在して,zからzへk期で推 移可能であるとき,単にzからzへ推移可能であるという.上の条件(ii)は,
極限集合においては,それに含まれる任意の状態の間で互いに推移可能でなけ ればならないことを言っている.
注意 . 極限分布μ∗は,次の形に一意に表される.
μ∗=
A∈Ω∗rAμA.
ただし,Ω∗⊆Ω,μAは極限集合の上の定常分布,rA∈(0,1]は極限集合Aの 尤度を表す.
3ε >0のとき,定常分布は一意に定まる.
4極限分布は存在し,μ∗P(0) =μ∗が成り立つ.
−348−
( 10 )
定義 4.4. Ω∗の要素を長期均衡と呼ぶ.
つまり長期均衡は,長期状態の集合である.それは,1つの状態からなる集 合である場合といくつかの状態からなる集合である場合がある.後者の場合 は,1つのリミットサイクルを形成する.定義からわかるように長期均衡は,
複数存在しうる.
Kandori and Rob(1995)は,長期均衡を求めるためのアルゴリズムを示し た.その記述のための定義を以下に与える.
2つの状態z, zの間の距離をd(z, z) = (1/2)4
i=1|zi−zi|と定義する.こ れは,zからzへ状態が推移するために必要とされる戦略を変更するプレイ ヤーの数である.推移コストを次のように定義する.
c(z, z) = min
z∈b(z)d(z, z)
と定義する.ただし,b(z) ={z:pzz(0)>0}とする.b(z)は,状態zから 1期で推移可能な状態の集合である.したがって,c(z, z)はzからzへ推移 するために必要な戦略を変更するプレイヤーの数を推移コストとして表わす が,その際,最適反応戦略への変更はコストとして数えないというものであ る.2つの極限集合AとAの間の推移コストを次のように定義する.
C(A, A) = min
z∈A,z∈A min
g∈G(z,z)N(g).
ただし,G(z, z)は,状態の列(z1, z2, ..., zT)でz1 ∈ A,zT ∈ A,zt(t= 2, ..., T −1)は他の極限集合A(= A, A)に含まれないものの全体であり,
g∈G(z, z)に対してN(g) =T−1
t=1 c(zt, zt+1)とする.
次の命題が成り立つ.
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −349−
( 11 )
命題 4.1. (Kandori and Rob 1995)長期均衡の集合は,
minA∈Ω min
h∈HA
(A,A)∈h
C(A, A) (3)
の解によって与えられる.ただし,HAはA−ツリーと呼ばれ,すべての極限 集合をノードとし,方向つきの枝からなる樹形図で,A以外のノードには後ろ のノードが存在するものである.
この命題の示すところによれば,長期均衡を見つけるためには,まず,(1)
極限集合のクラスを明らかにし,次に,(2)極限集合をノードとする樹形図h について
(A,A)∈hc(A, A)を求めれば良い.それらの中で最小の値となる もののルートノードから長期均衡を得られる.
5 分析
本節では,前節で定義された進化ゲームの長期均衡を求める.まず,状態の 間の推移可能性についての分析を行い,それによって,極限集合のクラスを明 らかにする.その後,命題4.1のアルゴリズムを用いて長期均衡を導出する.
極限集合を導出するためには,各状態に対するプレイヤーの最適反応を求 め,それから状態間の推移可能性を明らかにする必要がある.始めに,まず,
(0, k,0, m−k)(0≤k ≤m−1)として表わされる状態に対する最適反応を 求め,この形で表される状態の間の推移可能性を明らかにする.
状態z= (0, k,0, m−k)において,DDプレイヤーの最適反応を考えよう.
まず,z= (0, m−1,0,1)のとき,DDプレイヤーは,常にn−1人のCDプ レイヤーとマッチングする.いま,条件(c1)が前密な不等式で成り立つと仮
−350−
( 12 )
定しているので,彼の最適な選択はCDとCCである.よって,この2つが 最適反応となる.次にm−k≥2の場合について考える.この場合,DDプ レイヤーが戦略をCDに変更するときと,そのままDDを採りつづけるとき の期待利得は以下のように表される.
vDD(CD, z) =
min{k,n−1}
x=0
h(x:k)U(CD: 0, x,0, n−x−1).
vDD(DD, z) =
min{k,n−1}
x=0
h(x:k)U(DD: 0, x,0, n−x−1).
ただし,h(x:k)は次のような超幾何分布の確率関数である5:
h(x:k) = k
x
m−k−1 n−x−1 n−1
m−1
.
ここで,
w(k) =vDD(CD: 0, k,0, m−k)−vDD(DD: 0, k,0, m−k) と定義する.詳しくは,これは次のような関数である.
w(k) =
min{k,n−1}
x=0
h(x:k){U(CD: 0, x,0, n−x−1)−U(DD: 0, x,0, n−x−1)}.
DDプレイヤーがいるとき,CCとDCはそれぞれCDとDDよりも小さな 期待利得となるので,z= (0, k,0, m−k)に対する最適反応はCDかDDであ る.そこでw(k)を使ってDDプレイヤーのz= (0, k,0, m−k)(m−k≥2)
5このように2つの戦略の候補に対して,同じ確率分布で期待値をとって期待利得を比較で きるのが,この定式化の利点である.
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −351−
( 13 )
に対する最適反応は,次のように表わされる:
BDD(0, k,0, m−k) =
⎧⎪
⎪⎪
⎪⎨
⎪⎪
⎪⎪
⎩
{CD} w(k)>0のとき,
{CD, DD} w(k) = 0のとき,
{DD} w(k)<0のとき.
一方,状態z= (0, k,0, m−k)(m−k≥1)におけるCDプレイヤーの最 適反応は,
vCD(CD, z) =
min{k−1,n−1}
x=0
h(x:k−1)U(CD: 0, x,0, n−x−1),
vCD(DD, z) =
min{k−1,n−1}
x=0
h(x:k−1)U(DD: 0, x,0, n−x−1) と表わされるので,
vCD(CD,(0, k,0, m−k))−vCD(DD,(0, k,0, m−k)) =w(k−1) であり,
BCD(0, k,0, m−k) =
⎧⎪
⎪⎪
⎪⎨
⎪⎪
⎪⎪
⎩
{CD} w(k−1)>0のとき,
{CD, DD} w(k−1) = 0のとき,
{DD} w(k−1)<0のとき となる.ここで,関数w(k)について次の補題が成り立つ.
補題 5.1. (Nishihara 2007)w(k)はkの厳密な増加関数である.
この補題から,次の2つの命題が得られる.
命題5.1. 状態z= (0, m−1,0,1)からの推移可能性について以下が成り立つ.
(i)w(m−2)≥0であれば,zからは(1, m−1,0,0)と(0, m,0,0)の状態への
−352−
( 14 )
み1期で推移可能である.
(ii)w(m−2)<0であれば,zからは(0,0,0, m),(1,0,0, m−1),(0,1,0, m−1) の各状態へのみ1期で推移可能である.
証明 . 上述の最適反応から明らか.
命題 5.2. 状態z= (0, k,0, m−k)(m−k≥2)からの推移可能性について 以下が成り立つ.
(i)w(k)>0かつw(k−1)≥0であれば,zからは(0, k,0, m−k)(k≥k) の各状態へのみ1期で推移可能である.
(ii)w(k)>0かつw(k−1)<0であれば,zからはすべての(0, k,0, m−k)
(0≤k≤m)の各状態へのみ1期で推移可能である.
(iii)w(k)≤0であれば,zからは(0, k,0, m−k)(k≤k)の各状態へのみ 1期で推移可能である.
証明 . w(k)の増加性と上述の最適反応から明らか.
以上の結果に基づいて,極限集合について考える.まず,以下の2つの補題 が得られる.
補題 5.2. z3>0である状態z= (z1, z2, z3, z4)は,いかなる極限集合にも含 まれない.
証明 . zが極限集合Aに入るとして矛盾を導く.2つの場合に分ける.まず,
z3+z4≥2であるとする.このとき,CCプレイヤーは,DCプレイヤーや DDプレイヤーにマッチングする可能性があるので,彼によってCCは最適
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −353−
( 15 )
反応でない.また,DCプレイヤーについても同様にDCは最適反応でない.
よって,zから,(0, k,0, m−k)と表せる状態zへ1期で推移可能である.極 限集合の定義の条件(ii)よりz ∈Aでなければならない.命題5.1と5.2よ り,zからは,(0, m,0,0)または(0,0,0, m)へ推移可能である.しかし,どち らの状態もそれ自身へしか推移せず,z3+z4≥2なる状態へは推移可能でな い.したがって,Aは,極限集合の定義を満たさない.次に,z3= 1,z4= 0 であるとする.このとき,CCプレイヤーは,DCプレイヤーやDDプレイ ヤーにマッチングする可能性があるので,彼にとってCCは最適反応でない.
よって,zから,(0, m−1,1,0)と表せる状態zへ1期で推移可能である.こ こで,条件(C1)が厳密な不等式で成り立つので,n−1人のCDとマッチン グするDCプレイヤーの最適な戦略はCCまたはCDである.よって,zか らは,1期で(0, m,0,0)へ推移可能であり,この状態もAに属さなければな らない.しかし,この状態からは,それ自身へしか推移可能でなく,zへ推移 可能でない.よって,Aは,極限集合の定義を満たさない.以上により,zが 極限集合Aに入るとすると矛盾が生じる.
補題 5.3. z1>0かつz4>0である状態z= (z1, z2, z3, z4)は,いかなる極限 集合にも含まれない.
証明 . 上の補題5.2よりz3= 0としてよい.zが極限集合Aに入るとして矛 盾を導く.z4>0よりCCプレイヤーはDDプレイヤーにマッチングする可 能性があるので,DDまたはCDが唯一の最適反応である.よって,zからは,
(0, k,0, m−k)と表せる状態へ1期で推移可能であり,この状態もAに入らな ければならない.命題5.1と5.2より,(0, k,0, m−k)からは,(0, m,0,0)ま
−354−
( 16 )
たは(0, m,0,0)へ1期で推移可能である.しかし,どちらの状態もそれ自身 へしか推移可能でない.したがって,Aは極限集合の定義を満たさない.
以上の2つの補題から,極限集合に入る可能性のある状態は,(k, m−k,0,0),
(0, k,0, m−k)と表せるものに限られることが分かった.以上の準備のもとで,
極限集合について次の命題が得られる.
命題 5.3. {(k, m−k,0,0)}(k= 0,1, ..., m)および{(0,0,0, m)}は極限集合 であり,極限集合はこれら以外に存在しない.
証明 . 各{(k, m−k,0,0)}(k= 0,1, ..., m)および{(0,0,0, m)}が極限集合 であることは,これらの状態がそれ自身へのみ推移可能であることから明ら か.他に極限集合が存在しないことを示す.上記以外の任意の状態zについ て,補題5.2と5.3から,zから(0,0,0, m)へ推移可能であるが,逆向きには 推移可能でない.よって,極限集合の条件(ii)が満たされず,zを含む極限集 合は存在しない.
命題4.1により,次の定理を得る.
定理 5.1. {(0,0,0, m)}が唯一の長期均衡である.
証明. 状態(m−1,0,0,1)からの推移可能性について考える.この状態に対し て,CCプレイヤーはDDが唯一の最適反応となる.なぜなら,この状態に おいてDDプレイヤーにマッチングする可能性があるのでCDまたはDDが 最適反応であるが,いずれの戦略を採ろうとも,CCプレイヤーはCをDD プレイヤーはDを採るので,DDが最適な戦略となるからである.したがっ て,(m−1,0,0,1)からは1期で(0,0,0, m)へ推移可能である.よって,hを
(0,0,0, m)←(m,0,0,0)←...←(0, m,0,0)
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −355−
( 17 )
すると,
(A,A)∈hC(A, A) =m+ 1である.これは,極限集合の数がm+ 2 であるので,(3)で比較するすべてのA−ツリーの中で最少の値である.よっ て,A= (0,0,0, m)が最小化問題(3)の唯一の解であり,定理の主張が成り立 つ.
以上の分析結果は,協力均衡の均衡選択については否定的な結論である.こ の結果によれば,KMR進化ゲームで想定するような近視眼的な戦略の選択と 確率的ショック(プレイヤーの入れ替え)のある状況では,全員が常に非協力 を採る状況のみが生じることになる.
協力均衡が選択されないのは次のような理由からである.全てのプレイヤー がCDを採る状況が生じたとする.この状況ではどのプレイヤーも自分から Dを採らない.新しく入って来たプレイヤーがCCを採っても彼は戦略を変 えようとしない.そこで,プレイヤーの入れ替えによって,次第にCCを採 るプレイヤーが増えていく.ところがCCが十分に多くなると,ミューテー ションによってDCまたはDDプレイヤーが1人でも入って来たとき全員に とってDDが最適になる.一方,全員がDDを採る状況では,新しく入って 来たプレイヤーがCCやCDを採ってもそれは最適な戦略ではないからDD に変更してしまう.その結果,DD以外の戦略を採るプレイヤーは増えること はない.
ただし,以上の結論は,すべてのプレイヤーが同一の利得関数を持つと仮定 して導かれた.これは多くの人々の集まる社会においては限定的な仮定であ る.次節では,同一利得関数の仮定を緩め,長期均衡について再検討を行う.
−356−
( 18 )
6 2タイプモデル
前節の分析では,全てのプレイヤーが同一の利得関数を持つと仮定したが,
これは,成員の選好の均一性が高い社会を想定している.本節では,異質な選 好を持つプレイヤーが混在する社会を想定してモデルを再構成し,長期均衡に ついて再検討を行う.
2種類の利得関数faとfbを考える.どちらも平行型線形利得関数である とする.前者の利得関数を持つプレイヤーをタイプaと呼び,後者の利得関数 を持つプレイヤーをタイプbと呼ぶ.いま,タイプaのプレイヤーma人とタ イプLのプレイヤーmb人からなる社会を考える.これらのタイプの違いは効 用関数の違いを表す.このma+mb人のプレイヤーを母集団として,KMR 進化ゲームを考える.ただし,それぞれのタイプのプレイヤーの人数は,プレ イヤーの入れ換えがあっても変わらないとする6.
社会の状態をz= (z1a, z2a, z3a, z4a;z1b, zb2, zb3, zb4)で表す.ただし,θ =a, bに ついて,z1θ+z2θ+z3θ+zθ4 = mθとする.z1θ, zθ2, z3θ, z4θは,それぞれタイプ θ= a, bのプレイヤーの中で戦略CC,CD,DC,DDを採るプレイヤーの 人数を表す.状態の空間をZabで表す.以下の分析において,社会全体の中 である戦略を採るプレイヤーの総数が重要な役割を果たすので,状態zが与 えられたとき,各k = 1,2,3,4についてzk =zak+zkbと表わす.θ=a, bと si=CC, CD, DC, DDについて, タイプθのプレイヤーiが状態zにおいて
6これは,プレイヤーの入れ替えが,死亡と出産によるものであり,利得関数は血液型のよ うなものであるという想定による.血液型の比率が数世代にわたってほぼ一定に保たれている ことはよく知られれるところである.
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −357−
( 19 )
戦略をsiからsiへ変更するときの期待利得を前節の定義に添え字θを付けて
vθsi(si, z) =
x1+x2+x3+x4=n−1
p(x1, x2, x3, x4:z, si)Uθ(si:x1, x2, x3, x4)
と表わす7.ここで,p(x1, x2, x3, x4:z, si)は,4節で与えた確率関数である.
z= (z1, z2, z3, z4)でzk=zka+zkb(k=1,2,3,4)であることに注意せよ.前節 と同様に,z3=z4= 0のとき,θ=a, bとsi=CC, CDについて
Bsθi(z) ={si}
とし,z3+z4≥1のとき,θ=a, bとsi=CC, CD, DC, DDについて Bsθi(z) = arg max
si∈{CC,CD,DC,DD}vsθi(si, z) (4) として,siを採るタイプθのプレイヤーの状態zに対する最適反応の集合を定 義する.
以上の定義以外については前節までの定義に従い,KMR進化ゲームの諸概 念を定義する.こうして定義されるモデルを2タイプモデルと呼ぶ.これに対 して,前節で分析したモデルを1タイプモデルと呼ぶ.
2タイプモデルにおいて,状態の推移確率は状態に対する最適反応によって 特徴づけられる.最適反応を決定する期待利得の定義において,各プレイヤー が自分以外のプレイヤーの戦略の分布によって期待値をとっていることに注意 せよ.これは,上述したように戦略を一時的に固定して何度もマッチングする 間に他のプレイヤーの戦略の分布が分かり,それによって期待利得の高いもの を選ぶと解釈される.このように最適反応を決定するとき,他者の利得関数が
7これと同様に前節で用いた記号に当該のプレイヤーのタイプを添え字につけて本節では用 いる.
−358−
( 20 )
自分のものと同じであるか否かは戦略の決定に無関係である.こうして,前節 で行った1タイプモデルの分析のかなりの部分をここで利用することができ る.また,2タイプモデルでも有限状態のマルコフチェーンであることも変わ りないので,命題4.1で与えられた長期均衡を求めるアルゴリズムがここでも 使用できる.
2タイプモデルを分析し長期均衡を求めよう.まず,各状態に対するプレイ ヤーの最適反応を明らかにする.前節の1タイプモデルと同様に,z3+z4= 0 のときはCCプレイヤーとCDプレイヤーの割合が分からないので,戦略 を変更したときの期待利得が予想できないため,いま採っている戦略を最適 と考えるとする.それ以外の場合は,プレイによって推測できる戦略の分布 (z1, z2, z3, z4)によって期待利得を求め,最適反応を選ぶとする.そこで,状 態z = (ka, ma−ka,0,0;kb, mb−kb,0,0)に対する各タイプのCC プレイ ヤー,CDプレイヤーの最適反応は次のように表わされる.z3+z4≥1のと き,θ=a, b,si=CC, CD, DC, DDについて,
Bθsi(z) = arg max
si∈{CC,CD,DC,DD}vθsi(si, z) (5) z3=z4= 0のとき,θ=a, b,si=CC,CDについて
Bθsi(z) ={si} (6)
と定義する.
前節で定義した関数w(k)を利得関数fθについて定義したものをwθ(k)と 表わす.状態z= (0, la,0, ma−la; 0, lb,0, mb−lb)に対するタイプθのDDプ レイヤーの最適反応はこの関数を使って次のように表わされる:
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −359−
( 21 )
BDD(0, la,0, ma−la; 0, lb,0, mb−lb)
=
⎧⎪
⎪⎪
⎪⎨
⎪⎪
⎪⎪
⎩
{CD} wθ(la+lb)>0のとき,
{CD, DD} wθ(la+lb) = 0のとき,
{DD} wθ(la+lb)<0のとき.
さらに,状態z= (0, la,0, ma−la; 0, lb,0, mb−lb)に対するタイプθのCDプ レイヤーの対する最適反応は次のように表わされる:
BCD(0, la,0, ma−la; 0, lb,0, mb−lb)
=
⎧⎪
⎪⎪
⎪⎨
⎪⎪
⎪⎪
⎩
{CD} wθ(la+lb−1)>0のとき,
{CD, DD} wθ(la+lb−1) = 0のとき,
{DD} wθ(la+lb−1)<0のとき
と表される.ここで,前節と同様に関数wθ(k)について次の補題が成り立つ.
補題 6.1. wθ(k)はkの厳密な増加関数である.
命題5.1と5.2と同様にして,次の2つの命題が得られる.
命題 6.1. 状態z= (0, ma−1,0,1; 0, mb,0,0)からの推移について以下が成り 立つ.
(i)wa(m−2),wb(m−2)≥0であれば,(1, ma−1,0,0; 0, mb,0,0)と(0, ma,0,0;
0, mb,0,0)へのみ1期で推移可能である.
(ii)wa(m−2)≥0,wb(m−2)<0であれば,(1, ma−1,0,0; 0, lb,0, mb−lb), (0, ma,0,0; 0, lb,0, mb−lb)(0≤lb≤mb)なる各状態へ1期で推移可能であ る.
(iii)wa(m−2)<0,wb(m−2)≥0であれば,(1, ka,0, ma−ka−1; 0, mb,0,0),
−360−
( 22 )
(0, la,0, ma−la; 0, mb,0,0)(0≤ka≤ma−1,0≤la≤ma)なる各状態へ 1期で推移可能である.
(iv)wa(m−2),wb(m−2)<0であれば,(1, ka,0, ma−ka−1; 0, lb,0, mb−lb), (0, la,0, ma−la; 0, lb,0, mb−lb)(0≤ka≤ma−1,0≤la≤ma,0≤lb≤mb) なる各状態へ1期で推移可能である.
z= (0, ma,0,0; 0, mb−1,0,1)からの推移についても同様.
命題 6.2. 状態z= (0, ka,0, ma−ka; 0, kb,0, mb−kb)からの推移について以 下が成り立つ.
(i)wθ(ka+kb)>0かつwθ(ka+kb−1)≥0であれば,zからはz1θ=zθ3= 0, z2θ≥kθなる状態へ1期で推移可能であり,zθ2< kθなる状態へは1期では推 移可能でない.
(ii)wθ(ka+kb)>0かつwθ(ka+kb−1)<0であれば,zからはz1θ=zθ3= 0, z2θ= 0,1,2, ..., mθなる各状態へ1期で推移可能である.
(iii)wθ(k)≤0であれば,zからはz1θ=zθ3= 0,zθ2≤lθなる状態へのみ1期 で推移可能であり,zθ2> lθなる状態へは1期で推移可能でない.
極限集合について以下の2つの補題が得られる.証明は,上述の補題5.2と 5.3と同様である.
補題 6.2. za3+z3b>0である状態は,いかなる極限集合にも含まれない.
補題 6.3. z1a+z1b>0かつz4a+zb4>0である状態は,いかなる極限集合にも 含まれない.
以上の2つの補題から,極限集合に入る可能性のある状態は,
(la, ma−la,0,0;lb, mb−lb,0,0),(0, la,0, ma−la; 0, lb,0, mb−lb)
非協力が観察されるジレンマゲームにおける
確率的安定均衡 (西原) −361−
( 23 )