3 戦略，均衡，これまでの結果

(1)

論文要旨：n人囚人のジレンマの利得構造を持ちプレイヤーが他者による非協力の選択の有無を知ることができるゲームにおいては，利得関数が一定の条件を満たすとき，プレイヤー全員による協力を含む複数のナッシュ均衡が存在する．本論文の目的は，線形利得関数のもとで，Kandori, Mailath and Rob

（1993）の進化ゲームにおける長期均衡（確率的安定均衡）の概念によって，このゲームの均衡選択を行うことである．分析の結果，全てのプレイヤーが同一の利得関数を持つ場合，全員が非協力を採る状態のみが長期均衡となることが示される．しかし，プレイヤーが２タイプありそれぞれのタイプが同一の利得関数をもつ場合には，一定の条件のもとで，一方のタイプのプレイヤーは非協力を採りもう一方のタイプのプレイヤーは協力を採る状態が長期均衡となる．

1 序

人々が私的利益を追求することにより社会的に好ましくない結果が生じる状況を社会的ジレンマという．環境汚染，環境破壊，資源の濫費，交通問題，

フリーライダー問題など，現代社会には社会的ジレンマと見なされる問題は多い．

非協力が観察されるジレンマゲームにおける確率的安定均衡

西原宏

^＊

＊福岡大学経済学部

−３３９−

（１）

(2)

社会的ジレンマの状況は，n人囚人のジレンマという標準形ゲームによって記述される．その利得関数のもとでは協力と非協力の２つの行動の間で後者が支配戦略¹となっているため，人々は非協力を採り社会的ジレンマが生じると説明される．（Schelling (1978)，Dawes（1980））

社会的ジレンマの解消の糸口を求めて，n人囚人のジレンマに何らかの要素を追加して協力の実現可能性を探る研究が，これまで多くの研究者によって行われている．そのような要素で代表的なものは，ゲームの繰り返しであるが（Friedman 1971, Fudenberga and Maskin 1986，Axelrod 1987，Neyman 1999），それ以外にも交渉プロセス（Kakai 1981），監視と処罰のしくみ（Okada 1993_{）などがある．}

Nishihara_（1997）は，誰かが非協力を採ったか否かが分かるという「非協

力の有無が観察される情報構造」を追加的要素として，社会的ジレンマの解消の可能性を検討した．その結果，人々の利得が一定の条件を満たすならば全員または一部のプレイヤーが協力を行うナッシュ均衡が存在することを示した．

ただし，このゲームには全員が非協力を行う均衡も存在する．

この複数均衡における選択の問題を考えるために，Nishihara（2010）は，

Kandoriet al.（1993）の進化ゲームの理論を適用した．そして，プレイヤーは弱支配される戦略を用いないことを仮定してプレイヤーの選択可能な戦略を限定するとき，一定の条件のもとで全員による協力が唯一の長期均衡（確率的安定均衡）となることを明らかにした．本論文の目的は，プレイヤーの戦略の選択範囲を限定することなく，Kandoriet al.（1993）の進化ゲームの理論を適用し，均衡選択の問題を再検討することである．

1戦略の支配についての正式な定義は第３節で与える

−３４０−

（２）

(3)

分析の結果，まず，全てのプレイヤーが同一の利得関数を持つ場合，プレイヤー全員が非協力を行う状態のみが長期均衡となることが示される．これは協力実現に関しては悲観的な結果である．しかし，プレイヤーが２タイプあり，各タイプのプレイヤーが同一の利得関数をもつ場合には，一定の条件のもとで，一方のタイプのプレイヤーは非協力を採り，もう一方のタイプのプレイヤーは協力を採る状態が長期均衡になることが示される．

次節では，基本モデルを定式化する．第３節では，戦略および均衡概念の定義を与え，Nishihara（1997, 2007）で得られた結果を述べる．第４節では，

進化ゲームの定式化を行う．第５節ではプレイヤーが１タイプの場合の分析を行い，第６節では２タイプの場合の分析を行う．第７節を結句とする．

2 基本モデル

次の（i）から（iv）の構造をもつn人展開形ゲームを非協力の有無が観察可能なジレンマゲームと呼びΓ(R)で表す．

（i）最初のノードは「自然」の手番で，1,2, ..., nの順列の全体から等確率で１つが選び出される．順列の全体をΠ_で表す．Π_{の要素を一般に}π_で表し順序と呼ぶ．順序πが与えられたとき，π（i）によってプレイヤーiの順番を表す²．

（ii_{）各プレイヤーは，}「自然」の選んだ順序に従って手番を持ち，C_（協力）

またはD_{（非協力）を選択する}.

（iii）プレイヤー1, ..., nは，情報分割R ={R1, ...,Rⁿ}を持つ．ただし，

2例えば，π= (2, n, ...,3)のとき，π(2) = 1，π(n) = 2，π(3) =nである．

非協力が観察されるジレンマゲームにおける

確率的安定均衡（西原） −３４１−

（３）

(4)

Ri={R⁰_i, R¹_i}で，R⁰_iは，プレイヤーiの手番の前に誰もDを採らなかったときに到達するプレイヤーiの意思決定ノードの集合であり，R¹_i _{はそれ以外} の彼の意思決定ノードの集合である．

（iv）すべてのプレイヤーがCまたはDの選択を行った後，各プレイヤー iは，自分の選択aと他のプレイヤーの中でCを採った人数kによって，利得 fi(a, k)_{を獲得する．}fi(a, k)の値は，そのときのプレイヤーi_{のフォンノイマ} ン・モルゲンシュテルン効用関数の値を表す．本論文では，次のような利得関数を考える（このクラスの利得関数を平行型線形利得関数と呼ぶ）：

fi(C, k) =αk_，fi(D, k) =αk+β_{（ただし，}α, β >0_，α(n−1)> β_）

このゲームは以下のように解釈される．「自然」による順序の決定は，人々の行動の選択の順序がアトランダムに決まることを表す．各プレイヤーは，自分の手番の前に誰かが非協力を採ったか否かが分かる．全てのプレイヤーが選択を行った後，各プレイヤーは，自分および他者の選択の結果として利得を獲得する．

上の利得関数では，どのプレイヤーにおいても他のプレイヤーの選択にかかわらずCよりもDによってより高い利得が得られる．また，全員がDを採る状況よりも全員がCを採る状況の方が，誰にとっても望ましい．よって，もし展開形の構造がなく標準形ゲームで各プレイヤーが上記の利得関数をもつならば，どのプレイヤーにとってもDが支配戦略となるが，それよりも全員が Cを採る状況の方が全員にとって望ましい．こうして，「社会的ジレンマ」状況が生ずると考えられている．これは，利得関数に仮定を置くことでより一般的な関数においても成り立つが，以下の分析のためにここでは上述の線形利得

−３４２−

（４）

(5)

関数を考える．

3 戦略，均衡，これまでの結果

Γ(R)を分析するための基本的な概念と記号を以下のように定義する．プレイヤーiの戦略をab（a, b∈ {C, D}）で表す．ここで，aはR⁰_iで採る行動，b はR¹_iで採る行動を表す．Siで，プレイヤーiの戦略の集合を表す.プレイヤー 1からnの戦略を並べたものを戦略プロファイルと呼ぶ．S=

i∈NSiは，戦略プロファイルの集合である．S₋i=

j=iSjと定義する

戦略プロファイルs_{におけるプレイヤー}i_{の期待利得を}ui(s)_{によって表す．}

プレイヤーiの戦略siとtiにおいて，

ui(si, s₋i)> ui(ti, s₋i) ∀s₋i∈S₋i

が成り立つとき，siはtiを強支配すると言う．また，

ui(si, s₋i)≥ui(ti, s₋i) ∀s₋i∈S₋i かつ ui(si, s₋i)> ui(ti, s₋i)∃s₋i∈S₋i

が成り立つとき，siはtiを弱支配すると言う．

戦略プロファイルsが，すべてのi∈Nとs_i∈Siについてui(s)≥ui(s_i, s₋i) を満たすとき，sはナッシュ均衡であると定義する．ただし，s₋iはsに含まれる戦略の中で，プレイヤーi以外のプレイヤーの戦略の組を表し，(s_i, s₋i) はs_i_とs₋iの組み合わせからなる戦略プロファイルを表す．

Γ(R)の均衡について次のことが分かっている．

命題 3.1. （Nishihara 1997_）CD_はCC_{を弱支配し，}DD_はDC_を弱支配する．

確率的安定均衡（西原） −３４３−

（５）

(6)

命題3.2. （Nishihara 1997_）(CD, ..., CD)_{は，次の条件}(c1)_{が成り立つとき} ナッシュ均衡である.

条件(c1)：すべてのプレイヤーiについて

fi(C, n−1)≥ 1 n

n−1

k=0

fi(D, k).

命題 3.3. （Nishihara 1997_）(DD, ..., DD)は，ナッシュ均衡である.

命題3.4.（Nishihara 2007）全てのプレイヤーが同一の平行型線形利得関数を持つときは，CDとCCの組み合わせである戦略プロファイルと(DD, ..., DD) 以外にナッシュ均衡は存在しない．

これらの結果は，Γ(R)には協力均衡が存在しても全員が非協力を採る均衡も同時に存在するので，複数均衡からの選択の問題が存在することを示してい

る．Nishihara（2010）は，この問題に対して，各プレイヤーが弱支配されな

い２つの戦略CD_とDDから選択を行うとした場合に限定して，次節のKMR 進化ゲームを用いて分析した．本論文では，この限定を外して均衡選択問題を再検討する．

4 KMR 進化ゲーム

Kandori, Mailath and Rob (1993)の進化ゲームをΓ(R)に適用すると以下のように定式化される．

期t= 1,2, ...を考える．各期において，m_人（m_はn_{の倍数）のプレイヤー} がランダムにマッチングしてn人ずつのグループを作りΓ(R)_{をプレイする．}

−３４４−

（６）

(7)

各期の期首において各プレイヤーは，CC_，CD_，DC_，DD_{の４つの戦略の中} の１つを選択する．戦略ab_{を採るプレイヤーを}abプレイヤーと呼ぶ．各期における社会の状態を以下では，z= (z₁, z₂, z₃, z₄)によって表す．ただし，z₁, z₂,z₃,z₄は，それぞれCC，CD，DC，DDをとるプレイヤーの数を表す．第 t_{期の状態を}z(t)で表わす．状態の空間を

Z={(z₁, z₂, z₃, z₄) :z₁+...+z₄=m, zi∈ {0,1, ..., m}(i= 1, ...,4)}

で表す．

次のような状況を考える．プレイヤーはマッチングによってn_{人のグルー} プを作り，そのグループのメンバーでΓ(R)を何度もプレイする．そして，その間に得られる平均利得から他のプレイヤーがどのような戦略を採っているかを推し測る．さらに，そのようなマッチングとプレイを繰り返すことによって，全体の母集団の中の戦略の分布を知ることができる．戦略siを採っているプレイヤーが戦略をs_iに変更したときの期待利得は，次のように表わされる．

vs_i(s_i, z) =

x₁+x₂+x₃+x₄=n−1

p(x₁, x₂, x₃, x₄:z, si)U(s_i:x₁, x₂, x₃, x₄).

ここで，p(x₁, x₂, x₃, x₄:z, si)は次のような確率関数である．

p(x₁, x₂, x₃, x₄:z, si)

=

z₁−eCC(si) x₁

z₂−eCD(si) x₂

z₃−eDC(si) x₃

z₄−eDD(si) x₄

n−1

m−1

,

ただし，

et₁(t₂) =

⎧⎪

⎨

⎪⎩

1 t₁=t₂のとき, 0 t₁=t₂のとき,

確率的安定均衡（西原） −３４５−

（７）

(8)

とする．p(x₁, x₂, x₃, x₄:z, si)_は，状態z_においてsiを採るプレイヤーi_以外のm−1_{人のプレイヤーから}n−1人がランダムにとりだされるときに，CC_， CD，DC，DDを採るプレイヤーの数がそれぞれx₁,x₂,x₃,x₄である確率を表す．U(s_i:x₁, x₂, x₃, x₄)は，戦略s_iを採るプレイヤーiがx₁, x₂, x₃, x₄人のCD, CC, DC, DD_{プレイヤーと}Γ(R)をプレイするときの彼の期待利得を表わす．

上記の期待利得を用いて所与の状態に対する最適反応を考える．ここで，

上述の解釈によって，各プレイヤーは状態を把握すると考えられるが，z = (z₁, z₂,0,0)と表される状態については注意が必要である．この状態においては，全てのプレイヤーが情報集合R_i⁰_でC_{を採るので，}CC_{プレイヤーと}CD プレイヤーの区別がつかない．そこで，このような場合については，最適反応は現在自分が採っている戦略であるとする．それ以外の状態については，戦略を変更したときに期待利得が最大となる戦略を最適反応とする．そこで，

z₃+z₄≥1_のとき，si=CC, CD, DC, DD_について, Bs_i(z) = arg max

s_i∈{CC,CD,DC,DD}vs_i(s_i, z) (1) z₃=z₄= 0_のとき，si=CC_，CD_について

Bs_i(z) ={si} (2)

として，siを採るプレイヤーの状態z= (z₁, z₂, z₃, z₄)_{に対する最適反応の集} 合Bs_i(z)を定義する．

Kandoriet al（1993）では，最適反応の定義について２つの定式化が提案されている．１つは，所与の状態において，各プレイヤーは自分の平均利得と他者の平均利得を比較し，それらの平均利得の中で最大となる戦略をその状

−３４６−

（８）

(9)

態に対する最適反応とするいうものである．これは，プレイヤーの直面する状態に対する状況把握能力を非常に低く想定したものである．Nishihara_（2010_）はそのモデルを採用した．もう１つは，同論文脚注20において提案されているもので，他者の採る戦略の分布を知ることができ，それに基づいて最適な戦略を導き出すというものである．このモデルにおいては，プレイヤーの状況把握能力は不完全であるが，各プレイヤーは，一定の確率（下で述べるη(si, z)_）で他者の採る戦略の分布を知り，それに対する最適反応を計算して自分が採っている戦略が最適反応でなければ最適反応に変更すると想定する．本論文では，この後者の定式化を採用している．

戦略si∈Siに対してη(si, z)を適応確率と呼ぶ．これは，siを採るプレイヤーがsi∈/Bs_i(z)_のときにBs_i(z)に含まれる戦略に変更を行う確率である. どの戦略にどのような確率で変更するかはBs_i(z)をサポートとする所与の確率分布γ(si, z)に従うとする．以下の展開は，η(si, z)やγ(si, z)の確率分布に依存しないので，これらの関数形については詳述しない．ただし，η(si, z)_と γ(si, z)はすべてのプレイヤーに共通であると仮定する．

各期t= 1,2, ...において各プレイヤーは確率ε >0でこのマッチングの母集団から離れ新たなプレイヤーに置き換えられる．これをミューテーションと呼ぶ．新しいプレイヤーは，一定の確率分布で戦略CC, CD, DC, DD_のいずれかを採るとする．ただし，全ての戦略siが何らかの正の確率で採られるとする．これは，新しくゲームに参加するプレイヤーはゲームについては全く無知で，戦略の比較は行わずアトランダムに戦略を採ると想定している．

以上の設定のもとで，状態の時間的推移は有限状態空間Z上のマルコフチェーンとなる．推移確率をPr(z(t+ 1) =z|z(t) =z) =pzz(ε)_と表す．pzz(ε)_を

確率的安定均衡（西原） −３４７−

（９）

(10)

要素とする推移確率行列をP(ε)_で表す．

定義 4.1. Z_{上の確率分布}μ(ε)_がμ(ε)P(ε) =μ(ε)_{を満たすとき，}μ(ε)を定常分布と呼ぶε >0³_．

定義 4.2. lim

ε→0μ(ε) =μ^∗を極限分布と呼ぶ．極限分布のサポートに入る状態を長期状態と呼ぶ⁴．

定義 4.3. ．状態の集合A⊆Z_{が以下の２つの条件}(i), (ii)_{を満たすとき}A を極限集合と呼ぶ．極限集合のクラスをΩで表す．

(i)P(0)において，Pr(z(t+ 1)∈A|z(t)∈A) = 1

(ii)P(0)_{において，任意の}z, z∈A_{についてある}k >0_{が存在して}Pr(z(t+ k) =z|z(t) =z)>0_．

P(0)_においてPr(z(t+k) =z|z(t) =z)>0_{が成り立つとき，}zからzへ k期で推移可能であるという．あるk >0が存在して，zからzへk期で推移可能であるとき，単にzからzへ推移可能であるという．上の条件(ii)は，

極限集合においては，それに含まれる任意の状態の間で互いに推移可能でなければならないことを言っている．

注意 . 極限分布μ^∗は，次の形に一意に表される．

μ^∗=

A∈Ω^∗rAμA.

ただし，Ω^∗⊆Ω_，μAは極限集合の上の定常分布，rA∈(0,1]_{は極限集合}A_の尤度を表す．

3ε >0のとき，定常分布は一意に定まる．

4極限分布は存在し，μ^∗P(0) =μ^∗が成り立つ．

−３４８−

（１０）

(11)

定義 4.4. Ω^∗の要素を長期均衡と呼ぶ．

つまり長期均衡は，長期状態の集合である．それは，１つの状態からなる集合である場合といくつかの状態からなる集合である場合がある．後者の場合は，１つのリミットサイクルを形成する．定義からわかるように長期均衡は，

複数存在しうる．

Kandori and Rob（1995）は，長期均衡を求めるためのアルゴリズムを示した．その記述のための定義を以下に与える．

２つの状態z, zの間の距離をd(z, z) = (1/2)₄

i=1|zi−z_i|と定義する．これは，zからzへ状態が推移するために必要とされる戦略を変更するプレイヤーの数である．推移コストを次のように定義する．

c(z, z) = min

z∈b(z)d(z, z)

と定義する．ただし，b(z) ={z:pzz(0)>0}とする．b(z)は，状態zから１期で推移可能な状態の集合である．したがって，c(z, z)_はz_からz_へ推移するために必要な戦略を変更するプレイヤーの数を推移コストとして表わすが，その際，最適反応戦略への変更はコストとして数えないというものである．２つの極限集合AとAの間の推移コストを次のように定義する．

C(A, A) = min

z∈A,z∈A min

g∈G(z,z)N(g).

ただし，G(z, z)は，状態の列(z¹, z², ..., z^T)でz¹ ∈ A，z^T ∈ A，z^t（t= 2, ..., T −1_{）は他の極限集合}A(= A, A)に含まれないものの全体であり，

g∈G(z, z)_に対してN(g) =T−1

t=1 c(z^t, z^t⁺¹)_とする．

次の命題が成り立つ．

確率的安定均衡（西原） −３４９−

（１１）

(12)

命題 4.1. （Kandori and Rob 1995_{）長期均衡の集合は，}

minA∈Ω min

h∈H_A

(A,A)∈h

C(A, A) (3)

の解によって与えられる．ただし，HAはA−ツリーと呼ばれ，すべての極限集合をノードとし，方向つきの枝からなる樹形図で，A以外のノードには後ろのノードが存在するものである．

この命題の示すところによれば，長期均衡を見つけるためには，まず，（１）

極限集合のクラスを明らかにし，次に，（２）極限集合をノードとする樹形図h について

(A,A)∈hc(A, A)を求めれば良い．それらの中で最小の値となるもののルートノードから長期均衡を得られる．

5 分析

本節では，前節で定義された進化ゲームの長期均衡を求める．まず，状態の間の推移可能性についての分析を行い，それによって，極限集合のクラスを明らかにする．その後，命題4.1のアルゴリズムを用いて長期均衡を導出する．

極限集合を導出するためには，各状態に対するプレイヤーの最適反応を求め，それから状態間の推移可能性を明らかにする必要がある．始めに，まず，

(0, k,0, m−k)_（0≤k ≤m−1）として表わされる状態に対する最適反応を求め，この形で表される状態の間の推移可能性を明らかにする．

状態z= (0, k,0, m−k)において，DDプレイヤーの最適反応を考えよう．

まず，z= (0, m−1,0,1)のとき，DDプレイヤーは，常にn−1人のCDプレイヤーとマッチングする．いま，条件（c1）が前密な不等式で成り立つと仮

−３５０−

（１２）

(13)

定しているので，彼の最適な選択はCD_とCCである．よって，この２つが最適反応となる．次にm−k≥2の場合について考える．この場合，DD_プレイヤーが戦略をCDに変更するときと，そのままDDを採りつづけるときの期待利得は以下のように表される．

vDD(CD, z) =

min{k,n−1}

x=0

h(x:k)U(CD: 0, x,0, n−x−1).

vDD(DD, z) =

min{k,n−1}

x=0

h(x:k)U(DD: 0, x,0, n−x−1).

ただし，h(x:k)は次のような超幾何分布の確率関数である⁵：

h(x:k) = k

x

m−k−1 n−x−1 n−1

m−1

．

ここで，

w(k) =vDD(CD: 0, k,0, m−k)−vDD(DD: 0, k,0, m−k) と定義する．詳しくは，これは次のような関数である．

w(k) =

min{k,n−1}

x=0

h(x:k){U(CD: 0, x,0, n−x−1)−U(DD: 0, x,0, n−x−1)}.

DDプレイヤーがいるとき，CC_とDC_{はそれぞれ}CD_とDD_{よりも小さな} 期待利得となるので，z= (0, k,0, m−k)に対する最適反応はCDかDDである．そこでw(k)を使ってDDプレイヤーのz= (0, k,0, m−k)（m−k≥2）

5このように２つの戦略の候補に対して，同じ確率分布で期待値をとって期待利得を比較できるのが，この定式化の利点である．

確率的安定均衡（西原） −３５１−

（１３）

(14)

に対する最適反応は，次のように表わされる：

BDD(0, k,0, m−k) =

⎧⎪

⎪⎪

⎪⎨

⎪⎪

⎩

{CD} w(k)>0_のとき，

{CD, DD} w(k) = 0のとき，

{DD} w(k)<0のとき.

一方，状態z= (0, k,0, m−k)（m−k≥1）におけるCDプレイヤーの最適反応は，

vCD(CD, z) =

min{k−1,n−1}

x=0

h(x:k−1)U(CD: 0, x,0, n−x−1)_，

vCD(DD, z) =

min{k−1,n−1}

x=0

h(x:k−1)U(DD: 0, x,0, n−x−1) と表わされるので，

vCD(CD,(0, k,0, m−k))−vCD(DD,(0, k,0, m−k)) =w(k−1) であり，

BCD(0, k,0, m−k) =

⎧⎪

⎪⎪

⎪⎨

⎪⎪

⎩

{CD} w(k−1)>0のとき，

{CD, DD} w(k−1) = 0のとき，

{DD} w(k−1)<0_のときとなる．ここで，関数w(k)について次の補題が成り立つ．

補題 5.1. （Nishihara 2007）w(k)はkの厳密な増加関数である．

この補題から，次の２つの命題が得られる．

命題5.1. 状態z= (0, m−1,0,1)からの推移可能性について以下が成り立つ．

(i)w(m−2)≥0_{であれば，}z_からは(1, m−1,0,0)_と(0, m,0,0)_{の状態への}

−３５２−

（１４）

(15)

み１期で推移可能である．

(ii)w(m−2)<0_{であれば，}z_からは(0,0,0, m)_，(1,0,0, m−1)_，(0,1,0, m−1) の各状態へのみ１期で推移可能である．

証明 . 上述の最適反応から明らか．

命題 5.2. 状態z= (0, k,0, m−k)（m−k≥2）からの推移可能性について以下が成り立つ．

(i)w(k)>0かつw(k−1)≥0であれば，zからは(0, k,0, m−k)（k≥k）の各状態へのみ１期で推移可能である．

(ii)w(k)>0_かつw(k−1)<0_{であれば，}z_{からはすべての}(0, k,0, m−k)

（0≤k≤m）の各状態へのみ１期で推移可能である．

(iii)w(k)≤0であれば，zからは(0, k,0, m−k)（k≤k）の各状態へのみ１期で推移可能である．

証明 . w(k)の増加性と上述の最適反応から明らか．

以上の結果に基づいて，極限集合について考える．まず，以下の２つの補題が得られる．

補題 5.2. z₃>0である状態z= (z₁, z₂, z₃, z₄)は，いかなる極限集合にも含まれない．

証明 . zが極限集合Aに入るとして矛盾を導く．２つの場合に分ける．まず，

z₃+z₄≥2であるとする．このとき，CC_{プレイヤーは，}DC_{プレイヤーや} DDプレイヤーにマッチングする可能性があるので，彼によってCC_は最適

確率的安定均衡（西原） −３５３−

（１５）

(16)

反応でない．また，DCプレイヤーについても同様にDC_{は最適反応でない．}

よって，z_から，(0, k,0, m−k)_{と表せる状態}zへ１期で推移可能である．極限集合の定義の条件(ii)よりz ∈Aでなければならない．命題5.1と5.2より，zからは，(0, m,0,0)または(0,0,0, m)へ推移可能である．しかし，どちらの状態もそれ自身へしか推移せず，z₃+z₄≥2なる状態へは推移可能でない．したがって，Aは，極限集合の定義を満たさない．次に，z₃= 1_，z₄= 0 であるとする．このとき，CCプレイヤーは，DCプレイヤーやDDプレイヤーにマッチングする可能性があるので，彼にとってCCは最適反応でない．

よって，zから，(0, m−1,1,0)と表せる状態zへ１期で推移可能である．ここで，条件(C1)が厳密な不等式で成り立つので，n−1_人のCD_{とマッチン} グするDCプレイヤーの最適な戦略はCC_またはCD_{である．よって，}z_からは，１期で(0, m,0,0)へ推移可能であり，この状態もAに属さなければならない．しかし，この状態からは，それ自身へしか推移可能でなく，zへ推移可能でない．よって，Aは，極限集合の定義を満たさない．以上により，z_が極限集合Aに入るとすると矛盾が生じる．

補題 5.3. z₁>0_かつz₄>0_{である状態}z= (z₁, z₂, z₃, z₄)_{は，いかなる極限} 集合にも含まれない．

証明 . 上の補題5.2_よりz₃= 0_{としてよい．}z_{が極限集合}A_{に入るとして矛} 盾を導く．z₄>0よりCCプレイヤーはDDプレイヤーにマッチングする可能性があるので，DDまたはCDが唯一の最適反応である．よって，zからは，

(0, k,0, m−k)と表せる状態へ１期で推移可能であり，この状態もA_に入らなければならない．命題5.1_と5.2_より，(0, k,0, m−k)_からは，(0, m,0,0)_ま

−３５４−

（１６）

(17)

たは(0, m,0,0)へ１期で推移可能である．しかし，どちらの状態もそれ自身へしか推移可能でない．したがって，Aは極限集合の定義を満たさない．

以上の２つの補題から，極限集合に入る可能性のある状態は，(k, m−k,0,0)_，

(0, k,0, m−k)と表せるものに限られることが分かった．以上の準備のもとで，

極限集合について次の命題が得られる．

命題 5.3. {(k, m−k,0,0)}（k= 0,1, ..., m_）および{(0,0,0, m)}は極限集合であり，極限集合はこれら以外に存在しない．

証明 . 各{(k, m−k,0,0)}（k= 0,1, ..., m_）および{(0,0,0, m)}が極限集合であることは，これらの状態がそれ自身へのみ推移可能であることから明らか．他に極限集合が存在しないことを示す．上記以外の任意の状態zについて，補題5.2と5.3から，zから(0,0,0, m)へ推移可能であるが，逆向きには推移可能でない．よって，極限集合の条件(ii)が満たされず，zを含む極限集合は存在しない．

命題4.1により，次の定理を得る．

定理 5.1. {(0,0,0, m)}が唯一の長期均衡である．

証明. 状態(m−1,0,0,1)からの推移可能性について考える．この状態に対して，CC_{プレイヤーは}DDが唯一の最適反応となる．なぜなら，この状態においてDDプレイヤーにマッチングする可能性があるのでCDまたはDDが最適反応であるが，いずれの戦略を採ろうとも，CCプレイヤーはCをDD プレイヤーはD_{を採るので，}DDが最適な戦略となるからである．したがって，(m−1,0,0,1)_{からは１期で}(0,0,0, m)へ推移可能である．よって，h_を

(0,0,0, m)←(m,0,0,0)←...←(0, m,0,0)

確率的安定均衡（西原） −３５５−

（１７）

(18)

すると，

(A,A)∈hC(A, A) =m+ 1である．これは，極限集合の数がm+ 2 であるので，(3)_{で比較するすべての}A−ツリーの中で最少の値である．よって，A= (0,0,0, m)が最小化問題(3)の唯一の解であり，定理の主張が成り立つ．

以上の分析結果は，協力均衡の均衡選択については否定的な結論である．この結果によれば，ＫＭＲ進化ゲームで想定するような近視眼的な戦略の選択と確率的ショック（プレイヤーの入れ替え）のある状況では，全員が常に非協力を採る状況のみが生じることになる．

協力均衡が選択されないのは次のような理由からである．全てのプレイヤーがCDを採る状況が生じたとする．この状況ではどのプレイヤーも自分から Dを採らない．新しく入って来たプレイヤーがCCを採っても彼は戦略を変えようとしない．そこで，プレイヤーの入れ替えによって，次第にCC_を採るプレイヤーが増えていく．ところがCCが十分に多くなると，ミューテーションによってDCまたはDDプレイヤーが1人でも入って来たとき全員にとってDDが最適になる．一方，全員がDDを採る状況では，新しく入って来たプレイヤーがCC_やCDを採ってもそれは最適な戦略ではないからDD に変更してしまう．その結果，DD以外の戦略を採るプレイヤーは増えることはない．

ただし，以上の結論は，すべてのプレイヤーが同一の利得関数を持つと仮定して導かれた．これは多くの人々の集まる社会においては限定的な仮定である．次節では，同一利得関数の仮定を緩め，長期均衡について再検討を行う．

−３５６−

（１８）

(19)

6 ２タイプモデル

前節の分析では，全てのプレイヤーが同一の利得関数を持つと仮定したが，

これは，成員の選好の均一性が高い社会を想定している．本節では，異質な選好を持つプレイヤーが混在する社会を想定してモデルを再構成し，長期均衡について再検討を行う．

２種類の利得関数f^aとf^bを考える．どちらも平行型線形利得関数であるとする．前者の利得関数を持つプレイヤーをタイプaと呼び，後者の利得関数を持つプレイヤーをタイプb_{と呼ぶ．いま，タイプ}a_{のプレイヤー}m^a_人とタイプLのプレイヤーm^b人からなる社会を考える．これらのタイプの違いは効用関数の違いを表す．このma+mb人のプレイヤーを母集団として，ＫＭＲ進化ゲームを考える．ただし，それぞれのタイプのプレイヤーの人数は，プレイヤーの入れ換えがあっても変わらないとする⁶．

社会の状態をz= (z₁â, z₂â, z₃â, z₄â;z₁^b, z^b₂, z^b₃, z^b₄)で表す．ただし，θ =a, bについて，z₁^θ+z₂^θ+z₃^θ+z^θ₄ = m^θとする．z₁^θ, z^θ₂, z₃^θ, z₄^θは，それぞれタイプ θ= a, bのプレイヤーの中で戦略CC，CD，DC，DDを採るプレイヤーの人数を表す．状態の空間をZâbで表す．以下の分析において，社会全体の中である戦略を採るプレイヤーの総数が重要な役割を果たすので，状態z_が与えられたとき，各k = 1,2,3,4についてzk =zâ_k+z_k^bと表わす．θ=a, bと si=CC, CD, DC, DDについて, タイプθのプレイヤーiが状態zにおいて

6これは，プレイヤーの入れ替えが，死亡と出産によるものであり，利得関数は血液型のようなものであるという想定による．血液型の比率が数世代にわたってほぼ一定に保たれていることはよく知られれるところである．

確率的安定均衡（西原） −３５７−

（１９）

(20)

戦略をsiからs_iへ変更するときの期待利得を前節の定義に添え字θ_を付けて

v^θ_s_i(s_i, z) =

x₁+x₂+x₃+x₄=n−1

p(x₁, x₂, x₃, x₄:z, si)U^θ(s_i:x₁, x₂, x₃, x₄)

と表わす⁷．ここで，p(x₁, x₂, x₃, x₄:z, si)は，４節で与えた確率関数である．

z= (z₁, z₂, z₃, z₄)_でzk=z_k^a+z_k^b_（k=1,2,3,4）であることに注意せよ．前節と同様に，z₃=z₄= 0_のとき，θ=a, b_とsi=CC, CD_について

B_s^θ_i(z) ={si}

とし，z₃+z₄≥1のとき，θ=a, bとsi=CC, CD, DC, DDについて B_s^θ_i(z) = arg max

s_i∈{CC,CD,DC,DD}v_s^θ_i(s_i, z) (4) として，siを採るタイプθのプレイヤーの状態zに対する最適反応の集合を定義する．

以上の定義以外については前節までの定義に従い，ＫＭＲ進化ゲームの諸概念を定義する．こうして定義されるモデルを２タイプモデルと呼ぶ．これに対して，前節で分析したモデルを１タイプモデルと呼ぶ．

２タイプモデルにおいて，状態の推移確率は状態に対する最適反応によって特徴づけられる．最適反応を決定する期待利得の定義において，各プレイヤーが自分以外のプレイヤーの戦略の分布によって期待値をとっていることに注意せよ．これは，上述したように戦略を一時的に固定して何度もマッチングする間に他のプレイヤーの戦略の分布が分かり，それによって期待利得の高いものを選ぶと解釈される．このように最適反応を決定するとき，他者の利得関数が

7これと同様に前節で用いた記号に当該のプレイヤーのタイプを添え字につけて本節では用いる．

−３５８−

（２０）

(21)

自分のものと同じであるか否かは戦略の決定に無関係である．こうして，前節で行った１タイプモデルの分析のかなりの部分をここで利用することができる．また，２タイプモデルでも有限状態のマルコフチェーンであることも変わりないので，命題4.1で与えられた長期均衡を求めるアルゴリズムがここでも使用できる．

２タイプモデルを分析し長期均衡を求めよう．まず，各状態に対するプレイヤーの最適反応を明らかにする．前節の１タイプモデルと同様に，z₃+z₄= 0 のときはCCプレイヤーとCDプレイヤーの割合が分からないので，戦略を変更したときの期待利得が予想できないため，いま採っている戦略を最適と考えるとする．それ以外の場合は，プレイによって推測できる戦略の分布 (z₁, z₂, z₃, z₄)によって期待利得を求め，最適反応を選ぶとする．そこで，状態z = (kâ, mâ−kâ,0,0;k^b, m^b−k^b,0,0)に対する各タイプのCC プレイヤー，CDプレイヤーの最適反応は次のように表わされる．z₃+z₄≥1のとき，θ=a, b_，si=CC, CD, DC, DD_について,

B^θ_s_i(z) = arg max

s_i∈{CC,CD,DC,DD}v^θ_s_i(s_i, z) (5) z₃=z₄= 0_のとき，θ=a, b_，si=CC_，CD_について

B^θ_s_i(z) ={si} (6)

と定義する．

前節で定義した関数w(k)を利得関数fθについて定義したものをw^θ(k)と表わす．状態z= (0, lâ,0, mâ−lâ; 0, l^b,0, m^b−l^b)に対するタイプθのDDプレイヤーの最適反応はこの関数を使って次のように表わされる：

確率的安定均衡（西原） −３５９−

（２１）

(22)

BDD(0, lâ,0, mâ−lâ; 0, l^b,0, m^b−l^b)

=

⎧⎪

⎪⎪

⎪⎨

⎪⎪

⎩

{CD} wθ(l^a+l^b)>0_のとき，

{CD, DD} wθ(l^a+l^b) = 0_のとき，

{DD} wθ(l^a+l^b)<0のとき.

さらに，状態z= (0, lâ,0, mâ−lâ; 0, l^b,0, m^b−l^b)に対するタイプθのCDプレイヤーの対する最適反応は次のように表わされる：

BCD(0, lâ,0, mâ−lâ; 0, l^b,0, m^b−l^b)

=

⎧⎪

⎪⎪

⎪⎨

⎪⎪

⎩

{CD} w^θ(l^a+l^b−1)>0_のとき，

{CD, DD} w^θ(l^a+l^b−1) = 0_のとき，

{DD} w^θ(l^a+l^b−1)<0のとき

と表される．ここで，前節と同様に関数w^θ(k)について次の補題が成り立つ．

補題 6.1. w^θ(k)_はkの厳密な増加関数である．

命題5.1_と5.2と同様にして，次の２つの命題が得られる．

命題 6.1. 状態z= (0, m^a−1,0,1; 0, m^b,0,0)からの推移について以下が成り立つ．

(i)wâ(m−2)_，w^b(m−2)≥0_{であれば，}(1, mâ−1,0,0; 0, m^b,0,0)_と(0, mâ,0,0;

0, m^b,0,0)へのみ１期で推移可能である．

(ii)wâ(m−2)≥0，w^b(m−2)<0であれば，(1, mâ−1,0,0; 0, l^b,0, m^b−l^b)， (0, mâ,0,0; 0, l^b,0, m^b−l^b)（0≤l^b≤m^b）なる各状態へ１期で推移可能である．

(iii)wâ(m−2)<0_，w^b(m−2)≥0_{であれば，}(1, kâ,0, mâ−kâ−1; 0, m^b,0,0)_，

−３６０−

（２２）

(23)

(0, lâ,0, mâ−lâ; 0, m^b,0,0)（0≤kâ≤mâ−1，0≤lâ≤mâ）なる各状態へ１期で推移可能である．

(iv)wâ(m−2)，w^b(m−2)<0であれば，(1, kâ,0, mâ−kâ−1; 0, l^b,0, m^b−l^b)， (0, lâ,0, mâ−lâ; 0, l^b,0, m^b−l^b)_（0≤kâ≤mâ−1_，0≤lâ≤mâ_，0≤l^b≤m^b_）なる各状態へ１期で推移可能である．

z= (0, m^a,0,0; 0, m^b−1,0,1)からの推移についても同様．

命題 6.2. 状態z= (0, kâ,0, mâ−kâ; 0, k^b,0, m^b−k^b)からの推移について以下が成り立つ．

(i)w^θ(k^a+k^b)>0_かつw^θ(k^a+k^b−1)≥0_{であれば，}z_からはz₁^θ=z^θ₃= 0_， z₂^θ≥k^θなる状態へ１期で推移可能であり，z^θ₂< k^θなる状態へは１期では推移可能でない．

(ii)w^θ(k^a+k^b)>0_かつw^θ(k^a+k^b−1)<0_{であれば，}z_からはz₁^θ=z^θ₃= 0_， z₂^θ= 0,1,2, ..., mθなる各状態へ１期で推移可能である．

(iii)w^θ(k)≤0であれば，zからはz₁^θ=z^θ₃= 0，z^θ₂≤l^θなる状態へのみ１期で推移可能であり，z^θ₂> l^θなる状態へは１期で推移可能でない．

極限集合について以下の２つの補題が得られる．証明は，上述の補題5.2_と 5.3_{と同様である．}

補題 6.2. z^a₃+z₃^b>0である状態は，いかなる極限集合にも含まれない．

補題 6.3. z₁^a+z₁^b>0かつz₄^a+z^b₄>0である状態は，いかなる極限集合にも含まれない．

以上の２つの補題から，極限集合に入る可能性のある状態は，

(lâ, mâ−lâ,0,0;l^b, m^b−l^b,0,0)_，(0, lâ,0, mâ−lâ; 0, l^b,0, m^b−l^b)

確率的安定均衡（西原） −３６１−

（２３）

3 戦略，均衡，これまでの結果

1 序

非協力が観察されるジレンマゲームにおける 確率的安定均衡

西 原 宏

2 基本モデル

3 戦略，均衡，これまでの結果

4 KMR 進化ゲーム

5 分析

6 ２タイプモデル

非協力が観察されるジレンマゲームにおける確率的安定均衡

西原宏