局所 Nash 均衡の数理解析 - 定式化 - JAIST Repository https://dspace.jaist.ac.jp/

5.3 定式化

5.4.1 局所 Nash 均衡の数理解析

ALLC 対 ALLC

ALLC は p = (1,1,1,1)，q = (1,1,1,1) と定義される．期待利得は

F(r) =f(CC) である．利得関数の１次微分は以下である．

∂F(r)

∂p =(

f(CC)−f(DC),0,0,0)

囚人のジレンマでは f(CC)−f(DC)< 0 である．プレイヤ 1 は，p1+

∂F(r)

∂p1 <1 より，p1 を 1 から離れるように変化させる．ゆえに p は局所 Nash均衡ではない（q も同様）．

ALLD 対 ALLD

ALLD は p = (0,0,0,0)，q = (0,0,0,0) と定義される．期待利得は

F(r) =f(DD) である．利得関数の１次微分は以下である．

∂F(r)

∂p =(

0,0,0, f(CD)−f(DD))

囚人のジレンマでは f(CD)−f(DD) <0 である．p1 ∈[0,1] の制約の下では max(0, p4+^∂F_∂p^(r)₄ ) = 0ゆえにプレイヤ 1 は戦略を変化させない（q も同様）．局所 Nash均衡かどうかは近傍の点を調べる必要がある．

RAND 対 RAND

RANDは p= (1/2,1/2,1/2,1/2)，q = (1/2,1/2,1/2,1/2)で定義される．期待利得は F(r) = (f(CC) +f(CD) +f(DC) +f(DD))/4 である．

利得関数の１次微分は以下である．

∂F(r)

∂p =







[f(CC) +f(CD)−f(DC)−f(DD)]/8 [f(CC) +f(CD)−f(DC)−f(DD)]/8 [f(CC) +f(CD)−f(DC)−f(DD)]/8 [f(CC) +f(CD)−f(DC)−f(DD)]/8







囚人のジレンマでは f(CC) +f(CD)−f(DC)−f(DD) <0 である．ゆえにp は局所Nash 均衡ではない（q も同様）．

ALLx 対 ALLy

ここまで変数を含まない戦略を調べたが，次に ALLC，ALLD，RAND を含む戦略クラスとして p= (x, x, x, x)，q= (y, y, y, y) を考える．この分析では x, y の２変数方向に関してのみ，局所 Nash 均衡の是否について情報をえられる．期待利得は以下である．

F(r) = [(a−b)xy+bx+cy+d]/d where a:=f(CC)−f(DC),

b :=f(CD)−f(DD), c:=f(DC)−f(DD), and d:=f(DD)

利得関数の１次微分は以下である．

∂F(r)

∂p =







x(ay²+by(1−y)) x(ay(y−1) +b(y−1)²) (1−x)(ay²+by(1−y)) (1−x)(ay(y−1) +b(y−1)²)







囚人のジレンマでは a <0，b < 0 だからすべての軸で勾配は負であり，

すべての x > 0 について x → 0 すなわち ALLD へ向かう．ゆえに，p

は ALLDの場合を除いて局所 Nash 均衡ではないといえる（q も同様）．後続の節では変数x, yを導入した(G)TFT，WSLS，GRIMを分析する．

TFT 対 TFT

TFT は直前の相手の行動を複製する戦略であり，p = (1,0,1,0) で定義される．TFT はノイズに弱いことが知られ，TFT 同士で対戦した場合，偶然に一度でも裏切D をだすと際限ない相互裏切に陥る．これに対して，寛容なGTFTは相互裏切から抜けだす術をもち，具体的には相互裏切の場合でもある確率で協調Cをだす．そこで，この寛容性を変数として，一般化TFT 戦略をp= (1, x,1, x)，q= (1,1, y, y) と定義する．

一般化TFT 戦略では，期待利得は F(r) =F(u) =f(CC) である．この結果は，x, y に依存せず相互協調となることを意味する．他方，利得関数の１次微分は x, y に依存し，以下である．

∂F(r)

∂p =

((a−b)y−(2a−b−c)

xy−x−y ,0,0,0 )

where (a, b, c, d) := (f(CC), f(CD), f(DC), f(DD))

ここで，0 ≤ x, y ≤ 1 より分母は xy−x−y ≤ 0 である．したがって，

傾きの符号は相手のパラメータ y と利得 r に依存する．分子を ϕ(y) と記す．囚人のジレンマの条件からϕ(0)<0，ϕ(1)>0 である．^∂F_∂p^(r)

1 <0 ならば，局所Nash 均衡ではない．その条件は

ϕ(y) = (a−b)y−(2a−b−c)>0

=⇒ c >(2a−b)−(a−b)y

である．これをaの関数c=ξy(a) = (2a−b)−(a−b)yとみなす．囚人のジレンマの条件と併せて図5.2 をえる．囚人のジレンマの条件c > a > b

かつ2a > b+cからcのとりうる範囲はa < c <2a−b であるが，これは a=ξ1(a)< ξy(a)< ξ0(a) = 2a−b と一致する．a≤c≤ ξy(a) の範囲で pは局所Nash 均衡ではない（ALLCを含む）．他方，ξy(a)< c <2a−b の範囲で p は傾き 0 となる（TFT を含む）．境界 ϕ(y) = 0 をみたす y において，r= (3,0,5,1)のとき y= 1/3 すなわち GTFTをえる[39]．

-1 0 1 2 3 4 5 6

c := f(DC)

a := f(CC) c = 2 a - b

c = a c = ξ₀(a) c = ξ₁(a)

図 5.2: f(CC) と f(DC) の関係（TFT 対 TFT）．(a, b, c, d) :=

(f(CC), f(CD), f(DC), f(DD))．囚人のジレンマは a < c < 2a−b をみたし，赤線と緑線の間の領域のみ．一般化TFT はc > ξy(a)の範囲で局所Nash 均衡ではない．y は相手のパラメータ

WSLS 対 WSLS

WSLSは痛み（DD，CD）に対して行動を切り換え，喜び（CC，DC）

に対して前回と同じ行動をとる戦略であり，p= (1,0,0,1)と定義される．

そこで，痛みに対して行動を切り換える確率を変数として，一般化WSLS 戦略を p = (1, x,0,1−x)，q = (1,0, y,1−y) と定義する．期待利得は F(r) =F(u) =f(CC) である．利得関数の１次微分は以下である．

∂F(r)

∂p =

((a−b)y+ (2a−c−d)

xy−x−y+ 1 ,0,0,0 )

where (a, b, c, d) := (f(CC), f(CD), f(DC), f(DD))

ここで，0≤xy−x−y+ 1≤1 より，局所 Nash均衡でない条件は ϕ(y) = (a−b)y+ (2a−c−d)<0

=⇒ c <(2a−d) + (a−b)y

これをc=ξy(a) = (2a−d) + (a−b)y とみなす．囚人のジレンマの条件と併せて図5.3 をえる．ξ0(a) < c <2a−b の範囲では一般化 WSLSは局所 Nash 均衡ではない．ξ0(a) < c とは 2f(CC) < f(DC) +f(DD) であり，協調を繰り返すよりも搾取＋裏切のほうが高い利得を与える場合である．したがって，一般化WSLSの局所 Nash均衡の是否は利得のみから定まる場合があり，2f(CC)< f(DC) +f(DD) の場合は相手の yによらず局所 Nash均衡ではない．

-1 0 1 2 3 4 5 6

c := f(DC)

a := f(CC) c = 2 a - b

c = a c = ξ₀(a) c = ξ₁(a)

図 5.3: f(CC) と f(DC) の関係（WSLS 対 WSLS）．(a, b, c, d) :=

(f(CC), f(CD), f(DC), f(DD))．囚人のジレンマは a < c < 2a−b をみたし，赤線と緑線の間の領域のみ．一般化 WSLSは c > ξy(a) の範囲で局所Nash 均衡ではない．y は相手のパラメータ

GRIM 対 GRIM

GRIMは相手が一度でも裏切D を選べば以降常にD をだすという戦略であり，１次戦略としてはp= (1,0,0,0)と定義される．そこで，裏切の連

鎖から抜けだす寛容さを変数として，一般化GRIM戦略をp= (1, x, x, x)，

q = (1, y, y, y) と定義する．期待利得は F(r) = F(u) = f(CC) である．

利得関数の１次微分は以下である．

∂F(r)

∂p =

(−(b−d)(1−y)x−(c−d)y+ (a−d)

xy ,0,0,0

)

where (a, b, c, d) := (f(CC), f(CD), f(DC), f(DD)) ここで，0≤xy ≤1より，局所 Nash 均衡でない条件は

ϕ(x, y) =−(b−d)(1−y)x−(c−d)y+ (a−d)<0

=⇒ c <[−(b−d)(1−y)x+dy+ (a−d)]/y

これを ξ_xy(a) = [a−(1−y)(bx+d(1−x))]/y とみなす．囚人のジレンマの条件と併せて図 5.4 をえる．ξxy(a) の切片はx に依存するが，傾きはx に依存せず，ξx0(a)≈bx+d(1−x)（垂線），ξx1(a) =a である．したがって，y →1（ALLC）ではどのような f(CC)，f(DC) でもp は局所Nash均衡ではないが，他方，y→0（GRIM）ではどのようなf(CC)，

f(DC) でもp は傾き 0となる．

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 90-95)