ベクトル場の可視化 - JAIST Repository https://dspace.jaist.ac.jp/

4.3.3 Γ

の性質と略記

Γ_iと利得行列との関係はΓ₁(1,1) =f₁(CC)，Γ₁(1,0) = f₁(CD)，Γ₁(0,1) =

−f1(DC)，Γ1(0,0) = −f1(DD) である．また，Γi は P1 と P2 に対して線形である．囚人のジレンマでは Γ1(0.5, y ∈ [0,1]) < 0 かつ Γ2(x ∈ [0,1],0.5)<0が成りたつ．

Γi(P1, P2)を整理すると以下をえる．

Γ1(P1, P2) = ∆γ1 =γ1,C−γ1,D

=P1P2 [f1(CC)−f1(CD) +f1(DC)−f1(DD)]

+P1 [+f1(CD) +f1(DD)]

+P2 [−f1(DC) +f1(DD)]

−f1(DD) Γ₂(P₁, P₂) = ∆γ₂ =γ_2,C−γ_2,D

=P₁P₂ [f₂(CC)−f₂(DC) +f₂(CD)−f₂(DD)]

+P2 [+f2(DC) +f2(DD)]

+P1 [−f2(CD) +f2(DD)]

−f2(DD) 以降では表記を単純化して，

Γ1(P1, P2) = P1P2X1+P1Y1 +P2Z1+A1

Γ2(P1, P2) = P1P2X2+P2Y2 +P1Z2+A2

とする．囚人のジレンマではXi >0，Zi <0，Xi+Zi >0 が成りたつ．

と書ける．また，Υ_i(P₁, P₂) = 0 を整理すると，

P2 = (1−α1)/β1logit(Pi)−α1(P1Y1+A1) α1(P1X1+Z1)

P1 = (1−α2)/β2logit(P2)−α2(P2Y2+A2) α2(P2X2+Z2)

がえられる．それぞれ他方の行動確率のみの関数となっており，これらは Υ_i(P₁, P₂) = 0 となるペア (P₁, P₂) を一対一対応で指定する．以上の知見を組み合わせると，各点 (P1, P2)∈[0,1]×[0,1]における変化ベクトル（向きと大きさ）およびヌルクラインを描画できる．

図 4.1 は利得行列 3051 において，α₁ = α₂ を 0.0,0.2,0.4,0.6,0.8,1.0 と変えたときのベクトル場の変化を示す（矢印の大きさは適度に縮小してある）．αi = 0.0では強化学習は Cと D を等確率で選択するため，すべてのベクトルは唯一の交点(P₁, P₂) = (0.5,0.5)の方向を向く．この交点は安定点である．ヌルクラインは P1 = 0.5（赤線）および P2 = 0.5

（緑線）である．αi = 0.2，αi = 0.4 と大きくなるにつれ，唯一の交点が (0,0) の方向へ移動する．α_i = 0.6，α_i = 0.8では，さらに４つの交点が出現する．(1,1)付近に安定点，(0.8,0.8)付近に不安定点，その他は鞍点である．このうち，Pi <0.5の安定点は相互裏切DDに対応し，Pi >0.5 の安定点は相互協調 CC に対応づけられる．α_i ≈ 1.0 では (1,0) および (0,1) 付近にさらに２つの交点が出現する．

図4.2 は利得行列 1220においてα1 =α2 を0.0,0.2,0.4,0.6,0.8,1.0と変えたときのベクトル場の変化を示す．α_i ≤0.8までは利得行列3051と同じように振る舞うが，αi ≈1.0 においても，交点は直線 P1 =P2 上に３つしか存在しない．

以上の結果は「α_i = 0.0ではランダムに振る舞うが，α_i → 1.0 にともない相互協調の実現確率が高まる」という前章の結果と整合的であると思われる．事実，図4.1 では αi >0.6 付近から相互協調に対応する安定点が出現している．他方，この結果は「相互裏切すなわち P_i <0.5 が唯一の安定点である」という別の近似モデルを用いた先行研究の報告[31, 55]

と矛盾する．この点は4.9.4 節で論じる．

このように，ベクトル場近似では，有限マルコフ過程のように定常分布を定量的に捉えることはできないが，反面，ゲームの確率的ダイナミクスの全体像を捉えることができる．また，後続の節で見るように，ベクトル場近似は，存在する解の集合，解の存在条件，解の安定性などを解析的に分析できるという利点をもつ．しかしながら，あくまでも近似

であって，本来のモデルがとりえない状態（点）も含めて分析対象としている点を注意する必要がある．

本章の関心は，相互裏切 DDに対応する安定点，相互協調 CC に対応する安定点が，どのような条件で生じるかという問いである．以降ではそれぞれ DD 優位解，CC 優位解と呼ぶ．囚人のジレンマにおいて関心があるのは CC 優位解の存在条件である．後続の節では，まず図 4.2 に対応する「特殊ケース」を分析する．

α1 =α2 = 0.0 α1 =α2 = 0.2

0 0.5 1

P₁

0 0.5 1

P₁

α1 =α2 = 0.4 α1 =α2 = 0.6

0 0.5 1

P₁

0 0.5 1

P₁

α1 =α2 = 0.8 α1 =α2 ≈1.0

0 0.5 1

P₁

0 0.5 1

P₁

図 4.1: 近似モデルのベクトル場．利得行列 (3,0,5,1)

α1 =α2 = 0.0 α1 =α2 = 0.2

0 0.5 1

P₁

0 0.5 1

P₁

α1 =α2 = 0.4 α1 =α2 = 0.6

0 0.5 1

P₁

0 0.5 1

P₁

α1 =α2 = 0.8 α1 =α2 ≈1.0

0 0.5 1

P₁

0 0.5 1

P₁

図 4.2: 近似モデルのベクトル場．利得行列 (1,−2,2,0)

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 61-66)