• 検索結果がありません。

ベクトル場の可視化

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 61-66)

4.3.3 Γ

i

の性質と略記

Γiと利得行列との関係はΓ1(1,1) =f1(CC),Γ1(1,0) = f1(CD),Γ1(0,1) =

−f1(DC),Γ1(0,0) = −f1(DD) である.また,Γi は P1 と P2 に対して 線形である.囚人のジレンマでは Γ1(0.5, y ∈ [0,1]) < 0 かつ Γ2(x ∈ [0,1],0.5)<0が成りたつ.

Γi(P1, P2)を整理すると以下をえる.

Γ1(P1, P2) = ∆γ11,C−γ1,D

=P1P2 [f1(CC)−f1(CD) +f1(DC)−f1(DD)]

+P1 [+f1(CD) +f1(DD)]

+P2 [−f1(DC) +f1(DD)]

−f1(DD) Γ2(P1, P2) = ∆γ22,C−γ2,D

=P1P2 [f2(CC)−f2(DC) +f2(CD)−f2(DD)]

+P2 [+f2(DC) +f2(DD)]

+P1 [−f2(CD) +f2(DD)]

−f2(DD) 以降では表記を単純化して,

Γ1(P1, P2) = P1P2X1+P1Y1 +P2Z1+A1

Γ2(P1, P2) = P1P2X2+P2Y2 +P1Z2+A2

とする.囚人のジレンマではXi >0,Zi <0,Xi+Zi >0 が成りたつ.

と書ける.また,Υi(P1, P2) = 0 を整理すると,

P2 = (1−α1)/β1logit(Pi)−α1(P1Y1+A1) α1(P1X1+Z1)

P1 = (1−α2)/β2logit(P2)−α2(P2Y2+A2) α2(P2X2+Z2)

がえられる.それぞれ他方の行動確率のみの関数となっており,これら は Υi(P1, P2) = 0 となるペア (P1, P2) を一対一対応で指定する.以上の 知見を組み合わせると,各点 (P1, P2)∈[0,1]×[0,1]における変化ベクト ル(向きと大きさ)およびヌルクラインを描画できる.

図 4.1 は利得行列 3051 において,α1 = α2 を 0.0,0.2,0.4,0.6,0.8,1.0 と変えたときのベクトル場の変化を示す(矢印の大きさは適度に縮小し てある).αi = 0.0では強化学習は Cと D を等確率で選択するため,す べてのベクトルは唯一の交点(P1, P2) = (0.5,0.5)の方向を向く.この交 点は安定点である.ヌルクラインは P1 = 0.5(赤線)および P2 = 0.5

(緑線)である.αi = 0.2,αi = 0.4 と大きくなるにつれ,唯一の交点が (0,0) の方向へ移動する.αi = 0.6,αi = 0.8では,さらに4つの交点が 出現する.(1,1)付近に安定点,(0.8,0.8)付近に不安定点,その他は鞍点 である.このうち,Pi <0.5の安定点は相互裏切DDに対応し,Pi >0.5 の安定点は相互協調 CC に対応づけられる.αi ≈ 1.0 では (1,0) および (0,1) 付近にさらに2つの交点が出現する.

図4.2 は利得行列 1220においてα12 を0.0,0.2,0.4,0.6,0.8,1.0と 変えたときのベクトル場の変化を示す.αi ≤0.8までは利得行列3051と 同じように振る舞うが,αi ≈1.0 においても,交点は直線 P1 =P2 上に 3つしか存在しない.

以上の結果は「αi = 0.0ではランダムに振る舞うが,αi → 1.0 にとも ない相互協調の実現確率が高まる」という前章の結果と整合的であると思 われる.事実,図4.1 では αi >0.6 付近から相互協調に対応する安定点 が出現している.他方,この結果は「相互裏切すなわち Pi <0.5 が唯一 の安定点である」という別の近似モデルを用いた先行研究の報告[31, 55]

と矛盾する.この点は4.9.4 節で論じる.

このように,ベクトル場近似では,有限マルコフ過程のように定常分 布を定量的に捉えることはできないが,反面,ゲームの確率的ダイナミ クスの全体像を捉えることができる.また,後続の節で見るように,ベ クトル場近似は,存在する解の集合,解の存在条件,解の安定性などを 解析的に分析できるという利点をもつ.しかしながら,あくまでも近似

であって,本来のモデルがとりえない状態(点)も含めて分析対象とし ている点を注意する必要がある.

本章の関心は,相互裏切 DDに対応する安定点,相互協調 CC に対応 する安定点が,どのような条件で生じるかという問いである.以降では それぞれ DD 優位解,CC 優位解と呼ぶ.囚人のジレンマにおいて関心 があるのは CC 優位解の存在条件である.後続の節では,まず図 4.2 に 対応する「特殊ケース」を分析する.

α12 = 0.0 α12 = 0.2

0 0.5 1

0 0.5 1

P2

P1

0 0.5 1

0 0.5 1

P2

P1

α12 = 0.4 α12 = 0.6

0 0.5 1

0 0.5 1

P2

P1

0 0.5 1

0 0.5 1

P2

P1

α12 = 0.8 α12 ≈1.0

0 0.5 1

0 0.5 1

P2

P1

0 0.5 1

0 0.5 1

P2

P1

図 4.1: 近似モデルのベクトル場.利得行列 (3,0,5,1)

α12 = 0.0 α12 = 0.2

0 0.5 1

0 0.5 1

P2

P1

0 0.5 1

0 0.5 1

P2

P1

α12 = 0.4 α12 = 0.6

0 0.5 1

0 0.5 1

P2

P1

0 0.5 1

0 0.5 1

P2

P1

α12 = 0.8 α12 ≈1.0

0 0.5 1

0 0.5 1

P2

P1

0 0.5 1

0 0.5 1

P2

P1

図 4.2: 近似モデルのベクトル場.利得行列 (1,−2,2,0)

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 61-66)