第 4 章 Continuous-binary 戦略を用いたネットワーク互恵に関する研究
4.2 モデル
4.2.1 Continuous-binary 戦略
固定ネットワーク上の2×2ゲームを考える.離散戦略を想定する場合,エージェント は離散手である協調(Cooperation, C)もしくは裏切り(Defect,D)のどちらかを選択す る.2×2ゲームの利得構造をP(Punishment,自他の手組はD-D,以下同様),R(Reward,
C-C),S(Saint,C-D),T(Temptation,D-C)で表す.Tanimoto & Sagara[3]に倣って,
チキン型ジレンマ,鹿狩り型ジレンマを夫々Dg,Dr で表す.R=1,P=0 で固定すると,
55 ゲーム構造は
+
= −
=
0 1
1 D C
D C
D C D C
g r
D D P
T S
G R (4-1)
となる.本研究では,Dg∈[0,1],Dr∈[0,1]のPDゲームのクラスを考察対象とする.
Continuous-binary戦略を想定する場合,エージェント݅は,σι∈[0,1]で定義される実数値
を戦略値として有し,その戦略値に基づき,確率的にοι∈[0,1]で定義される連続手を出す.
すなわち,
=൜ݏ+ሺ1 −ݏሻ∙݀ ሺݓ݅ݐℎ ݎܾܾ݈ܽ݅݅ݐݕݏሻ
ݏ−ݏ∙݀ ሺݐℎ݁ݎݓ݅ݏ݁ሻ (4-2)
となる.各エージェントは戦略値ݏに応じて,確率的に協調寄り(裏切り寄り)な実数 手を出す.d は協調寄りな実数手と裏切り寄りな実数手の偏差幅を表す.݀= 0ならば 連続戦略と等価,݀= 1ならば混合戦略と等価である.エージェントiが,エージェント jとゲームを行なった際に得る利得π൫, ൯を次式で定義する.
j i r g j g i
r
j i
j i
j i
o o D D o D o
D
P o o R T S P
o P T o P S o o
) (
) 1 (
) (
) ( ) ( ) , (
+
− + + +
−
=
+ +
−
− +
− +
− π ≡
(4-3)
この定義は,P, R, S, Tの4つの端点の間を補間したものである.
4.2.2 ネットワーク
全エージェント数Nを4900, 平均次数<k>は4, 8, 12とする.ネットワーク構造は,
2次元格子グラフ(Lattice), BAアルゴリズム[5]で生成したScale-Free(SF)グラフを用い る.
4.2.3 実験方法
偏差幅݀=0.0~1.0の範囲で0.1刻み, 計11通り行なう.各ステップで各エージェント
はその隣人と対戦し,全ての隣人との対戦で得られた利得を合算する.戦略更新ルール は対象エージェントが,自身とその直近傍すべての隣人の中で最も利得の高いプレイヤ ーの戦略値をコピーするImitation Max[4]をシンクロに適用する.戦略初期値は, [0,1]での
56
一様分布に従った値をとる.各試行は,戦略値の平均の摂動が十分小さくなり擬似均衡 と見なせるまで続ける.もし,協調率の変動が続けば,10000世代実行した後,最後の 100世代の協調率の平均を採用する.これをPDゲーム空間൫0 ≤ܦ,ܦ ≤ 1൯を0.1刻みし
た11×11=121ポイントのゲーム構造に対して行う.各々のポイントで50回実行し,そ
のアンサンブル平均を取る.ここで,協調を評価する為の特性値として,4つのサブゲ ームクラスを定義する.第一は,全PD領域121ポイントのアンサンブル平均の単純な 代数平均である.(以後,AllPDと呼ぶ).第二は,ܦ=ܦ いわゆるDonor & Recipient ゲームと呼ばれる部分に着目した11ポイントの平均である.(以後,DRGと呼ぶ).第 三は,PDゲームとチキンゲームの境界線からなる,ܦ = 0の領域からとった11ポイン トの平均である.ここには鹿狩り(Stug Hunt)型ジレンマがない(以後,BCHと呼ぶ).
最後は, PDゲームとSHゲームの境界線からなる, ܦ = 0の領域からとった他方の11ポ イントの平均である.ここにはチキン型ジレンマがない(以後,BSHと呼ぶ).
57