N 人の集団において,N 人のうち何人が協調したかによって個々人へ 分配される利益が変化するゲームを考えられる.このN 人版囚人のジレ ンマは共有地の悲劇と呼ばれる.共有地の悲劇は共有資源分配の問題を 抽象化し,このゲームでは,集団が共有資源を過剰に搾取すれば枯渇し,
その本来の恩恵は失われてしまう.
共有地の悲劇は囚人のジレンマの問題を根幹にもつ.形式的には,プ レイヤi は「資源を搾取しない」という選択から生じる損失 ci ≥0を被 る見返りとして,資源の再生から生じる恩恵bi ≥0をえられる.ここで,
ci = 0 は搾取(損失を被らない)を表し,bi = 0 は恩恵なしを表す.ゼ ロでない恩恵を受けるには一定人数以上の協調が不可欠である.
N 人の集団で,資源を搾取しない(C)か搾取する(D)という選択肢 を考え,それぞれの損失を定義する:
ci =
{c if C 0 if D
また,Cを選んだ人数を ℓ として,個人が受けとる恩恵を定義する:
bi =
{b if ℓ≥θ 0 if ℓ < θ
ここで,θ は閾値であり,b > c >0 である.
もし θ < N −1 であれば,損失なしに恩恵をうける機会が存在する.
これはタダ乗りと呼ばれる問題である.共有地の悲劇は,自分以外の C を選んだ人数をn として,次の利得表で定義される.
(n > θ n =θ n < θ C b−c b−c −c
D b 0 0
)
N = 2 のとき,n ∈ {0,1} より,f1(CC) := b − c,f1(CD) := −c,
f1(DC) :=b,f1(DD) := 0となる.θ = 0.5 では,囚人のジレンマの条件 fi(DC)> fi(CC)> fi(DD)> fi(CD)
をみたす.また,b > cゆえに,繰り返し囚人のジレンマの条件 fi(CC) +fi(CC)> fi(CD) +fi(DC)
をみたす.
A.1.1 強化学習戦略と共有地の悲劇
強化学習戦略の共有地の悲劇ゲームに対する振る舞いを調べる.本分 析では 3 章の分析方法を用いた.強化学習戦略のパラメータは K = 7,
αi = 0.8,βi = 1 とした(すべてのプレイヤで共通とする).共有地の 悲劇ゲームのパラメータは,人数 N = 3,損失 c = 1 に固定し,恩恵 b= 1.5,1.6, . . . ,4.0を変化させたときの定常分布を調べた.
定常分布πは|{C,D}N|= 23 = 8状態あるが,本論文では協調Cに関心 があるため,これをCを選んだプレイヤの人数ごとに分類して調べる.具 体的には,定常分布において,N = 3人中3人がCを選んだ確率をπ(3) :=
π(CCC),2人がCを選んだ確率をπ(2) :=π(CCD)+π(CDC)+π(CCD),
1人が Cを選んだ確率を π(1) :=π(CDD) +π(DCD) +π(DDC),0人が Cを選んだ確率をπ(0) :=π(DDD)とし,恩恵b によってπ(ℓ)がどう変 化するかを調べる.
タダ乗り問題が存在する条件のうち,θ = 1と θ= 1.5を図A.1および 図A.2にした.θ = 1では,恩恵bが大きくなるにつれてπ(2) すなわち2 人が協調し1人が裏切る状態が大半を占めるようになる.利得行列f のう
ちπ(2) に対応する要素はf(C, n=θ) = b−cおよびf(D, n > θ)であり,
定常分布はこれらの2状態を繰り返すパタンと解釈できる.実際,θ = 1の 場合,3f(C, n > θ) = 3 (b−c)<2 (b−c)+b= 2f(C, n=θ)+f(D, n > θ) より1,2 人が協調し 1 人が裏切る状態が Pareto 効率的となっている.
他方,θ = 1.5では,恩恵 b が大きくなるにつれて π(3) すなわちN = 3 人が協調する状態が大半を占めるようになる.θ= 1.5では利得行列の中 央列が消えるため,θ = 1のときとは異なり,3f(C, n > θ)が最大の利益 を与え,3人が協調する状態が集団最適となっている.いずれの θ でも,
恩恵b が小さい場合には集団最適解が最も高い確率ではないが,これは 強化学習が数値としての累積利得を用いるため,K = 7 かつ αi = 0.8で は十分な累積量をえられず,学習しにくいためだと考えられる.
以上から,強化学習戦略は囚人のジレンマの拡張である共有地の悲劇 においても,Nash均衡解ではなく,Pareto 効率解へ可能な場合があるこ とを示している.共有地の悲劇はパラメータ θ によっては,十分に大き な恩恵 b でも全員が協調する状態が集団最適とはならないが,その場合,
強化学習戦略の集団は集団最適な解を見つける.換言すれば,学習可能 な状況においては,強化学習戦略は個人最適と集団最適の対立という意 味での協調問題を解決できる.
0 0.2 0.4 0.6 0.8 1
1.5 2 2.5 3 3.5 4
Probability
b
#C = 3
#C = 2
#C = 1
#C = 0
図A.1: 強化学習戦略と共有地の悲劇(N = 3,θ= 1).協調Cを選択し た人数の生起確率.#C = 3 は全員協調,#C = 0 は全員裏切
1今回の設定のように,プレイヤ対称の設定下では全プレイヤが平均的に等しい利得 をえるため,集団の合計利得を考察している.
0 0.2 0.4 0.6 0.8 1
1.5 2 2.5 3 3.5 4
Probability
b
#C = 3
#C = 2
#C = 1
#C = 0
図 A.2: 強化学習戦略と共有地の悲劇(N = 3,θ = 1.5).協調Cを選択 した人数の生起確率.#C = 3 は全員協調,#C = 0 は全員裏切