共有地の悲劇 - JAIST Repository https://dspace.jaist.ac.jp/

N 人の集団において，N 人のうち何人が協調したかによって個々人へ分配される利益が変化するゲームを考えられる．このN 人版囚人のジレンマは共有地の悲劇と呼ばれる．共有地の悲劇は共有資源分配の問題を抽象化し，このゲームでは，集団が共有資源を過剰に搾取すれば枯渇し，

その本来の恩恵は失われてしまう．

共有地の悲劇は囚人のジレンマの問題を根幹にもつ．形式的には，プレイヤi は「資源を搾取しない」という選択から生じる損失 ci ≥0を被る見返りとして，資源の再生から生じる恩恵b_i ≥0をえられる．ここで，

ci = 0 は搾取（損失を被らない）を表し，bi = 0 は恩恵なしを表す．ゼロでない恩恵を受けるには一定人数以上の協調が不可欠である．

N 人の集団で，資源を搾取しない（C）か搾取する（D）という選択肢を考え，それぞれの損失を定義する：

ci =

{c if C 0 if D

また，Cを選んだ人数を ℓ として，個人が受けとる恩恵を定義する：

bi =

{b if ℓ≥θ 0 if ℓ < θ

ここで，θ は閾値であり，b > c >0 である．

もし θ < N −1 であれば，損失なしに恩恵をうける機会が存在する．

これはタダ乗りと呼ばれる問題である．共有地の悲劇は，自分以外の C を選んだ人数をn として，次の利得表で定義される．

(n > θ n =θ n < θ C b−c b−c −c

D b 0 0

)

N = 2 のとき，n ∈ {0,1} より，f1(CC) := b − c，f1(CD) := −c，

f1(DC) :=b，f1(DD) := 0となる．θ = 0.5 では，囚人のジレンマの条件 fi(DC)> fi(CC)> fi(DD)> fi(CD)

をみたす．また，b > cゆえに，繰り返し囚人のジレンマの条件 fi(CC) +fi(CC)> fi(CD) +fi(DC)

をみたす．

A.1.1 強化学習戦略と共有地の悲劇

強化学習戦略の共有地の悲劇ゲームに対する振る舞いを調べる．本分析では 3 章の分析方法を用いた．強化学習戦略のパラメータは K = 7，

αi = 0.8，βi = 1 とした（すべてのプレイヤで共通とする）．共有地の悲劇ゲームのパラメータは，人数 N = 3，損失 c = 1 に固定し，恩恵 b= 1.5,1.6, . . . ,4.0を変化させたときの定常分布を調べた．

定常分布πは|{C,D}^N|= 2³ = 8状態あるが，本論文では協調Cに関心があるため，これをCを選んだプレイヤの人数ごとに分類して調べる．具体的には，定常分布において，N = 3人中3人がCを選んだ確率をπ(3) :=

π(CCC)，2人がCを選んだ確率をπ(2) :=π(CCD)+π(CDC)+π(CCD)，

1人が Cを選んだ確率を π(1) :=π(CDD) +π(DCD) +π(DDC)，0人が Cを選んだ確率をπ(0) :=π(DDD)とし，恩恵b によってπ(ℓ)がどう変化するかを調べる．

タダ乗り問題が存在する条件のうち，θ = 1と θ= 1.5を図A.1および図A.2にした．θ = 1では，恩恵bが大きくなるにつれてπ(2) すなわち2 人が協調し1人が裏切る状態が大半を占めるようになる．利得行列f のう

ちπ(2) に対応する要素はf(C, n=θ) = b−cおよびf(D, n > θ)であり，

定常分布はこれらの2状態を繰り返すパタンと解釈できる．実際，θ = 1の場合，3f(C, n > θ) = 3 (b−c)<2 (b−c)+b= 2f(C, n=θ)+f(D, n > θ) より¹，2 人が協調し 1 人が裏切る状態が Pareto 効率的となっている．

他方，θ = 1.5では，恩恵 b が大きくなるにつれて π(3) すなわちN = 3 人が協調する状態が大半を占めるようになる．θ= 1.5では利得行列の中央列が消えるため，θ = 1のときとは異なり，3f(C, n > θ)が最大の利益を与え，3人が協調する状態が集団最適となっている．いずれの θ でも，

恩恵b が小さい場合には集団最適解が最も高い確率ではないが，これは強化学習が数値としての累積利得を用いるため，K = 7 かつ αi = 0.8では十分な累積量をえられず，学習しにくいためだと考えられる．

以上から，強化学習戦略は囚人のジレンマの拡張である共有地の悲劇においても，Nash均衡解ではなく，Pareto 効率解へ可能な場合があることを示している．共有地の悲劇はパラメータ θ によっては，十分に大きな恩恵 b でも全員が協調する状態が集団最適とはならないが，その場合，

強化学習戦略の集団は集団最適な解を見つける．換言すれば，学習可能な状況においては，強化学習戦略は個人最適と集団最適の対立という意味での協調問題を解決できる．

0 0.2 0.4 0.6 0.8 1

1.5 2 2.5 3 3.5 4

Probability

#C = 3

#C = 2

#C = 1

#C = 0

図A.1: 強化学習戦略と共有地の悲劇（N = 3，θ= 1）．協調Cを選択した人数の生起確率．#C = 3 は全員協調，#C = 0 は全員裏切

1今回の設定のように，プレイヤ対称の設定下では全プレイヤが平均的に等しい利得をえるため，集団の合計利得を考察している．