ゲーム理論 2011
∗宿題 3 の解答
† ‡平成 23 年 8月 25 日
問題 1 (長期的関係による協力). テレビ業界は新規参入が難しくAとBとの長期的な関係が続くと考 えられるため、これは繰り返しゲーム的状況と見ることができます。そこで、たとえば両企業が
• 均衡上では相手の不祥事を報道しない
• 相手がもし自分の不祥事を報道すれば、翌日自分は相手の不祥事を報道する
というトリガー戦略をとれば、両者は協力関係を維持できる可能性があります(もちろん、ほかのトリ ガー戦略でも協力が維持できるかもしれません)。ただし、どちらか一方または両方が将来を重視しない 場合(つまり割引率が非常に低い場合)、協力を維持できず、不祥事が明るみに出てしまうことも考えら れます。
問題 2 (無限繰り返しゲーム). 各企業iのつける価格をpiとします。
(a) ステージゲームのナッシュ均衡は(p1, p2) = (0, 0)および(1, 1)の2つです。ただし、両社にとっ て価格0は価格1および2に弱支配されていることに注意してください。
(b) 相手が価格2を選ぶとき、自分は価格1を選ぶともっとも利得が大きく、そのときの増分は3−2 = 1 となります。
(c) 相手が価格2を選んでいるとき、自分が価格2から逸脱してしまうと、来期以降ずっと(p1, p2) =
(1, 1)をプレイすることになり、そのときの各期の利得は
3
2となります。よって
∞
∑
t=1
δt (
2 −3 2
)
= δ
2(1 − δ)
だけ損をこうむることになります。
(d) 均衡価格2から逸脱することによって得られる利益がこうむる損失以下であるとき、このトリガー 戦略の組はサブゲーム完全均衡となることができます。よって
1 ≤ δ
2(1 − δ) ⇐⇒ δ ≥ 2 3 がその条件となります。
∗https://sites.google.com/site/gametheory2011mats/
†
梶 哲也(赤門総合研究棟420室/メール:[email protected])
‡
質問やコメント等あればメールをくださるか、直接来訪してください。
1
(e) 各ステージゲームにおいてプレイされる(すべてのプレーヤーの)行動の組をα(0), α(1), . . . と し、プレーヤーiの期待利得関数をgiとします。このとき無限繰り返しゲームにおける「平均利 得」は
(1 − δ)
∞
∑
t=0
δtgi(α(t))
で計算されます。これは、利得の現在価値
∑∞ t=0δ
tgi(α(t))が与えられたときに、それをあたかも 毎期毎期同じ利得cを得ているとみなしたときの現在価値
c
1−δ と等しくなるように選んだcのこ とです。繰り返しゲームから得られる利得をステージゲームにおける利得と同じ土俵で議論する ための概念といえます。
(f) ステージゲームにおけるミニマックス値は0(=相手が価格0を選んだときの最大利得)となり ます。
(g) 平均利得の実現可能領域は図1の灰色の領域で、境界も含む閉じた領域となります。一方、トリ ガー戦略によって(δが1に近ければ)達成可能な領域は、先ほどの実現可能領域のうち両者の利 得が厳密に0より大きい部分(つまりπ1軸、π2軸上の点を除いた領域)となります。
π1
π2
(0, 0)• (3, 0)•
•(2, 2) (0, 3) •
(32,32)
◦
図1 実現可能・達成可能な平均利得
問題 3 (有限繰り返しゲーム).
(a) バックワード・インダクションを用いて考えます。価格の組(1, 1)はステージゲームにおけるナッ シュ均衡になっているので、T期(最後の期)には(1, 1)をプレイすることはお互いに最適反応と なっています。次にT − 1期には、
• 今期自分がどんな行動をとっても次の期に実現する結果は変わらない
• 均衡上では相手は価格2をつけてくる
ということから、価格1に逸脱する動機があることになります。よって1つ目のトリガー戦略は T ≥ 2のときサブゲーム完全均衡とはなりえません。
(b) ここでも同様にバックワード・インダクションを用いて考えます。今まで均衡上を進んできた場 合、T期に相手は価格1をつけることがわかっているので、それに対する最適反応は1となりま す。もしどちらかが均衡から外れていた場合、T期にもう一方は価格0をつけることがわかってい るので、自分もそれに対する最適反応のひとつである0をとれば、T 期から始まるサブゲームの ナッシュ均衡となります。次にT − 1期には、
• 今まで均衡上を進んできた場合、今期価格2から逸脱すれば最大で3 − 2 = 1の利得を得ら れるが、δ(
3
2 − 0) = 3
2δの利得を失う
2
• もしどちらかが均衡から外れていた場合、上に述べた理由でT 期に(0, 0)をプレイすること になるので、T − 1期にも価格0から逸脱する動機はない
ということから1 ≤
3
2δ⇔ δ ≥ 2
3であればこの戦略はこのサブゲームのナッシュ均衡として成り立 つことがわかります。同じことを続けていくと、T− 2期には
1 ≤ 2δ + 3 2δ
2
(
= 3 2δ+
( 1 2δ+
3 2δ
2
))
であればいいことになりますが、これはδ ≥
2
3 であれば自動的に満たされることになります。同 様にδ ≥
2
3 であればそれ以前のすべてのサブゲームでこの戦略はナッシュ均衡となることが確認 できます。以上よりδ ≥
2
3であれば2つ目のトリガー戦略の組はサブゲーム完全均衡となります。 (c) 詳しくはBenoit and Krishna (1985)を参照してください。
問題 4 (情報不完備ゲーム). この問題で仮定される戦略bi = βviは価値viに対して強く単調となるの で、引き分けとなる確率は0です(β = 0の場合は若干プラスのβに逸脱する動機があるので考えませ ん)。したがって以下の計算では引き分けのケースは無視することとします。
(a) vi ∈ [0, 1]の確率密度関数はf(v) = 2vで与えられるので、分布関数はF(v) = v
2
となります。よっ て企業2が戦略b2 = βv2を取ってくるとき、企業1がb1をビッドして勝てる確率は
Pr{b2< b1} = Pr {
v2 < b1 β
}
=( b1 β
)2
となります。ここで企業1はb1 > βをビッドする動機はないので、その場合は考慮しなくてよい ことに注意してください。よって企業1の期待利得は
g1(b1, b2) =( b1 β
)2
(v1− b1)
となります。
(b) (a)で求めた期待利得をb1について微分すると、一階条件より
2 β
( b1
β )
(v1− b1) −( b1 β
)2
= 0 ⇐⇒ b1 =
2 3v1 と解けます。
(c) (b)よりβ = 23 のとき互いに最適反応となります。よってベイジアン・ナッシュ均衡は
(b∗1(v1), b∗2(v2)) =( 2 3v1,
2 3v2
)
と導かれます。
2
3 <1なので、各企業は自分の価値よりも低めに入札する動機があることがわかり ます。一般にsecond-price sealed-bid auctionであれば正直にビッドする戦略が支配的になること が知られています。上と同様にして、企業が支払う価格が 自分のビッドではなく 相手のビッドで あるとき、均衡戦略がbi = viとなることを確かめてみてください。
参考文献
Benoit, J.-P. and V. Krishna (1985): “Finitely Repeated Games,” Econometrica, 53, 4, 905–922.
3