長期的関係と協調

第 3 章展開形ゲーム 30

3.3 長期的関係と協調

有限回繰り返しゲームをあつかった3.3.1節はこのノートにもとづいて進める．無限回繰り返しゲームをあつかった3.3.2節は天谷 [6, 7章; 178–191頁]にもとづいて進める．

囚人のジレンマではお互いが協力した方が望ましいにもかかわらず，合理的な個人を想定した均衡ではそうならなかった．しかし現実には囚人のジレンマ的状況が長期間にわたって続いており，その中で協力が実現しているように見える場面がある．これを理論的に説明するため，この節では「繰り返し囚人のジレンマ」を考

える．3.3.1節では，繰り返しが有限回であれば，逆向き帰納法により理論上は協力が実現しないことをしめ

す．3.3.2節では，繰り返しが無限回のとき，もしプレーヤーが将来のことを十分気にするならば，協力が実

現できることをしめす．

ある市場で店1と店2が価格競争をしている．両者の戦略は H (high; 高価格)とL (low;低価格)で，利得は左図の戦略形で表される．^*19 右図はその展開形であり，店1の行動(HとLのどちらを選択するか)を

知らずに店2が行動を決めることを上下2点をふくむ情報集合で表している: 展開店2 形

H L

店1 H 3, 3 0, 4 L 4, 0 1, 1

このゲームは「囚人のジレンマ」の構造をしている．つまり，どちらの店にとっても低価格Lを選ぶのが支配戦略になっており，ナッシュ均衡はそれらの組み合わせ(L, L)になるが，「協力」を意味する高価格の組み

合わせ(H, H)の方が両者とも利得は高い．相手が高価格のときは自分が低価格を選ぶことで利得が上がり，

客を奪われた相手の利得はそのとき最悪になる．

3.3.1 有限回繰り返し囚人のジレンマ

「繰り返しゲーム(repeated game)とは，あるゲーム(各段階ごとのゲームなので，ステージ・ゲーム(stage game)と呼ぶ)を各期t= 1, 2, 3, . . .nに繰り返すようなゲームである(最後の期nが存在すれば有限回繰り返しゲームで，存在しなければ無限回繰り返しゲーム)．以下では，ステージ・ゲームとして，上記の店1と店2の囚人のジレンマ (価格競争)を考え，そこにおける戦略(HとL)_を「行動(action)」と呼ぶことにする．各期にプレーヤーたちがそれ以前の期に取られた行動をすべて観察できるとすれば，その期の最初の決定点以降は部分ゲームとなる．たとえば囚人のジレンマを2回繰り返したゲームの展開形は図のようになり，全

体ゲーム以外に4つの部分ゲームが存在する．第1期のステージ・ゲームの行動の組み合わせ4つ((H, H) 展開形

*19神取7.5節の(ベルトラン・モデルに基づく)ゲームと多少異なる．神取はステージ・ゲームの利得表を明示していないが，高価格

p^∗と低価格c以外にもp^∗より若干だけ低い価格も選べるような，無限個の戦略を持つゲームを考えていると思われる．ここではその中からふたつだけ戦略を取り出しており，戦略Hが神取のステージゲームでいう価格p^∗に，戦略Lが価格cに当たると考えて差し支えない．その場合，低価格Lをともに選んだときの利得1が神取のではゼロ利潤に相当する．これは店の決定に関係なくかかる費用が1単位分あって，それらが利得から引かれていないだけと考えることができる．地代や被雇用者への賃金1単位分が引かれていないだけかもしれないし，店の所有者が店を出す代わりにべつの事業をすることで得られる儲け1単位分(機会費用)が引かれていないのかもしれない．「ゼロ利潤」というのは，事業を拡大も縮小もせず続けられるぎりぎりのラインと理解しておけばいいだろう．詳しくは「機会費用」や経済学上の「利潤」という言葉を調べたらわかるはず．

と(H, L)と(L, H)と(L, L))のそれぞれに対応してひとつずつ第2期で始まる部分ゲームが存在することになる．全体ゲームにおける各プレーヤーの戦略は，5つある自分の情報集合のそれぞれで行動H あるいは Lを選ぶものであり，戦略は(無理にこんな表記をする必要はないが)たとえばHHLHHのように書け，これは第1期でHを選び，第2期では上からふたつめの部分ゲーム(第1期で(H, L)という組み合わせが選ばれた場合)でLを選び，それ以外の部分ゲームでHを選ぶような戦略を表す．第2期に選ぶ行動が，過去である第1期の行動の組み合わせに依存して決められることに注意してもらいたい．同様に，多期間にわたる繰り返しゲームでは，戦略とは各期tにおける行動を「第1期から第t−1期までの両者の行動の組み合わせ」

(_履歴(history))に応じて決められるような条件付き行動計画(関数)である．

なお，2回繰り返し囚人のジレンマでは，各プレーヤーの利得は (第1期の利得) + (第2期の利得)×δ

というふうに，各期の利得を現在価値に割り引いて合計したものになっている．ここでδ(デルタ)は割引因

子(割引率; discount factor)と呼ばれ，これらの店にとって，第2期における1単位の利得は第1期換算で

はδ (ただし0 ≤δ<1) 単位の価値しかないと想定している．より一般的に多期間にわたる繰り返しゲームでは，利得は

(第1期の利得) + (第2期の利得)×δ+ (第3期の利得)×δ²+. . .

というふうに，各期 t _における1_{単位の利得は}(t−1) _{期換算では}δ (_ただし 0≤δ <1) _{単位の価値しか} ないと想定する．(異なるプレーヤーの割引因子は異なってもよいが，ここではδ_{に等しいと仮定．})たとえば1年ごとに各期が刻まれ割引因子 δ= 0.9のばあい，「1年後にもらえる現金1万円」は現在価値に直せば

1×δ= 0.9万円にしか当たらず(現在から1年間は使えないなどの理由により)「今日もらえる1万円」より

は低い価値にとどまる．同様に「2年後にもらえる現金1万円」は今から1年後の時点で1×δ= 0.9万円の価値を持ち，現在に直せば1×δ²= 0.81万円の価値に相当する．(その名前に反するように思うかもしれないが)割引因子 δ_{の値が大きいほど}(1に近いほど)将来を割り引かない(つまり将来を気にする)プレーヤーを表し，この値が小さいほど(0に近いほど)将来を割り引くプレーヤーを表す．

まず，2回繰り返し囚人のジレンマで協力は実現しないことを逆向き帰納法でしめそう．繰り返しゲームの展開形を見て欲しい．第1期で(H, H)が選ばれたとき(つまり両方が高価格を選んだとき)の部分ゲームの

利得は，以下のように第1期で実現する各プレーヤーの利得3にもとの囚人のジレンマの利得のδ_倍が加えられただけであり，利得の大小で考えたゲームの構造はもとの囚人のジレンマそのものである．

店2

H L

店1 H 3 + 3δ,3 + 3δ 3 + 0δ,3 + 4δ L 3 + 4δ,3 + 0δ 3 + 1δ,3 + 1δ

よってこの部分ゲームにおける均衡は(L, L)となり，均衡における利得組は(3 +δ,3 +δ)となる(これは

(3,3) + (1,1)δ_に等しい)．同様に他の3つの部分ゲームでも，利得組は第1期で実現する各プレーヤーの利

得組(x1, x2)にもとの囚人のジレンマの利得組のδ倍が加えられただけであり，利得の大小で考えたゲームの構造はもとの囚人のジレンマそのものである．よっていずれの部分ゲームでも均衡は(L, L)となり，

• 第1期で(H, L)が選ばれたときの利得組は(0,4) + (1,1)δ= (0 +δ,4 +δ)に，

• 第1期で(L, H)が選ばれたときの利得組は(4,0) + (1,1)δ= (4 +δ,0 +δ)に，

• 第1期で(L, L)が選ばれたときの利得組は(1,1) + (1,1)δ= (1 +δ,1 +δ)になる．

この結果をもとにしてt= 1期における全体ゲーム (第2期の行動が決まった展開形を見よ)を戦略形で表すと，その利得組は以下のように第1期で実現する利得組(x1, x2)に(δ,δ)が加算されただけであり，利得の大小で考えたゲームの構造はもとの囚人のジレンマそのものである．

店2

H L

店1 H 3 +δ,3 +δ 0 +δ,4 +δ L 4 +δ,0 +δ 1 +δ,1 +δ

よってこの戦略形ゲームにおける均衡は(L, L)となり，均衡での利得組は(1 +δ,1 +δ)となる．以上より，

この全体ゲーム(2回繰り返し囚人のジレンマ)の均衡は(LLLLL, LLLLL)となり，どちらのプレーヤーもすべての情報集合で行動Lを選ぶことになる．つまり協力は実現しない．

繰り返しの回数が3回，4回，100回，あるいは1000回ならどうか？繰り返し囚人のジレンマでは繰り返し回数が有限である限り理論上は協力は実現しないことが同様にしめせる．すなわち最後の時点がt=n期であるとわかっていれば，プレーヤたちはそこから逆向き帰納法で「n期のどの部分ゲームでも(L, L)が選ばれる; (n−1)期のどの部分ゲームでも(L, L)が選ばれる; . . . ; 1期のゲームでは(L, L)が選ばれる」と推論できる．均衡ではどちらのプレーヤーもすべての情報集合で行動Lを選ぶことになり，協力は実現しない．

3.3.2 無限回繰り返し囚人のジレンマ

繰り返し囚人のジレンマを実際の人間で実験すると，繰り返し回数が大きいときは協力が実現することが多いようである．繰り返し回数が大きいときは，人間は「最後から逆向きに解いていく」という考え方をしないのかもしれない．このような状況を理論化する一つの方法が，最後の期が存在しないゲーム，すなわち無限回繰り返しゲームである．

これ以降は天谷[6, 7章; 178–191頁]にもとづいて講義を進める．このノートでは補いたい事柄と特に注意すべき点のみしめす．

• 無限回繰り返しゲームにおける戦略(180頁)．

• 無限回繰り返しゲームにも，協力が成立しない均衡は存在する．たとえば「常に低価格Lを選ぶ」

という戦略を AlwaysLと書けば，その組 (AlwaysL, AlwaysL)は部分ゲーム完全均衡になっている (182頁)．

• Trigger (トリガー戦略)は「状態遷移図」や「擬似プログラム」で表現できる．ふたりともこの戦略を

取れば協力が実現できるし，(あとでちゃんと示すけど)均衡になりそう(182頁)．

• Triggerを展開形に描けるか？

• 割引因子dは3.3.1節で出てきたδ_のこと (184頁)．そして利得は割引現在価格の合計．等比級数の和

の公式が使える(187頁)．

•「裏切らないための条件」(186頁) でやっているのは，割引因子が十分大きいとき，戦略組(Trigger,

Trigger) が部分ゲーム完全均衡になることの証明．神取395頁も参考に．任意の部分ゲームを考える

と以下の2種類に分けられる:

– すでにだれかが過去にLをプレイした後の部分ゲーム．

– まだだれも過去にLをプレイしたことのないような部分ゲーム．

天谷は前者を省略している．

• 戦略組 (Trigger, Trigger)が部分ゲーム完全均衡になることを証明するには，その組が各部分ゲームで

ナッシュ均衡になることをしめせばいい．そのため相手が Trigger をプレイすると仮定して，自分が

Triggerをプレイした場合の利得とそれ以外の戦略をプレイした場合の利得を比較すればいい．よって，

– 186頁第3段落の「まず，今日自分が高価格をつけたとすると」いうところは「まず，自分がTrigger をプレイすると」と言い換えた方がいい．

– 第4段落「一方，今日自分が低価格をつけた場合」では，(任意のt 期を表すとも解釈できる; 演習3.10参照)「今日」だけTriggerとは異なるような行動を取る戦略を考えているが(それでも無問題であるのは示せるけど[4, 220–221頁])，一般的には今日低価格Lを取ったあともときどきH も取る戦略もふくめて考慮すべき．よって明日以降の利得は1または0になる．

• 裏切らないための条件2 (188頁)の式の方が神取[16, 396頁]に近い．

• これらの結果は数値の違う囚人のジレンマでも成り立つ．割引因子δが満たすべき条件が変わるだけ．

• _{フォーク定理} (民間伝承定理)によれば，部分ゲーム完全均衡は(AlwaysL, AlwaysL) とか(Trigger,

Trigger)以外にいろいろあり，実現できる利得組もいろいろ．

• トリガー戦略は協力の復活の可能性を排除しており極端．相手に脅しをかけるために自分も損している．しっぺ返し戦略(tit for tat)の組でも協力は維持できる．この戦略は経験上いろんな戦略にたいして「強い」とされる (190頁)．ただし:

– しっぺ返しの組がナッシュ均衡ではあるが部分ゲーム完全均衡にならないことがある(たとえばグレーヴァ『非協力ゲーム理論』143頁参照);

– しっぺ返しの組がナッシュ均衡にならないような囚人のジレンマの例さえある．たとえば以下のゲームを繰り返すばあい，一度だけLに離脱してすぐ戻ると3ゲットして3δ_{失うだけ？}

店2

H L

店1 H 3, 3 0, 6 L 6, 0 1, 1

ドキュメント内 game1709notes 最近の更新履歴 H Reiju Mihara (ページ 32-37)

第 3 章 展開形ゲーム 30

3.3 長期的関係と協調

第 3 章展開形ゲーム 30