「ゲーム理論」のポイント（PDFファイル）

(1)

ミクロマクロ経済学Ⅰ

33

５．ゲーム理論

この章では，各経済主体の戦略均衡について考えてみましょう．4 章までとは違う言葉が出てきますので，しっかりおさえておきましょう．ゲーム理論は，何人かの天才によって生み出されました．本章では扱いませんが，ゲーム理論といえば「ミニマックス均衡」

の事を指していた時代がありました．ミニマックス均衡は，フォン・ノイマンとモルゲンシュテルンの『ゲームの理論と経済行動』で詳解されました．ノイマンは，ゲーム理論だけでなく，コンピュータや天気予報の理論も創りました．その後，ナッシュによってゲーム理論は発展しました．本章では，ナッシュ均衡についてみていきましょう．

ナッシュは数学を使って解説しましたが，その後「囚人のジレンマ」というストーリーがつけられて，多くの人に知られるようになりました．

５−１．ナッシュ均衡

看守が2人にみせたのは下表です．

相棒の戦略黙秘自白黙秘（3年，3年）（10年，1年）

あなたの戦略

自白（1年，10年）（5年，5年）

ゲームに登場する「あなた」と「相棒」のことをプレーヤー，ゲームの得点を「利得」

といいます．プレーヤーと利得の組み合わせを表した表を「利得表」といいます．

表の横方向はあなたの戦略，縦方向は相棒の戦略です．表の数字は各プレーヤーの利得

（あなたの利得，相棒の利得）を表しています．あなたが黙秘，相棒が黙秘を選択すると，

組み合わせは左上になり，2 人とも懲役 3 年になります．同様に，あなたが黙秘，相棒が自白を選択すると，組み合わせは右上になり，あなたは懲役 10年，相棒は懲役 1年になります．

あなたと相棒は，銀行強盗の容疑をかけられています．2 人は，まったく犯行を自供しないので，看守は一計を案じることにしました．

まず，2 人を別々の部屋に入れて相談ができないようにします．そうして，

2 人に同じ条件を提示します．そうして，「相棒も同じ事をしている」と告げるのです．

さて，あなたはどうしますか？

(2)

34 ゲームを進める上で，ゲームのルールが必要になります．「囚人のジレンマ」のルールは，

「各プレーヤーは，自己の利得が最大になるような戦略を選択する」というものです．ゲームを解きながら，ルールも確認してみましょう．

相棒は別の部屋にいて，どの戦略を採るのか分かりませんので，どちらの戦略を採ってもいいように考えておきましょう．まず，相棒が黙秘した場合です．あなたが黙秘すると

（黙秘，黙秘）の組になり，あなたは懲役 3年になります．反対に，自白すると（自白，

黙秘）の組になり，あなたは懲役 1年になります．ということは，相棒が黙秘した場合には，あなたは自白したほうが得になります．（自白，黙秘）の組に目印をつけておきましょう．

同様にして，相棒が自白した場合には，黙秘の 10年と自白の5年を比べて，あなたは自白を選ぶことになります．結局，相棒の戦略にかかわらず，あなたは自白を選びます．このように，相手の戦略にかかわらず，自分の戦略が 1つに決まることを「支配戦略」といいます．

相棒も他の部屋で同じゲームをしています．相棒は，あなたが黙秘した場合と自白した場合でそれぞれ戦略を決めています．利得表をみながら，相棒の戦略をみていってください．相棒も自白の支配戦略を持つことが分かります．

あなたと相棒の戦略をみた後には，利得表に目印が何個かついていますね．あなたの戦略の目印と，相棒の戦略の目印の 2つがついている組（自白，自白）があります．ここが，

「ゲームの解」で，このゲームの結論です．このルールの下でのゲームの解を「ナッシュ均衡」とも言います．

CHECK POINT

ナッシュ均衡は 1 つとは限りません．ナッシュ均衡が 2 つあるゲームもありますし，ナッシュ均衡がないゲームもあります．ナッシュ均衡の数は，利得表によって変わってきます．

CHECK POINT

Aの利得しか表示していない利得表もよくあります．このときの Bの利得は，A の利得にマイナスをつけるか，Aの利得＋Bの利得＝100となっているかのどちらかです．問題文に表記してあるので，チェックが必要です．

(3)

35 さて，囚人のジレンマをよくみてみましょう．このゲームの特徴は，ナッシュ均衡が望ましい解ではないということです．ナッシュ均衡は，（自白，自白）ですが，これは2人とも懲役5年です．（黙秘，黙秘）では，2人とも懲役 3年ですから，こちらのほうが望ましいのに，ここには目印が 1つもありません．経済学では「望ましい」ということを表す言葉がいくつかありますが，その中でもよく使われる言葉に「パレート最適」というものがあります．囚人のジレンマでは，2 人のプレーヤーはパレート最適に達することができません．

囚人のジレンマは，さまざまなストーリーに応用されています．例えば，プレーヤーをイスラエルとパレスチナにします．そうして，黙秘→和平，自白→戦闘として，懲役 3年を死者3万人というようにゲームを変えると，今の状況を表していることになります．

５−１．繰り返しゲーム

囚人のジレンマをみて，自分の考えとは違う，と感じる人も多いと思います．たとえ，

「各プレーヤーは，自己の利得が最大になるような戦略を選択する」というルールの下でも，黙秘を選ぶ人が多いのではないでしょうか．これは，相棒として友人や家族など関係の深い人を想定しているためです．囚人のジレンマであっても，相手と長期的な関係が続く場合には，ゲームの解が変わることが知られています．そこで，次のゲームをみてみましょう．

新しいゲーム

B の戦略

協調裏切協調（3，3）（0，5）

A の戦

略裏切（5，0）（1，1）

このゲームは，（裏切，裏切）がナッシュ均衡になり，囚人のジレンマを表しています．

1回限りのゲームだと，（裏切，裏切）でゲームが決着しますが，ゲームが繰り返し行われる場合には，どちらかが裏切ると相手との信頼関係が損なわれて（裏切，裏切）が続く可能性が高くなります．そうすると，（協調，協調）を選び続けたときよりも，合計利得（得点）が少なくなってしまいます．

アクセルロッドは，繰り返しゲームの研究を行い，世界中からプログラムを募集して，

コンピュータにゲームをさせました．サッカーのようにリーグ戦を行い，得点順で成績をつけたところ，2つの大会で同じプログラムが優勝しました．

それは，「オウム返し戦略（しっぺ返し戦略）」とよばれるものです．これは，1 手目は協調を選びます．その後は，相手の戦略を真似していくだけです．とても単純なプログラムですが，このプログラムが優勝しています．

オウム返し戦略は，相手が協調し続けている限りは，自分も協調し続けます．しかし，

相手が裏切った場合には，自分も次に裏切って相手に罰を与えます．オウム返しと似た戦

(4)

36 略に「トリガー戦略」というものがありますが，これは，相手が 1度でも裏切ると，その次からゲームが終わるまでずっと裏切り続けます．これに対して，オウム返しでは，相手が協調に戻ると，自分も次に協調に戻ります．オウム返しは，相手の裏切りには罰を与えるものの，協調に戻ればそれを許す柔軟性を持っています．これが長期的な得点を高くするのです．

ここから，1 回限りのゲームでは，裏切りベースの戦略を採りますが，繰り返しゲームでは協調ベースの戦略が有効であることが分かります．

§．授業で扱っていないトピック

ミニマックス均衡混合戦略

ゲームの樹サブゲーム