Aumann-Maschler の例の再検討 - 期待利得最大化原理の再検討ー Maximin 原理の立場から

5. 期待利得最大化原理の再検討ー Maximin 原理の立場から

5.2. Aumann-Maschler の例の再検討

Aumann-Maschler(1972, [6])が考察した次のような展開形ゲーム⁸⁰はいずれのプレイヤーも2点集合からなる選択肢の集合をただ1つ持ち，行動戦略と混合戦略が一致するような極めて単純な展開形ゲームである．にもかかわらず展開形ゲームの問題点が明瞭に現れていると思われるので我々の視点で再検討してみよう．

例 5.2.1. Aumann-Maschlerの例

QQQQQQQ

「自然」• 1 2

p₁

p₂

β q_α q_β (1.1)•

(0.1)

(2.1)

(2.2)

(2.3) I₂

•

bbbbb

αr_α βrβ

◦

z₁ : (3,3)

z₂ : (1,4)

bbbb

bb bbbbb

•

◦

◦ α β

r_α r_β

z₃ : (4,1)

z4 : (0,0)

•_bb

bbb

α β

r_α r_β

◦

z₅ : (a₁, b₁) z₆ : (a₂, b₂) Player 1

Player 2

time: t = 0 t= 1 t = 2

図5.2.1 Aumann-Maschlerのゲームの木

このゲームではまず，time t= 0の時点で「自然」が選択肢を確率p₁で 1を，確率 p₂で 2 を選ぶ（ただし，p₁ >0, p₂ >0を仮定する）．Player 1はtime t= 1の時点で，

「自然」が選択肢 1を選んだときのみプレイすることが出来て，選択肢 αまたはβを選択する．ただし，確率的選択を許す．つまり，αを確率 q_αで，βを確率q_β = 1−q_αで選択することが出来る．次に time t = 2の時点でPlayer 2がプレイすることを許され，

選択肢αまたはβを選択する．ただし，確率的選択を許す．つまり，αを確率r_αで，β を確率r_β = 1−r_αで選択することが出来る．ただし，「自然」が選択する確率 p₁, p₂は Player 1もPlayer 2も知っているものとする（公理2.2)．また，Player 2の情報集合の

意味は，Player 2は「自然」が何を選択したか，Player 1が何を選択したか一切の情報

を知ることなく，ただし，Player 1が戦略を選択するのは（プレイするのは）自分より

80ただし，利得表は本講義録の視点を明確にするように変更してある．「自然」の選択についても彼らの

例ではp₁= 2/3, p₂= 1/3となっている．また，彼らの数値例ではゼロサムゲームとなっているため，問

題意識が本講義録とはずれている．

先であることは認識した上で，戦略を決定しなければならないことを表している⁸¹．このゲームの場合，Player 1の戦略は頂点(1.1)(=Player 1の唯一の情報集合)での行動戦略で選択肢α を選択する確率q_αで決まり，同様に，Player 2の戦略はPlayer 2の唯一の情報集合I₂ での行動戦略でα を選択する確率 r_αで決まるから，Player 1とPlayer 2の戦略はそれぞれ q_αとr_α で表せる．(q_α, r_α) を戦略セットとよぶ．つまり，公理2.3 によって，「自然」が選択をする前に(ただし，確率 p₁, p₂は事前に与えられており，共有知識となっていることを忘れてはならない) 戦略セット(q_α, r_α)が決定されてumpire に通告されていなければならない．

戦略セット(q_α, r_α)に対するPlayer 1とPlayer 2の期待利得u₁(q_α, r_α),u₂(q_α, r_α)はそれぞれ次のように表される．

u₁(q_α, r_α) =p₁q_α(3r_α+r_β) + 4p₁q_βr_α+p₂(a₁r_α+a₂r_β), u₂(q_α, r_α) = r_α(3p₁q_α+p₁q_β+b₁p₂) +r_β(4p₁q_α+b₂p₂).

従って，戦略セット(q_α^N, r_α^N)がNash均衡戦略であるための必要十分条件を定義5.3 に従って書き下すと次の式が得られる．

(i) 0≤ ∀q_α ≤1 に対して,

u₁(q_α^N, r^N_α)−u₁(q_α, r_α^N) = p₁(q^N_α −q_α)(2r^N_α + 1) + 4p₁r_α(q_β^N −q_β)

=p₁(q^N_α −q_α)(−2r_α^N + 1)≥0. (5.1) この条件式はp₁ >0, b₁, b₂ には依存していないことに注意されたい．

(ii) 0≤ ∀rα ≤1 に対して,

u₂(q_α^N, r^N_α)−u₂(q^N_α, r_α) = (r_α^N −r_α)(3p₁q^N_α +p₁q_β^N +p₂b₁) + (r^N_β −r_β)(4p₁q_α^N +p₂b₂)

= (r_α^N −rα)f(q^N_α)≥0. (5.2)

ここで，

f(x)≡ −2p₁x+p₁ +p₂(b₁−b₂) (5.3) 条件不等式(5.1)を見れば分かる通り，Player 1にとって，ナッシュ均衡戦略を求めるための自分に関する最適応答戦略は「自然」が選択肢2 を選択した場合に関係する利得 a₁, a₂, b₁, b₂は全く影響しない．

実際，Player 1の選択は「自然」が1を選択した場合にのみ可能であり，Player 1にとっては頂点(1.1)に達したときのゲームである次のようなゲームの木で表される展開形ゲームであると理解できるからである．このゲームはいわゆるチキンゲームと呼ばれているタイプのゲームで次のような2組の純粋ナッシュ均衡N₁, N₂ と 1組の混合ナッシュ均衡N3 が存在することが容易にわかる．それぞれのナッシュ均衡に対して，Player 1が頂点(1.1)で仮想的に想定する期待利得を u^(1.1)₁ (N_k) ; k= 1,2,3とする．

81Player 2が，Player 1がプレイをした後にプレイする，という表現をすると，そのことは「自然」が

選択肢1を選択したことを意味しているからPlayer 2は「自然」が選択肢1を選択したことを知ってしまう．従って，各プレイヤーがいつプレイするべきか，というプレイする順序を明示した説明の仕方をした．ゲームの木はいつ各プレイヤーがプレイすべきかを表しており，そのことはすべてのプレイヤーの共有知識である．timeを明示したくなければ，umpireが各プレイヤーにプレイすべき時を告げねばならない．展開形ゲームの場合，公理2.3（戦略の事前選択の原理）を担保するためにumpireを置いておく，と考える方が理解し易い．

N₁ :q_α^N¹ = 0, r_α^N¹ = 1. u^(1.1)₁ (N₁) = 4, N₂ :q_α^N² = 1, r_α^N² = 0. u^(1.1)₁ (N₂) = 1, N₃ :q_α^N³ = 1/2, r^N_α³ = 1/2, u^(1.1)₁ (N₃) = 2.

α q_α q_β β (1.1)•

(2.1)

(2.2) I2

•

bbbbb

α r_α r_β β

◦

z1 : (3,3)

z₂ : (1,4)

bbbb

bb bbbbb

•

◦

◦ α

q_α q_β β

z3 : (4,1)

z₄ : (0,0) Player 1

Player 2

time: t= 1 t = 2

図 5.2.1^∗. Player 1が理解するゲームの木

しかしながら，このような理解の仕方は根本的に間違っている．Aumann-Maschlerの論文では様々に検討され，その後，反論(Tayler 1972, [74])，再反論(Aumann-Maschler

1974, [7])と混乱した議論が繰り返された理由は，我々の公理2.3（戦略の事前選択の原

理）を無視しているからである．また，Player 2から見た場合，Player 2の理解するゲームはあくまで図5.2.1 のゲームであって，図 5.2.1^∗ のゲームではない．この時点で公理 2.2の共有知識の公理が満たされていないからそもそもナッシュ均衡を定義すること自体が無意味である．

最後に図5.2.1のゲームについて，ナッシュ均衡をすべて求めてみよう．無限個のナッ

シュ均衡戦略セットが現れるのは限られた場合であり⁸²，ナッシュ均衡戦略セットが有限個となるのは次の場合に限られる．

1. Case 1. f(1) > 0 の場合．つまり，p₁ < p₂(b₁−b₂)の場合．次のような純戦略ナッシュ均衡戦略セットN₁ : (q_α^N¹, r_α^N¹)がただ一つが存在する．

N₁ : q_α^N¹ = 0, r_α^N¹ = 1

この時の各プレイヤーの期待利得は

u₁(N₁)≡u₁(q_α^N¹, r_α^N¹) = 4p₁ +p₂a₁, u₂(N₁)≡u₂(q_α^N¹, r_α^N¹) =p₁+p₂b₁

2. Case 2. f(0) <0 の場合．つまり，p₂(b₁−b₂)<−p₁の場合．次のような純戦略ナッシュ均衡戦略セットN₂ : (q_α^N², r_α^N²)がただ一つが存在する．

N₂ : q_α^N² = 1, r_α^N² = 0

この時の各プレイヤーの期待利得は

u₁(N₂)≡u₁(q_α^N², r_α^N²) = p₁+p₂a₂, u₂(N₂)≡u₂(q_α^N², r_α^N²) = 4p₁+p₂b₂

3. Case 3. f(1) <0 < f(0) の場合．つまり，−p₁ < p₂(b₁ −b₂) < p₁の場合．Case

1とCase 2の場合と同じ純戦略ナッシュ均衡戦略セット2つと次のような混合ナッシュ

82どのような場合か各自でチェックされたい．

均衡戦略セットN3が存在する．すなわち，

N₁ : q_α^N¹ = 0, r_α^N¹ = 1

u₁(N₁) = 4p₁+p₂a₁, u₂(N₁) =p₁+p₂b₁ N₂ : q_α^N² = 1, r_α^N² = 0

u₁(N₂) =p₁+p₂a₂, u₂(N₂) = 4p₁+p₂b₂

さらに，0< q_α^N³ <1の範囲でf(q_α^N³) = 0を満たす解が存在して混合ナッシュ均衡 N₃ : q_α^N³ = 1/2 +p₂(b₁−b₂)/p₁, r_α^N³ = 1/2

が存在する．この時の各プレイヤーの期待利得は

u₁(N₃) = 2p₁+p₂(a₁ +a₂)/2, u₂(N₃) = 2p₁+p₂(2b₁ −b₂) である．

検討．まず第1に気づくことは上記の場合分けは完全にPlayer 2の利得b₁, b₂によって左右されるということである．このことは，Aumann-Maschler も指摘しているよう

に，Player 1から見て納得できない．何故ならば，Player 1は「自然」が選択した結果

を知る立場にいるからである．つまり，Player 1が選択できるのは「自然」が1を選択した場合のみであって，その時点ではすでに b₁, b₂はゲームの結果とは無関係であることが分かっているからである．第2に，複数のナッシュ均衡が存在するcase 3の場合，

Player 1は，定義3.1に従って優先的意思決定権があることを自他ともに認識している以

上，Player 1が選択する頂点(1.1)においてナッシュ均衡N₁が最適であるにも拘わらず，

Player 2はゲームの木のルールによってそのことを認識できない．Aumann-Maschlerの

混乱の原因はPlayer 1が頂点(1.1)に達した時点で改めてあれこれ戦略を検討するからであって，我々の公理2.3と定義3.1に従って，timet = 0の時点で意思決定しなければならないことを確認すれば何ら混乱はないのである．

結局，Aumann-Maschler論文の最大の意義は，従来の標準的ゲーム理論で殆ど自明

な前提とされていた期待利得最大化の原理(公理2.1)と共有知識の原理(公理2.2)の他に戦略の事前選択の原理（公理2.3）が必要である，ということを我々に認識させてくれたことではないだろうか．

ところで，従来の標準的ゲーム理論の根幹である期待利得最大化原理と共有知識の原理の完全履行を求めるいわゆる「完全合理性」が強すぎる前提であるとするならばどのような方向に改善すべきであろうか．この「完全合理性」の仮定をゆるめる「限定合理性」を目指す試みは従来から繰り返されている．本講義録ではその一つの可能性としてすでに河野(2013, [38])で導入したMaximin原理⁸³に基づく公理2.1^∗を用いた分析例を紹介，検討し新たなゲーム理論の可能性を探りたい⁸⁴．

まず手始めにAumann-Maschlerの例，図5.2.1のゲームに対してMaximin戦略を求めてみよう．すでに指摘したようにMaximin戦略は各情報集合上の行動戦略に対して定義される．この例であればPlayer 1の頂点(1.1)における想定値v₁^(1.1) とMaximin 戦略qα^m(1.1)，Player 2の情報集合I2上の想定値v₂^I² とMaximin戦略r_α^mI² を求める必要

83河野(2013, [38])では，Maximin原理に基づく合理性を「Maximin合理性」と呼んでいる．それに対して，従来のゲーム理論の枠内でナッシュ均衡を分析の中心にすえる考え方を「ナッシュ合理性」と呼んで区別している．

84Maximin戦略を原理として前提に加えたゲーム理論の構築は河野(2013, [38])によって試みられては

いるがまだ十分成熟した理論にはなっていない．本講義録の考察と共に，従来の「標準的」ゲーム理論のさらなる再検討が切に望まれる．

がある⁸⁵．Player 1の頂点(1.1)における期待利得u^(1.1)₁ (q_α, r_α)はu₁(q_α, r_α)において，

p₁ = 1, p₂ = 0とおいた値だから，

u^(1.1)₁ (q_α, r_α) = q_α(3r_α+r_β) + 4q_βr_α =r_α(−q_α+ 4) +r_βq_α 従って⁸⁶，Player 1の頂点(1.1)における想定値v^(1.1)₁ は

v^(1.1)₁ = max

0≤qα≤1{(−q_α+ 4)∧q_α}= max

0≤qα≤1q_α = 1 : 故にq_α^m(1.1) = 1．

Player 2の情報集合I₂における期待利得u^I₂²(q_α, r_α)は新しい情報を得ることなくプレイするわけだから，u₂(q_α, r_α)と同じである．従って，Player 2の情報集合I₂における想定値 v₂^I²は

v₂^I² = max

0≤rα≤1 min

0≤qα≤1u₂(q_α, r_α)

= max

0≤rα≤1 min

0≤qα≤1{q_α(3p₁r_α+ 4p₁r_β) +q_βp₁r_α+p₂(b₁r_α+b₂r_β)}

= max

0≤rα≤1{p₁(−r_α+ 4)∧p₁r_α+p₂(b₁−b₂)r_α}+p₂b₂

= max

0≤rα≤1{f(0)r_α}+p₂b₂, ただし，f(x)は式5.3で定義されている.

結局，Player 2のMaximin戦略はPlayer 1と違って，p₁, b₁, b₂に依存して決まることがわかる．数学的には3通りに分かれるが，ここではf(0) >0の場合を考えてみよう．この場合，Maximin戦略はr_α^mI² = 1，想定値はv₂^I² =p₁+p₂b₁となる．ここで，Player 1

もPlayer 2も公理2.1^∗に従っていることが共有知識になっている（つまり，公理2.2が

満たされている）としよう．このとき，Player 1もPlayer 2もMaximin合理性に基づい

てMaximin戦略を採用するわけだから，Player 1の利得は

u₁(q^m(1.1)_α , r_α^mI²) = 3p₁+p₂a₁(≡u₁(M)とおく), Player 2の利得は

u2(q_α^m(1.1), r^mI_α ²) = 3p1+p2b1(≡u2(M)とおく)⁸⁷

となる．f(0) > 0はもとの展開形ゲームのCase 1またはCase 3の場合だから，r_α^N¹ = r^mI_α ² であり，u2(N1) < u2(M)となるから，Player 2にとってはナッシュ合理性に立つ

より，Maximin合理性に立った方がベターではないだろうか．一方，Player 1にとって

は，Aumann-Maschlerがあれこれ思い悩むように，ゲームの構造を本当にPlayer 2が公理2.1〜公理2.3と定義3.1を完全に理解してくれていて，自分が優先的意思決定権を行使することを認識してくれているだろうか，と不安に思うのは尤もである．それならリスクを伴わないMaximin合理性の立場に立つ方が合理的だ，と考えるのも尤もではなかろうか．

85このゲームの例では各プレイヤーは1つの情報集合しか持たないから，いちいち情報集合を特定する必要はないのであるが，一般化した場合のことを考えてあえて情報集合を明示した．

86ここで，良く知られた記号a∧b≡min{a, b}, a∨b≡max{a, b} を用いる．なお，図5.2.1のゲームの木を眺めれば直ちに分かることではあるが，利得を一般的に記号で表したとき，想定値が自明に求められるわけではない．従来の標準的ゲーム理論の教科書では殆どの例が数値例であるためにその場限りの推論で満足してしまい，一般的な条件の下での数学的推論を行う力が身につかないと常日頃思っているので本講義録では自明に思える例でも直ちに一般化できる推論の仕方を心がけた．

87u₁(M)とu₂(M)を河野(2013, [38])では，「実現値」と呼んだ．ナッシュ合理性の立場に立つ限り，「実現値」は「均衡」ではないから，この状態を「Maximin均衡」と呼ぶべきではない．

ドキュメント内 ( 2011, [32]) 2005 R.J.Aumann ( J.C.Harsanyi R.Selten 1 2 ( 2003, [26]) 1996 ( 8 ) ( Weibull 1995, [80]) (2008, [62]) (2011, [64]) (2011, [15]) (ページ 55-60)