• 検索結果がありません。

5. 期待利得最大化原理の再検討ー Maximin 原理の立場から

5.2. Aumann-Maschler の例の再検討

Aumann-Maschler(1972, [6])が考察した次のような展開形ゲーム80はいずれのプレ イヤーも2点集合からなる選択肢の集合をただ1つ持ち,行動戦略と混合戦略が一致す るような極めて単純な展開形ゲームである.にもかかわらず展開形ゲームの問題点が明 瞭に現れていると思われるので我々の視点で再検討してみよう.

5.2.1. Aumann-Maschlerの例

QQQQQQQ

「自然」 1 2

p1

p2

α

β qα qβ (1.1)

(0.1)

(2.1)

(2.2)

(2.3) I2

bbbbb

αrα βrβ

z1 : (3,3)

z2 : (1,4)

bbbb

bb bbbbb

α β

rα rβ

z3 : (4,1)

z4 : (0,0)

bb

bbb

α β

rα rβ

z5 : (a1, b1) z6 : (a2, b2) Player 1

Player 2

time: t = 0 t= 1 t = 2

図5.2.1 Aumann-Maschlerのゲームの木

このゲームではまず,time t= 0の時点で「自然」が選択肢を確率p1で 1を,確率 p2で 2 を選ぶ(ただし,p1 >0, p2 >0を仮定する).Player 1はtime t= 1の時点で,

「自然」が選択肢 1を選んだときのみプレイすることが出来て,選択肢 αまたはβを選 択する.ただし,確率的選択を許す.つまり,αを確率 qαで,βを確率qβ = 1−qαで 選択することが出来る.次に time t = 2の時点でPlayer 2がプレイすることを許され,

選択肢αまたはβを選択する.ただし,確率的選択を許す.つまり,αを確率rαで,β を確率rβ = 1−rαで選択することが出来る.ただし,「自然」が選択する確率 p1, p2は Player 1もPlayer 2も知っているものとする(公理2.2).また,Player 2の情報集合の

意味は,Player 2は「自然」が何を選択したか,Player 1が何を選択したか一切の情報

を知ることなく,ただし,Player 1が戦略を選択するのは(プレイするのは)自分より

80ただし,利得表は本講義録の視点を明確にするように変更してある.「自然」の選択についても彼らの

例ではp1= 2/3, p2= 1/3となっている.また,彼らの数値例ではゼロサムゲームとなっているため,問

題意識が本講義録とはずれている.

先であることは認識した上で,戦略を決定しなければならないことを表している81. このゲームの場合,Player 1の戦略は頂点(1.1)(=Player 1の唯一の情報集合)での行 動戦略で選択肢α を選択する確率qαで決まり,同様に,Player 2の戦略はPlayer 2の唯 一の情報集合I2 での行動戦略でα を選択する確率 rαで決まるから,Player 1とPlayer 2の戦略はそれぞれ qαrα で表せる.(qα, rα) を戦略セットとよぶ.つまり,公理2.3 によって,「自然」が選択をする前に(ただし,確率 p1, p2は事前に与えられており,共 有知識となっていることを忘れてはならない) 戦略セット(qα, rα)が決定されてumpire に通告されていなければならない.

戦略セット(qα, rα)に対するPlayer 1とPlayer 2の期待利得u1(qα, rα),u2(qα, rα)は それぞれ次のように表される.

u1(qα, rα) =p1qα(3rα+rβ) + 4p1qβrα+p2(a1rα+a2rβ), u2(qα, rα) = rα(3p1qα+p1qβ+b1p2) +rβ(4p1qα+b2p2).

従って,戦略セット(qαN, rαN)がNash均衡戦略であるための必要十分条件を定義5.3 に従って書き下すと次の式が得られる.

(i) 0≤ ∀qα 1 に対して,

u1(qαN, rNα)−u1(qα, rαN) = p1(qNα −qα)(2rNα + 1) + 4p1rα(qβN −qβ)

=p1(qNα −qα)(2rαN + 1)0. (5.1) この条件式はp1 >0, b1, b2 には依存していないことに注意されたい.

(ii) 0≤ ∀rα 1 に対して,

u2(qαN, rNα)−u2(qNα, rα) = (rαN −rα)(3p1qNα +p1qβN +p2b1) + (rNβ −rβ)(4p1qαN +p2b2)

= (rαN −rα)f(qNα)0. (5.2)

ここで,

f(x)≡ −2p1x+p1 +p2(b1−b2) (5.3) 条件不等式(5.1)を見れば分かる通り,Player 1にとって,ナッシュ均衡戦略を求め るための自分に関する最適応答戦略は「自然」が選択肢2 を選択した場合に関係する利 得 a1, a2, b1, b2は全く影響しない.

実際,Player 1の選択は「自然」が1を選択した場合にのみ可能であり,Player 1に とっては頂点(1.1)に達したときのゲームである次のようなゲームの木で表される展開 形ゲームであると理解できるからである.このゲームはいわゆるチキンゲームと呼ばれ ているタイプのゲームで次のような2組の純粋ナッシュ均衡N1, N2 と 1組の混合ナッ シュ均衡N3 が存在することが容易にわかる.それぞれのナッシュ均衡に対して,Player 1が頂点(1.1)で仮想的に想定する期待利得を u(1.1)1 (Nk) ; k= 1,2,3とする.

81Player 2が,Player 1がプレイをした後にプレイする,という表現をすると,そのことは「自然」が

選択肢1を選択したことを意味しているからPlayer 2は「自然」が選択肢1を選択したことを知ってし まう.従って,各プレイヤーがいつプレイするべきか,というプレイする順序を明示した説明の仕方をし た.ゲームの木はいつ各プレイヤーがプレイすべきかを表しており,そのことはすべてのプレイヤーの共 有知識である.timeを明示したくなければ,umpireが各プレイヤーにプレイすべき時を告げねばならな い.展開形ゲームの場合,公理2.3(戦略の事前選択の原理)を担保するためにumpireを置いておく,と 考える方が理解し易い.

N1 :qαN1 = 0, rαN1 = 1. u(1.1)1 (N1) = 4, N2 :qαN2 = 1, rαN2 = 0. u(1.1)1 (N2) = 1, N3 :qαN3 = 1/2, rNα3 = 1/2, u(1.1)1 (N3) = 2.

α qα qβ β (1.1)

(2.1)

(2.2) I2

bbbbb

α rα rβ β

z1 : (3,3)

z2 : (1,4)

bbbb

bb bbbbb

α

qα qβ β

z3 : (4,1)

z4 : (0,0) Player 1

Player 2

time: t= 1 t = 2

図 5.2.1. Player 1が理解するゲームの木

しかしながら,このような理解の仕方は根本的に間違っている.Aumann-Maschlerの 論文では様々に検討され,その後,反論(Tayler 1972, [74]),再反論(Aumann-Maschler

1974, [7])と混乱した議論が繰り返された理由は,我々の公理2.3(戦略の事前選択の原

理)を無視しているからである.また,Player 2から見た場合,Player 2の理解するゲー ムはあくまで図5.2.1 のゲームであって,図 5.2.1 のゲームではない.この時点で公理 2.2の共有知識の公理が満たされていないからそもそもナッシュ均衡を定義すること自 体が無意味である.

最後に図5.2.1のゲームについて,ナッシュ均衡をすべて求めてみよう.無限個のナッ

シュ均衡戦略セットが現れるのは限られた場合であり82,ナッシュ均衡戦略セットが有 限個となるのは次の場合に限られる.

1. Case 1. f(1) > 0 の場合.つまり,p1 < p2(b1−b2)の場合.次のような純戦略 ナッシュ均衡戦略セットN1 : (qαN1, rαN1)がただ一つが存在する.

N1 : qαN1 = 0, rαN1 = 1

この時の各プレイヤーの期待利得は

u1(N1)≡u1(qαN1, rαN1) = 4p1 +p2a1, u2(N1)≡u2(qαN1, rαN1) =p1+p2b1

2. Case 2. f(0) <0 の場合.つまり,p2(b1−b2)<−p1の場合.次のような純戦略 ナッシュ均衡戦略セットN2 : (qαN2, rαN2)がただ一つが存在する.

N2 : qαN2 = 1, rαN2 = 0

この時の各プレイヤーの期待利得は

u1(N2)≡u1(qαN2, rαN2) = p1+p2a2, u2(N2)≡u2(qαN2, rαN2) = 4p1+p2b2

3. Case 3. f(1) <0 < f(0) の場合.つまり,−p1 < p2(b1 −b2) < p1の場合.Case

1とCase 2の場合と同じ純戦略ナッシュ均衡戦略セット2つと次のような混合ナッシュ

82どのような場合か各自でチェックされたい.

均衡戦略セットN3が存在する.すなわち,

N1 : qαN1 = 0, rαN1 = 1

u1(N1) = 4p1+p2a1, u2(N1) =p1+p2b1 N2 : qαN2 = 1, rαN2 = 0

u1(N2) =p1+p2a2, u2(N2) = 4p1+p2b2

さらに,0< qαN3 <1の範囲でf(qαN3) = 0を満たす解が存在して混合ナッシュ均衡 N3 : qαN3 = 1/2 +p2(b1−b2)/p1, rαN3 = 1/2

が存在する.この時の各プレイヤーの期待利得は

u1(N3) = 2p1+p2(a1 +a2)/2, u2(N3) = 2p1+p2(2b1 −b2) である.

検討.まず第1に気づくことは上記の場合分けは完全にPlayer 2の利得b1, b2によっ て左右されるということである.このことは,Aumann-Maschler も指摘しているよう

に,Player 1から見て納得できない.何故ならば,Player 1は「自然」が選択した結果

を知る立場にいるからである.つまり,Player 1が選択できるのは「自然」が1を選択 した場合のみであって,その時点ではすでに b1, b2はゲームの結果とは無関係であるこ とが分かっているからである.第2に,複数のナッシュ均衡が存在するcase 3の場合,

Player 1は,定義3.1に従って優先的意思決定権があることを自他ともに認識している以

上,Player 1が選択する頂点(1.1)においてナッシュ均衡N1が最適であるにも拘わらず,

Player 2はゲームの木のルールによってそのことを認識できない.Aumann-Maschlerの

混乱の原因はPlayer 1が頂点(1.1)に達した時点で改めてあれこれ戦略を検討するから であって,我々の公理2.3と定義3.1に従って,timet = 0の時点で意思決定しなければ ならないことを確認すれば何ら混乱はないのである.

結局,Aumann-Maschler論文の最大の意義は,従来の標準的ゲーム理論で殆ど自明

な前提とされていた期待利得最大化の原理(公理2.1)と共有知識の原理(公理2.2)の他 に戦略の事前選択の原理(公理2.3)が必要である,ということを我々に認識させてく れたことではないだろうか.

ところで,従来の標準的ゲーム理論の根幹である期待利得最大化原理と共有知識の 原理の完全履行を求めるいわゆる「完全合理性」が強すぎる前提であるとするならばど のような方向に改善すべきであろうか.この「完全合理性」の仮定をゆるめる「限定合 理性」を目指す試みは従来から繰り返されている.本講義録ではその一つの可能性とし てすでに河野(2013, [38])で導入したMaximin原理83に基づく公理2.1を用いた分析例 を紹介,検討し新たなゲーム理論の可能性を探りたい84

まず手始めにAumann-Maschlerの例,図5.2.1のゲームに対してMaximin戦略を 求めてみよう.すでに指摘したようにMaximin戦略は各情報集合上の行動戦略に対し て定義される.この例であればPlayer 1の頂点(1.1)における想定値v1(1.1) とMaximin 戦略qαm(1.1),Player 2の情報集合I2上の想定値v2I2 とMaximin戦略rαmI2 を求める必要

83河野(2013, [38])では,Maximin原理に基づく合理性を「Maximin合理性」と呼んでいる.それに対 して,従来のゲーム理論の枠内でナッシュ均衡を分析の中心にすえる考え方を「ナッシュ合理性」と呼ん で区別している.

84Maximin戦略を原理として前提に加えたゲーム理論の構築は河野(2013, [38])によって試みられては

いるがまだ十分成熟した理論にはなっていない.本講義録の考察と共に,従来の「標準的」ゲーム理論の さらなる再検討が切に望まれる.

がある85.Player 1の頂点(1.1)における期待利得u(1.1)1 (qα, rα)はu1(qα, rα)において,

p1 = 1, p2 = 0とおいた値だから,

u(1.1)1 (qα, rα) = qα(3rα+rβ) + 4qβrα =rα(−qα+ 4) +rβqα 従って86,Player 1の頂点(1.1)における想定値v(1.1)1

v(1.1)1 = max

0qα1{(−qα+ 4)∧qα}= max

0qα1qα = 1 : 故にqαm(1.1) = 1.

Player 2の情報集合I2における期待利得uI22(qα, rα)は新しい情報を得ることなくプレイ するわけだから,u2(qα, rα)と同じである.従って,Player 2の情報集合I2における想定 値 v2I2

v2I2 = max

0rα1 min

0qα1u2(qα, rα)

= max

0rα1 min

0qα1{qα(3p1rα+ 4p1rβ) +qβp1rα+p2(b1rα+b2rβ)}

= max

0rα1{p1(−rα+ 4)∧p1rα+p2(b1−b2)rα}+p2b2

= max

0rα1{f(0)rα}+p2b2, ただし,f(x)は式5.3で定義されている.

結局,Player 2のMaximin戦略はPlayer 1と違って,p1, b1, b2に依存して決まることが わかる.数学的には3通りに分かれるが,ここではf(0) >0の場合を考えてみよう.こ の場合,Maximin戦略はrαmI2 = 1,想定値はv2I2 =p1+p2b1となる.ここで,Player 1

もPlayer 2も公理2.1に従っていることが共有知識になっている(つまり,公理2.2が

満たされている)としよう.このとき,Player 1もPlayer 2もMaximin合理性に基づい

てMaximin戦略を採用するわけだから,Player 1の利得は

u1(qm(1.1)α , rαmI2) = 3p1+p2a1(≡u1(M)とおく), Player 2の利得は

u2(qαm(1.1), rmIα 2) = 3p1+p2b1(≡u2(M)とおく)87

となる.f(0) > 0はもとの展開形ゲームのCase 1またはCase 3の場合だから,rαN1 = rmIα 2 であり,u2(N1) < u2(M)となるから,Player 2にとってはナッシュ合理性に立つ

より,Maximin合理性に立った方がベターではないだろうか.一方,Player 1にとって

は,Aumann-Maschlerがあれこれ思い悩むように,ゲームの構造を本当にPlayer 2が公 理2.1〜公理2.3と定義3.1を完全に理解してくれていて,自分が優先的意思決定権を行 使することを認識してくれているだろうか,と不安に思うのは尤もである.それならリ スクを伴わないMaximin合理性の立場に立つ方が合理的だ,と考えるのも尤もではなか ろうか.

85このゲームの例では各プレイヤーは1つの情報集合しか持たないから,いちいち情報集合を特定する 必要はないのであるが,一般化した場合のことを考えてあえて情報集合を明示した.

86ここで,良く知られた記号abmin{a, b}, abmax{a, b} を用いる.なお,図5.2.1のゲーム の木を眺めれば直ちに分かることではあるが,利得を一般的に記号で表したとき,想定値が自明に求めら れるわけではない.従来の標準的ゲーム理論の教科書では殆どの例が数値例であるためにその場限りの推 論で満足してしまい,一般的な条件の下での数学的推論を行う力が身につかないと常日頃思っているので 本講義録では自明に思える例でも直ちに一般化できる推論の仕方を心がけた.

87u1(M)u2(M)を河野(2013, [38])では,「実現値」と呼んだ.ナッシュ合理性の立場に立つ限り,「実 現値」は「均衡」ではないから,この状態を「Maximin均衡」と呼ぶべきではない.