• 検索結果がありません。

プ レーヤーの繋が りと囚人の ジレンマ

N/A
N/A
Protected

Academic year: 2021

シェア "プ レーヤーの繋が りと囚人の ジレンマ"

Copied!
16
0
0

読み込み中.... (全文を見る)

全文

(1)

プ レーヤーの繋が りと囚人の ジレンマ

行 方 常 幸

目 次

1 節 は じめに

2 節 「囚人の ジ レンマ」ゲーム

3 節 「 繰返 し囚人の ジレンマ」ゲーム

3‑1 節 「 無限回練返 し囚人 の ジレンマ」ゲーム

3‑2 節 「 有限回繰返 し囚人 の ジレンマ」ゲーム 4 節 繋が りと厳密でない可能性 ( 時間一空間)

4‑1 節 時間的な繋が りと厳密でない可能性 4‑ 2節 空間的な繋が りとそのモデル

4‑ 3 節 数値例 5 節 ま とめ

補遺 参考文献

1 節 はじめに

商学討究第43 巻第 3・4合併号 において

[l]

「 繋が りの根拠 ‑ゲ‑ム理論 の 基礎 に向けて」, と超 して, プ レーヤーの繋が りの根拠を探 った。す なわち, 生身の人間がプ レーヤーである場合,通常想定 されているよ うにプ レーヤーを 自律的に行動す る理性的意思決定主体 とみな し, 自分の受 け取 る利得が他 のプ レーヤーの とる手 に依存す るとい う意味で,関係がある, とす るだけで は不十 分であ り, プ レーヤー自身の中に ( 人間存在の奥深 くに)他 との繋が りを求め るべ きで あ ることを述べ た。 そ こで,本稿で は社会現象 によ く現れ,色 々 と

〔 1 93〕

(2)

興味の尽 きない 「囚人の ジレンマ」 ・ゲームを取 り上げ,他 との繋が りを自分の 中に秘めたプレーヤーな ら,どう行動すべきかを考察 してみる。

2 節 「 囚人のジレンマ」ゲーム

「 囚人のジレン マ」 ゲ ー ム と は 図. 1 のような利 得行列を持つ非

力ゲームである。

これが 「 囚人のジ

プ レ‑ヤー 2

C D

プ レーヤ ‑ ・ D C (::, ':;::, I :;) :. ' :' <:'o

レンマ」 と呼ばれ る由縁 は次の通 りである。今, 自分をプ レーヤー 1とす る。

相手のプ レーヤー 2 が C ( coo per at i on 協調)を取 って くると仮定す ると, 自分が Cを取れば利得が 1 , D ( De fe c t i on 裏切 り)を取れば利得が aとな り ,a> 1 と仮定 しているので , D を取 る方が有利である。次に,プ レーヤー 2 が D を取 って くると仮定す ると, 自分が C を取れば利得が b , D を取れば利 得が 0 とな り, b < Oと仮定 しているので, D を取 る方が有利である

すな わち,相手が どの手を取 って くると仮定 して も, C よ りも D を取 る方が 自分 に とって有利 であ る。 この ことが 自分 の利得 を最大 に したい両方 のプ レー ヤーにつ いて言え るので,結局 ( D, D)

i

) が普通のゲーム理論が与え る 「 囚 人の ジレンマ」ゲームの答え となる

2).

しか しなが らこの ( D, D) を取 った 時の各 プ レーヤーの利得 は 0であ り, ( C ,C)を とった時の各 プ レーヤ‑の 利得 1 よ りも少 ない。合理的なプ レーヤーが 自分の利得を最大 にす るように 行動す ると,かえ って両方のプ レーヤーにとって不利益 な結果 に陥 って しま

1 )左側をプ レーヤー 1 ,右側 をプ レーヤー 2 の取 る手 ( 戦略) とす る。

2 ) この ( D,D) は均衡点 ( 後述)で もある。「囚人 の ジ レンマ」ゲームの場合,本 文で述べたよ うに相手が どの手を乗 ろ うともDを取るのが有利 とい う,均衡点 よ り

も強い意味で安定である。

(3)

プレーヤーの繋がりと囚人のジレンマ 195

i ̲9

̲これが ジレンマなのである。 この ジレンマを何 とか して回避 したいのであ るが,その前にどうして このようなジレンマが生 じてきたかを調べてみる

上記の ( D, D) が答えである, とした議論を もう一度吟味 してみ る

.

図.

1 において行プ レーヤー( プ レーヤー 1)は自分の利得 ( ベ ク トルの左の要素) を列方向( 上下方向)に比較 し,自分の取 るべ き手を決めようとす る。列 プ レー ヤー( プ レーヤー 2) も同様に自分の利得 ( ベ ク トルの右の要素)を行方 向 ( 左 右方向)に比較 し, 自分の取 るべ き手を決めようとす る

その結果 ( D, D)

が得 られたのである。決 して斜め方向に比較 していないのである。簡単 に言 う と,上で述べたように,利得行列 において,利得を上下方向と左右方向に比較 す るが,斜め方向には比較 しないのである。 この ことに注意す ると,「 囚人の ジレンマ」ゲ‑ムにおいて発生 している, 解 ( D, D) よりも2人のプ レーヤーに とって有利な斜 め方向にある戦略の組み ( C ,C) が存在 して も別 に不思議で もなんで もない。 ここで言 う 「ジレンマ」 とは何か別の考え方を導入 して この 状態 ( 合理的なプ レーヤーが合理的な行動を しようとす るとかえって不利な結 果を招いて しまう状態)を回避で きないか ?という問題提起を しているのであ

る。

さて,非協力ゲームとは,参加者である自律独立 した合理的なプ レーヤーが 自分の利得を最大にすることを 目的 とするゲームである

自分の決定 は最終的 には自分の利得が多 くなるように自分が決める

たとえ,話 し合いで取 り決め が行われて も,最終的にこれを守 るか被 るかは各 プ レーヤーの意思に委ね ら れ [2] , プ レーヤーは自分の利得を最大にす るよ うに最終判断を下す。 このよ

うな厳 しい状況を想定 したのが非協力ゲームであり,基本的な解の概念 は均衡 点 といわれるものである

ゲームの参加者である各プ レーヤの戦略の組みが均 衡点であるとは :

「 他のプレーヤーが均衡点で指定された戟略を取 ると仮定 した時,自分一 人だ けが均衡点 で指定 され た戦略以外 の戦略を取 って も得 にはな らな い。」 とい うことが,すべてのプ レーヤーについて成 り立っ ことである。

と,定義 されている。均衡 ( 釣 り合 っている,安定 している) とは自分一人だ

(4)

けが均衡点か らずれて も得を しないという意味であ り,複数のプレーヤーが同 時に均衡点か らずれた場合 と比較 して,安定であるということを意味 している 訳ではない。非協力ゲームにおいては,物理的な制約等か ら他のプ レーヤーと の間で戦略の調整が不可能であり,また最終決定を他のプ レーヤーとは独立に 自分の判断で下す と言 って も,どの戦略が望ま しいかを決める段階の仮想的な 思考において,他のプ レーヤーと同時に均衡点か らずれた場合を比較対象 とし て想定 しないのは少 し不十分 と思われ る。 この不十分 さは後で検討す るとし て, ジレンマを回避す る試みである 「 練返 し囚人の ジレンマ」ゲームを次節で 紹介す る。図. 1 の条件 a+b<2 は ( C ,C) を 2 回続 ける方が ( C, D) と

( D , C) を交互に行 うよりも有利な ことを意味 し, 「 繰返 し囚人のジレンマ」

ゲームを扱 う際に利用 される。

3 節 「 繰返 し囚人のジレンマ」ゲーム

前節で 1 回限 りの 「囚人の ジレンマ」ゲームを調べたが,均衡点 として唯一 つ ( D, D) が存在す るだけであった。 しか しなが ら, この 「 囚人のジレンマ」

を繰返 し行 うと,両プ レーヤーが共 に 「いっ もDを選ぶ。」以外の均衡点が存 在するようになる。

「 繰返 し囚人のジレンマ」ゲームとは前節の 「囚人のジレンマ」ゲームを繰 返 し ( 多期間)行 うゲームである。 この繰返 しゲームでは,各期でプレーヤー は自分 の手を取 る時に,その時までの相手及び自分の取 った手を記憶 してお り, この過去の履歴に依存 して自分の取 る手を決定できる。また,プ レーヤー の利得 は割引率 ∂ (0<∂< 1)で割 り引かれた利得の総和 ( の期待値)であ る。 ここで割引率を導入 したのは,経済学的には明 日の額面の 1 円の今 日の価 値 は ∂円であることを意味 し,数学的には無限級数を収束させ るためである。

「 練返 し囚人の ジレンマ」と 1回限 りの 「 囚人のジレンマ」 との本質的な違い

は各段階でプ レーヤーはそれまでの過去の履歴に依存 した手を取 ることがで き

る点である。 この過去の履歴,特に相手のプ レーヤーの取 った手に依存 して,

(5)

プレーヤーの繋が りと囚人のジレンマ 1 97

自分の手を決めることができるため,以下に述べ るようにある条件の下で,毎 回 ( C ,C) ( 協調,協調)が実現す る均衡点が存在す る。

3‑ 1 節 「 無限回繰返 し囚人の ジレンマ」ゲーム

さて,最初 は無限回線返す場合であるOまず,戦略D∞‑ 「いっ も D ( 裏切 り)を選ぶ。 」 3) とす ると, ( D ∞ ,D ∞)は均衡点である。 しか しなが ら, 6 ≧

(a‑ 1) / aな らば,次の戦略の組み ( CD ∞, CD ∞)が部分ゲーム完全な均 衡点 となることが知 られている 。[3 ]

CD 0 0‑ 「 第 1期 は C ( 協調)を選ぶ,第 2 期以降は以前 にD ( 裏切 り)が 1 度 も取 られていない限 り C ( 協調)を選ぶが, 1 度で も取 られていれば D ( 裏 切 り)を選ぶ 。」4)

すなわち,割引率 ∂が十分 1 に近 く,未来 も現在 と同等の価値があるとみな す ことがで き,相手のプ レーヤーが上記の戦略 CD ∞を取 って くるな らば, 自 分が戦略 CD 0 0か らそれて,今 D ( 裏切 り)を選んで 1回だけ 1よ り有利な a を得て も, 以後無限に裏切 りの応酬で 0しか得 られず, 結局損 になるのである。

キーポイ ン トは 「1 回の裏切 り 」 ‑ 「 無限回の裏切 りの応酬 」 とした ことと,

「 無限回の協調」は 「 無限回の裏切 り」よ り有利, となっていることである。

更 に,上記の均衡点 ( CD ∞ ,CD ∞)は部分ゲーム完全であ る。すなわち,両 方のプ レーヤーが CD のを使 っている限 り正の確率で訪れない状況か ら新たに 始 まる部分ゲームにおいて も均衡点 となっている. この部分ゲーム完全 とい う 性質 は,実際にその脅 しを実行す る羽 目に陥 った ら実行 しないであろう脅 しを 排除す るために要請 された性質である。

次 に興味ある性質 を持っ 「しっぺ返 し」戦略 [4 ]( Ti tForTat と呼ばれて いる。以下では CD lと略記す る。 )を紹介す る。

CDl ‑ 「 第 1 期 は C( 協調)を選ぶ,第 2 期以降は前の期 に相手のプ レーヤーが

3)D ∞で D を無限回繰返すことを表す。

4)CD ∞で最初は C を取るが, 1 度でも D が取 られたならば, D を無限回繰返すこと

を表す。

(6)

取 った手を選ぶ。 」( 言い換えると,「 第 1 期 は C ( 協調)を選ぶ,第 2 期以降は相手がDを取 った■( 裏切 った)場合のみ 1回だけ D ( 裏切 り) を選び,それ以外 は C ( 協調)を選ぶ 。」) 5)

6 ≧max ( (a‑ 1) /a ,(a‑ 1)/ (1‑ a)) とい う条件 の下で ( CD l ,

cDl ) は部分ゲーム完全ではない,均衡点である。文献 [4 〕で ( CD l , CDl )

が均衡点であることが証明されているが,少 し違 った証明と部分ゲーム完全で はないことを補遺で述べる。

さて, ( C o l , C o l) は以下のような興味ある性質を備えている。文献 [4]

の要点を私な りにまとめてみる。著者は幾っかの戦略を募集 して, 「 繰返 し囚 人のジレンマ」ゲームの選手権を行なった。自分 自身も含め集まった戦略 と対 戦 させ,総得点を競い合 った。 2 回の選手権を行 ったが,参加者の 1 つである

CD lが 2回 とも優勝 した 。( CD l , CDl ) が均衡点であるか ら,相手のプ レー ヤーが CD lを取 って くる限 り, 自分 は CD l以外の戦略を選ぶ利点 はない。

しか しなが ら, この選手権のように相手が他の戦略を取 る可能性がある場合は

CD lが有利であるという保証 は均衡点であるということか らは出て来ない。

ではなぜ この選手権で優勝 したのであろうか ?著者は次の 3 点を上げている。

1 ) 自分の方か ら裏切 り始めることはない。

2 )相手の裏切 りには即座に 1 回だけ報復する。

3 )相手にたい してわか りやすい。

自分 にとって一番有利なのは相手が C ( 協調)を取 り, 自分がD ( 裏切 り)香 取 ることであるが,相手 にとって これはもっとも不利なことなので易々と見逃 して くれることはない。 この搾取を諦めるとす ると,上記の 1)が言 うように

「自分の方か ら裏切 り始めない」 ことになる

しか しなが ら,相手の搾取 しよ うという邪念に対 しては毅然 とした態度で臨み,その邪念を即座 に諦めさせる 必要がある。すなわち;上記の 2 )が必要 となる 。( CD l , CDl ) は均衡点で あるので,相手に対 して 自分が CD lを利用 していることを確信 させれば,柏

5)CDl で最初 は C を取 り, D が取 られたな らば, 1 回だけ D を取 ることを表す。

(7)

プ レーヤーの繋が りと囚人 の ジレンマ 199 手 も CD lを取 るで あろ う。そ して, CD lはその構造か ら非常 に分か りやす

い戦略である ( 上記の 3 ) ) 0

CD lは 2 回の選手権で勝 ったが,面 白いことに直接の対戦相手 よ りも高い 得点をあげたことは 1 度 もなか った。また,前記の戦略 CD ∞もこの選手権 に 参加 していたが,あま り芳 しい成績をあげ られなか ったO この CD ∞は相手が 1 度で も D ( 裏切 り)を取 ると, この裏切 りを許 さず永久に報復す る。相手の 出来心的な裏切 りと性悪な裏切 りとを区別できず,前者の裏切 りに対 して も無 限に報復 して しまい, 自ら墓穴を掘 る結果 となっている。

以上, 「 無限回繰返 し囚人の ジレンマ」ゲームにおいて,割引率 ∂が十分 1 に近 く,未来 も現在 と同等の価値 とみな している時,毎回 (C ,C) ( 協調,協 調)を実現 させ る均衡点が存在す ることを紹介 した。 この 2 つの戦略 CD 0 0と CD lは共に 「 裏切 りには必ず報復す るか らやめなさい」 と公言 して ,( C ,C)

( 協調,協調)を実現 させているのである。更に,「 裏切 りには必ず報復す る か らやめなさい」 と言 う公言が現実的であるために,無限回の繰返 しと,未来

も現在 と同等の価値があることが必要だったのである。

3‑・ 2 節 「 有限回繰返 し囚人のジレンマ」ゲーム

3‑1 節で見 たよ うに 「 無限回繰返 し囚人の ジレンマ」ゲームにおいて は

( C, C) ( 協調,協調)を実現 させ る均衡点が存在 した。ではこの 「 囚人の ジ レンマ」ゲームを有限回 しか繰返 さない場合はどうであろうか ?今までの枠組 で は,( D∞,D0 0)が唯一の均衡点である。 しか し,以下のよ うにモデルを変 更す ると,「 有限回繰返 し囚人の ジレンマ

」6)

ゲームにおいて も, ( C ,C) ( 協 潤,協調)を実現 させ る均衡点が存在す る 。[3]

変更されたモデルでのプ レ‑ヤーは次のようである。 2人のプレーヤーの う ちプレ‑ヤ ‑ 2 は今まで考慮 してきた普通の, 自分の利得を最大に しようとす るプ レーヤ‑であるが,プレーヤー 1 はタイプ 1 とタイプ 2 に分かれ る

タイ

6) 「 有限回繰返 し囚人のジレンマ」ゲームにおいては割引率 ∂‑ 1 とする。

(8)

プ 2 はプ レーヤ ー2 と同様 自分の利得を最大に しようとす るが, タイプ 1 は CD l戦略 しか使わない。更 に,確率 p でプレーヤー 1 はタイプ 1 であると見 積 もられている。 このようにプ レーヤー 1 に自分の利得を最大 しようとせずに

CDlに固執するか もしれない, という可能性が存在す る場合,次の ことが成 立する。

「p ≧max ( ( all) / a, ‑ b/ (1‑ a)) な らば, 2 期を残 して,

( C ,C)( 協調,協調)を実現 させ る ( pe rf ectBayes i an) 均衡点が存 在す る。」

このよ うに,たとえ有限回の繰返 しで も,プ レーヤーの中の 1 人が 3‑1 節 で出て きた C( 協調)を誘 う CD lを使 う可能性がかな り高 いのな ら, ( C ,C)

( 協調,協調)が実現す る。

4 節 繋が りと厳密でない可能性 ( 時間‑空間)

2 節において 「 囚人の ジレンマ」ゲームを紹介 し, 1 回限 りでは ( D, D) ( 裏切 り,裏切 り)だけが均衡点であり,合理的なプ レーヤーが 自分の利得を 最大にす るように行動す ると,かえって両方のプレーヤーにとって不利益な結 巣に陥 って しまう, とい うジレンマを述べた

それを回避す るための試みとし て, 3 節で 「 繰返 し囚人のジレンマ」ゲームを導入 し,いかに回避できたかを 見てきた。 この節では 3 節での回避法を別の角度か ら検討 して,上記のジレン

マを回避す るもう一つのモデルを提出す る。

4‑ 1 節 時間的な繋が りと厳密でない可能性

囚人の ジレンマとは 「 合理的なプ レーヤーが 自分の利得を最大にす るように

行動す ると,かえ って両方のプ レーヤーにとって不利益 な結果 に陥 って しま

iE 」 というジレンマであった。 これをジレンマというのであるか ら, ( C ,C)

( 協調,協調)の方が ( D, D) ( 裏切 り,裏切 り)より優れていることは暗に

当然のこととされている

ただ, ( C ,C) ( 協調,協調)を簡単 に正当化するこ

(9)

プレーヤーの繋がりと囚人のジレンマ 20 1

とができなか っただけである。 3 節でどのような理由付 けを して ジレンマを回 避 したかを少 し詳 しく検討 してみる。

( C ,C) ( 協調,協調)を簡単 に正当化す ることが不可能な理 由は,プ レー ヤ‑を過度 に自律的に行動する理性的意思決定主体 とみな しているため,自分 の行動は自分で完全に制御できるが,他のプレーヤーの行動には直接的には影 響 されない, としている点である。 このため, 2 節で述べたよ うに,自分の取 るべ き行動を模索す る仮想思考において も,自分の行動を変化 させる時に,相 手はまるで石のよ うにその行動を変えない。そこで, 自分の行動の変化で相手 の行動が変わる,または,相手の行動で 自分が変わることをモデルに入れるた めに, 繰返 しゲームを導入 した。そ うす ることにより,各期 においてプ レーヤー は自分の取 る手をそれまでの過去の履歴に依存させて選ぶ ことができ, 自分の 行動の中に相手の行動を取 り込む ことができたO 無塵回繰返す場合には , ( C ,C)

( 協調,協調)を継続 させ る時間的な繋が りを維持できるために,割引率 ∂が 1 に十分近いとい う仮定が必要であった。また,有限回繰返す場合は,一方の プ レーヤーが協調行動を誘 う戦略 ( CD l ) を取 り続 ける可能性がある程度必 要であ った。 しか し, どち らも ( C ,C) ( 協調,協調)を実現 させ る安定な 均衡点の存在を示す ことがで きた。 ここで,プ レーヤー 1 のタイプ 1 が戦略 ( CD l ) を採用す ることに固執す ることは,厳密 にいえば不利益である。 こ のプ レーヤー 1のタイプ 1は厳密 さを敢えて放棄 してお り, このプ レーヤー 1 を考慮す ることにより厳密でない可能性をモデルの中に取 り込んでいるのであ る。すなわち,時間的な繋が りと厳密でない可能性を考慮す ることにより,初 期の ジレンマを回避できたのである。

このように繰返 しゲームを導入す ることにより,自律的に行動する理性的意 思決定主体であり, 自分の行動は自分で完全に制御できるが,他のプ レーヤー の行動には直接的には影響 されない,プ レーヤーが ( C ,C) ( 協調,協調)の 実現を正当化できることが分かった。たとえ繰返 しゲームの戦略が元の ものよ

り非常に複雑になるとして も, これは理論的には素晴 らしい結果である。

ただ,私 としてはプ レーヤーを過度に自律的に行動す る理性的意思決定主体

(10)

とみな し, 自分の行動 は自分で完全 に制御で きるが,他のプ レーヤーの行動に は直接的には影響 されない, と した仮定を検討す る必要が あるよ うに思われ る。便宜上, このようなプ レーヤーを 「 固いプ レーヤー」 と呼んでお く。

4‑2 節 空間的な繋が りとそのモデル

4‑1 節で ,1 回限 りの「 囚人の ジレンマ」ゲームに付随す るジレンマを 「 繰 返 し囚人の ジレンマ」ゲームで回避す ることは, 「 固いプ レーヤー」が壁圃堕 な繋が りと厳密で ない可能性を考慮す ることで ジレンマを回避す ることであ

る, との解釈を行 った。

参考文献 [ 1 ] で プ レーヤーが生身 の人 間であ る時, プ レーヤー 自身の 中に ( 人間存在の奥深 くに)他 との繋が りを求めるべ きであることを述べ,その根 拠を 3 つ述べた。 この繋が りは時間,空間を超えた ものであ り,更に, これ こ れの ものであると明白に限定で きるもので もなさそ うである。 しか し,それを 時間的に捉えて展開 させた ものが 4‑1 節で述べた時間的 な繋が りであ り,明 白に限定で きない点を考慮 に入れたのが厳密でない可能性であると解釈で き る。それで は, この繋が りを空間的に捉えて展開させた らどうなるだろ うか ? これを,特 に,「 囚人の ジレンマ 」 ゲームにおいて 「 ( C, C) ( 協調,協調)の 実現を正当化す る」ために考察す るのが本節の目的である。相手 との繋が りを 空間的に捉えるとは以下のように解釈す るプ レーヤー ( 便宜上,「 柔 らかいプ

レーヤー」 と呼ぶ)を想定す ることである

I ) 自分が取 るべ き手を探 る仮想思考 において, 自分が取 る手を変えよ うとす る時に相手 も同時に手を変え る可能性を考慮す る。 ( 空間的な繋が り)

Ⅱ) 上記の 「 相手 も同時に手を変え る可能性」を確率 として捉え る。

このプ レーヤーが一般的なゲームをいかに行 うかを考察す ることは困難 と思 われ るが,本稿の 目的は 「 囚人の ジレンマ」ゲームにおいて 「 ( C, C) ( 協調, 協調)の実現を正当化す る」 ことである。

自分をプ レーヤー 1,相手をプ レーヤ ー2 とす る。今,相手が C ( 協調)杏

確率 方で取 ると見積 もっているとす る。 自分が C ( 協調)を取れば,期待利得

(11)

プレーヤーの繋がりと囚人のジレンマ

C( x)D(1‑x)

?D C 臣 鳥 目 冨; 言 三 ) x+ ' 1‑∫)a

C D (0 ≦ E ≦1)

(1 ‑ 8)X 1‑(1‑ 8)x

⇒D C ( 嵩 日 吉 ; 冨 三) a(1 一 己)X

20 3

は x+(1‑x)b である ( 図. 2 参照) 。 自分が β ( 裏切 り)を取 ろ うと変 更 す る と柏 手 ( プ レー ヤ ー 2) が C( 協調) を 取 ろ うとす る確 率 も変 化 し ( 上 記 の柔 らか い プレーヤーの仮定 Ⅰ) , ( 1

‑ 8)x( 0 ≦ e ≦ 1) に 減 少 す る と仮 定 す る ( 上記 の柔 らかいプ レーヤーの仮定 Ⅱ) 。 この時の期待利得 は a(1‑ 8)x と なる( 図. 3 参照) 。x+(1‑x)b ≧ a(1‑ e) を解 くと, e ≧ (al l)/ a の時 x ≧ 1

lla(i‑e)

1‑a(i‑e)‑ a とな る

すなわち, プ レーヤー 1のプ レー ヤ ‑ 2 に対す る予想 (x , e) (x は自分が C を取 る時に,相手 も C を取 ると 思 う確率であ り, 自分がDに変更 した時に,相手がDを取 る確率が ex だけ増 え る。)が e≧ (a ‑ 1 )/ aか つ X ≧ 1 ‑ lla(118)

1‑a(1‑8)‑ b を満たせば, C ( 協調)を取 るのが有利である。プ レーヤ ー2 のプ レーヤー 1 に対す る同様 の予想 (y , 7 7) も 1 7≧ (a‑ 1)/ aかっ y ≧ 1 lla(1‑7 1)

i‑a(117 7)‑ b を満 たせば, C ( 協調)を取 るのが有利であ る。すなわち, e ≧ (a‑ 1)/ aか

つ 7 7≧ (a‑ 1) / aな らば , (x , y)‑(1, 1) で安定 している。

以上, 自分が手を変えると相手 も手を変え る可能性を考慮 した 「 柔 らかいプ レーヤー」が 自分が C ( 協調)か らD ( 裏切 り)に取 る手を変更 した時に,相 手が D ( 裏切 り)に変わるだろ うと予想す る割合 ( Eと 7 7) が (al l)/ a 以上 と思 っているな ら ,(C ,C) ( 協調, 協調)が安定 していることが示 された。

4、 ‑3 節 数値例

この節で は簡単 な数値例 を与 えて,今 まで に述べて きたモデル にお いて

( C , C) ( 協調,協調)を実現す る条件を具体的に求めてみる

(12)

まず,図. 4 のよ う に a‑3/2 , b‑‑

1 とす ると, ( CD ∞ ,

CD ∞ )と ( CD l ,CDl )

が均衡点 となる条件 は 共 に ∂ ≧ 1/ 3 とな る。 3‑ 2節で述べた

「 有限回練返 し囚人の ジレンマ」ゲームにお ける p に関す る条件 は p ≧1/2 とな る。 4

‑2 節で述べた柔 らか いプ レーヤーが ( C , C)

プ レ⊥ヤー 2

C D

プ レーヤー 1 D C ((s ll i ‑ , 1 ̲ ' 1) ( ( ‑ . 1 , ' ‑ :, / 苧) )

プ レーヤー 2

C D

プ レーヤー 1 D C (( . 2 , ' 1 : l l ; 2, '‑ ( l i , 2 ∴ 2) )

( 協調,協調)で安定 となる条件 は 8, 7 ≧1/3 と なる。

次 に,図. 5 のよ うに a‑2 , b‑‑1/2 とす ると ,( CD の ,CD ∞)が均 衡点 とな る条件 は 6 ≧1/ 2 とな る。 ( CD l , CDl ) が均衡点 とな る条件 は

6 ≧ 2/ 3 とな る . p に関す る条件 は p ≧ 1/ 2 とな る

柔 らかいプ レーヤー が ( C, C) ( 協調,協調)で安定 とな る条件 は 8, 7 7 ≧1/ 2 となる。

5 節 ま と め

合理的なプ レーヤーが 自分の利得を最大にす るよ うに行動す ると,かえ って 両方のプ レーヤーにとって不利益 な結果 に陥 って しま う, とい う 「 囚人の ジレ

ンマ」ゲームを取 り上げ, この ジレンマを回避 し,( C ,C) ( 協調,協調)を実 現 させ る試 みを, プ レーヤーの繋が りの具現 とい う観点か ら検討を行 った。

自分が取 り得 る手を探 る仮想思考 において も, 自分 と相手 とが同時に変化す

ることを正 当化 し得ない 「 固いプ レーヤー」は時間的な繋が りを通 じることに

よ り ( 無限回繰返 しゲームで), または,厳密性 を放棄す る可能性 によ り ( 有

(13)

プレーヤーの繋が りと囚人のジレンマ

表 1. ( C , C) を実現するモデル とその条件

20 5

モ デ ル 変数 とその意味 臨 界 値

無限回繰返 し (CD 0 0 , CD∞) ♂( 割引率) (a‑ i)/ a

無限回繰返 し ( CD 1 , ‑ CD l ) ♂( 割引率) ma xi ( a ‑i ) / a , ( a‑1 ) /( 1 ‑a) )

有限回繰返 し 能性) p (CD lを利用す る可 ma xf ( a‑ i) / a ,‑b / ( i‑a) I 1 回 ( 柔 らかいプ e ,7 7( 相手 も同時に手 (α‑ 1)/ α

限回繰返 しゲーム) , ジレンマの回避を試みた。

そこで, 自分が取 り得 る手を探 る仮想思考において, 自分 と相手 とが同時に 変化することを有 り得 るとみなす 「 柔 らかいプ レーヤー」を想定 し, 1回限 り のゲームで も ( C ,C) ( 協調,協調)が実現す る条件を求めた。 これ らをまと めたのが表. 1 である。 6, p , e(符) をそれぞれ時間的な繋が り,厳密で ない可能性,空間的な繋が りを表す尺度 とみなせば,全て同様の臨界値を持 っ ていることが伺える。 これ らが十分 1 に近い時,( C ,C) ( 協調,協調)が実現 す るのである。

今後の課題を述べることで本稿を終わることにする。

1) 「 柔 らかいプ レーヤー」が 「 囚人の ジレンマ」以外のゲームをいかに行 う かを検討す ること。

2) 自分が取 り得 る手を探る仮想思考において,自分 と相手 とが同時に変化す

ることを有 り得 るとみなす 「 柔 らかいプ レーヤー」の一 仮定が現実的である

と示す こと。

(14)

補 遺

「 6 ≧読axi (a‑ 1) / a ,(a‑ 1) /(1‑u b) ) が成 り立っ な ら濠 ,( cD l , CD l ) は均衡点であ る。 しか し,部分ゲーム完全で はない. 」ただ し,

・ CD l ‑ 「 第 1 期 は C ( 協調)を選ぶ,第 2 期以降は前の期 に相手のプ レ丁ヤー が取 った手を選ぶ。 」

証明

cD lは前 回に相手の取 った手 にのみ依存す るので, プ レーヤーが各期七 日 分 の取 る手を決定す る際に次の 4 個の状態を区別すれば十分である :

S ‑( C ,C),( C, D),( D,C) , ( D, D) 。 ただ し, この補遺 で は (プ レーヤー 1 の前回取 った手,プ レーヤー 2 の前回取 った手) とす る。今,プ レーヤ ー2 が 戦 略 CD lを取 ると仮定す る。 この時のプ レーヤー 1が 自分の総期待利得を最 大 にす るために各期 に取 るべ き手 を求 め る。 ここで注意すべ きことはプ レー

ヤ̲ T 2 の戦略は CD lと決 まっているので, このプ レーヤ ー 1 の問題 はゲーム ではな く,割引率 ∂を考慮 した無限計画期間の動的計画法の問題 とな る。すな わち,

f (S) ‑状態 S か ら始 まるこの無限計画期間問題 の総期待利得 の最大値 とす ると, I (S) は唯一つ存在 し,次 の関数方程式を満足す ることが知 られ ている

D

I( C,C)‑max (1 +6 f( C,C) , a+ 6f ( D,C))

f ( C, D)‑max tl+ 6f ( C,C) , a+ 6f ( D ,C))

D

f( D,C)‑max ( b +6 f( C , D) , 0 +6 f( D, D)I

f ( D, D)‑max fb + 6f ( C, D ) , 0 + 6f ( D, D)I

(15)

プレーヤーの繋がりと囚人のジレンマ 207 さ らに, この右 辺 の最大 値 を与 え る項 に対 応 す る手 が そ の時 の最 適 政策

( CD lに対す る最適反応) となる。最初 の主張 「( CD l , CDl ) は均衡点で ある」 は両 プ レーヤーが ( CD l , CD l )を選んだ時,正の確率で訪れ る状態 ( C ,C) でのみ C が最適 な手であることが示 されれば良 い。次の主張 「 部分 ゲーム完全ではない」は他の状態で CD lが処方す る手が最適でないことが示 されれば良い。

まず,注意す ることは上記の関数方程式 より,

f( C, C) ‑f( C, D) , f( D, C) ‑f( D, . D) が成 り立

っ 。

これは,プ レーヤー 2 の戦略 CD lに対す るプ レーヤ ー 1 の最適 な手が,プ レーヤー 2 が前回取 っ た手 に依存 しない ことを意味す る。 、cD lはこの性質を満足 しないので,主張

「 部分ゲ ーム完全ではない」 が証 明された。さて,最初の主張 「( CD l , CDl )

は均衡点である」を証明す るために,状態 ( C ,C) で C が最適 な手であ るこ とを示す。すなわち,

A) I ( C ,C) ‑ 1+ 6 f( C ,C) ≧a+ 6f( D ,C)

が示 されれば良い。次の 2 つの場合 に分 けて考え る。 この中の少 な くとも一方 は必ず成立 し,同時には成立 しない。

1) f( D ,C) ‑b + 6f( C ,C) ≧ 0+ 6f( D ,C) 2) I( D ,C) ‑ 0+ 6f( D ,C) > b + 6f( C ,C) 1) の場合 :

A) と 1)の等式 より

f( C ,C)‑ 1/(i‑6) , f( D ,C) ‑ b + 6/(i‑6)

これをA) と 1 )の不等式へ代入 して ∂に関 して解 くと, ∂≧ (α‑ 1) /(1

‑b) , 6 ≧‑b/(1‑b) となる

2) の場合 :

A) と 2) の等式 より

f( C, C) ‑ 1/(116) , f( D ,C)‑ 0

これをA) と 2)の不等式へ代入 して ∂に関 して解 くと, ∂ ≧(α‑ 1) / α ,

6<‑b(llb)となる

(16)

仮定 6 ≧max f (a‑ 1)/ a,( a‑1) /(1lb) ) に注意すれば,上記 の一方が成立 している。 これで, A) が成立することが示された。

( 証明終 り)

参 考 文 献

[1]行方常幸 「 繋が りの根拠 ‑ゲーム理論の基礎 に向けて」 ,商学討究第 43 巻第 3

・4 合併号 ,1 993 ( pp. 249‑ 26 3 )

[2]Fri edman,JamesW.1 990 .GaT neTheor ywi t hAppl i c at i onst oEc o‑

noT ni c s.2nded.New York:Oxf ordUni v ers i t yPress.

[3]Gi bbons , R.1 99 2 .GaT ne The or yforAppl i ed Ec onoT ni st s.Pri nce ‑ t on:Pri nce t onUni vers i t yPress.

[4]Axel rod,R.1 9 84 .TheEvol ut i ono fCoo per at i on.New York:Basi c

Books. ( 松 田裕之訳 , 「 つ きあい方の科学」 , HBJ 出版局 ,1 9 87

0)

表 1. ( C , C) を実現するモデル とその条件

参照

関連したドキュメント

1.実態調査を通して、市民協働課からある一定の啓発があったため、 (事業報告書を提出するこ と)

・如何なる事情が有ったにせよ、発電部長またはその 上位職が、安全協定や法令を軽視し、原子炉スクラ

【留意事項】 手続きに時間がかかる場合がある

★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..

• De Glauwe,P などによると、 「仮に EU 残留派が勝 利したとしても、反 EU の動きを繰り返す」 → 「離脱 した方が EU

 今年は、目標を昨年の参加率を上回る 45%以上と設定し実施 いたしました。2 年続けての勝利ということにはなりませんでし