PDFファイル 2M1 「マルチエージェントの基礎」

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

知能

軍拡競争：報酬

遅延

ン

同士

戦略

複雑化

Process of Enlarging Complexity of Agent using Delayed Reward Game

大澤

博隆

*1 Hirotaka OSAWA

*1

筑波大学

University of Tsukuba

Social brain theory hypothesizes that the human brain becomes larger through evolution mainly because of reading others' intentions in society. Reading opponents' intentions and cooperating with them or outsmarting them results in an intelligence arms race. The author simulates the evolution of intelligence arms race during long-term using finite state automatons.

1. じめに

他者意図推定行う心理論人間持最複雑知能プ一あ [Hyatt 10] 社会脳仮人間

互いンう意図推定プ

身けい推定い [Bryne 89] 被

食者捕食者間軍拡競争同う互い意図

合う要請環境知能対軍拡競争発生期待 [Flinn 05] あン他

ン賢けば他ン欺多利益手

入うテンテ人

工知能共興味深い課題あ他者意図

解テ解明意図人工知

能テ作能う

筆者 Anti-Max Prisonner's Dillemma game

(AMPD) 呼ば繰返囚人ン

ン用いう知能発生プ確認

AMPD 用い人間間ン戦

略人間複雑化プ発見 [Osawa 13]

遺伝的プン 100 ンプ 1500世代

わンン行結う

知能複雑化普通繰返囚人ン場合

発生 AMPD 場合発生突止

[Osawa 14]

本研究 AMPD 用いン

複雑化長期的うい過程 10000 世代わ

ン結検討

2. ゲー

モデ

本研究行わ交代引 Robert Axelrod 行繰返囚人ン [Axelrod 84] Angeline

改良 Anti-Max Prisoner's Dilemma game (AMPD) 使用 [Angeline 94] AMPD 相互協調交互手

利益最大化

戦略型け一般的利得表表 1 形

wait take Axelrod け coop

betray 対応本利得表繰返囚人ン発生

条件式1 あ場合両者協調

繰返う交互裏返利得大い両戦略

同利得得場合式 2 あ Multi-Max

Prisoner's Dilemma game (MMPD) 呼ば協調

交互引有効あ AMPD 発生う条件

式3 あ

表1 : 交代引一般的利得表

B \ A Cooperate Defect

Cooperate

(

A

:

c

,

B

:

c

)

(

A

:

a

,

B

:

b

)

Defect

(

A

:

b

,

B

:

a

)

(

A

:

d

,

B

:

d

)

b

d

c

a



,

a



b



2 c

(1)

b

d

c

a



,

a



b



2 c

(2)

b

d

c

a



,

_a



_b



₂

_c

(3)

AMPD条件交互 Defect 繰返両者利益

最大化問題う相互裏簡単発生

いあ交互裏成相手う手

出攻撃行う必要あ攻撃行い相手

ン自搾行うい誤認

いけい相手ン自協力的

搾値対象あ思わいけい

本研究 AMPD 条件

a



7 b





3 c



1

1 



d

いう条件採用 [Osawa 14]

3. シ

ュ

ーション条件

各ン戦略有限状態オン記述

各オン数状態持偶数推移協

力戦略奇数移動裏戦略意味代表的戦略図1 示

図1 オートトンによ戦略奇術の例

戦略推移 3 数組記述最初数

現在状態次数相手手 0 協調 1 裏意味

3番目数次推移状態意味例えば{{2},

{2,0,2}, {2,1,2}} 常協調行う戦略意味 {{1}, {1, 0,

1}, {1,1,1}} 常裏行う戦略意味 {{2}, {2,0,2},

{2,1,1}, {1,0,2}, {1,1,1}} IPD い見返戦略 TFT 意味 aTFT TFT 開始時裏

TFT あ Pavlov 相手裏返場合協調裏連絡先：大澤博隆，テ情報系知能機能工学域，〒

305-8573 茨城県ば市天王 1-1-1 ，

[email protected]

(2)

- 2 -

図2 10000世代にわたシュレーション結グレー領域およびY軸左の数字が使用たの平均数を表し黒線及びY軸右の数字が使用たの循環的複雑度(CC)を表す

反転ンあ GRIM 戦略一度裏

強調一度裏場合全裏返戦略

あ

オン戦略遺伝的プン (GP) 世代

進化行う今回ン 50 ン

10000世代わ進化行ン

各世代他 49 ン対総当戦行う

ン成績総当戦結得総ア数決

定各ン終了時最ンいン

処刑 47 ~49 3体ン突然

変異起最後 1 2 ン交差

新いン生出足

突然変異プ以 3 い 10% 確

率オンノひ選択状態反転

80% 確率オン一選択

指示先他ノ 10% 確率新いノ

ン追加新付け加えノ次

突然変異オン繋能性あ

交差プ 2 ンう一

選ばンオンツ一部

う一ンオンツ一部置換え

置換えインン選択置換

えノツン元ン重複

場合重複い形ノ置換え孤立

ノや突然変異や交差発生場合

将来的突然変異繋能性残保

初期オン多様性 GP 良い結導

重要あ本研究理論選ばンプ

戦略含戦略群初期50体ンン

配置ン 1 2 ノ

開始ノン配置損結

32体ンン生成初

期50体ン配置

評価方法使用ン平均ア戦略

数循環的複雑度(cyclomatic complexity) [McCabe 76]

点比較樹冠的複雑度(CC) 大各戦略

岐複雑表あ本研究使用オ

ン終了状態在い循環的複雑度使用

数使用ノ数引いう形

計算例えば図1 believerやattacker CC 0 TFT やaTFT Pavlov CC 2 GRIM CC 1 遺

伝的プン手法実際使用い戦略

数大増加いう循環的複雑度数

えあン総当戦一度以使わ

ノ使用計算ン使用

いいあ将来的戦略対潜在的頑健

対応力示い能性あ今回使用

数え試合確実使用

計算い

4. シ

ュ

ーション結果

事前テ世代数 1500 世代 AMPD条件

ン 100 条件行う 43条件場合

ンノ数成長確認条

件う 1500 世代目平均数中央値条件元

10000世代わ長期ン行最初 500 世代平均ア 2 近い

AMPD条件け最高いア相互裏条件該当

図2 ン結示図領域

使用平均数図 2 黒い線使用循環

的複雑度平均数示最初 1500 世代間使用

使用 CC 増加い見

本結筆者以前行ン結同様あ

[5] 1500~10000 世代間使用平均数

増えいわ一方循環的複雑度 1500世代

順調増加以降増加緩や

5. 考察

AMPD いン同士同戦略持

い場合ン同士相互裏状態保

(3)

- 3 -

い戦略持う働け示唆人

間同士ン著者以前実験結

各人間戦略最初互い信号送合

う初期在わい [大澤 13] 50 体

ン信号持最 6bit

岐必要あ循環的複雑度 6

以望い本研究得使用循環

的複雑度平均値条件満いいえ

図2 け使用循環的複雑度平均値

標準偏差 1000世代図3 示

図3 1000世代との循環的複雑度の平均と標準偏差

図3 値使用数世代経毎緩や

増加いわ AMPD 条件緩や増加

使用限起いいうン

知能示戦略増加単純遺伝的プン

必要い生出け必要あ形

使わいわ AMPD条件長期わ

意味あ知能増加促いう示唆

標準偏差値世代経毎増加い見

各ンけ使用循環的複雑

度平均値ぶ大い意味い実際

図2 う使用循環的複雑度世代経毎増

減激 4~12 値合わ変化使

用いン同一物多同一ン

世代各ンノ使用少数

ノ使用いうう対応変化いわ

ン集団複雑岐要う条

件単純岐済条件間交互移動い推測

図 3 表示いあ使用循環的

複雑度あ推測ン持

全体的戦略オン複雑岐要条件

単純岐済条件対応頑健戦略持

合わいいいう推測

6. 結論

本研究有限状態オン使遺伝的プ

ン手法軍拡競争後押利得条件調特

本研究著者結け長期わ

う戦略複雑化調結報酬遅延

利得表いン内部状態複雑化軍拡

競争発生う内部状態増加長期わわ

7. 謝辞

本研究独立行政法人科学技術振興機構戦略的創造研究推進事業け領域情報環境人援助け行わ

参考文献

[Hiatt 10] L. M. Hiatt and J. G. Trafton, “A Cognitive Model of

Theory of Mind,” in International Conference on Cognitive

Modeling, 2010, pp. 91–96.

[Bryne 89] R. W. Byrne and A. Whiten, Machiavellian Intelligence: Social Expertise and the Evolution of Intellect in

Monkeys, Apes, and Humans. Oxford University Press, USA, 1989.

[Flinn 05] M. V. Flinn, D. C. Geary, and C. V. Ward,

“Ecological dominance, social competition, and coalitionary

arms races,” Evol. Hum. Behav., vol. 26, no. 1, pp. 10–46, Jan.

2005.

[Osawa 13] H. Osawa and M. Imai, “Evolution of Mutual Trust Protocol in Human-based Multi-Agent Simulation,” in 12th European Conference on Artificial Life, 2013, pp. 692–697.

[Osawa 14] H. Osawa, “Intelligence Arms Race: Delayed Reward Increases Complexity of Agent Strategies,” in International Conference on Autonomous Agents, 2014, p. (accepted).

[Axelrod 84] R. Axelrod, The Evolution of Cooperation. Basic Books, 1984.

[Angeline 94] P. J. Angeline, “An Alternate Interpretation of

the Iterated Prisoner’s Dilemma and the Evolution of

Non-Mutual Cooperation,” in Proceedings of 4th artificial life

conference, 1994, pp. 353–358.

[McCabe 76] T. J. McCabe, “A Complexity Measure,” IEEE Trans. Softw. Eng., vol. SE-2, no. 4, pp. 308–320, 1976.

[大澤 13] 大澤博隆 and 今井倫太, “交代取引ゲーにおける

他者識別規則進化,” in 人工知能学会全国大会, 2013, pp.