• 検索結果がありません。

PDFファイル 2M1 「マルチエージェントの基礎」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 2M1 「マルチエージェントの基礎」"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

知能

軍拡競争:報酬

遅延

同士

戦略

複雑化

Process of Enlarging Complexity of Agent using Delayed Reward Game

大澤

博隆

*1 Hirotaka OSAWA

*1

筑波大学

University of Tsukuba

Social brain theory hypothesizes that the human brain becomes larger through evolution mainly because of reading others' intentions in society. Reading opponents' intentions and cooperating with them or outsmarting them results in an intelligence arms race. The author simulates the evolution of intelligence arms race during long-term using finite state automatons.

1.

じめに

他 者 意 図 推 定 行 う心 理 論 人 間 持 最 複 雑 知能プ 一 あ [Hyatt 10] 社会脳仮 人間

互い ン う 意図推定プ

身 け い 推定 い [Bryne 89] 被

食者 捕食者間 軍拡競争 同 う 互い 意図

合 う 要 請 環境 知 能 対 軍拡 競争 発 生 期待 [Flinn 05] あ ン 他

ン 賢 け ば 他 ン 欺 多 利 益 手

入 う テ ン テ 人

工 知 能 共 興 味 深 い課 題 あ 他 者 意 図

解 テ 解 明 意 図 人 工 知

能 テ 作 能 う

筆 者 Anti-Max Prisonner's Dillemma game

(AMPD) 呼ば 繰 返 囚人 ン

ン 用 い う 知 能 発 生 プ 確 認

AMPD 用 い 人 間 間 ン 戦

略 人間 複雑化 プ 発見 [Osawa 13]

遺伝的プ ン 100 ンプ 1500世代

わ ン ン 行 結 う

知能 複雑化 普通 繰 返 囚人 ン 場合

発生 AMPD 場合 発生 突 止

[Osawa 14]

本研究 AMPD 用い ン

複雑化 長期 的 うい 過 程 10000 世代 わ

ン結 検討

2.

ゲー

モデ

本 研 究 行 わ 交 代 引 Robert Axelrod 行 繰 返 囚 人 ン [Axelrod 84] Angeline

改 良 Anti-Max Prisoner's Dilemma game (AMPD) 使 用 [Angeline 94] AMPD 相互協 調 交互 手

利益 最大化

戦 略 型 け 一 般的 利 得表 表 1 形

wait take Axelrod け coop

betray 対応 本利得表 繰 返 囚人 ン 発生

条件 式1 あ 場合 両者 協調

繰 返 う 交互 裏 返 利得 大 い 両 戦略

同 利 得 得 場 合 式 2 あ Multi-Max

Prisoner's Dilemma game (MMPD) 呼ば 協調

交互 引 有効 あ AMPD 発生 う 条件

式3 あ

表1 : 交代 引 一般的利得表

B \ A Cooperate Defect

Cooperate

(

A

:

c

,

B

:

c

)

(

A

:

a

,

B

:

b

)

Defect

(

A

:

b

,

B

:

a

)

(

A

:

d

,

B

:

d

)

b

d

c

a

,

a

b

2

c

(1)

b

d

c

a

,

a

b

2

c

(2)

b

d

c

a

,

a

b

2

c

(3)

AMPD条件 交互 Defect 繰 返 両者 利益

最大化 問題 う 相互裏 簡単 発生

い あ 交 互 裏 成 相 手 う手

出 攻撃 行う必要 あ 攻撃 行い 相手

ン 自 搾 行 う い 誤認

いけ い 相 手 ン 自 協 力 的

搾 値 対象 あ 思わ いけ い

本研究 AMPD 条件

a

7

b

3

c

1

1

d

いう条件 採用 [Osawa 14]

3.

ーション条件

各 ン 戦略 有限状態オ ン 記述

各 オ ン 数 状態 持 偶 数 推 移 協

力 戦 略 奇 数 移 動 裏 戦 略 意 味 代 表 的 戦 略 図1 示

図1 オート トンによ 戦略奇術の例

戦略 推移 3 数 組 記述 最初 数

現在状態 次 数 相手 手 0 協調 1 裏 意味

3番目 数 次 推移 状態 意味 例えば{{2},

{2,0,2}, {2,1,2}} 常 協 調 行 う戦 略 意 味 {{1}, {1, 0,

1}, {1,1,1}} 常 裏 行う戦略 意味 {{2}, {2,0,2},

{2,1,1}, {1,0,2}, {1,1,1}} IPD い 見 返 戦 略 TFT 意 味 aTFT TFT 開 始 時 裏

TFT あ Pavlov 相手 裏 返 場合 協調 裏 連 絡 先: 大 澤博 隆, テ 情報 系 知 能機 能 工学 域 ,〒

305-8573 茨 城 県 ば 市 天 王 1-1-1 ,

[email protected]

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

図2 10000世代にわた シ ュレーション結 グレー領域およびY軸左の数字が使用 た の平均数を表し 黒線及びY軸右の 数字が使用 た の循環的複雑度(CC)を表す

反転 ン あ GRIM 戦 略 一度 裏

強調 一度裏 場合 全 裏 返 戦略

オ ン 戦略 遺伝的プ ン (GP) 世代

進化 行う 今回 ン 50 ン

10000世代 わ 進化 行 ン

各世代 他 49 ン 対 総当 戦 行う

ン 成績 総 当 戦 結 得 総 ア数 決

定 各 ン 終 了 時 最 ン い ン

処刑 47 ~49 3体 ン 突然

変異 起 最後 1 2 ン 交差

新 い ン 生 出 足

突然変異 プ 以 3 い 10% 確

率 オ ン ノ ひ 選択 状態 反転

80% 確率 オ ン 一 選択

指 示 先 他 ノ 10% 確率 新 いノ

ン 追加 新 付け加え ノ 次

突然変異 オ ン 繋 能性 あ

交差 プ 2 ン う 一

選ば ン オ ン ツ 一部

う一 ン オ ン ツ 一 部 置 換 え

置 換え イン ン 選択 置 換

え ノ ツ ン 元 ン 重 複

場合 重複 い形 ノ 置 換 え 孤 立

ノ や 突 然 変 異 や 交 差 発 生 場 合

将来的 突然変異 繋 能性 残 保

初期 オ ン 多様性 GP 良 い結 導

重 要 あ 本 研究 理 論 選 ば ンプ

戦略 含 戦略群 初期50体 ン ン

配置 ン 1 2 ノ

開始ノ ン 配置 損結

32体 ン ン 生 成 初

期50体 ン 配置

評価方法 使用 ン 平均 ア 戦略

数 循環的複雑度(cyclomatic complexity) [McCabe 76]

点 比較 樹冠的複雑度(CC) 大 各戦略

岐 複雑 表 あ 本研究 使用 オ

ン 終了状態 在 い 循環的複 雑度 使用

数 使用 ノ 数 引 いう形

計算 例えば図1 believerやattacker CC 0 TFT やaTFT Pavlov CC 2 GRIM CC 1 遺

伝的プ ン 手法 実際 使 用 い 戦略

数 大 増加 い う 循 環的 複雑 度 数

え あ ン 総当 戦 一度以 使わ

ノ 使 用 計 算 ン 使 用

い い あ 将 来的 戦略 対 潜在的 頑健

対応力 示 い 能性 あ 今回 使用

数 え 試合 確実 使 用

計算 い

4.

ーション結果

事前 テ 世代数 1500 世代 AMPD条件

ン 100 条件行 う 43条件 場合

ン ノ 数 成長 確認 条

件 う 1500 世 代 目 平 均 数 中 央 値 条件 元

10000世代 わ 長期 ン 行 最 初 500 世 代 平 均 ア 2 近 い

AMPD条件 け 最 高い ア 相互裏 条件 該当

図2 ン 結 示 図 領域

使用 平均数 図 2 黒い線 使用 循環

的複雑度 平均数 示 最初 1500 世代間 使用

使用 CC 増加 い 見

本結 筆者 以前行 ン結 同様 あ

[5] 1500~10000 世 代 間 使 用 平 均 数

増え い わ 一方 循環的複雑度 1500世代

順調 増加 以降 増加 緩 や

5.

考察

AMPD い ン 同士 同 戦略 持

い 場 合 ン 同士 相互 裏 状態 保

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

い 戦略 持 う 働 け 示 唆 人

間同士 ン 著者 以前 実験結

各人間 戦 略 最初 互い 信号 送 合

う初期 在 わ い [大澤 13] 50 体

ン 信 号 持 最 6bit

岐 必 要 あ 循 環 的 複 雑 度 6

以 望 い 本 研 究 得 使 用 循 環

的複雑度 平均値 条件 満 い いえ

図2 け 使用 循環的複雑度 平均値

標準偏差 1000世代 図3 示

図3 1000世代 との循環的複雑度の平均と標準偏差

図3 値 使用 数 世代 経 毎 緩や

増加 い わ AMPD 条件 緩や 増加

使用 限 起 い いう ン

知能 示 戦略 増 加 単 純 遺 伝的プ ン

必 要 い 生 出 け 必 要 あ 形

使わ い わ AMPD条件 長期 わ

意味 あ 知能 増加 促 いう 示唆

標 準 偏 差 値 世 代 経 毎 増 加 い 見

各 ン け 使用 循環的 複雑

度 平均値 ぶ 大 い 意味 い 実際

図2 う 使用 循環的複雑度 世代 経 毎 増

減 激 4~12 値 合 わ 変化 使

用 い ン 同一 物 多 同一 ン

世 代 各 ン ノ 使用 少 数

ノ 使 用 いう う 対 応 変 化 い わ

ン 集団 複雑 岐 要 う 条

件 単純 岐 済 条 件 間 交 互 移 動 い 推測

図 3 表示 い あ 使用 循環的

複 雑 度 あ 推 測 ン 持

全 体 的 戦 略 オ ン 複 雑 岐 要 条 件

単純 岐 済 条件 対応 頑健 戦略 持

合わ い い いう 推測

6.

結論

本 研 究 有 限 状 態 オ ン 使 遺 伝 的 プ

ン 手法 軍拡競争 後押 利得条件 調 特

本研究 著者 結 け 長期 わ

う 戦 略 複 雑 化 調 結 報 酬 遅 延

利得 表 い ン 内 部状 態 複雑 化 軍拡

競 争 発 生 う 内 部 状 態 増 加 長 期 わ わ

7.

謝辞

本研究 独立行政法人科学 技 術振興機構 戦略的 創造研 究推進事 業 け 領域 情 報環境 人 援助 け 行わ

参考文献

[Hiatt 10] L. M. Hiatt and J. G. Trafton, “A Cognitive Model of

Theory of Mind,” in International Conference on Cognitive

Modeling, 2010, pp. 91–96.

[Bryne 89] R. W. Byrne and A. Whiten, Machiavellian Intelligence: Social Expertise and the Evolution of Intellect in

Monkeys, Apes, and Humans. Oxford University Press, USA, 1989.

[Flinn 05] M. V. Flinn, D. C. Geary, and C. V. Ward,

“Ecological dominance, social competition, and coalitionary

arms races,” Evol. Hum. Behav., vol. 26, no. 1, pp. 10–46, Jan.

2005.

[Osawa 13] H. Osawa and M. Imai, “Evolution of Mutual Trust Protocol in Human-based Multi-Agent Simulation,” in 12th European Conference on Artificial Life, 2013, pp. 692–697.

[Osawa 14] H. Osawa, “Intelligence Arms Race: Delayed Reward Increases Complexity of Agent Strategies,” in International Conference on Autonomous Agents, 2014, p. (accepted).

[Axelrod 84] R. Axelrod, The Evolution of Cooperation. Basic Books, 1984.

[Angeline 94] P. J. Angeline, “An Alternate Interpretation of

the Iterated Prisoner’s Dilemma and the Evolution of

Non-Mutual Cooperation,” in Proceedings of 4th artificial life

conference, 1994, pp. 353–358.

[McCabe 76] T. J. McCabe, “A Complexity Measure,” IEEE Trans. Softw. Eng., vol. SE-2, no. 4, pp. 308–320, 1976.

[大澤 13] 大澤博隆 and 今井倫太, “交代取引ゲー における

他者識別規則 進化,” in 人工知能学会全国大会, 2013, pp.

参照

関連したドキュメント

Adaptive-Agent Simulation Analysis of a Simple Transportation Network, Proceedings of the Joint 2nd International Conference on Soft Computing and Intelligent Systems and

interaction abstract machine token passing on fixed graph. call

This paper summarizes recently developed methods and theories in the developing direction for applications of artificial intelligence in civil engineering, including

Bae, “Blind grasp and manipulation of a rigid object by a pair of robot fingers with soft tips,” in Proceedings of the IEEE International Conference on Robotics and Automation

T´oth, A generalization of Pillai’s arithmetical function involving regular convolutions, Proceedings of the 13th Czech and Slovak International Conference on Number Theory

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

In Proceedings Fourth International Conference on Inverse Problems in Engineering (Rio de Janeiro, 2002), H. Orlande, Ed., vol. An explicit finite difference method and a new

The first display in Lemma 2.6 is a standard subsolution estimate while the second display is a standard weak Harnack estimate for positive weak solutions to nonlinear