マルチエージェント協働環境における利己的なエージェントの進化

(1)

マルチエージェント協働環境における

利己的なエージェントの進化

Evolution of Self-interested Agents in Collaborative Environments

下地竜起坂間千秋

Ryuki Shimoji Chiaki Sakama

和歌山大学システム工学研究科

Graduate School of Systems Engineering, Wakayama University

Abstract: In this study, we consider an environment in which multiple agents share information and cooperatively search objects. We then observe the evolution of self-interested agents who do not act cooperatively or even act dishonestly to increase their own profits. Experiment results show that such self-interested agents get high profits when a large number of cooperative agents exist.

1．はじめに

マルチエージェント協調探索の一つとして、複数の自律的に行動するエージェントが協調して環境内の目標物を探索する問題がある。これはロボットによる地雷探査に代表されるような広範囲に点在する目標物を効率的に回収する問題である。このような問題においては、エージェントがコミュニケーションを通じで情報を共有することで効率的に探索を行うことが可能になる[1,2]。一方でこうした協働環境では、各エージェントが協調的に振る舞うことが前提とされているが、人間社会においてはこうした前提は一般に成り立たず、集団の中には自己中心的に振る舞う人間が存在するのが常である。従って、人間社会のモデル化を目指すマルチエージェントシステムの研究でも、自己中心的に振る舞うエージェントの存在が集団に与える影響や、利己的なエージェントが発現するプロセスを観察することは人間社会におけるダイナミズムを理解する上で重要である。これまでにも、集団の中で自らの利益を最大化するために嘘をつくエージェントの研究[3]や、相手を騙す能力を持つロボットの研究[4,5]、あるいは資源が限られた状況下でエージェントが非協力的に振る舞うようになるプロセスをシミュレーション実験した研究[6]などが行われている。本研究ではマルチエージェント協調探索問題において、非協力的なエージェントの存在が集団に与える影響を調べると共に、繰り返しゲームにおいて非協力的で自己中心的なエージェントが発現するプロセスをシミュレーション実験した。以下では、2 章で協調探索問題の説明を行い、3 章で異なる戦略を持つエージェントについて述べる。4 章でシミュレーション実験とその結果について報告し、5 章でまとめと今後の課題について述べる。

2．マルチエージェント協調探索問題

本研究で考えるマルチエージェント協調探索問題は、複数のエージェントがフィールド上を移動しながらランダムに配置された目標物を回収するというものである。またエージェントは自身が発見した回収物の位置情報を他のエージェントに対して発信することができ、これによって各エージェントは協力して回収作業に当たることができる。エージェントと環境の設定は以下の通りである。  フィールドは非トーラス状のセル空間で正方形をしている。サイズは実験目的によって変化させる。  フィールドは二次元座標空間であり、その中に存在する全てのエージェントおよび物体は二次元座標を用いてその位置を管理する。  エージェントの初期配置はランダムである。  エージェントは 1 ステップにつき上下左右いずれかに 1 セル移動するか、その場で待機するかを選択できる。  エージェントは自身の 5 回の移動で到達できる範囲と等しい広さの視界を持つ。  回収目標物は複数個が 1 セットとなってフィールド内にランダムに配置されている。1 セット当たりの個数と配置数は実験内容に応人工知能学会研究会資料 SIG-ALST-B402-05

(2)

じて数値を変化させる。  エージェントは回収物と同じセルに進入、滞在することで、移動とは別に 1 ステップにつき 1 個の回収物を回収する。  エージェントは視界内に回収目標物を発見するとその座標まで移動する。また回収目標物の個数と座標情報を他のエージェントに対して発信することができる。情報はタイムラグ無く全てのエージェントに伝わり、発信者の ID が付与されている。  視界内に回収目標物が無い場合は、他のエージェントから発信された情報と自身が過去に発見して既に視界から外れている回収目標物の中から、最も近くにあるものを目指して移動する。  視界内にも過去の記憶にも他のエージェントからの発信情報にも回収目標物が存在しない場合、エージェントはランダムに移動する。  エージェントは自身の手でより多くの目標物を回収することを目指す。

3．エージェントの戦略

エージェントが取りうる戦略として以下の四つを考える。

3.1 協力的(cooperative)

この戦略を取るエージェントは自身が発見した回収物の位置情報を正しく他のエージェントに対して発信し、かつ他のエージェントから受け取った情報を全て信用して利用する。この戦略が全てのエージェントの基本となる。

3.2 懐疑的(skeptical)

この戦略を取るエージェントは自身が発見した回収物の情報を正しく他のエージェントに対して発信するが、他のエージェントから受け取った情報については一切信用しない。この戦略は他のエージェントから受け取った有益な情報を利用することはできないが、偽情報を受け取った場合の不利益を被ることも無いため、嘘をつくエージェントに対する対抗策としての役割が期待される。

3.3 フリーライダー(free rider)

この戦略を取るエージェントは自身が発見した回収物の情報を一切発信しないが、他のエージェントから受け取った情報については利用する。この戦略を使用するエージェントは他のエージェントに対して一切の協力的な行動を取らないが、他のエージェントが行った協力的な行動を利用して自己の利益を増加させる。

3.4 嘘つき(liar)

この戦略を取るエージェントは自身が発見した回収物の情報を一切発信せず、代わりに自身の現在位置から 30 セル以上離れており、かつ回収物が存在しないことを過去に自分で確認している地点に対して、回収物が存在するという偽情報を 5 ステップにわたり発信する。また他のエージェントから受け取った情報については利用する。フリーライダーに嘘の情報を発信する機能を付与した戦略で、自身が発見した回収目標物から他のエージェントを遠ざけるために偽情報を利用する。

4．実験

以上の設定の下でコンピュータ上で実験を行った。なお、実験は 100 回の試行を行い、その平均値を用いて性能を比較している。

4.1 非繰り返しゲーム

まずは本実験環境における利己的な戦略の影響を調べるため、繰り返しゲームではない単体のゲームを用いて調査を行った。なおこの実験ではフィールドのサイズを 50×50 としている。

4.1.1 エージェント数による影響

エージェントの人口密度による各戦略の有効度の変化を調査するため、4 種類のエージェントの数を各 3 体、各 10 体、各 20 体の 3 パターンに変化させて回収数を比較した。回収目標物の配置は 100 個を 1 セットとして 10 セットをランダムに配置している。なおエージェントの戦略は「協力的、懐疑的、フリーライダー」の組み合わせと「協力的、懐疑的、嘘つき」の組み合わせの 2 種類について実験を行っている。実験結果は以下の表 1, 2 の通りである。なお協力的な戦略の平均回収数を 100%とした場合の各戦略における回収量の比率をパーセンテージで表現している。表 1 エージェント数による各戦略の比較(1) 協力的懐疑的フリーライダー各 3 人 100 42 114 各 10 人 100 50 116 各 20 人 100 54 107

(3)

表 2 エージェント数による各戦略の比較(2) 協力的懐疑的嘘つき各 3 人 100 42 112 各 10 人 100 57 102 各 20 人 100 58 96 表 1, 2 より、人口密度が上昇するほどフリーライダーと嘘つきの回収率が低下することが観察される。これは、人口密度が大きくなるほど自分が発見した回収目標物を一人占めできる確率が下がるためだと考えられる。また懐疑的な戦略は、人数によらず協力的なエージェントと比較して回収効率で大きく劣ることが分かる。これは嘘によって被る被害よりも、他のエージェントが発信した情報を利用することによる利益の方が大きいことを示している。

4.1.2 回収目標物の配置による影響

次に回収目標物の配置を変化させて各戦略の回収数を比較した。エージェントの人数と戦略は協力的、懐疑的、フリーライダーを各 3 人ずつとした場合と、協力的、懐疑的、嘘つきを各 3 人ずつとした場合を考えた。また、配置は 10 個を 10 セット、100 個を 10 セット、500 個を 10 セット、2 個を 50 セット、 20 個を 50 セット、100 個を 50 セットの 6 パターンについて調査した。実験結果は以下の表 3,4 の通りである。表 3 回収目標物の配置による各戦略の比較(1) 協力的懐疑的フリーライダー 10×10 100 69 111 10×100 100 42 114 10×500 100 46 112 50×2 100 65 102 50×20 100 63 109 50×100 100 63 108 表 4 回収目標物の配置による各戦略の比較(2) 協力的懐疑的嘘つき 10×10 100 45 118 10×100 100 42 112 10×500 100 48 103 50×2 100 57 104 50×20 100 54 99 50×100 100 62 101 表 3, 4 より、フリーライダー、嘘つき共に回収目標物が一ヶ所に集まっている状況より、広く分散している場合の方が回収効率が低下することが分かる。これは少量ずつ広く分散するほど、フリーライダーや嘘つきが一人占めできる回収目標物の量が減るからであると考えられる。

4.1.3 戦略毎の比率による影響

ここまでの実験ではエージェント毎の人数比率は一定であったが、嘘つき戦略に関しては協力的な戦略のエージェント数が多く、嘘つき戦略を取るエージェント数が少ないほど有効であると考えられる。そこで協力的なエージェント 6 人に対して嘘をつくエージェント 3 人で実験した結果を表 5 に、協力的なエージェント 8 人に対して嘘をつくエージェント 1 人で実験した結果を表 6 に記す。回収物の配置はそれぞれ 10 個を 10 セット、100 個を 10 セット、500 個を 10 セットの場合を比較している。表 5 協力的 6 人、嘘つき 3 人の場合協力的嘘つき 10×10 100 110 10×100 100 109 10×500 100 106 表 6 協力的 8 人、嘘つき 1 人の場合協力的嘘つき 10×10 100 146 10×100 100 132 10×500 100 117 表 5, 6 より、懐疑的なエージェントの人数を減らして協力的なエージェントを増やしても嘘つきの効率は向上しないが、嘘つきの人数を減らすとその効率は大きく向上することが分かる。またその場合、回収目標物の個数が少ないほど回収効率が上昇することも分かる。これは嘘をつく人数が減ることにより嘘つきエージェント自身が他の嘘つきエージェントに騙されることが無くなるためであると考えられる。また回収目標物の数が少ないほど回収効率が向上するのは、嘘で他のエージェントを遠隔地へと誘導している間に、嘘つきエージェントが回収目標物を一人占めできる確率が上がるためだと考えられる。

4.1.4 戦略比率の変化による回収時間の変化

嘘つきやフリーライダーといった戦略は仲間に対して負担を強いるため、全体として見た場合の回収効率が悪化するのではないかと考えられる。そこで戦略の比率を変化させることで回収終了までの時間

(4)

がどのように変化するのかを調査した。戦略の比率は「協力的、懐疑的、フリーライダーを各 3 人ずつ(C×3, S×3, F×3)」「協力的、懐疑的、嘘つきを各 3 人ずつ(C×3, S×3, L×3)」「協力的を 9 人(C×9)」「懐疑的を 9 人(S×9)」「嘘つきを 9 人(L ×9)」の各場合を用いた。また回収目標物の数についても 10 個を 10 セット、100 個を 10 セット、500 個を 10 セット、20 個を 50 セットの場合について比較した。実験結果は表 7 の通りである。表 7 戦略比率の変化による回収時間の変化 10×10 100×10 500×10 20×50 C×3 S×3 F×3 76,502 103,250 154,390 115,820 C×3 S×3 L×3 20,135 44,231 93,270 40,511 C×9 59,134 135,481 169,351 168,104 S×9 83,871 104,300 184,055 117,610 L×9 43,979 32,806 89,135 39,080 表 7 より、直観に反し嘘つきを含む組み合わせの方が終了までに掛かるステップ数が小さくなる傾向が観察された。これは１つの目標物を回収するのにかかる時間よりも探索にかかる時間の方が大きいためだと考えられる。そのため回収を手伝うためにエージェントが探索を切り上げて一ヶ所に集まることは、結果的に回収終了までのステップ数の増加を招いているのではないかと考えられる。

4.2 繰り返しゲーム

継続した状況の中でエージェントが自己の利益を最大化するために自身の戦略をどのように変化させるのかを観察するために、繰り返しゲームを行った。エージェントは各戦略 12 人ずつ計 48 人を配置する。これらは 10 ゲームを終える毎に世代交代を行い、自身の戦略を変化させる。この時選択される戦略は 10 ゲームにおける得点を利用したルーレット選択を採用し、各戦略の平均点数に比例した確率で次世代の戦略を決定する。また 1%の確率で突然変異を起こし、前ゲームでの点数に関係なく戦略が選ばれる。これを 100 世代分繰り返し、世代交代による戦略の変化を観察した。なお非繰り返しゲームにおける実験結果よりエージェントと回収目標物の密度が各戦略の有効性に影響を及ぼすことが分かっているためエージェントの人数に合わせてフィールドのサイズを 100×100 に、回収物の量を 100 個×40 セットとしてこれらの密度が一定になるよう調整を行っている。実験結果は図 1 の通りである。図 1 繰り返しゲームによる戦略の変化(1) 次に第一世代の戦略比率が及ぼす影響を確認するために協力的と懐疑的のエージェントをそれぞれ 20 人ずつ、フリーライダーと嘘つきのエージェントを 4 人ずつ計 48 人を初期エージェントとして同様の実験を行った。実験結果は図 2 の通りである。図 2 繰り返しゲームによる戦略の変化(2) 更に第一世代を協力的と懐疑的 24 人ずつ計 48 人とし、フリーライダーと嘘つきを排除した状態での実験を行いその結果を観察した。実験結果は図 3 の通りである。

(5)

図 3 繰り返しゲームによる戦略の変化(3) 世代毎にバラつきは存在するが、どの実験も嘘つきとフリーライダーの数がおおよそ同数で最も多く、その次に協力的、そして懐疑的なエージェントが最も少なくなるという共通した結果となった。これはおおよそ非繰り返しゲームにおける点数比率に近い人数比で安定している。特に実験 3 では突然変異によって生まれたフリーライダーと嘘つきが急速にその数を増やし、最終的に安定した比率へと至ることが分かる。この結果は嘘つきやフリーライダーの有用性が協力的なエージェントの個体数に影響を受けていることによることが原因であると考えられる。非繰り返しゲームにおいて嘘つきの人数が増えるほど嘘つきの有用性は低下したことから、人数が増えると得点差は狭まり、次世代における人数比が縮小すると予想される。そのため図のように一定範囲で人数比が保たれるのではないかと考えられる。

5 結論

マルチエージェント協調探索問題において、フリーライダーや嘘つきといった自己中心的で不誠実に振る舞うエージェントが一定の利益を上げることが実験により確認された。またどれほどの利益が得られるのかについては周囲のエージェント数や種類、回収物の配置に左右され、人口密度が小さく、かつ回収物が少ない場所に集中的に配置されている場合に嘘の効率が向上すると分かった。そのため人口密度が高く、回収物が広く分散したような環境では不誠実な行為は大きな利益には繋がらないため、そのような行為の発生は抑えられると考えられる。また不誠実なエージェントの有効性は協力的なエージェントによって支えられているため、無制限に不誠実なエージェントが増加することもないことが観察された。もし不誠実なエージェントが大きく増えたならばその有用性は低下し、協力的なエージェントとの差は無くなるため嘘をつくメリットがなくなると考えられる。なお今回の実験では考慮しなかったが、他のエージェントとの信頼関係や嘘をつくための労力、嘘が発覚した場合のペナルティなどを評価値として組み込んだ場合、不誠実な戦略の有用性は低下すると予想される。そのため不誠実な行為がそれらの不利益を超えるだけの十分な利益へと繋がらない場合、嘘をつくことは合理的な行動ではなくなるかもしれない。これらについては、今後実験を継続して確認していく予定である。

参考文献

[１] Polycarpou, M. M., Yanli, Y., and Passino, K. M.: "Cooperative control of distributed multi-agent systems." IEEE Control Systems Magazine (2001)

[２] 北村泰彦, 寺西憲一, 辰巳昭治: "マルチエージェント実時間探索における組織化とその評価", 人工知能学会誌, Vol. 11, No. 3, pp. 470-477 (1996)

[３] Zlotkin, G., Rosenschein, J. S., and Ram, G.: "Negotiation and Task Sharing Among Autonomous Agents in Cooperative Domains", Proc. IJCAI-89, pp.912-917 (1989)

[４] Wagner, A. R.: "Robot Deception: Recognizing when a Robot Should Deceive", Proc. IEEE International Symposium on Computational Intelligence in Robotics and Automation, pp. 46-54 (2009)

[５] Shim, J. and Arkin, R. C.: “Biologically-inspired deceptive behavior for a robot,” Proc. 12th International Conference on Simulation of Adaptive Behavior, pp. 401-411 (2012)

[６] Yamada, N. and Sakama, C.: “Evolution of self-interested agents: an experimental study”, Proc. 7th Multi-Disciplinary International Workshop on Artificial Intelligence (MIWAI), Lecture Notes in AI, vol. 8271, Springer, pp. 329-340 (2013)

マルチエージェント協働環境における利己的なエージェントの進化