• 検索結果がありません。

遺伝的プログラミングによるマルチエージェント学習

N/A
N/A
Protected

Academic year: 2021

シェア "遺伝的プログラミングによるマルチエージェント学習 "

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

遺伝的プログラミングによるマルチエージェント学習

宗久研究室

T01K013F 内田 亜矢子

1.はじめに

ある種のタスクを複数のエージェント間の部 分タスクに分離することをマルチエージェント システムという。マルチエージェントシステムで、

あるエージェントの行動が結果的に他のエージ ェントのタスク遂行を助けるとき、その行動は協 調的であるといい、複数のエージェントたちを協 調に導くような規則を発見することにより効率 的に問題を解くことができる。

 そこで遺伝的プログラミング(GP)を用いて 多数のエージェントのための協調的な行動を探 す。

2.遺伝的プログラミング

 遺伝的アルゴリズム(

GA

)は、進化論的な考 え方に基づいてデータを操作し、最適化の問題や 学習、推論を扱う手法である。GA では、以下の ようなアルゴリズムに従う。

1.

ランダムに初期世代の集団

M(0)を生成する 2.

現在の集団

M(t)内の各個体m

に対して適合

u(m)を計算する

3. u(m)に比例する確率分布を用いてM(t)から

個体

m

を選び出す

4.

選び出された個体に

GA

オペレータを作用 させて、次の世代の集団

M(t+1)を生成する 5.

2.に戻る

 遺伝的プログラミング(GP)は、

GA

の遺伝子型 としてグラフ構造や木構造などの構造的表現を 用いたものである。今回は、木と呼ばれるサイク ルを持たないグラフを扱う。

3.タイルワールド

 実験には仮想的なロボットエージェントのシ ミュレーションであるタイルワールドを用いる。

この世界はエージェント、タイル、障害物、穴か らなる。エージェントは障害物や壁に当たらない 限り、上下左右に動くことができ、またタイルに 隣接するエージェントはその方向に動くことで タイルを押すことができる。ただし、タイルの先 が壁や障害物であるときは押せない。タイルの動 いた先が穴であったとき、そのタイルは穴に落ち て消える。エージェントの目標は全てのタイルを できるだけ早く穴に落とすことである。

  図

1

のような単純な場合

害物

ント

i

エージェント

A0

だけで全てのタイルを穴に入

17

ステップが必要となる。しか し

ルドと遺伝的プログラミング エージェントの行動は

GP

で進化する木のプ

は終端

メ ー

れようとすると

両エージェントが協力して仕事に当たればそ れより低いステップで全てのタイルを落とすこ とができる。

4.タイルワー  

ログラムで規定される。木を解釈することでエ ジェントのとるべき行動が決定される。

エージェントのプログラムの終端・非終端記号の 一部を表1のようにする。引数

0

の記号

記号である。非終端ノードはベクトル操作を行い、

各部分木は

2

次元ベクトルを値として返す。GP の一つの木構造(プログラム)は、エージェント があるステップでいかに動くかをあらわす。その ために、wrapper 関数を

GP

木の出力ベクトル に適用し、エージェントの動きを決定する。

wrapper

関数は

2

次元ベクトルから行動への 写像である。もし出力ベクトルの大きさがパラ

Radius

以下であるならば現在の位置に留ま る(STAY)、さもなければその方向に応じて上下 左右に

1

ステップ動く、となる。

名前 引数 内容

Tile 0

エージェントから一番近い

のベクトル タイル

Hole 0

エージェントから一番近い

穴へのベクトル

Agi 0

エージェントからエージェ

ント

Ai

へのベクトル

If_dot 4

は第

4

1

番目と第

2

番目の引数の 内積により、第

3

また 引数を評価する

1

番目と第

2

番目の引数の 大きさを比較し第

4

引数を評価する 表

1

各タイムステップで

If>= 4

3

または第

(TW1)を考える。

T

:タイル

#

:障

V

:穴 Ai:エージェ 図

TW1

 エージェントは

Wrapper

に従って行動する。タ テップの上限は変数

ムステ

つまり適合度は次のようになる

ft

は実行終了後に穴に落とされたタイル数、t

F

イムス

Eval

で設定する。

 適合度

f

は以下の要素によって決まる

1.

穴に落としたタイルの数

2.

仕事が終了した場合は残されたタイ ップ

3.

終了しなければタイルを穴に近づけた升数

× Distogt nrt Distcr t

C { ( (), ()) ( (),

t∈LE

T nr(t))}

+

× +

×

=Bonus ft Speed Up Evals tf

f _ ( )

- 83-

(2)

はすべてのタイルを穴に落とすのに費やされる タイムステップ、

Dist(x,y)はx

y

の距離を示す。

og(t),cr(t),nr(t)はそれぞれタイル t

の元の位置、

現在地、最も近い穴の位置である。

5.均質的交配戦略と異質的交配戦略

 均質的交配戦略では、すべてのエージェントが 同じプログラムに従って行動する。

それに対して異質的交配戦略では各エージェ エージェ トのプログ ラ

る。

ントは異なるプログラムに従う。N個の

ントを用いる場合、N個の木のまとまりを

1

個 体とし、それぞれの木が各エージェン

ムとなる。また、交叉は同じエージェントに相 当する木同士のみに適用される。(図2)

図2

 表2のようなパラメータで、二つの手法の実験 をした。グラフの適合度は

10

回の平均値をと

交叉確率

0.8

突然変異確率

0.1 Eval 50

最大 世代数

50 Bonus 3000 Radius 1.0

Cr 100 Speed_Up 80

表2

T 1

0 2000 4000 6000 8000 10000

0 4 8 12 16 20 24 28 32 36 40 44 48 50

世代数

適合度

均質的戦略 異質的戦略

図3

図3はその結果である。仕事が完了した場合の 適合度は

6000

となる。つまり、均質的交配戦略 では

14

世代目、異質的 略では

6

世代目に はすべてのタイルを穴に落とすことができた。

た と き の 平 均 適 合 度 最 も 成 績 の 良 か っ た 回 の

異質的交配戦略

交配戦

次に、図4のような場合(TW2)を考える。

3

10

回実行し である。(括弧内は

タ ス ク 完 了 ま で の ステップ数、- はタス ク 完 了 し た 回 が な か ったことを表す)

図4 

TW2

Agent

数 均質的交配戦 1

1060(-)

10488(28) 7990(39)

10504(27) 6352(-)

10808(23) 5814(37)

9036(23) 4880(-)

表3

ま タイル て同様

(

表 4)

Agent

数 均質的交配 異質的交配戦略 た、 数を2にし に実験した

戦略

3120(-)

8336(19) 8048(24)

7240(22) 7408(27)

7060(21) 6456(25)

6748(22) 5036(29)

表4 6.考察

TW

うな は異質 の

ほうが成績が良かった し

TW2

のような広 い環境で複雑な動作を必要とする場合、均質的交 うが成績が良い。これは、異質的交配 戦

ェ ン

機大学出版局(1996)

[2

野宏明編:遺伝的アルゴリズム3,p374,産業 図書(1997)

1

のよ 狭い環境で 的交配戦略

。しか 配戦略のほ

略は多数の種類の木を操作するため、良い働き をする部分木(スキーマと呼ぶ)が後の世代に残 る確率が低いからではないかと考えられる。

さらに、このプログラムにおいて協調の行動が みられ、複数のエージェントが協力しあって仕事 が完了した。しかし、使用するエージェントの数 が増えるにつれて、エージェントが他のエージ

トの動きを邪魔するような行動をとり、成績が 悪くなる様子もみられた。

配置するタイルの数によって、もっとも成績の 良くなるエージェントの数は違う。また、今回採 用した手法以外にも交叉の手法がないかを考え ていきたい。

7.参考文献

[1]

伊庭斉志

:

遺伝的プログラミング

,p264,

東京電

]北

- 84-

参照

関連したドキュメント

Title 遺伝的アルゴリズムによるネットワーク接続の最適化 Author(s) 加藤 友彦 Citation 福岡工業大学研究論集 第41巻第1号  P7-P10 Issue

連続最適化問題において,分散遺伝的アルゴリズム (Distributed GA: DGA) は単一母集団の GA(Single Population GA: SPGA)

2 タンパク質の階層構造 3 GA,DGA の概要 3.1 GA

2−C−5 1996年度日本オペレーションズ・リサーチ学会 春季研究発表会 遺伝的アルゴリズムによる 巡回セールスマン問題のマルコフ解析 02401560

1996年度日本オペレーションズ・リサーチ学会 秋季研究発表会 1−A−3 遺伝的アルゴリズムによる 巡回セールスマン問題のマルコフ解析 02401560

(GeneticAlgorithm,以下GAで表す)は数理計画 法のような確定的な手法ではなくて確率的な手法で

本研究では、GA の GTYPE として一次元のビット列を考え、それをバイナリ表現で変換したものを PTYPE

本研究では、GA の GTYPE として一次元のビット列を考え、それをバイナリ表現で変換したものを PTYPE