シミュレーション I

第 4 章最適なノード内容の選択を行う学習進化型 GNP 47

4.6 シミュレーション

4.6.2 シミュレーション I

第4章最適なノード内容の選択を行う学習進化型GNP 57 求めた。EPは交叉を用いず，突然変異のみで進化を行うが，その内容は以下の通りである。{ADD STATE, REMOVE STATE, CHANGE TRANSITION, CHANGE OUTPUT, CHANGE INITIAL STATE, CHANGE INPUT}。最後の操作が本章で導入したものであり，残りの操作は文献 [41]で使われているものと同じである。

第4章最適なノード内容の選択を行う学習進化型GNP 58 Table 4.2 The relation between the number of inputs and outputs in EP and GNP

case 1 case 2 case 3 case 4

X 1 4 8 8

Y 2 2 2 5

EP 120 960 15,360 23,437,500

Z GNP-E 100 100 100 220

GNP-LE (M = 4) 100–400 (variable) 100–400 100–400 220–880

X: the number of inputs (sensors)

Y: the number of objects each sensor can distinguish Z: the total number of outputs (connections)

the number of states (EP): 60

the number of nodes (GNP): 60 (Judgment node: 40, Processing node: 20, except a start node)

one connection

Y connections processing node

judgement node GNP

... ... Y outputs^X

state

Fig. 4.5 The number of outputs from a node/state

1 2

initial state

JF TD

tile/MF

hole/TR

obstacle/TL floor/MF

agent/TR

forward/MF

backward/TR left/TL

right/TR

nothing/MF

in the case where one input is dealt with

Fig. 4.6 An example of an EP program

第4章最適なノード内容の選択を行う学習進化型GNP 59

Tile T

Hole Obstacle

Agent Floor

T T

T T T T

T T

Fig. 4.7 Tileworld I

第4章最適なノード内容の選択を行う学習進化型GNP 60

0 2 4 6 8 10 12 14 16 18 20 22

0 1000 2000 3000 4000 5000

generation

fitness

GNP-RL (21.23)

GNP-E (18.00)

fitness at the last generation

Fig. 4.8 Fitness curves of GNP in Simulation I

0 2 4 6 8 10 12 14 16 18 20 22

1000 2000 3000 4000 5000

fitness

generation

GP-ADF-full3-2 (15.43) GP-ADF-full4-3 (14.46) GP-full4 (14.00)

GP-ADF-ramp3-2 (13.86) GP-full5 (13.76)

GP-ADF-ramp4-3 (13.5) GP-ramp4 (10.10)

GP-ramp5 (10.30)

Fig. 4.9 Fitness curves of GP in Simulation I

0 2 4 6 8 10 12 14 16 18 20 22

0 1000 2000 3000 4000 5000

generation

fitness

EP-input3 state 5 (16.30) EP-input4 state 5 (14.93)

EP-input2 state 30 (13.70) EP-input1 state 60 (13.30)

Fig. 4.10 Fitness curves of EP in Simulation I

第4章最適なノード内容の選択を行う学習進化型GNP 61

Table 4.3 The data on the best individuals at the last generation in Simulation I

GNP-LE GNP-E GP-ADFs GP EP

ﬁtness 21.23 18.00 15.43 14.00 16.30

standard deviation 2.73 1.88 1.94 2.00 1.99

t-test GNP-LE —– 1.04×10⁻⁶ 3.03×10⁻¹³ 3.13×10⁻¹⁷ 5.31×10⁻¹¹

(p-value) GNP-E —– —– 1.32×10⁻⁶ 3.17×10⁻¹¹ 5.95×10⁻⁴

Table 4.4 Calculation time for 5000 generations in Simulation I

GNP-LE GNP-E GP-ADFs GP EP

Calculation time [s] 1,364 1,019 3,252 3,281 2802 ratio of each method to GNP-E 1.34 1 3.19 3.22 2.75

第4章最適なノード内容の選択を行う学習進化型GNP 62 次に，GPの結果について考察する。Fig. 4.9より，GP-full4がGP（ADFなし）の中で最も良い結果を示しているが，GP-ADF-full3-2が全てのGPの設定の中で最も良い結果を示している。これは，ADFがサブルーチンとしてより使われることで，効率的なプログラムが生成できたからだと考えられる。しかしGPは多くのノードを使用するため，

計算時間は多くなった。計算時間についての議論は後述する。

次に，EPの結果について考察する。EPは，Fig. 4.10が示すように，状態数が5，入力数が3の設定が最も良い結果であった。EPはグラフ構造を持つため，GNPと同様に過去のエージェントの行動履歴を暗黙的に利用した行動決定ができる。さらに，状態数が増すほど過去の行動履歴を長く蓄えることができる。しかし，それによって出力とノード遷移の数が極端に増大してしまい，非実用的になってしまう可能性がある。一方，GNP

の構造は4.6.1節で議論したように，ノード数が増えてもノード遷移の数が極端に多くな

ることはない。したがって，GNPはEPより多くの状態（ノード）を使うことが可能であり，結果として，暗黙的なメモリ機能をより効果的に利用できる。

Table 4.4は5000世代あたりの計算時間を表しており，進化型GNPが最も早く，次い

で学習進化型GNP，EPとなっている。学習進化型GNPはタスク中に強化学習を行うため，その分計算時間が増えている。EPは学習進化型GNPより時間がかかっているが，各状態での入力数を3に制限することで，8個全ての入力を用いた通常のEPの計算時間よりかなり短縮された値である。実際，4つの入力を用いたEPの計算時間は4,389秒であり，3個の場合と比べて計算時間が増えていることがわかる。GPとADF付きGPは多数のノードを持つため，遺伝的操作に時間がかかり，その結果他手法に比べて多くの時間がかかっている。

ドキュメント内情報生産システム工学専攻進化型計算システム研究 (ページ 62-67)

第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47

4.6 シミュレーション

4.6.2 シミュレーション I

1 2

JF TD

Tile T

Hole Obstacle

Agent Floor

第 4 章最適なノード内容の選択を行う学習進化型 GNP 47