第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47
4.6 シミュレーション
4.6.2 シミュレーション I
第4章 最適なノード内容の選択を行う学習進化型GNP 57 求めた。EPは交叉を用いず,突然変異のみで進化を行うが,その内容は以下の通りであ る。{ADD STATE, REMOVE STATE, CHANGE TRANSITION, CHANGE OUTPUT, CHANGE INITIAL STATE, CHANGE INPUT}。最後の操作が本章で導入したもので あり,残りの操作は文献 [41]で使われているものと同じである。
第4章 最適なノード内容の選択を行う学習進化型GNP 58 Table 4.2 The relation between the number of inputs and outputs in EP and GNP
case 1 case 2 case 3 case 4
X 1 4 8 8
Y 2 2 2 5
EP 120 960 15,360 23,437,500
Z GNP-E 100 100 100 220
GNP-LE (M = 4) 100–400 (variable) 100–400 100–400 220–880
X: the number of inputs (sensors)
Y: the number of objects each sensor can distinguish Z: the total number of outputs (connections)
the number of states (EP): 60
the number of nodes (GNP): 60 (Judgment node: 40, Processing node: 20, except a start node)
one connection
Y connections processing node
judgement node GNP
... ... Y outputsX
state
EP
Fig. 4.5 The number of outputs from a node/state
1 2
initial state
JF TD
tile/MF
hole/TR
obstacle/TL floor/MF
agent/TR
forward/MF
backward/TR left/TL
right/TR
nothing/MF
in the case where one input is dealt with
Fig. 4.6 An example of an EP program
第4章 最適なノード内容の選択を行う学習進化型GNP 59
T
Tile T
Hole Obstacle
Agent Floor
T T
T
T
T T
T T
T T
T T
T T
T
T T
T T T T
T T
T
T T
T T
T
Fig. 4.7 Tileworld I
第4章 最適なノード内容の選択を行う学習進化型GNP 60
0 2 4 6 8 10 12 14 16 18 20 22
0 1000 2000 3000 4000 5000
generation
fitness
GNP-RL (21.23)
GNP-E (18.00)
fitness at the last generation
Fig. 4.8 Fitness curves of GNP in Simulation I
0 2 4 6 8 10 12 14 16 18 20 22
1000 2000 3000 4000 5000
fitness
generation
GP-ADF-full3-2 (15.43) GP-ADF-full4-3 (14.46) GP-full4 (14.00)
GP-ADF-ramp3-2 (13.86) GP-full5 (13.76)
GP-ADF-ramp4-3 (13.5) GP-ramp4 (10.10)
GP-ramp5 (10.30)
Fig. 4.9 Fitness curves of GP in Simulation I
0 2 4 6 8 10 12 14 16 18 20 22
0 1000 2000 3000 4000 5000
generation
fitness
EP-input3 state 5 (16.30) EP-input4 state 5 (14.93)
EP-input2 state 30 (13.70) EP-input1 state 60 (13.30)
Fig. 4.10 Fitness curves of EP in Simulation I
第4章 最適なノード内容の選択を行う学習進化型GNP 61
Table 4.3 The data on the best individuals at the last generation in Simulation I
GNP-LE GNP-E GP-ADFs GP EP
fitness 21.23 18.00 15.43 14.00 16.30
standard deviation 2.73 1.88 1.94 2.00 1.99
t-test GNP-LE —– 1.04×10−6 3.03×10−13 3.13×10−17 5.31×10−11
(p-value) GNP-E —– —– 1.32×10−6 3.17×10−11 5.95×10−4
Table 4.4 Calculation time for 5000 generations in Simulation I
GNP-LE GNP-E GP-ADFs GP EP
Calculation time [s] 1,364 1,019 3,252 3,281 2802 ratio of each method to GNP-E 1.34 1 3.19 3.22 2.75
第4章 最適なノード内容の選択を行う学習進化型GNP 62 次に,GPの結果について考察する。Fig. 4.9より,GP-full4がGP(ADFなし)の中 で最も良い結果を示しているが,GP-ADF-full3-2が全てのGPの設定の中で最も良い結 果を示している。これは,ADFがサブルーチンとしてより使われることで,効率的なプ ログラムが生成できたからだと考えられる。しかしGPは多くのノードを使用するため,
計算時間は多くなった。計算時間についての議論は後述する。
次に,EPの結果について考察する。EPは,Fig. 4.10が示すように,状態数が5,入 力数が3の設定が最も良い結果であった。EPはグラフ構造を持つため,GNPと同様に過 去のエージェントの行動履歴を暗黙的に利用した行動決定ができる。さらに,状態数が増 すほど過去の行動履歴を長く蓄えることができる。しかし,それによって出力とノード 遷移の数が極端に増大してしまい,非実用的になってしまう可能性がある。一方,GNP
の構造は4.6.1節で議論したように,ノード数が増えてもノード遷移の数が極端に多くな
ることはない。したがって,GNPはEPより多くの状態(ノード)を使うことが可能で あり,結果として,暗黙的なメモリ機能をより効果的に利用できる。
Table 4.4は5000世代あたりの計算時間を表しており,進化型GNPが最も早く,次い
で学習進化型GNP,EPとなっている。学習進化型GNPはタスク中に強化学習を行うた め,その分計算時間が増えている。EPは学習進化型GNPより時間がかかっているが,各 状態での入力数を3に制限することで,8個全ての入力を用いた通常のEPの計算時間よ りかなり短縮された値である。実際,4つの入力を用いたEPの計算時間は4,389秒であ り,3個の場合と比べて計算時間が増えていることがわかる。GPとADF付きGPは多 数のノードを持つため,遺伝的操作に時間がかかり,その結果他手法に比べて多くの時 間がかかっている。