• 検索結果がありません。

シミュレーション I

第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47

4.6 シミュレーション

4.6.2 シミュレーション I

4章 最適なノード内容の選択を行う学習進化型GNP 57 求めた。EPは交叉を用いず,突然変異のみで進化を行うが,その内容は以下の通りであ る。{ADD STATE, REMOVE STATE, CHANGE TRANSITION, CHANGE OUTPUT, CHANGE INITIAL STATE, CHANGE INPUT}。最後の操作が本章で導入したもので あり,残りの操作は文献 [41]で使われているものと同じである。

4章 最適なノード内容の選択を行う学習進化型GNP 58 Table 4.2 The relation between the number of inputs and outputs in EP and GNP

case 1 case 2 case 3 case 4

X 1 4 8 8

Y 2 2 2 5

EP 120 960 15,360 23,437,500

Z GNP-E 100 100 100 220

GNP-LE (M = 4) 100–400 (variable) 100–400 100–400 220–880

X: the number of inputs (sensors)

Y: the number of objects each sensor can distinguish Z: the total number of outputs (connections)

the number of states (EP): 60

the number of nodes (GNP): 60 (Judgment node: 40, Processing node: 20, except a start node)

one connection

Y connections processing node

judgement node GNP

... ... Y outputsX

state

EP

Fig. 4.5 The number of outputs from a node/state

1 2

initial state

JF TD

tile/MF

hole/TR

obstacle/TL floor/MF

agent/TR

forward/MF

backward/TR left/TL

right/TR

nothing/MF

in the case where one input is dealt with

Fig. 4.6 An example of an EP program

4章 最適なノード内容の選択を行う学習進化型GNP 59

T

Tile T

Hole Obstacle

Agent Floor

T T

T

T

T T

T T

T T

T T

T T

T

T T

T T T T

T T

T

T T

T T

T

Fig. 4.7 Tileworld I

4章 最適なノード内容の選択を行う学習進化型GNP 60

0 2 4 6 8 10 12 14 16 18 20 22

0 1000 2000 3000 4000 5000

generation

fitness

GNP-RL (21.23)

GNP-E (18.00)

fitness at the last generation

Fig. 4.8 Fitness curves of GNP in Simulation I

0 2 4 6 8 10 12 14 16 18 20 22

1000 2000 3000 4000 5000

fitness

generation

GP-ADF-full3-2 (15.43) GP-ADF-full4-3 (14.46) GP-full4 (14.00)

GP-ADF-ramp3-2 (13.86) GP-full5 (13.76)

GP-ADF-ramp4-3 (13.5) GP-ramp4 (10.10)

GP-ramp5 (10.30)

Fig. 4.9 Fitness curves of GP in Simulation I

0 2 4 6 8 10 12 14 16 18 20 22

0 1000 2000 3000 4000 5000

generation

fitness

EP-input3 state 5 (16.30) EP-input4 state 5 (14.93)

EP-input2 state 30 (13.70) EP-input1 state 60 (13.30)

Fig. 4.10 Fitness curves of EP in Simulation I

4章 最適なノード内容の選択を行う学習進化型GNP 61

Table 4.3 The data on the best individuals at the last generation in Simulation I

GNP-LE GNP-E GP-ADFs GP EP

fitness 21.23 18.00 15.43 14.00 16.30

standard deviation 2.73 1.88 1.94 2.00 1.99

t-test GNP-LE —– 1.04×10−6 3.03×10−13 3.13×10−17 5.31×10−11

(p-value) GNP-E —– —– 1.32×10−6 3.17×10−11 5.95×10−4

Table 4.4 Calculation time for 5000 generations in Simulation I

GNP-LE GNP-E GP-ADFs GP EP

Calculation time [s] 1,364 1,019 3,252 3,281 2802 ratio of each method to GNP-E 1.34 1 3.19 3.22 2.75

4章 最適なノード内容の選択を行う学習進化型GNP 62 次に,GPの結果について考察する。Fig. 4.9より,GP-full4がGP(ADFなし)の中 で最も良い結果を示しているが,GP-ADF-full3-2が全てのGPの設定の中で最も良い結 果を示している。これは,ADFがサブルーチンとしてより使われることで,効率的なプ ログラムが生成できたからだと考えられる。しかしGPは多くのノードを使用するため,

計算時間は多くなった。計算時間についての議論は後述する。

次に,EPの結果について考察する。EPは,Fig. 4.10が示すように,状態数が5,入 力数が3の設定が最も良い結果であった。EPはグラフ構造を持つため,GNPと同様に過 去のエージェントの行動履歴を暗黙的に利用した行動決定ができる。さらに,状態数が増 すほど過去の行動履歴を長く蓄えることができる。しかし,それによって出力とノード 遷移の数が極端に増大してしまい,非実用的になってしまう可能性がある。一方,GNP

の構造は4.6.1節で議論したように,ノード数が増えてもノード遷移の数が極端に多くな

ることはない。したがって,GNPはEPより多くの状態(ノード)を使うことが可能で あり,結果として,暗黙的なメモリ機能をより効果的に利用できる。

Table 4.4は5000世代あたりの計算時間を表しており,進化型GNPが最も早く,次い

で学習進化型GNP,EPとなっている。学習進化型GNPはタスク中に強化学習を行うた め,その分計算時間が増えている。EPは学習進化型GNPより時間がかかっているが,各 状態での入力数を3に制限することで,8個全ての入力を用いた通常のEPの計算時間よ りかなり短縮された値である。実際,4つの入力を用いたEPの計算時間は4,389秒であ り,3個の場合と比べて計算時間が増えていることがわかる。GPとADF付きGPは多 数のノードを持つため,遺伝的操作に時間がかかり,その結果他手法に比べて多くの時 間がかかっている。