シミュレーション II

第 4 章最適なノード内容の選択を行う学習進化型 GNP 47

4.6 シミュレーション

4.6.3 シミュレーション II

第4章最適なノード内容の選択を行う学習進化型GNP 62 次に，GPの結果について考察する。Fig. 4.9より，GP-full4がGP（ADFなし）の中で最も良い結果を示しているが，GP-ADF-full3-2が全てのGPの設定の中で最も良い結果を示している。これは，ADFがサブルーチンとしてより使われることで，効率的なプログラムが生成できたからだと考えられる。しかしGPは多くのノードを使用するため，

計算時間は多くなった。計算時間についての議論は後述する。

次に，EPの結果について考察する。EPは，Fig. 4.10が示すように，状態数が5，入力数が3の設定が最も良い結果であった。EPはグラフ構造を持つため，GNPと同様に過去のエージェントの行動履歴を暗黙的に利用した行動決定ができる。さらに，状態数が増すほど過去の行動履歴を長く蓄えることができる。しかし，それによって出力とノード遷移の数が極端に増大してしまい，非実用的になってしまう可能性がある。一方，GNP

の構造は4.6.1節で議論したように，ノード数が増えてもノード遷移の数が極端に多くな

ることはない。したがって，GNPはEPより多くの状態（ノード）を使うことが可能であり，結果として，暗黙的なメモリ機能をより効果的に利用できる。

Table 4.4は5000世代あたりの計算時間を表しており，進化型GNPが最も早く，次い

で学習進化型GNP，EPとなっている。学習進化型GNPはタスク中に強化学習を行うため，その分計算時間が増えている。EPは学習進化型GNPより時間がかかっているが，各状態での入力数を3に制限することで，8個全ての入力を用いた通常のEPの計算時間よりかなり短縮された値である。実際，4つの入力を用いたEPの計算時間は4,389秒であり，3個の場合と比べて計算時間が増えていることがわかる。GPとADF付きGPは多数のノードを持つため，遺伝的操作に時間がかかり，その結果他手法に比べて多くの時間がかかっている。

第4章最適なノード内容の選択を行う学習進化型GNP 63 が新しい環境でも良い適合度を示すことが求められる。この問題はシミュレーションIよりも動的であり，タイルワールド問題を解くために必要な，一般的な知識の獲得能力を検証する問題として適している。また，制限時間は300ステップとした。

Fig. 4.11，4.12，4.13は各世代の最良個体の適合度を30回の独立試行で平均化したも

のである。図より学習進化型GNPはその他の手法と比べて良い適合度を早く獲得できていることがわかる。これより，タスク中に得られる情報を用いてノード内容の選択を行う提案手法が良く機能していると言える。Table 4.5は，最終世代における最良個体の適合度のデータを示しているが，学習進化型GNPはその他の手法との間に有意な差があることがわかる。また，進化型GNPとGP，ADF付きGPとの間にも有意な差があることがわかった。進化型GNPとEPの間には有意な差が得られなかったが，これはEPが用いる入力数を適切なものに設定するという特別な処理を行った結果であり考察については後述する。

次に，GPの結果について考察する。Fig. 4.12は，GP-full5とGP-ADF-full3-2の適合度曲線，およびその他の設定については最終世代の適合度のみを示している。すべての適合度曲線を表示すると互いに曲線が重なり合うため，最も良い結果が得られた2つの設定について表示した。しかし，GNP，EPと比べて，GP，ADF付きGPは良い結果を示すことができなかった。これは，環境が毎世代変わる複雑な問題であったことに加え，

GPは多くのノードを使うため，探索空間がGNPやEPと比べて非常に大きくなり，解の探索が効率的に行われなかったと考えられる。

EPの結果で興味深いところは，シミュレーションIと逆の設定が良い結果を示していることである。つまり，シミュレーションIでは入力数を3に設定したとき良い結果であったが，シミュレーションIIでは入力数が1のとき，最も良い結果を示していることである。したがって，シミュレーションIIの環境に対して，EPは各状態で1個の入力を用い，比較的多くの状態を設定して行動決定を行うのが望ましいことがわかる。言い換えると，EPは多数のシンプルなルールを作り，過去の状態遷移の履歴を考慮しながら行動決定を行っている。これはGNPの構造と似ている。しかしながら，GNPではシミュレーションI，IIともにノード数を60個と設定し良い結果を得ている。これは，GNPが

第4章最適なノード内容の選択を行う学習進化型GNP 64

0 2 4 6 8 10 12 14 16 18 20 22

0 1000 2000 3000 4000 5000

fitness

generation

GNP-LE (19.93)

GNP-E (15.30)

Fig. 4.11 Fitness curves of GNP in Simulation II

0 2 4 6 8 10 12 14 16 18 20 22

1000 2000 3000 4000 5000

GP-ADF-full3-2 (6.67)

GP-full5 (6.10) GP-full4 (5.90)

GP-ramp5 (5.20) GP-ramp4 (5.13)

GP-ADF-ramp3-2 (5.73) GP-ADF-full4-3 (5.56)

GP-ADF-ramp4-3 (5.60)

generation

fitness

Fig. 4.12 Fitness curves of GP in Simulation II

0 2 4 6 8 10 12 14 16 18 20 22

0 1000 2000 3000 4000 5000

fitness

generation

EP-input 1 state 60 (14.40) EP-input 2 state 30 (12.77)

EP-input 3 state 5 (9.40)

EP-input 4 state 5 (7.67)

Fig. 4.13 Fitness curves of EP in Simulation II

第4章最適なノード内容の選択を行う学習進化型GNP 65

Table 4.5 The data on the best individuals at the last generation in Simulation II

GNP-LE GNP-E GP-ADFs GP EP

ﬁtness 19.93 15.30 6.67 6.10 14.40

standard deviation 2.43 3.88 3.19 1.75 2.54

t-test GNP-LE —– 5.90×10⁻⁸ 7.46×10⁻²⁶ 1.53×10⁻³¹ 2.90×10⁻¹²

(p-value) GNP-E —– —– 1.36×10⁻¹³ 5.91×10⁻¹⁵ 1.46×10⁻¹

Table 4.6 Calculation time for 5000 generations in Simulation II

GNP-LE GNP-E GP-ADFs GP EP

Calculation time [s] 2,740 1,177 5,921 12,059 1,584 ratio of each method to GNP-E 2.33 1 5.03 10.25 1.35

第4章最適なノード内容の選択を行う学習進化型GNP 66 行動決定のために必要な入力の内容および数を自動的に選択し効率的なプログラムを生成しているからである。

Table 4.6は5000世代あたりの計算時間を示している。シミュレーションIIでも進化型

GNPが最も早い時間で計算できている。ところが，2番目に早い結果を示したのはEPで学習進化型GNPは3番目であった。これは，最も良い適合度を示したEPの各状態での入力数が1であり，計算時間が短縮されたためである。シミュレーションIで示したEPの計算時間は，3つの入力の組み合わせから出力を決定する設定のものであった。GP-full5 は他のADFなしGPの中で最も良い適合度を示したが，3,906個のノードを持つため，計算時間は非常に多くなってしまった。GP-ADF-full3-2はGP-full5よりもノード数が少なく計算時間が短かったが，GNPと比べて多くの計算時間がかかった。

Fig. 4.14は，学習進化型GNPの最良個体が使ったノードの比率を示している。x軸は

ノードの番号とノード内容を表す記号を表示しており，y軸は使用比率を表示している。

初期世代では，グラフ構造がランダムに初期化され，効率的なノード遷移は行われていない。しかし，最終世代ではMF，JF，JB，TD，THDが頻繁に使用されている。したがって，学習進化型GNPが獲得した行動ルールは，最も近いタイルの方向と，そのタイルから最も近い穴への方向を判定し，前後の状況を見ながらタイルのほうへ向かっていると考えられる。このようなノードの使用状況は前章で提案した学習進化型GNPとほぼ一致しており，タイルワールド問題を解くにあたって必要な情報と行動であることがわかる。特に興味深いのは，エージェントから最も近い穴への方向（HD）を判定するのではなく，タイルから最も近い穴への方向（THD）を判定していることである。これは，自分が穴へ到達することが目的ではなく，タイルを穴へ落とすことが目的であり，タイルから穴へ最も近いルートを探すことが重要だからである。

ドキュメント内情報生産システム工学専攻進化型計算システム研究 (ページ 67-71)

第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47

4.6 シミュレーション

4.6.3 シミュレーション II

第 4 章最適なノード内容の選択を行う学習進化型 GNP 47