第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47
4.6 シミュレーション
4.6.3 シミュレーション II
第4章 最適なノード内容の選択を行う学習進化型GNP 62 次に,GPの結果について考察する。Fig. 4.9より,GP-full4がGP(ADFなし)の中 で最も良い結果を示しているが,GP-ADF-full3-2が全てのGPの設定の中で最も良い結 果を示している。これは,ADFがサブルーチンとしてより使われることで,効率的なプ ログラムが生成できたからだと考えられる。しかしGPは多くのノードを使用するため,
計算時間は多くなった。計算時間についての議論は後述する。
次に,EPの結果について考察する。EPは,Fig. 4.10が示すように,状態数が5,入 力数が3の設定が最も良い結果であった。EPはグラフ構造を持つため,GNPと同様に過 去のエージェントの行動履歴を暗黙的に利用した行動決定ができる。さらに,状態数が増 すほど過去の行動履歴を長く蓄えることができる。しかし,それによって出力とノード 遷移の数が極端に増大してしまい,非実用的になってしまう可能性がある。一方,GNP
の構造は4.6.1節で議論したように,ノード数が増えてもノード遷移の数が極端に多くな
ることはない。したがって,GNPはEPより多くの状態(ノード)を使うことが可能で あり,結果として,暗黙的なメモリ機能をより効果的に利用できる。
Table 4.4は5000世代あたりの計算時間を表しており,進化型GNPが最も早く,次い
で学習進化型GNP,EPとなっている。学習進化型GNPはタスク中に強化学習を行うた め,その分計算時間が増えている。EPは学習進化型GNPより時間がかかっているが,各 状態での入力数を3に制限することで,8個全ての入力を用いた通常のEPの計算時間よ りかなり短縮された値である。実際,4つの入力を用いたEPの計算時間は4,389秒であ り,3個の場合と比べて計算時間が増えていることがわかる。GPとADF付きGPは多 数のノードを持つため,遺伝的操作に時間がかかり,その結果他手法に比べて多くの時 間がかかっている。
第4章 最適なノード内容の選択を行う学習進化型GNP 63 が新しい環境でも良い適合度を示すことが求められる。この問題はシミュレーションIよ りも動的であり,タイルワールド問題を解くために必要な,一般的な知識の獲得能力を 検証する問題として適している。また,制限時間は300ステップとした。
Fig. 4.11,4.12,4.13は各世代の最良個体の適合度を30回の独立試行で平均化したも
のである。図より学習進化型GNPはその他の手法と比べて良い適合度を早く獲得できて いることがわかる。これより,タスク中に得られる情報を用いてノード内容の選択を行 う提案手法が良く機能していると言える。Table 4.5は,最終世代における最良個体の適 合度のデータを示しているが,学習進化型GNPはその他の手法との間に有意な差がある ことがわかる。また,進化型GNPとGP,ADF付きGPとの間にも有意な差があること がわかった。進化型GNPとEPの間には有意な差が得られなかったが,これはEPが用 いる入力数を適切なものに設定するという特別な処理を行った結果であり考察について は後述する。
次に,GPの結果について考察する。Fig. 4.12は,GP-full5とGP-ADF-full3-2の適合 度曲線,およびその他の設定については最終世代の適合度のみを示している。すべての 適合度曲線を表示すると互いに曲線が重なり合うため,最も良い結果が得られた2つの 設定について表示した。しかし,GNP,EPと比べて,GP,ADF付きGPは良い結果を 示すことができなかった。これは,環境が毎世代変わる複雑な問題であったことに加え,
GPは多くのノードを使うため,探索空間がGNPやEPと比べて非常に大きくなり,解 の探索が効率的に行われなかったと考えられる。
EPの結果で興味深いところは,シミュレーションIと逆の設定が良い結果を示してい ることである。つまり,シミュレーションIでは入力数を3に設定したとき良い結果で あったが,シミュレーションIIでは入力数が1のとき,最も良い結果を示していること である。したがって,シミュレーションIIの環境に対して,EPは各状態で1個の入力を 用い,比較的多くの状態を設定して行動決定を行うのが望ましいことがわかる。言い換 えると,EPは多数のシンプルなルールを作り,過去の状態遷移の履歴を考慮しながら行 動決定を行っている。これはGNPの構造と似ている。しかしながら,GNPではシミュ レーションI,IIともにノード数を60個と設定し良い結果を得ている。これは,GNPが
第4章 最適なノード内容の選択を行う学習進化型GNP 64
0 2 4 6 8 10 12 14 16 18 20 22
0 1000 2000 3000 4000 5000
fitness
generation
GNP-LE (19.93)
GNP-E (15.30)
Fig. 4.11 Fitness curves of GNP in Simulation II
0 2 4 6 8 10 12 14 16 18 20 22
1000 2000 3000 4000 5000
GP-ADF-full3-2 (6.67)
GP-full5 (6.10) GP-full4 (5.90)
GP-ramp5 (5.20) GP-ramp4 (5.13)
GP-ADF-ramp3-2 (5.73) GP-ADF-full4-3 (5.56)
GP-ADF-ramp4-3 (5.60)
generation
fitness
Fig. 4.12 Fitness curves of GP in Simulation II
0 2 4 6 8 10 12 14 16 18 20 22
0 1000 2000 3000 4000 5000
fitness
generation
EP-input 1 state 60 (14.40) EP-input 2 state 30 (12.77)
EP-input 3 state 5 (9.40)
EP-input 4 state 5 (7.67)
Fig. 4.13 Fitness curves of EP in Simulation II
第4章 最適なノード内容の選択を行う学習進化型GNP 65
Table 4.5 The data on the best individuals at the last generation in Simulation II
GNP-LE GNP-E GP-ADFs GP EP
fitness 19.93 15.30 6.67 6.10 14.40
standard deviation 2.43 3.88 3.19 1.75 2.54
t-test GNP-LE —– 5.90×10−8 7.46×10−26 1.53×10−31 2.90×10−12
(p-value) GNP-E —– —– 1.36×10−13 5.91×10−15 1.46×10−1
Table 4.6 Calculation time for 5000 generations in Simulation II
GNP-LE GNP-E GP-ADFs GP EP
Calculation time [s] 2,740 1,177 5,921 12,059 1,584 ratio of each method to GNP-E 2.33 1 5.03 10.25 1.35
第4章 最適なノード内容の選択を行う学習進化型GNP 66 行動決定のために必要な入力の内容および数を自動的に選択し効率的なプログラムを生 成しているからである。
Table 4.6は5000世代あたりの計算時間を示している。シミュレーションIIでも進化型
GNPが最も早い時間で計算できている。ところが,2番目に早い結果を示したのはEPで 学習進化型GNPは3番目であった。これは,最も良い適合度を示したEPの各状態での 入力数が1であり,計算時間が短縮されたためである。シミュレーションIで示したEPの 計算時間は,3つの入力の組み合わせから出力を決定する設定のものであった。GP-full5 は他のADFなしGPの中で最も良い適合度を示したが,3,906個のノードを持つため,計 算時間は非常に多くなってしまった。GP-ADF-full3-2はGP-full5よりもノード数が少な く計算時間が短かったが,GNPと比べて多くの計算時間がかかった。
Fig. 4.14は,学習進化型GNPの最良個体が使ったノードの比率を示している。x軸は
ノードの番号とノード内容を表す記号を表示しており,y軸は使用比率を表示している。
初期世代では,グラフ構造がランダムに初期化され,効率的なノード遷移は行われてい ない。しかし,最終世代ではMF,JF,JB,TD,THDが頻繁に使用されている。した がって,学習進化型GNPが獲得した行動ルールは,最も近いタイルの方向と,そのタイ ルから最も近い穴への方向を判定し,前後の状況を見ながらタイルのほうへ向かってい ると考えられる。このようなノードの使用状況は前章で提案した学習進化型GNPとほぼ 一致しており,タイルワールド問題を解くにあたって必要な情報と行動であることがわか る。特に興味深いのは,エージェントから最も近い穴への方向(HD)を判定するのでは なく,タイルから最も近い穴への方向(THD)を判定していることである。これは,自 分が穴へ到達することが目的ではなく,タイルを穴へ落とすことが目的であり,タイル から穴へ最も近いルートを探すことが重要だからである。