7.1 マウンテンカー問題
7.1.3 実験結果 : 予備実験
予備実験の結果を図7.3,7.4 にそれぞれ示す.図7.1 および,7.3の横軸は学習回数 を示し,左側の縦軸はゴールまでステップ数を右側の縦軸はルール数であるPopulation Sizeを示す.青,赤,紫,緑の順に示される線グラフは,それぞれ,学習中にランダムな 位置からスタートしゴールまでのステップ数の移動平均,評価中の固定位置からゴールま でのステップ数の移動平均,Q-学習で既に学習済みのルックアップテーブルを用いた場 合の固定位置からのゴールまでのステップ数,そして,Population Sizeの移動平均を示 している.移動平均の区間は50エピソードである.また,Q学習による最適値は97ス テップである.図7.4の縦軸と横軸はそれぞれ,マウンテンカー問題における入力値であ る速度vと位置xを表す.赤で囲まれた円は行動+1,青で囲まれた円は行動の−1を表 している.
第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題
図7.3 ECSによるExemplar数とステップ数の推移(ステップ数はQ学習と比較)
図7.4 ECSによるExemplar抽出
7.1. マウンテンカー問題 第 7. 計算機実験: 実数値マルチステップ問題
7.1.4 実験結果 : 一般化のみ
図7.5は300000回の学習後のEBPと比較した平均獲得報酬と最大獲得報酬の推移を
示している.縦軸は獲得報酬を示し,横軸は各ゴールパスの結果を示している.青い棒 グラフが平均獲得報酬,橙色の棒グラフが最大獲得報酬を示している.また,黒い破線 はEBPによる平均獲得報酬を示している.図 7.6-7.10にECSの一般化のみを動作させ 各ゴールパスを設定しマウンテンカー問題に適用した結果を示す.ランダムな位置からス タートした平均ステップ数と平均獲得報酬,固定位置からスタートした平均ステップ数と 平均獲得報酬,そして,population sizeの移動平均の推移を示している.各グラフの横 軸は学習回数,左側の縦軸はゴールまでのstep数及び獲得報酬,右側の縦軸はECE の もつexemplarの総数であるpopulation size をそれぞれ示している.ゴールパスを5つ または4つ与えた場合においてはpopulation sizeが100から130の間で収束しており,
ゴールパスが3つ以下だとpopulation sizeは100以下に収束している.また,ランダム なスタート位置からの獲得報酬の平均の推移をみると,-50から-40あたりを推移してい る.特に,ゴールパスを多く与えたほうがより獲得報酬が多い傾向がみられる.また,図 7.11はEBPと比較したゴールパスを5つ与えたECSによる平均獲得報酬と最大獲得報 酬の推移を示している.赤い線がECSの最大獲得報酬を示し,青い線がECSの平均獲 得報酬を示している.また,上段の黒い線はEBPによる最大獲得報酬を示し,下段の黒 い線はEBPによる平均獲得報酬を示している.ECSは最大獲得報酬においてはEBPに 上回る性能を示すも平均獲得報酬では下回っていることが示されている.
図7.5 試行回数30000回後の平均獲得報酬と最大獲得報酬
第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題
図7.6 一般化のみ ゴールパス5
図7.7 一般化のみ ゴールパス4
図7.8 一般化のみ ゴールパス3
7.1. マウンテンカー問題 第 7. 計算機実験: 実数値マルチステップ問題
図7.9 一般化のみ ゴールパス2
図7.10 一般化のみ ゴールパス 1
第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題
図7.11 EBPと比較した平均獲得報酬と最大獲得報酬の推移
7.1. マウンテンカー問題 第 7. 計算機実験: 実数値マルチステップ問題
7.1.5 実験結果 : 一般化と生成・削除
表7.1と表7.2は,ECS に生成と削除の機構を実装したシステムをマウンテンカー問 題に適用した平均獲得報酬と平均population sizeの結果を示している.加えて,図7.12 と図7.13は表7.1と表7.2をそれぞれ棒グラフに示したものである.さらに図7.14-7.25 はゴールパスと設定した母集団上限数による,ランダムな位置からスタートした平均ス テップ数と平均獲得報酬,固定位置からスタートした平均ステップ数と平均獲得報酬,そ
して,population sizeの移動平均の推移を示している.各グラフの横軸は学習回数,左
側の縦軸はゴールまでのstep数及び獲得報酬,右側の縦軸はECEのもつexemplarの総 数であるpopulation sizeをそれぞれ示している.表7.1からは,ゴールパスの数が多い ほど獲得報酬が多く,設定した母集団サイズは小さいほどより最終的な母集団の大きさが 小さくなり分散も少なくなる傾向にあることを示している.図7.14-7.25では,与えられ るゴールパスの数に対してpopulation sizeの上限が大きく設定されている場合において
は,population sizeが学習時間とともに増加していく傾向がみられる.しかしながら,
ゴールパスが1つしか与えられていない場合においては,一旦populaiton sizeが上昇し ていくものの,それほど性能は向上しておらずむしろ悪くなっている場合も見られるた め,性能を向上させるようなexemplarの生成があまりできていないことが示唆される.
表7.1 ゴールパスと設定した母集団上限数による学習後の平均獲得報酬
``````ゴールパスの数``````````
母集団サイズ
400 300 200
5 -38.64 ± 10.14 -38.27 ± 4.81 -39.17 ± 5.95
4 -45.52 ± 9.17 -44.88 ± 8.30 -39.98 ± 8.58
3 -46.73 ± 9.74 -47.48 ± 10.21 -46.55 ± 10.91 2 -47.86 ± 9.81 -47.69 ± 10.13 -48.64 ± 10.99 1 -104.25 ± 90.44 -78.17 ± 15.48 -76.82 ± 15.86
図7.12 ゴールパスと設定した母集団上限数による学習後の平均獲得報酬
第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題
表7.2 ゴールパスと設定した母集団上限数による学習後の総exemplar数の平均
``````ゴールパスの数``````````
母集団サイズ
400 300 200
5 183.86± 10.14 1514.24± 8.93 101.84± 6.79 4 226.43± 13.68 176.18± 10.20 95.02± 9.87 3 137.08± 30.98 109.94± 20.68 82.98± 11.63 2 124.94± 32.18 98.06± 23.34 76.20± 11.85 1 172.46± 90.58 125.82± 56.06 82.06± 37.89
図7.13 ゴールパスと設定した母集団上限数による学習後の総exemplar数の平均
7.1. マウンテンカー問題 第 7. 計算機実験: 実数値マルチステップ問題
図7.14 生成・削除を追加 初期設定: pop. size 400,ゴールパス 4
図7.15 生成・削除を追加 初期設定: pop. size 300 ゴールパス4
図7.16 生成・削除を追加 初期設定: pop. size 200 ゴールパス4
第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題
図7.17 生成・削除を追加 初期設定: pop. size 400, ゴールパス3
図7.18 生成・削除を追加 初期設定: pop. size 300 ゴールパス3
図7.19 生成・削除を追加 初期設定: pop. size 200 ゴールパス3
7.1. マウンテンカー問題 第 7. 計算機実験: 実数値マルチステップ問題
図7.20 生成・削除を追加 初期設定: pop. size 400,ゴールパス 2
図7.21 生成・削除を追加 初期設定: pop. size 300 ゴールパス2
図7.22 生成・削除を追加 初期設定: pop. size 200 ゴールパス2
第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題
図7.23 生成・削除を追加 初期設定: pop. size 400, ゴールパス1
図7.24 生成・削除を追加 初期設定: pop. size 300 ゴールパス1
図7.25 生成・削除を追加 初期設定: pop. size 200 ゴールパス1
7.1. マウンテンカー問題 第 7. 計算機実験: 実数値マルチステップ問題