実験結果 : 予備実験 - マウンテンカー問題 - Exemplar の生成と一般化に基づく学習分類子システムに関する研究

7.1 マウンテンカー問題

7.1.3 実験結果 : 予備実験

予備実験の結果を図7.3，7.4 にそれぞれ示す．図7.1 および，7.3の横軸は学習回数を示し，左側の縦軸はゴールまでステップ数を右側の縦軸はルール数であるPopulation Sizeを示す．青，赤，紫，緑の順に示される線グラフは，それぞれ，学習中にランダムな位置からスタートしゴールまでのステップ数の移動平均，評価中の固定位置からゴールまでのステップ数の移動平均，Q-学習で既に学習済みのルックアップテーブルを用いた場合の固定位置からのゴールまでのステップ数，そして，Population Sizeの移動平均を示している．移動平均の区間は50エピソードである．また，Q学習による最適値は97ステップである．図7.4の縦軸と横軸はそれぞれ，マウンテンカー問題における入力値である速度vと位置xを表す．赤で囲まれた円は行動+1，青で囲まれた円は行動の−1を表している．

第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題

図7.3 ECSによるExemplar数とステップ数の推移(ステップ数はQ学習と比較)

図7.4 ECSによるExemplar抽出

7.1. マウンテンカー問題第 7. 計算機実験: 実数値マルチステップ問題

7.1.4 実験結果 : 一般化のみ

図7.5は300000回の学習後のEBPと比較した平均獲得報酬と最大獲得報酬の推移を

示している．縦軸は獲得報酬を示し，横軸は各ゴールパスの結果を示している．青い棒グラフが平均獲得報酬，橙色の棒グラフが最大獲得報酬を示している．また，黒い破線はEBPによる平均獲得報酬を示している．図 7.6-7.10にECSの一般化のみを動作させ各ゴールパスを設定しマウンテンカー問題に適用した結果を示す．ランダムな位置からスタートした平均ステップ数と平均獲得報酬，固定位置からスタートした平均ステップ数と平均獲得報酬，そして，population sizeの移動平均の推移を示している．各グラフの横軸は学習回数，左側の縦軸はゴールまでのstep数及び獲得報酬，右側の縦軸はECE のもつexemplarの総数であるpopulation size をそれぞれ示している．ゴールパスを5つまたは4つ与えた場合においてはpopulation sizeが100から130の間で収束しており，

ゴールパスが3つ以下だとpopulation sizeは100以下に収束している．また，ランダムなスタート位置からの獲得報酬の平均の推移をみると，-50から-40あたりを推移している．特に，ゴールパスを多く与えたほうがより獲得報酬が多い傾向がみられる．また，図 7.11はEBPと比較したゴールパスを5つ与えたECSによる平均獲得報酬と最大獲得報酬の推移を示している．赤い線がECSの最大獲得報酬を示し，青い線がECSの平均獲得報酬を示している．また，上段の黒い線はEBPによる最大獲得報酬を示し，下段の黒い線はEBPによる平均獲得報酬を示している．ECSは最大獲得報酬においてはEBPに上回る性能を示すも平均獲得報酬では下回っていることが示されている．

図7.5 試行回数30000回後の平均獲得報酬と最大獲得報酬

第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題

図7.6 一般化のみゴールパス5

図7.7 一般化のみゴールパス4

図7.8 一般化のみゴールパス3

7.1. マウンテンカー問題第 7. 計算機実験: 実数値マルチステップ問題

図7.9 一般化のみゴールパス2

図7.10 一般化のみゴールパス 1

第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題

図7.11 EBPと比較した平均獲得報酬と最大獲得報酬の推移

7.1. マウンテンカー問題第 7. 計算機実験: 実数値マルチステップ問題

7.1.5 実験結果 : 一般化と生成・削除

表7.1と表7.2は，ECS に生成と削除の機構を実装したシステムをマウンテンカー問題に適用した平均獲得報酬と平均population sizeの結果を示している．加えて，図7.12 と図7.13は表7.1と表7.2をそれぞれ棒グラフに示したものである．さらに図7.14-7.25 はゴールパスと設定した母集団上限数による，ランダムな位置からスタートした平均ステップ数と平均獲得報酬，固定位置からスタートした平均ステップ数と平均獲得報酬，そ

して，population sizeの移動平均の推移を示している．各グラフの横軸は学習回数，左

側の縦軸はゴールまでのstep数及び獲得報酬，右側の縦軸はECEのもつexemplarの総数であるpopulation sizeをそれぞれ示している．表7.1からは，ゴールパスの数が多いほど獲得報酬が多く，設定した母集団サイズは小さいほどより最終的な母集団の大きさが小さくなり分散も少なくなる傾向にあることを示している．図7.14-7.25では，与えられるゴールパスの数に対してpopulation sizeの上限が大きく設定されている場合において

は，population sizeが学習時間とともに増加していく傾向がみられる．しかしながら，

ゴールパスが1つしか与えられていない場合においては，一旦populaiton sizeが上昇していくものの，それほど性能は向上しておらずむしろ悪くなっている場合も見られるため，性能を向上させるようなexemplarの生成があまりできていないことが示唆される．

表7.1 ゴールパスと設定した母集団上限数による学習後の平均獲得報酬

``````^{ゴールパスの数}``````````

母集団サイズ

400 300 200

5 -38.64 ± 10.14 -38.27 ± 4.81 -39.17 ± 5.95

4 -45.52 ± 9.17 -44.88 ± 8.30 -39.98 ± 8.58

3 -46.73 ± 9.74 -47.48 ± 10.21 -46.55 ± 10.91 2 -47.86 ± 9.81 -47.69 ± 10.13 -48.64 ± 10.99 1 -104.25 ± 90.44 -78.17 ± 15.48 -76.82 ± 15.86

図7.12 ゴールパスと設定した母集団上限数による学習後の平均獲得報酬

第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題

表7.2 ゴールパスと設定した母集団上限数による学習後の総exemplar数の平均

``````^{ゴールパスの数}``````````

母集団サイズ

400 300 200

5 183.86± 10.14 1514.24± 8.93 101.84± 6.79 4 226.43± 13.68 176.18± 10.20 95.02± 9.87 3 137.08± 30.98 109.94± 20.68 82.98± 11.63 2 124.94± 32.18 98.06± 23.34 76.20± 11.85 1 172.46± 90.58 125.82± 56.06 82.06± 37.89

図7.13 ゴールパスと設定した母集団上限数による学習後の総exemplar数の平均

7.1. マウンテンカー問題第 7. 計算機実験: 実数値マルチステップ問題

図7.14 生成・削除を追加初期設定: pop. size 400,ゴールパス 4

図7.15 生成・削除を追加初期設定: pop. size 300 ゴールパス4

図7.16 生成・削除を追加初期設定: pop. size 200 ゴールパス4

第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題

図7.17 生成・削除を追加初期設定: pop. size 400, ゴールパス3

図7.18 生成・削除を追加初期設定: pop. size 300 ゴールパス3

図7.19 生成・削除を追加初期設定: pop. size 200 ゴールパス3

7.1. マウンテンカー問題第 7. 計算機実験: 実数値マルチステップ問題

図7.20 生成・削除を追加初期設定: pop. size 400,ゴールパス 2

図7.21 生成・削除を追加初期設定: pop. size 300 ゴールパス2

図7.22 生成・削除を追加初期設定: pop. size 200 ゴールパス2

第7. 計算機実験: 実数値マルチステップ問題 7.1. マウンテンカー問題

図7.23 生成・削除を追加初期設定: pop. size 400, ゴールパス1

図7.24 生成・削除を追加初期設定: pop. size 300 ゴールパス1

図7.25 生成・削除を追加初期設定: pop. size 200 ゴールパス1

7.1. マウンテンカー問題第 7. 計算機実験: 実数値マルチステップ問題

ドキュメント内 Exemplar の生成と一般化に基づく学習分類子システムに関する研究 (ページ 84-96)