不整地環境における評価実験

第 8 章仮想環境における実験

8.4 不整地環境における評価実験

方策のグラフより，状態番号１程度の平坦かつ摩擦の高い路面環境では，主に車輪動作による行動の価値が最も高まっていることが明らかである．また，状態番号

2

^{以降である} 比較的大きな脚トルクが取得された場合には，脚車輪動作やトライポッド歩容による行動の価値が高まっていることが明らかである．ここで，この理由についての考察を行う．まず，トルク値の小さい状態に関しては，障害物のない環境では車輪動作が最も安定して変位を取得可能であり，なおかつ方位の変化が起こりづらいことから，価値が高まったと考えられる．次に，トルク値の大きい状態に関しては，障害物への乗り上げ等が必要な場合が多いため，脚の持ち上げを行う脚車輪動作やトライポッド歩容の価値が高まったと考えられる．

また，報酬値のグラフにおいては，特に

10

区間の移動平均に着目すると，ロボットは学習回数に依らず常に概ね

0.5

から

1

程度の報酬を得ていることが明らかである．この理由としては，今回実験に用いた地形では，いずれの行動を選択してもある程度は進行可能であるためと考えられる．さらに，学習回数が増加しても

0

程度，あるいは負の報酬を取得する場合が存在していることが明らかである．この理由としては，

(1)

^{変位の推定精度} が低いため，正しい変位を取得できていないこと，

(2)

脚を用いた動作時に振動等が発生することで，強制的に変位が

0

となっていること，

(3)

実験用の地形では平坦な地形と障害物が交互に配置されているために，行動中に障害物に接した場合にはその時点でスタックし得ること等が考えられる．したがって，今後は自己位置推定や学習用の訓練環境の改善を行う必要があると考えられる．

図 8.4: 評価実験用の不整地環境におけるスタート地点

8.4.1

評価実験の結果

先述の評価実験用の不整地環境を学習前後のロボットに走破させることによって評価を行う．なお，評価はロボットがスタート地点からゴール地点に達するまでを

1

^{試行とし，}

これを

5

回行うものとする．まず，学習前後におけるロボットが環境を走破するまでの行動回数の平均値を図

8.5

に，

5

試行における行動回数の箱ひげ図を図

8.6

に示す．なお，学習前のロボットは完全にランダムな行動を選択するものとする．

図 8.5: 学習前後におけるロボットの行動回数の平均値

図 8.6: 学習前後におけるロボットの行動回数の箱ひげ図

この行動回数の平均値に対して，独立した標本の

t

検定を行った．その結果，学習後の行動回数（

M = 8.6, SD = 2.79

）は学習前の行動回数（

M = 23.6, SD = 10.55

）と比較して有意に少なくなっていることが明らかとなった（

t(8) = − 3.07, p < 0.05,

片側検定）．

次に，学習前後におけるロボットが環境を走破するまでのコースアウト回数の平均値を図

8.8

^に，

5

試行におけるコースアウト回数の箱ひげ図を図

8.8

^に示す．

図 8.7: 学習前後におけるロボットのコースアウト回数の平均値

図 8.8: 学習前後におけるロボットのコースアウト回数の箱ひげ図

このコースアウト回数の平均値に対して，先と同様に独立した標本の

t

^{検定を行った．そ} の結果，学習後の行動回数（

M = 0.6, SD = 0.89

）は学習前の行動回数（

M = 3.4, SD = 1.67

）と比較して有意に少なくなっていることが明らかとなった（

t(8) = − 3.3, p < 0.05,