[1] 3Dサッカーにおけるパス精度向上に向けた評価関数の検討.川添敦都,内種岳詞,岩⽥員典,伊藤暢浩,第36回 社会におけるAI研究会.
1.
背景・⽬的
6.
今後の課題
5.
結果の⽐較と検討
先⾏研究[1]では,学習アルゴリズムCMA-ES[2]を使い,動作結果の
確率的な変化に対応するために同じ個体を複数回評価することで
キック動作の精度向上を図った.
参考⽂献
[2] The CMA Evolution Strategy: A Tutorial. Nikolaus Hansen. Inria. 2009.
しかし,学習全体を通してすべ
ての個体を複数回評価していた
ため,学習に時間がかかる問題
があった.そのため,学習時間
の短縮をするアルゴリズムを設
計し,検討をおこなった.
3.
実験による⽐較⽅法
3Dサッカーのパスのイメージ
川添敦都(愛知⼯業⼤学),内種岳詞(愛知⼯業⼤学),岩⽥員典(愛知⼤学),伊藤暢浩(愛知⼯業⼤学)
2.
評価回数を可変的に調整するアルゴリズム
学習では,5mの⾶距離を⽬標にボールの初期地点(0,0)から⽬標地
点(5,0)に向けてボールをキックし,ボールの停⽌地点と⽬標地点
との差を評価する.また,学習終了後に⽬標地点に向けてボール
を1000回キックし,ボールの停⽌地点を記録する.
同じ個体への評価回数が固定の場合と可変的に変更させた場合の
学習結果を⽐較することで,学習したキック動作のパス精度と獲
得までの時間を⽐較する.
以下に学習中の評価値の推移と学習終了後にボールを1000
回キックした結果の⽐較を⽰す.固定で16回評価したもの
と⽐べると可変的に評価回数を変更した⽅が精度が悪いが,
学習⽇数を考慮すると⼗分に良い結果がでていると考えら
れる.
図5. 学習中の評価回数の推移
各世代における平均評価値と世代数の推移の⽐較 (評価値が⼩さい⽅が優秀)
学習終了後のキック動作で⽬標地点との差を1000回計測した結果の⽐較
各個体を固定で16回評価 可変的に評価回数を変更
学習⽇数: 60⽇ 学習⽇数: 7⽇
可変的に評価回数を変更した結果,今回は1世代あたり
の評価回数が3.14回となった.これは固定で3.14回評価
して学習することと同じであり,固定で16回評価して学
習することよりも少ない評価回数で学習が進められたと
いうことである.
しかし,右図の評価回数の
推移を⾒ると,到達した最
⼤の評価回数は10回であり,
設定した最⼤の16回に達し
ていない.そのため,固定
で16回評価した際に⽐べて
真にパス精度が良い個体が
評価されにくかったことで,
キック動作の完成度に差が
でたと考えられる.
今回のアルゴリズムによって学習時間の⼤幅な短縮に成功
したが,評価回数が適切に変更されておらず,キック動作
の完成度に差がでてしまった.そのため,より適切に評価
回数が変更されるようにアルゴリズムを改善する必要があ
ると考えられる.
学習状況に応じた評価回数𝑛への処理
学習の状況判定 同じ個体への評価回数𝒏に対する処理
𝑚
! − 𝑠 ≤ 𝑚 ≤ 𝑚
! + 𝑠 次世代の評価回数を増加 𝑛 + 1
𝑚
! − 2𝑠 ≤ 𝑚 < 𝑚
! − 𝑠, 𝑚
!+𝑠 < 𝑚 ≤ 𝑚
! + 2𝑠 次世代の評価回数を減少 𝑛 − 1
𝑚 < 𝑚
! – 2𝑠, 𝑚
! + 2𝑠 < 𝑚 評価回数をリセット (𝑛を初期値に変更)
学習の状況判定と同じ個体への評価回数𝑛に対する処理
パラメータ 設定値
𝑛の初期値 1 回
最低評価回数 1 回
最⼤評価回数 16
回
𝑚
!: 直近数世代の平均評価値 𝑠: 標本標準偏差 𝑚: 最新世代の平均評価値
本研究の学習設定
また,評価回数𝑛に範囲を設定することで同じ個体を評価しすぎな
いようにした.
3D
サッカーにおけるキック動作の学習時間の短縮⽅法の検討
学習7⽇⽬
そのため,以下のように学習中
に状況判定と評価回数𝑛の調整
をおこなう.
各世代の評価値
世代
劣悪
優秀
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
0 200 400 600 800 1000 1200
パス精度の向上
進展 停滞
学習の状況
学習時間短縮
評価回数の
軽減 追加
評価回数の
学習の状況に応じた評価回数の変更と狙い
各個体の評価回数が⼀定である
学習では,初めは評価値が収束
に向かい進展していくが,途中
からその変化が停滞する.そこ
で学習の状態に応じて評価回数
を動的に変化させることを考え
る.学習が進展している状況で
はより少ない評価回数で評価値
が改善されることを⾒込み,評
価回数を軽減する.反対に停滞
している状況では,パス精度が
より優秀な個体を正確に評価す
るために評価回数を追加する.