3Dサッカーにおけるキック動作の学習時間の短縮方法の検討

(1)

[1] 3Dサッカーにおけるパス精度向上に向けた評価関数の検討．川添敦都，内種岳詞，岩⽥員典，伊藤暢浩，第36回社会におけるAI研究会.

1. 背景・⽬的

6. 今後の課題

5. 結果の⽐較と検討

先⾏研究[1]では，学習アルゴリズムCMA-ES[2]を使い，動作結果の確率的な変化に対応するために同じ個体を複数回評価することでキック動作の精度向上を図った．

参考⽂献

[2] The CMA Evolution Strategy: A Tutorial. Nikolaus Hansen. Inria. 2009.

しかし，学習全体を通してすべての個体を複数回評価していたため，学習に時間がかかる問題があった．そのため，学習時間の短縮をするアルゴリズムを設計し，検討をおこなった．

3. 実験による⽐較⽅法

3Dサッカーのパスのイメージ

川添敦都（愛知⼯業⼤学）,内種岳詞（愛知⼯業⼤学）,岩⽥員典（愛知⼤学）,伊藤暢浩（愛知⼯業⼤学）

2. 評価回数を可変的に調整するアルゴリズム

学習では，5mの⾶距離を⽬標にボールの初期地点(0,0)から⽬標地点(5,0)に向けてボールをキックし，ボールの停⽌地点と⽬標地点との差を評価する．また，学習終了後に⽬標地点に向けてボールを1000回キックし，ボールの停⽌地点を記録する．同じ個体への評価回数が固定の場合と可変的に変更させた場合の学習結果を⽐較することで，学習したキック動作のパス精度と獲得までの時間を⽐較する．以下に学習中の評価値の推移と学習終了後にボールを1000 回キックした結果の⽐較を⽰す．固定で16回評価したものと⽐べると可変的に評価回数を変更した⽅が精度が悪いが，学習⽇数を考慮すると⼗分に良い結果がでていると考えられる．図5. 学習中の評価回数の推移各世代における平均評価値と世代数の推移の⽐較 (評価値が⼩さい⽅が優秀) 学習終了後のキック動作で⽬標地点との差を1000回計測した結果の⽐較 各個体を固定で16回評価 可変的に評価回数を変更 学習⽇数: 60⽇学習⽇数: 7⽇

可変的に評価回数を変更した結果，今回は1世代あたり

の評価回数が3.14回となった．これは固定で3.14回評価

して学習することと同じであり，固定で16回評価して学

習することよりも少ない評価回数で学習が進められたと

いうことである．

しかし，右図の評価回数の推移を⾒ると，到達した最⼤の評価回数は10回であり，設定した最⼤の16回に達していない．そのため，固定で16回評価した際に⽐べて真にパス精度が良い個体が評価されにくかったことで，キック動作の完成度に差がでたと考えられる．今回のアルゴリズムによって学習時間の⼤幅な短縮に成功したが，評価回数が適切に変更されておらず，キック動作の完成度に差がでてしまった．そのため，より適切に評価回数が変更されるようにアルゴリズムを改善する必要があると考えられる．学習状況に応じた評価回数𝑛への処理 学習の状況判定 同じ個体への評価回数𝒏に対する処理 𝑚_! − 𝑠 ≤ 𝑚 ≤ 𝑚_! + 𝑠 次世代の評価回数を増加 𝑛 + 1 𝑚_! − 2𝑠 ≤ 𝑚 < 𝑚_! − 𝑠, 𝑚_!+𝑠 < 𝑚 ≤ 𝑚_! + 2𝑠 次世代の評価回数を減少 𝑛 − 1 𝑚 < 𝑚_! – 2𝑠, 𝑚_! + 2𝑠 < 𝑚 評価回数をリセット (𝑛を初期値に変更) 学習の状況判定と同じ個体への評価回数𝑛に対する処理 パラメータ 設定値 𝑛の初期値 1 回最低評価回数 1 回最⼤評価回数 16 _回 𝑚_!: 直近数世代の平均評価値 𝑠: 標本標準偏差 𝑚: 最新世代の平均評価値本研究の学習設定また，評価回数𝑛に範囲を設定することで同じ個体を評価しすぎないようにした．

3D

サッカーにおけるキック動作の学習時間の短縮⽅法の検討

学習7⽇⽬そのため，以下のように学習中に状況判定と評価回数𝑛の調整をおこなう．各世代の評価値世代劣悪優秀 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 0 200 400 600 800 1000 1200 パス精度の向上進展停滞学習の状況学習時間短縮評価回数の軽減追加評価回数の学習の状況に応じた評価回数の変更と狙い各個体の評価回数が⼀定である学習では，初めは評価値が収束に向かい進展していくが，途中からその変化が停滞する．そこで学習の状態に応じて評価回数を動的に変化させることを考える．学習が進展している状況ではより少ない評価回数で評価値が改善されることを⾒込み，評価回数を軽減する．反対に停滞している状況では，パス精度がより優秀な個体を正確に評価するために評価回数を追加する．