• 検索結果がありません。

3Dサッカーにおけるキック動作の学習時間の短縮方法の検討

N/A
N/A
Protected

Academic year: 2021

シェア "3Dサッカーにおけるキック動作の学習時間の短縮方法の検討"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

[1] 3Dサッカーにおけるパス精度向上に向けた評価関数の検討.川添敦都,内種岳詞,岩⽥員典,伊藤暢浩,第36回 社会におけるAI研究会.

1.

背景・⽬的

6.

今後の課題

5.

結果の⽐較と検討

先⾏研究[1]では,学習アルゴリズムCMA-ES[2]を使い,動作結果の 確率的な変化に対応するために同じ個体を複数回評価することで キック動作の精度向上を図った.

参考⽂献

[2] The CMA Evolution Strategy: A Tutorial. Nikolaus Hansen. Inria. 2009.

しかし,学習全体を通してすべ ての個体を複数回評価していた ため,学習に時間がかかる問題 があった.そのため,学習時間 の短縮をするアルゴリズムを設 計し,検討をおこなった.

3.

実験による⽐較⽅法

3Dサッカーのパスのイメージ

川添敦都(愛知⼯業⼤学),内種岳詞(愛知⼯業⼤学),岩⽥員典(愛知⼤学),伊藤暢浩(愛知⼯業⼤学)

2.

評価回数を可変的に調整するアルゴリズム

学習では,5mの⾶距離を⽬標にボールの初期地点(0,0)から⽬標地 点(5,0)に向けてボールをキックし,ボールの停⽌地点と⽬標地点 との差を評価する.また,学習終了後に⽬標地点に向けてボール を1000回キックし,ボールの停⽌地点を記録する. 同じ個体への評価回数が固定の場合と可変的に変更させた場合の 学習結果を⽐較することで,学習したキック動作のパス精度と獲 得までの時間を⽐較する. 以下に学習中の評価値の推移と学習終了後にボールを1000 回キックした結果の⽐較を⽰す.固定で16回評価したもの と⽐べると可変的に評価回数を変更した⽅が精度が悪いが, 学習⽇数を考慮すると⼗分に良い結果がでていると考えら れる. 図5. 学習中の評価回数の推移 各世代における平均評価値と世代数の推移の⽐較 (評価値が⼩さい⽅が優秀) 学習終了後のキック動作で⽬標地点との差を1000回計測した結果の⽐較 各個体を固定で16回評価 可変的に評価回数を変更 学習⽇数: 60⽇ 学習⽇数: 7⽇

可変的に評価回数を変更した結果,今回は1世代あたり

の評価回数が3.14回となった.これは固定で3.14回評価

して学習することと同じであり,固定で16回評価して学

習することよりも少ない評価回数で学習が進められたと

いうことである.

しかし,右図の評価回数の 推移を⾒ると,到達した最 ⼤の評価回数は10回であり, 設定した最⼤の16回に達し ていない.そのため,固定 で16回評価した際に⽐べて 真にパス精度が良い個体が 評価されにくかったことで, キック動作の完成度に差が でたと考えられる. 今回のアルゴリズムによって学習時間の⼤幅な短縮に成功 したが,評価回数が適切に変更されておらず,キック動作 の完成度に差がでてしまった.そのため,より適切に評価 回数が変更されるようにアルゴリズムを改善する必要があ ると考えられる. 学習状況に応じた評価回数𝑛への処理 学習の状況判定 同じ個体への評価回数𝒏に対する処理 𝑚! − 𝑠 ≤ 𝑚 ≤ 𝑚! + 𝑠 次世代の評価回数を増加 𝑛 + 1 𝑚! − 2𝑠 ≤ 𝑚 < 𝑚! − 𝑠, 𝑚!+𝑠 < 𝑚 ≤ 𝑚! + 2𝑠 次世代の評価回数を減少 𝑛 − 1 𝑚 < 𝑚! – 2𝑠, 𝑚! + 2𝑠 < 𝑚 評価回数をリセット (𝑛を初期値に変更) 学習の状況判定と同じ個体への評価回数𝑛に対する処理 パラメータ 設定値 𝑛の初期値 1 回 最低評価回数 1 回 最⼤評価回数 16 𝑚!: 直近数世代の平均評価値 𝑠: 標本標準偏差 𝑚: 最新世代の平均評価値 本研究の学習設定 また,評価回数𝑛に範囲を設定することで同じ個体を評価しすぎな いようにした.

3D

サッカーにおけるキック動作の学習時間の短縮⽅法の検討

学習7⽇⽬ そのため,以下のように学習中 に状況判定と評価回数𝑛の調整 をおこなう. 各世代の評価値 世代 劣悪 優秀 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 0 200 400 600 800 1000 1200 パス精度の向上 進展 停滞 学習の状況 学習時間短縮 評価回数の 軽減 追加 評価回数の 学習の状況に応じた評価回数の変更と狙い 各個体の評価回数が⼀定である 学習では,初めは評価値が収束 に向かい進展していくが,途中 からその変化が停滞する.そこ で学習の状態に応じて評価回数 を動的に変化させることを考え る.学習が進展している状況で はより少ない評価回数で評価値 が改善されることを⾒込み,評 価回数を軽減する.反対に停滞 している状況では,パス精度が より優秀な個体を正確に評価す るために評価回数を追加する.

参照

関連したドキュメント

子どもの学習従事時間を Fig.1 に示した。BL 期には学習への注意喚起が 2 回あり,強 化子があっても学習従事時間が 30

第9号 マージャン店、パチンコ屋、ゲームセンター など 1000平米超:20時までの営業時間短縮要請

学期 指導計画(学習内容) 小学校との連携 評価の観点 評価基準 主な評価方法 主な判定基準. (おおむね満足できる

項目 評価条件 最確条件 評価設定の考え方 運転員等操作時間に与える影響 評価項目パラメータに与える影響. 原子炉初期温度

具体的な取組の 状況とその効果 に対する評価.

 大学図書館では、教育・研究・学習をサポートする図書・資料の提供に加えて、この数年にわ

具体的な取組の 状況とその効果 に対する評価.

具体的な取組の 状況とその効果 に対する評価.