sig sai26 1 Recent site activity jsaisigsai

(1)

R oboC upにおけるQ学習を用いた守備の強化

東京都市大学水島諒穴田一

よ

り

高

難

度

人間と同じようなスペックの

ロボットチーム同士を戦わせる大会

R oboC up

ロボット制御

人工知能 ( A I)

マルチエージェント

システム

囲碁と比べて何が難しいか？

R oboC up AIについて

守備時の選手の移動方法

学習の方法： Q学習

学習結果

将棋電王戦

囲碁 A lphaG o

目的：人間を超えるA I

ゲームA Iの研究が活+

市販のゲームは1A Iが11人を操作 R oboC upは 11A Iが各々1人を操作

事前知識を用いて移動場所を決定

1対1の守備を学習

• ボールの場所に応じた選手の理想的なポジショニング

• 戦略に応じて設定

事前知識

状況に応じた最適な行動を学習

更新式

, ← , + + m ax , − ,

学習の流れ

1.今の状況で可能な行動の中で最も良い行動を選択

2.その行動の評価値 , を更新 1- 2を繰り返す

８m

15m

今後の課題

• チームへの適応方法の検討

• よりよい状態の分類や報酬の付与量の検討

• 実際では周りと協調して守備を行うため、

複数人対複数人の学習

試合の傾向：1対1の状況が多い

→ 1対1に強くならなければならない

実際の試合も同様

, ：評価値

：報酬

：学習率

：割引率

既存提案

成功確率 3/ 20 14/ 20

既存提案

平均失点数 2.2 4.8

20回の練習結果 200回の試合結果

囲碁 R ob oC up 2D

行動範囲 19×19 ( マス) 105.0×69.0 ( m)

状況把握全盤面視野範囲のみ

処理時間持ち時間があるリアルタイム対戦形式 1A I vs 1A I 11A I vs 11A I

状態( 64種類)

コートからの距離 ( 2m以内) 敵との距離 ( 2m以内) 敵の方向 ( 8方向) 敵の位置 ( 2種類)

行動( 18種類) 走る ( 8方向) 歩く ( 8方向) タックル動かない

報酬常時：

ボールとの距離ボールの位置ボールと結ぶ直線と横軸のなす角

後ろに戻した時：後ろに移動した距離クリア時：

報酬多め

15

20 18

28

32 38

45

25

実際の練習メニューを取り入れる

0 5000 10000 15000 20000 25000 30000

1 428 855 1282 1709 2136 2563 2990 3417 3844 4271 4698 5125 5552 5979 6406 6833 7260 7687

各状態の最大評価値の合計

練習回数