R oboC upにお けるQ学習を用い た守備の強化
東京都市大学 水島 諒 穴田 一
よ
り
高
難
度
人間と同じようなスペックの
ロボットチーム同士を戦わせる大会
R oboC up
ロボット 制御
人工知能 ( A I)
マルチ エージェント
システム
囲碁と比べて何が難しい か?
R oboC up AIについ て
守備時の選手の移動方法
学習の方法: Q学習
学習結果
将棋 電王戦
囲碁 A lphaG o
目的:人間を超えるA I
最近では 、
人間を超えるレベルになってきた
ゲームA Iの研究が活+
市販のゲームは1A Iが11人を操作 R oboC upは 11A Iが各々1人を操作
事前知識を用い て 移動場所を決定
1対1の守備を学習
• ボールの場所に応じた選手の 理想的なポジショニング
• 戦略に応じて設定
事前知識
状況に応じた最適な行動を学習
更新式
, ← , + + m ax , − ,
学習の流れ1.今の状況 で可能な行動 の中で 最も良い 行動を選択
2.その行動の評価値 , を更新 1- 2を繰り返す
8m
15m
今後の課題
• チームへの適応方法の検討
• よりよい 状態の分類や報酬の付与量の検討
• 実際では 周りと協調して守備を行うため、
複数人 対 複数人の学習
試合の傾向:1対1の状況が多い
→ 1対1に強くならなければ ならない
実際の試合も同様
, :評価値
:報酬
:学習率
:割引率
既存 提案
成功確率 3/ 20 14/ 20
既存 提案
平均失点数 2.2 4.8
20回の練習結果 200回の試合結果
囲碁 R ob oC up 2D
行動範囲 19×19 ( マス) 105.0×69.0 ( m)
状況把握 全盤面 視野範囲のみ
処理時間 持ち時間がある リアルタイム 対戦形式 1A I vs 1A I 11A I vs 11A I
状態( 64種類)
コートからの距離 ( 2m以内) 敵との距離 ( 2m以内) 敵の方向 ( 8方向) 敵の位置 ( 2種類)
行動( 18種類) 走る ( 8方向) 歩く ( 8方向) タックル 動かない
報酬 常時:
ボールとの距離 ボールの位置 ボールと結ぶ直線と 横軸のなす角
後ろに戻した時: 後ろに移動した距離 クリア時:
報酬多め
15
20 18
28
32 38
45
25
実際の練習メニューを 取り入れる
0 5000 10000 15000 20000 25000 30000
1 428 855 1282 1709 2136 2563 2990 3417 3844 4271 4698 5125 5552 5979 6406 6833 7260 7687
各状態の最大評価値の合計
練習回数