• 検索結果がありません。

sig sai26 1 Recent site activity jsaisigsai

N/A
N/A
Protected

Academic year: 2018

シェア "sig sai26 1 Recent site activity jsaisigsai"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)

R oboC upにお けるQ学習を用い た守備の強化

東京都市大学 水島 諒 穴田 一

人間と同じようなスペックの

ロボットチーム同士を戦わせる大会

R oboC up

ロボット 制御

人工知能 ( A I)

マルチ エージェント

システム

囲碁と比べて何が難しい か?

R oboC up AIについ て

守備時の選手の移動方法

学習の方法: Q学習

学習結果

将棋 電王戦

囲碁 A lphaG o

目的:人間を超えるA I

最近では 、

人間を超えるレベルになってきた

ゲームA Iの研究が活+

市販のゲームは1A Iが11人を操作 R oboC upは 11A Iが各々1人を操作

事前知識を用い て 移動場所を決定

1対1の守備を学習

• ボールの場所に応じた選手の 理想的なポジショニング

• 戦略に応じて設定

事前知識

状況に応じた最適な行動を学習

更新式

, ← , + + m ax , − ,

学習の流れ

1.今の状況 で可能な行動 の中で 最も良い 行動を選択

2.その行動の評価値 , を更新 1- 2を繰り返す

m

15m

今後の課題

• チームへの適応方法の検討

• よりよい 状態の分類や報酬の付与量の検討

• 実際では 周りと協調して守備を行うため、

複数人 対 複数人の学習

試合の傾向:1対1の状況が多い

→ 1対1に強くならなければ ならない

実際の試合も同様

, :評価値

:報酬

:学習率

:割引率

既存 提案

成功確率 3/ 20 14/ 20

既存 提案

平均失点数 2.2 4.8

20回の練習結果 200回の試合結果

囲碁 R ob oC up 2D

行動範囲 19×19 ( マス) 105.0×69.0 ( m)

状況把握 全盤面 視野範囲のみ

処理時間 持ち時間があ リアルタイム 対戦形式 1A I vs 1A I 11A I vs 11A I

状態( 64種類)

コートからの距離 ( 2m以内) 敵との距離 ( 2m以内) 敵の方向 ( 8方向) 敵の位置 ( 2種類)

行動( 18種類) 走る ( 8方向) 歩く ( 8方向) タックル 動かない

報酬 常時:

ボールとの距離 ボールの位置 ボールと結ぶ直線と 横軸のなす角

後ろに戻した時: 後ろに移動した距離 クリア時:

報酬多め

15

20 18

28

32 38

45

25

実際の練習メニューを 取り入れる

0 5000 10000 15000 20000 25000 30000

1 428 855 1282 1709 2136 2563 2990 3417 3844 4271 4698 5125 5552 5979 6406 6833 7260 7687

各状態の最大評価値の合

練習回数

参照

関連したドキュメント

Doing Enumerative Combinatorics, we avoid studying any sequence WITHOUT nice formula.... We just ignore

The categories of prespectra, symmetric spectra and orthogonal spec- tra each carry a cofibrantly generated, proper, topological model structure with fibrations and weak

“Breuil-M´ezard conjecture and modularity lifting for potentially semistable deformations after

Thus, starting with a bivariate function which is a tensor- product of finitely supported totally positive refinable functions, the new functions are obtained by using the

Arnold This paper deals with recent applications of fractional calculus to dynamical sys- tems in control theory, electrical circuits with fractance, generalized voltage di-

Arnold This paper deals with recent applications of fractional calculus to dynamical sys- tems in control theory, electrical circuits with fractance, generalized voltage di-

Marco Donatelli, University of Insubria Ronny Ramlau, Johan Kepler University Lothar Reichel, Kent State University Giuseppe Rodriguez, University of Cagliari Special volume

Many well-known graph drawing techniques, including force-directed drawings, spectral graph layouts, multidimensional scaling, and circle packings, have algebraic formulations.