非定常環境マルチエージェント学習におけるエージェント数と最適 Exploration 率の関係
全文
(2) 情報処理学会第 76 回全国大会. 適 ϵ を解析的に求めるのはまだ困難であるため、最適. 100. ϵ と他のパラメータがどのような関係にあるかを解析. population=1000 population=900 population=800 population=700 population=600 population=500 population=400 population=300 population=200 population=100. 80. square error. する。特に本稿では、エージェントの総数 N に着目 し、それと最適 ϵ の関係を調べる。 まずそのために、いくつかの仮定を置く。. 60. 40. • 行動 c の報酬 rc は、c に関わらず一定の単調現象 ( ) 報酬関数 ψ により、rc (dc ) = ψ γdcc により決ま. 20. 0. るものとする。ただし、γc は正の定数であり、dc. 0. 0.02. 0.04. 0.06. 0.08. 0.1. epsilon. は c を選択しているエージェント数である。. 図 1: 報酬が rc (dc ) = γc /dc の時の学習誤差の変化. • 学習の平衡状態では、各行動 c の報酬はすべて同 じ (均衡) であるとする。その結果、各優勢確率も 同じであるとする。. 100 population=1000 population=900 population=800 population=700 population=600 population=500 population=400 population=300 population=200 population=100. square error. 80. • exploration による分布 d のゆらぎ ∆dc による報 c ¯′ 酬のゆらぎは ∆rc = ∆d γc ψ で近似できるとする。. 60. 40. 20. ′. a (c ) • 分布 dc のゆらぎによる優勢確率のゆらぎ ∂ρ∂d c 0 0 0.02 0.04 0.06 0.08 0.1 は以下の式で表せるとする。 epsilon √ { ¯′ ψ ′ ;c′ = cの時 図 2: 報酬が rc (dc ) = γc /dc の時の学習誤差の変化 ∂ρa (c′ ) γc · P (∆rc = 0) ∝ ′ ¯ −ψ ′ ∂dc ′ (K−1)γ · P (∆rc = 0) ;c ̸= cの時 c. おわりに. 5. これらをもとに、 ∂L ∂ϵ = 0 を展開すると、次の式が 得られる。 ( ) ( ( )) 1 ∂ Q ∂ K +1 + ϵ 2− ϵ =0 T ∂ϵ ϵ ∂ϵ K ( ) Q = tr R−1 = tr ([Rij ]) ∑ κic κjc Rij = γi γj Hc (ϵ). 本稿では、非定常環境におけるマルチエージェント同 時学習において、エージェント総数と最適 Exploration 率の関係を調べ、ある条件下で両者の間が非依存であ ることを理論的に示した。また、それを実験により確 認した。. c∈C. 謝辞. ここで重要なのは、この式の中にエージェント数 N が. 本研究は科研費 24300064 および JST CREST. の助成を受けたものである。. 含まれていない点である。すなわち、最適 ϵ は N に依 存せず決定できることが、この式からわかる。. 参考文献. 4. 実験による検証. [1] Itsuki Noda. Limitations of simultaneous multiagent learning in nonstationary environments. In Prof. of 2013 IEEE/WIC/ACM International Conference on INtelligent Agent Technology (IAT. 上記で得られた最適 ϵ と N の非依存性を示すため に、ある PG を用いて学習実験を行い、エージェント 数と ϵ のみを変化させてどのように学習誤差が変化す. 2013), pages paper–13. IEEE, Nov. 2013.. るかを調べた。その結果を図 ??に示す。この図からわ. [2] 野田五十樹. 動的環境におけるマルチエージェント 同時学習における最適 exploration に関する考察.. かるように、最適 ϵ はエージェント数 N によらず一定 であることが確認できる。. In JAWS 2013. JAWS2013 実行委員会, 9 月 2013.. 2. 2-14. Copyright 2014 Information Processing Society of Japan. All Rights Reserved..
(3)
関連したドキュメント
Results of logistic regression analyses for individual labels revealed that the degree of environmental interest, energy reduction efforts, and inclination to change power
[Nitanda&Suzuki: Fast Convergence Rates of Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime,
Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization I: A generic algorithmic framework.. SIAM Journal on Optimization,
Dual averaging and proximal gradient descent for online alternating direction multiplier method. Stochastic dual coordinate ascent with alternating direction method
We first recall in the next Section the construction of the exploration process, how it codes a CRT and its main properties we shall use. We also define the marked exploration
小学校学習指導要領総則第1の3において、「学校における体育・健康に関する指導は、児
Key words: earthquake, stone wall, collapse, castle, surface wave exploration, elastic wave exploration, ground penetrating radar.. 1.は じ
小・中学校における環境教育を通して、子供 たちに省エネなど環境に配慮した行動の実践 をさせることにより、CO 2