囚人のジレンマゲームにおける空間上のエージェントの進化・学習
2
0
0
全文
(2) 情報処理学会第68回全国大会. 3.1. シミュレーション結果. 3. 以下では,g = 4000 として 2000 世代から 4000 世代. 2.8. までの間の平均を一試行の結果とし,複数回試行した. 2.6. 図 1 にプールケースの,図 2 にネットワークケース の平均利得を示す.プールケースでは,学習ありの場. 2.4 Gain. 平均を最終的な結果とした.. w/o learning w/ learning. 2.2 2 1.8 1.6. 合となしの場合で利得が高い領域が異なるが,ネット. 1.4. ワークケースでは全ての領域において学習なしの方が. 1.2 0. 10-6. 10-5. 10-4 10-3 Noise. 利得が高い.このように必ずしも学習を行う方が良い とは限らないことがわかった.学習ありの場合に注目. 10-2. 10-1. 図 1: 平均利得(プールケース). すると,プールケースに比べ,ネットワークケースで プレーヤー間の関係が継続する場合の方が利得が高い ことがわかる.いずれのケースにおいても,学習あり の場合にはノイズにかかわらずほぼフラットな利得が 得られ,これが学習の特徴であると言える. 次に,図 3 にプールケースの,図 4 にネットワーク ケースのプレーヤーパラメータ α,γ を示す.ノイズに. Gain. w/o learning w/ learning. 2.8 2.4 2 1.6 0. 対する変化が顕著でないため,ケースの違いにおける. 10-3. 差異を見るべく平均して特徴量とすると,プールケー. 10-2 Noise. スにおいては α ' 0.62,γ ' 0.19,ネットワークケー. -2. 10-1. 100. 10 10-1 10-3 Randomness of Network. スでは α ' 0.36,γ ' 0.50 であった.ここで,α はプ レーヤーの価値関数の更新速度を,γ はプレーヤーが. 図 2: 平均利得(ネットワークケース). 未来を重視する程度を意味する.他プレーヤーと再度 対戦することが多いネットワークケースでは,プール ケースに比べ割引率が高く,未来に得られる利得を重 視している.また,価値関数の更新速度も比較的緩や. 0.7. α γ. 0.6 0.5. かである.それに対して,プールケースのように他プ レーヤーとの関係の継続性が希薄な場合には,直近の 報酬しかあてにせず価値関数の更新速度が速い.この. 0.4 0.3. ように空間構造によって学習のプロセスに違いがある. 0.2. ことがわかった.. 0.1. 4. 10-6. 0. おわりに. 10-5. 10-4 Noise. 10-3. 10-2. 10-1. 図 3: α,γ (プールケース). 空間構造がエージェントの進化・学習に与える影響 について調べた.その結果,条件によって学習なし・学. α γ. 習ありのそれぞれが優れている場合がある事,プレー ヤー間の関係の継続性に依存して学習率・割引率に変. 0.8. 化が現れることがわかった.. 0.4 0. 参考文献. 0. [1] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning. MIT Press, 1998. [2] D. J. Watts and S. H. Strogatz. Collective dynamics of ‘small-world’ networks. Nature, Vol. 393, pp. 440–442, June 1998.. 10-3 10-2 Noise. -2. 10-1. 100. 10 10-1 10-3 Randomness of Network. 図 4: α,γ (ネットワークケース). 2-44.
(3)
関連したドキュメント
の変化は空間的に滑らかである」という仮定に基づいて おり,任意の画素と隣接する画素のフローの差分が小さ くなるまで推定を何回も繰り返す必要がある
私たちの行動には 5W1H
ると︑上手から士人の娘︽腕に圧縮した小さい人間の首を下げて ペ贋︲ロ
限られた空間の中に日本人の自然観を凝縮したこの庭では、池を回遊する園路の随所で自然 の造形美に出会
このような情念の側面を取り扱わないことには それなりの理由がある。しかし、リードもまた
えて リア 会を設 したのです そして、 リア で 会を開 して、そこに 者を 込 ような仕 けをしました そして 会を必 開 して、オブザーバーにも必 の けをし ます
その目的は,洛中各所にある寺社,武家,公家などの土地所有権を調査したうえ
光を完全に吸収する理論上の黒が 明度0,光を完全に反射する理論上の 白を 10