• 検索結果がありません。

囚人のジレンマゲームにおける空間上のエージェントの進化・学習

N/A
N/A
Protected

Academic year: 2021

シェア "囚人のジレンマゲームにおける空間上のエージェントの進化・学習"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第68回全国大会. 7B-3. 空間上の囚人のジレンマゲームにおける エージェントの進化・学習 小野真裕. 石塚満 †. 東京大学大学院情報理工学系研究科 ‡. 1. はじめに 近年自律的なエージェントの学習の研究が盛んであ. Q(st , at )←Q(st , at )+. る.エージェントの工学的応用を考えると,システム. α[rt+1 + γQ(st+1 , at+1 ) − Q(st , at )] (1). のパフォーマンスは,ハードコーディング部分と,環 境に適応可能な学習部分との組み合わせ方に影響を受 ける事が予想される.マルチエージェント環境におけ る学習の効果を明らかにすることはエージェント設計 指針のために有益である.本研究ではその端緒として,. ただし,α は学習率,rt+1 は手番 at に対する報酬, γ は割引率である.学習モデルとしては本研究では sarsa[1] を採用した.遺伝子には,これら強化学習のた めのパラメータと価値関数の初期値が含まれる.. エージェント間の相互作用が空間構造によって制限さ れる場合に特に注目し,囚人のジレンマゲームを行う エージェントの進化・学習について報告する.. 3. シミュレーション実験 実験では,n 人のゲームプレーヤー集団を作成した. 後,以下の各世代の処理を g 回行い集団を進化させる.. 2. エージェントモデル ここでいうエージェントは繰り返し囚人のジレンマ. ゲームをプレイするプレーヤーであり,以降プレーヤー と呼ぶ.プレーヤーは他のプレーヤーとの対戦の過程 で学習するための情報を遺伝子として持ち,強化学習 を行う. 繰り返しゲームを行う際,プレーヤーは過去一回の ゲームの記憶を保持し,前回の自分と相手の手番の組 み合わせによって状態を認識する.プレーヤーは全て の状態・手番の組み合わせについて価値関数を保持し, ある状態 s において行う手番 a を価値関数 Q(s, a) に よって評価する.Q(s, a) が大きいほど a は優れている と評価された手番であり,プレーヤーは優れた手番を 選択するべきである.ただし,一般にプレーヤーは行 動探索的な機構も備えているべきであり,本モデルで は次の手番 at+1 は ² グリーディによって選択する. 選択した手番に対しては,得られた利得を報酬とし て価値関数が更新される(式 (1)).. i) 空間構造に依存して選択されたプレーヤー同士で, a 回繰り返しゲームを単位とする対戦を行う.ii) その 世代における全ての対戦の終了後,各プレーヤーがそ の世代において取得した利得に応じて,b%のプレー ヤーを確率的に死亡させる.iii) 空間構造に依存した方 法で集団が n 人になるようにプレーヤーを補充する ここで,空間に構造が存在しないプールケースと, プレーヤー間にネットワークが存在するネットワーク ケースを考える.それぞれに依存する処理は以下であ る.プールケースでは,i) 各プレーヤーについてラン ダムに対戦相手を探し m 回の対戦を行う.iii) 2 人トー ナメント,2 点交差,c%突然変異を行い母集団を再構 成する.ネットワークケースでは Small World ネット ワークモデル [2] を用い,ランダムネスをシミュレー ションパラメータとする.各世代の処理は以下である.. i) 各プレーヤーが持つ m 本のリンクで結ばれるプレー ヤー同士で対戦を行う.iii) 死亡したプレーヤーの位置 からリンクで接続された近傍のプレーヤーのうち最も 利得の大きいものを c%突然変異を考慮しコピーする. 本稿では,(a, b, c, m, n) = (100, 20, 0.02, 3, 400) と. Evolution and Learning of Players in the Spatial Prisoner’s Dilemma Game Masahiro ONO, Mitsuru ISHIZUKA† Graduate School of Information Science and Technology, The University of Tokyo‡ {mono, ishizuka}@mi.ci.i.u-tokyo.ac.jp. 2-43. し,プレーヤーパラメータの一つ ² = 0.1 と固定した. 囚人のジレンマの利得行列は,(T, R, P, S) = (5, 3, 1, 0) とした.また,ある確率でプレーヤーの選択した手番 が逆転するノイズという概念を取り入れている..

(2) 情報処理学会第68回全国大会. 3.1. シミュレーション結果. 3. 以下では,g = 4000 として 2000 世代から 4000 世代. 2.8. までの間の平均を一試行の結果とし,複数回試行した. 2.6. 図 1 にプールケースの,図 2 にネットワークケース の平均利得を示す.プールケースでは,学習ありの場. 2.4 Gain. 平均を最終的な結果とした.. w/o learning w/ learning. 2.2 2 1.8 1.6. 合となしの場合で利得が高い領域が異なるが,ネット. 1.4. ワークケースでは全ての領域において学習なしの方が. 1.2 0. 10-6. 10-5. 10-4 10-3 Noise. 利得が高い.このように必ずしも学習を行う方が良い とは限らないことがわかった.学習ありの場合に注目. 10-2. 10-1. 図 1: 平均利得(プールケース). すると,プールケースに比べ,ネットワークケースで プレーヤー間の関係が継続する場合の方が利得が高い ことがわかる.いずれのケースにおいても,学習あり の場合にはノイズにかかわらずほぼフラットな利得が 得られ,これが学習の特徴であると言える. 次に,図 3 にプールケースの,図 4 にネットワーク ケースのプレーヤーパラメータ α,γ を示す.ノイズに. Gain. w/o learning w/ learning. 2.8 2.4 2 1.6 0. 対する変化が顕著でないため,ケースの違いにおける. 10-3. 差異を見るべく平均して特徴量とすると,プールケー. 10-2 Noise. スにおいては α ' 0.62,γ ' 0.19,ネットワークケー. -2. 10-1. 100. 10 10-1 10-3 Randomness of Network. スでは α ' 0.36,γ ' 0.50 であった.ここで,α はプ レーヤーの価値関数の更新速度を,γ はプレーヤーが. 図 2: 平均利得(ネットワークケース). 未来を重視する程度を意味する.他プレーヤーと再度 対戦することが多いネットワークケースでは,プール ケースに比べ割引率が高く,未来に得られる利得を重 視している.また,価値関数の更新速度も比較的緩や. 0.7. α γ. 0.6 0.5. かである.それに対して,プールケースのように他プ レーヤーとの関係の継続性が希薄な場合には,直近の 報酬しかあてにせず価値関数の更新速度が速い.この. 0.4 0.3. ように空間構造によって学習のプロセスに違いがある. 0.2. ことがわかった.. 0.1. 4. 10-6. 0. おわりに. 10-5. 10-4 Noise. 10-3. 10-2. 10-1. 図 3: α,γ (プールケース). 空間構造がエージェントの進化・学習に与える影響 について調べた.その結果,条件によって学習なし・学. α γ. 習ありのそれぞれが優れている場合がある事,プレー ヤー間の関係の継続性に依存して学習率・割引率に変. 0.8. 化が現れることがわかった.. 0.4 0. 参考文献. 0. [1] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning. MIT Press, 1998. [2] D. J. Watts and S. H. Strogatz. Collective dynamics of ‘small-world’ networks. Nature, Vol. 393, pp. 440–442, June 1998.. 10-3 10-2 Noise. -2. 10-1. 100. 10 10-1 10-3 Randomness of Network. 図 4: α,γ (ネットワークケース). 2-44.

(3)

参照

関連したドキュメント

の変化は空間的に滑らかである」という仮定に基づいて おり,任意の画素と隣接する画素のフローの差分が小さ くなるまで推定を何回も繰り返す必要がある

私たちの行動には 5W1H

ると︑上手から士人の娘︽腕に圧縮した小さい人間の首を下げて ペ贋︲ロ

限られた空間の中に日本人の自然観を凝縮したこの庭では、池を回遊する園路の随所で自然 の造形美に出会

このような情念の側面を取り扱わないことには それなりの理由がある。しかし、リードもまた

えて リア 会を設 したのです そして、 リア で 会を開 して、そこに 者を 込 ような仕 けをしました そして 会を必 開 して、オブザーバーにも必 の けをし ます

その目的は,洛中各所にある寺社,武家,公家などの土地所有権を調査したうえ

光を完全に吸収する理論上の黒が 明度0,光を完全に反射する理論上の 白を 10