• 検索結果がありません。

強化学習戦略の 進化

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 49-52)

本章ではこれまで,両プレイヤがある強化学習戦略 αi ∈ [0,1] を選択 したときのIPDの帰結を分析してきた.本節では分析の焦点を戦略から プレイヤに移し,両プレイヤが IPDゲームの結果を踏まえて,自己利益 を最大化するという目的のもと強化学習戦略を切り換えるゲーム5を考 える.これはゲーム理論の用語では Nash 均衡となる戦略ペアを求める ことに対応する.このゲームでは各プレイヤは αi ∈ [0,1] を変化させる ことで同時に(交互に)最適な強化学習戦略を求めるが,これは相手の戦 略に対して最適な記憶保持率を求めることを意味する.したがって,本 節では,両プレイヤが自己利益を最大化するよう戦略を変化させた場合,

最終的にどのような強化学習戦略(記憶保持率)を採用するかを調べる.

5このゲームは進化ゲームと類似しているが,進化ゲームのプレイヤは「自然」1人 であるのに対し,本節では2人のプレイヤを想定している.

0.0 0.2 0.4 0.6 0.8 1.0

α1

0.0 0.2 0.4 0.6 0.8 1.0

α2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0 0.2 0.4 0.6 0.8 1.0

α1

0.0 0.2 0.4 0.6 0.8 1.0

α2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Player 1 F11, α2) Player 2 F21, α2)

図 3.9: 強化学習戦略αi ∈[0,1] を扱うプレイヤの利得関数Fi1, α2) 図 3.9 では図 3.3 と同じデータを用いて各戦略ペアごとの期待利得 を示した.より具体的には,図 3.3 の各点 (α1, α2) に対応した定常分 布(π(CC), π(CD), π(DC), π(DD))から,f1(CC)π(CC) +f1(CD)π(CD) + f1(DC)π(DC) +f1(DD)π(DD) を計算し,これを図3.9の各点(α1, α2)の 値とした.これは強化学習戦略 αi ∈ [0,1] を戦略集合とするゲームの利 得関数 Fi1, α2) を近似するものといえる.強化学習戦略αi = 0 はラン ダムに振る舞うため(α1, α2) = (1,0) は ALLD vs RANDのようになり,

プレイヤ1の期待利得はF1(1,0) = [f1(DC) +f1(DD)]/2 = (5 + 1)/2 = 3 となり,他方,プレイヤ2 は F2(1,0) = (0 + 1)/2 = 0.5となる.これは 相互協調の期待利得f1(CC) = 3 と等しい.また,(α1, α2) = (0,0)では 期待利得は (3 + 0 + 5 + 1)/4 = 2.25 である.

Nash均衡となる戦略ペアは互いに相手の戦略に対する最適応答となる が,これは両プレイヤの利得関数を同時に最大化する極大点と対応する.

図3.9中,破線が相手の戦略に対する最適応答を表す.図から,強化学習 戦略を集合とするゲームの利得関数F1(F2)は2つの極大点をもつと推 測される.一方は (α1, α2) = (1,0) 付近であり,この点はプレイヤ 1 の 利得関数F1 では極大であるが,プレイヤ2の利得関数F2 では極大では ない.他方は相互協調(α1, α2) = (1,1)付近であり,この点は両プレイヤ にとって極大となる.最適応答を示す破線はα12 >0.65の範囲では F1 と F2 でほぼ一致しており,αi →1 で完全に一致すると予想される.

他方,αi <0.65では一致していないものの,大部分において最適応答は αi = 1 を示している.以上から,強化学習戦略を最適化するプレイヤは

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

α2

α1

図 3.10: プレイヤが αi を探索し利得関数 Fi を交互に最大化する様子

(各 ● は異なる初期値 (α1, α2))

最終的に αi = 1 を選択することが予想される.また,(α1, α2) = (1,1) では強化学習戦略のゲームの唯一の Nash 均衡であると考えられる.こ の唯一の均衡では,図 3.3 より,強化学習戦略は相互協調 CC をほぼ確 率 1で実現できる.

以上の予想をシミュレーションにより検証する.図3.10 は,複数の異 なる初期値(図中 ●)から,各プレイヤが交互に期待利得Fi を最適化す る様子を示す6.図 3.10 では最適化の経緯を捉えるため,各プレイヤに は戦略を局所的に探索させた(αi ∈[0,1]全域を探索させても最適化の結 果は同じ).図から,交互に局所的に最適化した場合,初期値によらず,

記憶保持率 αi → 1 すなわちより長期的な履歴を考慮する強化学習戦略 が次第に選ばれることがわかる.換言すれば,図3.9 から推測される,強 化学習戦略を戦略集合とするゲームの唯一の Nash均衡へ収束している.

6プレイヤiは現在の戦略 αi の近傍{αi:αiiε, αi+ε][0,1]} をモンテカ ルロ探索し,そのうち相手の戦略αj に対して最大の期待利得Fii, αj)Fii, αj) を与える戦略αi を新しい戦略として採用する.これをプレイヤ1,2交互に繰り返す.

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 49-52)