強化学習戦略の進化

本章ではこれまで，両プレイヤがある強化学習戦略 αi ∈ [0,1] を選択したときのIPDの帰結を分析してきた．本節では分析の焦点を戦略からプレイヤに移し，両プレイヤが IPDゲームの結果を踏まえて，自己利益を最大化するという目的のもと強化学習戦略を切り換えるゲーム⁵を考える．これはゲーム理論の用語では Nash 均衡となる戦略ペアを求めることに対応する．このゲームでは各プレイヤは αi ∈ [0,1] を変化させることで同時に（交互に）最適な強化学習戦略を求めるが，これは相手の戦略に対して最適な記憶保持率を求めることを意味する．したがって，本節では，両プレイヤが自己利益を最大化するよう戦略を変化させた場合，

最終的にどのような強化学習戦略（記憶保持率）を採用するかを調べる．

5このゲームは進化ゲームと類似しているが，進化ゲームのプレイヤは「自然」１人であるのに対し，本節では２人のプレイヤを想定している．

0.0 0.2 0.4 0.6 0.8 1.0

α₁

0.0 0.2 0.4 0.6 0.8 1.0

α2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0 0.2 0.4 0.6 0.8 1.0

α₁

0.0 0.2 0.4 0.6 0.8 1.0

α2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Player 1 F1(α1, α2) Player 2 F2(α1, α2)

図 3.9: 強化学習戦略αi ∈[0,1] を扱うプレイヤの利得関数Fi(α1, α2) 図 3.9 では図 3.3 と同じデータを用いて各戦略ペアごとの期待利得を示した．より具体的には，図 3.3 の各点 (α₁, α₂) に対応した定常分布(π(CC), π(CD), π(DC), π(DD))から，f1(CC)π(CC) +f1(CD)π(CD) + f1(DC)π(DC) +f1(DD)π(DD) を計算し，これを図3.9の各点(α1, α2)の値とした．これは強化学習戦略 α_i ∈ [0,1] を戦略集合とするゲームの利得関数 Fi(α1, α2) を近似するものといえる．強化学習戦略αi = 0 はランダムに振る舞うため(α1, α2) = (1,0) は ALLD vs RANDのようになり，

プレイヤ1の期待利得はF₁(1,0) = [f₁(DC) +f₁(DD)]/2 = (5 + 1)/2 = 3 となり，他方，プレイヤ2 は F2(1,0) = (0 + 1)/2 = 0.5となる．これは相互協調の期待利得f1(CC) = 3 と等しい．また，(α1, α2) = (0,0)では期待利得は (3 + 0 + 5 + 1)/4 = 2.25 である．

Nash均衡となる戦略ペアは互いに相手の戦略に対する最適応答となるが，これは両プレイヤの利得関数を同時に最大化する極大点と対応する．

図3.9中，破線が相手の戦略に対する最適応答を表す．図から，強化学習戦略を集合とするゲームの利得関数F1（F2）は2つの極大点をもつと推測される．一方は (α1, α2) = (1,0) 付近であり，この点はプレイヤ 1 の利得関数F1 では極大であるが，プレイヤ2の利得関数F2 では極大ではない．他方は相互協調(α1, α2) = (1,1)付近であり，この点は両プレイヤにとって極大となる．最適応答を示す破線はα1 =α2 >0.65の範囲では F1 と F2 でほぼ一致しており，αi →1 で完全に一致すると予想される．

他方，αi <0.65では一致していないものの，大部分において最適応答は αi = 1 を示している．以上から，強化学習戦略を最適化するプレイヤは

0 0.2 0.4 0.6 0.8 1

α2

α1

図 3.10: プレイヤが αi を探索し利得関数 Fi を交互に最大化する様子

（各 ● は異なる初期値 (α1, α2)）

最終的に α_i = 1 を選択することが予想される．また，(α₁, α₂) = (1,1) では強化学習戦略のゲームの唯一の Nash 均衡であると考えられる．この唯一の均衡では，図 3.3 より，強化学習戦略は相互協調 CC をほぼ確率 1で実現できる．

以上の予想をシミュレーションにより検証する．図3.10 は，複数の異なる初期値（図中 ●）から，各プレイヤが交互に期待利得Fi を最適化する様子を示す⁶．図 3.10 では最適化の経緯を捉えるため，各プレイヤには戦略を局所的に探索させた（αi ∈[0,1]全域を探索させても最適化の結果は同じ）．図から，交互に局所的に最適化した場合，初期値によらず，

記憶保持率 αi → 1 すなわちより長期的な履歴を考慮する強化学習戦略が次第に選ばれることがわかる．換言すれば，図3.9 から推測される，強化学習戦略を戦略集合とするゲームの唯一の Nash均衡へ収束している．

6プレイヤiは現在の戦略 αi の近傍{α^′_i:α^′_i∈[αi−ε, αi+ε]⊂[0,1]} をモンテカルロ探索し，そのうち相手の戦略αj に対して最大の期待利得Fi(α_i^∗, αj)≥Fi(α^′_i, αj) を与える戦略α^∗_i を新しい戦略として採用する．これをプレイヤ1，2交互に繰り返す．

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 49-52)

強化学習戦略の 進化