Actor-Critic

第 6 章結論 88

B.4 TD 学習

B.4.3 Actor-Critic

Actor-Criticは，行動選択をするアクターと呼ばれる部分と，アクターで選択された行

動を評価するクリティックと呼ばれる部分から構成されている[Fig. B.3]。

まず，時刻tでアクターによってある行動atが選択された後，環境からの応答によってその行動に対する報酬rt+1と次の状態の情報st+1を得ることができる。次に，クリティッ

付録B 強化学習の理論 114 クによってその行動が良かったどうかをTD誤差を用いて評価する。TD誤差とは，

rt+1+γV(st+1)−V(st) (B.13) であり，これが正であれば行動atは期待していたよりも良い行動であったといえる。このとき，将来同じ状態stを訪問したとき，行動atをより高い確率で選択するようにするべきであり，もしTD誤差が負であればその確率を低くすべきである。以下，2種類の方策学習法について説明する。

Gibbs分布による行動選択

アクターは，各状態sにおける各行動aに関してパラメータp(s, a)を持つものとし，行動選択は以下のような確率に基づいて行われる。

πt(s, a) =P r{a_t =a|s_t=s}= e^p(s,a)

be^p(s,b) (B.14)

行動を取った後，クリティックから与えられるTD誤差δtを用いて以下のようにp(st, at) を調節することで，行動atの選択確率を適切な値に変更することができる。

p(st, at)←p(st, at) +βδt (B.15)

正規分布による行動選択

アクターは，各状態sごとに正規確率密度関数を持っており，これに基づいて発生させた乱数を行動aとする。したがって，連続行動の扱いに優れており，また確率密度関数の形を決定するパラメータが平均µと標準偏差σの2個であるため，パラメータの学習に関する計算コストも少ない。

行動は以下のような確率密度関数にしたがって決定される[Fig. B.4]。

P(a) = 1

√2πσ(s)exp

−(a−µ(s))² 2σ(s)²

(B.16) 行動atを取った結果，クリティックから与えられるTD誤差δtを用いて以下のようにパラメータの更新を行う。

付録B 強化学習の理論 115

a P(a)

mean µ standard diviation σ

P(a) = √¹ 2πσexp

−^(a−µ)_2σ2²

Fig. B.4 Normal probability density function

δt = rt+γV(st+1)−V(st) V(st) ← V(st) +αδt

µ(st) ← µ(st) +αµ(at−µ(st))δt

σ(st) ← σ(st) +ασ

(at−µ(st))² σ(st)² −1

δt (B.17)

ここで，α, αµ, ασは学習率である。

パラメータの更新について具体的に説明すると，TD誤差が正であるとき，確率密度関数の平均µ(st)を行動atの値に近づけ，さらにatがµ(st)±δ(st)の範囲内にあればδ(st) の値を小さくし，範囲外であれば大きくする[Fig. B.5]。TD誤差が負であるときは，全て逆の操作を行う。ただし，（B.17）式の更新法は一例であり，他の方法も考えられる。

付録B 強化学習の理論 116

a P(a)

µ−σ µ

Update in the case of δ>0

a P(a)

action at

µ−σ^new µ^new

µ−σ µ

a P(a)

µ−σ µ

Update in the case of δ<0

action a^t µ−σ^new µ^new

a P(a)

µ−σ µ µµ^new

σ σ^new

µµ^new σ σ^new

µ+σ µ+σ

Fig. B.5 Update of mean and standard deviation

117

研究業績一覧

学術誌原著論文

1.間普真吾, 平澤宏太郎, 古月敬之, 強化学習を用いた遺伝的ネットワークプログラミングとそのエージェントの行動生成における性能評価, 情報処理学会論文誌, Vol. 46, No. 12, pp. 3207–3217, 2005/12.

2. Shingo Mabu, Kotaro Hirasawa, Yuko Matsuya and Jinglu Hu, Genetic Network Pro-gramming for Automatic Program Generation, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol. 9, No. 4, pp. 430–436, 2005/7.

3.間普真吾, 平澤宏太郎, 古月敬之, 進化学習型遺伝的ネットワークプログラミングとそのタイルワールド問題への適用, 計測自動制御学会論文集, Vol. 40, No. 11, pp.

1105–1113, 2004/11.

4.中越洋, 間普真吾, 平澤宏太郎,古月敬之,マクロノード付き遺伝的ネットワークプログラミング, 電気学会論文集C, Vol. 124-C, No. 8, pp. 1619–1625, 2004/8.

5. Shingo Mabu, Kotaro Hirasawa, Jinglu Hu and Junichi Murata, Online Learning of Genetic Network Programming and its Application to Prisoner’s Dilemma Game,電気学会論文誌C, Vol. 123-C, No. 3, pp. 535–543, 2003/3.

6.間普真吾, 平澤宏太郎,胡敬炉,村田純一,遺伝的ネットワークプログラミングのオンライン学習, 電気学会論文誌C, Vol. 122-C, No. 3, pp. 355–362, 2002/3.

査読のある国際会議・シンポジウム等

1. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Actor-Critic and Its Application, SICE Annual Conference 2005, pp. 3635–3640, Okayama, Japan, 2005/8.

118 2. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Progra mming with Reinforcement Learning for Generating Agent Behavior in the Benchmark Prob-lems, SICE Annual Conference 2004, pp. 918–923, Sapporo, Japan, 2004/8.

3. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Reinforcement Learning and its Performance Evaluation, Genetic and Evolutionary Computation Conference 2004, Part II pp. 710–711, and Late-Breaking Papers, Seattle, USA, 2004/6.

4. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Learning and Evolution for adapting to Dynamical Environments, IEEE Congress on Evolutionary Computation 2003, pp. 69–76, Canberra, Australia, 2003/12.

5. Hiroshi Nakagoe, Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Automatically Generated Macro Nodes, SICE Annual Conference 2003, pp. 1486–1491, Fukui, Japan, 2003/8.

6. Shingo Mabu, Kotaro Hirasawa, Jinglu Hu and Junichi Murata, Online Learning of Genetic Network Programming, IEEE World Congress on Computational Intelligence 2002 (Congress on Evolutionary Computation 2002), pp. 321–326, Honolulu, USA, 2002/5.

講演

1.間普真吾, 平澤宏太郎, 古月敬之, Actor-Criticを用いた遺伝的ネットワークプログラミングの学習アルゴリズム, 第15回インテリジェント・システム・シンポジウム (FANシンポジウム05), pp. 381–386,京都工芸繊維大学, 2005/9.

2.間普真吾, Moe Thu Thu, 平澤宏太郎, 古月敬之, A Study of Genetic Network Pro-gramming with Reinforcement Learning and Its Application,電気学会電子・情報・システム部門大会,早稲田大学大学院情報生産システム研究科, pp. 1019–1024, 2005/9.

3.間普真吾,平澤宏太郎,古月敬之,タイルワールド問題を用いたGenetic Network

Pro-grammingと従来手法の性能比較,第23回計測自動制御学会九州支部学術講演会, pp.

373–376,北九州市立大学, 2004/12.

ドキュメント内情報生産システム工学専攻進化型計算システム研究 (ページ 118-124)

第 6 章 結論 88

B.4 TD 学習

B.4.3 Actor-Critic

研究業績一覧

学術誌原著論文

査読のある国際会議・シンポジウム等

講演

第 6 章結論 88