• 検索結果がありません。

第 6 章 結論 88

B.4 TD 学習

B.4.3 Actor-Critic

Actor-Criticは,行動選択をするアクターと呼ばれる部分と,アクターで選択された行

動を評価するクリティックと呼ばれる部分から構成されている[Fig. B.3]。

まず,時刻tでアクターによってある行動atが選択された後,環境からの応答によって その行動に対する報酬rt+1と次の状態の情報st+1を得ることができる。次に,クリティッ

付 録B 強化学習の理論 114 クによってその行動が良かったどうかをTD誤差を用いて評価する。TD誤差とは,

rt+1+γV(st+1)−V(st) (B.13) であり,これが正であれば行動atは期待していたよりも良い行動であったといえる。こ のとき,将来同じ状態stを訪問したとき,行動atをより高い確率で選択するようにする べきであり,もしTD誤差が負であればその確率を低くすべきである。以下,2種類の方 策学習法について説明する。

Gibbs分布による行動選択

アクターは,各状態sにおける各行動aに関してパラメータp(s, a)を持つものとし,行 動選択は以下のような確率に基づいて行われる。

πt(s, a) =P r{at =a|st=s}= ep(s,a)

bep(s,b) (B.14)

行動を取った後,クリティックから与えられるTD誤差δtを用いて以下のようにp(st, at) を調節することで,行動atの選択確率を適切な値に変更することができる。

p(st, at)←p(st, at) +βδt (B.15)

正規分布による行動選択

アクターは,各状態sごとに正規確率密度関数を持っており,これに基づいて発生させ た乱数を行動aとする。したがって,連続行動の扱いに優れており,また確率密度関数の 形を決定するパラメータが平均µと標準偏差σの2個であるため,パラメータの学習に 関する計算コストも少ない。

行動は以下のような確率密度関数にしたがって決定される[Fig. B.4]。

P(a) = 1

2πσ(s)exp

(a−µ(s))2 2σ(s)2

(B.16) 行動atを取った結果,クリティックから与えられるTD誤差δtを用いて以下のように パラメータの更新を行う。

付 録B 強化学習の理論 115

a P(a)

mean µ standard diviation σ

P(a) = 1 2πσexp

(a−µ)22

Fig. B.4 Normal probability density function

δt = rt+γV(st+1)−V(st) V(st) V(st) +αδt

µ(st) µ(st) +αµ(at−µ(st))δt

σ(st) σ(st) +ασ

(at−µ(st))2 σ(st)2 1

δt (B.17)

ここで,α, αµ, ασは学習率である。

パラメータの更新について具体的に説明すると,TD誤差が正であるとき,確率密度関 数の平均µ(st)を行動atの値に近づけ,さらにatµ(st)±δ(st)の範囲内にあればδ(st) の値を小さくし,範囲外であれば大きくする[Fig. B.5]。TD誤差が負であるときは,全 て逆の操作を行う。ただし,(B.17)式の更新法は一例であり,他の方法も考えられる。

付 録B 強化学習の理論 116

a P(a)

µ−σ µ

Update in the case of δ>0

a P(a)

action at

µ−σnew µnew

µ−σ µ

a P(a)

µ−σ µ

Update in the case of δ<0

action at µ−σnew µnew

a P(a)

µ−σ µ µ µnew

σ σnew

µ µnew σ σnew

µ+σ µ+σ

Fig. B.5 Update of mean and standard deviation

117

研究業績一覧

学術誌原著論文

1.間普真吾, 平澤宏太郎, 古月敬之, 強化学習を用いた遺伝的ネットワークプログラミ ングとそのエージェントの行動生成における性能評価, 情報処理学会論文誌, Vol. 46, No. 12, pp. 3207–3217, 2005/12.

2. Shingo Mabu, Kotaro Hirasawa, Yuko Matsuya and Jinglu Hu, Genetic Network Pro-gramming for Automatic Program Generation, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol. 9, No. 4, pp. 430–436, 2005/7.

3.間普真吾, 平澤宏太郎, 古月敬之, 進化学習型遺伝的ネットワークプログラミングと そのタイルワールド問題への適用, 計測自動制御学会論文集, Vol. 40, No. 11, pp.

1105–1113, 2004/11.

4.中越洋, 間普真吾, 平澤宏太郎,古月敬之,マクロノード付き遺伝的ネットワークプロ グラミング, 電気学会論文集C, Vol. 124-C, No. 8, pp. 1619–1625, 2004/8.

5. Shingo Mabu, Kotaro Hirasawa, Jinglu Hu and Junichi Murata, Online Learning of Genetic Network Programming and its Application to Prisoner’s Dilemma Game,電 気学会論文誌C, Vol. 123-C, No. 3, pp. 535–543, 2003/3.

6.間普真吾, 平澤宏太郎,胡敬炉,村田純一,遺伝的ネットワークプログラミングのオン ライン学習, 電気学会論文誌C, Vol. 122-C, No. 3, pp. 355–362, 2002/3.

査読のある国際会議・シンポジウム等

1. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Actor-Critic and Its Application, SICE Annual Conference 2005, pp. 3635–3640, Okayama, Japan, 2005/8.

118 2. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Progra mming with Reinforcement Learning for Generating Agent Behavior in the Benchmark Prob-lems, SICE Annual Conference 2004, pp. 918–923, Sapporo, Japan, 2004/8.

3. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Reinforcement Learning and its Performance Evaluation, Genetic and Evolutionary Computation Conference 2004, Part II pp. 710–711, and Late-Breaking Papers, Seattle, USA, 2004/6.

4. Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Learning and Evolution for adapting to Dynamical Environments, IEEE Congress on Evolutionary Computation 2003, pp. 69–76, Canberra, Australia, 2003/12.

5. Hiroshi Nakagoe, Shingo Mabu, Kotaro Hirasawa and Jinglu Hu, Genetic Network Programming with Automatically Generated Macro Nodes, SICE Annual Conference 2003, pp. 1486–1491, Fukui, Japan, 2003/8.

6. Shingo Mabu, Kotaro Hirasawa, Jinglu Hu and Junichi Murata, Online Learning of Genetic Network Programming, IEEE World Congress on Computational Intelligence 2002 (Congress on Evolutionary Computation 2002), pp. 321–326, Honolulu, USA, 2002/5.

講演

1.間普真吾, 平澤宏太郎, 古月敬之, Actor-Criticを用いた遺伝的ネットワークプログ ラミングの学習アルゴリズム, 第15回インテリジェント・システム・シンポジウム (FANシンポジウム05), pp. 381–386,京都工芸繊維大学, 2005/9.

2.間普真吾, Moe Thu Thu, 平澤宏太郎, 古月敬之, A Study of Genetic Network Pro-gramming with Reinforcement Learning and Its Application,電気学会 電子・情報・シ ステム部門大会,早稲田大学大学院情報生産システム研究科, pp. 1019–1024, 2005/9.

3.間普真吾,平澤宏太郎,古月敬之,タイルワールド問題を用いたGenetic Network

Pro-grammingと従来手法の性能比較,第23回計測自動制御学会九州支部学術講演会, pp.

373–376,北九州市立大学, 2004/12.