学習フェーズ

第 4 章最適なノード内容の選択を行う学習進化型 GNP 47

5.2 GNP の基本構造

5.2.3 学習フェーズ

GNP-ACでは，実行中のノードを状態とし，各ノードで確率密度関数にしたがって値a

を得ることを行動と定義している。学習フェーズでは，各判定および処理を実行した後，

報酬rtに基づいて状態価値V とノードのパラメータ(µおよびσ)を更新する。以下，学習の手順をFig. 5.5を用いて説明する。

1.時刻tで，GNPはa1およびa2を5.2.1節で説明した手順で決定する。

2. GNPはa1およびa2によって両車輪の速度を決定し，実際にロボットが移動した後，

報酬rtを得る。次のノードはC_i^A(=j)となる。

注2µ∈[0,1023], σ∈(10,50] (判定ノード),µ∈[−10,10],σ∈(0.2,5] (処理ノード)

第5章 Actor-Criticを用いた学習進化型GNP 77

P(a1) a1 µi1

σi1 P(a2) a2µi2

σi2

mutation (paramter)

P(a1) a1 µi1

σi1 P(a2) a2µi2

σi2 Each parameter is selected with the probability of Pm

=4.0 =0.5

=5.0 =0.3 The selected parameters are changed to another values Fig.5.4MutationofparametersinGNPwithActor-Critic

第5章 Actor-Criticを用いた学習進化型GNP 78 3.このとき，以下の手順でパラメータの更新が行われる。

δt = rt+γVj−Vi

Vi ← Vi+αδt

µi ← µi+αµ(a−µi)δ_t σi ← σi+ασ

(a−µi)² σ²_i −1

δ_t where,

γ : 割引率

α, αµ, ασ : 学習率

(a, µi, σi) ∈ {(a1, µi1, σi1),(a2, µi2, σi2)} δ_t =







0 (δt = 0) 1 (δt >0)

−1 (δt <0) 4.t←t+ 1, i←jとし，step 1に戻る。

以上の例では，ノードiが処理ノードであったが，もし判定ノードであるときは，確率密度関数にしたがってa1のみが決定され，µi1とσi1が更新される。加えて，次のノードは C_i^A, C_i^B, . . . の中から判定結果にしたがって決定される。

本章では，5.2節で説明したように，遅れ時間の総和が5以上になるまでノード遷移を実行し，これを1ステップとする。各判定ノードの遅れ時間は1，各処理ノードの遅れ時間は5に設定しているため，例えば，4個の判定ノードを遷移した後，処理ノードに遷移すれば遅れ時間の総和が5以上になるため，そこで1ステップは終了となる。その後，ロボットが実際に行動し，報酬を得た後，次のステップへ移行する。もし1ステップ中に処理ノードに遷移しなかったときは前回の行動が継続される。したがって，GNP-ACは前

章までのGNP（判定ノードの実行後に報酬が与えられることはない）と異なり，1ステッ

プ終了後にロボットは必ず何らかの行動を取り，報酬を得る。Fig. 5.6は，1ステップが処理ノードで終了した場合と，判定ノードで終了した場合を表したものであるが，いずれの場合も報酬が得られる。よって，前章までは，処理ノードのQ値を学習する時のみ割引を行っていたが，GNP-ACでは，1ステップの最後のノードの学習時に割引を行うことにした。それ以外のノードに関しては，1ステップ終了後に得られる報酬に直接影響を与えていると考え，γ = 1として学習を行う。

第5章 Actor-Criticを用いた学習進化型GNP 79

t t+1 time

node i

IDi

state st

node j (=Ci )

state st+1

reward rt reward rt+1

Ci A

P(a¹)

µⁱ¹ σⁱ¹

IDj

a2 P(a²)

a²

µⁱ² σⁱ²

a1 P(a1)

µ^j1 σ^j1

a2 P(a²)

a²

µ^j2 σ^j2

Fig. 5.5 An example of node transition

1 step (ends with processing node)

reward

r

γ r

discounted reward

1 step (ends with judgment node)

reward

r

γ r

discounted reward

: last node in each step Fig. 5.6 1 step in GNP-AC

第5章 Actor-Criticを用いた学習進化型GNP 80

ドキュメント内情報生産システム工学専攻進化型計算システム研究 (ページ 81-85)

第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47

5.2 GNP の基本構造

5.2.3 学習フェーズ

r

γ r

r

γ r

第 4 章最適なノード内容の選択を行う学習進化型 GNP 47