第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47
5.2 GNP の基本構造
5.2.3 学習フェーズ
GNP-ACでは,実行中のノードを状態とし,各ノードで確率密度関数にしたがって値a
を得ることを行動と定義している。学習フェーズでは,各判定および処理を実行した後,
報酬rtに基づいて状態価値V とノードのパラメータ(µおよびσ)を更新する。以下,学 習の手順をFig. 5.5を用いて説明する。
1.時刻tで,GNPはa1およびa2を5.2.1節で説明した手順で決定する。
2. GNPはa1およびa2によって両車輪の速度を決定し,実際にロボットが移動した後,
報酬rtを得る。次のノードはCiA(=j)となる。
注2µ∈[0,1023], σ∈(10,50] (判定ノード),µ∈[−10,10],σ∈(0.2,5] (処理ノード)
第5章 Actor-Criticを用いた学習進化型GNP 77
P(a1) a1 µi1
σi1 P(a2) a2µi2
σi2
mutation (paramter)
P(a1) a1 µi1
σi1 P(a2) a2µi2
σi2 Each parameter is selected with the probability of Pm
=4.0 =0.5
=5.0 =0.3 The selected parameters are changed to another values Fig.5.4MutationofparametersinGNPwithActor-Critic
第5章 Actor-Criticを用いた学習進化型GNP 78 3.このとき,以下の手順でパラメータの更新が行われる。
δt = rt+γVj−Vi
Vi ← Vi+αδt
µi ← µi+αµ(a−µi)δt σi ← σi+ασ
(a−µi)2 σ2i −1
δt where,
γ : 割引率
α, αµ, ασ : 学習率
(a, µi, σi) ∈ {(a1, µi1, σi1),(a2, µi2, σi2)} δt =
0 (δt = 0) 1 (δt >0)
−1 (δt <0) 4.t←t+ 1, i←jとし,step 1に戻る。
以上の例では,ノードiが処理ノードであったが,もし判定ノードであるときは,確率密 度関数にしたがってa1のみが決定され,µi1とσi1が更新される。加えて,次のノードは CiA, CiB, . . . の中から判定結果にしたがって決定される。
本章では,5.2節で説明したように,遅れ時間の総和が5以上になるまでノード遷移を 実行し,これを1ステップとする。各判定ノードの遅れ時間は1,各処理ノードの遅れ時 間は5に設定しているため,例えば,4個の判定ノードを遷移した後,処理ノードに遷移 すれば遅れ時間の総和が5以上になるため,そこで1ステップは終了となる。その後,ロ ボットが実際に行動し,報酬を得た後,次のステップへ移行する。もし1ステップ中に処 理ノードに遷移しなかったときは前回の行動が継続される。したがって,GNP-ACは前
章までのGNP(判定ノードの実行後に報酬が与えられることはない)と異なり,1ステッ
プ終了後にロボットは必ず何らかの行動を取り,報酬を得る。Fig. 5.6は,1ステップが 処理ノードで終了した場合と,判定ノードで終了した場合を表したものであるが,いず れの場合も報酬が得られる。よって,前章までは,処理ノードのQ値を学習する時のみ 割引を行っていたが,GNP-ACでは,1ステップの最後のノードの学習時に割引を行う ことにした。それ以外のノードに関しては,1ステップ終了後に得られる報酬に直接影響 を与えていると考え,γ = 1として学習を行う。
第5章 Actor-Criticを用いた学習進化型GNP 79
t t+1 time
node i
IDi
state st
Vi
a1
node j (=Ci )
state st+1
reward rt reward rt+1
Ci A
A
P(a1)
a1
µi1 σi1
IDj
Vj
a2 P(a2)
a2
µi2 σi2
a1 P(a1)
a1
µj1 σj1
a2 P(a2)
a2
µj2 σj2
Fig. 5.5 An example of node transition
1 step (ends with processing node)
reward
r
tγ r
tdiscounted reward
1 step (ends with judgment node)
reward
r
tγ r
tdiscounted reward
: last node in each step Fig. 5.6 1 step in GNP-AC
第5章 Actor-Criticを用いた学習進化型GNP 80