• 検索結果がありません。

第 4 章 最適なノード内容の選択を行う学習進化型 GNP 47

5.2 GNP の基本構造

5.2.3 学習フェーズ

GNP-ACでは,実行中のノードを状態とし,各ノードで確率密度関数にしたがって値a

を得ることを行動と定義している。学習フェーズでは,各判定および処理を実行した後,

報酬rtに基づいて状態価値V とノードのパラメータ(µおよびσ)を更新する。以下,学 習の手順をFig. 5.5を用いて説明する。

1.時刻tで,GNPはa1およびa2を5.2.1節で説明した手順で決定する。

2. GNPはa1およびa2によって両車輪の速度を決定し,実際にロボットが移動した後,

報酬rtを得る。次のノードはCiA(=j)となる。

2µ[0,1023], σ(10,50] (判定ノード),µ[−10,10],σ(0.2,5] (処理ノード)

5Actor-Criticを用いた学習進化型GNP 77

P(a1) a1 µi1

σi1 P(a2) a2µi2

σi2

mutation (paramter)

P(a1) a1 µi1

σi1 P(a2) a2µi2

σi2 Each parameter is selected with the probability of Pm

=4.0 =0.5

=5.0 =0.3 The selected parameters are changed to another values Fig.5.4MutationofparametersinGNPwithActor-Critic

5Actor-Criticを用いた学習進化型GNP 78 3.このとき,以下の手順でパラメータの更新が行われる。

δt = rt+γVj−Vi

Vi Vi+αδt

µi µi+αµ(a−µi)δt σi σi+ασ

(a−µi)2 σ2i 1

δt where,

γ : 割引率

α, αµ, ασ : 学習率

(a, µi, σi) ∈ {(a1, µi1, σi1),(a2, µi2, σi2)} δt =





0 (δt = 0) 1 (δt >0)

1 (δt <0) 4.t←t+ 1, i←jとし,step 1に戻る。

以上の例では,ノードiが処理ノードであったが,もし判定ノードであるときは,確率密 度関数にしたがってa1のみが決定され,µi1σi1が更新される。加えて,次のノードは CiA, CiB, . . . の中から判定結果にしたがって決定される。

本章では,5.2節で説明したように,遅れ時間の総和が5以上になるまでノード遷移を 実行し,これを1ステップとする。各判定ノードの遅れ時間は1,各処理ノードの遅れ時 間は5に設定しているため,例えば,4個の判定ノードを遷移した後,処理ノードに遷移 すれば遅れ時間の総和が5以上になるため,そこで1ステップは終了となる。その後,ロ ボットが実際に行動し,報酬を得た後,次のステップへ移行する。もし1ステップ中に処 理ノードに遷移しなかったときは前回の行動が継続される。したがって,GNP-ACは前

章までのGNP(判定ノードの実行後に報酬が与えられることはない)と異なり,1ステッ

プ終了後にロボットは必ず何らかの行動を取り,報酬を得る。Fig. 5.6は,1ステップが 処理ノードで終了した場合と,判定ノードで終了した場合を表したものであるが,いず れの場合も報酬が得られる。よって,前章までは,処理ノードのQ値を学習する時のみ 割引を行っていたが,GNP-ACでは,1ステップの最後のノードの学習時に割引を行う ことにした。それ以外のノードに関しては,1ステップ終了後に得られる報酬に直接影響 を与えていると考え,γ = 1として学習を行う。

5Actor-Criticを用いた学習進化型GNP 79

t t+1 time

node i

IDi

state st

Vi

a1

node j (=Ci )

state st+1

reward rt reward rt+1

Ci A

A

P(a1)

a1

µi1 σi1

IDj

Vj

a2 P(a2)

a2

µi2 σi2

a1 P(a1)

a1

µj1 σj1

a2 P(a2)

a2

µj2 σj2

Fig. 5.5 An example of node transition

1 step (ends with processing node)

reward

r

t

γ r

t

discounted reward

1 step (ends with judgment node)

reward

r

t

γ r

t

discounted reward

: last node in each step Fig. 5.6 1 step in GNP-AC

5Actor-Criticを用いた学習進化型GNP 80