言。 - 繰り返し型最適点探索方式による制御系設計法に関する研究

。

‑0.2

‑0.4

l . J . 。

0.5

一一一 ^randoml 一一'ー :random2

一一一樹:^random3

: random4

。 _。

2 4 6 山田(sec)

2 4 6 出ne(sec) Fig. 4.14 A position of the load near the origin in case of cαseL， l(O) = 15

Fig. 4.12 Aωgle beもweenthe rope and vertical line in case of cαseL

，

l(O)

=

4 . 3 . 5 結論

。

一一一

randoml

‑ーーー・ r創1dom2

‑‑一 :mndom3

一一一一

random4

システムの状態初期値が変動した場合について，通常の評価指標に動揺抑制評価指標を付加して新たな評価指標とし，コントローラの学習時に U.L.N.の2次微分を利用した新しいロバスト制御方式を提案した.数値シミュレーションにて，

4{)

内4S

百円同旦

‑学習時のシステム動作条件と制御時の動作条件の違いが小さい場合は，本提案の動揺抑制評価を付加した場合も付加しない場合と同程度な制御が可能

。

2 4 6 ‑前記条件の差が大きい場合は，動揺抑制評価を付加した場合が付加しない場合(ニューラルネットワークによる制御系)よりはるかに良い制御が可能である

Fig. 4.15 Input toもhemotor for moving七hecrane stand in case of cαseE

，

l(O) = 15

ことを明らかにした.

4{)

。

山一一

randoml : random2

町一、一 : random3

町一町一 : random4 n u

q︐U

口向田

︼

。

2 4

Fig. 4.16 Input to the moもorfor moving the crane stand in case of cαseL， l(O)

=

¹⁵

4 . 4 システムパラメータ変動に強い非線形制御系の設計法

4 . 4 . 1 序

前節では，非線形制御器を構成するための学習条件と，実際に制御器を動作させる制御時の条件が異る場合として，システム状態初期値の変動の場合を取り上げ，状態初期値の変動に対して通常の制御系よりシステムが安定に動作する範囲が広いロバスト制御系の構成法を提案した.本節では，上記の学習時の条件と制御時の条件とが異る場合としてシステムパラメータ変動を取り上げる.

4 . 4 . 2 システムパラメータ変動に対するシステム動揺抑制評価指標

Eは通常の評価関数1

EH

はシステムパラメータ変動によって発生するシステムのノード出力の変動を抑w制するための評価項である.このとき，全体の評価指標はLは次式で定義される.

L = E +EH

/ δ↑h(Trl S) ^ ~ ⁽^.^J^.^¥^¥ EH=CHSE28(Zpδα

n ( ^え)ム

^α

n ( t

1))

Rs I _P SL αn( t)

C}[

>

⁰

抑制したいノードの添字の集合?

変動パラメータの添字の集合?

評価に関するサンプリング時間の集合，

時刻tにおけるシステムパラメータ値重み係数

( 4.37)

( 4.38)

従って，知作α

n ( t l )

^は^，

t

¹時刻附けるシ川パラメータ α

n ( t )

^{の変動は}

るs時刻におけるT^r^{ノードの出力} h(TrlS)^{の変動を示している.}⁽⁴^.³⁸⁾^{式はそれらの} ² 乗和である (Fig.4.17

参照)

^{.従って，} ⁽⁴^.³⁷⁾^{式の指標の最小化は} ^t¹ ^時刻に仇

( h )

^の変

動が発生しでも，その変動のシステム全体への景簿を抑えるとともに，本来の評価の最小化を図る事となっている.

t = t f

h(Tj，t)

ilh(T，S0

=

(Llli(ThS0，Llh(Tj，SL

，必1(T_k，S0) a perturbed system orbit

Fig 4.17 Perturbation ofもhesystem output by change of the sysもemparameter at tl

4 . 4 . 3 学習アルゴリズム

U.L.N.を用いた最適化学習により，上記評価指標 Lを最小にするパラメータ変数んを探索する.(以後，パラメータ変数は時不変とする.)

( 4.37)式を最小化するパラメ」タ変数入mの最適化のための学習は勾配法を用いて下記の式にて行う.

入m ←一

ここで

δ^↑L 入

m ‑ '

^一一一_θ_入_m

δ^↑L θ^↑

E

θ^↑

EH

一一一一 δ^入m δ^入m δ^入m

γ > 0:学習係数.

(4.39)

話

5and4fF ^{の言十算は} ⁴^.³^.¹^{節における} ^l^次及び²次微分を利用して言十算できる.

く誌の言噂 >

入₁(to)

=

^入^m ^{とおくと，}

3 5

^は，⁽⁴

^肌

⁽⁴^.¹⁹⁾^{式により計算できる}

く号すの言博 >

EH

の入m に関する l次微分は(4.38)式を入mで働子することにより(4.40)式の如く得られる.

禁

⁼²

^C

日 [ ( f i Z ; ; )

^ム^αn

^川 ^x ⁽ 以 : ? 以仇

⁽^t^l⁾⁾^]

( 4.40)

( 4.44)式におけるPlの係数ん

3 ; p L

句 ♂ ( 野山は，それぞれ，

t d 丸、

， E =知ぜとおき， (4凶)，(4問式を利用して得られる

ここで，提案法における学習アルゴリズムをまとめると次のようになる.

とこで_~_~_¥_，_._，笠^h⁽^T^r^，^s⁾_~^h(Tr^，s⁾ の討て算法を次に示す.

8a~(tl)' θan (tl)θ^入m stepl:学習パラメータ入_mの初期値，対象システムおよびコントローラのノード出力の

初期時刻での値を与える.また，外部入力変数(参照入力 )r _m'(t)を制御全時刻について与える.

1 1 1 1 2

^{鮮の時}

E=h(Tr，

S )

，^入l(tO)=^αn(tl) ^とおき， ⁴^.³^.¹^節の^l次微分を利用することにより， (4.41)， ( 4.42)式が得られる.

step2: (4.1)式のダイナミックスを全ノードについて言十算する.

step3: P1(Tk， t， aη(tI))，九(Tk，t，αn(tl)うん) 一(4.42)(4.44)式ーを計算する.

がh(Tr

，

= ^P¹(Tr

，

αn(tl)) δαn( t₁₎

(4.41)

step4: (4.39)式を計算する.

P₁(Tk，

t ，

^α^η⁽^tI) )

ー乞 [θ _l

_，^h⁽^凡

^t ⁾

_P1(T^D (

_，

_t‑D_川 _n₍_t₁₎₎_]

3εJLθh(Tjヲt‑Djk) 、J

+ δh(Tk

，

t) δαn(h)

(step2 '" step4の計算が一回の学習言七算に対応し，これを必要回数繰り返すことになる. )

( 4.42)

( 4.43)

4 . 4 . 4 数値例

[制御対象

l

4.3節で使用した非線形クレーンシステムを使用する.Fig. 4.6_，4.7_，(4.33)(4.34)式参照.

[評価指標]

数値例として，M

=

⁴⁰^[^k^g^，^]^D^ニ ³⁰⁰^[^k^gj^s^e^c^]^，^G

=

^700[N^j^V^]^，^m

=

²^[^k^g^]^，⁹

=

⁹^.⁸^[^m^j^s^e

^c ² ^]

^，

Gm ニ 0.98[NjV，]^C

=

⁰^.⁴²^[^k^g^j^s^e^c]を用い，クレーンの横走行の目標位置(Xref )を1m

1荷の巻き上げ目標位置(lref )を0.5mとし，学習時のシステム出力の初期値は

1 2 1 5 : ; ; らこ

^の言樽:

E=h(TT) s)

，

^入l(tO)=^η^α(t1)

，

^入2(to)

=

^入^m ^とおき， ⁴^.³^.¹^節の²^{次微分を利用するこ}

とにより， (4.43)_，(4.44)式が得られる.

δ^↑²h(T_r，

S L

₌ _乃₍_T_r_，

S

，αn(tI)， Am).

δ仇

( t

1)δ入_m

九(九，t，αn(t1)，ん)

= Lr~

113pl(TJ?t‑Djk^↑

^(θ ^ぷ ^(713k)) ，

αn(t1))

j u i θ^入m

h (

九

T .

，cI_の

t

_{) 、}_P

乃

2 ( T

j1t 一

D

j片k，仇α似

バ

⁽ ^t ^ω

^け ^l ⁾ ^，

^入^m

T勾^j

，

t一 Dj片ωk^心)、 ^{J '} ^J^.^.^.^.^，^.^.^， ^‑.f^' ^..^‑.^f^J +θ

↑ ( 都ぜ )

δ入_m

ハU A U

1よハ

F﹃﹄

tp k

一一

︑︑ ﹄ ︐ ノ

ハU

Z

〆'

九 i

=

⁵

otherwise

とする. ( 4.45)

( 4.44)

システムパラメータ変動として負荷(m)を考える.数値例では，初期時刻にて負荷m をステップ的に変化させる.すなはち， αn(tl) = m とする.

システムの望ましいダイナミックスを達成するための評価指標 E 及び，負荷の変動

により生ずるシステムの変動を抑制するための評価指標 E H をそれぞれ次のように設定する.

これらの結果より，荷の質量を変化させても，台車位置

x ( t )

と振れ角。

( t )

の制御結果はほとんど変動が見られず(Fig.4.19，4.20)，荷の変動の大きさに従って荷の巻き上げ位置のみが大きく変動していることが分かる (Fig.4.21).以上より，以後動揺抑制評価対象ノードすなはち，評価指標Lにおける動揺抑制ノード (r )は，1，1とし，重み C_H は， C_H

=

0.1， 1.0， 10.0と変化させた場合を検討する.

E = j i z { Q l ^川 _‑

^h(T¹^，^s⁾⁾²^}

⁺

^Q¹²⁽^h⁽^T²^，^T)?

+乞

^{Q

^ぱ

^h(T³

^，

^S⁾⁾²

⁺

^Q¹⁴⁽^h⁽^九 ^s⁾^?^}

+乞

^{Q

^ぱ

^l^r^e^f^‑^h(T^s

^，

^S⁾⁾²^}

⁺

^Q¹⁶⁽^h⁽^T⁶

^，

^T⁾⁾²

+乞 {

^R¹⁽^h⁽^丸 ^S⁾⁾²

⁺

^R²⁽^h⁽^九^，^S⁾⁾²^}^]

500

400 ^EL(CH;;1 ) L(CH;;10) ( 4.46)

ハU n u n υ n u

内J

n /

﹄

凶.J﹄

O ω ω

コ一

ω

﹀

/δ^↑h(Tr1 s)

^ ~ ^¥²

E H

=

^C^H

L 乞 ^{( μ )}

sξ8L ^r^ξRB ~""

Table 4.4の値を用いて?次の 2ケースについて検討する.一つは評価指標Eのみを用いた場合(以下αcseE)，他の一つは評価指標^Lを用いた場合(以下αcseL)^{である.学} 習回数は 5000回とする.

( 4.47) ^{ーー .}^.一一^{一一}^一一一一一一 ‑ ーー^←

1000

Learning Number [N]

Table 4.4 Simulation Conditions Fig. 4.18 Values of criterion function L， E

全てのサンプリング時間 1

，

I(r=5

，

最終時刻(=7.5[sec])

1.0 0.001 0.1う 1

，

10 SL

Rs Q11 ^rvQ16

R1 ^rvR2

CH

ムm

[シミュレーション結果] 学習時の学習回数と評価値Eand Lの関係をFig.4.18に示す.

また， m^二 2の条件下の学習によって得られた制御パラメータ変数を用いて， m = 1，2，6，10 に対してシミュレーションを行った.

αseE^{における台車位置}

x ( t ) ，

^{ロープの振れ角。}

( t )

^{及び荷の位置}

l ( t )

^{の制御結果を各々}

Fig. 4.19 ^rvFig. 4.21に示す.

85 84

{ E }

一X

at learning stage 一 ‑m=2 at control stage

一.....m=1 一一一 m=6

.. m=10

{ E ]

0.5

at learning stage 一一一 m=2 at control stage

. m=1

‑‑‑m=6

‑‑‑m=10

。

Fig. 4.21 Control results of

l ( t )

in case of αcseE Fig. 4.19 Control resu1ts of x(t) in case of cαseE

Fig. 4.22 ^r^‑^.^.^JFig. 4.24に，動揺抑制評価を考慮して学習を行った結果得られた制御 m を大きく変動させた場合での lの制系を用いて，学習時と異なった条件下すなはち，

御結果の比較を示す.

4.22rv Fig. 4.24より，C_H の値を大きくするにつれすなはち，通常の評価指 Fig.

mの変動の標 E より動揺抑制評価指標

EH

を重要視するにつれシステムパラメータ

システムは安定に動作していることが分かる. しかしシステム出力への景免警は抑えられ，

ロバスト安定性を強める (C_Hを大きくする)につれ制御性能の犠牲(定常偏差) ながら，

この両者のトレードオフを調整する重み C_H を如何に設も大きくなっている.従って，

定するかが重要となる.

at learning stage 一一一一 m=2

{司伺﹂}も

at control stage m=1 一一‑m=6

‑‑‑m=10 0.1

。

‑0.1

Fig. 4.20 Cor山 01results of B( t) in case of αcseE

4 . 5 外部入力変動に強い非線形制御系の設計法 4 . 5 . 1 序

4.3節の状態初期値変動に対するロバスト制御系構成法， 4.4節のシステムパラメータ変動に対するロバスト制御系構成法に続いて，本節では，外部入力変動に対するロバスト制御系の構成法について考察する.

4 . 5 . 2 外部入力変動に対するシステム動揺抑制評価指標

システムを制御するための評価指標 E((4.2)式)に外部入力変動によるシステムの動揺を抑制するための評価指標

EH

を付加し，システム全体の新たな評価指標Lを次式とする.

=

+

。

↑h(T_r

，

E H

⁼

s E E J C

^孔

⁽ ^j ^; ^I ^p ^b ⁽ ^j ^l ⁾

^ム川(げ

~ ~-7、、

1...‑ 1...‑1...，

Rs .動揺抑制ノードの添字の集合

ら

:変動外部入力変数の添字の集合 SL . 出力変動抑制評価時刻の集合 rm^，(t) :時刻もにおける外部入力 C H^r

>

^{0 :}^T^rノードに対する重み係数

( 4.48)

( 4.49)

従って，知山1)は tl峨 u^のrm，(t)の変動こよる S時刻j問る T_rノードの出力 h(Tr)s)^{の変動を示している.}

( 4

9 )

式はそれらの

2

^{乗和である.}

従って，

( 4

8 )

^{式の指標の最小化は}

t

¹ 時刻に Tm

， ( t )

の変動が発生しでも，その変動のシステム全体への影響を抑えるとともに，本来の評価の最小化を図る事となっている.

4 . 5 . 3 学習アルゴリズム

一般化学習ネットワークの最適化のための学習とは， (4.48)式が最小となるパラメータ変数入_m を求めることである. (以降パラメータ変数は時不変とする. )

( 4.48)式を最小化するパラメータ変数入m の最適化のための学習は，勾配法を用いて下記の式にて行う.

入^m ーヴ δ↑L

川 'δ入m

入m ^やーー ( 4.50)

θ↑L δ↑E δ↑

EH

一一一

δ入m a入m δ入m 但し，

γ > 0:勾配法の学習係数

，

3 x

一+十

子党

^ι^{の言樽は，} ⁴^.³^.¹^節の ¹^次^， ²次粉を活用して言博することができるく

3 l f

^{の計算 >}

告は入l(tO)

=

んとおき，

( 4

削附加 ) 式より時できるく告の計算〉

( 4.49)式より，

δ↑

EH

δ入_m

↑_h(T_r

，

s) θ^↑^2h(Tr

，

二

2 C H S E Z J ( _三 _よ _れ ( t

ムTmF(t1))×

(2pb( む

^θ⁾^入^{m h (}

む ) ) ]

(4.51 ) となるので，生巴丘_θr ^θ↑2h(T，γ，5) を求めることγより註与を計算できる.

，

(tl)

，

_θ_rm

，

(tI)δ^入m ^」 θ^入m

山知ずの時

4.3.1節の l次微分において

， E =

^h(T^r^ぅ^s⁾^，^入l⁽^t^O⁾

=

^rm

^，

⁽^t

^， ⁾ ^I

^{とおけば，次式が得ら}

れる.

d

h(Tr， s)

=

^P¹^(T^r^， ^s

^，

^r^m'⁽^t¹⁾⁾

δrm^，(t

I )

[ θh(Tk

，

t) _n_(fT'.J. _n ^̲ ₍_._J_._¥_¥1 δh(Tk， t) P₁(Tk，t

，

₍_t₁₎₎

= 乞

^{￨ P l (}

^丸

^t‑Djk

^，

^r^m

^，

⁽^h⁾⁾¹

+

julδ^h⁽^T^j，t‑DjkfL¥‑J'V ‑J^".^TTt¥VLJJJ' arm，₍_t

I )

(4.52)

( 4.53)

[2]

とどおえの言十算

4.3.1節の2次微分において，E=h(Tr，s)，入l(tO)= rm，(t)，l入2(tO)=んとおけば，次式が得られる.

δ↑2h(T_ns) δr_m，(tl)δ入m

一九(Tr

，

s， rm，(t1)，ん)

九(Tk，t， rm，(t1)，入m)

一「θ↑(侃(九，t?^Li )

ニデ [

θhEst-Djk ~Pl(丸 t ^‑Dj^k^，rm，(tI))

jEJ

T 川 P

₂

( T

_j，t

一山川 ] + δ

↑(貯)

( 4.54)

( 4.55)

なお， (μ4.5臼5)式における P1の係数

九

_θ_似_入_m およひ _θ_ω_入

m は?それぞれE =

品州h(仇九，t)

hE

^{一坐也}^丘⁴l立iとおくことにより， (μ4.18

め

)(μ4.19

め

)(μ4.20的)式にて容易に計算できる.

8h(乃，トt一Djμk) 一8rm川ベ^t

ο (

tlけ)

ここで，提案法における学習アルゴリズムをまとめると次のようになる.

stepl:学習パラメータ入mの初期値，対象システムおよびコントローラのノード出力の初期時刻での値を与える.また，外部入力変数(参照入力)r m' (t)を制御全時刻に

ついて与える.

step2: (4.1)式のダイナミックスを全ノードについて計算する.

step3: Pl(T_k， t， r_m，(t₁₎₎，九(Tk，t， rm，(t1)，入m)

ー(4.53)(4.55)式ーを計算する.

step4: (4.50)式を計算する.

(step2 ^f"Jstep4の計算が一回の学習計ぐ算に対応し，これを必要因数繰り返すことに

なる.)

4 . 5 . 4

数値例

[対象システム

l

Fig. 4.6にて示される非線形クレーンシステムを対象とする.

先の数値例におけるコントローラはリカレントネットワークで構成した(Fig.4.6)が，本数値例では，階層型ネットワークにてコントローラを構成した (Fig.4.25)

I : 1 samplinq time delav

Fig. 4.25 Control model of a nonlinear crane system using Universal Learning Network

[評価指標

l

数値例として， M

=

40[kg ，]m

=

2[kg ，]D

=

300[kgj sec ，]G

=

700 [NjV] ，g

=

9.8[mj see ，] G_m

=

0.98[NjV ，]C

=

0.42 [kgj sec]を用い，クレーンの横走行の目標位置 (Xref)を1m

，荷の巻き上げ目標位置(l ref )を 0.5mとし，学習時のシステム出力の初期値は

h(T₅

，

=

1 (0)

=

1.0， h(Ti

，

=

0.0 (i

=

1，2，3，4，6)

とする.本数値例では外部入力変動として，全制御時刻における参照入力の変動

r

_m，(t1)

=

lrefを考える.

また，システムの所期の目標，及び，巻き上げ位置の変動によるシステムの動揺抑制を達成するための評価指標 E

，

EHをそれぞれ，次のように設定する.

E =

* [ 乞

^{^Q^l^l⁽^X^r^e^f‑h(T1，s))2}

+

仏2(

叩

，T))2

sεS。

+乞

以

h(九

S ) ) 2 +

ぱ

h(T

4 ，

s)?}

+乞

ぱ

l吋 ‑h(九

S ) ) 2 }+

Q16(h(T6

，

T)?

+乞

{R1(h(九 s)?

+

R2(h(T

ω

δ↑h(Tr， s) ^ 1 ¥ 2

EH = 五五 ^cι(δ

^l^r^e^f ^ム仏^f)

とした.

Table 4.5 Simulation Conditions

SL Rs T Q11

Q21 Qothers

R₁^r‑.JR₂ ムlref

set of all sampling times

nodes related wiもhx，文， B， and B final time (= 7.5[sec])

0.5 10.0 1.0 0.1

( 4.56)

( 4.57)

これらの値を用いて評価指標 Eのみを用いた場合(cαseE)と本論文提案の評価指標

L = E + EH

を用いた場合(cαse

L )

のそれぞれについて学習を行った.また，学習回数は 4000としfこ.

[シミュレーション結果]

Fig. 4.26に， αcseE

，

αcseLのそれぞれについて，乱数で与えるネットワークの重みの初期値を 3通り変えて学習を行なったときの評価指標の値を示す.Fig. 4.26では，

αseLの場合については，評価値LとLの一部である Eの両方について示した.シミュレーシヨンでは，乱数を変えて学習を行なっても評価値はほぼ同じ値に収束した.また，

αseE

，

CαseL両方の Eを比較すると αcseLのEの方が若干，値が大きくなっている.これはロバスト制御実現のため評価指標(4.48)式の第 2項も同時に最小化するためである.

(第1項と第2項のトレードオフを決定する(4.49)式の重み係数

CH

rはシミュレーションでは，試行錯誤にて決定した .)

Fig. 4.27に， CαseLについての学習終了時の制御結果を示す.学習時重みの初期値を3とおり変えて行っても制御結果は，ほぼ一致している.以後，シミュレーション結果は lつのケースについて示す.

Fig. 4.28にαcseEとαcseLの学習時の制御結果を示す.評価指標の値からも推測されたように，学習結果はαcseEの方が若干よい.

以後のシミュレーションは，学習により得られた制御系 (Fig.4.25参照)を用いて，

荷の巻き上げ目標位置

( l

re!)を種々変化させて制御を行った.この時の制御結果について c

αseEとαcseLを比較する.

Fig. 4.29 ^rvFig. 4.31は，lrefを， 1.5，3，6と学習時の値 (0.5)から徐々に変動幅を大きくしていった時の制御結果である.変動幅を大きくするにつれて通常の制御を行う c

αseEの場合は，徐々に台車の位置 (x )，荷の振れ角 (B )の変動幅が大きくなり，lref = 6 になると，大きく振動し，制御できない状態に至っていることがわかる.一方， CαseLの方は，変動幅が大きくなっても，x，

B

両者とも，それほど変動していない.

Fig. 4.31は， CαseLについて，台車の位置及び速度丸土に対応する動揺抑制評価重み

CH

_o，

CH

₁のみを，それぞれ0.5，10.0，20.0と変え，他はこれまでと同じ条件で学習を行い，やはり，^l^r^e^f= 6と変動させて制御を行ったときのそれぞれの制御結果である.重みを大きくするにつれて変動がより強く抑制されることとなっている.

ドキュメント内繰り返し型最適点探索方式による制御系設計法に関する研究 (ページ 42-55)

言 。

。