。
‑0.2
‑0.4
l . J . 。
E
0.5
一一一 randoml 一一'ー :random2
一一一樹:random3
: random4
。 。
2 4 6 山 田(sec)
2 4 6 出ne(sec) Fig. 4.14 A position of the load near the origin in case of cαseL, l(O) = 15
Fig. 4.12 Aωgle beもweenthe rope and vertical line in case of cαseL
,
l(O)=
1576
77
4 . 3 . 5 結論
。
一 一 一
randoml‑ーーー・ r創1dom2
‑‑一 :mndom3
一 一 一 一
random4システムの状態初期値が変動した場合について,通常の評価指標に動揺抑制評価指標 を付加して新たな評価指標とし,コントローラの学習時に U.L.N.の2次微分を利用した 新しいロバスト制御方式を提案した.数値シミュレーションにて,
4{)
AU
内4S
百 円 同 旦
‑学習時のシステム動作条件と制御時の動作条件の違いが小さい場合は,本提案の動 揺抑制評価を付加した場合も付加しない場合と同程度な制御が可能
。
2 4 6 ‑前記条件の差が大きい場合は,動揺抑制評価を付加した場合が付加しない場合(ニュー ラルネットワークによる制御系)よりはるかに良い制御が可能であるFig. 4.15 Input toもhemotor for moving七hecrane stand in case of cαseE
,
l(O) = 15ことを明らかにした.
4{)
。
山 一 一
randoml : random2町一、一 : random3
町一町一 : random4 n u
q︐U
2H
口 向田
︼
。
2 4Fig. 4.16 Input to the moもorfor moving the crane stand in case of cαseL, l(O)
=
154 . 4 システムパラメータ変動に強い非線形制御系の設計法
4 . 4 . 1 序
前節では,非線形制御器を構成するための学習条件と,実際に制御器を動作させる制 御時の条件が異る場合として,システム状態初期値の変動の場合を取り上げ,状態初期値 の変動に対して通常の制御系よりシステムが安定に動作する範囲が広いロバスト制御系 の構成法を提案した.本節では,上記の学習時の条件と制御時の条件とが異る場合として システムパラメータ変動を取り上げる.
4 . 4 . 2 システムパラメータ変動に対するシステム動揺抑制評価指標
Eは通常の評価関数1
EH
はシステムパラメータ変動によって発生するシステムのノー ド出力の変動を抑w制するための評価項である.このとき,全体の評価指標はLは次式 で定義される.L = E +EH
/ δ↑h(Trl S) ^ ~ (.J. ¥ ¥ EH=CHSE28(Zpδα
n ( え)ム
αn ( t
1))
Rs I P SL αn( t)
C}[
>
0抑制したいノードの添字の集合?
変動パラメータの添字の集合?
評価に関するサンプリング時間の集合,
時刻tにおけるシステムパラメータ値 重み係数
( 4.37)
( 4.38)
従 っ て , 知 作α
n ( t l )
は,t
1時 刻 附 け る シ 川 パ ラ メ ー タ αn ( t )
の 変 動 はるs時刻におけるTrノードの出力 h(TrlS)の変動を示している.(4.38)式はそれらの 2 乗和である (Fig.4.17
参照)
.従って, (4.37)式の指標の最小化は t1 時刻に仇( h )
の変動が発生しでも,その変動のシステム全体への景簿を抑えるとともに,本来の評価の最小 化を図る事となっている.
t = t f
h(Tj,t)
ilh(T,S0
=
(Llli(ThS0,Llh(Tj,SL,必1(Tk,S0) a perturbed system orbit
Fig 4.17 Perturbation ofもhesystem output by change of the sysもemparameter at tl
4 . 4 . 3 学習アルゴリズム
U.L.N.を用いた最適化学習により,上記評価指標 Lを最小にするパラメータ変数ん を探索する.(以後,パラメータ変数は時不変とする.)
( 4.37)式を最小化するパラメ」タ変数入mの最適化のための学習は勾配法を用いて下記 の式にて行う.
入m ←一
ここで
δ↑L 入
m ‑ '
一一一θ入mδ↑L θ↑
E
θ↑EH
一 一 一 一 δ入m δ入m δ入m
γ > 0:学習係数.
(4.39)
話
5and4fF の言十算は 4.3.1節における l次及び2次微分を利用して言十算できる.く 誌 の 言 噂 >
入1(to)
=
入m とおくと,3 5
は,(4肌
(4.19)式により計算できるく 号 す の 言 博 >
EH
の入m に関する l次微分は(4.38)式を入mで働子することにより(4.40)式の如く得 られる.80
81
禁
=2C
H日 [ ( f i Z ; ; )
ムαn川 x ( 以 : ? 以 仇
(tl))]( 4.40)
( 4.44)式におけるPlの 係 数 ん
3 ; p L
句 ♂ ( 野 山 は , そ れ ぞ れ ,t d 丸、
, E =知ぜとおき, (4凶),(4問式を利用して得られる
ここで,提案法における学習アルゴリズムをまとめると次のようになる.
とこで~ ~ ¥,., 笠h(Tr,s)~h(Tr,s) の討て算法を次に示す.
8a~(tl)' θan (tl)θ入m stepl:学習パラメータ入mの初期値,対象システムおよびコントローラのノード出力の
初期時刻での値を与える.また,外部入力変数(参照入力 )r m' (t)を制御全時刻に ついて与える.
1 1 1 1 2
鮮 の 時E=h(Tr,
S )
,入l(tO)=αn(tl) とおき, 4.3.1節のl次微分を利用することにより, (4.41), ( 4.42)式が得られる.step2: (4.1)式のダイナミックスを全ノードについて言十算する.
step3: P1(Tk, t, aη(tI)),九(Tk,t,αn(tl)うん) 一(4.42)(4.44)式ーを計算する.
がh(Tr
,
s)= P1(Tr
,
S,
αn(tl)) δαn( t1)(4.41)
step4: (4.39)式を計算する.
P1(Tk,
t ,
αη(tI) )ー乞 [θ l
,h(凡t )
P1(TD (,
t‑D川 n(t1))]3εJLθh(Tjヲt‑Djk) 、J
+ δh(Tk
,
t) δαn(h)(step2 '" step4の計算が一回の学習言七算に対応し,これを必要回数繰り返すことに なる. )
( 4.42)
( 4.43)
4 . 4 . 4 数値例
[制御対象
l
4.3節で使用した非線形クレーンシステムを使用する.Fig. 4.6,4.7,(4.33)(4.34)式 参照.
[評価指標]
数値例として,M
=
40 [kg ,]Dニ 300[kgj sec], G=
700[N jV] ,m=
2[kg] , 9=
9.8[mj sec 2 ]
,Gm ニ 0.98[NjV,]C
=
0.42 [kgj sec]を用い,クレーンの横走行の目標位置(Xref )を1m1荷の巻き上げ目標位置(lref )を0.5mとし,学習時のシステム出力の初期値は
1 2 1 5 : ; ; ら こ
の言樽:E=h(TT) s)
,
入l(tO)=ηα(t1),
入2(to)=
入m とおき, 4.3.1節の2次微分を利用することにより, (4.43),(4.44)式が得られる.
δ↑2 h(Tr,
S L
= 乃(Tr,S
,αn(tI), Am).δ仇
( t
1)δ入m九(九,t,αn(t1),ん)
= Lr~
113pl(TJ?t‑Djk↑(θ ぷ (713k)) ,
αn(t1))j u i θ入m
δ
h (
九T .
,cIのt
) 、P乃
2 ( T
j1t 一D
j片k,仇α似バ
η( t ω
1け l ) ,
入mT勾j
,
t一 Dj片ωk心)、 J ' J.... , .., ‑.f' .. ‑.f J +θ↑ ( 都 ぜ )
δ入m
ハU A U
1よ ハ
U
F﹃﹄
tp k
一 一
︑︑ ﹄ ︐ ノ
ハU
Z
〆'
11
¥
九 i
=
5otherwise
とする. ( 4.45)
( 4.44)
システムパラメータ変動として負荷(m)を考える.数値例では,初期時刻にて負荷m をステップ的に変化させる.すなはち, αn(tl) = m とする.
システムの望ましいダイナミックスを達成するための評価指標 E 及び,負荷の変動
により生ずるシステムの変動を抑制するための評価指標 E H をそれぞれ次のように設 定する.
これらの結果より,荷の質量を変化させても,台車位置
x ( t )
と振れ角。( t )
の制御結 果はほとんど変動が見られず(Fig.4.19,4.20),荷の変動の大きさに従って荷の巻き上げ 位置のみが大きく変動していることが分かる (Fig.4.21).以上より,以後動揺抑制評価 対象ノードすなはち,評価指標Lにおける動揺抑制ノード (r )は,1,1とし,重み CH は, CH=
0.1, 1.0, 10.0と変化させた場合を検討する.E = j i z { Q l 川 ‑
h(T1,s))2}+
Q12(h(T2,T)?+乞
{Qぱ
h(T3,
S))2+
Q14(h(九 s)?}+乞
{Qぱ
lref‑h(Ts,
S))2}+
Q16(h(T6,
T))2+乞 {
R1(h(丸 S))2+
R2(h(九,S))2}]500
400 E L(CH;;1 ) L(CH;;10) ( 4.46)
ハU n u n υ n u
内J
n /
﹄
凶.J﹄
O ω ω
コ 一
ω
﹀/δ↑h(Tr1 s)
^ ~ ¥2
E H
=
CHL 乞 ( μ )
sξ8L rξRB ~""
Table 4.4の値を用いて?次の 2ケースについて検討する.一つは評価指標Eのみを 用いた場合(以下αcseE),他の一つは評価指標Lを用いた場合(以下αcseL)である.学 習回数は 5000回とする.
( 4.47) ーー ..一一一 一一 一一 一 一 一 ‑ ー ー←
1000
Learning Number [N]
Table 4.4 Simulation Conditions Fig. 4.18 Values of criterion function L, E
T
全てのサンプリング時間 1
,
I(r=5,
6)最終時刻(=7.5[sec])
1.0 0.001 0.1う 1
,
10 SLRs Q11 rv Q16
R1 rv R2
CH
ムm
[シミュレーション結果] 学習時の学習回数と評価値Eand Lの関係をFig.4.18に示す.
また, m二 2の条件下の学習によって得られた制御パラメータ変数を用いて, m = 1,2,6,10 に対してシミュレーションを行った.
c
αseEにおける台車位置
x ( t ) ,
ロープの振れ角。( t )
及び荷の位置l ( t )
の制御結果を各々Fig. 4.19 rv Fig. 4.21に示す.
85 84
{ E }
一X
at learning stage 一 ‑m=2 at control stage
一.....m=1 一一一 m=6
.. m=10
{ E ]
0.5
at learning stage 一一一 m=2 at control stage
. m=1
‑‑‑m=6
‑‑‑m=10
。
Fig. 4.21 Control results of
l ( t )
in case of αcseE Fig. 4.19 Control resu1ts of x(t) in case of cαseEFig. 4.22 r‑..J Fig. 4.24に,動揺抑制評価を考慮して学習を行った結果得られた制御 m を大きく変動させた場合での lの制 系を用いて,学習時と異なった条件下すなはち,
御結果の比較を示す.
4.22rv Fig. 4.24より,CH の値を大きくするにつれすなはち,通常の評価指 Fig.
mの変動の 標 E より動揺抑制評価指標
EH
を重要視するにつれシステムパラメータシステムは安定に動作していることが分かる. しかし システム出力への景免警は抑えられ,
ロバスト安定性を強める (CHを大きくする)につれ制御性能の犠牲(定常偏差) ながら,
この両者のトレードオフを調整する重み CH を如何に設 も大きくなっている.従って,
定するかが重要となる.
at learning stage 一一一一 m=2
{司伺﹂}も
at control stage m=1 一一‑m=6
‑‑‑m=10 0.1
。
。
‑0.1
Fig. 4.20 Cor山 01results of B( t) in case of αcseE
88
4 . 5 外部入力変動に強い非線形制御系の設計法 4 . 5 . 1 序
4.3節の状態初期値変動に対するロバスト制御系構成法, 4.4節のシステムパラメータ 変動に対するロバスト制御系構成法に続いて,本節では,外部入力変動に対するロバスト 制御系の構成法について考察する.
4 . 5 . 2 外部入力変動に対するシステム動揺抑制評価指標
システムを制御するための評価指標 E((4.2)式)に外部入力変動によるシステムの動 揺を抑制するための評価指標
EH
を付加し,システム全体の新たな評価指標Lを次式と する.L
=
E+
EH。
↑h(Tr
,
s)E H
=s E E J C
孔( j ; I p b ( j l )
ム川(げ~ ~-7、、
1...‑ 1...‑1...,
Rs .動揺抑制ノードの添字の集合
ら
:変動外部入力変数の添字の集合 SL . 出力変動抑制評価時刻の集合 rm,(t) :時刻もにおける外部入力 C Hr>
0 : Trノードに対する重み係数( 4.48)
( 4.49)
従 っ て , 知 山1)は tl峨 uのrm,(t)の変動こよる S時刻j問 る Trノード の出力 h(Tr)s)の変動を示している.
( 4
.49 )
式はそれらの2
乗和である.従って,
( 4
.48 )
式の指標の最小化はt
1 時刻に Tm, ( t )
の変動が発生しでも,その変動 のシステム全体への影響を抑えるとともに,本来の評価の最小化を図る事となっている.4 . 5 . 3 学習アルゴリズム
一般化学習ネットワークの最適化のための学習とは, (4.48)式が最小となるパラメー タ変数入m を求めることである. (以降パラメータ変数は時不変とする. )
89
( 4.48)式を最小化するパラメータ変数入m の最適化のための学習は,勾配法を用いて 下記の式にて行う.
入m ー ヴ δ↑L
川 'δ入m
入m やーー ( 4.50)
θ↑L δ↑E δ↑
EH
一 一 一
δ入m a入m δ入m 但し,
γ > 0:勾配法の学習係数
,
3 x
一+十子 党
ιの言樽は, 4.3.1節の 1次, 2次粉を活用して言博することができる く3 l f
の 計 算 >告 は 入l(tO)
=
んとおき,( 4
削 附 加 ) 式 よ り 時 で き る く 告 の 計 算 〉( 4.49)式より,
δ↑
EH
δ入m
↑h(Tr
,
s) θ↑2h(Tr,
s)二
2 C H S E Z J ( 三 よ れ ( t
1)ムTmF(t1))×
(2pb( む
θ)入m h (む ) ) ]
(4.51 ) となるので,生巴丘θr θ↑2h(T,γ,5) を求めることγより註与を計算できる.
m
,
(tl),
θrm,
(tI)δ入m 」 θ入m山知ずの時
4.3.1節の l次微分において
, E =
h(Trぅs),入l(tO)=
rm,
(t, ) I
とおけば,次式が得られる.
d
h(Tr, s)=
P1 (Tr, s,
r m' (t1))δrm,(t
I )
[ θh(Tk
,
t) n (fT'.J. n ̲ (.J. ¥ ¥ 1 δh(Tk, t) P1(Tk,t,
rm,
(t1))= 乞
│ P l (丸
t‑Djk,
rm,
(h))1+
julδh(Tj,t‑DjkfL¥‑J'V ‑J^".TTt¥VLJJJ' arm,(t
I )
(4.52)
( 4.53)
[2]
と ど お え の 言 十 算
4.3.1節の2次微分において,E=h(Tr,s),入l(tO)= rm,(t),l入2(tO)=んとおけば,次 式が得られる.
δ↑2h(Tn s) δrm,(tl)δ入m
一 九(Tr
,
s, rm,(t1),ん)九(Tk,t, rm,(t1),入m)
一 「θ↑(侃(九,t?L i )
ニ デ [
θhEst-Djk ~Pl(丸 t ‑Djk,rm,(tI))jEJ
L
T 川 P
2( T
j,t一 山 川 ] + δ
↑(貯)( 4.54)
( 4.55)
なお, (μ4.5臼5)式における P1の係数
九
θ似入m およひ θω入m は?それぞれE =
δ
品州h(仇九,t)
hE
一 坐 也丘4l立iとおくことにより, (μ4.18め
)(μ4.19め
)(μ4.20的)式にて容易に計算できる.8h(乃,トt一Djμk) 一8rm川ベt
ο (
tlけ)ここで,提案法における学習アルゴリズムをまとめると次のようになる.
stepl:学習パラメータ入mの初期値,対象システムおよびコントローラのノード出力の 初期時刻での値を与える.また,外部入力変数(参照入力)r m' (t)を制御全時刻に
ついて与える.
step2: (4.1)式のダイナミックスを全ノードについて計算する.
step3: Pl(Tk, t, rm,(t1)),九(Tk,t, rm,(t1),入m)
ー(4.53)(4.55)式ーを計算する.
step4: (4.50)式を計算する.
(step2 f"J step4の計算が一回の学習計ぐ算に対応し,これを必要因数繰り返すことに
なる.)
4 . 5 . 4
数値例[対象システム
l
Fig. 4.6にて示される非線形クレーンシステムを対象とする.
先の数値例におけるコントローラはリカレントネットワークで構成した(Fig.4.6)が, 本数値例では,階層型ネットワークにてコントローラを構成した (Fig.4.25)
I : 1 samplinq time delav
Fig. 4.25 Control model of a nonlinear crane system using Universal Learning Network
[評価指標
l
数値例として, M
=
40[kg ,]m=
2[kg ,]D=
300[kgj sec ,]G=
700 [NjV] ,g=
9.8[mj see ,] Gm=
0.98[NjV ,]C=
0.42 [kgj sec]を用い,クレーンの横走行の目標位置 (Xref)を1m,荷の巻き上げ目標位置(l ref )を 0.5mとし,学習時のシステム出力の初期値は
h(T5
,
O)=
1 (0)=
1.0, h(Ti,
O)=
0.0 (i=
1,2,3,4,6)とする.本数値例では外部入力変動として,全制御時刻における参照入力の変動
r
m,(t1)=
lrefを考える.
また,システムの所期の目標,及び,巻き上げ位置の変動によるシステムの動揺抑制 を達成するための評価指標 E
,
EHをそれぞれ,次のように設定する.E =
* [ 乞
{Qll(Xref‑h(T1,s))2}+
仏2(叩
,T))2sεS。
+乞
{Q以
h(九S ) ) 2 +
Qぱ
h(T4 ,
s)?}+乞
{Qぱ
l吋 ‑h(九S ) ) 2 }+
Q16(h(T6,
T)?+乞
{R1(h(九 s)?+
R2(h(Tω
/
δ↑h(Tr, s) ^ 1 ¥ 2
EH = 五 五 cι(δ
lref ム仏f)とした.
Table 4.5 Simulation Conditions
SL Rs T Q11
Q21 Qothers
R1 r‑.J R2 ムlref
set of all sampling times
nodes related wiもhx,文, B, and B final time (= 7.5[sec])
0.5 10.0 1.0 0.1
1
92
( 4.56)
( 4.57)
これらの値を用いて評価指標 Eのみを用いた場合(cαseE)と本論文提案の評価指標
L = E + EH
を用いた場合(cαseL )
のそれぞれについて学習を行った.また,学習回数は 4000としfこ.[シミュレーション結果]
Fig. 4.26に, αcseE
,
αcseLのそれぞれについて,乱数で与えるネットワークの重 みの初期値を 3通り変えて学習を行なったときの評価指標の値を示す.Fig. 4.26では,c
αseLの場合については,評価値LとLの一部である Eの両方について示した.シミュ レーシヨンでは,乱数を変えて学習を行なっても評価値はほぼ同じ値に収束した.また,
c
αseE
,
CαseL両方の Eを比較すると αcseLのEの方が若干,値が大きくなっている.これ は ロバスト制御実現のため評価指標(4.48)式の第 2項も同時に最小化するためである.(第1項と第2項のトレードオフを決定する(4.49)式の重み係数
CH
rはシミュレーション では,試行錯誤にて決定した .)93
Fig. 4.27に, CαseLについての学習終了時の制御結果を示す.学習時重みの初期値 を3とおり変えて行っても制御結果は,ほぼ一致している.以後,シミュレーション結果 は lつのケースについて示す.
Fig. 4.28にαcseEとαcseLの学習時の制御結果を示す.評価指標の値からも推測され たように,学習結果はαcseEの方が若干よい.
以後のシミュレーションは,学習により得られた制御系 (Fig.4.25参照)を用いて,
荷の巻き上げ目標位置
( l
re!)を種々変化させて制御を行った.この時の制御結果について cαseEとαcseLを比較する.
Fig. 4.29 rv Fig. 4.31は,lrefを, 1.5,3,6と学習時の値 (0.5)から徐々に変動幅を 大きくしていった時の制御結果である.変動幅を大きくするにつれて通常の制御を行う c
αseEの場合は,徐々に台車の位置 (x ),荷の振れ角 (B )の変動幅が大きくなり,lref = 6 になると,大きく振動し,制御できない状態に至っていることがわかる.一方, CαseLの 方は,変動幅が大きくなっても,x,
B
両者とも,それほど変動していない.Fig. 4.31は, CαseLについて,台車の位置及び速度丸土に対応する動揺抑制評価重 み