4 . 3 . 1 序
前節では,一般的にマルチプランチ一般化学習ネットワークを取り扱ったが,本節以 降では,簡単化のため,シングルプランチの一般化学習ネットワークにより制御系を設計 する.すなはち,ブランチに関する乞すなはち,
L .
pEJKは不要となり,また,遅れ時間 もDij(p)が Dりとなる.このとき,評価関数のパラメータに関する 1次微分及び2次微 分は次式のように簡単化される.1次微分
但し,
/ θ E θ↑h(Tr
,
S)¥一 一 二 乞 乞 (
δ)+一一
入l(tO) r仇 sdovh(TLs)δ入l(tO)ノ θ入l(tO)
f δh(Tk, t) n 1 m .J. n ¥ 1.J. ¥ ¥ 1 δh(九,t) P1(Tk, t
,
入l(tO))=
j乞
ξJlδ│ P 1 ( 7 7 J ‑ D j bh(Tj,
t ‑Djkf 入l(to))1+
l¥‑jlv ~J II:'''j_ \VUJJJ'
a
入l(tO)Pl(Tj
,
to ‑1,入l(tO))= 0。↑九(九1
t )
P1(Tk,
t,
入l(tO))=δ入1(tO)
k
=
1,2, ・・・・・,
R t=
1,
2ぅ・・・・・, T
j = 1
,
2, ・ … . ,
R2次微分
( 4 . 1 8 )
( 4 . 1 9 )
( 4.20)
( 4 . 2 1 )
δ↑2E
fd(# 可)仇
(Tr,
s) δEa
t2h(Tr, s) 1=
L ε I F ? + !
δ入l(tO)δ入2(tO) T目 。 託Solθ入2(tO) δ入l(tO) δh(Tr,s)δ入1(to)δ入2(tO)J + δ
↑ ( 請 が
。
入
2(tO) ( 4.22)P 2 ( T
j, t o ‑
1,入l(tO),入2 ( t O ) ) =
0 ( 4.24)を強化したものといえる.また,新たに付加した動揺抑制指標は,あるシステムノード出 力の制御パラメータに関する微分を含むため,制御パラメータの学習時,評価指標の 2次 微分の言博が必要となる.
ところで,学習時と制御時の動作条件の違いとしてシステムの初期値変動,システム パラメータ変動,参照入力(外部入力)変動等が考えられる.本節では,これらの内,シ ステムの初期値変動について考察する.
非線形システムの軌道は,初期値依存性が強く,学習時用いた初期値と異なる初期値 を用いて制御を行った場合,その違いが大きくなると制御性能の劣化やシステムの不安 定動作を引き起こす.そこで,その初期値変動に対してロバストな制御系の構成法を提案 する.
θ↑θ(
必 E 3 3 k )
P2(
7 i
川 ん(to)A200))=ZlW
ザ )P1(1t‑D川
l(tω
jεJ ~""\-U
+ δh(Tk
,
t) 九(Tj,
t ‑Djk,
A1( t O ) ,
入2(句))1 θh(Tj, t‑
Djk).I. ~\""}l V ~JIC''' J. \-U I' ''''\-V /l J+θ
↑(摂ず)
θ入
2 ( t O )
( 4.23)k
=
1,2, …・・,
Rt
= 1,2, ・・・・・,
Tj
=
1,2,・…・, R
但し,
P
2(1]川 l(制 点
0))= ぷ 問 。 ) で あ る[動揺抑制評価指標] システムを制御するための評価指標 E((4.2)式)にノード出力(:
状態初期値を含む一般的表現)変動よるシステムの動揺を抑制するための評価指標 EHを 付加し,システム全体の新たな評価指標 Lを次式とする.
4 . 3 . 2 状態初期値変動に対するシステム動揺抑制評価指標
一般化学習ネットワーク
( U . L . N . )
による制御器の設計は学習により行うため,通常のニューラルネットワーク
( N . N . )
で得られる制御器と同様に汎化能力を持つ.従って,制御時の動作条件が学習時と異なっても,制御器はある程度,学習時の制御性能を維持で
きる.しかしながら,制御時の動作条件が,学習時の条件と大きく異なってくると,制御 性能が劣化したり,システムが安定に動作しなくなるという問題が生ずる.
本論文では,以上のことを考慮し,ロバスト制御系色学習時と異る条件(:システ ム環境の変化)下においても司安定,かつ良好な制御性能を保つよう学習によって制御器
を構成することと定義する.
上記ロバスト制御を実現するための基本的なアイデアは,以下のとおりである.すな はち,システムパラメータ等システム環境が,学習時設定された値から制御時に変動した 場合,その変動がシステム全体のノードに及ぼす影響を抑えるための評価項目を通常の 評価指標に付加する.この新たな評価項目(以下動揺抑制指標)を加味した全体の評価 指標を最小化するように制御器のパラメータの学習を行なう.このことにより学習時と 制御時の条件の違いに対するシステムの動揺を抑制する.これは,
N . N .
の持つ汎化能力H E
+
ET 一 一
L ( 4.25)
θ↑h(Tr
,
S)^Lfrn.L ¥¥2EH ニ CH
乞乞(乞
?ムh(Ti,tl))~s
εSN εrRs εiRpδh(Ti
,
t1)( 4.26)
ここで,
Rs R P SN
C
H>
0動揺抑制ノードの添字の集合 変動ノードの添字の集合 出力変動抑制評価時刻の集合 重み係数
従って,
組制(九 t
1)はt
1時 刻 何 処 理 ノ ー ド 出 力 山( T
i, t
1)変動した場 合の s時刻における Trノードの出力 h(Tr,
s)の変動を示している.(4.26)式はそれらの2乗和である.(Fig.4.4参照)
従って, (4.25)式の指標の最小化は tl時刻にノード出力に変動が発生しても,その変 動のシステム全体への景簿を抑えるとともに,本来の評価の最小化を図る事となっている.
64
65
↑h(Tr, s) δ↑2h(Tr, s)
2 C H S E E a l ( 五丸山
一
( 4.28) と な る の で , 也θh(T
ω
;,tI),
θh山(T; ,(TtI)θr,3)入m を求めることにより註与を言噂できる~ ~."..." ‑QO,I' ‑ ‑ ,.‑̲̲.." 8入m1 1 1 4 5 ぞれ時
4.3.1節の l次微分において
,
E=h(Tr,
s),
入l(to)=h(Tj,
t1)とおけば,次式が得られる.a normal system orbit
t = tf h(Tk,t)
︑ ︐
J&冒もT
hu ・J ' 1
θ↑h(Tr, s)
= Pl (Tr
,
s, h(Tj, h)) δh(Tj,
tl)Fig.4.4 Perturbation of system output by node ou七putschanges at tl
( 4.29)
て...rδh(Tk
,
t) n (fTl.J. n l.(fTl.J. ¥¥1 ah(Tk, t)P1(Tk
,
t,
h(Tj,
t1))= 会 ヤ│
7Lθh(Tj,t‑Djkr P1J.¥‑)1‑(勾 ぅ
t‑Djbh(Z‑ JfIO,'W¥‑"‑,
tJl.//jδ))│+ 九(Ti,? t1) (430)学習アルゴリズム
一般化学習ネットワークの最適化のための学習とは, (4.25)式が最小となるパラメー
4 . 3 . 3
[2]
;3引はの静
タ変数入m を求めることである.(以降パラメータ変数は時不変とする. )
の最適化のための学習は,勾配法を用いて ( 4.25)式を最小化するパラメータ変数入m
下記の式にて行う. E = h(Tr
,
s),
入l(tO)= h(Tj,
t1),
入2(tO)=
入mとおけば,(4.31 )
( 4.32)
E r I d t(
θ鮎(凡g "
,)飢h
で 2 公 r
,Jt叫 心k!..!..P1(勾丸引,
t 一 Dj片k,刈
hh(7 i , 刈
ttり
111)jεJ
θh(Tk
,
t) TJ I m .J. n L ( m .J. ¥ ¥ ¥ 1 乃(Tj,
t ‑Djk,
h(7 i ,
t, ) I
入m)1 h(巧 ,
t ̲ D j k) ‑k ¥ ‑J 1 W ‑ J "" . W ¥ ‑ " W J. /) . '11> / jM ( 線対)
θ入m
九(Tr
,
s,
h(i , T
tI),入m)P2(Tk
,
t,
h(Tj,
t1),
入m) 4.3.1節の2次微分において,+
一 次式が得られる.
J
2h(Tr,
s) δh(Ti,
tI)θ入m( 4.27)
なお,
i ; f ? 梨
ιの言憐は, 4.3伽 1次, 2次微分を活用して持することができる く 容 の 計 算 >3 ! ?
立入1(tO)=
んとおき, (4削凶)(
4.20)式 よ り 持 で き る く 生Lの計算>δ↑L 入m 一γ一一一
δ入m
θ↑L θ↑E θ↑
EH
一 一 一
δ入m δ入m δ入mγ > 0:勾配法の学習係数
やーー
但し,
入m
+
な
ω
お, (4ω幻削
ω32印品
J ぷ l 3 J 目 叫
jμωkρ)E= 鍛 う 詰 : 3 i
と凶おくにこと以によ川り, (4同
(4.19)(4.20)式 に て 容 易 に 持 で き る ( 4.26)式より,δ↑
EH
δ入m ここで,提案法における学習アルゴリズムをまとめると次のようになる.
stepl:学習パラメータ入mの初期値,対象システムおよびコントローラのノード出力の
初期時刻での値を与える.また,外部入力変数(参照入力)r m' (t)を制御全時刻に ついて与える.
step2: (4.1)式のダイナミックスを全ノードについて計算する.
step3: Pl(九
,
t,
h(Ti,
h)),九(九,
t,
h(Ti,
tl),
入m) ー(4.30)(4.32)式ーを計算する.step4: (4.27)式を計算する.
(step2 I"'OJ step4の計算が一回の学習計:算に対応し,これを必要回数繰り返すことに
なる.)
4 . 3 . 4 数値例
[対象システム] Fig. 4.5にて示される非線形クレーンシステムを対象とする.台車の 位置,荷の振れ角,荷の巻き上げ位置を x
,
B,
1とすると非線形クレーンシステムは,次 式にて記述できる.d2z mgA D + G dztGU
五 2 " ‑ ‑
M V M dt I M ~U~B M 十m ̲ D+Gdx G
二 一一一一~gB 一一一一一 + ‑;‑;‑;:Ud
dt2 ‑ lM :Jv lM dt . lM ( 4.33)
~l
C
+Gm dl . Gmdt2 ‑ ‑ m dt I m LUm
但し,Ud,Um は横走行モータ,巻き上げモータの入力電圧で,
C :巻き上げ摩擦係数 [kgjsec] M :台車の質量[kg] G :電圧・トルク変換係数[NjV] m :荷の質量[kg]
D : 横走行摩擦係数[kgjsec] g : 重力加速度[mjsec2]
ここで,
Fig. 4.5 Structure of nonlinear crane control system
九(T1
,
t)=
x(t) h(T2,
t)=
x(t) h(T3,
t)=
B(t) h(T41 t)=
B(t) h(T5,
t)=
l(t) h(T6,
t)=
l(t) とし, (4.33)式を離散表現すると,h(T1
,
t)=
αl1h(T1,
t) +α21h(T2,
t)h(T21 t)
=
α22h(T2, i) +α32h(T3, i)+
b1 Ud( i) h(T3,
t)h (
九1t )
h(T5
,
t)=α33h(T3
,
i) +α43h(九1i) h(T21 i) , ̲ h(九,
i)=
α24一一ーァh(T5,
t) . +α34‑‑U"一一一^:+h(T5,
t) . α-..._,-~,44h(九,
t-/ )十一三' h(T5L,
ァi) ud(i)二 α55h(T5,i) +α65h(T61 i) h(T6
,
t) = α66h(7ふi)+
b2um(i)但し,
t
=t ‑
1( 4.34)
となる . Ud
,
Um を各々 2個の制御ノード(線形処理ノード 1個,内部にシグモイド関数 を持つ非線形処理ノード 1個)で制御系を実現する場合の U.L.N.で構成したリカレント 型フィードパック制御系を Fig.4.6に示す. (但し,遅れ時間はすべて lサンプル遅れとした. )
68
j N │ i
crane system
Xref
r a h ‑
mm
a
駒 内 川
町
∞
sI EE 'E I︑ ︐
SF at as a u v '
m u u
e a uv
JG
門u n
n H
n v
m a
a u
‑‑
‑
Fig. 4.6 Recurrent type feedback control system of a nonlinear crane system using U. L. N.
[評価指標] 数値例として, M
=
40[kg],
D二 300[kg/ sec],
G=
700[N /V] ,m=
2[kg] , g = 9.8[m/ sec2],
Gm = 0.98[N/V ,]Cニ 0.42[kg / sec]を用い,クレーンの横走行の目標位置 付吋)を 1m,荷の巻き上げ目標位置( l
ref)を0.5mとし,学習時のシステム出力の初期 値はh(凡 0)
=
l(O)ニ1.0,h(Ti, O ) =
0.0 (iニ1,2,3,4,6)とする.本数値例では,ノードの出力変動として,荷の巻き上げの初期時刻(t1ニ
0 )
の変 動 ムh(T5,
0)=
ムl(O)を考える.また,システムの所期の目標,及び,巻き上げ位置の変動によるシステムの動揺抑制 を達成するための評価指標 E,EHをそれぞれ,次のように設定する.
E =
~[I: {Q山ref
‑h(T1,
s) )2}+
Q12( h(T2,
T))2白 sεS。
+乞
{Qぱ
h(T3 , S ) ) 2 +
Q14(h(T4 , S ) ) 2 }
sεS。
十
2 :
{Q日(lreJ‑h(T5,
s) )2}+
Q16(h(九 T))2sεS。
+乞 {
Rl(h(凡S ) ) 2 +
R2
(h(Tg,
s))叫
( 4.35)sεS。
但し,右辺最終項は制御入力の評価項で h(T7,s‑1)
=ω
(s),h(九,sー 1)=
um(s)の関 係がある.(Fig. 4.6参照)また,So 制御全時刻,T:制御最終時刻とし?重みは Ql1 rv Q16
=
l.O, Rl rv R2=
0.001とした.
69
システム動揺抑制指標 EHについては
て...(δ↑h(Tr,s)
^ t .
(rn n¥¥EH
=
CH ~( ム
h(九 0))TUJδ
h (
九 0) ノ ( 4.36) とした.ここで,Rs
=
{1, 2, 3,・・.,6},CH=
100,ムh(九 0)=ムl(O)ニ1.0とし, (4.36)式の 出力変動抑制評価時刻は s= 1.0[sec]である.また,学習回数は5000とした.これらの値を用いて評価指標Eのみを用いた場合 (cαseE)と本論文提案の評価指標 L = E
+
EHを用いた場合(cαseL)のそれぞれについて学習を行った.尚, αcseEの場合 が通常のリカレントニューラルネットワーク制御に対応する.[シミュレーション結果] Fig. 4.7に学習回数と評価値
E , L
の関係(学習曲線)を示 す.図では, αcseE,
cαseLともコントローラのパラメータ変数入m の初期値を 4ケース 乱数で変化させて学習を行った結果を示している.収束状態では,
EHが最小化されf ほ~1 L ~ Eとなっている.
制御時のシミュレーションは学習回数が 5000回の時に得られたパラメータ変数を用 いて,巻き上げ位置初期値 l(O)を変化させて行った.
この非線形クレーンシステムでは, (4.33)式からわかるように荷の巻き上げ位置l(t)
が零に近くなれば,システムは不安定になる.このシミュレーション結果を示したのが,
Fig. 4.8の3角形のシステム安定動作範囲である.αcseLで、は,lref
=
0.5とし,l(O)の値 が0.02から 39.0まで変化させてもシステムは安定に動作したことを示している.αcseEとαcseLの安定範囲を比較すると αcseLの方がはるかに広く,動揺抑制指標EHを付加し た効果が明確に現れている.
Table 4.3はその結果の詳細である .1(0)が零かもしくは小さい場合, αcseEの評価 値 EがαcseLのそれより若干よい.しかしながら,l(O)
=
15のように変動が大きくな ると, αcseLのEの値がαcseEのEよりはるかに良い.そして,動揺抑制を評価した時刻 s=
l[sec]でのシステム動揺値 Sp(学習時のシステムの軌道と制御時のシステムの軌道 との差の2
乗の全システムノードについての和)の平均値は,動揺抑制評価を付加した cαseLの方がl桁から 2桁小さい.なお, Fig.4.8, Table 4.1 は上記4ケースの平均
値を示している.Fig. 4.9から Fig.4.16までは,l(O)
=
15のように初期変動が大きい 場合の制御結果である.Fig. 4.9およr.JFig. 4.10は台車位置の制御結果であり, αcseE では大きくオーバーシュートしているがαcseLでは,抑制されていることがわかる.Fig. 4.11とFig. 4.12は荷の振れ角の制御結果であるが,これも αcseEでは,振れがおおきく
, αcseLではそれがよく抑えられている.Fig. 4.13とFig. 4.14は荷の巻き上げ位置 の制御結果であるが, αcseEではl(t)がαcseLのそれより,システムの不安定動作を引き 起こす零の値に近いことがわかる.このことがFig.4.8における安定動作範囲の違いと なって現れてきている.Fig. 4.15とFig. 4.16は制御入力の大きさを比較している.
Figureより, αcseLの入力値がαcseEのそれより抑制されていることがわかる.
B∞
: t l
ー‑一̲.一.一..一…・・・: E randoml E random2知
I
t 一一一‑一一ー一時 : : E random3 E random4凶 4∞
A
どr~
z∞ 一一'一:嶋一一一 : : L randoml L L random3 L random4 random2。
2ぽ)() 4α)()Lear旭国gNwnber (問
Fig. 4.7 Values of criterion fuctions L
,
E荷の位置の初期値
(4ケースの平均値)
39.0
荷の位置の初期値
(4ケースの平均値)
荷の位置の目標値 荷の位置の目標値
1.
0
0.5 0.5
c a s e
Ec a s e
L:学習条件
i~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~J :システムの安定動作範囲
Fig 4.8 System stable operation area
( O