• 検索結果がありません。

状態初期値変動に強い非線形制御系の設計法

4 . 3 . 1 序

前節では,一般的にマルチプランチ一般化学習ネットワークを取り扱ったが,本節以 降では,簡単化のため,シングルプランチの一般化学習ネットワークにより制御系を設計 する.すなはち,ブランチに関する乞すなはち,

L .

pEJKは不要となり,また,遅れ時間 もDij(p)が Dりとなる.このとき,評価関数のパラメータに関する 1次微分及び2次微 分は次式のように簡単化される.

1次微分

但し,

/ θ E θ↑h(Tr

, 

S)¥ 

一 一 二 乞 乞 (

δ

)+一一

l(tO) r sdovh(TLs)δl(tO) θl(tO)

f δh(Tk  t)  1 m .J.  ¥ 1.J.  ¥ ¥ 1 δh(九,t)  P1(Tk  t

l(tO))

=

j

ξJlδ│ P 1 ( 7 7 J ‑ D j bh(Tj

‑Djkf  l(to))1

l¥‑jlv  ~J II:'''j_ \VUJJJ'

a

l(tO)

Pl(Tj

, 

to  ‑1l(tO))= 0 

。↑九(九1

t )  

P1(Tk

, 

t

l(tO))

δ1(tO) 

1,2, 

R t 

1

2

, T

1

2

, ・ … . ,

R

2次微分

( 4 . 1 8 )  

(  4 . 1 9 )  

( 4.20) 

( 4 . 2 1  ) 

δ↑2E 

fd(# 可)仇

(Tr

s) δE 

a

t2h(Tr  s) 

L ε I   F ? + !  

δl(tO)δ2(tO) T目 。 託Solθ2(tO) δl(tO) δh(Tr,s)δ1(to)δ2(tO)J + δ

↑ ( 請 が

2(tO) 4.22) 

P 2 ( T

j

,  t o   ‑

1,入l(tO),入

2 ( t O ) ) = 

0  ( 4.24) 

を強化したものといえる.また,新たに付加した動揺抑制指標は,あるシステムノード出 力の制御パラメータに関する微分を含むため,制御パラメータの学習時,評価指標の 2次 微分の言博が必要となる.

ところで,学習時と制御時の動作条件の違いとしてシステムの初期値変動,システム パラメータ変動,参照入力(外部入力)変動等が考えられる.本節では,これらの内,シ ステムの初期値変動について考察する.

非線形システムの軌道は,初期値依存性が強く,学習時用いた初期値と異なる初期値 を用いて制御を行った場合,その違いが大きくなると制御性能の劣化やシステムの不安 定動作を引き起こす.そこで,その初期値変動に対してロバストな制御系の構成法を提案 する.

θ↑θ(

必 E 3 3 k )

P2(

7 i

川 ん(to)A200))=Zl

W

)P1(1t‑D

l(t

ω

jεJ  ~""\-U

+ δh(Tk

, 

t) 九(Tj

t ‑Djk

, 

A1

( t O ) ,

2(句))1 θh(Tj

, t‑

Djk).I.  ~\""}l V ~JIC''' J. \-U I' ''''\-V /l J

↑(摂ず)

θ

2 ( t O )

4.23) 

1,2, …・・

R

= 1,2, ・・・・・

T

1,2,・…・

, R

但し,

P

2(1]川 l(

制 点

0))= ぷ 問 。 ) で あ る

[動揺抑制評価指標] システムを制御するための評価指標 E((4.2)式)にノード出力(: 

状態初期値を含む一般的表現)変動よるシステムの動揺を抑制するための評価指標 EHを 付加し,システム全体の新たな評価指標 Lを次式とする.

4 . 3 . 2   状態初期値変動に対するシステム動揺抑制評価指標

一般化学習ネットワーク

( U . L . N . )

による制御器の設計は学習により行うため,通常

のニューラルネットワーク

( N . N . )

で得られる制御器と同様に汎化能力を持つ.従って,

制御時の動作条件が学習時と異なっても,制御器はある程度,学習時の制御性能を維持で

きる.しかしながら,制御時の動作条件が,学習時の条件と大きく異なってくると,制御 性能が劣化したり,システムが安定に動作しなくなるという問題が生ずる.

本論文では,以上のことを考慮し,ロバスト制御系色学習時と異る条件(:システ ム環境の変化)下においても司安定,かつ良好な制御性能を保つよう学習によって制御器

を構成することと定義する.

上記ロバスト制御を実現するための基本的なアイデアは,以下のとおりである.すな はち,システムパラメータ等システム環境が,学習時設定された値から制御時に変動した 場合,その変動がシステム全体のノードに及ぼす影響を抑えるための評価項目を通常の 評価指標に付加する.この新たな評価項目(以下動揺抑制指標)を加味した全体の評価 指標を最小化するように制御器のパラメータの学習を行なう.このことにより学習時と 制御時の条件の違いに対するシステムの動揺を抑制する.これは,

N . N .

の持つ汎化能力

T 一 一

L  ( 4.25) 

θ↑h(Tr

, 

S)^Lfrn.L ¥¥2 

EH CH

乞乞(乞

?ムh(Titl))~

s

εSN εrRs εiRpδh(Ti

t1) 

( 4.26) 

ここで,

Rs  R  SN 

C

動揺抑制ノードの添字の集合 変動ノードの添字の集合 出力変動抑制評価時刻の集合 重み係数

従って,

組制(九 t

1)

t

1時 刻 何 処 理 ノ ー ド 出 力 山

( T

i

, t

1)変動した場 合の s時刻における Trノードの出力 h(Tr

s)の変動を示している.(4.26)式はそれらの

2乗和である.(Fig.4.4参照)

従って, (4.25)式の指標の最小化は tl時刻にノード出力に変動が発生しても,その変 動のシステム全体への景簿を抑えるとともに,本来の評価の最小化を図る事となっている.

64 

65 

↑h(Tr  s) δ↑2h(Tr, s) 

2 C H S E E a l ( 五丸山

( 4.28)  と な る の で , 也θh(T

ω

;tI) 

θh(T; (TtIr3)m を求めることにより註与を言噂できる~ ~."..." ‑QO,I'  .‑̲̲.."  8m

1 1 1 4 5 ぞれ時

4.3.1節の l次微分において

E=h(Tr

, 

s)

入l(to)=h(Tj

t1)とおけば,次式が得られる.

a normal system orbit 

t = tf  h(Tkt) 

J&

hu J ' 1

θ↑h(Tr  s) 

Pl (T

, 

s, h(Tj, h))  δh(Tj

, 

tl) 

Fig.4.4 Perturbation of system output by node ouputschanges at tl 

( 4.29) 

...rδh(Tk

t)  (fTl.J.  l.(fTl.J. ¥¥1  ah(Tk  t) 

P1(Tk

t

h(Tj

t1)) 

= 会 ヤ│

7Lθh(Tj,t‑Djkr P1J.¥‑)1‑(

勾 ぅ

t‑Djbh(Z‑ JfIO'W¥‑"‑

tJl.//jδ))│+ (Tit1(430) 

学習アルゴリズム

一般化学習ネットワークの最適化のための学習とは, (4.25)式が最小となるパラメー

4 . 3 . 3  

[2] 

;3引はの静

タ変数入m を求めることである.(以降パラメータ変数は時不変とする. ) 

の最適化のための学習は,勾配法を用いて ( 4.25)式を最小化するパラメータ変数入m

下記の式にて行う. E h(Tr

, 

s)

入l(tO)h(Tj

, 

t1)

入2(tO)

=

mとおけば,

(4.31 ) 

( 4.32) 

E r d t(

θ鮎(凡

g "

) 

h

で 2 公 r

Jt k!..!..P1(

Dj片k

hh(

7 i

tt

111)

jεJ 

θh(Tk

, 

t)  TJ I m .J.  ( m  .J.  ¥  ¥  ¥  乃(Tj

t ‑Djk

, 

h(

7 i ,  

t

, ) I

m)1 h(

巧 ,

t ̲ D k) ‑k ¥  "" . W  ¥ ‑ J. /) . '11> / 

M ( 線対)

θ入m

九(Tr

s

, 

h(

i ,   T

tI),入m)

P2(Tk

, 

t

, 

h(Tj

, 

t1)

m) 4.3.1節の2次微分において,

一 次式が得られる.

J

2h(Tr

, 

s)  δh(Ti

, 

tI)θm

( 4.27) 

なお,

i ; f ? 梨

ιの言憐は, 4.3 1 2次微分を活用して持することができる く 容 の 計 算 >

3 ! ?

立入1(tO) 

=

んとおき, (4

削凶)(

4.20)式 よ り 持 で き る く 生Lの計算>

δ↑L  m 一γ一一一

δm

θ↑L θ↑E θ↑

EH 

一 一 一

δm δm δm

γ >  0:勾配法の学習係数

やーー

但し,

m

ω

, (4ω

幻削

ω32

J ぷ l 3 J 目 叫

jμωkρ)

= 鍛 う 詰 : 3 i

と凶おくにこと以によ川り, (4

(4.19)(4.20)式 に て 容 易 に 持 で き る ( 4.26)式より,

δ↑

EH 

δm ここで,提案法における学習アルゴリズムをまとめると次のようになる.

stepl:学習パラメータ入mの初期値,対象システムおよびコントローラのノード出力の

初期時刻での値を与える.また,外部入力変数(参照入力)r m' (t)を制御全時刻に ついて与える.

step2: (4.1)式のダイナミックスを全ノードについて計算する.

step3: Pl(九

t

h(Ti

, 

h)),九(九

t

h(Ti

, 

tl)

m) ー(4.30)(4.32)式ーを計算する.

step4: (4.27)式を計算する.

(step2 I"'OJ step4の計算が一回の学習計:算に対応し,これを必要回数繰り返すことに

なる.) 

4 . 3 . 4   数値例

[対象システム] Fig.  4.5にて示される非線形クレーンシステムを対象とする.台車の 位置,荷の振れ角,荷の巻き上げ位置を x

B

, 

1とすると非線形クレーンシステムは,次 式にて記述できる.

d2z  mgA  D + G  dztGU 

五 2 " ‑ ‑

M  dt  ~U

~B M m ̲ D+Gdx  G 

一一一一~gB 一一一一一 + ;;;:Ud 

dt2  ‑ lM :J lM  dt  . lM  4.33) 

~l

C

+Gdl  . G

dt2 ‑ ‑ m  dt  LUm 

但し,UdUm は横走行モータ,巻き上げモータの入力電圧で,

C :巻き上げ摩擦係数 [kgjsec] M :台車の質量[kg] G :電圧・トルク変換係数[NjV] :荷の質量[kg]

D : 横走行摩擦係数[kgjsec] g : 重力加速度[mjsec2

ここで,

Fig.  4.5 Structure of nonlinear crane control system 

九(T1

t) 

x(t)  h(T2

, 

t) 

x(t)  h(T3

, 

t) 

B(t)  h(T41  t) 

B(t)  h(T5

, 

t) 

l(t)  h(T6

, 

t) 

l(t)  とし, (4.33)式を離散表現すると,

h(T1

, 

t) 

=

αl1h(T1

, 

t)  +α21h(T2

t) 

h(T21 t) 

=

α22h(T2, i) +α32h(T3, i) 

b1 Ud( i)  h(T3

, 

t) 

h (

1

t )  

h(T5

, 

t) 

=α33h(T3

, 

i) +α43h(九1i)  h(T21 i)  , ̲ h(九

i) 

α24一一ーァh(T5

t)  . +α34‑‑U"一一一^:+h(T5

t)  . α-..._,-~,44h(九

t-/ )十一三' h(T5L

i) ud(i)

α55h(T5,i) +α65h(T61 i)  h(T6

, 

t)  = α66h(7ふi)

b2um(i) 

但し,

t

t  ‑

( 4.34) 

となる . Ud

Um を各々 2個の制御ノード(線形処理ノード 1個,内部にシグモイド関数 を持つ非線形処理ノード 1個)で制御系を実現する場合の U.L.N.で構成したリカレント 型フィードパック制御系を Fig.4.6に示す. (但し,遅れ時間はすべて lサンプル遅れと

した. ) 

68 

j N │ i  

crane  system 

Xref 

a h ‑

mm  

a

sI EE 'E I︑ ︐

SF at as a u v   '

u u

 uv 

JG

 

u n

n H 

n v  

a u  

Fig.  4.6 Recurrent type feedback control system of  a nonlinear crane system using U. L. N. 

[評価指標] 数値例として, M 

40[kg]

, 

D 300[kg/ sec]

, 

700[N /V] ,m 

2[kg] , g  9.8[m/ sec2]

, 

G= 0.98[N/V ,]C 0.42[kg / sec]を用い,クレーンの横走行の目標位置 付吋)を 1m,荷の巻き上げ目標位置

( l

ref)を0.5mとし,学習時のシステム出力の初期 値は

h(凡 0)

l(O)ニ1.0,h(Ti

, O )   = 

0.0 (iニ1,2,3,4,6)

とする.本数値例では,ノードの出力変動として,荷の巻き上げの初期時刻(t1ニ

0 )

の変 動 ムh(T5

0)

=

ムl(O)を考える.

また,システムの所期の目標,及び,巻き上げ位置の変動によるシステムの動揺抑制 を達成するための評価指標 E,EHをそれぞれ,次のように設定する.

~[I: {Q山ref

h(T1

, 

s) )2} 

Q12( h(T2

, 

T))2 

sεS

+乞

{Q

h(T

3 S ) ) 2   + 

Q14(h(T

4 ,  S ) ) 2 }  

sεS

2 :

{Q(lreJ‑h(T5

, 

s) )2} 

Q16(h(九 T))2

sεS

+乞 {

Rl(h(凡

S ) ) 2 + 

R

2

(h(Tg

, 

s))

4.35) 

sεS

但し,右辺最終項は制御入力の評価項で h(T7,s‑1)

(s),h(九,s 1)

um(s)の関 係がある.(Fig. 4.6参照)

また,So 制御全時刻,T:制御最終時刻とし?重みは Ql1 rv  Q16 

l.O, Rl rv R

0.001とした.

69 

システム動揺抑制指標 EHについては

...(δ↑h(Tr,s) 

^ t .

(rn  n¥¥ 

EH 

CH ~

( ム

h(九 0))

TUJδ

h (

九 0) ( 4.36)  とした.

ここで,Rs 

{1, 2, 3,・・.,6},C

100,ムh(九 0)=ムl(O)ニ1.0とし, (4.36)式の 出力変動抑制評価時刻は s= 1.0[sec]である.また,学習回数は5000とした.

これらの値を用いて評価指標Eのみを用いた場合 (cαseE)と本論文提案の評価指標 L = E 

EHを用いた場合(cαseL)のそれぞれについて学習を行った.尚, αcseEの場合 が通常のリカレントニューラルネットワーク制御に対応する.

[シミュレーション結果] Fig.  4.7に学習回数と評価値

E , L

の関係(学習曲線)を示 す.図では, αcseE

cαseLともコントローラのパラメータ変数入m の初期値を 4ケース 乱数で変化させて学習を行った結果を示している.収束状態では

EHが最小化されf

~1 ~ Eとなっている.

制御時のシミュレーションは学習回数が 5000回の時に得られたパラメータ変数を用 いて,巻き上げ位置初期値 l(O)を変化させて行った.

この非線形クレーンシステムでは, (4.33)式からわかるように荷の巻き上げ位置l(t)

が零に近くなれば,システムは不安定になる.このシミュレーション結果を示したのが,

Fig.  4.8の3角形のシステム安定動作範囲である.αcseLで、は,lref 

0.5とし,l(O)の値 が0.02から 39.0まで変化させてもシステムは安定に動作したことを示している.αcseE 

とαcseLの安定範囲を比較すると αcseLの方がはるかに広く,動揺抑制指標EHを付加し た効果が明確に現れている.

Table 4.3はその結果の詳細である .1(0)が零かもしくは小さい場合, αcseEの評価 値 EがαcseLのそれより若干よい.しかしながら,l(O) 

15のように変動が大きくな ると, αcseLのEの値がαcseEのEよりはるかに良い.そして,動揺抑制を評価した時刻 s 

l[sec]でのシステム動揺値 Sp(学習時のシステムの軌道と制御時のシステムの軌道 との差の

2

乗の全システムノードについての和)の平均値は,動揺抑制評価を付加した c

αseLの方がl桁から 2桁小さい.なお, Fig.4.8, Table 4.1  は上記4ケースの平均

値を示している.Fig.  4.9から Fig.4.16までは,l(O) 

15のように初期変動が大きい 場合の制御結果である.Fig.  4.9およr.JFig. 4.10は台車位置の制御結果であり, αcseE  では大きくオーバーシュートしているがαcseLでは,抑制されていることがわかる.Fig.  4.11とFig. 4.12は荷の振れ角の制御結果であるが,これも αcseEでは,振れがおおき

, αcseLではそれがよく抑えられている.Fig.  4.13とFig. 4.14は荷の巻き上げ位置 の制御結果であるが, αcseEではl(t)がαcseLのそれより,システムの不安定動作を引き 起こす零の値に近いことがわかる.このことがFig.4.8における安定動作範囲の違いと なって現れてきている.Fig.  4.15とFig. 4.16は制御入力の大きさを比較している.

Figureより, αcseLの入力値がαcseEのそれより抑制されていることがわかる.

B∞ 

: t   l 

̲....E randoml E random2 

I

一一一‑ E random3 E random4 

4∞ 

どr~

z∞  一一'一: L randoml L random3 L random4 random2 

2)() 4α)() 

Lear旭国gNwnber (

Fig.  4.7 Values of criterion fuctions L

荷の位置の初期値

(4ケースの平均値)

39.0 

荷の位置の初期値

(4ケースの平均値)

荷の位置の目標値 荷の位置の目標値

1.

0.5  0.5 

c a s e  

c a s e  

:学習条件

i~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~J :システムの安定動作範囲

Fig 4.8 System stable operation area 

( O

関連したドキュメント