状態初期値変動に強い非線形制御系の設計法 - 繰り返し型最適点探索方式による制御系設計法に関する研究

4 . 3 . 1 序

前節では，一般的にマルチプランチ一般化学習ネットワークを取り扱ったが，本節以降では，簡単化のため，シングルプランチの一般化学習ネットワークにより制御系を設計する.すなはち，ブランチに関する乞すなはち，

L .

pEJKは不要となり，また，遅れ時間もDij(p)が Dりとなる.このとき，評価関数のパラメータに関する 1次微分及び2次微分は次式のように簡単化される.

1次微分

但し，

/ θ E θ↑h(Tr

，

S)¥

一一二乞乞 (

_δ

)+一一

入l(tO) ^r^仇 sdovh(TLs)δ入l(tO)ノ θ入l(tO)

f δh(T^k^， t) ⁿ^{1 m} ^.^J^. n ¥ 1.J. ¥ ¥ 1 δh(九，t) P1(T^k^， t

，

入l(tO))

=

乞

_ξ_J_l_δ￨ P 1 ( 7 7 J ‑ D j b_h₍_T_j

_，

_t_‑Djkf 入l(to))1

+

l¥‑jlv ~J II:'''j_ \VUJJJ'

a

入l(tO)

Pl(Tj

，

to ‑1，入l(tO))= 0

。↑九(九¹

t )

P1(Tk

，

入l(tO))=

δ入1(tO)

=

1，2，・・・・・

，

R t

=

，

2ぅ・・・・・

， T

j = 1

，

，・ … . ，

2次微分

( 4 . 1 8 )

( 4 . 1 9 )

( 4.20)

( 4 . 2 1 )

δ↑2E

fd(# 可)仇

(Tr

，

s) δE

a

^t2h(Tr， s) ₁

L ε I ^{F ? + !}

δ入l(tO)δ入2(tO) _T_{目。託}Solθ^入2(tO) ^δ^入l(tO) ^δh(Tr，s)δ入₁(to)δ入2(tO)J + δ

↑ ( 請が

。

入

₂₍_t_O₎ ⁽⁴^.²²⁾

P 2 ( T

， t o ‑

1，入l(tO)，入

2 ( t O ) ) =

0 ( 4.24)

を強化したものといえる.また，新たに付加した動揺抑制指標は，あるシステムノード出力の制御パラメータに関する微分を含むため，制御パラメータの学習時，評価指標の 2次微分の言博が必要となる.

ところで，学習時と制御時の動作条件の違いとしてシステムの初期値変動，システムパラメータ変動，参照入力(外部入力)変動等が考えられる.本節では，これらの内，システムの初期値変動について考察する.

非線形システムの軌道は，初期値依存性が強く，学習時用いた初期値と異なる初期値を用いて制御を行った場合，その違いが大きくなると制御性能の劣化やシステムの不安定動作を引き起こす.そこで，その初期値変動に対してロバストな制御系の構成法を提案する.

θ↑θ(

必 E 3 3 k )

P2(

7 i

川ん(to)A200))=Zl

W

^ザ ^)P1(1t‑D

^川

^l⁽^t

ω

jεJ ~""\-U

+ δh(Tk

，

t) 九(T_j

，

t ‑_Dj_k

，

A₁

( t O ) ，

入2(句))1 θh(Tj

， t‑

Djk)^.^I^. ~\""}l V ~JIC''' J. \-U I' ''''\-V /l J

+θ

↑(摂ず)

θ入

2 ( t O )

⁽⁴^.²³⁾

=

1，2， …・・

，

t

= 1，2，・・・・・

，

=

1，2，・…・

， R

但し，

P

₂₍1]川 l(

制点

0))= ぷ問。 ) である

[動揺抑制評価指標] システムを制御するための評価指標 E((4.2)式)にノード出力(:

状態初期値を含む一般的表現)変動よるシステムの動揺を抑制するための評価指標 EHを付加し，システム全体の新たな評価指標 Lを次式とする.

4 . 3 . 2 状態初期値変動に対するシステム動揺抑制評価指標

一般化学習ネットワーク

( U . L . N . )

による制御器の設計は学習により行うため，通常

のニューラルネットワーク

( N . N . )

で得られる制御器と同様に汎化能力を持つ.従って，

制御時の動作条件が学習時と異なっても，制御器はある程度，学習時の制御性能を維持で

きる.しかしながら，制御時の動作条件が，学習時の条件と大きく異なってくると，制御性能が劣化したり，システムが安定に動作しなくなるという問題が生ずる.

本論文では，以上のことを考慮し，ロバスト制御系色学習時と異る条件(:システム環境の変化)下においても司安定，かつ良好な制御性能を保つよう学習によって制御器

を構成することと定義する.

上記ロバスト制御を実現するための基本的なアイデアは，以下のとおりである.すなはち，システムパラメータ等システム環境が，学習時設定された値から制御時に変動した場合，その変動がシステム全体のノードに及ぼす影響を抑えるための評価項目を通常の評価指標に付加する.この新たな評価項目(以下動揺抑制指標)を加味した全体の評価指標を最小化するように制御器のパラメータの学習を行なう.このことにより学習時と制御時の条件の違いに対するシステムの動揺を抑制する.これは，

N . N .

の持つ汎化能力

H E

+

T 一一

L ( 4.25)

θ↑h(Tr

，

S)^Lfrn.L ¥¥2

EH ニ C_H

乞乞(乞

^?ム^h(Tⁱ^，^tl))~

εSN εrRs εiRpδh(Tⁱ

，

t1)

( 4.26)

ここで，

Rs R _P SN

C

>

動揺抑制ノードの添字の集合変動ノードの添字の集合出力変動抑制評価時刻の集合重み係数

従って，

組制(九 ^t

¹⁾^は

^t

¹時刻何処理ノード出力山

( T

， t

1)変動した場合の s時刻における T_rノードの出力 h(T_r

，

s)の変動を示している.(4.26)式はそれらの

2乗和である.(Fig.4.4参照)

従って， (4.25)式の指標の最小化は tl時刻にノード出力に変動が発生しても，その変動のシステム全体への景簿を抑えるとともに，本来の評価の最小化を図る事となっている.

↑h(Tr， s) δ↑2h(T_r， s)

2 C H S E E a l ( 五丸山

一

( 4.28) となるので，也_θh₍_T

ω

_;，tI)

，

θh山(T; ，(TtI)θ^r，3)入m を求めることにより註与を言噂できる~ ~."..." ‑QO，I' ‑ ‑ ，.‑̲̲.." 8入m

1 1 1 4 5 ぞれ時

4.3.1節の l次微分において

，

E=h(T_r

，

入l(to)=h(Tj

，

t₁₎とおけば，次式が得られる.

a normal system orbit

t = tf h(Tk，t)

︑ ︐

J&冒もT

hu ・J ' 1

θ↑h(Tr， s)

= Pl (T_r

，

s， h(Tj， h)) δh(Tj

，

tl)

Fig.4.4 Perturbation of system output by node ou七putschanges at tl

( 4.29)

て...rδh(Tk

，

t) n (fTl.J. n l.(fTl.J. ¥¥1 ah(Tk， t)

P₁(Tk

，

h(Tj

，

t₁₎₎

= 会ヤ￨

7Lθh(Tj，t‑Djkr P1J.¥‑)1‑(

勾ぅ

t‑Djbh(Z‑ JfIO，'W¥‑"‑

，

tJl.//jδ))￨+ 九(T_i，^?t₁) (430)

学習アルゴリズム

一般化学習ネットワークの最適化のための学習とは， (4.25)式が最小となるパラメー

4 . 3 . 3

[2]

;3引はの静

タ変数入m を求めることである.(以降パラメータ変数は時不変とする. )

の最適化のための学習は，勾配法を用いて ( 4.25)式を最小化するパラメータ変数入m

下記の式にて行う. E = h(T_r

，

入l(tO)= h(Tj

，

t1)

，

入2(tO)

=

入mとおけば，

(4.31 )

( 4.32)

E r _I ^d ^t(

_θ^鮎(凡

^g ^"

^，⁾

飢h

で 2 公 r

^，^J^t^叫 ^心^k^!^.^.^!^.^.^P¹⁽^勾^丸^引

^，

^t^一 ^Dj^片k^，

^刈

^h^h⁽

⁷ ⁱ ^，刈

^t^t

り

¹¹¹⁾

jεJ

θh(Tk

，

t) TJ I m .J. n L ( m .J. ¥ ¥ ¥ 1 乃(Tj

，

t ‑Djk

，

7 i ，

， ) I

入m)1 h(

巧，

t ̲ D j k) ‑k ¥ ‑J 1 W ‑ J "" . W ¥ ‑ " W J. /) . '11> / j

M ( 線対)

θ入m

九(Tr

，

i ， T

tI)，入m)

P2(Tk

，

h(Tj

，

t1)

，

入m) 4.3.1節の2次微分において，

+

一次式が得られる.

J

^2h(Tr

，

s) δh(Ti

，

tI)θ入m

( 4.27)

なお，

i ; f ? 梨

^ι^{の言憐は，} ⁴^.³^伽 ¹^次^， ²次微分を活用して持することができるく容の計算 >

3 ! ?

^立入¹⁽^t^O⁾

=

んとおき， (4

削凶)(

4.20)式より持できるく生^Lの計算>

δ↑L 入m 一γ一一一

δ入m

θ↑L θ↑E θ↑

EH

一一一

_δ_入_{m δ}_入_{m δ}_入_m

γ > 0:勾配法の学習係数

やーー

但し，

入m

+

な

ω

^お^，⁽⁴^ω

幻削

^ω³2

印品

J ぷ l 3 J 目叫

^j^μ^ω^k^ρ)^E

= 鍛う詰 : 3 i

と凶おくにこと以によ川り， (4

同

⁽⁴^.¹⁹⁾⁽⁴^.²⁰⁾式にて容易に持できる ( 4.26)式より，

δ↑

EH

δ入m ここで，提案法における学習アルゴリズムをまとめると次のようになる.

stepl:学習パラメータ入mの初期値，対象システムおよびコントローラのノード出力の

初期時刻での値を与える.また，外部入力変数(参照入力)r m' (t)を制御全時刻について与える.

step2: (4.1)式のダイナミックスを全ノードについて計算する.

step3: Pl(九

，

h(Ti

，

h))，九(九

，

h(Ti

，

tl)

，

入m) ー(4.30)(4.32)式ーを計算する.

step4: (4.27)式を計算する.

(step2 I"'OJ step4の計算が一回の学習計:算に対応し，これを必要回数繰り返すことに

なる.)

4 . 3 . 4 数値例

[対象システム] Fig. 4.5にて示される非線形クレーンシステムを対象とする.台車の位置，荷の振れ角，荷の巻き上げ位置を x

，

1とすると非線形クレーンシステムは，次式にて記述できる.

d2z mgA D + G dztGU

五 2 " ‑ ‑

M ^V M dt I M ~U

~B M 十m ̲ D+Gdx G

二一一一一~gB 一一一一一 + ^‑^;^‑^;^‑^;^:^U^d

dt2 ‑ lM ^:^J^v lM dt . lM ⁽⁴^.³³⁾

C

+Gm dl . Gm

dt2 ‑ ‑ m dt ^I m LUm

但し，Ud，Um は横走行モータ，巻き上げモータの入力電圧で，

C :巻き上げ摩擦係数 [kgjsec] M :台車の質量[kg] G :電圧・トルク変換係数[NjV] m :荷の質量[kg]

D : 横走行摩擦係数[kgjsec] g : 重力加速度[mjsec²]

ここで，

Fig. 4.5 Structure of nonlinear crane control system

九(T1

，

=

x(t) h(T2

，

=

x(t) h(T3

，

=

B(t) h(T41 t)

=

B(t) h(T5

，

=

l(t) h(T6

，

=

l(t) とし， (4.33)式を離散表現すると，

h(T1

，

=

αl1h(T1

，

t) +α21h(T2

，

h(T21 t)

=

^α²²^h⁽^T²^，i) +α32h(T3， i)

+

b1 ^Ud(i) h(T3

，

h (

九¹

t )

h(T₅

，

=α33h(T3

，

i) +α43h(九¹i) h(T21 i) ， ̲ h(九

，

=

α24一一ーァh(T5

，

t) . +α34‑‑U"一一一^:+h(T5

，

t) . α-..._，-~，44h(九

，

t-/ )十一三' h(T5L

，

^ァi) ud(i)

二 α55h(T5，i) +α65h(T61 i) h(T6

，

t) = α66h(7ふi)

+

b2^um(i)

但し，

t

t ‑

( 4.34)

となる . Ud

，

Um を各々 2個の制御ノード(線形処理ノード 1個，内部にシグモイド関数を持つ非線形処理ノード 1個)で制御系を実現する場合の U.L.N.で構成したリカレント型フィードパック制御系を Fig.4.6に示す. (但し，遅れ時間はすべて lサンプル遅れと

した. )

j N ￨ i

crane system

Xref

r a h ‑

駒内川

町

∞

sI EE 'E I︑ ︐

SF at as a u v '

m u u

e a uv

門u n

n H

n v

m a

a u

‑‑

‑

Fig. 4.6 Recurrent type feedback control system of a nonlinear crane system using U. L. N.

[評価指標] 数値例として， M

=

40[kg]

，

D^二 300[kg/ sec]

，

=

700[N /V] ，m

=

2[kg] ， g = 9.8[m/ sec2]

，

G_m= 0.98[N/V ，]Cニ 0.42[kg / sec]を用い，クレーンの横走行の目標位置付吋)を 1m，荷の巻き上げ目標位置

( l

ref)を0.5mとし，学習時のシステム出力の初期値は

h(凡 0)

=

l(O)ニ1.0，h(Ti

， O ) =

0.0 (iニ1，2，3，4，6)

とする.本数値例では，ノードの出力変動として，荷の巻き上げの初期時刻(t1ニ

0 )

の変動ムh(T₅

，

=

ムl(O)を考える.

また，システムの所期の目標，及び，巻き上げ位置の変動によるシステムの動揺抑制を達成するための評価指標 E，EHをそれぞれ，次のように設定する.

E =

~[I: {Q山ref

^‑^h(T¹

^，

^s⁾⁾²^}

+

^Q¹²⁽^h(T²

，

T))2

白 sεS。

+乞

ぱ

h(T

3 ^， S ) ) 2 +

^Q¹⁴⁽^h⁽^T

4 ^， S ) ) 2 }

sεS。

十

2 :

^{Q^日(lreJ‑h(T₅

，

s) )2}

+

^Q¹⁶⁽^h⁽九 T))2

sεS。

+乞 {

Rl(h(凡

S ) ) 2 +

2

⁽^h⁽^T^g

^，

^s⁾⁾

叫

⁽⁴^.³⁵⁾

sεS。

但し，右辺最終項は制御入力の評価項で h(T₇，s‑1)

=ω

(s)，h(九，sー 1)

=

um(s)の関係がある.(Fig. 4.6参照)

また，So 制御全時刻，T:制御最終時刻とし?重みは Ql1 rv Q16

=

l.O， Rl rv R²

=

0.001とした.

システム動揺抑制指標 EHについては

て...(δ↑h(T^r，s)

^ t .

^(rn ^n¥¥

=

CH ~

( ム

h(九 0))

TUJδ

h (

九 0) ノ ( 4.36) とした.

ここで，Rs

=

{1， 2， 3，・・.，6}，CH

=

100，ムh(九 0)=ムl(O)ニ1.0とし， (4.36)式の出力変動抑制評価時刻は s= 1.0[sec]である.また，学習回数は5000とした.

これらの値を用いて評価指標Eのみを用いた場合 (cαseE)と本論文提案の評価指標 L = E

+

^EH^{を用いた場合}(cαseL)のそれぞれについて学習を行った.尚， αcseEの場合が通常のリカレントニューラルネットワーク制御に対応する.

[シミュレーション結果] Fig. 4.7に学習回数と評価値

E ， L

の関係(学習曲線)を示す.図では， αcseE

，

cαseLともコントローラのパラメータ変数入m の初期値を 4ケース乱数で変化させて学習を行った結果を示している.収束状態では

，

EHが最小化されf ほ

~1 L ~ Eとなっている.

制御時のシミュレーションは学習回数が 5000回の時に得られたパラメータ変数を用いて，巻き上げ位置初期値 l(O)を変化させて行った.

この非線形クレーンシステムでは， (4.33)式からわかるように荷の巻き上げ位置l(t)

が零に近くなれば，システムは不安定になる.このシミュレーション結果を示したのが，

Fig. 4.8の3角形のシステム安定動作範囲である.αcseLで、は，lref

=

0.5とし，l(O)の値が0.02から 39.0まで変化させてもシステムは安定に動作したことを示している.αcseE

とαcseLの安定範囲を比較すると αcseLの方がはるかに広く，動揺抑制指標EHを付加した効果が明確に現れている.

Table 4.3はその結果の詳細である .1(0)が零かもしくは小さい場合， αcseEの評価値 EがαcseLのそれより若干よい.しかしながら，l(O)

=

15のように変動が大きくなると， αcseLのEの値がαcseEのEよりはるかに良い.そして，動揺抑制を評価した時刻 s

=

l[sec]でのシステム動揺値 Sp(学習時のシステムの軌道と制御時のシステムの軌道との差の

2

乗の全システムノードについての和)の平均値は，動揺抑制評価を付加した c

αseLの方がl桁から 2桁小さい.なお， Fig.4.8， Table 4.1 は上記4ケースの平均

値を示している.Fig. 4.9から Fig.4.16までは，l(O)

=

15のように初期変動が大きい場合の制御結果である.Fig. 4.9およr.JFig. 4.10は台車位置の制御結果であり， αcseE では大きくオーバーシュートしているがαcseLでは，抑制されていることがわかる.Fig. 4.11とFig. 4.12は荷の振れ角の制御結果であるが，これも αcseEでは，振れがおおき

く

， αcseLではそれがよく抑えられている.Fig. 4.13とFig. 4.14は荷の巻き上げ位置の制御結果であるが， αcseEではl(t)がαcseLのそれより，システムの不安定動作を引き起こす零の値に近いことがわかる.このことがFig.4.8における安定動作範囲の違いとなって現れてきている.Fig. 4.15とFig. 4.16は制御入力の大きさを比較している.

Figureより， αcseLの入力値がαcseEのそれより抑制されていることがわかる.

B∞

: t l

^ー^‑^一^̲^.^一^.^一^.^.^一^…^・^・^・^:^E randoml^E r^aⁿ^d^o^m2

知

I

t ^一一一‑_一_一_ー_一_時 ^:_:^E random3_E random4

凶 4∞

どr~

^z^∞ ^一一'一:^嶋^一^一^一 ^:^:^L randoml^L^L random3^L random4^r^aⁿ^d^o^m2

。

²^ぽ⁾⁽⁾ ⁴^α⁾⁽⁾

Lear旭国gNwnber (問

Fig. 4.7 Values of criterion fuctions L

，

荷の位置の初期値

(4ケースの平均値)

39.0

荷の位置の初期値

(4ケースの平均値)

荷の位置の目標値荷の位置の目標値

0

0.5 0.5

c a s e

:学習条件

i~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~J :システムの安定動作範囲

Fig 4.8 System stable operation area

( O

ドキュメント内繰り返し型最適点探索方式による制御系設計法に関する研究 (ページ 35-41)

状態初期値変動に強い非線形制御系の設計法

4 . 3 . 1 序

L .

，

一 一 二 乞 乞 (

)+一一

，

=

乞

，

+

a

，

t )

，

，

=

，

=

，

， T

，

， ・ … . ，

( 4 . 1 8 )

( 4 . 1 9 )

( 4 . 2 1 )

fd(# 可)仇

，

a

L ε I F ? + !

↑ ( 請 が

。

入

P 2 ( T

， t o ‑

2 ( t O ) ) =

必 E 3 3 k )

7 i

W

川

ω

，

，

，

( t O ) ，

， t‑

↑(摂ず)

2 ( t O )

=

，

t

，

=

， R

P

制 点

4 . 3 . 2 状態初期値変動に対するシステム動揺抑制評価指標

( U . L . N . )

( N . N . )

N . N .

+

，

乞乞(乞

，

C

>

組制(九 t

t

( T

， t

，

2 C H S E E a l ( 五丸山

ω

，

1 1 1 4 5 ぞれ時

，

，

，

，

，

一一二乞乞 (

_，

，・ … . ，

L ε I ^{F ? + !}

↑ ( 請が

^川

制点

組制(九 ^t

^t

= 会ヤ￨

勾ぅ

E r _I ^d ^t(

^g ^"

^，

^刈

⁷ ⁱ ^，刈

巧，

一一一

J ぷ l 3 J 目叫

= 鍛う詰 : 3 i