• 検索結果がありません。

Learning Petri Network の基本構成

Fig.  5.1に提案する L.P.Nの基本構成を示す.

号 :j transition 

Pij  place between Tand T Djk  time delay from Tto 1うk

DpiJ  staying time of token at Pij  hij  :五ringweight between Pij and T

h(Pij)  :五n signalof Pij 

h(号) :五ringsignal of T

hO(勾) : target of五ringsignal of T

Fig.  5.1 Basic Structure of L.P.N. 

構成の大筋は PetriNetに従っているが PetriNetは基本的に「離散事象を対象とす るモデル

J

のためN.N.における学習を実現する事はできない.そこで従来のPetriNet  にはない次の3つのアイデアを導入することで離散事象モデルの学習を可能にしている.

• L.P.N.では,ネットワーク中を移動していくトークンに発火信号と称する連続量を 与える.

Table 5.1 Comparison with Petri Net and L.P.N.  Petri Net  L.P.N. 

学習 ‑学習機能無 ‑学習機能有

(パラメータを導入)

‑発火遅延有 ‑時間遅れ有

遅延特性 (時間ペトリネット) (動特性を持たせる為)

‑条件を満たすトークン ‑発火信号を計算し,そ トラン が,プレースに存在す の値が最大のトランジ ジション れば, トランジション ションが発火

発火可能

‑入力側プレースから出 ‑入力側プレースから出 発 火 力側プレースヘ条件を 力側プレースへプレー 処 理 満たす数のトークンが ス毎にl個づっトーク

移動 ンが移動

信号 ‑発火信号の概念無 ‑トークンの伝播ととも に発火信号が伝播

‑評価指標の最小化を図 ‑目標値と発火信号の差 評価 る最適化の概念無 よりシステムの評価を

行う

‑トランジションの入力側ブランチに発火ウエイトを導入し,この発火ウエイトの修 正によりネットワークの学習を行う.

‑トランジションの出力側プランチに時間遅れを導入し,かつネットワークをリカレ ント構成とする事により, L.P.N.の動的な挙動を可能にする.

Petri NetL.P.N.の違いを明確にするために両者の比較を Table5.1に示す.

なお,リカレント構成とはFig. 5.1のTkより Pijへのルートがあるようなフィー ドパックの構成のネットワークを言う.

5 . 3   トランジションの発火則

本節では,L.P.N.上でどの様に局在的経路形成を行っているかを示す.経路形成 において重要なポイントはトランジションの発火則である.

L.P.N.の ト ラ ン ジ シ ヨ ン 勾 は t時刻に発火信号値 h(Tj

t) を持つが,これを (5.1)

式のように計:算する.

h(勾

t)

f( {h(Pij

, 

t)}

,  {

j})  h(Pij

, 

t) 

i

f( {h(Pij, t)}, {j})

Pijの時刻tにおける発火信号値

T J

に関わる可変パラメータ トランジション処理関数

(5.1 ) 

上式によって計算される発火信号値

h (

, t )

を持つトークンがネットワーク中を伝播 していく.トランジシヨン処理関数として, Sigmoid関数を考えると,発火信号値h(Tj

t)

は具体的に次のように言様できる.

h(Tj

, 

t)  f(

む )

(5.2) 

も = 乞

h(Pij

t)hij 

+

(5.3) 

iεI 

hij  Pijと勾間の発火ウェイト(パラメータ変数) (}j  T〉の発火関値(パラメータ変数)

f(

も )

シグモイド関数

I  勾の入力側プレースのうちトークンの 伝播したプレースの添字を表す集合

(以下,集合とその濃度を同じ記号で表す)

トランジションの発火信号の値によって,各トランジションの発火が決定されるが,

L.P.N.では,任意の時刻tにおいて,発火できるトランジションは基本的に 1っとする.

具体的には,入力側プレースに少なくとも l個のトークンが相主する全トランジションに ついて (5.1)式より発火信号を計算し,最大発火信号を持つトランジションが発火できる ものとする. トランジションが発火すると,発火したトランジションの各入力側プレース からトークンがl個ずつ取り出され, (firsinfirst ouもの規則に従うものとする)

トランジションに対応した処理を実行し,その後, トランジションの発火信号値を持 つトークン(その値をトークンの発火信号値と言う)を各出力側プレースに l個ずつ送出

104 

する.なお,時刻tにプレース Pijにより取り出されるトークンの発火信号を Pijの発火 信号 h(Pij

t)と称する.

これにより,ネットワーク上での局所的なトークンの流れが実現可能となる.経路形 成において重要な要因はトランジションの発火則であり,前述のごとく最大発火信号を持 つトランジションが発火する点が局在的経路形成にとって特に重要である.以下,この最 大発火信号について若干の考察を行う.

最大の発火信号値の計算に必要なのは入力値及び学習パラメータ(発火ウエイト及び 関値等)である.ここでは,トランジション処理関数が Sigmoid関数の場合を考えてみ る.Sigmoid関数は単調増加関数であるため (5.3)式で与えられるもが最大になるとトラ ンジションの発火信号

h ( 勾, t )

の値も最大になりそのトランジシヨンが発火することにな る.話を簡単にするため関値を (}j

0.0とすると, もの言七算はFig.5.2に示す入力ベク トル h(Pt)と発火ウエイトベクトル hjの内積計算と解釈できる.すなわち, む の 大 きさは, Fig. 5.2のh(Pj,t)とsjの大きさの積で表現される.よって, hjとh(Pj,t)  とのなす角が小さければ小さい程, hjのベクトルの大きさが大きければ大きい程, ごj が最大になる可能性が高く発火の可能性が高くなる,つまり,発火ウエイトベクトルhi

と類似性のある入力ベクトルは同じ経路に,類似性のないベクトルは違った経路に分散さ れる.このようにして入力に応じた異なる経路の形成が可能となる.

105 

5 . 4   学習アルゴリズム

L.P.N.の学習手法は, Back Propagation (以下 B.P.)法を基本とする.ただし,

L.P.N.における学習の特徴は,ネットワークの全ての可変パラメータが修正される訳では なく, トークンの伝播した経路に関する可変パラメータのみを修正する点にある.以下,

L.P.N.の学習アルゴリズムを要約する[平津,他 96d].

「 δh(Tj

t') θE hij← hij 

, ‑ l

{ θ h 6 (

t ' ) } + 百 ; i

t'ET  .....ufJ 

(5.4)  θh(Tk

, 

Djk 

Dp;k) δE 

b(

勾パ) =乞

k ε K θh

1

(Tj

t)  3kI6(凡

t + 

Djk 

D pik)] 

~\_^"V ‑J^'  ‑'jk θh(

勾 ,

t) 

PijとT〉聞の発火重み 発火ウエイトの学習係数 時刻tの九jの発火信号値 時刻tの

T J

の発火信号値

全時刻の集合

T 7

fk聞の遅れ時間 fうkでのトークン滞留時間 評価指標

T J

の出力側に接続し,かつトークンの伝播したトランジションの 添字の集合

5.3節, 5.4節でL.P.N.の発火則と学習則について述べたが, Petri Netの枠組の中 でNeuralNetの学習機構を導入してる点が基本コンセプトである.Neural Netとの本質 的な違いは NeuralNeもが評価指標を局所最小化する学習をネットワーク内の全てのパラ メ}タ変数について行うのに対し, L.P.N.では発火則によって決定される特定経路のパ ラメータ変数のみが学習される点にある.これによって入力情報に応じて特定の経路のみ が動作する機能局在型のネットワークを構成する事が可能となる.

qJ 

' n  

γ  h(~j ,t)

h(Tj

t)  T 

qhE 

K  hj=(hlj,h2j) 

""" h(~

t) 

= (h(P}j ,t)  ,h(P2j t)  ) 

(5.5) 

Fig. 5.2 Relation between input signal and firing weigh

5 . 5   クレーンシステムの制御問題

本節では, L.P.N.コントローラを適用するための非線形クレーンシステムの概略に ついて述べる.

(5.9)  h(T11 t ‑1) 

+ム

Th(T21t ‑1) 

( D + G  lー 寸7 ムT)h(凡 t‑1)一 ¥ ムmg Th(九 t‑1) 

+長ム川)

一一 一

‑台車系

h(Tt)  h(T21 t)  Fig. 5.3のクレーン運動方程式は,台車の位置を X ,負荷の振れ角を(),負荷の

巻き上げ位置を lとしたときは次のようになる.

.台車系

(5.10) 

11 1 Ei

vh

u 

〆 ︐ ︐ ︑

(5.12)  h(九t‑1) 

+ム

Th(九 t‑1) 

G . ̲h(T2

, 

t ‑1)  M 

m ̲ ^rnh(九,t‑1)  一一一一一ム

M  ‑‑

Th(T51 1) 一一一一

‑gJ ‑ ‑ムTh(T51 1) 

U

d ( t )   + h (

九 t‑1) +ームM‑‑hT(九,t‑1)  一

h(T31 t)  h(T41 t)  (5.6) 

(5.7) 

(5.8) 

C+G

m ;G

1+

‑ Um

‑巻き上げ系

(5.13)  (5.14)  h(九 t‑1) 

+ ム

Th(7ふt‑1) 

( 1

1‑'

‑C

" 

'"mT)h(T

¥ i

6

1) 

~_~ムTum(t)

‑巻き上げ系

?

b  'J  

T h 

h(T6

, 

t) 

(5.9) ~(5.14) 式で表現されるシステムとそのコントローラを一般化学習ネットワーク [平津,他 96b]の枠組で表現すると Fig.5.4のようになる.Fig.  5.4では,台車の移動 位置(x),ロープの振れ角(())制御のための

ω

用コントローラとロープの巻き上げ位置 制御 (l)のための Um 用コントローラを分けて,各々のコントローラの中間層を 10ノー

1

Fig. 5.3 Structure of nonlinear crane system 

コントローラを なお,

ド,出力層を lノードの 3層の階層型ネットワークで構成した.

L.P.N で構成する場合には,プレースとトランジションの組で 1個のノードを構成する 事になる.

mgQ‑E 土 2 L 1 . E U J

M  M  'M

M+m 

D+G. .  G 

一一一一~g{)- 一一一:-1:+一一切

1M 

J V  

1M  ‑

, 

1M 

負荷の質量 ロープ長

ロープの振れ角 巻き上げ摩擦係数

コントローラ出力 コントローラ出力 重力加速度

••••••••••••••

m l o c

 

J

u m u y v  

u u t

台車の質量 横走行摩擦係数 出発点から台車

までの距離 巻き上げ系トルク 駆動力変換係数 横走行系トルク 駆動力変換係数 M 

G

但し,

(5.6)~(5.8) 式を h(T1t)  x

h(T2

, 

t)ニ 土

h(T3

, 

t)  )(h(T4

t) 

, ) (

h(Ts

, 

t)  == 

仁 川

T6

t) 

=  i

と置き,サンプリングタイムをムTとして離散化すると次式となる.

108 

reference 

refernce

Fig. 5.4 Network of crane control system 

5 . 6   非線形クレーンシステムの制御系の設計

本節では,前述の非線形クレーンシステムにL.P.N をコントローラとして用いた制御 系を設計する.非線形ダイナミックスを制御する場合には,コントローラ出力の急激な変 化は好ましくない.しかし, L.P.N.コントローラでは,経路が切り替わるタイミングに コントローラ出力の急激な変化が生じ,この結果システム全体が発散しやすくなる.学習 がある程度進んで,ダイナミックスが安定してくれば発散しなくなるが,学習の初期の段 階においては動特性も不安定であり,経路も頻繁に切り替わるため適切な措置が必要であ

る.この問題を解決するため, L.P.N.コントローラに次の2点の改良を行った.

109 

‑前述の発火則で,ある時刻に発火するトランジションは最大発火信号値をもっトラ ンジション 1個と定義したが,中間層の発火トランジションの個数を発火信号値の 大きな方から nイ固とする.

1個のみの発火則に従うと, トランジションの発火によって経路が変化した場合,

コントローラの出力値がそれ以前の出力値とはかなり異なる値となる.上記のよう に中間層のトランジションが発火信号値の大きい方から n個発火するものとすれば,

l個のみの発火の場合に比べて出力値は安定する.

‑コントローラの出力値に指数平滑を行う.具体的に次のようにする.

hC町、t)←αh'(Tj,t)十(1.0一的 *h(Tj、t‑1) 

ここで,

h(Tj, t)  : コントローラ出力に対応するトランジション出力の 指数平滑後の値

h'(Tj, t)  : コントローラ出力に対応するトランジション出力の 指数平滑前の値

(5.15) 

指数平滑を行うと過去のコントローラの出力の影響を考慮しただけ,出力は安定し やすくなる.コントローラの出力が安定すれば制御対象(クレーンシステム)への入力が 安定することになり,その結果,不必要な経路切替えが行われる可能性が低くなる.

指数平滑は(5.15)式で示されるが,これはネットワーク的にみるとコントローラの出 力に l時刻遅れのフィードノfックを行ったリカレントループと解釈できる (Fig. 5.5参

照)

.その結果, αもネットワーク上の 1つの学習パラメータと解釈することができ,通 常のリカレントニューラルネットワークの学習則より最適な αの値を獲得することがで

きる.

但し,指数平滑により追従性が悪くなる事が懸念されるが,後述の Fig. 5.10

, 

Fig.  5.15に示すように学習によって得られる αは,システム総合評価指標を最適にする αで あり,この意味で追従性の評価も考慮して適切な α を求めていると考えることができる.

111 

換言すると,機能局在型の

L . P . N .

コントローラと通常のニューラルネット

( N . N . )

コ ントローラの差異がシステムの評価に大きな影響を及ぼすと考えられる.

以下,両制御系を対象に

L . P . N .

N . N .

コントローラのシミュレーション実験を行い,

L . P . N .

の局在的経路形成の効果の評価を行った.

Fig.  5.5 An interpretation of exponential smoothing on learning network  Controller 

σ b

o δ    

HU u o m 

p h F   P3  

VJ 

n δ  

ρV

A

以下,下記の 2種類の具体的制御系を検討する. 1つめは,偏差信号(クレーン出力 値と目標値との差の信号)をコントローラへの入力とした制御系(以下,偏差あり制御系 と呼ぶ)であり, 2つめは偏差信号でなく目標値切替え信号をコントローラへの入力とし て加えた制御系(以下,切替え信号付き制御系と呼ぶ)である.

偏差あり制御系は, Fig.  5.6に示す通常のフィードパック制御系であり,台車位置z の目標値と出力値との偏差,負荷の巻き上げ位置!の目標値と出力値との偏差あるいは,

1

;

  1 ,負荷の振れ角

D

D

等を

L . P . N .

コントローラの入力として,横走行系,巻き上げ系 の操作量Ud

Um を計算する方式である.一方,切替え信号付き制御系は ,

L . P . N .

コント ローラの有効性を明確にするために構成した制御系で (Fig.5.7),コントローラの入力 は非線形クレーンシステムの直接の出力である丸土,D,

a

,l, 

i

目標値切替え信号である.な お,目標値切替え信号は,台車位置 X,負荷の巻き上げ位置 lの目標値Xreflrefが変更 するタイミングに与えるステップ入力である.

両制御系とも目標値の変更に伴Uい、コントロ一ラの入力が大幅に変動すると

υ

しい、う意欝I味未で は同一であるが目標値Zιr吋 、

コントロ一ラの入カとする通常の負帰還制御系では,負帰還の能力のためコントローラ の良否がそれほどシステム全体の評価指標の良否に影響を及ぼさない.一方,切替え信号 付き制御系では,負帰還構成となっていないため,コントローラの良否がシステム評価に

及ぼす影響が大となる.

Fig.  5.6 Structure of control system with error signal 

Controller  Crane System 

Fig.  5.7 Sturcture of control system without error signal 

5 . 7   非線形クレーンシステムのシミュレーション

制御の目的は台車の移動(横走行系:X)と負荷の巻き上げ(巻き上げ系:1)を平行して 行い,それぞれの目標値へ移動させることである.Table 5.2のように横走行系,巻き上 げ系ともに前半20.0秒と後半20.0秒ずつそれぞれ異なる目標値を設定する.

Table 5.2  Xref  and lref of  the crane control system 

初期位置│目l

行 糸

0.5 m 0.m0.5 

lint Iref 1.m 0.m→1.

上記を満たす評価指標 E を次式のように設定する.

E  ExE

(5.16) 

関連したドキュメント