Learning Petri Network の基本構成

Fig. 5.1に提案する L.P.Nの基本構成を示す.

号 :j transition

Pij : place between Ti and Tj Djk : time delay from Tj to 1うk

D_piJ : staying time of token at P_i_j hij :五ringweight between Pij and Tj

h(Pij) :五n時 signalof Pij

h(号) :五ringsignal of Tj

h^O⁽勾) : target of五ringsignal of Tj

Fig. 5.1 Basic Structure of L.P.N.

構成の大筋は PetriNetに従っているが PetriNetは基本的に「離散事象を対象とするモデル

J

のためN.N.における学習を実現する事はできない.そこで従来のPetriNet にはない次の3つのアイデアを導入することで離散事象モデルの学習を可能にしている.

• L.P.N.では，ネットワーク中を移動していくトークンに発火信号と称する連続量を与える.

Table 5.1 Comparison with Petri Net and L.P.N. Petri Net L.P.N.

学習 ‑学習機能無 ‑学習機能有

(パラメータを導入)

‑発火遅延有 ‑時間遅れ有

遅延特性 (時間ペトリネット) (動特性を持たせる為)

‑条件を満たすトークン ‑発火信号を計算し，そトランが，プレースに存在すの値が最大のトランジジションれば，トランジションションが発火

発火可能

‑入力側プレースから出 ‑入力側プレースから出発火力側プレースヘ条件を力側プレースへプレー処理満たす数のトークンがス毎にl個づっトーク

移動ンが移動

信号 ‑発火信号の概念無 ‑トークンの伝播とともに発火信号が伝播

‑評価指標の最小化を図 ‑目標値と発火信号の差評価る最適化の概念無よりシステムの評価を

行う

‑トランジションの入力側ブランチに発火ウエイトを導入し，この発火ウエイトの修正によりネットワークの学習を行う.

‑トランジションの出力側プランチに時間遅れを導入し，かつネットワークをリカレント構成とする事により， L.P.N.の動的な挙動を可能にする.

Petri Net^とL.P.N.の違いを明確にするために両者の比較を Table5.1に示す.

なお，リカレント構成とはFig. 5.1のT^kより Pⁱ^jへのルートがあるようなフィードパックの構成のネットワークを言う.

5 . 3 トランジションの発火則

本節では，L.P.N.上でどの様に局在的経路形成を行っているかを示す.経路形成において重要なポイントはトランジションの発火則である.

L.P.N.のトランジシヨン勾は t時刻に発火信号値 h(Tj

，

t) を持つが，これを (5.1)

式のように計:算する.

h(勾

，

=

^f⁽^{h(Pij

，

t)}

， {

入j}) h(Pij

，

入i

f( {h(Pij， t)}， {入j})

Pijの時刻tにおける発火信号値

T J

に関わる可変パラメータトランジション処理関数

(5.1 )

上式によって計算される発火信号値

h (

_勾

， t )

を持つトークンがネットワーク中を伝播していく.トランジシヨン処理関数として， Sigmoid関数を考えると，発火信号値h(Tj

，

^t⁾

は具体的に次のように言様できる.

h(Tj

，

t) = f(

む )

⁽⁵^.²⁾

も = 乞

^h(Pⁱ^j

，

t)hij

+ ^内

⁽⁵^.³⁾

iεI

hij Pijと勾間の発火ウェイト(パラメータ変数) (}j T〉の発火関値(パラメータ変数)

も )

^{シグモイド関数}

I 勾の入力側プレースのうちトークンの伝播したプレースの添字を表す集合

(以下，集合とその濃度を同じ記号で表す)

トランジションの発火信号の値によって，各トランジションの発火が決定されるが，

L.P.N.では，任意の時刻tにおいて，発火できるトランジションは基本的に 1っとする.

具体的には，入力側プレースに少なくとも l個のトークンが相主する全トランジションについて (5.1)式より発火信号を計算し，最大発火信号を持つトランジションが発火できるものとする. トランジションが発火すると，発火したトランジションの各入力側プレースからトークンがl個ずつ取り出され， (firs七infirst ouもの規則に従うものとする)

トランジションに対応した処理を実行し，その後，トランジションの発火信号値を持つトークン(その値をトークンの発火信号値と言う)を各出力側プレースに l個ずつ送出

104

する.なお，時刻tにプレース Pijにより取り出されるトークンの発火信号を Pⁱ^jの発火信号 h(Pij

，

t)と称する.

これにより，ネットワーク上での局所的なトークンの流れが実現可能となる.経路形成において重要な要因はトランジションの発火則であり，前述のごとく最大発火信号を持つトランジションが発火する点が局在的経路形成にとって特に重要である.以下，この最大発火信号について若干の考察を行う.

最大の発火信号値の計算に必要なのは入力値及び学習パラメータ(発火ウエイト及び関値等)である.ここでは，トランジション処理関数が Sigmoid関数の場合を考えてみる.Sigmoid関数は単調増加関数であるため (5.3)式で与えられるもが最大になるとトランジションの発火信号

h ( 勾， t )

の値も最大になりそのトランジシヨンが発火することになる.話を簡単にするため関値を (}j

=

0.0とすると，もの言七算はFig.5.2に示す入力ベクトル h(Pゎt)と発火ウエイトベクトル hjの内積計算と解釈できる.すなわち，むの大きさは， Fig. 5.2のh(Pj，t)とsjの大きさの積で表現される.よって， hjとh(Pj，t) とのなす角が小さければ小さい程， hjのベクトルの大きさが大きければ大きい程，ごj が最大になる可能性が高く発火の可能性が高くなる，つまり，発火ウエイトベクトルhi

と類似性のある入力ベクトルは同じ経路に，類似性のないベクトルは違った経路に分散される.このようにして入力に応じた異なる経路の形成が可能となる.

105

5 . 4 学習アルゴリズム

L.P.N.の学習手法は， Back Propagation (以下 B.P.)法を基本とする.ただし，

L.P.N.における学習の特徴は，ネットワークの全ての可変パラメータが修正される訳ではなく，トークンの伝播した経路に関する可変パラメータのみを修正する点にある.以下，

L.P.N.の学習アルゴリズムを要約する[平津，他 96d].

「 δh(Tj

，

t') θE₁ hij← hij

， ‑ l ^乞

^{{ θ h 6 (}

^巧

^，

^t ^' ⁾ ^} ⁺ 百 ; i

t'ET .....ufJ

(5.4) θh(Tk

，

+

Djk

+

Dp;k) δE

勾パ) =乞

_{k ε K θh}

1

¹ ₍_T_j

_，

_t₎ 3kI6(凡

t +

Djk

+

D pik)]

+

~\_^"V ^I ^{‑J^'}• ‑'jk θh(

勾，

P_i_jとT〉聞の発火重み発火ウエイトの学習係数時刻tの九jの発火信号値時刻tの

T J

^{の発火信号値}

全時刻の集合

T 7

^→^fうk聞の遅れ時間 fう^kでのトークン滞留時間評価指標

T J

の出力側に接続し，かつトークンの伝播したトランジションの添字の集合

5.3節， 5.4節でL.P.N.の発火則と学習則について述べたが， Petri Netの枠組の中でNeuralNetの学習機構を導入してる点が基本コンセプトである.Neural Netとの本質的な違いは NeuralNeもが評価指標を局所最小化する学習をネットワーク内の全てのパラメ}タ変数について行うのに対し， L.P.N.では発火則によって決定される特定経路のパラメータ変数のみが学習される点にある.これによって入力情報に応じて特定の経路のみが動作する機能局在型のネットワークを構成する事が可能となる.

‑qJ

' n

γ h(~j ，t)

h(Tj

，

t) T

qhE

K hj=(hlj，h2j)

、

""" ^h(~

，

= (h(P}j ，t) ，h(P2j ^，^t⁾⁾

(5.5)

Fig. 5.2 Relation between input signal and firing weigh^も

5 . 5 クレーンシステムの制御問題

本節では， L.P.N.コントローラを適用するための非線形クレーンシステムの概略について述べる.

(5.9) h(T11 t ‑1)

+ム

Th(T21t ‑1)

( D + G _l_{ー寸}7 ムT)h(凡 t‑1)一 ¥ ムmg Th(九 t‑1)

+長ム川)

一一一

‑台車系

h(T1 ¹t) h(T₂₁t) Fig. 5.3のクレーン運動方程式は，台車の位置を X ，負荷の振れ角を()，負荷の

巻き上げ位置を lとしたときは次のようになる.

.台車系

(5.10)

︑11ノ咽1ム噌Ei

〆 ︐ ︐ ︑

(5.12) h(九t‑1)

+ム

Th(九 t‑1)

+

G . ̲h(T2

，

t ‑1) M

+

m ̲ ^rnh(九，t‑1) 一一一一一ム

M ‑‑

T^h(T₅₁^t^‑1) 一一一一

M

‑g^{J ‑ ‑}ムT^h(T₅₁^t^‑1)

d ( t ) + h (

九 t‑1) +ームM‑‑hT(九，t‑1) 一

h(T₃₁t) h(T₄₁t) (5.6)

(5.7)

(5.8)

C+G

m ;. Gm

一川

1+

^一 ‑ U_m

m m

‑巻き上げ系

。

(5.13) (5.14) h(九 t‑1)

+ ム

Th(7ふt‑1)

( 1

^1‑'

‑C

^‑^"

プ

^I^'^‑^"^m^ム^T)h(T

¥ i

⁶

^，

^t^‑¹⁾

⁺

^~^_~ムTum(t)

一

‑巻き上げ系

︐?

b 'J

T h

h(T₆

，

(5.9) ~(5.14) 式で表現されるシステムとそのコントローラを一般化学習ネットワーク [平津，他 96b]の枠組で表現すると Fig.5.4のようになる.Fig. 5.4では，台車の移動位置(x)，ロープの振れ角(())制御のための

ω

用コントローラとロープの巻き上げ位置制御 (l)のための U_m 用コントローラを分けて，各々のコントローラの中間層を 10ノー

ロ1

Fig. 5.3 Structure of nonlinear crane system

コントローラをなお，

ド，出力層を lノードの 3層の階層型ネットワークで構成した.

L.P.N で構成する場合には，プレースとトランジションの組で 1個のノードを構成する事になる.

mgQ‑E 土 2 L 1 . E U J

M M 'M

^凶

M+m

ⁿ

D+G. . G

一一一一~g{)- 一一一:-1:+一一切

1M

J V

1M ‑

，

1M

負荷の質量ロープ長

ロープの振れ角巻き上げ摩擦係数

コントローラ出力コントローラ出力重力加速度

••••••••••••••

m l o c

u m u y v

u u t

﹄

台車の質量横走行摩擦係数出発点から台車

までの距離巻き上げ系トルク駆動力変換係数横走行系トルク駆動力変換係数 M

G

但し，

(5.6)~(5.8) 式を h(T1^，^t⁾ ⁼^x

，

h(T2

，

t)ニ土

，

h(T3

，

t) = ヲ)(h(T4

，

t) =

， ) (

h(Ts

，

t) ==

仁川

T₆

，

= i

と置き，サンプリングタイムをムTとして離散化すると次式となる.

108

reference

refer芯nce

Fig. 5.4 Network of crane control system

5 . 6 非線形クレーンシステムの制御系の設計

本節では，前述の非線形クレーンシステムにL.P.N をコントローラとして用いた制御系を設計する.非線形ダイナミックスを制御する場合には，コントローラ出力の急激な変化は好ましくない.しかし， L.P.N.コントローラでは，経路が切り替わるタイミングにコントローラ出力の急激な変化が生じ，この結果システム全体が発散しやすくなる.学習がある程度進んで，ダイナミックスが安定してくれば発散しなくなるが，学習の初期の段階においては動特性も不安定であり，経路も頻繁に切り替わるため適切な措置が必要であ

る.この問題を解決するため， L.P.N.コントローラに次の2点の改良を行った.

109

‑前述の発火則で，ある時刻に発火するトランジションは最大発火信号値をもっトランジション 1個と定義したが，中間層の発火トランジションの個数を発火信号値の大きな方から nイ固とする.

1個のみの発火則に従うと，トランジションの発火によって経路が変化した場合，

コントローラの出力値がそれ以前の出力値とはかなり異なる値となる.上記のように中間層のトランジションが発火信号値の大きい方から n個発火するものとすれば，

l個のみの発火の場合に比べて出力値は安定する.

‑コントローラの出力値に指数平滑を行う.具体的に次のようにする.

hC町、t)←αキh'(Tj，t)十(1.0一的 *h(Tj、t‑1)

ここで，

h(Tj， t) : コントローラ出力に対応するトランジション出力の指数平滑後の値

h'(Tj， t) : コントローラ出力に対応するトランジション出力の指数平滑前の値

(5.15)

指数平滑を行うと過去のコントローラの出力の影響を考慮しただけ，出力は安定しやすくなる.コントローラの出力が安定すれば制御対象(クレーンシステム)への入力が安定することになり，その結果，不必要な経路切替えが行われる可能性が低くなる.

指数平滑は(5.15)式で示されるが，これはネットワーク的にみるとコントローラの出力に l時刻遅れのフィードノfックを行ったリカレントループと解釈できる (Fig. 5.5参

照)

.その結果， αもネットワーク上の 1つの学習パラメータと解釈することができ，通常のリカレントニューラルネットワークの学習則より最適な αの値を獲得することがで

きる.

但し，指数平滑により追従性が悪くなる事が懸念されるが，後述の Fig. 5.10

，

Fig. 5.15に示すように学習によって得られる αは，システム総合評価指標を最適にする αであり，この意味で追従性の評価も考慮して適切な α を求めていると考えることができる.

111

換言すると，機能局在型の

L . P . N .

コントローラと通常のニューラルネット

( N . N . )

コントローラの差異がシステムの評価に大きな影響を及ぼすと考えられる.

以下，両制御系を対象に

L . P . N .

と

N . N .

コントローラのシミュレーション実験を行い，

L . P . N .

の局在的経路形成の効果の評価を行った.

Fig. 5.5 An interpretation of exponential smoothing on learning network Controller _d

n σ b

o δ

HU 叩u o m

p h F P3

n δ

ρしV加

ずAC

以下，下記の 2種類の具体的制御系を検討する. 1つめは，偏差信号(クレーン出力値と目標値との差の信号)をコントローラへの入力とした制御系(以下，偏差あり制御系と呼ぶ)であり， 2つめは偏差信号でなく目標値切替え信号をコントローラへの入力として加えた制御系(以下，切替え信号付き制御系と呼ぶ)である.

偏差あり制御系は， Fig. 5.6に示す通常のフィードパック制御系であり，台車位置z の目標値と出力値との偏差，負荷の巻き上げ位置!の目標値と出力値との偏差あるいは，

;

，

1 ，負荷の振れ角

D

，

D

等を

L . P . N .

コントローラの入力として，横走行系，巻き上げ系の操作量Ud

，

Um を計算する方式である.一方，切替え信号付き制御系は，

L . P . N .

コントローラの有効性を明確にするために構成した制御系で (Fig.5.7)，コントローラの入力は非線形クレーンシステムの直接の出力である丸土，D，

a

，l，

i

目標値切替え信号である.なお，目標値切替え信号は，台車位置 X，負荷の巻き上げ位置 lの目標値Xref，lrefが変更するタイミングに与えるステップ入力である.

両制御系とも目標値の変更に伴Uい、コントロ一ラの入力が大幅に変動すると

υ

しい、う意欝I味未では同一であるが目標値Zιr吋、

コントロ一ラの入カとする通常の負帰還制御系では，負帰還の能力のためコントローラの良否がそれほどシステム全体の評価指標の良否に影響を及ぼさない.一方，切替え信号付き制御系では，負帰還構成となっていないため，コントローラの良否がシステム評価に

及ぼす影響が大となる.

Fig. 5.6 Structure of control system with error signal

Controller Crane System

Fig. 5.7 Sturcture of control system without error signal

5 . 7 非線形クレーンシステムのシミュレーション

制御の目的は台車の移動(横走行系:X)と負荷の巻き上げ(巻き上げ系:1)を平行して行い，それぞれの目標値へ移動させることである.Table 5.2のように横走行系，巻き上げ系ともに前半20.0秒と後半20.0秒ずつそれぞれ異なる目標値を設定する.

Table 5.2 Xref and lref of the crane control system

初期位置￨目l

行糸

‑0.5 m→ 0.0 m→0.5 m

lint→ Iref I 1.0 m→ 0.5 m→1.0 m

上記を満たす評価指標 E を次式のように設定する.

E Ex十E

，

(5.16)

ドキュメント内繰り返し型最適点探索方式による制御系設計法に関する研究 (ページ 55-66)

J

5 . 3 トランジションの発火則

，

，

=

，

， {

，

T J

h (

， t )

，

，

む )

も = 乞

，

+ 内

も )

，

h ( 勾， t )

=

5 . 4 学習アルゴリズム

，

， ‑ l 乞

巧

t ' ) } + 百 ; i

，

+

+

勾パ) =乞

1

，

t +

+

+

勾 ，

T J

T 7

T J

' n

，

qhE

，

5 . 5 クレーンシステムの制御問題

+ム

+長ム川)

+ム

+

，

+

M ‑‑

M

d ( t ) + h (

C+G

1+

。

+ ム

( 1

‑C

プ

¥ i

，

+

，

ω

mgQ‑E 土 2 L 1 . E U J

M M 'M

M+m

D+G. . G

1M

1M ‑

1M

••••••••••••••

m l o c

G

，

，

，

，

+ ^内

， ‑ l ^乞

^巧

^t ^' ⁾ ^} ⁺ 百 ; i

_，

勾，

^，

⁺

仁川