リアルタイム分散システムにおけるスケジュール性の考察

(1)

「マルチメディア通信と分散処理ワークショップ

J

平成

5年1

1

月

リアルタイム分散システムにおける

スケジュール性の考察

荒井兼秀 * 斎藤正史料 *三菱電機(株)産業システム研究所林三菱電機(株)情報システム研究所リアルタイム分散システムにおける、システムのフォーJレトトレラント性とタスクの応答性とについて考察した。分散システムにおいていくつかの計算機が処理を継続できなくなった場合、他の計算機がその処理を継続しなければならない。そのような場合に処理を受け持つ計算機が過負荷状態になっても、優先度の低いタスクに対するイベントをキューイングすることで、イパントを取りのがきず、再び定常状態に戻るまでの時間を見積もれることを示した。 1 はじめにプラントシステムや電力システムなどにおける計算機システムでは、処理のリアルタイム性とフォーJレトトレラント性とが重要な課題である。このようなシステムでは、制御計測機器から周期的に発生する外部要求としてのイベントに対して、それを処理するタスクが存在し、イベント処理を行なう。この周期的に起動されるタスクには、ある一定時間以内に、一般には、次のイベント発生までに、その処理が終了すること要求される。すなわち、デッドラインを守ることが必要であるロこのようなリアルタイム性が要求されるシステムで動イ乍するタスクのスケジューリングアルゴリズムが研究されているo また、計算機の小型化高性能化にともなって、分散システムを構築し、システム全体としての処理速度を向上させるとともに、フォーJレトトレラント性を向上させるようになってきた。 A SLudy or Schedula.biliLy for Distribu.ted Rea.l -time Systems

Kanehide ARAI*.M笛出hiSAITO

“

*Mitsubishi Electric Corpor.ation， Industrial and Elec -tronics Systems La.bora.tory

・

MitsubishiElectric Corpora.tion. Compuler a.nd In -forma.tion Systems La.bora.tory フォールトトレラント性を高めるために、パックアップ処理用の計算織をもうけて、

1

台の計算機が処理出来なくなった場合に備えるか、各計算般の処理能力に余裕を持たせてあらかじめ負荷を軽くしておき、ある計算般に障害が発生した場合には、その計算機で行なっていた処理を他の計算機に実行させるという方法がとられている。一般に、

1

台の計算機の異常にはあらかじめ十分な対応をとることが多いが、概数の計算機が処理を継続できなくなった場合にはタスクを他の計算機にマイグレートした結果、他の計算機の負荷が上昇し、優先度の低いタスクから、処理が行なわれなくなるo これにより、イベントの取りこぼしが生じ、システム全体として安全とはいえなくなる。本報告では、リアルタイムスケジューリングされたタスクが動イ乍するシステムにおいて、過負荷状態になった計算機の低優先度タスクに対するイベントをキューイングすることで、イベントの取りこぼしをなくし、その処理をある程度の遅延を見越して行った場合の、遅延時間の見積りを行なうことで、システムの安全性を向上させる方式を提案し、その方式について考察を行なった。

(2)

計測・制御系図1:プラントシステムの構成

2

大規模システムでのタスクスケジューリング

2 .

1

プラントシステムのモデル大規模制御システムの構成のモデルとして、図1のようなシステムを取りあげる。広域なネットワークに各種計測制御機器と計算機とが接続されており、プラントシステムの計測機器からの情報がネットワークを経由して計算機に送られ、逆に計算機からの制御命令がネットワークを経由して制御機器に送られる。一般に、計測機器からのデータは周期的にネットワークに送り出され、不ツトワーク上にある計算機が、それをイベントとして取り上げ、計算機上の対応するタスクが処理を行なう。したがって、計算機上で処理を行なうタスクは周期的に起動される。これらの周期的に発生するイベントを処理するタスクには、ある決まった時刻、または、次のイベントが発生する時刻までにその処理を終らせることが要求される。

2 .

2

タスクスケジューリングリアルタイムコンピューテイングの理論のもととなるのカf、リアJレタイムスケジューリングアルゴリズムである。リアルタイムコンピューティングでは、あるスケジューリング方式にもとづいたタスクセットの各タスクのデッドラインを守るとき、そのタスク集合はスケジューラプルであるという白リアルタイムスケジューリングのアルゴリズムとして

RMA(RateM

o

n

o

t

o

n

i

c

A

l

g

o

r

i

t

h

m

)

は、

1

9

7

3

年にLiuらによって提唱された

[

1 ]

0

これは、独立な周期タスクが動作する場合に、計算機の負荷率によって、システムのスケジューラピリティを確かめるものであり、はじめてシステムのスケジューラピリテイを定式イ

t

したものである。さらに、優先度継承プロトコル

[

4 ]

、優先度上限プロトコJレ、スポラデイツクサーパ

[

5 )

など様々な拡張がなされている。

R

.

MA

では、タスクの優先度はそのタスクの周期のみにもとづき、周期の短いタスクほど高い優先度をもっo 独立なn個の周期タスクのセットからなるシステムにおいて、タスク η の周期、実行時聞をそれぞれれ

，

C

i

とすると、タスクセットの計算機利用率Uは n 可であり、

.

u=

乞宗

(

1 )

一一

属

。

_斗

I

う

m

]

1

_$1

_仰

←

ィ

l

T

"

{(k

，

l

似

k

~

n

，

l

=

1

，

.

，

L

与

J

}

ムk をみたす時、このタスクセットはスケジューラプルである

[

2 ][

3 ]

0

(3)

タスクのマイグレーション計測・制御系図2:負荷分散方式による障害対策プラント制御システムにおけるタスクスケジューない。リングで、この

RMA

をもちいることで、リアさらに、複数の計算機に障害が発生するなど Jレタイム性を保証するシステムを構築することして、マイグレート先の計算機での処理が過負ができるo 荷な状態(式(1)でUとりになるか、または、

3

分散システムにおけるリアルタイム計算機の小型化、高性能化にともない、リアルタイムシステムの分散化なされている。分散システムでのフォールトトレラント性を高める方法として、パックアップシステムを用いる場合と、負荷分散により故障した計算機の処理を継続させる場合とが考えられる。これらの両者を用いる場合も考えられる。負荷分散によりフォールトトレラント性を高めているシステムの計算機に陣害が発生した場合、その計算機で動作していたタスクは、その他の、正常動作をしている計算機が行なう。すなわち、そのタスクは、正常勤作をしている計算機にマイグレートするoその動作を図2に示す。その際、効率良くしかも、マイグレート先の計算機でもリアルタイム性が守られるようなタスクマイグレーションアルゴリズム研究がなされている

[

6 ]

0

マイグレート先の計算機でも、すべてのタスクのデッドラインを守るためには、あらかじめ、計算機の負荷率に余裕をみておかなければなら低い優先度のタスクがデッドラインを守れなくなると、そのタスクが処理すべきイベントは捨てられてしまう。しかし、イベントによってはイベントをキューイングしておき、あとからその処理を実行すれば良いものが多い白そのような場合、計算機が過負荷状態になったとき、全てのタスクが必ずそのデッドラインを守るという戯しい条件を緩める方式を考えた。イベントをキューイングしておき、ある保証された一定時間の後に、キューにあるイベント処理を行なえれば、イベントを取りこぼすことなく、システムは動作を続けることができる。図 2のシステムでの計算機は図 3のような状態遷移を行なうo このように制約を緩めることで、システムのフォーJレトトレラント性が向上し、システム設計の自由度が向上する。以降では、障害が発生した場合に、イベントをキューイングし、障害が回復してから処理のデッドラインが守れるようになるまでの時間の上限値が計算可能であることを示す。

(4)

?中ち

￨定常状態

宇中事

￨負荷上昇状態

や『事

1:過負荷状態

マ空想

￨負荷上昇状態

?中ヲ

￨定常状態 Eコ:計算機時間図

3 :

システムの状態遷移 4 イベントのキューイングによる過負荷処理

4 .

1

イベントのキューイング分散システムにある計算機の陣害により、障害の起きた計算機上で動作していたタスクが他の正常勤作している計算機にマイグレートしてくる。これにより、正常動作している計算機は過負荷状態になるとするo この計算機上では、マイグレートしてきたタスクを含めたタスクの再スケジューリングが行なわれる。その結果、優先度の高いタスクから処理が行なわれ、優先度の低いタスクの処理が行なわれなくなる。そのような、低い優先度のタスクに対するイベントをキューに入れておき、低い優先度のタスクが実行できる時間があれば、順次取りだし、処理を行なう。さらに一定時後には、障害の起こった計算機が復旧し、マイグレートしてきたタスクは再びもとの計算機に戻る。過負荷状態にあった計算畿は、回復処理状態になり、定常状態で行なっていたイベント処理とイベントキューに残っているイベント処理とを行なう白キューに残ったイベント処理が終ると、再びこの計算機は定常状態にもどり、全てのタスクがデッドラインを守れる状態になる(図的。以上のイベント処理では、低優先度のタスクのデッドラインは守れていないが、要求された一定時間の後に擁実に定常状態にもどることができる。

4 .

2

回復処理時間図5に、過負荷状態となる計算機(計算機A) のタイムチャートを示す。時刻tlで、他の計算機(計算機

E

)

に障害が発生し、そこで動作していたタスクの一部が計算機A にマイグレートする。それにより、計算機A は過負荷状態になったとする。時刻t2で、障害の発生した計算犠が処理を再開し、計算機A にマイグレートしてきたタスクは、ふたたび計算機

E

にマイグレートする。時刻t)から時刻t₂の問、計算機Aは過負荷状態にあり、処理すべきイベントはキューに保存される。時刻t2から、もともと計算機Aで動作していたタスクとキューに保存されているイベントとを処理し、キューにある全てのイベント処理が終了する時刻を t3とするo 過負荷H寺問TFと回復処理時間TRをそれぞれ TF

=

t

2 -t

l

TR

=

t3ーらとする。時刻1.}以降のイベント処理時間を、それぞれのデッドライン以内という条件から、最大で TF+TR以内の時間で終了できればよいという条件に、制約を緩めるo

4 .

3

利用率と回復時間過負荷状態の計算機で動作している全てのタスクのうち、デッドラインを守って動作している高優先度のタスクセット

(

T

H

)

に対して式(1) から求めた負荷率を UH、それ以外の、デッドラインを守れない低優先度のタスクセット

(

T

L

)

(5)

h y

ス

D J

・

_H -九日酔制いみ J

守

ス

J_ぜ h タ

ン

い

，

A1 仇ぽ -フ主 c

r E

咽，、

ツ

理

デ

処

n u

悶悶 V れ九 1 ν ' h r -LV グ J h J J A 1 ﹃︿

マタ

-L R E V J

ベ

，

A1

ユ

キザ・ ' h l 勺 J

ベ

，

A_，園田砂

イベント

ーー+

定常状態

過負荷状態

_{回復処理状態}

_定常状態

時

間

図

4 :

剖-算機の負荷状態遷移定常状態 TF TR 定常状態ー同. ー : 時間 t I l2 _t₃ t].タスクセットが入ってくる時刻 t2 .タスクセットが出て行く時刻 t3.タスクセットの影響が終る時刻 TF マイグレートタスクが存在する時間 TR .マイグレートタスクの影響が残る時間図

5 :

時間経過に対して式

(

1 )

から求めた負荷率を ULとすると、である。したがって、時間TFの閥に、 TLのうち未処理となる時間は ULTF

一

(1-UH)TF UH+ULさ 1 である。過負荷時間の聞に、 TLが処理を実行するのに必要とする時聞は ULTF であり、実際にTLが動作できる時間は、

(

1 -

UH)TF となる。定常状態における計算機負荷事をUとすると、回復処理時間の聞に定常状態で行なうべき処理に要する時間は

(1-

U)TR

(6)

であり、その残りの時間にTLに対する、キューにあるイベント処理を行なうとすると

(

1 -

U

)

T

R

=

U

L

T

F

一

(

1 -U

H

)

T

F

となる。したがって、回復処理時間

TR

は

UL+UH-1

TR=h n T F ( 3 ) 1-U となる。これにより、定常状態が壊れてから、次の定常状態に戻るまでの時間

T

s

は

T

s

=

TF+TR

UL+UH-U

=

~ lJ I .，，~

TF

(4) 1-U となるo これで、過負荷時間

T

F

に対する復旧時間

T

s

が求められた。この時間

T

s

の許される範囲は、システムによって異なり、その値に応じたタスク設計をしなければならない。また、時刻tlとらとの聞に処理しきれないイベントの数

N

qは、最大で N rn Nq

=

乞

l

子

J

(

.

5 )

i=N-j+l 曲 I となる。ここで、

N

は時刻tlとらとの聞に動作している全タスク数、 jは、そのうち、デツドラインを守れていない低優先度のタスクの数、

T

i

は優先度の高い順にi番目のタスクの周期であるo ある計算機が時間

T

F

の問、過負荷状態になった場合、最大、時間

T

s

の問、優先度の低いj個のタスクがデッドラインを守れない状態になるが、全てのイベントは処理され、その後は、再び定常状態にもどる。このとき、 Nqのキューを用意すれば、すべてのイベントを取りこぼすことなく処理できる。 5 イベントキューイング方式適用例 5.1

復旧時間の見積もり

いま、表

1

のようなタスクセットが

l

台の計算機で動作しているとする。表 1:定常状態のタスクセットタスク周期処理時間利用率

3

(ms) (ms)

(

%

)

Tl

5

0

1

0

2

0 .

0

T2

1

0

1

0

1

0 .

0

T3

2

0

2

5

1

2 .

5

T4

2

5

0

2

0

8 .

0

TS

3

0

4

0

1

3 .

3

T6

4

0

8

0

2

0 .

0

このタスクセットは 6C1

+

3C2

+

2C3

+

2C4

+

Cs

+

C6 ::;6T1 で、式

(

2 )

を満たしており、スケジューラプルであるo また、この時の計算機利用率は式(1)から

U

=

0 .

8

3

8 (

6 )

である。ここで、表2のタスクセットがこの計算機にマイグレートしてきたとする。この状態で8つのタスクがこの計算機で動作することになるo タスク行

，

TSが動作することで、式(1)をこの 8つのタスクセットに適用すると 1

<

U

となり、この計算機は過負荷状態となるo この8つのタスクに虫ずして再スケジューリングを行ない、優先度の高いタスクから実行が行なわれるo 式

(

2 )

により、最も優先度の低いタスクT6以外のタスクがデツドラインを守る。すなわち、タスク T6より優先度の高いの7つのタスクは、

(7)

デッドラインを守るが、タスク

T

6

はデッドラインを守れない。高優先度タスクセットによる計算機利用率

UH

は式(1)から

UH

=

0.881 であり、低優先度タスク

(

T

6 )

の利用率は式(1) から UL

=

0.20 である。したがって、式

(

3 )

から、

TR

はとなる。ー1TF

ー

一

】ー “ 1 -0.838

=

0.47TF いま、 TFが105の場合、

TR

=

4 .

7

3

Ts

=

14.7s となる。このシステムで、複数の計算機が障害を起こし、このようなタスクマイグレーションが起こったことにより、計算織が105の閥、過負荷状態になると、最も優先度の低いタスクが

1

4 .

7

8

の問、デッドラインを守れない状態となる。ただし、その問もイベントの取りこぼしは発生していない。

5 .

2

むから許容される TFの見積もりあるイベント処理要求に対するタスク処理がデッドラインを守れなくなる許容範囲となる時間Tsはシステムを運用する環境によって異なる。したがって、計算機システムを利用する状況に応じて、 Tsの時聞を満たすようにシステム設計をする必要があるo 式(4)から 1-

u

J.F

=

rr rr J.. UL+UH-U-' となる。いま、 Ts

=

308 という要求に対して、前節のタスク例を用いるとする。この時のTFは l-0.838 TF=

O

ーーーー与今ーー=-::'X 303

=

20.08 となる。たとえば、このシステムで、何らかの状況で計算機がリセット処理や各種診断処理を行なわなければならないとする。さらに、このシステムでは、優先度の低いタスクがデッドラインを守らなくてもよい最大時聞が308とする。その場合、上記計算より、 208以内にリセット処理などの必要な処理が終了できれば、続<105で回復処理が行なわれ、システムは再ぴ定常状態にもどることiJfできる。

6

むすび過負荷状態におけるタスクスケジューリングについて検討を行なったo 過負荷状態になった計算機で処理のできないタスク処理を、過負荷状態が解消した後に行なうことで、イベントを取りこぼすことなくあらかじめ見積もった時間以内でイベント処理を終了させることを示したo これにより、システムのフォールトトレラント性が向上し、システムデザインの指針を与えることができるo また、システム設計の自由度を向上させることもできる。本検討の前提として、マイグレートしたタスクが新たにスケジューリングされることで、デッドラインを守らないタスクになることは考慮されていない。もし、マイグレートしたタスクの優先度が低〈、デツドラインを守れなくなり、マイグレート先でイベントがキューイングされた状態で、計算機が復旧した場合、キューにあるイベント処理が終了するまで、再マイグレートすることを遅らせるか、タスクとともにキューにあるイベントも計算機問で移動しなければならない。これらは、有効なタスクマイグレーションアルゴリズムと組み合わせることで、解決可能であると考・えているo また、 RMAでは、タスクが起動する周期のみによって、そのタスクの優先度が決定するが、

(8)

デッドラインを守られない状態までを考慮した場合、タスクの重要度を反映した優先度にする必要があるo そのためには、タスクの周期を変更するなどの処置が要求される。今後もシステムにとってさらに優れた障害処理を検討する予定である。参考文献 [1] C.L.LIU etal.:“Scheduling Algorithms for Multiprogramming in a Hard-Real-Time Environment" J.ACM

，

VoI20

，

No.l

，

J3on 1973

，

pp.46-61

{

勾

J.P.Lehoczky

，

L.Sh3oand Y.Ding :“The

RateMonotonic Scheduling AIgorithm -Exact Characterization and A verage Case Be -havior" Proceedings of IEEE Real-Time Systerns Symposiu

叫

1989)

[3] Lui Sha et a

1 .

:“Real-Time Scheduling Theol'y alld Ada."IEEE Computer

，

April

，

1990

，

pp.53・62 [4] Lui Sh30 et al. :“Priority Inheritance Pro・ tocols An Approach to Real-Time Syn -chronization" IEEE -Tr3ons. on Comp. 21 April 1988 [5] J.P.Lehoczky et a

1 .

:“Enhanced Aperi -odic Responsiveness in Hard Real-Time Environments" IEEE 8th Real Time Sys -tem Symposium

，

Dec. 1987

[

6 司

]

，

τ

T

、冶‘

'

3

叫

0

.

1

l

恥 Based Task Remappi加ngfor Distributed

Re

al-Time Systems" IEEE Real Time Sys -tem Symposium July 1991

，

pp.2・11

リアルタイム分散システムにおけるスケジュール性の考察

J

5年1

1