分散システムにおける強い障害モデルの考察

(1)

「マルチメディア通信と分散処理ワークショップ

J

平成5年11

月

分散システムにおける

強い障害モデルの考察

藤藤正史

三菱電機株式会社

情報システム研究所

marcy@ecs

i

.

sl.melco.co.jp 制御システムや情報処理の基幹系システムを代表として、コンビュータシステムの停止が社会に重大な影響を及ぼすようになってきている。本稿では、強い障害モデルとして、 Anticipated障害モデルを提案し、停電、リアルタイムプロセス、冗長構成のプロセッサでのモデルの適用例について説明する。 A-障害モデルが適用可能な場合には、簡単な障害回復処置を行なえば良く、リアルタイム性、連続運転性が重要となる制御システムなどでは、有効なモデルである。

1 はじめに

コンピュータシステムの発展と利用形態の多様化により、システム自体が停止することが社会に大きな影響を及ぼすようになってきている。例えば、発電所の制御システムの停止や暴走はその企業に多大なる損害をもたらすだけでなく、近隣地域の住居環境に重大な障害をもたらしたり、人命を損なう可能性をも含むことになる。制御システムでは、このようなコンピュータの停止による破滅的な事態を避けるためにさまざまな手段がとられている。たとえば、 watchdogタイ・マのあふれを検出することで、そのコンビュータの停止を検知し、その処理をパックアップするというシステムが構築されてきている。また、特別なハードウェアなしでも複数のコンピュータータ問でKeep-AIive メッセージを交換することにより、自分の状態を他のコンピュータに通知し、他のコンピュータでの障害の発見を可能とするような構成をとり、障害発見とそれに対する処置を行なってきた。一方、耐障害性の研究も進み、障害モデルの強さによる階層化や [1]、そのうちのいくつかの障害モデルに耐えるアルゴリズム

[

2 ]

，

[

3 ]

，

[

4 ]

、これらのアルゴリズムを用いたシステム [5]が発表されてきている。障害モデ Jレの研究においては、 Fail -Stop障害モデル、クラッシュ障害モデ A Study of a Strong Failure Model for Distributed Systems Masashi SAITO Mitsubishi Electric Corporation， Computer and Infonnation SystemsLaboratory

(2)

Jレ、 Omission障害モデル、ピザンチン障害モデルなどが提案されており、それぞれの障害モデルにおいて使用可能な合意アルゴリズム [6]，[7]，[8]も提案されてきている。ところが、実際の制御システムでは、障害に対する仮定をすることができない。つまり、どのような障害も起こる可能性があるため、それらの障害に対処しなければならない。一方、障害に対する仮定が弱ければ弱いほど、それに対処するためのアルゴリズムは複雑となってしまう。その結呆、弱い仮定の隙害に対するアルゴリズムの実装の正当性の検証が大変となるだけでなく、実時間性が必要となる制御システムではアルゴリズムの複雑さゆえに適用できない場合が多かった。そのため、現状の制御システムでは、何らかの形で人間が介在し、障害に対処することが多かった。 Fail-Stop障害モデルやクラッシュ障害モデルだけを仮定した場合には、比較的簡単なアルゴリズムを用いることで対処可能であることが知られている [3]， [4]0例えば、 Fail-Stop障害を仮定したシステムにおける排他制御のアルゴリズムでは、危険領域に入る前の検査ループにおいて、現在危険領域に入っているプロセスの状態を調べることにより、危険領域に入っているプロセスの障害による他のプロセスの飢餓を防ぐことができる。このように、強い仮定の障害であればあるほど、それに対する対処方法は簡便となる。つまり、ある装置などの付加により、強い障害モデルを提供することが可能であるならば、障害時の対処が簡単になり、さまざまなシステムで使用できる可能性がでてくる。本稿では、この強い障害モデルとして、 Anticipated障害モデル(以下、 A-陣筈モデJレと略す)を提案する。また、 A・障害モデルが実際に適用可能な実際の障害として、停電、リアルタイムプロセスにおけるデツドラインの未保証、冗長構成プロセッサの障害をとりあげて説明する。 A-障害モデルが適用可能な場合には、非常に簡単な障害回復処置を行なえば良く、リアルタイム性、連続運転性が重要となる制御システムにおいて、扱いやすい障害モデJレを提供しているo

2 停電事象

2 .

1 .

停電の確率

停電という障害は、コンピュータを動作させるための電源の供給が停止し、コンピュータの継続的な処理を阻害するものである。停電の要因は、気象条件や発電所や変電所の障害などによるのであるが、コンピュータから見た場合にはこの原因は本質的ではない。日本における停電の度合は、頻度が多い地域で一年で 30 回以下(全国平均では

1

5

回以下)、その

90%

が

0

.4秒以下の電源断である

[

9 ]

0

これらの短い電源断は瞬停と呼ばれ、送電線への落雷による電力系統の異常を保護リレーによって切り離し、別系統へ接続する場合に発生することが多い。しかし、このような短い期間の停電であってもコンピュータが停止することとなるo したがって、停電に対処するための第一の方策は、瞬停をマスクすることである。以下では、ある短い時間、例えば 1秒 1以下の停電を瞬停として扱う。この遷移は図1.のようにモデル化することができる。ここで、矢印上の記 1.1秒という固定値は、特別の意味を持たない。ここでは、 0.4秒以上のある時間を仮定している。

(3)

号は、確率をあらわしているo 図1.瞬停時の状態遷移停電の多頻度地域においても停電回数が30回程度ということは、図1.の瞬停状態への遷移の確率σ は非常に小さいといえる。また、先に述べたように、瞬停が起きた後にすぐに回復する確率は 90% と見積もることが可能であるので、図1.のpは 0.9であると考えて良

2 .

UPS

による停電の対処

UPS(Uninterruptible Power Supply)は、内部にバッテリを保持し、停電が発生したさいに、障害内容の通知、障害のマスクなどの動作を行なうものである。したがって、 UPS を用いると、停電の 90% に及ぶ、瞬停をマスクすることが可能となる。

[

9 ]

の統計によれば、停電には瞬停だけでなく、より長時間の電源断が起こる可能性も示しているo つまり、 1秒以上の停電の場合に対しでも、何らかの対処を

4

子なう必要治Tあるo しかし、 UPSが保持しているバッテリの容量も無限ではなく、上限が存在する。したがって、 UPSを用いたとしても、長時間停電の場合にはいつかは停電が起こることを意味しているo この状況は、図 2. のようにモデル化することができる。図2.中のpは図1.のものと同じである。ここで、比較的長い一定時間(例えば 5分)の停電継続を検知した場合に、図

2 .

停電の状態遷移その後の一定時間(例えば15分)以内に停電から回復する確率(1 -l)は、 pに比して非常に小さい。これは、 sの分散は、統計的な傾向がなく、停電のケースに大きく依存していることによるo したがって、比較的大きな確率 tで長時間停電となる。長時間停電の場合には、 UPSで提供できるバッテリを使い果たし、システム停止に追いやられることになる。したがって、一定時間停電検知した場合には、長時間停電になると考えて良い。

3 A

ー障害モデル

3 .

1 .

停電と

A-

障害モデル

図 2. の一定時間停電検知状態において、確率 tで未来の状態を予言しているといえる。このように、『近い将来、ある確率でプロセスが障害を起こすj状態を障害として扱い、 A-障害と呼ぶ。 A-障害が起こった場合には、自分の障害を、自発的な通知により伝達することができる。したがって、停電の場合には、一定時間停電検知の状態において、自ら終了処理を開始し、自分の状態を他のプロセス(コンピュータ)に通知する。この通知を受けとったプロセスは、障害を起こしたプロセスの近未来の状態に応じて、処置を行なうことができる。

(4)

A-障害モデルを障害の階層に当てはめてみると、 A-障害モデルは、非常に強い仮定を伴うモデルである。 Fail-Stop障害モデルは、あるプロセス P において障害が起きた場合に、他のプロセスの項 Failed(P) がその瞬間に真となっているものである。この実現は非常に難しく、いくつかのシステムでは、ある上限時間内に、 Failed(P)が真となるとして、実現している [5]0これと同様のことが、 A-障害モデルでも実現できる。 Fail-Stop障害モデルでは、障害が起こったことは他のプロセスに通知されるが、そのプロセスのどこで隊害が起こったかについては知らされない。したがって、 Fail-Stop を起こしたプロセスが一貫性のある状態であるかどうかについては、何もわからない。 A-障害モデルでは、障害が起こった時点でも、一定時間継続的な処理が可能であるので、自分が障害を起こすであろう場所やその時のプロセスの状態を通知することも可能である。したがって、以下に示すような処置を行なうことにより、システム全体としては、継続的な処理が可能となる。 (1) A・障害を起こしたプロセスは、処理中のイベントを完了させ、自プロセスの状態を一貫した状態とし、処理を中止、又は停止する。 (2) A-障害の通知を受けたプロセスは、障害後に処理を請け負うプロセスを起動し、その後のイベント処理を継続的に行なう。本稿では、プロセスが A・障害を起こしたとしても、そのプロセスは、ある一定時間動作可能であると仮定している。したがって、 A・障害は、以下の二つの性質を満たしたものであるo (i)近い将来、ある確率でプロセスが陣筈を起こす。 (ii)障害検知後、一定時間正常動作することカfできる。つまり、 UPSを用いた停電事象の緩和は、 A-陣害モデルに当てはまる。

3 .

2 .

実時間性と

A

・障害モデル

A-障害モデルは、停電だけでなく他の場面でも適用可能である。まず、リアルタイムシステムにおける例を説明する。ここでのリアルタイムシステムは、時間制約を持つプロセスの集合により構成される。ここで、あるプロセス Pに注目し、 Pのデッドラインがデータが生成されてから

s

であったとし、平常の処理においては、プロセス P は

0 .

5

d以内で処理が完了していたとする。ある時にプロセス P の処理時間がデータ生成の時聞から

0 .

9

dかかるようになってきたとしよう。これは、プロセス P が他の高い優先度を持つプロセスにより処理が遅らされたことを意味しており、この状態が長く続いた場合には、プロセス P がデッドラインを満たせなくなってしまう確率は高いと考えられる。この時に、プロセス P は自分自身が A・障害を起こしたと他のプロセス(コンピュータ)に通知することで、.プロセス P の処理を他の場所に移送 (migrate) することで対処することが可能となる。ここで、プロセス P は先に示した A-障害の第2の性質により、一貫した状態で処理を停止するとが可能となる。

(5)

3 .

冗長プロセッサと

A-

障害モデル

冗長構成したプロセッサにおいても A・障害モデルとして扱うことが可能である。ここでは、 3つのプロセッサで各命令を同期させながら実行し、それらの実行結果を多数決回路により決定するプロセッサを取り上げる。これらの冗長プロセッサが正常に動作していれば、すべての実行結果が同一であるが、あるプロセッサが障害をおこした場合には、二対ーの多数決により結果を選択することになる。もともと冗長構成をしているプロセッサであるため、障害を起こしたプロセッサを切り離すことにより処理を継続することができるが、残ったこつのプロセッサが異なる結果を出した、つまりもう一つのプロセッサも障害を起こす可能性が残されているため、早い時期にこのプロセッサを交換しなければ、今後の処理が正当であるということが保証できない。この場合にも、実際に問題となる障害は、未来に起こることを示しているo また、障害を起こしていないプロセッサは正常動作できるD したがって、プロセッサとしての状態が一貫した時、例えばすべてのプロセスを他のコンピュータに移送し、オペレーティングシステムが停止した後に修理を待つことができる。この場合には、実際に、いつ二番目の障害が起こるかの確率は、最初に障害を起こしたプロセッサと同ーであるので、停電の時のように障害が起こる確率が増加するわけではない。しかし、制御システムなどの応用では、速続運転性が非常に重要な要素となるため、一つのプロセッサの障害を全体の障害の前兆ととらえるのは適切な処置と言える。

4 A

・障害モデルと障害の対処

4 .

1 .

障害の通知と発見

A-障害モデルでの障害の通知と発見についてクラッシュ障害モデルと比較する。クラッシュ障害モデルは、ある時点であるプロセスカまクラッシュし、その後; の入力に対する処理が行なえないだけでなく、出力も行なえない状態を示す。クラッシュ障害はある瞬間に起こるために、クラッシュ障害を起こしたプロセスは、自分のクラッシュ状態を他のプロセスに通知することができない。クラッシュ障害を発見する手法としては、以下に示す実装が行なわれることが多い。 (1) Watchdogタイマ: あるプロセスが定期的にWatchdog タイマをクリアする。 Watchdogタイマがあふれた場合には、特別な割り込みが上がるとともに、外部にその割り込みが伝達される。 (2) Keep-Aliveメッセージ: プロセスは協調処理を行なっているイ也のプロセスと Keep-Aliveメッセージを送り合い、その存在を確認する。あるプロセスからのメッセージが一定時間以内に受けとれない場合には、そのプロセスはクラッシュ障害を起こしたものとして扱う。 Watchdogタイマによる実装は、実際に陣害を起こしたプロセス(プロセッサ) からの通知が自発的に行なわれ、そのプロセスが障害を起こしたことは確信できる。しかし、 Watchdogタイマがあふれるまでの遅延が必要である。 Keep-Alive による実装の場合には、実際に障害が起きたかどうかの判定は、外音ISからの観測にもとづいている。した

(6)

がって、実際にはそのプロセスは障害を起こしていない場合にも、障害として取り扱ってしまう。ところが、協調処理を行なっている複数のプロセスをグループとしてまとめ、障害を起こしたとみなしたプロセスをそのグループから除外することにより、以降の処理は正当性を満たすことができる [10]0 この場合にも、定期的なメッセージ交換のための間隔の遅延が必要となる。 A-障害の場合には、これらの手法を用いる必要がない。 A- 障害を検知し、そのプロセスの状態を一貫したものとしたの後に、他のプロセスに自分の障害を伝達することができるため、他のプロセスが障害発見にかかる時間はメッセージ伝達時間と等しい。これは、 Unixのシャットダウンメッセージが、他のコンピュータに通知されることと似ている。つまり、 A-障害の場合には正常にコンピュータが停止したものとして扱うことが可能である。また、制御システムのようのリアルタイム性が必要なシステムでは、障害発見の遅延時間が致命的な事態となることがある。センサのデータが1秒毎に生成されている時に、そのデータを処理しているプロセスの障害が1秒以内に発見できない場合には、いくつかのデータを張失してしまう。したがって、リアルタイム性が必要となるシステムにおいては、障害発見にかかる時間の上限値が規定されていなければならない。 A-障害が起きた場合には、障害の通知のためにかかる時間はメッセージ転送の遅延だけとなるので、制御システムにおいては非常に現実的な解決方法を提供している。

4 .

2 .

プロセス状態の遷移

障害モデルの満たす性質として、 A-障害を起こしたプロセスは、ある一定時間正常勤作可能であるとしている。ここでは、多くのプロセスが実行するであろう対処方法として、 A-障害が起きた時に、自分を一貫した状態に遷移させ、その後に停止するという対処を取り上げる。プロセスの状態が一貫した状態、であるかどうかは、アプリケーションプログラムにより異なる。例えば、トランザクションシステムは、トランザクションに囲まれた途中状態は一貫した状態でなく、その初期状態、もしくは終了状態が一貫した状態である。したがって、以下のような処理が考えられる。二層で構成されるトランザクションの第一層でA-障害が起きた場合には、そのトランザクションのアボート処理を行ない、第二層で起きた場合には、継続することとする。これは、トランザクションの第二層は第一層に比較して、非常に短い時間で処理されるという仮定にもとづいている [11]0 プロセスがトランザクションの列として構成されていない場合には、より複雑な処理が必要となる。例えば、図

3 .

のプログラムの Unixでの実行では、アプリケーションプログラムそのものが自分で一貫性のある状態を示す必要がある。図

3 .

の例では、

u

p

d

a

t

e

_

d

a

t

a

手続きの中の (3)の命令が終了した時点?をアプリケーションが意図したデータが一貫した状態で 7ァイルとして書き込まれたζとになるo しかし、 (2)の時点では、アプリケーションプログラムの意味づけから

(7)

は、一貫のある状態であるとはいえないのが普通であるo このような意味づけはアプリケーションの意図するデータ構造とそれへの操作の組合せによりなされるものであるo upda胞:_data(臼，index，COnlent) 泊tfd; 加1index; char申contenl; write(fd， &index， sizeof(int)); ー・(1) --(2) write(fd， con胞nt，strlen(content)); …(3) 図

3 .

アプリケーションプログラム例さらに、この書き込みが Unixのディスク上のファイルシステムに対するものであるならば、ファイルシステムのキャッシュの機構により、書き込まれたデータは、同期的にディスク上に書き込まれることを保証していない。つまり、その状態がオペレーティングシステム内部に蓄えられたことになる。その意味で、図

3 .

のプログラムでは、 (3)が終了した時点で、且つ Unixがディスクキャッシュを書き込んだ時点で一貫した状態となる oUnix においては、

f

s

y

n

c

O

システムコールを発行することでディスクキャッシュをクリアできるが、毎回行なうことは、性能的にも好ましくない。システムにおける障害として、 A-障害モデルを仮定した場合には、プロセスが障害を検知した時に、図 3. の(1)や (2)の状態、もしくはそれ以前だった場合には、一貫した状態まで選移した後に、他のプロセスに自分の A・障害を通知することができるo プロセスの移送が不可能な場合でも、障害を起こしたプロセスが処理の引き継ぎに必要な情報を、障害を起こしたプロセス自身により保存可能であるために、切れ目のない実行が可能となるo プロセス制御のアプリケーションは、多くの場合、センサからのデータを受けた時に、その処理を行なうプロセスが起動され、一連の処理を行なった後にそのプロセスは終了するo この処理は、性能上の観点からプロセスをデータ入力のたびに起動するのではなく、

d

a

e

m

o

n

プロセスのように、入力を待ちと処理のループで実装される場合が多い。この場合には、プロセスそのものは継続的に実行され続けているが、処理の論理的な単位としては別のものである。 A-陣害が起こった場合には、ループの入力待ちの前に、障害の確認を行ない、 A- 障害が起こっていた場合には、そこで他のプロセスに通知し、自分は実行を停止すれば、一貫した状態を保証できる o また、データ生成の間隔が短く、他のプロセス(コンピュータ)が次のデータ処理を行なうための準備ができない場合にも、他のプロセスと同期をとることにより、切れ目ない連続処理が可能となる。 l.fsyncなどの動作が必要な場合には、この時にあわせて行なう。

(8)

5 おわりに

本稿では、障害モデルとして非常に強い仮定を持つ A-障害モデルを提案し、 A-障害モデルが、いくつかの場面で適用可能であることを示した。 A-障害モデルは、近い将来、ある確率でプロセスが障害を起こすことを意味し、かっ、障害を起こしたプロセスが、一定時間正常動作することが可能な障害を示しているo A-障害が起こった場合には、障害を起こしたプロセスが自発的に障害処理を行なうことが可能であるだけでなく、他のプロセスにおける障害発見が高速に行なえるo また、障害を起こしたプロセスが、一貫した状態で停止することが可能である。一般に、システムで発生する障害は、 A-障害のように強い仮定にもとづくものではなく、クラッシュ障害や、オミッション障害、ピザンチン障害などが起こるo ところが九これらの障筈のうちのいくつかは、

UPS

のような特別なハードウェアやプログラムの追加により、より強い仮定を持つ障害として扱うことが可能となるo 今後は、種々の障害を A-障害として扱うために必要となる装置やプロセスの状態の検討を行なうだけでなく、継続処理を可能とするために、 A-障害が起きた場合のプロセスの移送方式、そこでリアルタイム性を保証するための移送先の決定アルゴリズムとそこでのスケジュール方式について検討を進めていく予定であるo [参考文献] [1] Hadzi1acos， V.組.dToueg， S.: Faulto・Tolerant BroadcasLS and Related Problems， DisLributed Systems， Mullender， S. (edふsecondedition， Addison-wesley (1993). [2] Budhiraja，N.， Marzullo， K.: Tradeoffs in imple -menting prim訂y-backupprotocols， Dep首位nent of Computer Science， Comell University， Techni -cal Report TR 92・1307(1992). [3] Schlichting， R.D. and Schneider， F.B.: Fail-Sωp Processors: an Approach 10 Designing Faull-Tol -eranl Computing Systems， ACM Transactions on Computer Systems， 1(3)，222-238(1983). [4] Schneider， F.B.: Implementing fault-LOlerant ser -vices using lhe state machine approach: A tuLO・ rial， ACM Computing Serveys， 22 (1990). 同 Binnan，K.P.:The pr

∞

ess group approach to reli・ able distrlbuted computing， Department of Com-puter Science， Comell Universicy， TR93・1216 (1993).

[6] Pea民，M.，shostak，R. and Lamport，L.:Reaching Agreement in the Presence of Faults， Joumal of 由eACM， 27(2)， 228・234(1980).

ロ

]

Perry，K.J.and Toueg， S.: Distributed agreement in由epresence of processor and communication fauI岱，IEEE Transactions on Soflware Engineer -ing，SE・12(3)，477-482(1986). [8] Toueg， S.， Peπy， K.J.and Srikanth， T.K.: FaSl Distributed Agreement Siam Journal on Comput-ing， 16(3)，445-457 (1987). [9]瞬時電圧低下対策専門委員会:瞬時電圧低下対策，電気共同研究，Vol.46， No.3 (1990). [10] Ricciardi， A.and Birman， K.: Using Process Groups 10 Implement Failure Detection in Asyn-chrounous Environments， Proceedings of山e Tenth ACM Annual Symposium on Principles of Distributed Computing. Ladner， R.， ed.， ACM Press.341・351(1991)~

[11] Coulouris， G.F. and D01limore J.: DisLributed Systems -Concepts and Design A，- ddison-wes -ley(1988).

分散システムにおける強い障害モデルの考察

J

月