2. HA Toolkit Ex の起動 3. クラスタソフトの起動
2.7 障害検知時の動作と運用(ホットスタンバ イ構成)
2.7.3 障害時のサーバ再起動
サーバの障害を検知した場合,HA Toolkit Exは系切り替えまたはサーバの再起動をしま す。ここでは,障害時のサーバ再起動について説明します。
サーバの再起動では,サーバの障害を検知すると,HA Toolkit Exは,サーバの障害が発 生した系でサーバが自動で再起動するのを待ちます。サーバが再起動するまでの状態を サーバの再起動待ち状態と呼びます。HA Toolkit Exは,障害が発生した実行サーバを再 起動待ち状態にして,サーバが自動で再起動するのを待ちます。サーバの再起動が失敗 した場合は,サーバ自身が再起動を繰り返し試行します。
サーバで定義されているサーバの再起動試行回数を超えると,HA Toolkit Exは,環境設 定での定義に従って次のどちらかを実行します。
● 系切り替え
HA Toolkit Ex
は,実行サーバを停止して,クラスタソフトに障害通知をします。系切り替えの場合,環境設定でサーバの再起動監視時間を指定できます。サーバの再起 動監視時間を指定すると,実行サーバが再起動するまでの時間を監視できます。
● オペレーターの操作待ち
HA Toolkit Ex
は,実行サーバを停止して,オペレーターの操作を待ちます。クラスタソフトに障害通知をしないので,系切り替えは実施されません。そのため,オペ レーターが手動で系切り替えをしてください。手動で系切り替えをする方法を次に示 します。
•
MC/ServiceGuard
の場合,MC/ServiceGuardのコマンドを使用して実行系のパッ ケージを停止し,待機系でパッケージを起動してください。•
VCS
の場合,VCSの切り替え操作(コマンドの場合,hagrp -switch)を使用して,サービスグループを任意の系に系切り替えをしてください。
•
MSCS
の場合,オフライン操作または移動操作でグループの系切り替えをしてくだ さい。オペレーターの操作待ちの場合,サーバのスローダウンを検知しても,HA Toolkit Ex は何もしないでサーバの監視を続けます。また,環境設定でサーバの再起動監視時間 を指定できません。
障害時のサーバ再起動の流れを次に示します。
図
2-10 障害時のサーバ再起動の流れ(HA Toolkit Ex)
1.
障害発生実行サーバで障害が発生します。
2.
再起動を試行サーバが再起動を試行します。
3.
再起動に失敗サーバが再起動に失敗した場合,定義されている再起動試行回数まで,サーバの再起 動を繰り返します。
4.
サーバの停止再起動試行回数を超えた場合,HA Toolkit Exの監視プロセスがサーバを停止します。
サーバを停止したあとの動作は,環境設定での定義によって異なります。
系切り替えの場合
HA Toolkit Ex
がクラスタソフトに障害通知をして,クラスタソフトが系切り替えをします。
オペレーターの操作待ちの場合
オペレーターが系切り替えをします。