4. 障害の回復
4.26 ファイルスナップショットの処理で発生したタイムアウトを回復する
4.1 GUI の操作ミスを確認して操作し直す
File Services ManagerのGUIでの設定ミスや操作ミスなど,File Services ManagerのGUIでの 操作に起因する障害が発生した場合,リフレッシュ処理を実行して管理サーバ上のデータベースを 更新したあと,メッセージの指示に従って,操作し直してください。
リフレッシュ処理については,「ユーザーズガイド」を参照してください。
4.2 コマンドの操作ミスを確認して操作し直す
コマンドの入力ミスが要因の場合は,標準エラー出力に表示されたメッセージの指示に従って,操 作し直してください。
4.3 管理サーバの認証パスワードを登録し直す
Processing NodeまたはPhysical Nodeの稼働状態として「Credential error」と表示された場合,
GUIで登録した管理サーバの認証パスワードと,実際にノードに設定されている認証パスワードが 不一致になっています。[ノード編集]ダイアログで,ノードに設定した管理サーバの認証パスワー ドを登録し直してください。
4.4 システムメッセージを確認して障害を回復する
システムメッセージが出力されている場合,システムメッセージのメッセージIDで障害が発生し たプログラムを特定し,メッセージテキストで障害の要因を特定します。
システムメッセージごとの対処方法については,「メッセージリファレンス」を参照してください。
該当するメッセージをメッセージIDから検索し,障害を回復するための対処を確認できます。
メッセージの出力元のプログラムとメッセージIDの関係については,「2.2 ノード上のシステム メッセージを確認する 」を参照してください。
4.5 クラスタおよびノードのエラー情報を確認して障害を 回復する
システム管理者は[Cluster Management]ダイアログの[Browse Cluster Status]ページでクラ スタ・ノードのエラー状態を確認し,保守員と連携を取って,障害を回復します。
4.5.1 クラスタおよびノードのエラー情報の確認と回復方法の特定
システム管理者は,フェールオーバー機能に発生した障害を特定するために,[Browse Cluster Status]ページで確認したクラスタ・ノードの状態に対応する回復方法を「表 4-1 [Browse Cluster Status]ページ([Cluster / Node status]表示)で表示されるクラスタ状態に対応した障害の回復 方法」から「表 4-2 [Browse Cluster Status(Cluster / Node Status)]ページで表示されるノー ド状態に対応した障害の回復方法」で確認します。また,保守員からの指示を確認して,該当する 回復方法をこれらの表で特定します。
クラスタの状態を確認する場合は,[Browse Cluster Status]ページ([Cluster / Node status]表 示)の[Cluster status]を確認します。表示されるクラスタ状態に対応した障害の回復方法につい て次の表に示します。
表 4-1 [Browse Cluster Status]ページ([Cluster / Node status]表示)で表示されるクラスタ 状態に対応した障害の回復方法
クラスタ状態 回復方法
回復操作 参照先
ACTIVE 正常稼働中のため回復の必要なし。 なし
INACTIVE 停止しているクラスタを起動する。 なし
UNKNOWN※ OSの起動時に発生した障害を回復する。
両方のノードを停止して障害を回復する。
両方のノードを停止してプログラムをリプレースする。
4.5.2
クラスタを構成する両方のノードのOSを再起動する。 4.5.3 フェールオーバーによる縮退運用中であるが,クラスタを構成する両方の
ノードのOSを再起動する。
4.5.3
DISABLE 保守員に連絡する。 なし
注※:ノードの停止,またはノードの強制停止を行ったあと,停止したPhysical Node(ノード)
で[Browse Cluster Status]ページ([Cluster / Node status]表示)を表示すると,クラスタお よびもう一方のノードの状態として「UNKNOWN」が表示されます。この状態では,クラスタお よびもう一方のノードの状態は確認できません。クラスタともう一方のノードの状態は,稼働中の Physical Node(もう一方のノード)で[Browse Cluster Status]ページ([Cluster / Node status]表示)を表示して確認してください。
クラスタ起動時にも「UNKNOWN」が表示されます。なお,クラスタ起動時には,クラスタを構 成するノード上のすべてのOSの起動が完了するまで(最大で10分程度),「UNKNOWN」が表示 されます。
ノードの状態を確認する場合は,[Browse Cluster Status]ページ([Cluster / Node status]表 示)の[Node status]を確認します。表示されるノード状態に対応した障害の回復方法について次 の表に示します。
表 4-2 [Browse Cluster Status(Cluster / Node Status)]ページで表示されるノード状態に対応 した障害の回復方法
ノード状態 回復方法
回復操作 参照先
UP 正常稼働中のため回復の必要なし。 なし
INACTIVE 停止しているノードを起動する。 なし
DOWN フェールオーバーによる縮退運用を継続しながら,障害が発生したノードの OSを再起動する。
4.5.5
フェールオーバーによる縮退運用を継続しながら,サービスを停止しないで プログラムをリプレースする。
4.5.6
両方のノードを停止してプログラムをリプレースする。 4.5.7
UNKNOWN※ 両方のノードを停止して障害を回復する。 4.5.7
フェールオーバーによる縮退運用を継続しながら,障害が発生したノードを 停止して回復する。
4.5.4
フェールオーバーによる縮退運用を継続しながら,障害が発生したノードの OSを再起動する。
4.5.5
OSの起動時に両方のノードで発生したハードウェアまたはソフトウェア障 害を回復する。
両方のノードを停止してプログラムをリプレースする。
4.5.7
OSの起動時にどちらかのノードで発生したハードウェアまたはソフトウェ ア障害を回復する。
4.5.8
ノード状態 回復方法
回復操作 参照先
クラスタを構成する両方のノードのOSを再起動する。 4.5.9
注※:クラスタ起動時にも「UNKNOWN」が表示されます。なお,クラスタ起動時には,クラス タを構成するノード上のすべてのOSの起動が完了するまで(最大で10分程度),「UNKNOWN」
が表示されます。
それぞれの障害に対応した回復方法を次に説明します。
4.5.2 回復方法 1
1. クラスタを強制停止します。
2. クラスタを構成する両方のノードのOSを再起動するよう保守員に依頼します。
障害の回復方法について保守員に相談してから,OSの再起動を依頼してください。保守員は,
保守作業を完了してからOSを起動します。
3. クラスタを起動します。
4.5.3 回復方法 2
1. クラスタを強制停止します。
2. クラスタを構成する両方のノードのOSを再起動します。
3. クラスタを起動します。
4.5.4 回復方法 3
1. 保守作業が完了したノードのOSを起動するよう保守員に依頼します。
障害の回復方法について保守員に相談してから,OSの起動を依頼してください。保守員は,保 守作業を完了してからOSを起動します。
2. リソースグループを元のノードにフェールバックします。
4.5.5 回復方法 4
1. 障害が発生したノードのOSを再起動します。
2. リソースグループを元のノードにフェールバックします。
4.5.6 回復方法 5
1. 保守作業が完了したノードのOSを起動するよう保守員に依頼します。
障害の回復方法について保守員に相談してから,OSの起動を依頼してください。保守員は,保 守作業を完了してからOSを起動します。
2. 両方のリソースグループの実行ノードを変更します。
3. クラスタ内の別のノードのOSを再起動するよう保守員に依頼します。
障害の回復方法について保守員に相談してから,OSの再起動を依頼してください。保守員は,
保守作業を完了してからOSを起動します。
4. リソースグループを元のノードにフェールバックします。
4.5.7 回復方法 6
1. クラスタを強制停止します。
2. 両方のノードのOSを再起動します。
3. クラスタを起動します。
4.5.8 回復方法 7
1. 障害が発生したノードを強制停止します。
2. 障害が発生したノードのOSを再起動するよう保守員に依頼します。
障害の回復方法について保守員に相談してから,OSの再起動を依頼してください。保守員は,
保守作業を完了してからOSを起動します。
3. 保守作業が完了したノードを起動します。
4. リソースグループを元のノードにフェールバックします。
4.5.9 回復方法 8
1. クラスタを強制停止します。
2. 稼働しているノードのOSをシャットダウンします。
3. クラスタを構成する両方のノードのOSを起動します。
ノード本体の電源を入れます。
4. クラスタの状態が「INACTIVE」の場合にクラスタを起動します。
4.6 リソースグループまたは Virtual Server のエラー情報 を確認して障害を回復する
システム管理者は[Cluster Management]ダイアログの[Browse Cluster Status]ページでリ ソースグループのエラー状態を確認し,[<Virtual Server>]サブウィンドウでVirtual Server のエラー状態を確認し,保守員と連携を取って,障害を回復します。
4.6.1 リソースグループまたは Virtual Server のエラー情報の確認と回復方 法の特定
システム管理者は,フェールオーバー機能に発生した障害を特定するために,[Browse Cluster Status]ページで確認したリソースグループの状態,または[<Virtual Server>]サブウィンド ウで確認したVirtual Serverの状態に対応する回復方法を「表 4-3 [Browse Cluster Status]ペー
ジ([Resource group status]表示)で表示されるリソースグループ状態に対応した障害の回復方
法」から「表 4-6 [<Virtual Server>]サブウィンドウに表示されるVirtual Serverのエラー情 報に対応した障害の回復方法」で確認します。また,保守員からの指示を確認して,該当する回復 方法をこれらの表で特定します。
リソースグループの状態を確認する場合は,[Browse Cluster Status]ページ([Resource group status]表示)の[Resource group status]を確認します。リソースグループの状態とエラー情報 は,次のとおり表示されます。
<リソースグループ状態>/<エラー情報>
表示されるリソースグループ状態に対応した障害の回復方法について次の表に示します。