本章では、リソースの構成や状態を監視する機能について説明します。
5.1 概要
本製品は、サーバなどの構成と状態をRCコンソールで一元監視できます。これにより、問題発生時に障害が発生したリソースを把握 でき、システムの保守時間を短縮できます。さらに、リソース内の詳細な故障部品などを確認できる管理ソフトウェアを簡単に起動でき ます。
監視には、以下の3種類があります。
・ リソース
ツリーでは、シャーシ、サーバ、LANスイッチ、物理OS、VMホスト、VMゲスト、電力監視デバイス(PDUまたはUPS)、管理製品の 関係や状態が表示されます。
サーバのハードウェアで異常が発生した場合は、影響するゲストOSを簡単に確認できます。
注意
電力監視デバイスは監視対象のリソースではありません。
・ イベント
リソースで発生した障害などのイベントや、障害に伴う予備サーバへの切替え、各種操作の結果などのイベントが表示されます。
・ 進捗状況
リソースに対する操作を行うと、処理状況を示す進捗状況と完了した操作の処理結果が表示されます。
各リソースに対して本製品が監視するレベルは以下のとおりです。
表5.1 各リソースの監視レベル
リソース 状態監視 イベント監視
シャーシ ○ ○
サーバ ○ ○
物理OS ○ ×
VMホスト ○ ×
VMゲスト ○ ×
VM管理製品 ○ ×
LANスイッチ ○ ○
電力監視デバイス × ×
○: サポート
×: 未サポート
リソースの定期更新
本製品のマネージャは、以下のリソースに対して定期的に情報を取得し、関連するリソースの情報を更新します。
表5.2 リソースの定期更新と関連するリソース一覧
定期更新の対象リソース 関連して更新するリソース 情報源
シャーシ シャーシ サーバ管理装置
定期更新の対象リソース 関連して更新するリソース 情報源
サーバ
サーバ 物理OS VMホスト (*1) VMゲスト (*1)
ServerView Agent (*2) サーバ管理装置 サーバ仮想化ソフトウェア
LANスイッチ LANスイッチ LANスイッチ
サーバ管理装置 (*3)
VM管理製品
VM管理製品
VMホスト (*1) VMゲスト (*1)
VM管理製品
*1: VMホストとVMゲストは、VM管理製品を登録していない場合は、サーバの定期更新の際に状態が更新されます。VM管理製品を
登録した場合は、VM管理製品の定期更新の際に、管理下にあるVMホスト、VMゲストの状態が更新されます。
*2: PRIMERGYシリーズ、PRIMERGYパーティションモデルの場合だけ情報源になります。
*3: PRIMERGY BXシリーズのシャーシに搭載したLANスイッチブレードの場合だけ情報源になります。
登録されている管理対象リソースの数に基づいて、すべてのリソースが更新されるまでの間隔が変わります。サーバ10台とLANスイッチ 4台を搭載したシャーシ1台は、約2分で更新されます。同一構成のシャーシ5台では、約10分です。
VM管理製品の監視は他のリソースと独立して動作し、約2分で更新されます。
以下の場合は、定期更新を待たずに情報を取得します。
・ 本製品の機能でリソースを操作し、状態が変化する場合
・ リソースから異常を示すSNMP Trapを受信した場合
本製品の機能を利用せずにリソースを操作した場合は、画面への反映が定期更新の時間だけ遅れることがあります。操作の結果をす ぐに反映したい場合は、リソースを右クリックし、表示されたメニューで[更新]を選択してください。情報の更新に必要な時間は装置に よって異なりますが、最大40秒かかる場合があります。
また、装置やネットワークの負荷を抑えるため、通常は、最後に情報を取得してから7秒間は新たな情報を取得しません。ただし、異常を示す SNMP Trapを受信した場合は、無条件に情報を取得します。リソースを操作した直後にメニューから更新をした際、情報が40秒たって も反映されない場合は、もう一度、メニューから更新を行ってください。
5.2 リソース状態
RCコンソールに表示されるステータスでリソースを監視します。
ステータスに"warning"、"unknown"、"error"、"fatal"状態のサーバの台数が表示されます。
"warning"と"unknown"状態のサーバは警告、"error"と"fatal"状態のサーバは異常の状態として台数が表示されます。
異常または警告の表示をクリックすると、対応する状態のリソースがリソース一覧に表示されます。
リソースツリーとリソース一覧からもリソースの状態を監視できます。異常が発生するとリソースアイコンに状態アイコンがついて表示され ます。
リソースアイコンをダブルクリックすると、リソース詳細が表示され、リソースの情報を確認できます。
ツリーとリソース一覧に表示されるアイコン
表示されるリソースアイコンとそれぞれの意味は、以下のとおりです。
表5.3 リソースアイコン
アイコン 意味
サーバリソース シャーシ サーバ
アイコン 意味 物理OS
VMホスト
VMゲスト
LANスイッチ
電力監視デバイス (*1) PDU (*1)
UPS (*1) 管理製品
*1: 電力監視デバイス(PDUまたはUPS)は、監視対象のリソースではありません。
表示される状態アイコンとそれぞれの状態、意味および対処は、以下のとおりです。
表5.4 状態アイコン
状態アイコン 状態 意味 対処
なし normal 正常 不要
warning 警告
異常が発生しているが、リソースは利用可能 (*1) 必要
unknown 不明
リソースの状態が取得できない (*2、*3) 必要
stop 停止
リソースが停止しているため、利用不可 不要
error 異常
原因は特定されていないが、異常が発生しているため、リソースは利用不可 必要
fatal 故障
リソースで故障が発生しているため、リソースは利用不可 必要
*1: LANスイッチが"warning"になっている場合は、LANスイッチが別の機種に交換されている可能性があります。
そのままLANスイッチを使用する場合は、登録されているLANスイッチを削除し、再登録してください。
*2: VMゲストが"unknown"になっている場合は、VMゲストが動作しているVMホストの動作状況を確認してください。
*3: LANスイッチが"unknown"になっている場合は、LANスイッチの動作状況および管理LANの接続状況を確認してください。
注意
・ その他のPCサーバでは、サーバ管理ソフトウェア(ServerView)からステータスを取得できないため、"normal"、"stop"、また は"unknown"のどれかになり、"warning"、"error"、"fatal"の状態は検出されません。
・ PRIMERGYパーティションモデルの場合、パーティションの電源状態が変化するタイミングで、そのパーティションが属するシャー
シ内のすべてのパーティションが一時的に"unknown"になることがあります。
表5.5 OSアイコン
アイコン 意味
Windows OS Linux OS
アイコン 意味
Solaris OS VMwareのホストOS Hyper-VのホストOS Citrix XenServerのホストOS Linux XenのホストOS
参考
・ サーバ仮想化ソフトウェアの場合は以下のように表示されます。
- VM管理製品
VM管理製品の状態は、"normal"、"unknown"だけ表示されます。"unknown"になっている場合は、VM管理製品の動作状況 を確認してください。
- VMホスト
VMホストの状態は、物理OSと同じように表示されます。
- VMゲスト
VM ゲ ス ト の 状 態 に は サ ー バ 仮 想 化 ソ フ ト ウ ェ ア の 検 知 し た 異 常 が 反 映 さ れ ま す。"normal"、"warning"、"error"、"unknown"、"stop"が表示されます。
詳細については、「ServerView Resource Coordinator VE 導入ガイド」の「A.3 利用する製品別の機能」を参照してください。
・ LANスイッチの場合は"error"、"fatal"は表示されません。"warning"、"normal"、"unknown"だけが表示されます。
5.3 リソース障害の対処
ここでは、ハードウェアの故障など、システムで問題が発生した場合に必要な作業について説明します。
基本的な操作手順
以下の手順で、RCコンソールから問題の確認と復旧作業を行います。
1. 問題発生の確認
RCコンソールで、リソースに問題が発生したことを確認します。
確認方法については、「5.2 リソース状態」と「ServerView Resource Coordinator VE 導入ガイド」の「2.3 ステータス」を参照してく ださい。
2. イベントログの確認
イベントログから、異常が発生している装置とイベント内容を確認します。
1つの異常で複数のイベントが連続して発生する場合があるため、日時の近い過去のイベントを確認してください。
3. リソースの状態確認
リソースツリーで問題の発生しているリソースを展開して、影響の発生しているシャーシ、物理サーバ、LANスイッチ、物理OS、VM ホスト、VMゲストを確認します。
物理OSまたはVMホストに対して自動リカバリを行う設定にしていた場合、自動的に予備サーバに切り替えて起動が行われま す。自動リカバリを行う設定にしていなかった場合でも、予備サーバの設定を行っている場合は、手動でサーバの切替えができ ます。
サーバを切り替える方法については、「10.2 切替え」を参照してください。
4. 詳細調査と復旧
異常の発生したリソースのリソース詳細から、管理ソフトウェアを操作して、詳細な原因を調査します。
管理ソフトウェアがない場合、異常の発生したリソースの保守担当者に確認して詳細な原因を調査してください。
そのあと、特定できた故障発生ハードウェアに対する保守作業を行ってください。
ハードウェアの故障で管理対象サーバの交換を行う場合は、「9.4 サーバの交換」を参照し、作業を行ってください。
5. 復旧後の確認
復旧後、RCコンソールを確認し、異常を示す表示が消えているか確認してください。