CLUSTERPRO MC (HAシリーズ)のご紹介
2013/4/1
本資料について
※本資料に記載されている内容はNEC製サーバExpress5800シリーズ(以降、
NEC製サーバ)でのご利用を前提としています。
他社機への導入を検討されている場合、本資料末尾に記載されている
お問い合わせ先までご相談ください。
※本資料に掲載しております価格には消費税は含まれておりません。
ご購入の際に消費税が付加されますのでご承知おき願います。
※本資料に記載されている会社名、製品名は各社の商標または登録商標です。
CLUSTERPRO
MC (HAシリーズ)
(*1)ハインリッヒの法則
で例えれば・・・
業務停止
障害
(業務停止の予兆)
資源未解放 プロセス データベース格納 ディスクの空き不 足 (*1) 以降、CLUSTERPRO MC (HA)・ クラスタ化(サーバの冗長化)
・ 障害の検出
・ フェイルオーバ
業務停止の防止
・ 装置の冗長化
・ 障害の予兆検出
・ 障害の予防
障害の防止
監視
CLUSTERPRO MC(HAシリーズ)
NECが手がけたミッションクリティカルシステムの構築、運用の現場の声を
監視製品という形でフィードバックしました。
障害の予兆検出や予防を行うことにより、システムの可用性を極限まで高めます。
サーバ監視ノウハウを容易に導入
ダウンタイム短縮
フェイルオーバに至る前の障害も未然に検出したい
というニーズに応えます。
OS やアプリケーションなど、監視対象に特化した
「深い」監視によって障害原因の特定にも効果です。
NEC が手がけた UNIXシステムにおいて豊富な
利用実績がある監視機能を Linux,Windows
システムに提供します。
それらにより UNIX 並みの高可用性を実現できます。
適用効果
監視
障害の予兆
重大な事故
軽微な事故
ヒヤリ・ハット
ファイル システム異常 ディスクの セクタエラー 頻繁なスイッチI/O パスのCLUSTERPRO と CLUSTERPRO MC (HA) の監視範囲イメージ
サーバ
ネット
ワーク
ディスク
OS
アプリ
ケーション
CLUSTERPRO MC
(HA
)
CLUSTERPRO MC
(HA
)
CLUSTERPRO MC
(HA
)
CLUSTERPRO MC
(HA
)
CL
UST
ERPRO
MC
(H
A
)
CLUSTERPRO は広く、浅く。
CLUSTERPRO MC (HA) は狭く、深く。
CLUSTERPRO MC (HA) 製品ラインナップ
Linux / Windows障
害
監
視
OS監視 クラスタ制御ResourceSaver
Linuxシングル
クラスタ
StorageSaver
WindowsLinuxRootDiskMonitor
LinuxWindows
Disk 監視
ProcessSaver
WindowsLinux プロセス監視
ApplicationMonitor
LinuxOracle 監視
CLUSTERPRO MC (HA) 製品紹介
1.
ProcessSaver
2.
RootDiskMonitor
3.
StorageSaver
4.
ApplicationMonitor
5.
ResourceSaver
プロセスを監視し、 プロセス消滅時に自動的に再起動を
実施。プロセス再起動に失敗した場合はクラスタウェアと
連携しノードを切り替え業務を継続するなど高可用を
実現することが可能。
<製品概要>
●プロセス自動再起動によるダウンタイム短縮
•業務アプリケーションやOSデーモン、同一名のプロセス、
グループ化された複数プロセス、ミドルウェアなどを構成する
プロセスなど、多様なプロセスを監視可能
•異常終了に加えて、様々な手段でプロセスのハングアップ
(無応答)を検出することも可能
・異常検出時は、プロセスを自動再起動
●クラスタ連携によるダウンタイム短縮
•再起動を繰り返しても復旧しない場合は、クラスタウェアと
連携して待機系にフェイルオーバし、業務を継続
• CLUSTERPRO と連携する場合、ProcessSaver によって容
易なグループ監視や様々な手段でのハングアップ監視が
実現可能
(*1)●設定テンプレートで容易に導入・設定
・ OSプロセスやWebサーバなどの代表的なアプリケーション
については、監視設定や再起動スクリプトの
テンプレートを提供
<導入効果と機能>
CLUSTERPRO MC ProcessSaver 1.0
プロセスが異常終了しても自動再開させ業務を継続
Linux Win Linux Win Linux Win Linux ②システムログ通知 システム管理者 監視対象プロセス ・異常終了 ・ハングアップ ・同一名のプロセス ・関連するプロセスのグループ障害
①監視/ 障害検出 ③再起動ProcessSaver
動作環境(*2) : Red Hat Enterprise Linux 5/6、Oracle Linux 6、 Microsoft Windows Server 2003/2008/2012
製品URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24年10月12日 型番 : UL4438-102 他 価格(最小構成): 220,000円(シングル構成、CPUライセンス、メディア含む場合)
イメージ図
Win Linux (*1) ハングアップ監視は Linux版のみ利用可能です (*2) 動作環境の詳細については下記URLをご確認ください。 http://www.nec.co.jp/clusterpro/mc_ha/environment.html Win Linux業務が突然停止。手動での業務再起動まで業務が停止し、復旧後は障害箇所の
特定に人手と時間を要した。
依存するプロセスが異常終了した場合、依存関係を考慮して自動再起動することで
業務停止時間を最小限へ短縮。
異常終了したプロセスをログに通知するため、障害箇所の特定と対処が短時間で可能。
業務プロセスが依存するプロセスが異常終了したことで業務プロセスも停止したが、
情報がログに出力されなかった。
障害事例
導入効果
原因
幅広いプロセスの柔軟な監視
業務アプリ
ミドルウェア
OSデーモン
同一名のプロセス
グループ化されたプロセス
プロセスA プロセスA プロセスA プロセスA プロセス1 プロセス2 プロセス4 プロセス3ProcessSaver
多様なプロセスを
柔軟に監視可能
様々な手段でプロセスのハングアップを検出
プロセス
ProcessSaver
業務が突然停止。業務プロセス自体は起動しており原因がわからず、
手動での業務再起動まで業務が停止。
業務プロセスは起動していたもののハングアップ状態で、情報がログに
出力されなかった。
障害事例
監視対象に応じて様々な手段でプロセスのハングアップを検出。
ハングアップしたプロセスを自動再起動することで業務停止時間を最小限へ短縮。
異常終了したプロセスをログに通知するため、障害箇所の特定と対処が短時間で可能。
導入効果
原因
プロセス
Linux
プロセス
監 視 対 象 プ ロ セ ス が 定 期 的 に
フ ァ イ ル を 更 新 し て い る 場 合 、
ファイルのタイムスタンプを監視
プロセスが起動するスレッド数の
変化を監視
プロセスがオープンするファイル数の
変化を監視
イメージ図
OS ディスクの障害発生時にシステムログに障害を通知。
両系障害発生時には、クラスタウェアと連携して
ノード切替することで安定した業務を継続。
<製品概要>
●多彩な監視機能により障害を早く確実に検出
・ OS ディスクを構成する論理ディスク(LUN)の
死活監視
・ I/O リクエストの無応答やメディアエラーを検出
・ 管理領域および未使用領域も含むディスク全面
セクタ検査
●I/O リトライによる OS 高負荷を警告
・ メディアエラー(セクタ不良など)が発生した
OS ディスクを通知
●片系障害の検出により予防保守が可能
(*1)・ 片系ディスクの障害を検出し、ディスクの両系障害に至る前に
通知し、予防保守を促すことが可能
●クラスタウェア連携によるダウンタイム短縮
・ ディスクの両系障害時には、クラスタウェア連携による
フェイルオーバで業務を継続
<導入効果と機能>
CLUSTERPRO MC RootDiskMonitor 1.0
OSディスクの障害を早期に検出し、業務を安定して継続
Win Linux Win Linux Win Linux PV1 障害 OSディスク ミラーリング PV2 システムログ ①OSディスクの死活監視 及び、ハングアップ監視 異常検知 →ディスク故障通知RootDiskMonitor
③ノード切り替え ※両系障害の場合 コマンドにより、 監視の一時停止/再開や パラメータの動的変更が可能 ②システムログ コンソール通知動作環境(*2) : Red Hat Enterprise Linux 5/6、Oracle Linux 6、 Microsoft Windows Server 2003/2008/2012
製品URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24年10月12日
型番 : UL4441-102 他
価格(最小構成): 185,000円 (シングル構成、CPUライセンス、メディア含む場合)
Win Linux
(*1) Linux で HW-RAID 環境の場合、Universal RAID Utility(URU: RAID コントローラを管理するRAIDシステム管理ユー ティリティ) が必要です。 URU は EXPRESSサーバに含まれます。 また、Windows の HW-RAID環境は2013年4月時点で本機能の サポート対象外です。 (*2) 動作環境の詳細については下記URLをご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html クラスタウェア Win Linux Win Linux
年次処理時に突然サーバダウン。その後 OS は起動できたがサーバダウンが頻発し、
障害箇所の特定に人手と時間を要した。
OS や業務アプリケーション、バックアップソフトが問題のあるセクタへ
アクセスすることにより発生する、I/O エラーや I/O リクエストの無応答を未然に防止
通常運用時にアクセスしない領域でメディアエラーが発生していたが
年次処理でメディアエラー領域にアクセスし顕在化
障害事例
導入効果
原因
ディスクの全面検査で不良セクタを早期発見
OS からのアクセス
業務 I/O
通常運用で頻繁に アクセスする領域 メディアエラーセクタ パ ト ロ ー ル シ ー ク 機 能による検査領域通常運用でアクセスしない領域はメディアエラー自体が表面化せず、
年次処理やOSバックアップなどで表面化し、障害となる場合がある。
I/OエラーやI/Oリクエストの無応答の
発生によりシステムへの影響大
全ディスク領域を定期的にテスト
アクセスするため、メディアエラー
セクタの早期検出が可能
パトロールシーク機能
(*)(*)未使用箇所を含むディスクの
全面検査を行う機能
OS からのアクセス
業務 I/O
片系障害の検出により予防保守が可能
(*1)ミラー
RAIDコントローラ
物理ディスク
論理ディスク
内蔵ディスクを冗長化していたが、両系障害が発生しサーバダウン。
ディスク交換を行うまで業務が停止。
片系障害時に情報が通知されなかったためそのまま運用を続け、両系障害に至った。
障害事例
導入効果
原因
ディスクの片系障害を検出し、通知することで両系障害に至る前に予防保守を
行うことが可能。
(*1) Linux で HW-RAID 環境の場合、Universal RAID Utility (URU: RAIDコントローラを 管理する RAIDシステム管理ユー ティリティ) が必要です。
URU は EXPRESSサーバに含まれます。
また、Windows の HW-RAID環境は2013年4月時点で本機能のサポート対象外です。 Linux で HW-RAID 環境の場合
FC (Fibre Channel)、iSCSI 接続されたディスクアレイ
装置の障害監視、運用管理を実施。
<製品概要>
CLUSTERPRO MC StorageSaver 1.0
ディスクアレイ装置の障害を早期に検出し、業務を安定して継続
FC(正) FC( 副 ) ②障害を検出 ③システムログに通知 ④障害を検出した I/O パスを切り離し ⑤マルチパス管理製品が 正常なパスを使用して I/O を継続 FC: Fibre Channel FC カード FC カードStorage
Saver
マルチパス 管理製品 業務AP ①ディスクアレイ装置 資源を監視 障害動作環境(*1) : Red Hat Enterprise Linux 5/6、Oracle Linux 6、 Microsoft Windows Server 2003/2008
製品URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24年10月12日 型番 : UL4440-102 他 価格(最小構成): 360,000円 (シングル構成、CPUライセンス、メディア含む場合)
●経路を含めたディスクアレイ装置監視により
業務のエラーや性能低下を早く確実に検出
・サーバとディスクアレイ装置間を結ぶ I/O パスの死活監視
および I/O リクエストの無応答の検出
・間欠障害による頻繁なパス切替の原因を検出、予防して
ディスク I/O 性能の低下を防止
・ VG (Volume Group) 監視により、業務エラーを論理ディスク
のレベルで早期に検出
●クラスタ連携によるダウンタイム短縮
・ I/O パスの両系障害時には、クラスタウェア連携による
フェイルオーバで業務を継続
<導入効果と機能>
Win Linux Linux Win Linux Win Linux (*1)サポート済みのディスクアレイ装置・マルチパス管理ソフトウェア含む、 動作環境の詳細については下記URLをご確認ください。 http://www.nec.co.jp/clusterpro/mc_ha/environment.htmlイメージ図
ディスク I/O のスループット低下防止
×
正系
副系
副系
ディスクアレイ装置
間欠障害 頻繁な切り替わり発生 間欠障害障害が発生したノード内
では I/O パスの監視が継続
されます。障害が発生した
ノード内の I/O パスの監視
で正常に見えると切り戻し
が発生します。
そのため間欠障害では
ノード内の I/O パスが頻繁
に切り替わり、ディスクアク
セスが遅延する可能性が
あります。
障害を検出すると正系
から副系へ切り替わり
ます。
障害が発生したノード内
の I/O パスを閉塞する
ことができるので、間欠
障害でも
頻繁な切り替
わりは発生しません
。
ディスク I/O のスループットが低下
StorageSaver が障害の発生した I/O パスを閉塞。
間欠障害時の頻繁な I/O パスの切替による業務のスローダウンを防止し、安定した
業務継続を実現。
間欠障害により I/O パスの切り替えが頻発し、ディスクアクセスが遅延。
障害事例
導入効果
原因
マルチパス管理製品
閉塞
StorageSaver
ディスクアレイ装置
RAC構成を含む、Oracle データベースシステムを監視し
業務停止につながる障害を早期に検出。
障害発生時には、Oracle プロセスの再起動もしくは
クラスタ連携によるフェイルオーバで業務停止時間を
最小化。
<製品概要>
CLUSTERPRO MC ApplicationMonitor 1.0
Oracle データベースシステムを監視し、業務停止につながる重大問題を回避
イメージ図
現用待機構成の Oracle を監視した場合 ②障害発生箇所 を特定 ①監視 Oracle 障害 ④待機サーバへ フェイルオーバ 現用サーバ ③通知 待機サーバ ⑤待機サーバで 業務の継続が可能動作環境(*1) : Red Hat Enterprise Linux 5/6、Oracle Linux 6 製品URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24年10月12日 型番 : UL4437-102 他 価格(最小構成): 1,322,500円(シングル構成、CPUライセンス、メディア含む場合)
●Oracleに特化した監視で障害を早く確実に検出
•インスタンス、リスナ、Oracle Clusterware の障害(停止、
無応答)を監視し、早期に障害を検出
•無応答に至る前の予兆検出も可能
●クラスタウェア連携によるダウンタイム短縮
•障害発生時には、Oracle プロセスの再起動、クラスタウェア
連携によるフェイルオーバ/ノード縮退で業務を継続
•障害種別(停止、無応答)ごとにクラスタウェア連携動作の
指定が可能。「停止障害時は自動復旧、無応答障害時は
オペレータ介入」といった運用にも柔軟に対応
●障害情報の自動採取による原因特定までの時間短縮
•インスタンス障害はバックグラウンドプロセス単位で特定
•障害検出時には、原因究明に必須となる情報を自動的に
採取。早期原因究明が可能
<導入効果と機能>
(*1)動作環境の詳細については下記 URLをご確認ください。 http://www.nec.co.jp/clusterpro/mc_ha/environment.htmlApplicationMonitor
Oracle のインスタンス無応答状態下での業務継続
DB
DBサーバ
Oracle
無応答
障害
DB
DBサーバ
Oracle
無応答
障害
CLUSTERPRO X
無応答障害として検出
ApplicationMonitor
障害情報採取
フェイルオーバ
APサーバ
業務
接続中の
業務は停止
業務停止
業務AP
APサーバ
業務
業務復旧
業務AP
アーカイブ出力先のディスクがいっぱいになり、アーカイブ処理が終了せず、
データベース更新ができない状態だった。
原因
業務が突然停止。手動での業務再起動まで業務が停止し、復旧後は障害箇所の
特定に人手と時間を要した。
障害事例
ApplicationMonitor がインスタンス無応答障害を検出し、業務は待機系へ
フェイルオーバすることで業務停止時間を最小限へ短縮。
障害情報をログに通知するため、障害箇所の調査と対処が容易に可能。
導入効果
アーカイブ
LOG
処理
遅延
アーカイブ
LOG
処理
遅延
クラスタシステムのリソース監視を補強する製品。
ハングアップ/パニックにつながる障害監視(異常監視)に
より業務停止を最小限にし、クラスタシステムダウンを防
止。
<製品概要>
CLUSTERPRO MC ResourceSaver 1.0
クラスタシステムを補強し、可用性の向上を実現
待機サーバ ・システムログ通知 MC SCOPE (*1) 監視リソース 仮想リソース FC LAN 障害 システム管理者 現用サーバ 待機サーバへ フェイルオーバ OS FileSystem CPUResourceSaver
障害イメージ図
動作環境(*3) : Red Hat Enterprise Linux 5/6、Oracle Linux 6 製品URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24年10月12日 型番 : UL4442-102 他 価格(最小構成): 412,500円(シングル構成、CPUライセンス、メディア含む場合)
●無用な回復動作を防いでダウンタイム短縮
(*1)•複数のリソースをグループ化し1つの仮想リソースとして監視し、
各種演算式により仮想リソースの障害判定条件を細かく
設定可能。これによって業務継続不可となり真に回復動作が
必要な状況を正確に判定可能。
•障害検出時に監視をリトライし、間欠障害や一時的な
高負荷状態でのフェイルオーバ発生を防止。
●ファイルシステムの障害検知により、障害を局所化
(*2)• I/Oエラーによるリマウントを検知し、データ破壊が
進行しないよう保守を促す。
●全CPUに対してウォッチドッグ方式の
スケジューラ監視
(*2)• CPU障害およびCPU異常負荷によるスケジューラ異常を
迅速に検知。
<導入効果と機能>
(*1) MC SCOPE (障害監視や原因究明に必要な詳細ログを記録する NEC 製 ミドルウェア) が必要です。MC SCOPE は Enterprise Linux with Dependable Support に含まれます。(*2) 本機能は OS が Red Hat Enterprise Linux 6 の場合利用可能です (*3) 動作環境の詳細については下記 URLをご確認ください。