CLUSTERPRO MC (HA シリーズ ) のご紹介 2013/4/1 NEC システムソフトウェア事業部 CLUSTERPRO グループ

(1)

CLUSTERPRO MC (HAシリーズ)のご紹介

2013/4/1

(2)

本資料について

※本資料に記載されている内容はNEC製サーバExpress5800シリーズ(以降、

NEC製サーバ)でのご利用を前提としています。

他社機への導入を検討されている場合、本資料末尾に記載されている

お問い合わせ先までご相談ください。

※本資料に掲載しております価格には消費税は含まれておりません。

ご購入の際に消費税が付加されますのでご承知おき願います。

※本資料に記載されている会社名、製品名は各社の商標または登録商標です。

(3)

CLUSTERPRO

MC (HAシリーズ)

(*1)

ハインリッヒの法則

で例えれば・・・

業務停止

障害

(業務停止の予兆)

資源未解放プロセスデータベース格納ディスクの空き不足 (*1) 以降、CLUSTERPRO MC (HA)

・クラスタ化（サーバの冗長化）

・障害の検出

・フェイルオーバ

業務停止の防止

・装置の冗長化

・障害の予兆検出

・障害の予防

障害の防止

監視

CLUSTERPRO MC(HAシリーズ)

NECが手がけたミッションクリティカルシステムの構築、運用の現場の声を

監視製品という形でフィードバックしました。

障害の予兆検出や予防を行うことにより、システムの可用性を極限まで高めます。

サーバ監視ノウハウを容易に導入

ダウンタイム短縮

フェイルオーバに至る前の障害も未然に検出したい

というニーズに応えます。

OS やアプリケーションなど、監視対象に特化した

「深い」監視によって障害原因の特定にも効果です。

NEC が手がけた UNIXシステムにおいて豊富な

利用実績がある監視機能を Linux,Windows

システムに提供します。

それらにより UNIX 並みの高可用性を実現できます。

適用効果

監視

障害の予兆

重大な事故

軽微な事故

ヒヤリ・ハット

ファイルシステム異常ディスクのセクタエラー _{頻繁なスイッチ}I/O パスの

(4)

CLUSTERPRO と CLUSTERPRO MC (HA) の監視範囲イメージ

サーバ

ネット

ワーク

ディスク

OS

アプリ

ケーション

CLUSTERPRO MC

(HA

)

CLUSTERPRO MC

(HA

)

CLUSTERPRO MC

(HA

)

CLUSTERPRO MC

(HA

)

CL

UST

ERPRO

MC

(H

A

)

ＣＬＵＳＴＥＲＰＲＯは広く、浅く。

ＣＬＵＳＴＥＲＰＲＯ MC (HA) は狭く、深く。

(5)

CLUSTERPRO MC (HA) 製品ラインナップ

Linux / Windows

障

害

監

視

ＯＳ監視クラスタ制御

ResourceSaver

Linux

シングル

クラスタ

StorageSaver

Windows_Linux

RootDiskMonitor

_Linux

Windows

Disk 監視

ProcessSaver

Windows_Linux プロセス

監視

ApplicationMonitor

Linux

Oracle 監視

(6)

CLUSTERPRO MC (HA) 製品紹介

1. ProcessSaver

2. RootDiskMonitor

3. StorageSaver

4. ApplicationMonitor

5. ResourceSaver

(7)

プロセスを監視し、プロセス消滅時に自動的に再起動を

実施。プロセス再起動に失敗した場合はクラスタウェアと

連携しノードを切り替え業務を継続するなど高可用を

実現することが可能。

＜製品概要＞

●プロセス自動再起動によるダウンタイム短縮

•業務アプリケーションやOSデーモン、同一名のプロセス、

グループ化された複数プロセス、ミドルウェアなどを構成する

プロセスなど、多様なプロセスを監視可能

•異常終了に加えて、様々な手段でプロセスのハングアップ

（無応答）を検出することも可能

・異常検出時は、プロセスを自動再起動

●クラスタ連携によるダウンタイム短縮

•再起動を繰り返しても復旧しない場合は、クラスタウェアと

連携して待機系にフェイルオーバし、業務を継続

• CLUSTERPRO と連携する場合、ProcessSaver によって容

易なグループ監視や様々な手段でのハングアップ監視が

実現可能

(*1)

●設定テンプレートで容易に導入・設定

・ OSプロセスやWebサーバなどの代表的なアプリケーション

については、監視設定や再起動スクリプトの

テンプレートを提供

＜導入効果と機能＞

CLUSTERPRO MC ProcessSaver 1.0

プロセスが異常終了しても自動再開させ業務を継続

Linux Win Linux Win Linux Win Linux ②システムログ通知システム管理者監視対象プロセス・異常終了・ハングアップ・同一名のプロセス・関連するプロセスのグループ

障害

①監視/ 障害検出 ③再起動

ProcessSaver

動作環境(*2) ： Red Hat Enterprise Linux 5/6、Oracle Linux 6、 Microsoft Windows Server 2003/2008/2012

製品URL ： http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 ： H24年10月12日 型番 ： UL4438-102 他 価格（最小構成）： 220,000円（シングル構成、CPUライセンス、メディア含む場合）

イメージ図

Win Linux (*1) ハングアップ監視は Linux版のみ利用可能です (*2) 動作環境の詳細については下記URLをご確認ください。 http://www.nec.co.jp/clusterpro/mc_ha/environment.html Win Linux

(8)

業務が突然停止。手動での業務再起動まで業務が停止し、復旧後は障害箇所の

特定に人手と時間を要した。

依存するプロセスが異常終了した場合、依存関係を考慮して自動再起動することで

業務停止時間を最小限へ短縮。

異常終了したプロセスをログに通知するため、障害箇所の特定と対処が短時間で可能。

業務プロセスが依存するプロセスが異常終了したことで業務プロセスも停止したが、

情報がログに出力されなかった。

障害事例

導入効果

原因

幅広いプロセスの柔軟な監視

業務アプリ

ミドルウェア

ＯＳデーモン

同一名のプロセス

グループ化されたプロセス

プロセスA プロセスA プロセスA プロセスA プロセス1 プロセス2 プロセス4 プロセス3

ProcessSaver

多様なプロセスを

柔軟に監視可能

(9)

様々な手段でプロセスのハングアップを検出

プロセス

ProcessSaver

業務が突然停止。業務プロセス自体は起動しており原因がわからず、

手動での業務再起動まで業務が停止。

業務プロセスは起動していたもののハングアップ状態で、情報がログに

出力されなかった。

障害事例

監視対象に応じて様々な手段でプロセスのハングアップを検出。

ハングアップしたプロセスを自動再起動することで業務停止時間を最小限へ短縮。

異常終了したプロセスをログに通知するため、障害箇所の特定と対処が短時間で可能。

導入効果

原因

プロセス

Linux

プロセス

監視対象プロセスが定期的に

ファイルを更新している場合、

ファイルのタイムスタンプを監視

プロセスが起動するスレッド数の

変化を監視

プロセスがオープンするファイル数の

変化を監視

(10)

イメージ図

OS ディスクの障害発生時にシステムログに障害を通知。

両系障害発生時には、クラスタウェアと連携して

ノード切替することで安定した業務を継続。

＜製品概要＞

●多彩な監視機能により障害を早く確実に検出

・ OS ディスクを構成する論理ディスク（LUN）の

死活監視

・ I/O リクエストの無応答やメディアエラーを検出

・管理領域および未使用領域も含むディスク全面

セクタ検査

●I/O リトライによる OS 高負荷を警告

・メディアエラー（セクタ不良など）が発生した

OS ディスクを通知

●片系障害の検出により予防保守が可能

(*1)

・片系ディスクの障害を検出し、ディスクの両系障害に至る前に

通知し、予防保守を促すことが可能

●クラスタウェア連携によるダウンタイム短縮

・ディスクの両系障害時には、クラスタウェア連携による

フェイルオーバで業務を継続

＜導入効果と機能＞

CLUSTERPRO MC RootDiskMonitor 1.0

OSディスクの障害を早期に検出し、業務を安定して継続

Win Linux Win Linux Win Linux PV1 障害 OSディスク ミラーリング PV2 システムログ ①OSディスクの死活監視 及び、ハングアップ監視異常検知 →ディスク故障通知

RootDiskMonitor

③ノード切り替え ※両系障害の場合コマンドにより、監視の一時停止／再開やパラメータの動的変更が可能 ②システムログコンソール通知

動作環境(*2) ： Red Hat Enterprise Linux 5/6、Oracle Linux 6、 Microsoft Windows Server 2003/2008/2012

製品URL ： http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 ： H24年10月12日

型番 ： UL4441-102 他

価格（最小構成）： 185,000円（シングル構成、CPUライセンス、メディア含む場合）

Win Linux

(*1) Linux で HW-RAID 環境の場合、Universal RAID Utility(URU： RAID コントローラを管理するRAIDシステム管理ユーティリティ) が必要です。 URU は EXPRESSサーバに含まれます。 また、Windows の HW-RAID環境は2013年4月時点で本機能の サポート対象外です。 (*2) 動作環境の詳細については下記URLをご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html クラスタウェア Win Linux Win Linux

(11)

年次処理時に突然サーバダウン。その後 OS は起動できたがサーバダウンが頻発し、

障害箇所の特定に人手と時間を要した。

OS や業務アプリケーション、バックアップソフトが問題のあるセクタへ

アクセスすることにより発生する、I/O エラーや I/O リクエストの無応答を未然に防止

通常運用時にアクセスしない領域でメディアエラーが発生していたが

年次処理でメディアエラー領域にアクセスし顕在化

障害事例

導入効果

原因

ディスクの全面検査で不良セクタを早期発見

OS からのアクセス

業務 I/O

通常運用で頻繁にアクセスする領域メディアエラーセクタパトロールシーク機能による検査領域

通常運用でアクセスしない領域はメディアエラー自体が表面化せず、

年次処理やOSバックアップなどで表面化し、障害となる場合がある。

I/OエラーやI/Oリクエストの無応答の

発生によりシステムへの影響大

全ディスク領域を定期的にテスト

アクセスするため、メディアエラー

セクタの早期検出が可能

パトロールシーク機能

(*)

**(*)未使用箇所を含むディスクの**

全面検査を行う機能

OS からのアクセス

業務 I/O

(12)

片系障害の検出により予防保守が可能

（*1)

ミラー

RAIDコントローラ

物理ディスク

論理ディスク

内蔵ディスクを冗長化していたが、両系障害が発生しサーバダウン。

ディスク交換を行うまで業務が停止。

片系障害時に情報が通知されなかったためそのまま運用を続け、両系障害に至った。

障害事例

導入効果

原因

ディスクの片系障害を検出し、通知することで両系障害に至る前に予防保守を

行うことが可能。

(*1) Linux で HW-RAID 環境の場合、Universal RAID Utility (URU： RAIDコントローラを 管理する RAIDシステム管理ユーティリティ) が必要です。

URU は EXPRESSサーバに含まれます。

また、Windows の HW-RAID環境は2013年4月時点で本機能のサポート対象外です。 Linux で HW-RAID 環境の場合

(13)

FC (Fibre Channel)、iSCSI 接続されたディスクアレイ

装置の障害監視、運用管理を実施。

＜製品概要＞

CLUSTERPRO MC StorageSaver 1.0

ディスクアレイ装置の障害を早期に検出し、業務を安定して継続

FC(正) FC( 副 ) ②障害を検出 ③システムログに通知 _{④障害を検出した I/O パスを切り離し} ⑤マルチパス管理製品が 正常なパスを使用して I/O を継続 FC: Fibre Channel FC カード FC カード

Storage

Saver

マルチパス管理製品 業務AP ①ディスクアレイ装置資源を監視障害

動作環境(*1) ： Red Hat Enterprise Linux 5/6、Oracle Linux 6、 Microsoft Windows Server 2003/2008

製品URL ： http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 ： H24年10月12日 型番 ： UL4440-102 他 価格（最小構成）： 360,000円（シングル構成、CPUライセンス、メディア含む場合）

●経路を含めたディスクアレイ装置監視により

業務のエラーや性能低下を早く確実に検出

・サーバとディスクアレイ装置間を結ぶ I/O パスの死活監視

および I/O リクエストの無応答の検出

・間欠障害による頻繁なパス切替の原因を検出、予防して

ディスク I/O 性能の低下を防止

・ VG (Volume Group) 監視により、業務エラーを論理ディスク

のレベルで早期に検出

●クラスタ連携によるダウンタイム短縮

・ I/O パスの両系障害時には、クラスタウェア連携による

フェイルオーバで業務を継続

＜導入効果と機能＞

Win Linux Linux Win Linux Win Linux (*1)サポート済みのディスクアレイ装置・マルチパス管理ソフトウェア含む、 動作環境の詳細については下記URLをご確認ください。 http://www.nec.co.jp/clusterpro/mc_ha/environment.html

イメージ図

(14)

ディスク I/O のスループット低下防止

×

正系

副系

ディスクアレイ装置

間欠障害頻繁な切り替わり発生間欠障害

障害が発生したノード内

では I/O パスの監視が継続

されます。障害が発生した

ノード内の I/O パスの監視

で正常に見えると切り戻し

が発生します。

そのため間欠障害では

ノード内の I/O パスが頻繁

に切り替わり、ディスクアク

セスが遅延する可能性が

あります。

障害を検出すると正系

から副系へ切り替わり

ます。

障害が発生したノード内

の I/O パスを閉塞する

ことができるので、間欠

障害でも

頻繁な切り替

わりは発生しません

。

ディスク I/O のスループットが低下

StorageSaver が障害の発生した I/O パスを閉塞。

間欠障害時の頻繁な I/O パスの切替による業務のスローダウンを防止し、安定した

業務継続を実現。

間欠障害により I/O パスの切り替えが頻発し、ディスクアクセスが遅延。

障害事例

導入効果

原因

マルチパス管理製品

閉塞

StorageSaver

ディスクアレイ装置

(15)

RAC構成を含む、Oracle データベースシステムを監視し

業務停止につながる障害を早期に検出。

障害発生時には、Oracle プロセスの再起動もしくは

クラスタ連携によるフェイルオーバで業務停止時間を

最小化。

＜製品概要＞

CLUSTERPRO MC ApplicationMonitor 1.0

Oracle データベースシステムを監視し、業務停止につながる重大問題を回避

イメージ図

現用待機構成の Oracle を監視した場合 ②障害発生箇所を特定 ①監視 Oracle 障害 ④待機サーバへフェイルオーバ現用サーバ ③通知待機サーバ ⑤待機サーバで業務の継続が可能

動作環境(*1) ： Red Hat Enterprise Linux 5/6、Oracle Linux 6 製品URL ： http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 ： H24年10月12日 型番 ： UL4437-102 他 価格（最小構成）： 1,322,500円（シングル構成、CPUライセンス、メディア含む場合）

●Oracleに特化した監視で障害を早く確実に検出

•インスタンス、リスナ、Oracle Clusterware の障害(停止、

無応答)を監視し、早期に障害を検出

•無応答に至る前の予兆検出も可能

●クラスタウェア連携によるダウンタイム短縮

•障害発生時には、Oracle プロセスの再起動、クラスタウェア

連携によるフェイルオーバ/ノード縮退で業務を継続

•障害種別(停止、無応答)ごとにクラスタウェア連携動作の

指定が可能。「停止障害時は自動復旧、無応答障害時は

オペレータ介入」といった運用にも柔軟に対応

●障害情報の自動採取による原因特定までの時間短縮

•インスタンス障害はバックグラウンドプロセス単位で特定

•障害検出時には、原因究明に必須となる情報を自動的に

採取。早期原因究明が可能

＜導入効果と機能＞

(*1)動作環境の詳細については下記 URLをご確認ください。 http://www.nec.co.jp/clusterpro/mc_ha/environment.html

ApplicationMonitor

(16)

Oracle のインスタンス無応答状態下での業務継続

DB

DBサーバ

Oracle

無応答

障害

DB

DBサーバ

Oracle

無応答

障害

CLUSTERPRO X

無応答障害として検出

ApplicationMonitor

障害情報採取

フェイルオーバ

APサーバ

業務

接続中の

業務は停止

業務停止

業務AP

APサーバ

業務

業務復旧

業務AP

アーカイブ出力先のディスクがいっぱいになり、アーカイブ処理が終了せず、

データベース更新ができない状態だった。

原因

業務が突然停止。手動での業務再起動まで業務が停止し、復旧後は障害箇所の

特定に人手と時間を要した。

障害事例

ApplicationMonitor がインスタンス無応答障害を検出し、業務は待機系へ

フェイルオーバすることで業務停止時間を最小限へ短縮。

障害情報をログに通知するため、障害箇所の調査と対処が容易に可能。

導入効果

アーカイブ

LOG

処理

遅延

アーカイブ

LOG

処理

遅延

(17)

クラスタシステムのリソース監視を補強する製品。

ハングアップ/パニックにつながる障害監視（異常監視）に

より業務停止を最小限にし、クラスタシステムダウンを防

止。

＜製品概要＞

CLUSTERPRO MC ResourceSaver 1.0

クラスタシステムを補強し、可用性の向上を実現

待機サーバ・システムログ通知 MC SCOPE (*1) 監視リソース仮想リソース FC LAN _障害システム管理者現用サーバ待機サーバへフェイルオーバ OS FileSystem CPU

ResourceSaver

障害

イメージ図

動作環境(*3) ： Red Hat Enterprise Linux 5/6、Oracle Linux 6 製品URL ： http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 ： H24年10月12日 型番 ： UL4442-102 他 価格（最小構成）： 412,500円（シングル構成、CPUライセンス、メディア含む場合）

●無用な回復動作を防いでダウンタイム短縮

(*1)

•複数のリソースをグループ化し１つの仮想リソースとして監視し、

各種演算式により仮想リソースの障害判定条件を細かく

設定可能。これによって業務継続不可となり真に回復動作が

必要な状況を正確に判定可能。

•障害検出時に監視をリトライし、間欠障害や一時的な

高負荷状態でのフェイルオーバ発生を防止。

●ファイルシステムの障害検知により、障害を局所化

(*2)

• I/Oエラーによるリマウントを検知し、データ破壊が

進行しないよう保守を促す。

●全CPUに対してウォッチドッグ方式の

スケジューラ監視

(*2)

• CPU障害およびCPU異常負荷によるスケジューラ異常を

迅速に検知。

＜導入効果と機能＞

(*1) MC SCOPE (障害監視や原因究明に必要な詳細ログを記録する NEC 製 ミドルウェア) が必要です。MC SCOPE は Enterprise Linux with Dependable Support に含まれます。

(*2) 本機能は OS が Red Hat Enterprise Linux 6 の場合利用可能です (*3) 動作環境の詳細については下記 URLをご確認ください。

(18)

業務が突然停止し、しばらくしてフェイルオーバ。その間業務が停止した。

復旧後は障害箇所の特定に人手と時間を要した。

全CPUまたは、全コアを対象としてCPU監視を行い、ハングアップの予兆を検知。

障害情報を収集した後に、必要に応じてフェイルオーバまたは、リブートすることが可能。

これにより、業務への影響を最小限にすることが可能。

特定のCPUが応答しなくなったことにより、プロセスのデッドロックが発生。

この影響でシステムがハングアップしたが、ログなど情報が残っていなかった。

障害事例

導入効果

原因

ResourceSaver

全CPUの監視により、業務影響を最小化

ハングアップ

原因特定が困難

ResourceSaver 未導入時

運用中

CPU異常発生

業務停止

障害情報収集

ResourceSaver 導入時

運用中

CPU異常発生

ダウンタイム縮小

フェイルオーバ/リブート

CPU障害を

検知

(19)

NEC開発製品ですので、ユーザサポートも安心です！

お問い合わせ先

▐

本製品に関するご相談、お問い合わせは下記までお願いいたします。



問い合わせ先：

[email protected]

▐

以下製品サイトより製品マニュアルなどがダウンロードいただけます。



URL ：

http://www.nec.co.jp/clusterpro/mc_ha/index.html

(20)

CLUSTERPRO MC (HA シリーズ ) のご紹介 2013/4/1 NEC システムソフトウェア事業部 CLUSTERPRO グループ

CLUSTERPRO MC (HAシリーズ)のご紹介

2013/4/1

本資料について

※本資料に記載されている内容はNEC製サーバExpress5800シリーズ(以降、

NEC製サーバ)でのご利用を前提としています。

他社機への導入を検討されている場合、本資料末尾に記載されている

お問い合わせ先までご相談ください。

※本資料に掲載しております価格には消費税は含まれておりません。

ご購入の際に消費税が付加されますのでご承知おき願います。

※本資料に記載されている会社名、製品名は各社の商標または登録商標です。

CLUSTERPRO

MC (HAシリーズ)

ハインリッヒの法則

で例えれば・・・

業務停止

障害

(業務停止の予兆)

・ クラスタ化（サーバの冗長化）

・ 障害の検出

・ フェイルオーバ

業務停止の防止

・ 装置の冗長化

・ 障害の予兆検出

・ 障害の予防

障害の防止

監視

CLUSTERPRO MC(HAシリーズ)

NECが手がけたミッションクリティカルシステムの構築、運用の現場の声を

監視製品という形でフィードバックしました。

障害の予兆検出や予防を行うことにより、システムの可用性を極限まで高めます。

サーバ監視ノウハウを容易に導入

ダウンタイム短縮

フェイルオーバに至る前の障害も未然に検出したい

というニーズに応えます。

OS やアプリケーションなど、監視対象に特化した

「深い」監視によって障害原因の特定にも効果です。

NEC が手がけた UNIXシステムにおいて豊富な

利用実績がある監視機能を Linux,Windows

システムに提供します。

それらにより UNIX 並みの高可用性を実現できます。

適用効果

監視

障害の予兆

重大な事故

軽微な事故

ヒヤリ・ハット

CLUSTERPRO と CLUSTERPRO MC (HA) の監視範囲イメージ

サーバ

ネット

ワーク

ディスク

OS

アプリ

ケーション

CLUSTERPRO MC

(HA

)

CLUSTERPRO MC

(HA

)

CLUSTERPRO MC

(HA

)

CLUSTERPRO MC

(HA

)

CL

UST

ERPRO

MC

(H

A

)

ＣＬＵＳＴＥＲＰＲＯ は広く、浅く。

ＣＬＵＳＴＥＲＰＲＯ MC (HA) は狭く、深く。

CLUSTERPRO MC (HA) 製品ラインナップ

障

害

監

・クラスタ化（サーバの冗長化）

・障害の検出

・フェイルオーバ

・装置の冗長化

・障害の予兆検出

・障害の予防

ＣＬＵＳＴＥＲＰＲＯは広く、浅く。

プロセスを監視し、プロセス消滅時に自動的に再起動を