7-E クラウドで見過ごされがちな可用性の課題と事業継続の勘所 ~ 海外の災害対策事例付き ~ 2013/11/14 日本電気株式会社システムソフトウェア事業部佐藤陽一

(1)

クラウドで見過ごされがちな

可用性の課題と事業継続の勘所

～海外の災害対策事例付き～

2013/11/14

日本電気株式会社

システムソフトウェア事業部

7-E

(2)

(3)



コスト削減



ビジネスの変動に素早く対応



ECO

（省電力化）



評価/テスト環境用途

(4)

クラウドで見過ごされがちな留意点

クラウドであっても、物理サーバは存在する

ゲストOS 仮想マシン DBサーバゲストOS 仮想マシンメールサーバ

前提

物理サーバ

ヒトが作った機械が介在する以上、絶対落ちないシステムはあり得ません！

(5)

可用性への考慮が足りないと・・・

▐

システム停止による影響例

業種システム停止による影響例金融業 •市場経済活動の停止による、大きな社会的影響 •社会的信用の失墜製造業 •生産活動の停止に伴う経済的損失 •元請・下請企業への影響とそれにともなう信用の失墜 •機会損失流通業 •販売活動の停止による経済的損失 •社会的信用の失墜業務システム停止による影響例メールシステム •_{営業活動への影響}社内・顧客との情報伝達の効率低下による生産システム •生産活動停止による、期間損失 •納期遅延による、CS低下受発注システム •生産活動の停止による機会損失 •受注作業の停止による機会損失・顧客からの信用失墜ファイルサーバ •共有ファイルへのアクセスができないことによる作業等の停滞企業活動への影響例業務別に見る影響例

情報システムの停止は、自社ビジネスへの影響はもちろん、他企業や

社会へも影響を与え、経営へのダメージは計り知れません。

▐

最悪の事態



顧客への損害賠償



政府による行政指導

・・・

(6)

クラウド事業者が提供する解決策

ハード障害時に仮想マシンごと切り替える

物理サーバ

サーバダウン

(7)

クラウドを利用するときの考慮点

Windows 仮想マシン DBサーバ OSのホットフィックス適用時、アプリケーションリビジョンアップ時など

計画メンテナンス時には

業務が停止

する

Windows 仮想マシン DBサーバ Linux 仮想マシンメールサーバ

サービスダウン

移動せず

仮想ハードウェア

切断

仮想マシン内のソフト障害は

検知できない

ゲストOS再起動

(8)

単体サーバシステムにおけるシステム停止要因

単体サーバシステム停止要因から可用性を検討する

(内訳) ３７％：Ⓐ OSアップグレード／サービスパック・ホットフィクス適用によるOS再起動１３％：Ⓑ アプリケーションインストール／アプリケーション保守１２％：Ⓒ ＯＳ設定変更を反映するためのＯＳ再起動７％：Ⓓ 新しいハードウェアの接続と設定を有効にするためのＯＳ再起動７％：Ⓔ その他によるＯＳ再起動 (内訳) ９％：① OS／ドライバのパニック６％：② アプリケーションエラー５％：③ ハードウェア障害４％：④ その他の障害

76%

障害発生による停止

２４％

計画保守停止

出典元：マイクロソフト社調べ2005/6、「Windows Server 2003, EEの信頼性」資料

①

②

③

④

Ⓐ

Ⓑ

_Ⓒ

Ⓓ

Ⓔ

(9)

クラウドのＨＡによるシステム停止要因のカバー範囲

クラウドのHA機能ではシステム停止要因の21％しかカバーできない

単体サーバシステム停止要因

21％

クラウドのＨＡ機能に

よるカバー範囲

(内訳) ９％：① OS／ドライバのパニック５％：③ ハードウェア障害７％：Ⓓ 新しいハードウェアの接続と設定を有効にするためのＯＳ再起動

可用性にはまだまだ課題が多いことが否めない

①

②

③

④

Ⓐ

Ⓑ

_Ⓒ

Ⓓ

Ⓔ

(10)

(11)

業務継続

障害発生

フェイルオーバアクセスする宛先はそのままでよい

障害発生

業務停止

・保守担当が駆けつけるまで業務停止

・ビジネス機会損失

・企業としての「信用」失墜

・別のサーバが自動的に業務継続

・ビジネス機会の損失を最小限に抑える

・導入した企業は安心してビジネスに臨める

シングルサーバの場合

クラスタリングサーバの場合

システム異常を確実に検知し、業務をフェイルオーバ

障害発生時に業務を継続

(12)

(内訳) ３７％：OSアップグレード／サービスパック・ホットフィクス適用によるOS再起動１３％：アプリケーションインストール／アプリケーション保守１２％：ＯＳ設定変更を反映するためのＯＳ再起動７％：新しいハードウェアの接続と設定を有効にするためのＯＳ再起動７％：その他によるＯＳ再起動

障害発生による停止

24% (内訳) ９％：OS／ドライバのパニック発生６％：アプリケーションエラー発生５％：ハードウェア障害発生４％：その他の障害単体 サーバ

計画保守停止

76%

(出典元：マイクロソフト社調べ2005/6、「Windows Server 2003, EEの信頼性」資料

システム停止要因

業務

保守

＊：クラスタ化で、保守による業務停止時間を業務移行時間だけでOK！

待機系よりメンテナンスして、フロント業務を止めない*

①

②

③

④

計画メンテナンスでも業務継続

(13)

現用系

待機系

アプリケーション層

OS層

ハードウェア層

_NIC NIC HBA 監視エージェント

ｱﾌﾟﾘｹｰｼｮﾝ

ｼｽﾃﾑ ﾃﾞｨｽｸ

アプリケーション層

OS層

ハードウェア層

NIC NIC HBA ｼｽﾃﾑ ﾃﾞｨｽｸ ユーザデータ クラスタパーティション OS空間 正常応答監視 存在監視 ハングアップ監視 OS空間 ハングアップ監視 リンクダウン監視 Ping応答監視 ルータ、その他のネットワーク機器 アクセスチェック アクセスチェック

★待機系も常に監視！

異常発生を素早く察知

現用系サーバが業務継続できる状態なのか？を広範囲に監視

(14)

× アプリケーションのハングアップ検出 × アプリケーションからのレスポンス異常検出 ○ アプリケーションの異常終了(要:存在監視設定) ○ アプリケーションのハングアップ検出 ○ アプリケーションからのレスポンス異常検出 ○ アプリケーションの異常終了（要：存在監視設定）アプリケー ション起動 プロセスが消滅すると異常と判定アプリケーションのハングアップは検出しないハング アップ _{アプリケー} ション起動 Agent Agent Agentが定期的に対象のアプリケーションをチェックアプリケーションのハングアップを検出できる。

Ａｇｅｎｔ(オプション)なしの場合

Ａｇｅｎｔ(オプション)ありの場合

障害発生



単なるアプリケーションの存在監視だけでなく、定期的に正常応答が返るか確認します。



もしもハングアップや異常を検知した場合、フェイルオーバして業務継続できます。

監視Ａｇｅｎｔ（オプション）の導入によりハングアップ・異常状態まで監視可能

検出可能な特定アプリケーション障害

(15)

アンチウイルスソフト (Anti-Virus Agent)

アプリケーションサーバ (Application Server Agent)

ファイルサーバ (File Server Agent)

インターネットサーバ (Internet Server Agent)

Oracle, SQL Server, DB2, ODBC, PowerGresなど

Windows Linux

Oracle, DB2, Sybase, PostgreSQL, PowerGresPlus, MySQL

IIS, SMTP/POP/IMAP4, HTTP,HTTPSなど

Windows

Linux

apache, httpd, sendmail, postfix, popdなど

Linux

Samba, NFS

Linux

Tuxedo, WebLogic, WebSphere, Oracle ASなど

Windows ウイルスバスターコーポレートエディション Windows

▌

利用ケースの多い、６つのカテゴリーに対応

大切なアプリケーションのハングアップや異常状態まで詳細に監視します！

データベース (Database Agent)

ＣＬＵＳＴＥＲＰＲＯＸ監視Ａｇｅｎｔ

Solaris Solaris

Oracle, MySQL, PostgreSQL

OS、JavaVMのリソース監視

(System Resource Agent / Java Resource Agent)

・OSのシステムリソース・Java実行基盤の監視

Linux Windows

(16)

スタンバイ

アクティブ

②アプリケーション停止 ④仮想(フローティング)IPアドレス非活性 ③共有ディスク(ミラーディスク)非活性 ①障害検出

OSシステムログに記録、AlertServiceによる通報

①障害検出 ②アプリ停止 ③切替ﾃﾞｨｽｸ _非活性 ④ﾌﾛｰﾃｨﾝｸﾞ _IP非活性 ⑤ﾌﾛｰﾃｨﾝｸﾞ _IP活性 ⑥切替ﾃﾞｨｽｸ _活性 ⑦アプリ開始ここまでの目安１分前後

フェイルオーバグループ非活性

⑦アプリケーション開始 ⑤仮想(フローティング)IPアドレス活性 ⑥共有ディスク(ミラーディスク)活性

フェイルオーバグループ活性

●フェイルオーバグループクラスタサーバが利用するリソースの集まりです。フェイルオーバグループがノード間を移動します。同一グループに属するリソースは必ず一緒にノード間を移動します。

だいたい1分前後でサーバは切り換わる

障害検出後の業務切替（フェイルオーバ）のフロー

(17)

主流のクラスタ構成

データミラー型

▐ サーバの内蔵ディスクを業務データ引継ぎに利用したクラスタ ▐ 内蔵ディスクを使い低コストで高可用なシステムが構築可能 パブリックLAN

G

サーバダウン監視経路業務のグループ

G

インターコネクトLAN 兼 ミラーコネクトLAN

業務のデータ容量に応じてクラスタ構成(ディスク構成)を選択可能

SAN接続共有ディスク型

パブリックLAN

G

インターコネクトLAN

共有ディスク

▐ 共有ディスクを業務データ引継ぎに利用したクラスタ ▐ 共有ディスクの特長である高性能/高信頼/大容量を活かしたシステムが構築可能 FC接続 iSCSI接続

(18)

仮想化環境の可用性を向上する、

仮想化環境型

構成

▐

仮想化環境でのクラスタ構成



物理サーバのクラスタ化と同じように、仮想マシンのクラスタ化が可能



仮想マシンの中から幅広くシステムを監視

仮想化基盤

業務

障害 VM1 VM2 ▐ハードウェア(仮想マシン)観点 ①システムディスクのI/O障害 ②業務データ格納用ディスクのI/O障害 ③ネットワークのI/O障害 ▐ソフトウェア観点 ④ゲストOSのハングアップ ⑤アプリケーションの停止、またはハングアップ

＜障害検知範囲＞

仮想化基盤

業務を

フェイルオーバ

vSphere IBM PowerVM _{コンテナ（ゾーン）}Solaris KVM XenServer Hyper-V

もちろん仮想化にも対応

(19)

クラウド環境でも自動切換えできる「ＣＬＵＳＴＥＲＰＲＯ」

様々なクラウド環境で提供される仮想マシン上で動作確認済み！

NECビッグローブ

クラウド環境への対応状況

http://jpn.nec.com/clusterpro/clp/cloud/cloud_sysrep.html

IDCフロンティア様 NTTコミュニケーションズ様 _{日本ユニシス様} 伊藤忠テクノソリュージョンズ様 Amazon Web Services LLC 様マイクロソフト様ニフティ様

(20)

（再掲）クラウドを利用するときの考慮点

Windows 仮想マシン DBサーバ OSのホットフィックス適用時、アプリケーションリビジョンアップ時など

計画メンテナンス時には

業務が停止する

Windows 仮想マシン DBサーバ Linux 仮想マシンメールサーバ

サービスダウン

移動せず

仮想ハードウェア

切断

仮想マシン内のソフト障害は

検知できない

ゲストOS再起動

(21)

CLUSTERPROならクラウドでの業務も安心！

仮想マシンの障害対策

仮想マシン仮想マシンゲストOS ゲストOS

▌

仮想マシンの中から幅広く監視

▌

切り替えは業務アプリケーション単位に起動

アプリケーション

障

害

仮想マシンの計画メンテナンス

仮想マシン仮想マシンゲストOS ゲストOS ▌ 仮想マシンの計画メンテナンスに対応 ▌ アプリケーションの停止と起動で切り替え ▌ ゲストOS再起動を伴う際の影響が小さい計画メンテナンス

アプリケーションを

切り替え

アプリケーションを

切り替え

アプリケーション

(22)

クラウド化すると・・・仮想マシンの中が業務の本質

(23)

株式会社レストラン・エクスプレス様

導入の目的

クラウド上にOSSを用いて基幹システムを構築。

事業成長や業態の追加へ柔軟に対応できる高可用でスケーラブルな仕組みを実現。

導入によるメリット／システム構成

事例詳細

従来のシステムでは、新しい業態が増えたと

きのシステム追加・拡張に大きなコストが掛

かった。事業の成長に合わせてスケーラブル

に拡張できるシステムが必要だった。

既存のシステムをクラウド化し、柔軟性と拡張性

を確保。さらにクラウド環境の動作をサポートして

いるCLUSTERPROを用いて基幹システムに求め

られる可用性を確保した。

従来のシステムを拡張するのに比べ10分の１の

コストで同機能を実現できた。以下コメント抜粋

『操作性がよく、まるで空気のような存在。』

『全てのサーバを一度で設定変更できて、管理者

が本来の運用管理業務に集中できる。」

導入事例（クラウド）

（IDCフロンティア社のクラウドサービスを利用）仮想OSは CentOS

(24)

導入事例（遠隔クラスタ）

業種区間距離業務用途形態電力系東京⇔沖縄 1,500km データベース 1対1ミラー部材管理千葉⇔神奈川 50km データベース 1対1ミラー財務会計東京⇔名古屋 260km データベース 1対1ミラー金融A 東京⇔江ノ島間相当 50km データベースハイブリッド金融B 千葉⇔神奈川 80km データベースハイブリッドインフラ大阪⇔東京 390km データベースハイブリッド製造A 敷地内 100m データベース 1対1ミラー製造B 工場間 5km データベース 3対1ミラー自治体敷地内 500m データベース 1対1ミラー

実績リスト

事例１

共有ストレージ

データミラーリング

メインサイト

バックアップサイト

距離 50km ・クラスタソフトによるストレージ・ミラーを低価格で実現・通常はメインサイトで運用、災害時にバックアップサイトに手動切替

事例２

データベース

建物A

建物B

（メインサイト) （バックアップサイト) データベース・火災対策として工場間でクラスタ化

広域／狭域の災害対策にCLUSTERPROの導入事例が増加中

(25)

「我々のテクノロジーパートナーとしてNECを選んだのは非常に懸命な判断でした。ジェッダで洪水が起きた時、他社がシステム停止により多大な被害を受けたのに対し、我が社は簡単な操作だけで素早く業務再開ができた。このとき、我々は NECとNajTechこそが最高のテクノロジーパートナーであると確信しました。」

「我々は

20 分以内に通常通りの運用に戻すことが出来たのです」

保険A社 IT技術マネージャの言葉

遠隔クラスタ、ケーススタディ(海外事例)

ケース保険A

ジェッダの洪水(2011)

・扱うデータや業務の性質が非常にクリティカルであるため、災害対策を検討

・運用管理/操作の容易性、費用対効果の高さ、システムの堅牢性が評価され、

CLUSTERPROの遠隔データミラー型クラスタを採用。

導入の効果

1. 水害発生時に20分以内

の業務再開を実現

2. 企業スタッフの生産性が

15%増加

3. 主要アプリケーションの

ダウンタイムを90%削減

4. ユーザ満足度が20%上昇

30km

Windows Server 2003

Oracle

Windows Server 2003

Oracle

メインサイト

DRサイト

水害発生

(26)

導入の目的

ゲート認証システムにおいて、万一の災害

によるサイトダウンに備え、バックアップサ

イトでの業務継続を可能とする災害対策

が求められていた。

導入によるメリット／システム構成

CLUSTERPROによる遠隔クラスタリングによ

り、災害によるサイトダウンが発生しても「最

小限のダウンタイムで」、「データは完全保障

したまま」バックアップサイトでの業務継続を

可能とするＤＲ（災害対策）ソリューションを

構築。

さらに、メインサイトのサーバにはFTサーバを

採用することにより更なる高可用システムを

実現。

(※1)CLUSTERPROは、海外ではEXPRESSCLUSTERの名称で販売しています。 (※2)上記Webページに関するお問い合わせは<[email protected]>まで LAN LAN （待機系） FTサーバ （現用系）

New York, NY Newark, NJ

iStorage Sシリーズ 40 Km T1 WAN (1.5Mbps) クラスタ Interconnect SQL Server 2000 Windows 2000 2 OnGuard Clients 4 OnGuard Panels Value 1 99.999% Value 2 データの同期ミラーリング Value 3 2分以内の 自動フェイルオーバ Corporate Network SQL Server 2000 Windows 2000 EXPRESSCLUSTER _E XPRESSCLUSTER

NEC Corporation of America

E

XPRESSCLUSTER

製品ページ（英語）

http://www.necam.com/entsw/ExpressCluster/

Lenel社のOnGuardを使用したアメリカ連邦政府機関のゲート認証システムにおいて、

FTサーバとCLUSTERPROを使用した遠隔クラスタリングで、災害対策を実現。

(27)

ＢＩＧＬＯＢＥクラウドアプリストアで

ＣＬＵＳＴＥＲＰＲＯを始めよう！

(28)

ＣＬＵＳＴＥＲＰＲＯで月額利用可能

クラウドアプリストアアプリベンダお客様アプリ利用料金とクラウド料金はまとめて支払い便利で魅力的なアプリを拡充クラウド上のサーバに導入しやすい提供形態クラスタリングソフトウェア CLUSTERPRO X リレーショナルデータベース Microsoft®_{SQL Server}® パートナーによる事前検証済み必要なアプリをワンストップで入手

▌

クラウドアプリストア

第一弾

の対応製品として登場

▌

月額利用サービス

で必要な時に必要な分だけ利用可能

(29)

(30)

クラウドアプリストアでお悩み解決

初期費用ゼロ！

問合せ対応も安心！

OS

仮想サーバ

月額サービス

OS

仮想サーバ

障害

問合せはBIGLOBEにすればよい！クラスタリングを月額料金で利用できる！費用もBIGLOBEにまとめて支払い！

クラウドアプリストアなら、クラスタリング環境をシンプルにご利用いただけます！

(31)

(32)

IDC調査： 12年連続・国内Windows+Linux 高可用クラスタソフトNo.1

2012年

総合売上Ｎｏ.１

6,444

百万円 (単年) ←UNIX+Linux+Windowsの総合ライセンス売上+メンテナンス売上が調査対象。

CLUSTERPRO売上実績の推移

Windows版とLinux版を合算した市場で 12年連続 No.1 6.9% 4.3% 2.6% 12.3% その他 A 14.3% 6.8% 6.2% 3.9% 32.1% E B 10.5% Ｎｏ.１Ｎｏ.１Ｎｏ.１Ｎｏ.１Ｎｏ.１Ｎｏ.１Ｎｏ.１Ｎｏ.１ 2002年 Ｎｏ.１ 2003年 2004年 2005年 2006年 2007年 2008年 2009年 2010年 Ｎｏ.１ 2011年 Linux Windows 41.5% 14.6% 11.4% 9.1% 6.0% 45.8% 9.0% 11.5% 20.2%

Ｎｏ.１

H 売上売上 5.3% 売上売上 D G C F H _D A B C E F B I

2012

年

OS

別売上

Ｎｏ.１ 2012年 売上出典：IDC Japan、2013年7月「国内システムソフトウェア市場 2012年の分析と2013年～2017年の予測」 (J13310103) 2001年 Ｎｏ.１ Linuxは大型案件の受注により17.8％増と2桁成長 Windowsは4.4％増、Hyper-V環境の案件も増加 2.3%

クラウドや遠隔間クラスタなど広いニーズに応え、シェアトップを独走！

(33)

日本を含むアジアにおいて４年連続シェアNo1達成

国内のWindows版とLinux版を合算した市場でも１２年連続シェアNo1達成

海外でも高い実績・評価

ＮＥＣが

Ｎｏ.１

23.8%

No.1

売上

アジア（日本を含む）

_国内

32.1% Linux Windows 41.5% 45.8%

Ｎｏ.１

（EXPRESSCLUSTERは、CLUSTERPROの海外名称です）

No.1

(34)

全国に技術認定の取得者が多数居ります

最寄の販売店にお声掛けください

詳しくはこちら→

http://fcc.express.nec.co.jp/clpnintei/

200社突破！

合格者 800名 (2013年10月末現在)

全国各地で開催中！

開催実績



東京



大阪



北海道



名古屋

構築を安心して任せられる、認定技術者増加中！

▌

CLUSTERPRO技術認定制度は、CLUSTERPROを構築するに

あたり必要な知識・技能を修得いただくための構築パートナー向け

認定制度です。

▌

既に

２００社８００名

が全国に居りますので、

安心して導入をお任せください。



静岡



愛媛



高知



石川



新潟



長野



大宮

(35)

本日のまとめ

クラウド基盤の障害/災害でも業務継続を実現するCLUSTERPRO X の特長



クラウドでも業務停止リスクを最小化



豊富な監視機能により、精確な障害検知が可能



障害時だけでなく広域災害時にも業務継続が可能

安心の実績No.1 ＣＬＵＳＴＥＲＰＲＯが

お客さまの大切な業務を守ります！

(36)

クラサバ市場秋葉原店

http://www.nec.co.jp/products/express/ichiba

/

秋葉原でデモをご覧いただけます

製品ご紹介サイト

http://jpn.nec.com/clusterpro/

(フル機能が使える試用版をダウンロードできます！) (ドキュメント多数公開中: (随時更新中))

お問い合わせ先

[email protected]

製品ご紹介サイト／お問い合わせ先

・定休日月・日・祝・電話番号 03-5294-9802 ・営業時間 11：00～17：00

7-E クラウドで見過ごされがちな 可用性の課題と事業継続の勘所 ~ 海外の災害対策事例付き ~ 2013/11/14 日本電気株式会社 システムソフトウェア事業部 佐藤陽一

クラウドで見過ごされがちな

可用性の課題と事業継続の勘所

～海外の災害対策事例付き～

2013/11/14

日本電気株式会社

システムソフトウェア事業部

7-E



コスト削減



ビジネスの変動に素早く対応



ECO

（省電力化）



評価/テスト環境用途

クラウドで見過ごされがちな留意点

クラウドであっても、物理サーバは存在する

前提

物理サーバ

ヒトが作った機械が介在する以上、絶対落ちないシステムはあり得ません！

可用性への考慮が足りないと・・・

▐

システム停止による影響例

情報システムの停止は、自社ビジネスへの影響はもちろん、他企業や

社会へも影響を与え、経営へのダメージは計り知れません。

▐

最悪の事態



顧客への損害賠償



政府による行政指導

・・・

クラウド事業者が提供する解決策

ハード障害時に仮想マシンごと切り替える

物理サーバ

物理サーバ

サーバダウン

クラウドを利用するときの考慮点

計画メンテナンス時には

業務が停止

する

サービスダウン

移動せず

仮想ハードウェア

切断

仮想マシン内のソフト障害は

検知できない

単体サーバシステムにおけるシステム停止要因

単体サーバシステム停止要因から可用性を検討する

76%

障害発生による停止

２４％

計画保守停止

①

②

③

④

Ⓐ

Ⓑ

Ⓒ

Ⓓ

Ⓔ

クラウドのＨＡによるシステム停止要因のカバー範囲

クラウドのHA機能ではシステム停止要因の21％しかカバーできない

単体サーバシステム停止要因

21％

クラウドのＨＡ機能に

よるカバー範囲

可用性にはまだまだ課題が多いことが否めない

①

②

③

④

Ⓐ

Ⓑ

Ⓒ

Ⓓ

Ⓔ

7-E クラウドで見過ごされがちな可用性の課題と事業継続の勘所 ~ 海外の災害対策事例付き ~ 2013/11/14 日本電気株式会社システムソフトウェア事業部佐藤陽一

_Ⓒ

_Ⓒ

・保守担当が駆けつけるまで業務停止

・ビジネス機会損失

・企業としての「信用」失墜

・別のサーバが自動的に業務継続

・ビジネス機会の損失を最小限に抑える

・導入した企業は安心してビジネスに臨める

ＣＬＵＳＴＥＲＰＲＯＸ監視Ａｇｅｎｔ