クラウドで見過ごされがちな
可用性の課題と事業継続の勘所
~海外の災害対策事例付き~
2013/11/14
日本電気株式会社
システムソフトウェア事業部
7-E
コスト削減
ビジネスの変動に素早く対応
ECO
(省電力化)
評価/テスト環境用途
クラウドで見過ごされがちな留意点
クラウドであっても、物理サーバは存在する
ゲストOS 仮想マシン DBサーバ ゲストOS 仮想マシン メールサーバ前提
物理サーバ
ヒトが作った機械が介在する以上、絶対落ちないシステムはあり得ません!
可用性への考慮が足りないと・・・
▐
システム停止による影響例
業種 システム停止による影響例 金融業 •市場経済活動の停止による、大きな社会的影響 •社会的信用の失墜 製造業 •生産活動の停止に伴う経済的損失 •元請・下請企業への影響とそれにともなう信用の失墜 •機会損失 流通業 •販売活動の停止による経済的損失 •社会的信用の失墜 業務 システム停止による影響例 メールシステム •営業活動への影響 社内・顧客との情報伝達の効率低下による 生産システム •生産活動停止による、期間損失 •納期遅延による、CS低下 受発注システム •生産活動の停止による機会損失 •受注作業の停止による機会損失・顧客からの信用失墜 ファイルサーバ •共有ファイルへのアクセスができないことによる作業等の停 滞 企業活動への影響例 業務別に見る影響例情報システムの停止は、自社ビジネスへの影響はもちろん、他企業や
社会へも影響を与え、経営へのダメージは計り知れません。
▐
最悪の事態
顧客への損害賠償
政府による行政指導
・・・
クラウド事業者が提供する解決策
ハード障害時に仮想マシンごと切り替える
ゲストOS 仮想マシン DBサーバ ゲストOS 仮想マシン メールサーバ物理サーバ
物理サーバ
ゲストOS 仮想マシン DBサーバ ゲストOS 仮想マシン メールサーバサーバダウン
クラウドを利用するときの考慮点
Windows 仮想マシン DBサーバ OSのホットフィックス適用時、アプリ ケーションリビジョンアップ時など計画メンテナンス時には
業務が停止
する
Windows 仮想マシン DBサーバ Linux 仮想マシン メールサーバサービスダウン
移動せず
仮想ハードウェア
切断
仮想マシン内のソフト障害は
検知できない
ゲストOS再起動単体サーバシステムにおけるシステム停止要因
単体サーバシステム停止要因から可用性を検討する
(内訳) 37%:Ⓐ OSアップグレード/サービスパック・ホットフィクス適用によるOS再起動 13%:Ⓑ アプリケーションインストール/アプリケーション保守 12%:Ⓒ OS設定変更を反映するためのOS再起動 7%:Ⓓ 新しいハードウェアの接続と設定を有効にするためのOS再起動 7%:Ⓔ その他によるOS再起動 (内訳) 9%:① OS/ドライバのパニック 6%:② アプリケーションエラー 5%:③ ハードウェア障害 4%:④ その他の障害76%
障害発生による停止
24%
計画保守停止
出典元:マイクロソフト社調べ2005/6、「Windows Server 2003, EEの信頼性」資料
①
②
③
④
Ⓐ
Ⓑ
Ⓒ
Ⓓ
Ⓔ
クラウドのHAによるシステム停止要因のカバー範囲
クラウドのHA機能ではシステム停止要因の21%しかカバーできない
単体サーバシステム停止要因
21%
クラウドのHA機能に
よるカバー範囲
(内訳) 9%:① OS/ドライバのパニック 5%:③ ハードウェア障害 7%:Ⓓ 新しいハードウェアの接続と 設定を有効にするためのOS再起動可用性にはまだまだ課題が多いことが否めない
①
②
③
④
Ⓐ
Ⓑ
Ⓒ
Ⓓ
Ⓔ
業務継続
障害発生
フェイルオーバ アクセスする宛先 はそのままでよい障害発生
業務停止
・ 保守担当が駆けつけるまで業務停止
・ ビジネス機会損失
・ 企業としての「信用」失墜
・ 別のサーバが自動的に業務継続
・ ビジネス機会の損失を最小限に抑える
・ 導入した企業は安心してビジネスに臨める
シングルサーバの場合
クラスタリングサーバの場合
システム異常を確実に検知し、業務をフェイルオーバ
障害発生時に業務を継続
(内訳) 37%:OSアップグレード/サービスパック・ ホットフィクス適用によるOS再起動 13%:アプリケーションインストール/ アプリケーション保守 12%:OS設定変更を反映するためのOS再起動 7%:新しいハードウェアの接続と設定を有効にするためのOS再起動 7%:その他によるOS再起動
障害発生による停止
24% (内訳) 9%:OS/ドライバのパニック発生 6%:アプリケーションエラー発生 5%:ハードウェア障害発生 4%:その他の障害 単体 サーバ計画保守停止
76%(出典元:マイクロソフト社調べ2005/6、「Windows Server 2003, EEの信頼性」資料
システム停止要因
業務
業務
業務
業務
保守
保守
*:クラスタ化で、保守による業務停止時間を業務移行時間だけでOK!
待機系よりメンテナンスして、フロント業務を止めない*
①
②
③
④
計画メンテナンスでも業務継続
現用系
待機系
アプリケーション層
OS層
ハードウェア層
NIC NIC HBA 監視エージェントアプリケーション
システム ディスクアプリケーション層
OS層
ハードウェア層
NIC NIC HBA システム ディスク ユーザデータ クラスタパーティション OS空間 正常応答監視 存在監視 ハングアップ監視 OS空間 ハングアップ監視 リンクダウン監視 Ping応答監視 ルータ、その他のネットワーク機器 アクセスチェック アクセスチェック★待機系も常に監視!
異常発生を素早く察知
現用系サーバが業務継続できる状態なのか?を広範囲に監視
× アプリケーションのハングアップ検出 × アプリケーションからのレスポンス異常検出 ○ アプリケーションの異常終了(要:存在監視設定) ○ アプリケーションのハングアップ検出 ○ アプリケーションからのレスポンス異常検出 ○ アプリケーションの異常終了 (要:存在監視設定) アプリケー ション起動 プロセスが消滅すると 異常と判定 アプリケーションの ハングアップは 検出しない ハング アップ アプリケー ション起動 Agent Agent Agentが定期的に対象の アプリケーションをチェック アプリケーションの ハングアップを 検出できる。
Agent(オプション)なしの場合
Agent(オプション)ありの場合
障 害 発 生
単なるアプリケーションの存在監視だけでなく、定期的に正常応答が返るか確認します。
もしもハングアップや異常を検知した場合、フェイルオーバして業務継続できます。
監視Agent(オプション)の導入によりハングアップ・異常状態まで監視可能
検出可能な特定アプリケーション障害
アンチウイルスソフト (Anti-Virus Agent)
アプリケーションサーバ (Application Server Agent)
ファイルサーバ (File Server Agent)
インターネットサーバ (Internet Server Agent)
Oracle, SQL Server, DB2, ODBC, PowerGresなど
Windows Linux
Oracle, DB2, Sybase, PostgreSQL, PowerGresPlus, MySQL
IIS, SMTP/POP/IMAP4, HTTP,HTTPSなど
Windows
Linux
apache, httpd, sendmail, postfix, popdなど
Linux
Samba, NFS
Linux
Tuxedo, WebLogic, WebSphere, Oracle ASなど
Windows ウイルスバスター コーポレートエディション Windows
▌
利用ケースの多い、6つのカテゴリーに対応
大切なアプリケーションのハングアップや異常状態まで詳細に監視します!
データベース (Database Agent)
CLUSTERPRO X 監視Agent
Solaris SolarisOracle, MySQL, PostgreSQL
OS、JavaVMのリソース監視
(System Resource Agent / Java Resource Agent)
・OSのシステムリソース ・Java実行基盤の監視
Linux Windows
スタンバイ
アクティブ
②アプリケーション停止 ④仮想(フローティング)IPアドレス非活性 ③共有ディスク(ミラーディスク)非活性 ①障害検出OSシステムログに記録、AlertServiceによる通報
①障害検出 ②アプリ停止 ③切替ディスク 非活性 ④フローティング IP非活性 ⑤フローティング IP活性 ⑥切替ディスク 活性 ⑦アプリ開始 ここまでの目安1分前後フェイルオーバグループ非活性
⑦アプリケーション開始 ⑤仮想(フローティング)IPアドレス活性 ⑥共有ディスク(ミラーディスク)活性フェイルオーバグループ活性
●フェイルオーバグループ クラスタサーバが利用するリソースの集ま りです。フェイルオーバグループがノード間 を移動します。同一グループに属するリ ソースは必ず一緒にノード間を移動しま す。だいたい1分前後でサーバは切り換わる
障害検出後の業務切替(フェイルオーバ)のフロー
主流のクラスタ構成
データミラー型
▐ サーバの内蔵ディスクを業務データ引継ぎに利用 したクラスタ ▐ 内蔵ディスクを使い低コストで高可用なシステム が構築可能 パブリックLANG
サーバダウン監視経路 業務のグループG
インターコネクトLAN 兼 ミラーコネクトLAN業務のデータ容量に応じてクラスタ構成(ディスク構成)を選択可能
SAN接続 共有ディスク型
パブリックLANG
インターコネクトLAN共有ディスク
▐ 共有ディスクを業務データ引継ぎに利用したクラ スタ ▐ 共有ディスクの特長である高性能/高信頼/大容 量を活かしたシステムが構築可能 FC接続 iSCSI接続仮想化環境の可用性を向上する、
仮想化環境型
構成
▐
仮想化環境でのクラスタ構成
物理サーバのクラスタ化と同じように、仮想マシンのクラスタ化が可能
仮想マシンの中から幅広くシステムを監視
仮想化基盤
業務
業務
障害 VM1 VM2 ▐ハードウェア(仮想マシン)観点 ①システムディスクのI/O障害 ②業務データ格納用ディスクのI/O障害 ③ネットワークのI/O障害 ▐ソフトウェア観点 ④ゲストOSのハングアップ ⑤アプリケーションの停止、 またはハングアップ<障害検知範囲>
仮想化基盤
業務を
フェイルオーバ
vSphere IBM PowerVM コンテナ(ゾーン) Solaris KVM XenServer Hyper-Vもちろん仮想化にも対応
クラウド環境でも自動切換えできる「CLUSTERPRO」
様々なクラウド環境で提供される仮想マシン上で動作確認済み!
NECビッグローブクラウド環境への対応状況
http://jpn.nec.com/clusterpro/clp/cloud/cloud_sysrep.html
IDCフロンティア様 NTTコミュニケーションズ様 日本ユニシス様 伊藤忠 テクノソリュージョンズ様 Amazon Web Services LLC 様 マイクロソフト 様 ニフティ 様(再掲)クラウドを利用するときの考慮点
Windows 仮想マシン DBサーバ OSのホットフィックス適用時、アプリ ケーションリビジョンアップ時など計画メンテナンス時には
業務が停止する
Windows 仮想マシン DBサーバ Linux 仮想マシン メールサーバサービスダウン
移動せず
仮想ハードウェア
切断
仮想マシン内のソフト障害は
検知できない
ゲストOS再起動CLUSTERPROならクラウドでの業務も安心!
仮想マシンの障害対策
仮想マシン 仮想マシン ゲストOS ゲストOS▌
仮想マシンの中から幅広く監視
▌
切り替えは業務アプリケーション単位に起動
アプリケーション障
害
仮想マシンの計画メンテナンス
仮想マシン 仮想マシン ゲストOS ゲストOS ▌ 仮想マシンの計画メンテナンスに対応 ▌ アプリケーションの停止と起動で切り替え ▌ ゲストOS再起動を伴う際の影響が小さい 計画メンテナンスアプリケーションを
切り替え
アプリケーションを
切り替え
アプリケーションクラウド化すると・・・仮想マシンの中が業務の本質
株式会社レストラン・エクスプレス様
導入の目的クラウド上にOSSを用いて基幹システムを構築。
事業成長や業態の追加へ柔軟に対応できる高可用でスケーラブルな仕組みを実現。
導入によるメリット/システム構成事例詳細
従来のシステムでは、新しい業態が増えたと
きのシステム追加・拡張に大きなコストが掛
かった。事業の成長に合わせてスケーラブル
に拡張できるシステムが必要だった。
既存のシステムをクラウド化し、柔軟性と拡張性
を確保。さらにクラウド環境の動作をサポートして
いるCLUSTERPROを用いて基幹システムに求め
られる可用性を確保した。
従来のシステムを拡張するのに比べ10分の1の
コストで同機能を実現できた。以下コメント抜粋
『操作性がよく、まるで空気のような存在。』
『全てのサーバを一度で設定変更できて、管理者
が本来の運用管理業務に集中できる。」
導入事例(クラウド)
(IDCフロンティア社のクラウドサービスを利用) 仮想OSは CentOS導入事例(遠隔クラスタ)
業種 区間 距離 業務用途 形態 電力系 東京⇔沖縄 1,500km データベース 1対1ミラー 部材管理 千葉⇔神奈川 50km データベース 1対1ミラー 財務会計 東京⇔名古屋 260km データベース 1対1ミラー 金融A 東京⇔江ノ島間相当 50km データベース ハイブリッド 金融B 千葉⇔神奈川 80km データベース ハイブリッド インフラ 大阪⇔東京 390km データベース ハイブリッド 製造A 敷地内 100m データベース 1対1ミラー 製造B 工場間 5km データベース 3対1ミラー 自治体 敷地内 500m データベース 1対1ミラー実績リスト
事 例 1
共有ストレージ
共有ストレージ
データミラーリング
メインサイト
バックアップサイト
距離 50km ・クラスタソフトによるストレージ・ミラーを低価格で実現 ・通常はメインサイトで運用、災害時にバックアップサイト に手動切替事 例 2
データベース建物A
建物B
(メインサイト) (バックアップサイト) データベース ・火災対策として工場間でクラスタ化広域/狭域の災害対策にCLUSTERPROの導入事例が増加中
「我々のテクノロジーパートナーとしてNECを選んだのは非常に懸命な判断でした。 ジェッダで洪水が起きた時、他社がシステム停止により多大な被害を受けたのに 対し、我が社は簡単な操作だけで素早く業務再開ができた。 このとき、我々は NECとNajTechこそが最高のテクノロジーパートナーであると確信しました。」
「我々は
20
分以内に通常通りの運用に戻すことが出来たのです」
保険A社 IT技術マネージャの言葉遠隔クラスタ、ケーススタディ(海外事例)
ケース 保険A
ジェッダの洪水(2011)・扱うデータや業務の性質が非常にクリティカルであるため、災害対策を検討
・運用管理/操作の容易性、費用対効果の高さ、システムの堅牢性が評価され、
CLUSTERPROの遠隔データミラー型クラスタを採用。
導入の効果
1. 水害発生時に20分以内
の業務再開を実現
2. 企業スタッフの生産性が
15%増加
3. 主要アプリケーションの
ダウンタイムを90%削減
4. ユーザ満足度が20%上昇
30km
Windows Server 2003Oracle
Windows Server 2003Oracle
メインサイト
DRサイト
水害 発生導入の目的
ゲート認証システムにおいて、万一の災害
によるサイトダウンに備え、バックアップサ
イトでの業務継続を可能とする災害対策
が求められていた。
導入によるメリット/システム構成CLUSTERPROによる遠隔クラスタリングによ
り、災害によるサイトダウンが発生しても「最
小限のダウンタイムで」、「データは完全保障
したまま」バックアップサイトでの業務継続を
可能とするDR(災害対策)ソリューションを
構築。
さらに、メインサイトのサーバにはFTサーバを
採用することにより更なる高可用システムを
実現。
(※1)CLUSTERPROは、海外ではEXPRESSCLUSTERの名称で販売しています。 (※2)上記Webページに関するお問い合わせは<[email protected]>まで LAN LAN (待機系) FTサーバ (現用系)New York, NY Newark, NJ
iStorage Sシリーズ 40 Km T1 WAN (1.5Mbps) クラスタ Interconnect SQL Server 2000 Windows 2000 2 OnGuard Clients 4 OnGuard Panels Value 1 99.999% Value 2 データの同期ミラーリング Value 3 2分以内の 自動フェイルオーバ Corporate Network SQL Server 2000 Windows 2000 EXPRESSCLUSTER E XPRESSCLUSTER