11g検証報告書

(1)

日立と

Oracle が実現する

BCM プラットフォームソリューション

＆

Oracle Active Data Guard 検証報告

Date: 2008 年 3 月

Version: 1.0

(2)

- 2 -

１はじめに

2007 年 10 月、Oracle Database の最新メジャーバージョン Oracle Database 11g Release 1 がリリースされました。今回のバージョンアップでは、万一の本番システム災害時にも企業の重要なデータを保護し、遠隔の待機システムにフェイルオーバーすることで業務の継続を実現する Oracle Data Guard において、いくつかの革新的な新機能が実装されています。

今回、日本オラクル株式会社と株式会社日立製作所はOracle GRID Center にて、日立の高信頼ブレードサーバBladeSymphony と Oracle Database 11g Release 1 の組み合わせにおける実システムを想定した大規模トランザクション環境を構築し、Oracle Data Guard の検証を実施しました。

本ホワイトペーパでは、日立ハードウェアとOracle Database 11g Release 1 の組み合わせが実現するBCM(Business Continuity Management)プラットフォームソリューションと、Oracle Database 11g Release 1 の新オプション Oracle Active Data Guard が提供する機能の有効性の検証結果についてご紹介いたします。

(3)

謝辞

2006 年 11 月、日本オラクル株式会社は株式会社日立製作所やグリッド戦略パートナー各社と協業体制を確立し、企業のシステム基盤の最適化を実現する次世代のビジネス・ソリューションを構築するため、先鋭の技術を集結した「Oracle GRID Center(オラクル・グリッド・センター)」 (http://www.oracle.co.jp/solutions/grid_center/index.html) を開設しました。本稿は、 Oracle GRID Center の趣旨にご賛同頂いたインテル株式会社、シスコシステムズ合同会社のハードウェア・ソフトウェアのご提供および技術者によるご支援などの多大なるご協力を得て作成しております。ここに協賛企業各社およびご協力頂いた技術者に感謝の意を表します。 ※本ドキュメントの無断転載を禁じます免責事項このドキュメントは単に情報として提供され、内容は予告なしに変更される場合があります。このドキュメントに誤りが無いことの保証や、商品性又は特定目的への適合性の黙示的な保証や条件を含め明示的又は黙示的な保証や条件は一切無いものとします。日本オラクル株式会社および株式会社日立製作所は、このドキュメントについていかなる責任も負いません。また、このドキュメントによって直接又は間接にいかなる契約上の義務も負うものではありません。このドキュメントを形式、手段(電子的又は機械的)、目的に関係なく、日本オラクル株式会社および株式会社日立製作所の書面による事前の承諾なく、複製又は転載することはできません。商標類 BladeSymphony は、国内および海外における日立製作所の登録商標です。 Oracle は，米国 Oracle Corporation 及びその子会社，関連会社の登録商標です。

Intel，Itanium および Intel Xeon は，アメリカ合衆国およびその他の国におけるインテルコーポレーションまたはその子会社の商標または登録商標です。

Red Hat は，米国およびその他の国で Red Hat, Inc. の登録商標若しくは商標です。 Linux は、Linus Torvalds の米国およびその他の国における登録商標あるいは商標です。 Cisco は，米国 Cisco Systems, Inc. の米国および他の国々における登録商標です。その他の名称は、各社の商標または登録商標です。

(4)

２目次

１はじめに... 2

２目次... 4

３ Business Continuity Management(BCM)の重要性... 6

４ Oracle Data Guard... 7

５日立とOracleが実現するBCMプラットフォームソリューション例 ... 10

６ Oracle Active Data Guard検証 ... 12

６-１検証目的と検証内容 ... 12 ６-２検証環境 ... 13 ６-２-１システム構成... 13 ６-２-２使用ハードウェア ... 13 ６-２-３使用ソフトウェア ... 14 ６-２-４負荷について... 14 ７検証結果... 15 ７-１ネットワーク経由の複製機能によるスタンバイ・データベース作成 ... 15

７-２ Oracle Active Data Guardによるスタンバイサイト有効活用とスタンバイサイト有効活用時のシステムダウンタイム短縮効果... 19 ７-３スタンバイ・データベースにおけるREDO適用性能の測定... 23 ７-４ファスト・スタート・フェイルオーバー... 27 ７-５高負荷トランザクション状況下でのフェイルオーバー... 29 ８まとめ ... 32 - 4 -

(5)

図目次

図４-1 Oracle Data Guard概要図 ... 7

図４-2 Oracle Active Data Guardによるスタンバイ・データベースの有効活用 ... 8

図４-3 スナップショット・スタンバイによるスタンバイ・データベースの有効活用 ... 8

図４-4 ファスト・スタート・フェイルオーバーの動作 ... 9

図５-1 日立のハードウェアとOracle Data Guardによるオンラインシステムメンテナンス ... 10 図５-2 スタンバイコストを抑えたデータ保護と迅速なサーバリソース追加の実現... 11 図６-1 検証システム構成 ... 13 図７-1 従来のスタンバイ・データベース作成方法... 16 図７-2 ネットワーク経由の複製機能によるスタンバイ・データベース作成... 16 図７-3 従来の課題スタンバイサイト活用時間とシステムダウンタイムの関係 ... 20

図７-4 Oracle Active Data Guardによるスタンバイサイト有効活用 ... 21

図７-5 今回検証した想定業務シナリオ... 22 図７-6 フィジカル・スタンバイへのフェイルオーバーの流れ ... 23 図７-7 REDO適用性能が低い場合... 24 図７-8 十分なREDO適用性能を確保できている場合... 24 図７-9 ファスト・スタート・フェイルオーバーの動作 ... 27 図７-10 高負荷トランザクション状況下でのフェイルオーバー検証 ... 29 表目次表７-1 適用性能比較パターン ... 25 表７-2 検証構成パターン ... 29 表７-3 検証した障害パターン ... 30 表７-4 検証した障害パターンと検証結果 ... 30 グラフ目次グラフ６-1 負荷生成時のプライマリ・データベースサーバのCPU使用率... 15 グラフ７-1 スタンバイ・データベース作成時間の比較(従来方法とネットワーク経由の複製機能によるスタンバイ・データベース作成) ... 17 グラフ７-2 従来方法によるスタンバイ・データベース作成時のCPU利用率とネットワーク転送量(上：プライマリ・データベースサーバ、下：スタンバイ・データベースサーバ) ... 17 グラフ７-3 ネットワーク経由の複製機能によるスタンバイ・データベース作成時のCPU利用率とネットワーク転送量(上：プライマリ・データベースサーバ、下：スタンバイ・データベースサーバ) ... 18 グラフ７-4 ネットワーク経由の複製機能によるスタンバイ・データベース作成時の業務トランザクションスループットとプライマリ・データベースサーバのCPU使用率とネットワーク転送量... 19

グラフ７-5 Oracle Active Data GuardによるスタンバイサイトCPUリソースの有効活用効果... 21

グラフ７-6 Oracle Active Data Guardによるフィジカル・スタンバイ有効活用時のシステムダウンタイム短縮効果... 22

グラフ７-7 REDO生成量とREDO適用性能の比較 ... 25

グラフ７-8 適用性能比 ... 26

グラフ７-9 プライマリ・データベースの全インスタンス障害時のトランザクションと各データベースサーバのCPU使用率の挙動... 31

(6)

３ Business Continuity Management(BCM)の重要性

昨今の企業におけるIT システムの重要性はますます高くなっています。たとえ万一の地震などの天災によるサイト障害やハードウェアに起因するようなシステム障害が発生してしまったとしても、企業は顧客情報などのビジネス上重要なデータを保護することと、迅速なシステム復旧による継続したサービスを提供することを求められています。まとめると、以下のような要件が挙げられます。ビジネスの継続性重要なサービスが使用もしくは提供できなくなった場合、ビジネス全体に多大な影響を与えます。収益が失われるのはもとより、顧客や取引企業からの信頼を失うこともあります。データの保護企業にとってデータは最も重要な財産のひとつです。給与や従業員情報、顧客レコード、貴重な研究結果、財務レコード、履歴情報などのデータを企業が失った場合、そのデータの再構築や再生成が不可能でないとしても、非常に多くのコストを必要とし会社が事業を継続できるかどうかの重大な影響を与えることになります。変化に柔軟に対応するシステム障害などの計画外停止におけるビジネス継続性だけでなく、ソフトウェアのアップグレードやハードウェアメンテナンスなどの計画停止においてもシステムの停止時間を最小限に抑え、ビジネスへの影響を最小限に抑える必要があります。オープンシステムにおいては、ソフトウェアの進化が早く、システムを常に最新の堅牢な状態に保つために、短いサイクルでアップグレードやパッチの適用を実施していくことが重要になります。ハードウェアに関しても、CPU のマルチコア化などの進化が早く、最新のハードウェアに入れ替えるだけで、性能向上やTCO 削減が実現可能なケースもあります。このような変化に柔軟に対応するシステムが求められているのです。費用対効果 - スタンバイサイトの有効活用 - 災害時のために待機しているスタンバイサイトのサーバリソースを有効活用することは、費用対効果を考えた場合、非常に重要です。万一のための災害対策としても、通常運用時のリソース効率が低ければ、システム予算確保などにおいて、大きなハードルとなります。

日立のハードウェアである BladeSymphony や Hitachi Storage と、ORACLE が提供する Oracle Real Application Clusters (Oracle RAC)および Oracle Data Guard を組み合わせることにより、このような課題を解決するソリューションを提供することができます。

- 6 -

(7)

４ Oracle Data Guard

Oracle Data Guard は、本番データベース（プライマリ・データベースと呼びます）のコピーとしてスタンバイ・データベースを作成し、そのメンテナンス、管理および監視など、一連の包括的なサービスを提供する機能です。スタンバイ・データベースはプライマリ・データベースとトランザクション一貫性のあるコピーとして作成され、作成後はプライマリ・データベースから送信される REDO を適用することによって、プライマリ・データベースの変更に追従します。プライマリ・データベースが計画的または計画外の停止によって使用不可能になった場合は、スタンバイ・データベースをプライマリ・データベースに切り替えることで、停止時間を最小限にできます。Oracle Data Guard は Oracle Database Enterprise Edition が提供する機能です。

コピー

障害時

本番データベーススタンバイ・データベース本番データベーススタンバイ・データベース通常時は本番データベースに接続　　障害発生時には　　スタンバイ・データベースに接続

通常時

図４-1 Oracle Data Guard 概要図

スタンバイ・データベースには2 つの構成があります。1 つはプライマリ・データベースに対して物理ブロックレベルで同じであるフィジカル・スタンバイ・データベースであり、もう 1 つは論理的に行データレベルで同じであるロジカル・スタンバイ・データベースです。

Oracle Database 11g Release 1 では、Oracle Data Guard に対して様々な機能拡張がされました。本検証で注目した新機能について紹介します。

Oracle Active Data Guard

従来のリリースでは、フィジカル・スタンバイ・データベースのデータを参照するには、REDO 適用を停止する必要がありました。Oracle Database 11g Release 1 では、新たに提供されたOracle Active Data Guard オプションによって REDO 適用を継続したままフィジカル・スタンバイ・データベースのデータを参照できるようになりました。この機能をリアルタイム・クエリーと呼びます。この機能拡張により、フィジカル・スタンバイ・データベースをレポーティング業務等で常用する運用が現実的なものとなります。

(8)

フィジカル・スタンバイプライマリ・データベース通常業務バッチ処理レポーティングバックアップ取得レポーティング処理、バックアップ取得をスタンバイ・データベースにオフロード

Oracle Data Guard

図４-2 Oracle Active Data Guard によるスタンバイ・データベースの有効活用 Oracle Active Data Guard ではスタンバイ・データベースからバックアップを取得する際にチェンジ・トラッキング・ファイルを使用した高速増分バックアップも利用できるため、高可用性と、本番サイトにおける計画または計画外停止に対する災害保護の利便性が提供されます。スナップショット・スタンバイスナップショット・スタンバイは、簡単な操作でフィジカル・スタンバイ・データベースを一時的に読み書き可能なテスト用データベースとして使用することを可能にします。テスト用データベースとして使用している間もプライマリ・データベースの REDO は受信されるため、データ保護の仕組みは継続します。また、スナップショット・スタンバイからフィジカル・スタンバイ・データベースに戻す作業も簡単な操作で可能です。スナップショット・スタンバイプライマリ・データベース通常業務

Oracle Data Guard

テスト用クライアントオープン中も REDO転送は継続一時的に更新可能なテスト環境としてオープン図４-3 スナップショット・スタンバイによるスタンバイ・データベースの有効活用 - 8 -

(9)

ネットワーク経由の複製機能によるスタンバイ・データベース作成

従来のリリースでは、スタンバイ・データベースを作成するにはプライマリサイトでのプライマリ・データベースのフルバックアップ取得、スタンバイサイトへのバックアップの転送およびリストアが必要でした。Oracle Database 11g Release 1 では、データベースの複製を行う際に使用するRecovery Manager (RMAN)の duplicate コマンドが機能拡張し、ネットワーク経由のデータベース複製が可能になりました。この機能を使用することで、稼働中のプライマリ・データベースのデータベース・ファイルを直接スタンバイサイトにコピーしてスタンバイ・データベースを作成することが可能になり、ストレージ容量の節約とスタンバイ・データベース作成時間の短縮が実現します。ファスト・スタート・フェイルオーバーファスト・スタート・フェイルオーバーは、プライマリ・データベースの障害検知と検知後のフェイルオーバーを自動的に行う仕組みを提供します。障害検知とフェイルオーバーの開始は、プライマリ・データベース、スタンバイ・データベースとは別に配置されたオブザーバが行います。オブザーバはData Guard Broker に含まれるコンポーネントです。ファスト・スタート・フェイルオーバーによって、プライマリ・データベースの障害発生時に管理者の介入なしにフェイルオーバーをさせることが可能になります。自動フェイルオーバー REDO転送スタンバイ・データベースプライマリ・データベース監視オブザーバ監視図４-4 ファスト・スタート・フェイルオーバーの動作従来のリリースでは、ファスト・スタート・フェイルオーバーは REDO 同期転送が必須となる最大可用性モード設定時のみ使用可能でしたが、Oracle Database 11g Release 1 では、非同期での REDO 転送設定が可能な最大パフォーマンスモードにも対応し、より多くの環境での導入が可能になりました。また、障害検知時にフェイルオーバーを開始するかどうかの設定をより柔軟に行えるようになり、様々なフェイルオーバー要件に対応できるようになりました。

(10)

- 10 -

５日立と

Oracleが実現するBCMプラットフォームソリューション

例

日立のハードウェアとOracle Database 11g Release 1 の組み合わせが実現する BCM ソリューションについて、幾つかの例をご紹介いたします。

システムのオンラインメンテナンスの実現

図５-1は本番業務環境とテスト環境からなるData Guardシステム構成例です。テスト環境はOracle Active Data Guardを利用したレポーティング業務として、あるいはスナップショット・スタンバイ機能を利用した開発環境として使用します。このような構成では、Oracle Data Guardのローリングアップグレード機能によるOracleソフトウェアのパッチセット適用やバージョンアップが可能なだけでなく、Oracle Data Guardスイッチオーバー機能と組み合わせたBladeSymphonyサーバブレードの交換や追加、 Hitachi Storageの仮想化技術を利用した本番環境へのシームレスなオンラインディスクの追加などが可能です。このように、日立のハードウェアとOracle Database 11g Release 1 を組み合わせることにより、ソフトウェアとハードウェアの両面から、本番業務への影響を最小限に抑えたシステムのオンラインメンテナンスを実現することが可能になります。本番環境テスト環境

Oracle Data Guaｒd

構成 ①テスト環境へ　　スイッチオーバー ②新ブレード　　サーバ交換 Oracle ローリングアップグレードストレージプールへのオンラインハードディスク追加オンラインブレードサーバ交換 LVM/ASM/その他OS設定の必要なしディスク認識のためのリブート必要なしスイッチオーバーにより本番環境を切り替えることで業務への影響を最小化

図５-1 日立のハードウェアと Oracle Data Guard によるオンラインシステムメンテナンス

スタンバイコストを抑えたデータ保護と迅速なサーバリソース追加の実現

図５-2は、スタンバイ・データベースのサーバリソースの割り当てを最小にした構成例です。スタンバイ・データベースへの投資を可能な限り抑えつつ、Oracle Data Guard によるデータ保護を実現しています。万が一の震災などにより、プライマリ・データベースが機能しなくなってしまった場合、スタンバイ・データベースにフェイルオーバー

(11)

することで業務を継続することが可能ですが、本来のサービスレベルまでに復旧するには、プライマリ・データベースと同等の処理能力を確保するなど、サーバへの追加リソース割り当てを行う必要があります。このような作業は非常に手間と時間がかかりますが、BladeSymphonyのプロビジョニング機能とOracle Real Application Clustersのプロビジョニングをあわせて利用すれば、サーバリソース追加作業のコストを大幅に削減し、迅速な対応が可能になります。プライマリ・データベース Data Guaｒd 構成通常運用時 4ノードRAC 1ノードRAC Data Guaｒd 構成プライマリ・データベース障害時 4ノードRAC 1ノードRAC 災害でプライマリ・データベースに障害発生・・・スタンバイ・データベースでは必要最低限のサーバーリソースを割り当てることで、投資コストを抑えたデータ保護を実現スタンバイ・データベースで業務を継続する場合は、サーバリソースの追加が必要。 BladeSymphonyのプロビジョニング機能と Oracleのプロビジョニング機能を利用することで追加作業の大幅簡略化と迅速な対応を実現

+ 3ノード

プロビジョニングスタンバイ・データベースプライマリ・データベーススタンバイ・データベース図５-2 スタンバイコストを抑えたデータ保護と迅速なサーバリソース追加の実現

(12)

- 12 -

６ Oracle Active Data Guard検証

６-１検証目的と検証内容

今回GRID Center にて検証を実施した目的は大きくは以下の３つです。 Oracle Data Guard新機能の有効性の確認

Oracle Data Guard 新機能の効果や有用性、使用にあたっての考慮事項などを確認すること。主に以下の機能に着目し検証を実施しました。

ネットワーク経由の複製機能によるスタンバイ・データベース作成

オンラインデータベースからの直接コピーによるスタンバイ・データベース作成よる効果

Oracle Active Data Guard

Oracle Active Data Guard のリアルタイム・クエリー機能によるスタンバイ・データベース有効活用とスタンバイ・データベース有効活用時のシステムダウンタイム短縮効果スナップショット・スタンバイファスト・スタート・フェイルオーバー大規模かつ高トランザクション状況下での性能とフェイルオーバープライマリ・データベースへの業務負荷が高く、CPU やネットワークリソースをフルに使用している状況において障害が発生したとしても、スタンバイ・データベースへ正常かつ迅速にフェイルオーバーすることを確認すること、および大規模かつ高トランザクション状況下で考慮すべき点について把握すること。

Oracle Data Guard 導入の主目的は、プライマリサイト障害時のスタンバイサイトへの切り替えなのでこれらの点は非常に重要です。

ベストプラクティス運用の確立

スタンバイ・データベースの作成、Oracle Data Guard 環境の運用などの手順を確立すること。

※本検証にて実績のある手順については、別途「Oracle Data Guard 11g フィジカル・スタンバイ設定ガイド」にまとめていますので、そちらをご参考ください。

(13)

６-２検証環境

６-２-１システム構成

図６-1が今回の検証システム構成です。クライアントマシンからデータベースサーバへの接続と、プライマリサイト - スタンバイサイト間のREDO転送は同一のパブリックネットワークを使用して行われます。ネットワーク帯域は 1Gbps です。プライマリサイトクライアントマシンスタンバイサイトデータベースサーバー：日立BladeSymphony BS320 プライマリサイト 2ノードRAC スタンバイサイト 2ノードRAC ストレージ：

Hitachi Adaptable Modular Storage Cisco Catalyst 6504 Cisco Catalyst 3750 図６-1 検証システム構成

６ -２-２使用ハードウェア

データベースサーバ機種日立BladeSymphony BS320 × 計 4 ブレード CPU デュアルコアインテル(R)Xeon(R)プロセッサー 3GHz 2 ソケット/ブレードメモリ 8GB クライアントマシン機種インテルホワイトボックス計4 台 CPU クアッドコアインテル(R)Xeon(R)プロセッサー 2.66GHz 1 ソケット/サーバメモリ 4GB ストレージ

機種 Hitachi Adaptable Modular Storage (AMS) ハードディスク 144GB × 28HDD (+ 2HDD スペア) RAID グループ構成 2D+1P × 8 (Oracle データベース用)

(14)

６ -２-３使用ソフトウェア

データベースサーバ

OS Red Hat Enterprise Linux 4.5

Oracle Oracle Database 11g Release 1 (11.1.0.6) Enterprise Edition

Oracle Real Application Clusters Oracle Active Data Guard Oracle Partitioning クライアントマシン

OS Red Hat Enterprise Linux 4 Update 3 Oracle Oracle Client 10g Release 2 (10.2)

６-２-４負荷について

本検証では、Web ショッピング・サイトを想定したオンライン・トランザクション処理システム(OLTP)を負荷モデルとして使用しました。具体的には、オープンソースの J2EE フレームワークである Spring Framework (http:// www.springframework.org)のサンプル・アプリケーションとして提供されている JPetStore が生成する SQL 文を負荷生成用のカスタム・アプリケーションより多重実行しました。処理の流れは以下の通りです。

①ユーザー・サインオン

任意のユーザーID をランダムに選択し、ユーザー情報を検索。 select … from account, profile, signon

where account.userid=? and signon.password = ? and …; ②商品検索

ランダムに商品検索用のキーワードを生成し、商品を検索。検索結果が平均で100 件になるように調整。

select … from category where catid = ?;

select … from product where（lower（name）like ?）; ③商品選択

検索してヒットした商品の中から一つのアイテムを選択。 select … from item, product

where i.itemid = ? and … ④在庫数チェック

選択したアイテムの在庫数をチェック。 select … from inventory where itemid = ? ⑤注文

指定した商品の注文データを発行。 insert into orders …;

insert into orderstatus …; insert into lineitem …;

注文した商品アイテムを在庫管理表から注文数の在庫数を減らす。 Update inventory set qty=qty-1 where itemid = ?;

- 14 -

(15)

⑥注文確定 commit 以上の処理をクライアントマシンより多重実行しており、負荷生成時にはグラフ６-1が示すようにプライマリ・データベースサーバに対して高い負荷が掛かっています。プライマリ・データベース・サーバー1のCPU使用率 0 20 40 60 80 100 0 120 240 360 480 600 720 840 960 1080 1200 時間(秒) C P U使用率( % )

user system iowait

プライマリ・データベース・サーバー2のCPU使用率 0 20 40 60 80 100 0 120 240 360 480 600 720 840 960 1080 1200 時間(秒) C P U 使用率（%）

user system iowait

グラフ６-1 負荷生成時のプライマリ・データベースサーバの CPU 使用率

７検証結果

７-１ネットワーク経由の複製機能によるスタンバイ・データベース

作成

スタンバイ・データベース作成の際には、プライマリ・データベースのデータベース・ファイルをスタンバイサイトへコピーする必要があります。Oracle Database 10g までは、プライマリ・データベースのバックアップを取得し、そのバックアップファイルをftp や scp などを使用しネットワーク経由でスタンバイサイトに転送する、あるいはバックアップファイルをテープへ出力しスタンバイサイトに搬送する、などの方法が一般的でした。

Oracle Database 11g Release 1 では、RMAN の duplicate コマンドの機能拡張により、プライマリ・データベースのデータベース・ファイルをオンラインで直接スタンバイサイトへコピーすることが可能になりました。これにより、プライマリサイトでバックアップ取得作業、スタンバイサイトでのバックアップからの複製作業を省略することができます。また、プライマリサイト/スタンバイサイト両方にて必要であったバックアップファイル確保のためのディスクスペースを用意する必要もなくなります。従来方法とネットワーク経由の複製機能によるスタンバイ・データベース作成の比較検証以下の、従来方法とネットワーク経由の複製機能によるスタンバイ・データベース作成で、スタンバイ・データベース作成にかかる時間とそのときのCPU 使用率を測定・比較し、その効果を検証しました。本検証における、プライマリ・データベースの総容量は約170GB です。 ■従来方法（図７-1） ①RMAN を使用したオンラインバックアップによるバックアップファイルの作成 ②scp を使用しネットワーク経由で、プライマリサイトからスタンバイサイトへのバックアップファイルの転送 ③RMAN によるバックアップファイルからデータベースリストア

(16)

■ネットワーク経由の複製機能によるスタンバイ・データベース作成（図７-2） ①オンラインのプライマリ・データベース・ファイルをスタンバイ・データベースへ直接コピープライマリデータベーススタンバイデータベースバックアップファイル ①バックアップファイルの作成(RMANによるオンラインバックアップ) バックアップファイル ③RMANによるバックアップファイルからのデータベースリストア ②scpによるバックアップ　　ファイルの転送プライマリサイトスタンバイサイト従来のスタンバイデータベース構築方法図７-1 従来のスタンバイ・データベース作成方法プライマリデータベーススタンバイデータベースプライマリサイトスタンバイサイトネットワーク経由の複製機能によるスタンバイ・データベース作成 ①オンラインデータベースファイルの直接コピー図７-2 ネットワーク経由の複製機能によるスタンバイ・データベース作成従来方法による作成とネットワーク経由の複製機能によるスタンバイ・データベース作成、それぞれでスタンバイ・データベース作成にかかった時間を比較した結果がグラフ７-1です。ネットワーク経由の複製機能によるスタンバイ・データベース作成、プライマリサイトにおけるバックアップの作成とスタンバイサイトにおけるリストア作業がない分、従来方法に比べおよそ1/3 の時間でスタンバイ・データベースの作成が完了しています。 - 16 -

(17)

0 3000 6000 9000 12000 時間(秒) 従来方法ネットワーク経由の複製機能によるスタンバイ・データベース作成グラフ７-1 スタンバイ・データベース作成時間の比較(従来方法とネットワーク経由の複製機能によるスタンバイ・データベース作成) 従来方法によるスタンバイ・データベース作成時の、プライマリ・データベースサーバとスタンバイ・データベースサーバのCPU使用率とネットワーク転送量を示したのものがグラフ７-2です。プライマリサイトでのバックアップファイル作成とスタンバイサイトでのデータベースリストアにおいて約 30%程度のCPUリソースを使用していることが分かります。ネットワーク経由の複製機能によるスタンバイ・データベース作成時の、プライマリ・データベースサーバとスタンバイ・データベースサーバのCPU使用率とネットワーク転送量を示したのものがグラフ７-3です。従来方法と比べるとCPU使用率が低く、効率よくオンラインデータファイルのネットワーク転送コピーが行われていることがわかります。CPU使用率だけでなく、単位時間当たりのネットワーク通信量についても、 scpコピーと比較して高速であることが分かります。スタンバイ・データベースサーバのCPU利用率 0 10 20 30 40 50 60 70 80 90 100 0 1200 2400 3600 4800 6000 7200 8400 9600 時間(秒) CP U 使用率 (% )

user system iowait プライマリ・データベースサーバのCPU利用率 0 10 20 30 40 50 60 70 80 90 100 0 1200 2400 3600 4800 6000 7200 8400 9600 時間(秒) C P U 使用率( % )

user system iowait

スタンバイ・データベースサーバのネットワーク転送量 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 0 1200 2400 3600 4800 6000 7200 8400 9600 10800 時間(秒) ネットワーク転送量 (K by te/s ) プライマリ・データベースサーバのネットワーク転送量 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 0 1200 2400 3600 4800 6000 7200 8400 9600 10800 時間(秒) ネットワーク転送量 (K by te/s ) 受信量KB/s 送信量KB/s RMANによるオンラインバックアップ scpによるバックアップファイル転送 RMANによるデータベースリストア scpによるバックアップファイル転送 scpによるバックアップファイル受信受信量KB/s 送信量KB/s グラフ７-2 従来方法によるスタンバイ・データベース作成時の CPU 利用率とネットワーク転送量(上：プライマリ・データベースサーバ、下：スタンバイ・データベース

(18)

サーバ) プライマリ・データベースサーバのCPU利用率 0 20 40 60 80 100 0 600 1200 1800 2400 3000 時間(秒) C P U 使用率( % )

user system iowait

スタンバイ・データベースサーバのCPU利用率 0 20 40 60 80 100 0 600 1200 1800 2400 3000 時間(秒) CP U 使用率 (% )

user system iowait

プライマリ・データベースサーバのネットワーク転送量 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 0 600 1200 1800 2400 3000 時間(秒) ネットワーク転送量 (K by te/s ) rxKB/s txKB/s スタンバイ・データベースサーバのネットワーク転送量 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 0 600 1200 1800 2400 3000 時間(秒) ネットワーク転送量 (K by te/s ) et h0 rxKB/s txKB/s オンラインデータベース・ファイルの直接コピー受信量KB/s 送信量KB/s 受信量KB/s 送信量KB/s グラフ７-3 ネットワーク経由の複製機能によるスタンバイ・データベース作成時の CPU 利用率とネットワーク転送量(上：プライマリ・データベースサーバ、下：スタンバイ・データベースサーバ) ネットワーク経由の複製機能によるスタンバイ・データベース作成時の業務トランザクションへの影響本番業務処理中にスタンバイ・データベースを作成した場合の業務への影響を確認するため、プライマリ・データベースに対し業務トランザクション負荷を与えた状態で、ネットワーク経由の複製機能によるスタンバイ・データベース作成を実施し、挙動を確認しました。その際の、業務トランザクションスループットとプライマリ・データベースサーバにおけるCPU使用率とネットワーク転送量を測定した結果がグラフ７-4です。今回のケースでは、業務トランザクション処理とデータベース・ファイル転送処理の競合により、業務トランザクションスループットが2 割前後の割合で減少していることがわかります。データベース・ファイル転送時は80MB/s近くの転送量を記録しましたが、通常業務時は業務トランザクションが約20MB/s使用していることから、スタンバイサイトへのデータベース・ファイル転送量が約60MB/sであることが確認できます。負荷のない場合と比較すると転送量が減少するため、その分作成完了までの時間も長くなっています。業務トランザクションの性能への影響は、そのトランザクションの処理特性によっても異なることが予想されるため、実際には、本番業務の負荷が低い時間帯を選んでスタンバイ・データベース作成を実施することで業務への影響を最小限にする方法や、 REDO 転送用のネットワークを別途用意する方法等も合わせて検討することが推奨されます。また、WAN などの転送遅延が起こりうるネットワーク環境では、ネットワーク I/O バッファサイズの設定によってネットワーク経由の複製機能における転送効率が向上する場合があります。設定に関する詳細はマニュアル「Net Services 管理者ガイド 11g リリース1(11.1)」の「14 パフォーマンスの最適化」内にある「I/O バッファスペースの構成」を参照ください。 - 18 -

(19)

プライマリ・データベース・サーバーのネットワーク転送量 0 20000 40000 60000 80000 100000 120000 0 360 720 1080 1440 1800 2160 2520 2880 3240 3600 3960 4320 4680 時間(秒) ネットワーク転送量（K by te/s ） et h0 rxKB/s txKB/s プライマリ・データベース・サーバーのCPU使用率 0 20 40 60 80 100 0 360 720 1080 1440 1800 2160 2520 2880 3240 3600 3960 4320 4680 時間(秒) C P U 使用率（ % ）

user system iowait

トランザクションスループット 0 360 720 1080 1440 1800 2160 2520 2880 3240 3600 3960 4320 4680 時間（秒）トランザクションスループットネットワーク経由の複製機能によるスタンバイ・データベース作成時のトランザクションスループットへの影響は、今回のケースでは2割前後総転送量が約80MB/sあり、業務トランザクションが使用している約20MB/sを除くとデータベース・ファイル転送量が約60MB/sであることがわかるスタンバイ・データベース作成中グラフ７-4 ネットワーク経由の複製機能によるスタンバイ・データベース作成時の業務トランザクションスループットとプライマリ・データベースサーバのCPU 使用率とネットワーク転送量

７ -２ Oracle Active Data Guardによるスタンバイサイト有効活用

とスタンバイサイト有効活用時のシステムダウンタイム短縮

効果

Oracle Database 10g までの Oracle Data Guard では、スタンバイサイト有効活用における課題として以下のようなものがありました。フィジカル・スタンバイ機能において、スタンバイサイトをREAD-ONLY で活用する際は、REDO の適用を停止する必要があるプライマリサイト障害時のダウンタイムを一定時間に抑えるには、定期的なデータ同期処理が必要、そのためにスタンバイサイトを定期的に管理リカバリモードにする必要があるなど、運用が複雑ロジカル・スタンバイ機能においては、スタンバイサイトを活用できるが、データ型の制限などで適用が限定されるこれらの制限により、従来のスタンバイサイトの活用においては複雑な運用を適用する必要が有り、かつスタンバイサイトを有効活用する時間が長くなるほど、万一の障害時の復旧に時間がかかり、可用性を犠牲にすることになっていました(図７-3)。

(20)

スタンバイサイト活用時間 (ログデータ適用停止時間) プライマリサイト障害時に適用が必要なログデータ量障害時のシステムダウンタイムに比例図７-3 従来の課題スタンバイサイト活用時間とシステムダウンタイムの関係

Oracle Database 11g Release 1 で新たに提供された Oracle Active Data Guard のリアルタイム・クエリー機能によってこれらの課題は解決し、システムの可用性を担保しながらスタンバイサイトの有効活用が実現可能になります。今回は、この点について、実際に以下の2 点を検証することで、Oracle Active Data Guard の有効性を確認致しました。

①Oracle Active Data Guard によるスタンバイサイト有効活用

フィジカル・スタンバイ機能において、REDO の適用を行いながら、常時スタンバイサイトをREAD-ONLY で活用できることを確認

②フィジカル・スタンバイサイト有効活用時のシステムダウンタイム短縮効果

①により、定期的な同期処理も不要であり、なおかつ、プライマリサイト障害時のダウンタイムを一定時間に抑えることが可能であることを確認

Oracle Active Data Guardによるスタンバイサイト有効活用

図７-4のような状況を想定し、プライマリサイトではオンラインショッピング業務としてオンライン・トランザクション負荷を掛けている状態で、スタンバイサイトに追加業務として日時処理やレポートバッチのようなクエリーによる負荷を追加した際の挙動を確認しました。Oracle Active Data Guardのリアルタイム・クエリー機能により、スタンバイサイトで追加業務を行っている際もREDOの転送と適用は行われています。

- 20 -

(21)

プライマリデータベーススタンバイデータベースオンラインショッピング業務 日時処理/レポートバッチ OLTPトランザクション SELECT/クエリー負荷リアルタイムクエリー追加業務 REDOの転送と適用

図７-4 Oracle Active Data Guard によるスタンバイサイト有効活用

グラフ７-5はリアルタイム・クエリーによるスタンバイサイトへのSELECT負荷がある場合と無い場合でのスタンバイ・データベースサーバのCPU利用率を比較したものです。リアルタイム・クエリーによるSELECT負荷を掛けていない場合、スタンバイ・データベースサーバではREDOの適用処理のみを行っており、CPU使用率はほんの十数% 程度です。リアルタイム・クエリーによる追加負荷を掛けた場合はCPUリソースを 90% 以上利用しており、従来は使用できなかったCPUリソースを実際に最大限に活用できることを確認できます。スタンバイ・データベースサーバのCPU利用率 0 20 40 60 80 100 0 60 120 180 240 300 360 420 480 540 600 時間(秒) CPU 使用率 (% ) SELECT負荷あり SELECT負荷なし REDOログの適用処理のみなので CPU使用率は低い REDOログデータ適用中においてもSELECT負荷を処理しリソースを有効活用している

グラフ７-5 Oracle Active Data Guard によるスタンバイサイト CPU リソースの有効活用効果

フィジカル・スタンバイ有効活用時のシステムダウンタイム短縮効果

図７-5のような、プライマリサイトでは 24 時間オンラインショッピング業務を実行しており、スタンバイサイトでは、夜間から日中にかけてレポートバッチおよび日時処理業務をREAD-ONLYモードで活用しているような運用を想定します。

(22)

6:00 オンラインショッピングサービスオンラインショッピングサービス 12:00 18:00 24:00 プライマリサイトスタンバイサイトレポートバッチレポートバッチ日次処理日次処理オンラインショッピングサービスオンラインショッピングサービスフェールオーバースタンバイサイト活用中にプライマリサイトに障害発生オンラインショッピングサービスダウンタイム図７-5 今回検証した想定業務シナリオフィジカル・スタンバイを有効活用している際にプライマリサイトに障害が発生した場合、オンラインショッピング業務をスタンバイサイトにフェイルオーバーします。その際にはプライマリ・データベースから転送されてきたREDOの適用をすべて完了しなければなりません。従来方法ではフィジカル・スタンバイ有効活用中はREDOを適用できないため、フェイルオーバー時に大量の未適用REDOを適用しなければならない可能性があります。一方、Oracle Active Data Guardのリアルタイム・クエリー機能を使用している場合はスタンバイサイトを有効活用中も転送されてきたREDOを随時適用するため、フェイルオーバー時間が短縮されます。このような想定で実際に検証した結果がグラフ７-6です。グラフ上では障害発生を確認後、スタンバイ・データベースをプライマリ・データベースに切り替えてサービス再開し、新しいプライマリ・データベースに対して負荷を再生成するまでの間トランザクションスループットは０になります。この時間をフェイルオーバー時間と定義し、従来のケースとOracle Active Data Guardのケースを比較しました。従来のケースと比較し、Oracle Active Data Guardではフェイルオーバー時間が大幅に短縮しています。従来のケースにおける、フェイルオーバー時の未適用REDO量は約 20GBでしたが、未適用のREDO量が多い場合は、フェイルオーバー時間もその分さらに長くなります。 0 12 0 24 0 36 0 48 0 60 0 72 0 84 0 96 0 108 0 120 0 132 0 144 0 156 0 168 0 180 0 192 0 204 0 216 0 228 0 オンラインショッピングトランザクションスループット 0 12 0 24 0 36 0 48 0 60 0 72 0 84 0 96 0 108 0 120 0 132 0 144 0 156 0 168 0 180 0 192 0 204 0 216 0 228 0 オンラインショッピングトランザクションスループット _{オンラインショッピング長} 時間のサービスダウンタイムが発生フィジカルスタンバイ活用中もログデータ適用されるためフェールオーバー時間が短縮従来方法によるスタンバイ活用の場合

Oracle Active Data Guard

によるスタンバイ活用の場合

時間時間

グラフ７-6 Oracle Active Data Guard によるフィジカル・スタンバイ有効活用時のシステムダウンタイム短縮効果

- 22 -

(23)

７-３スタンバイ・データベースにおけるREDO適用性能の測定

一般的にシステムの可用性について考える場合には、リカバリ・ポイント目標（Recovery Point Objective : RPO）とリカバリ時間目標（Recovery Time Objective : RTO）の 2 つ指標を考慮する必要があります。Oracle Data Guardの仕組みにおいては、RPO にはプライマリ・データベースからスタンバイ・データベースへのREDO転送の設定や転送性能が関連します。これは、フェイルオーバー時に、スタンバイ・データベースに未転送だったREDOがシステムの紛失データとなるためです。一方、RTOに関しては、スタンバイ・データベースでのREDO適用性能（以降、 REDO適用性能）が影響します。これは、Oracle Data Guardではフェイルオーバー時間には未適用のREDO適用時間が含まれるためです（※）。フィジカル・スタンバイへのフェイルオーバーは、大まかに以下の図７-6のような流れになります。障害検知障害検知までの時間までの時間インスタンスインスタンスをオープンをオープン未適用の未適用の REDO REDOを適用を適用ロールのロールの変更変更障害発生フェイルオーバー操作開始フェイルオーバー操作完了アプリケーションから見た停止時間

Oracle Data Guard のフェイルオーバー操作

図７-6 フィジカル・スタンバイへのフェイルオーバーの流れ

（※） Oracle Data Guard では、障害発生後に REDO を適用せず、即時にサービスを再開することも可能ですが、データ保護の観点から適用可能なREDO を全て適用した上でサービスを再開することが推奨されています。 REDO 適用性能が適正かどうかを判断する方法としては、プライマリ・データベースの REDO 生成量に対するスタンバイ・データベースでのREDO 適用性能の比較する方法が考えられます。 REDO 適用性能が REDO 生成量を下回る場合は、運用時にはプライマリ・データベースとスタンバイ・データベースの最新データの差が開き、未適用のREDO が増加するため、障害発生時のフェイルオーバーにもその分時間がかかることが予想できます。

(24)

プライマリ・データベーススタンバイ・データベース REDO転送プライマリ・データベーススタンバイ・データベース REDO転送 N時間後転送/受信済みREDO 適用済みREDO 適用性能が低いと受信済みREDOと適用済みREDOの差が開いていく図７-7 REDO 適用性能が低い場合

一方、REDO 生成量を上回る REDO 適用性能があれば、未適用の REDO を極小化でき、結果的にフェイルオーバー時間も極小化されます。プライマリ・データベーススタンバイ・データベース REDO転送プライマリ・データベーススタンバイ・データベース REDO転送 N時間後十分な適用性能が出ていれば、差は開かない転送/受信済みREDO 適用済みREDO 図７-8 十分な REDO 適用性能を確保できている場合 - 24 -

(25)

ここでは、プライマリ・データベースにおいて高負荷なトランザクションが実行されているときのREDO 生成量とスタンバイ・データベースの REDO 適用性能を比較し、適正な REDO 適用性能が出ているかを確認しました。

プライマリ・データベースのへ負荷生成の前後にOracle の統計情報を取得し、その差分から 1 秒間のREDO 生成量を計算しました。また、REDO 適用性能は、合計サイズが約 3GB のアーカイブREDO ログ・ファイル群の適用によって性能を測定しました。測定開始前にはスタンバイの Oracle インスタンス再起動し、適用性能は V$RECOVERY_PROGRESS ビューより秒間の REDO 適用サイズを確認しました。また、測定は Oracle Active Data Guard の使用を想定するため、スタンバイ・データベースのOracle インスタンスは読み取り専用オープンの状態で行いました。 REDO生成量とREDO適用性能を比較した結果がグラフ７-7です。 0 2 4 6 8 10 生成量/適用性能比 REDO生成量 REDO適用性能 グラフ７-7 REDO 生成量と REDO 適用性能の比較プライマリ・データベース各インスタンスのREDO 生成量の合計を大きく上回る REDO 適用性能を記録したことがわかります。Oracle Database 11g Release 1 では Oracle RAC 構成のスタンバイ・データベースのREDO 適用は 1 インスタンスで行います。REDO 適用性能はオンラインREDO ログ・ファイルおよびアーカイブ REDO ログ・ファイルを配置するディスク構成などに影響を受けますが、この結果より今回の検証では複数ノードが生成するREDO を遅延なく適用できるだけの性能がでていることが分かります。

次に、フィジカル・スタンバイ・データベースが読み取り専用オープンである場合とマウント状態である場合のREDO 適用性能を比較します。これによって、Oracle Active Data Guard 導入による REDO 適用性能への影響の有無を確認します。測定方法は、先程と同様で、以下の 3 つのパターンでの測定方法を比較しました。パターン番号スタンバイ・インスタンス 1 スタンバイ・インスタンス 2 1 マウントマウント 2 読み取り専用オープンマウント 3 読み取り専用オープン読み取り専用オープン表７-1 適用性能比較パターン

(26)

適用性能を比較した結果がグラフ７-8です(パターン 1 の適用性能を 1 とした場合)。 0 0.2 0.4 0.6 0.8 1 1.2 1 2 3 パターン番号適用性能比適用性能比グラフ７-8 適用性能比フィジカル・スタンバイ・データベースのインスタンスがマウント状態か読み取り専用オープン状態かに関わらず、適用性能は同等でした。これにより、Oracle Active Data Guard 導入によるREDO 適用性能への影響はないことが分かります。

- 26 -

(27)

７-４ファスト・スタート・フェイルオーバー

ファスト・スタート・フェイルオーバーは、プライマリ・データベースの障害検知と検知後のフェイルオーバーを自動的に行う機能です。Oracle Database 10g Release 2 では、ファスト・スタート・フェイルオーバーの機能を使用するには、保護モードを最大可用性モードに設定するため、同期REDO 転送を設定する必要がありました。同期 REDO 転送では、プライマリ・データベースへの更新データの保護がコミットレベルで保証されますが、高い応答性能が要求される業務においては、ネットワーク性能に起因するプライマリ・データベースの応答時間劣化等、パフォーマンスへの影響を考慮する必要がありました。Oracle Database 11g Release 1 では、非同期REDO 転送の設定が可能な保護モードである最大パフォーマンスモードでもファスト・スタート・フェイルオーバーが設定可能になり、より多くの要件に対応可能になっています。

非同期REDO転送を設定した場合、プライマリ・データベースとスタンバイ・データベースの最新データにタイムラグが発生する可能性があります。このタイムラグは、フェイルオーバーした場合に消失するデータを意味します。Oracle Database 11g Release 1 のファスト・スタート・フェイルオーバーでは、障害発生時に許容できるタイムラグをあらかじめ指定し、障害発生時にはそのタイムラグ値にしたがってフェイルオーバーを開始するかどうかを判断します。ここでは、タイムラグ値を60 秒に設定した上でプライマリ・データベースの全インスタンスを abort オプションで停止し、ファスト・スタート・フェイルオーバーの動作を確認しました。障害発生後の挙動は図７-9のようになりました。スタンバイ・データベースプライマリ・データベース

②

オブザーバ

①

図７-9 ファスト・スタート・フェイルオーバーの動作 ① オブザーバはプライマリ・データベースとの接続不能な時間が一定時間続くと障害と判断します。障害と判断するまでの時間は任意に指定可能です。 ② オブザーバはプライマリ・データベースとスタンバイ・データベースの最新更新情報のタイムラグを確認します。タイムラグ値が事前指定した値より小さければフェイルオーバーを開始します。タイムラグ値は、スタンバイ・データベースの v$dataguard_stats ビューより確認できます。今回のケースでは、タイムラグが以下のように 0 秒だったため、フェイルオーバーが実行されました。

(28)

- 28 -

SQL> select name,value from v$dataguard_stats where name='transport lag'; NAME VALUE --- --- transport lag +00 00:00:00 一方、タイムラグ値が事前指定の閾値を超えていた場合は、フェイルオーバーは行われません。これは、タイムラグ値が閾値を超えていることが、許容されないデータ消失量であることを意味するためです。このような場合、スタンバイ・データベースの v$database ビューで確認可能なファスト・スタート・フェイルオーバーのステータスは” TARGET OVER LAG LIMIT” と表示されます。

SQL> select fs_failover_status from v$database; FS_FAILOVER_STATUS

--- TARGET OVER LAG LIMIT

以上のように、Oracle Database 11g Release 1 のファスト・スタート・フェイルオーバーでは、最大パフォーマンスモードによる非同期REDO 転送設定時にも、システムごとのデータ保護の要件に合わせた自動フェイルオーバーが実現できることが確認できました。

Oracle Database 11g Release 1 では、タイムラグ値以外にも、様々な条件を設定することができ、それによって自動フェイルオーバーの動作を細かく制御できるようになっています。これらの機能拡張を有効に活用することで、フェイルオーバーに伴う管理作業が軽減されることが期待されます。

(29)

７-５高負荷トランザクション状況下でのフェイルオーバー

Oracle RACが、プライマリ・データベースでの片ノード障害などのサイト内で局所的な障害に対する業務継続性を提供するのに対し、Oracle Data Guardはプライマリ・データベースの全ノード障害などのサイト障害に対する業務継続性を提供します。今回、プライマリ・データベースに高負荷なトランザクションを掛けている状態で、いくつかの発生しうる障害を発生させ、必要である場合はスタンバイ・データベースへのフェイルオーバーを実施し、トランザクションが継続処理可能であることを検証し確認しました。今回検証した障害ケースを図７-10示します。３つのOracle Data Guard構成A,B,C(表７-2)において、それぞれ障害 1～5(表７-3)を発生させました。プライマリ・データベーススタンバイ・データベースプライマリサイトスタンバイサイト障害検証パターン ①プライマリ・データベース全インスタンス障害 ②プライマリ・データベース全サーバ障害 ④スタンバイ・データベース全インスタンス障害 ⑤スタンバイ・データベースのリスナー障害 ③プライマリースタンバイ間のネットワーク通信障害図７-10 高負荷トランザクション状況下でのフェイルオーバー検証

構成 Oracle Data Guard の保護モードスタンバイサイトの状態 A 最大パフォーマンスモード Oracle Active Data Guard B 最大可用性モード Oracle Active Data Guard C 最大パフォーマンスモードスナップショット・スタンバイ表７-2 検証構成パターン # 発生させた障害障害発生の方法 1 プライマリ・データベースの全 Oracle インスタンス障害プライマリノード 1 にて、 srvctl stop database –o abort コマンドを実行

2 プライマリ・データベースの全サーバ障害プライマリノード 1 およびノード 2 において、同時にhalt –n -f コマンドを実行 3 プライマリ－スタンバイ間のネットワーク通信障害ネットワークケーブルを抜く

(30)

4 スタンバイ・データベースの全 Oracle インスタンス障害

スタンバイノード 1 にて、 srvctl stop database –o abort コマンドを実行

5 スタンバイ・データベースのリスナー障害スタンバイノード 1 およびノード 2 において、同時にリスナープロセスをkill 表７-3 検証した障害パターン検証の手順は以下の通りです。 ① プライマリ・データベースへの負荷生成開始 ② プライマリ・データベース障害を擬似発生 ③ 負荷生成を停止 ④ スタンバイ・データベースへのフェイルオーバー実施 ⑤ 負荷生成再開検証結果としては、すべての構成において、期待した挙動を示しました(表７-4)。プライマリ・データベースにおける全Oracleインスタンス障害および全サーバ障害のケースにおいては、スタンバイ・データベースにフェイルオーバーすることで、トランザクション処理を継続することが可能であることを確認しました。 # 発生させた障害障害発生後の挙動結果 1 プライマリ・データベースの全 Oracle インスタンス障害各構成ともスタンバイ・データベースへフェイルオーバー実施後に、継続してトランザクションを処理できることを確認。 2 プライマリ・データベースの全サーバ障害各構成ともスタンバイ・データベースへフェイルオーバー実施後に、継続してトランザクションを処理できることを確認。 3 プライマリ－スタンバイ間のネットワーク通信障害各構成ともプライマリ・データベースにて継続してトランザクション処理可能。構成B では、NET_TIMEOUT 属性で設定された秒数（本検証では 30 秒に設定）だけトランザクション処理は停止し、その後は継続して処理可能。 4 スタンバイ・データベースの全 Oracle インスタンス障害各構成ともプライマリ・データベースにて継続してトランザクション処理可能。構成B においても継続してトランザクションを処理できることを確認。 5 スタンバイ・データベースのリスナー障害各構成ともプライマリ・データベースにて継続してトランザクション処理可能。表７-4 検証した障害パターンと検証結果高負荷トランザクション時のフェイルオーバーで特徴的な挙動をひとつ紹介します。グラフ７-9は、構成Aでのプライマリ・データベースにおける全インスタンス障害時のトランザクションスループットとプライマリ、スタンバイ各サーバのCPU使用率の挙動を示したグラフで - 30 -

(31)

す。①で障害発生後、②でフェイルオーバーが完了しトランザクションが再開しています。③までの間にトランザクションスループットの落ち込みが見られます。これはフェイルオーバー後のデータベースサーバにおいて行われるスタンバイREDOログ・ファイルのクリア処理によるディスクI/Oと、再開したトランザクションによって発生するオンラインREDOログ・ファイルへのディスクI/Oが競合することによって起こる挙動です。スタンバイREDOログ・ファイルのクリアにかかる時間は、ファイルサイズの合計とディスクI/O性能に依存します。この挙動を回避する方法としては、スタンバイREDOログ・ファイルのクリアと通常のワークロードをカバーできるだけのディスクI/O帯域を確保する方法や、オンラインREDOログ・ファイルとスタンバイREDOログ・ファイルを別のディスクに配置し、ディスクI/Oの競合を避ける方法が挙げられます。 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 12 0 24 0 36 0 48 0 60 0 72 0 84 0 96 0 10 80 12 00 13 20 14 40 15 60 16 80 18 00 19 20 20 40 21 60 22 80 トランザクションスループット プライマリ・インスタンス1 のCPU使用率 プライマリ・インスタンス2 のCPU使用率 スタンバイ・インスタンス1 のCPU使用率 スタンバイ・インスタンス2 のCPU使用率 トランザクションスループット ① ② ③ ① プライマリデータベース全インスタンス障害発生 ①～② スタンバイへフェールオーバー ②～③ REDOクリア処理グラフ７-9 プライマリ・データベースの全インスタンス障害時のトランザクションと各データベースサーバのCPU 使用率の挙動

(32)

- 32 -

８まとめ

今回のGRID Center における検証で、日立プラットフォーム上における Oracle Database 11g Release 1 の Oracle Data Guard について、その有効性を十分に実証することができました。特にOracle Database 11g Release 1 で新たに提供された Oracle Active Data Guard が、スタンバイサイトのリソースの有効活用と有効活用時における障害時フェイルオーバー時間短縮の両立を実現可能であることを実証できたと考えています。Oracle Database 11g Release 1 新機能によって、ディザスタリカバリシステムの費用対効果を従来よりも大きく向上させることができると考えています。

また、大規模なトランザクション負荷環境での障害時の挙動を検証し、トランザクション業務の継続性を確認することができました。日立のハードウェアとOracle Database 11g Release 1 Oracle Data Guard によるディザスタリカバリソリューションにより、企業インフラの BCM を支える基盤を提供することができると考えています。

本ドキュメントご利用にあたっての注意事項

本ホワイトペーパに記載されている内容は、Oracle GRID Center にて実施された検証結果にもとづくものあり、すべての環境において同様の結果が得られるとは限りません。効果はお客様の環境およびその他の要因によって異なる可能性があります。

11g検証報告書

日立と

Oracle が実現する

BCM プラットフォームソリューション

＆

Oracle Active Data Guard 検証報告

Date: 2008 年 3 月

Version: 1.0

１ はじめに

２ 目次

３

Business Continuity Management(BCM)の重要性

４

Oracle Data Guard

コピー

障害時

通常時

５ 日立と

Oracleが実現するBCMプラットフォームソリューション

例

+ 3ノード

６

Oracle Active Data Guard検証

６-１ 検証目的と検証内容

６-２ 検証環境

６-２-１ システム構成

６

-２-２ 使用ハードウェア

６

-２-３ 使用ソフトウェア

６-２-４ 負荷について

７ 検証結果

７-１ ネットワーク経由の複製機能によるスタンバイ・データベース

作成

７

-２ Oracle Active Data Guardによるスタンバイサイト有効活用

とスタンバイサイト有効活用時のシステムダウンタイム短縮

効果

７-３ スタンバイ・データベースにおけるREDO適用性能の測定

７-４ ファスト・スタート・フェイルオーバー

②

①

７-５ 高負荷トランザクション状況下でのフェイルオーバー

８ まとめ

１はじめに

２目次

５日立と

６-１検証目的と検証内容

６-２検証環境

６-２-１システム構成

-２-２使用ハードウェア

-２-３使用ソフトウェア

６-２-４負荷について

７検証結果

７-１ネットワーク経由の複製機能によるスタンバイ・データベース

７-３スタンバイ・データベースにおけるREDO適用性能の測定

７-４ファスト・スタート・フェイルオーバー

７-５高負荷トランザクション状況下でのフェイルオーバー

８まとめ