要約
このドキュメントでは、PRIMERGY BX920 S1 で実行したベンチマークの概要について説明します。 PRIMERGY BX920 S1 のパフォーマンスデータを、他の PRIMERGY モデルと比較して説明しています。 ベンチマーク結果に加え、ベンチマークごとの説明およびベンチマーク環境の説明も掲載しています。 目次 ドキュメントの履歴 ... 2 製品データ ... 3 SPECcpu2006 ... 4 SPECjbb2005 ... 11 StorageBench ... 14 SPECsfs2008 ... 18 OLTP-2 ... 22 SAP SD ... 27 ターミナルサーバ ... 29 vServCon ... 35 関連資料... 41 お問い合わせ先 ... 42 ページ数 42パフォーマンスレポート
PRIMERGY BX920 S1
ドキュメントの履歴
バージョン 2.1 ベンチマークの章を含むレポートの初版 SPECcpu2006 Xeon E5502、E5504、L5506、E5506、L5520、E5520、L5530、E5530、E5540、X5550、X5560、 および X5570 で測定 SPECjbb2005 Xeon X5570 で測定 StorageBenchLSI MegaRAID SAS 1064 コントローラーで測定
SPECsfs2008
Xeon X5570、72 GB RAM および PRIMERGY SX940 S1 ストレージブレード(データディスク(146 GB、10000 rpm)4 台構成の RAID 5)で測定 OLTP-2 Xeon E5502、E5504、E5506、L5530、E5530、E5540、X5550、X5560 および X5570 で測定 SAP SD 認定番号 2009024 ターミナルサーバ Xeon E5504、X5570 で測定 vServCon Xeon L5520、E5520、E5540、X5550、および X5570 で測定
製品データ
PRIMERGY BX900 S1 ブレードサーバは、スケーラビリティの高い 19 インチラックシステム(10 U)です。 フロントベイの数は 18 で、最大で 6 枚のストレージブレードまたは 18 枚のサーバブレードを搭載できます。 それぞれ 2 つのファンを搭載する 2 台のファンユニットに加え、最大 6 台の電源モジュール、最大 2 枚のマ ネジメントブレード、および最大 8 枚のコネクションブレードを PRIMERGY BX900 S1 に統合できます。 PRIMERGY BX920 S1 デュアルサーバブレードには、Intel 5520 チップセット、2 基の Intel Xeon プロセッ サ(デュアルコアまたはクアッドコア)、最大 72 GB の DDR3-SDRAM が搭載可能な 9 本の DIMM スロット、 2 チャネル GBit LAN コントローラー 2 基、SAS RAID コントローラー、および 2.5 インチ SAS ハードディ スク用ベイが 2 つ搭載されています。
SPECcpu2006
ベンチマークの説明
SPECcpu2006 は、整数演算および浮動小数点演算のシステム性能を測定するベンチマークです。これは、 12 本のアプリケーションから成る整数演算テストセット、および 17 本 のアプリケーションから成る浮動小 数点演算テストセットで構成されています。これらのアプリケーションは大量の演算を実行する CPU / メモ リ集中型です。ディスク I/O やネットワークなど、他のコンポーネントについては、このベンチマークでは 測定しません。 SPECcpu2006 は、特定のオペレーティングシステムに依存しません。このベンチマークは、ソースコード として利用可能で、実際のベンチマークの前にコンパイルされます。したがって、使用するコンパイラーの バージョンやその最適化設定が測定結果に影響を与えます。 SPECcpu2006 には、次の 2 つのパフォーマンス測定方法が含まれています。最初の方法(SPECint2006 お よび SPECfp2006)は、1 つのタスクの完了に必要な時間を判定します。次の方法(SPECint_rate2006 およ び SPECfp_rate2006)は、スループット(並列処理できるタスク数)を判定します。いずれの方法も、さら に 2 つの測定の種類、「ベース」と「ピーク」に分かれています。これは、コンパイラー最適化を使用するか どうかという点で異なります。「ベース」値は常に公開されていますが、「ピーク」値はオプションです。 ベンチマーク 演算 タイプ コンパイラー 最適化 測定結果 アプリケーション SPECint2006 整数 ピーク アグレッシブ 速度 単体実行 SPECint_base2006 整数 ベース 標準 SPECint_rate2006 整数 ピーク アグレッシブ スループット 多重実行 SPECint_rate_base2006 整数 ベース 標準 SPECfp2006 浮動小数点 ピーク アグレッシブ 速度 単体実行 SPECfp_base2006 浮動小数点 ベース 標準 SPECfp_rate2006 浮動小数点 ピーク アグレッシブ スループット 多重実行 SPECfp_rate_base2006 浮動小数点 ベース 標準 結果は、個々のベンチマークで得られた正規化比の幾何平均を使用しています。算術平均と比較して、幾何 平均のほうが、ひとつの飛び抜けて高い値に左右されない平均値です。「正規化」とは、テストシステムが基 準システムと比較してどの程度高速に実行されるのかを測定することです。基準システムの SPECint_base2006、 SPECint_rate_base2006、SPECfp_base2006、および SPECfp_rate_base2006 の結果が、値「1」と判定さ れたとします。このとき、たとえば SPECint_base2006 の値 2 は、測定システムがこのベンチマークを基準 システムよりも約 2 倍の性能で実行したことを意味します。SPECfp_rate_base2006 の値 4 は、測定対象シ ステムが基準システムよりも、約 4/[ベースコピー数] 倍の性能でこのベンチマークを実行したことを意味し ます。ここで、「ベースコピー数」はベンチマークで実行された並行インスタンスの数です。 弊社は、SPEC の公開用に、 SPECcpu2006 を測定したデータのすべてを提出しているわけではありません。 このため、すべての結果が SPEC の Web サイトに表示されるわけではありません。弊社は、すべての測定 値のログデータをアーカイブしているので、測定値が出せたことをいつでも証明できます。 SPEC®、SPECint®、SPECfp®、および SPEC の各ロゴは、Standard Performance Evaluation Corporation(SPEC)
ベンチマーク結果
PRIMERGY BX920 S1 はプロセッサに、Xeon E5502、E5504、L5506、E5506、L5520、E5520、L5530、 E5530、E5540、X5550、X5560、および X5570 を使用して測定しました。ベンチマークプログラムは、イン テル C++/Fortran コンパイラー 11.0 でコンパイルし、SUSE Linux Enterprise Server 10 SP2(64 ビット) で実行しました。次の表の太字の値は、http://www.spec.org で公開されています。「予測」という印付きの値 は、予測値です。 プロセッサ コア GHz L3 キャッシュ バス TDP SPECint_base2006 2 チップ SPECint2006 2 チップ Xeon E5502 2 1.87 4 MB 800 MHz 80 W 17.9 19.9 Xeon E5504 4 2 4 MB 800 MHz 80 W 19.2 21.4 Xeon L5506 4 2.13 4 MB 800 MHz 60 W 20.3(予測) 22.5(予測) Xeon E5506 4 2.13 4 MB 800 MHz 80 W 20.3 22.5 Xeon L5520 4 2.27 8 MB 1067 MHz 60 W 24.2(予測) 26.9(予測) Xeon E5520 4 2.27 8 MB 1067 MHz 80 W 24.2 26.9 Xeon L5530 4 2.40 8 MB 1067 MHz 60 W 25.3(予測) 28.2(予測) Xeon E5530 4 2.40 8 MB 1067 MHz 80 W 25.3 28.2 Xeon E5540 4 2.53 8 MB 1067 MHz 80 W 26.5 29.6 Xeon X5550 4 2.67 8 MB 1333 MHz 95 W 29.2 32.6 Xeon X5560 4 2.80 8 MB 1333 MHz 95 W 30.4 33.8 Xeon X5570 4 2.93 8 MB 1333 MHz 95 W 31.3 35.0
プロセッサ コア GHz L3 キャッシュ バス TDP SPECint_rate_base2006 SPECint_rate2006 1 チップ 2 チップ 1 チップ 2 チップ Xeon E5502 2 1.87 4 MB 800 MHz 80 W 33.4 66.0 36.0 71.0 Xeon E5504 4 2 4 MB 800 MHz 80 W 64.9 126 69.5 135 Xeon L5506 4 2.13 4 MB 800 MHz 60 W 67.8(予測) 131 72.6(予測) 141 Xeon E5506 4 2.13 4 MB 800 MHz 80 W 67.8 132 72.6 141 Xeon L5520 4 2.27 8 MB 1067 MHz 60 W 96.0(予測) 185 103(予測) 200 Xeon E5520 4 2.27 8 MB 1067 MHz 80 W 96.0 187 103 201 Xeon L5530 4 2.40 8 MB 1067 MHz 60 W 99.8(予測) 194 107(予測) 209 Xeon E5530 4 2.40 8 MB 1067 MHz 80 W 99.8 194 107 209 Xeon E5540 4 2.53 8 MB 1067 MHz 80 W 103 200 111 216 Xeon X5550 4 2.67 8 MB 1333 MHz 95 W 113 224 122 241 Xeon X5560 4 2.80 8 MB 1333 MHz 95 W 118 231 127 249 Xeon X5570 4 2.93 8 MB 1333 MHz 95 W 121 239 130 257
プロセッサ コア GHz L3 キャッシュ バス TDP SPECfp_base2006 2 チップ SPECfp2006 2 チップ Xeon E5502 2 1.87 4 MB 800 MHz 80 W 21.9 23.2 Xeon E5504 4 2 4 MB 800 MHz 80 W 23.6 25.2 Xeon L5506 4 2.13 4 MB 800 MHz 60 W 24.8(予測) 26.3(予測) Xeon E5506 4 2.13 4 MB 800 MHz 80 W 24.8 26.3 Xeon L5520 4 2.27 8 MB 1067 MHz 60 W 29.8(予測) 31.6(予測) Xeon E5520 4 2.27 8 MB 1067 MHz 80 W 29.8 31.6 Xeon L5530 4 2.40 8 MB 1067 MHz 60 W 30.9(予測) 32.9(予測) Xeon E5530 4 2.40 8 MB 1067 MHz 80 W 30.9 32.9 Xeon E5540 4 2.53 8 MB 1067 MHz 80 W 32.3 34.3 Xeon X5550 4 2.67 8 MB 1333 MHz 95 W 35.3 37.7 Xeon X5560 4 2.80 8 MB 1333 MHz 95 W 36.4 38.9 Xeon X5570 4 2.93 8 MB 1333 MHz 95 W 37.1 39.7
プロセッサ コア GHz L3 キャッシュ バス TDP SPECfp_rate_base2006 SPECfp_rate2006 1 チップ 2 チップ 1 チップ 2 チップ Xeon E5502 2 1.87 4 MB 800 MHz 80 W 35.0 67.8 36.3 70.7 Xeon E5504 4 2 4 MB 800 MHz 80 W 57.5 111 59.5 115 Xeon L5506 4 2.13 4 MB 800 MHz 60 W 59.3(予測) 114 61.4(予測) 119 Xeon E5506 4 2.13 4 MB 800 MHz 80 W 59.3 114 61.4 119 Xeon L5520 4 2.27 8 MB 1067 MHz 60 W 80.2(予測) 152 82.9(予測) 158 Xeon E5520 4 2.27 8 MB 1067 MHz 80 W 80.2 154 82.9 160 Xeon L5530 4 2.40 8 MB 1067 MHz 60 W 82.2(予測) 158 85.2(予測) 163 Xeon E5530 4 2.40 8 MB 1067 MHz 80 W 82.2 158 85.2 164 Xeon E5540 4 2.53 8 MB 1067 MHz 80 W 84.4 162 87.3 168 Xeon X5550 4 2.67 8 MB 1333 MHz 95 W 93.7 183 97.3 190 Xeon X5560 4 2.80 8 MB 1333 MHz 95 W 96.8 187 100 194 Xeon X5570 4 2.93 8 MB 1333 MHz 95 W 97.8 192 102 199
整数演算テストスイートおよび浮動小数点演算テストスイートの両方で、2 プロセッサのスループットは 1 プ ロセッサの約 2 倍です。
ベンチマーク環境
SPECcpu2006 での測定は、すべて次のハードウェアおよびソフトウェア構成の PRIMERGY BX920 S1 で実 行されました。
ハードウェア
モデル PRIMERGY BX920 S1
CPU Xeon E5502、E5504、L5506、E5506、L5520、E5520、L5530、E5530、E5540、 X5550、X5560、および X5570 CPU 数 1 チップ: Xeon E5502: 2 コア、2 コア/チップ その他: 4 コア、4 コア/チップ 2 チップ: Xeon E5502: 4 コア、2 コア/チップ その他: 8 コア、4 コア/チップ プライマリー キャッシュ 32 KB(命令) + 32 KB(データ)オンチップ、コアごと セカンダリー キャッシュ 256 KB オンチップ、コアごと その他の キャッシュ
Xeon E5502、E5504、L5506、および E5506:
4 MB(I+D)オンチップ、チップごと
その他: 8 MB(I+D)オンチップ、チップごと
ソフトウェア オペレーティング
システム SUSE Linux Enterprise Server 10 SP2(64 ビット) コンパイラー インテル C++/Fortran コンパイラー 11.0
SPECjbb2005
ベンチマークの説明
SPECjbb2005 は、Java サーバプラットフォームのパフォーマンスを評価する Java ビジネスベンチマークで す。これは、本質的に SPECjbb2000 を更新したバージョンで、主な違いは次のとおりです。 トランザクションは、多様な機能範囲を対象とするため、より複雑になっています。 ベンチマークのワーキングセットが、全体的にシステムの負荷の増大に対応して拡大されました。 SPECjbb2000 では、アクティブな Java 仮想マシンインスタンスは 1 つのみ許可されましたが、 SPECjbb2005 では複数のインスタンスが許可され、特に大規模なシステムで実際との高い近似性を 得ることができます。 ソフトウェア側では、SPECjbb2005 は JVM、JIT(ジャストインタイム)コンパイラー、ガベージコレクション、 スレッドなどのオペレーティングシステムの機能を評価します。ハードウェアに関する限り、SPECjbb2005 は CPU およびキャッシュの効率、メモリサブシステム、共有メモリシステム(SMP)のスケーラビリティを 測定します。ディスクおよびネットワーク I/O は無関係です。 SPECjbb2005 は、中間層システムを強調する最近の代表的なビジネスプロセスアプリケーションをエミュレー トする 3 階層のクライアント/サーバシステムです。 クライアントは、TPC-C ベンチマークのドライバスレッドであり、データベースへのアクセスは思 考時間をゼロにして負荷を生成します。 中間層システムは、ビジネスプロセスおよびデータベースの更新を実装します。 データベースは、データ管理を担当し、メモリ内の Java オブジェクトによりエミュレートされます。 トランザクションのログ記録は XML ベースで実装されます。 このベンチマークの主な利点は、シングルホスト上で実行される 3 つの層すべてを含んでいることです。中 間層のパフォーマンスが測定されるため、大規模なハードウェアの設置は不要となり、SPECjbb2005 の異な るシステム間の結果を直接比較できます。クライアントとデータベースのエミュレーションも Java で記述さ れています。
SPECjbb2005 には、オペレーティングシステムと J2SE 5.0 機能を備えた Java 仮想マシンのみが必要です。 このウェアハウスのスケーリングは、約 25 MB の Java オブジェクトです。ウェアハウスあたり 1 つの Java スレッドがこれらのオブジェクトのオペレーションを実行します。これらのビジネスオペレーションは TPC-C で次の項目を前提としています。 新規オーダーエントリー 支払 オーダーステータスの照会 納入 在庫レベル監視 顧客レポート ただし、これらは SPECjbb2005 と TPC-C が共通して持っている機能にすぎません。2 つのベンチマーク結 果は比較できません。 SPECjbb2005 には、次の 2 つの性能指標があります。 bops(1 秒あたりのビジネスオペレーション)は、1 秒あたりのすべてのビジネスオペレーションの 性能です。 bops/JVM は、最初の性能指標とアクティブな JVM インスタンス数の比率です。
SPEC®、SPECjbb®、および SPEC の各ロゴは、Standard Performance Evaluation Corporation(SPEC)の登録商標
SPECjbb2005 のさまざまな結果の比較では、両方の性能指標を掲載する必要があります。 ベンチマーク測定が準拠すべき以下のルールは、この性能指標の土台となるものです。 ベンチマーク測定は、ウェアハウス数(つまりスレッド数)が増加する一連の測定ポイントで構成され、各 ケースでウェアハウスが 1 だけ増加します。測定は、1 ウェアハウスで開始され、2*MaxWh まで(尐なくと も 8 ウェアハウス)行います。MaxWh は、ベンチマークで予想される、秒あたりの最高オペレーションレー トでのウェアハウス数です。デフォルトでは、MaxWh はオペレーティングシステムで認識される CPU の数 と同等として、ベンチマークで扱われます。
性能指標の bops は、MaxWh ウェアハウスと 2*MaxWh ウェアハウス間のすべての測定済みオペレーション 速度の算術平均です。
ベンチマーク結果
2009 年 5 月、24 GB PC3-10600R DDR3-SDRAM のメモリと 2 基の Xeon X5570 プロセッサの構成で PRIMERGY BX920 S1 の測定を行いました。測定には、Windows Server 2008 Enterprise x64 Edition SP2 を 使用しました。Oracle から提供されている JRockit(R) 6 R28.0.0 の 2 つのインスタンスを測定用 JVM と して使用しました。ベンチマーク結果には、8~16 個までのウェアハウスの全測定値が含まれています。
結果は以下のようになりました。 SPECjbb2005 bops = 566318 SPECjbb2005 bops/JVM = 283159
ベンチマーク環境
SPECjbb2005 でのすべての測定は、次のハードウェアおよびソフトウェア構成の PRIMERGY BX920 S1 で 実行されました。 ハードウェア モデル PRIMERGY BX920 S1 CPU Xeon X5570 チップ数 2 チップ、8 コア、 チップあたり 4 コア プライマリーキャッ シュ 32 KB(命令) + 32 KB(データ)オンチップ(コアあたり) セカンダリーキャッ シュ 256 KB(I+D)オンチップ(コアあたり) その他のキャッシュ 8 MB(I+D)オンチップ(チップあたり) メモリ 6×4 GB PC3-10600R DDR3-SDRAM ソフトウェア オペレーティングシステム Windows Server 2008 Enterprise x64 Edition SP2
JVM バージョン (ビルド P28.0.0-29-114096-1.6.0_11-20090427-1759-windows-x86_64) Oracle JRockit(R) 6 P28.0.0
StorageBench
ベンチマークの説明
ディスクサブシステムの能力を評価するために、富士通テクノロジー・ソリューションズ は StorageBench と いうベンチマークを開発しました。StorageBench は、システムに接続されている異なるストレージシステムを 比較することができます。このベンチマークでは、インテルで開発された Iometer という測定ツールと、実 際の顧客アプリケーションで発生する負荷プロファイルを組み合わせ、測定シナリオを定義しました。 測定ツール 2001 年末以降、Iometer は http://SourceForge.net のプロジェクトとなり、さまざまなプラットフォームに移 植され、国際的な開発者グループによって強化されています。Iometer は、Windows のユーザーインターフェー スとさまざまなプラットフォームで利用できる、いわゆる「dynamo」で構成されています。この数年で、こ れら 2 つのコンポーネントは、 http://www.iometer.org/ または、 http://sourceforge.net/projects/iometer から 「インテルオープンソースライセンス」でダウンロードできるようになりました。 Iometer は、IO サブシステムへのアクセスについて実際のアプリケーションの動作を再現することができま す。このため、特に、使用するブロックサイズ、シーケンシャルリード/ライト、ランダムリード/ライト、 およびこれらの組み合わせなど、アクセスの種類を設定できます。また、同時アクセス数(「未処理 IO」)も 設定できます。その結果、Iometer は 1 秒あたりのスループット、1 秒あたりのトランザクション数、各アク セスパターンの平均応答時間などの基本的なパラメーターを含むカンマで区切られた.csv ファイルを生成し ます。この方法により、特定のアクセスパターンを使ってさまざまなサブシステムの性能を比較できます。 Iometer は、ファイルシステムを使用して、サブシステムにアクセスできるばかりでなく、いわゆる RAW デ バイスにもアクセスできます。 Iometer では、さまざまなアプリケーションのアクセスパターンをシミュレーションおよび測定できますが、 オペレーティングシステムのファイルキャッシュは考慮されません。また、オペレーションは 1 つのテスト ファイル上のブロックで行われます。 負荷プロファイル アプリケーションがマスストレージシステムにアクセスする方法は、ストレージシステムのパフォーマンス に多大な影響を及ぼします。各種アプリケーションのさまざまなアクセスパターンの例: アプリケーション アクセスパターン データベース(データ転送) ランダム、67 %リード、33 %ライト、8 KB(SQL Server) データベース(ログファイル) シーケンシャル、100 %ライト、64 KB ブロック バックアップ シーケンシャル、100 %リード、64 KB ブロック リストア シーケンシャル、100 %ライト、64 KB ブロック ビデオストリーミング シーケンシャル、100 %リード、ブロック ≥ 64 KB ファイルサーバ ランダム、67 %リード、33 %ライト、64 KB ブロック Web サーバ ランダム、100 %リード、64 KB ブロック オペレーティングシステム ランダム、40 %リード、60 %ライト、ブロック ≥ 4 KB ファイルコピー ランダム、50 %リード、50 %ライト、64 KB ブロック これから次の 4 つの独特なプロファイルが導き出されました。 負荷プロファイル アクセス アクセスパターン ブロック サイズ 未処理 IO 負荷 ツール リード ライト ストリーミング シーケンシャル 100 % 64 KB 3 Iometer リストア シーケンシャル 100 % 64 KB 3 Iometer データベース ランダム 67 % 33 % 8 KB 3 Iometer ファイルサーバ ランダム 67 % 33 % 64 KB 3 Iometer 4 つのプロファイルはすべて Iometer で生成されました。測定シナリオ
比較できる測定結果を得るためには、再現可能な同一の環境ですべての測定を実行することが重要です。そ のため StorageBench は上記の負荷プロファイルに加えて次の規則に基づいています。
実際の顧客構成で RAW デバイスを使用するのは例外的な状況のみであるため、内蔵ディスクのパフォー
マンス測定は常にファイルシステムを使用したディスク上で実行されます。高いパフォーマンスが他 のファイルシステムや RAW デバイスで実現できる場合でも、Windows では NTFS が使用され、Linux では ext3 が使用されます。
ハードディスクは、コンピュータシステムで最もエラーが発生しやすいコンポーネントです。ハード
ディスクの故障によるデータの損失をなくすためにサーバシステムで RAID コントローラーが使用さ れる理由はここにあります。ここでは、複数のハードディスクを組み合わせて「Redundant Array of Independent Disks」(RAID)を形成し、1 つのハードディスクが故障した場合でもすべてのデータが 維持されるように(RAID 0 を除く)すべてのデータを複数のハードディスクに分散させます。ハード ディスクをアレイで編成する最も一般的な方法は、RAID レベル、RAID 0、RAID 1、RAID 5、RAID 6、 RAID 10、RAID 50、RAID 60 です。各種 RAID アレイの基本については、資料 パフォーマンスレポー
ト - PRIMERGY 用モジュラー RAID を参照してください。
ディスクの数および装着されているコントローラーに応じて、 RAID 構成を変えながら PRIMERGY サー バの StorageBench を測定しました。2 台のハードディスクを装着できるシステムでは RAID 1 およ び RAID 0 を使用し、3 台以上では RAID 1E および RAID 5 を使用します。適用可能な場合はサポー トされていることを条件にさらに上位の RAID レベルを使用します。 ハードディスクのサイズに関係なく、サイズが 8 GB の測定ファイルを常に測定に使用しています。 I/O サブシステムの効率の評価では、プロセッサパフォーマンスおよびメモリ構成は、今日のシステ ムでは大きな要因ではありません。通常、考えられるボトルネックは CPU やメモリではなく、ハー ドディスクや RAID コントローラーに影響を及ぼします。したがって、CPU やメモリの構成を数々 変えながら StorageBench で解析する必要はありません。 測定結果 負荷プロファイルごとに、StorageBench は次のようにさまざまな主要指標を提供します。1 秒あたりのデー タ転送量をメガバイト数で表した(MB/s)「データスループット」、1 秒あたりの I/O オペレーション数(IO/s) の「トランザクションレート」、およびミリ秒(ms)単位の「待機時間」(「平均アクセス時間」)。シーケン シャルな負荷プロファイルでは、データスループットが通常の指標であり、小規模なブロックサイズを使用 するランダムな負荷プロファイルでは、通常、トランザクションレートが使用されます。スループットおよ びトランザクションレートは互いに直接比例し、次の式に従って計算できます。 データスループット [MB/s] = トランザクションレート [ディスク-I/O /s] × ブロックサイズ [MB] トランザクションレート [ディスク-I/O /s] = データスループット [MB/s] / ブロック サイズ [MB]
ベンチマークの結果
PRIMERGY BX920 S1 サーバブレードには、モジュラー RAID ファミリーの LSI MegaRAID SAS 1064 コン トローラーが搭載されています。コントローラー自体は、サーバブレードのシステムボードに完全に組み込 まれています。このタイプのコントローラーには、キャッシュがありません。最大 2 台のローカルハードディ スクをサポートする PRIMERGY BX920 S1 サーバブレードを使用して、RAID レベル 0 および 1 を構成でき ます。これらの 2 台のハードディスクに、オペレーティングシステムをインストールできます。ストレージ 容量を増やす必要がある場合は、オプションで PRIMERGY SX940 S1 ストレージブレードを使用して、サー バブレードを拡張できます。 サーバブレードには、次のハードディスクを選択できます。 2.5 インチ SAS ハードディスク、容量 73 GB、146 GB(10 krpm) 2.5 インチ SAS ハードディスク、容量 36 GB、73 GB(15 krpm) 2.5 インチのドライブには、消費電力と熱の発生を抑えることができ、デバイスの冷却コストを削減できると いう大きなメリットがあります。このストレージブレードでは、2.5 インチハードディスクを使用することで、 スペースの有効利用を行い、コンパクト化されています。 可用性の観点からどのようにデータが扱われるかは、RAID アレイによって決まります。各 RAID アレイ内で データが転送される速さは、ハードディスクのデータスループットによって大きく異なります。RAID アレイ で測定用に構成されるハードディスクの数は、RAID レベルに応じて決定されています。
以下では、LSI MegaRAID SAS 1064 コントローラーで利用可能なハードディスクタイプのパフォーマンスを 比較しています。このコントローラーには、コントローラーキャッシュがないため、測定ではディスクキャッ シュの影響のみを測定し、ハードディスク比較の測定は、ディスクキャッシュのありとなしで実施しました。 ハードディスクキャッシュは ディスク I/O パフォーマンスに影響を及ぼします。多くの場合、この機能は電 源障害時の安全上の問題により無効化されます。しかし、ハードディスクの製造元は、書き込みパフォーマン スの向上のために組み込んでいます。I/O アクセス用のキャッシュは圧倒的に大きく、電源障害時の潜在的な リスク(データの損失)がメインメモリには存在します。これは、オペレーティングシステムによって管理 されます。データの損失を防止するには、システムに無停電電源装置(UPS)を装備することを推奨します。 テストでは、2 台のハードディスクを RAID 1 として構成し、コントローラーに接続しています。測定では、 サーバブレードで現在利用可能なすべてのハードディスクタイプを解析しました。RAID 1 での各ハードディ スクタイプのスループットを種々のアクセスパターンを使用して比較します。 下図は、64 KB ブロックサイズを使用してシーケンシャルリード/ライトを行った場合のスループットが、 回転速度の増加に伴って向上することを示しています。 シーケンシャルリードの場合、回転数 10 krpm のハー ドディスクの代わりに回転数 15 krpm のハードディ スクを使用すると、スループットは約 19 %向上し ました。シーケンシャルリードのスループットでは、 非常に良い値が得られ、キャッシュ設定によって結 果は左右されません。 ディスクキャッシュを有効にしたシーケンシャルラ イトの場合、回転数 10 krpm のハードディスクの代 わりに回転数 15 krpm のハードディスクを使用する と、スループットは約 21 % 向上しました。 図からわかるように、ディスクキャッシュを有効に することで、シーケンシャルライトでのスループッ トの向上が可能です。10 krpm のハードディスクで は約 84 %向上し、15 krpm のハードディスクでは約 46 %向上します。
次の図は、読み取りが 67 %を占めるランダムアクセスでも、ディスクキャッシュがスループットの向上に重 要な役割を果たしていることを示しています。 8 KB および 64 KB のブロックでのアクセスでは、 ディスクキャッシュを有効にすることで、10 krpm のハードディスクと 15 krpm のハードディスクの どちらを使用しているかに関係なく、スループッ トは平均で 24 %向上します。 10 krpm のハードディスクと 15 krpm のハードディ スクのスループットを比較すると、8 KB と 64 KB のブロックを使用したランダムアクセスで、ディ スクキャッシュを有効にした場合、15 krpm のハー ドディスクのスループットは、10 krpm のハードディ スクのスループットよりも約 23 %高いことがわか ります。 「RAID パフォーマンス」の詳細については、『パ フォーマンスレポート - PRIMERGY 用モジュラー RAID』に記載されています。 結論
PRIMERGY BX920 S1 サーバブレードと併用することで、LSI MegaRAID SAS 1064 コントローラーでは基 本的な RAID ソリューション RAID 0 および RAID 1 をサポートします。RAID 1 では、すべてのデータの冗 長性が保証されます。オプションで、PRIMERGY ストレージブレード SX940 S1 を使用してサーバブレードを 拡張できます。 PRIMERGY BX920 S1 サーバブレードでは、回転数 10 krpm または 15 krpm の 2.5 インチ SAS ハードディ スクを使用できます。必要なパフォーマンスに応じて、使用するハードディスクの回転数を決定する必要が あります。回転速度が速い 15 krpm のハードディスクを使用すると、スループットの値が向上します。 最大のパフォーマンスを実現するには、特にコントローラーキャッシュを持たないコントローラーを使用す る場合は、ハードディスクのキャッシュを有効にすることをお勧めします。これによって、使用するディス クの種類とアクセスパターンによっては、パフォーマンスが最大 84 %向上します。ハードディスクのキャッ シュを有効にする場合は、UPS の使用をお勧めします。
ベンチマーク環境
ここで説明したすべての測定は、下記の一覧で示したハードウェアとソフトウェアのコンポーネントを使用 して実行されました。 コンポーネント 詳細 サーバ PRIMERGY BX920 S1オペレーティングシステム Windows Server 2008 , Enterprise Edition Version:6.0.6001 Service Pack 1 Build 6001
ファイルシステム NTFS
測定ツール Iometer 27.07.2006
測定データ 8 GB の測定ファイル
コントローラー LSI MegaRAID SAS 1064
製品: LSI RAID 0/1 SAS 1064
ドライバ名: lsi_sas.sys、ドライバのバージョン: 1.29.03.00 ファームウェアのバージョン: 1.27.00.00 BIOS のバージョン: 06.26.00.00 ハードディスク SAS、2.5 インチ、10 krpm Seagate ST973402SS、73 GB ハードディスク SAS、2.5 インチ、15 krpm Seagate ST973451SS、73 GB 国または販売地域によっては一部のコンポーネントが利用できない場合があります。
SPECsfs2008
ベンチマークの説明
SPECsfs2008 は、Standard Performance Evaluation Corporation(SPEC)で開発されたベンチマークスイー トで、ファイルサーバのスループットと応答時間を測定します。異なるベンダーのプラットフォーム間での、 パフォーマンスを比較する標準的な方法が用意されています。 SPECsfs2008 の結果では、次の項目に関して、サーバの性能が要約されています。 1 秒あたりの、処理が可能なオペレーション数 (ops/sec) 応答時間(個々のオペレーションの完了に必要な時間) SPECsfs2008 の新しいコードにより、以前のバージョンとはパフォーマンスが異なります。したがって、 SPECsfs2008 の結果は、以前のバージョンの SPECsfs ベンチマーク結果とは比較できません。 SPECsfs2008 ベンチマーク は、NFS または CIFS のファイルサーバのパフォーマンスの測定に使用されま す。このベンチマークでは、標準的なサーバ環境をシミュレートするワークロードの組み合わせが作成され ます。NFS プロトコル バージョン 3 に準拠した NFS ワークロード、および CIFS ワークロードは、SFS 委 員会のメンバーによって、顧客のサイトで実際に稼働している何千もの NFS および CIFS のサーバから集め られたデータを基にしています。 特に各ワークロードが使用するファイルセットに関して類似点はありますが、NFS と CIFS のワークロード は比較できません。例えば、ある SUT(テスト対象システム)での CIFS の結果が同じ SUT での NFS の結 果よりも 20 %高い場合でも、その SUT では NFSよりも CIFS での動作の方が良いという推定はできません。 ワークロードは大きく異なり、NFS と CIFS のワークロードを正規化するための試みは行われてきませんで した。NFS でも CIFS でも、同じ SPECsfs2008 ワークロードで測定された、異なる SUT の公開結果の比較 だけは可能です。
測定には、1 ops/sec の負荷あたり 120 MB のファイルセットを作る必要があります。測定中に、ファイルセッ ト内の 30 %のファイルにアクセスがあります。ファイルの最大サイズは 32 MB です。NFS ワークロード内 の READ コマンドと WRITE コマンドの比率は 9:5 です。CIFS ワークロード内の READ_ANDX コマンドと WRITE_ANDX コマンドの比率は、およそ 7:3 です。
このベンチマークでは、サーバ上での負荷の生成に使用できるクライアントシステムを、ユーザーが 1 つ以 上持っていることが必要です。これらのクライアントの 1 つが「プライマリー」クライアントとして参照さ れ、負荷を生成するすべてのクライアントの統合に使用されます。サポート対象のクライアントのオペレー ティングシステムは、AIX、FreeBSD、Linux、Mac OS X、Solaris 10 および Windows です。
標準的な SPECsfs2008 のテスト構成では、負荷を生成する一連のクライアントは、SUT から共有またはエ クスポートが行われたファイルシステムに、ネットワークで接続されています。クライアントはマネージャー プログラムによって管理され、等間隔に増加していく「ロードポイント」で、10 以上の一連のテストを実行 します。ロードポイントは、クライアントがサーバへ送るワークロードのスループットレベル(オペレーション 数)を表します。 各ロードポイントの開始と同時に、各クライアントは、指定された数の負荷生成プロセスを開始します。各 プロセスでは、エクスポートまたは共有が行われたファイルシステムがマウントされ、ディレクトリ構造が 作成されて、そこにさまざまな大きさのファイルが書き込まれます。負荷を生成するプロセスで作成される ファイル数は、ロードポイントに対して指定された 1 秒あたりのオペレーション数によって決まり、その数 に比例して増加します。 負荷を生成しているすべてのプロセスによってファイルセットの初期化(ベンチマークの「INIT」フェーズ と呼ばれる)が完了されると、そのプロセスによって、ベンチマークで規定されているワークロードのパラ メーターを基にした NFS または CIFS の一連のオペレーションのサーバからの要求が開始されます。負荷ジェ ネレーターは 300 秒間 WARMUP モードを実行します。この間は正式な測定値は記録されません。WARMUP フェーズが完了すると、ベンチマークによって、300 秒間の測定フェーズが開始され、その間、ロードポイン トのスループットと応答時間の実際の測定値が収集されます。
300 秒の測定時間が正常に完了すると、テストの総合結果のレポートと記録を担当するマネージャープログ ラムにより、すべてのクライアント上のすべての負荷ジェネレーターからの統計値が収集されます。ベンチ マークのルールに違反せずにテストが完了した場合は、マネージャーによって作成された概要レポートを使 用して、審査と公表のために SPEC へ送信可能な SFS サブミッションを作成できます。そのため、ベンチ マークのレポート作成ツールが使用されてピークに達したスループットが示され、「全体応答時間」の性能指 標が算出されます。これは、一連のロードポイントの平均応答時間の測定結果を検討するためのものです。 SPECsfs2008 Run and Reporting Rules は、このスイートを使用して生成された結果が、有意義で、生成さ れた他の結果と比較でき、再現が可能なことを保証するために、SPEC によって制定されています。SPEC の ライセンス契約により、公開するすべての結果は、この Run and Reporting Rules に準拠している必要があ ります。さらに、このベンチマーク結果を公開して使用する場合、SPEC では SPEC OSG Fair Use Policy に 従うように求めています。このガイドラインに準拠していないと思われる場合、SPEC は調査を行い、公表 資料の訂正を要請する場合があります。
ベンチマーク結果
2009 年 9 月、PRIMERGY SX940 S1 と組み合わせた PRIMERGY BX920 S1 上で、SPECsfs2008 ベンチマー クの CIFS ワークロードを測定しました。どちらのブレードも PRIMERGY BX900 S1 ブレードシステムの合 計 18 ブレードスロットの 1 スロットを占めます。PRIMERGY BX910 S1 には、2 基の Xeon X5570 プロセッ サ、9 x 8 GB PC3-8500R DDR3-SDRAM、SAS RAID コントローラー、および 2 台の SAS ハードディスク (36 GB、15000 rpm)が搭載され、オペレーティングシステム用に 2 台のハードディスクで RAID 1 を構成 しています。PRIMERGY SX940 S1 は、8 ポート SAS RAID コントローラーと 4 台のハードディスク(146 GB、10000 rpm)で RAID 5 を構成しており、ファイルサーバのデータ領域として使用されます。PRIMERGY BX920 S1 は、4 基のオンボード 1 ギガビットイーサネットコントローラーの 1 つを用いて、負荷ジェネレー ターに接続されました。測定には、Windows Server 2003 R2 Enterprise x64 Edition SP2 を使用しました。 最初の測定区間では、225 ops/sec を目標値として、この値が出るように測定を行いました。この結果、約 26 GB の大きさのデータ領域がベンチマークにより生成されました。目標値は、後続の測定区間ごとに 225 ops/sec ずつ増加するため、データ領域の大きさも、約 26 GB ずつ増加しました。最終的に SPECsfs2008 _cifs の結 果 = 2295 ops/sec(全体応答時間 = 2.68 ミリ秒)を達成しました。 次頁の表とグラフは、10 回の測定間隔で得られたスループット(ops/sec)と平均応答時間(ミリ秒)を示 しています。グラフ内には、全体応答時間も点線で表されています。これは、すべての測定間隔から算出さ れた平均応答時間です。また、Y 軸の上端は、ルールに沿ったベンチマークの実行で許容される平均応答時 間の最大値(20 ミリ秒)です。
測定値は、PRIMERGY SX940 S1 の内蔵ハードディスクの容量を最大限活用した RAID 5 の構成で PRIMERGY BX920 S1 がどのようなパフォーマンスを実現するのかを示しています。測定中に、プロセッサの能力が限 界に達することはありませんでした。特に、ハードディスクの数によって、スループットが制限されました。 測定結果は、http://www.spec.org で公開されています。
ベンチマーク環境
テスト対象システム(System Under Test:SUT) ハードウェア ブレードシステム PRIMERGY BX900 S1: BX900 MMB S1(2 台) イーサネットコネクションブレード 1Gb 36/12(1 台) PRIMERGY BX920 S1(1 台) PRIMERGY SX940 S1(1 台) サーバ サーバブレード PRIMERGY BX920 S1(1 台) ストレージブレード PRIMERGY SX940 S1(1 台) プロセッサ サーバブレード: Xeon X5570(2 基) 国または販売地域によっては一部のコンポーネントが利用できない場合があります。
メモリ サーバブレード: 8 GB PC3-8500R DDR3-SDRAM(9 枚) ネットワークインター フェース サーバブレード:オンボード 1 ギガビットイーサネットネットワークインターフェース (4 ポート、うち 1 ポートを使用) ディスクサブシステム サーバブレード: SAS RAID コントローラー(1 基)
SAS ディスク、36 GB、15000 rpm、RAID 1、OS 用(2 台) ストレージブレード:
8 ポート SAS RAID コントローラー(512 MB キャッシュおよび BBU 搭載)(1 台) SAS ディスク、146 GB、10000 rpm、RAID 5、データ用(4 台)
ソフトウェア オペレーティング
システム Windows Server 2003 R2 Enterprise x64 Edition SP2 負荷ジェネレーター ハードウェア モデル PRIMERGY RX100 S3(10 台) プロセッサ Pentium D 950(2 基) メモリ 1 GB DDR2 SDRAM PC2-4200(2 枚) ネットワークインター フェース 1 ギガビット 内蔵イーサネット Broadcom BCM5721(2 セット:1 セットを使用) ソフトウェア オペレーティング システム Windows Server 2003
OLTP-2
ベンチマークの説明
OLTP とは、Online Transaction Processing (オンライントランザクション処理)の略です。OLTP-2 ベンチマー クは、データベースソリューションの標準的なアプリケーションのシナリオを基にしています。OLTP-2 デー タベースでは、アクセスがシミュレートされ、1 秒あたりに実行されるトランザクションの数(tps)が、測 定されるシステムのパフォーマンスの測定単位として決められています。 独立した機関によって標準化され、それぞれのルールや規則を順守しているか監視が行われている SPECint や TPC-E などのベンチマークとは違って、OLTP-2 は富士通テクノロジー・ソリューションズで開発された内 部ベンチマークです。標準化されたベンチマークでは大掛かりなハードウェアの導入や時間の消費が必要な ことがありますが、OLTP-2 では適度なレベルに抑えられていて、さまざまな構成を限られた時間で測定で きます。 OLTP-2 と TPC-E の 2 つの ベンチマークが同じワークロードを使用して同様のアプリケーションのシナリオを シミュレートしても、この 2 つのベンチマークは異なる方法を使用してユーザーの負荷をシミュレートする ので、結果を比較することも、同等のものとして扱うこともできません。OLTP-2 の値は、通常、TPC-E の 値に似ています。特に、価格性能比が算出されないので、直接的な比較だけでなく、OLTP-2 の結果を TPC-E として参照することも許可されません。
ベンチマーク結果
PRIMERGY BX920 S1 ブレードサーバを、55xx シリーズの Xeon プロセッサを使用し、メモリサイズは 24 GB、 36 GB、48 GB、72 GB の構成でそれぞれ測定しました。すべての結果は、オペレーティングシステム Microsoft Windows Server 2008 Enterprise x64 Edition とデータベース SQL Server 2008 Enterprise x64 Edition で測定 されたものです。OLTP-2 のベンチマーク結果は、ハードディスクとコントローラーを含むシステムの構成 オプションによって、大幅に異なります。このため、システムには 2 枚のデュアルチャネルファイバーチャ ネルコントローラー(メザニンカード)を搭載し、5 台の FibreCAT CX500 に搭載した合計 450 台のハード ディスクに接続しました。ディスクサブシステムは、測定でのボトルネックにならないように配置されまし た。他のディスクサブシステムでも、ボトルネックになっていなければ、比較可能な結果を得られる場合が あります。システム構成の詳細については、「ベンチマーク環境」セクションを参照してください。プロセッサが Xeon E5520、E5530、E5540、X5550、X5560、および X5570 の場合、PRIMERGY BX920 S1 の最大のメモリ構成(1 基のプロセッサの場合は 6 枚のメモリモジュールを使用し、2 基のプロセッサの場 合は 9 枚のメモリモジュールを使用)では、メモリのアクセス速度は 1067 MHz です。Xeon E5502、E5504、 および E5506 を使用する場合は、メモリのアクセス速度は 800 MHz です。
次頁の図では、PRIMERGY BX920 S1 の OLTP-2 パフォーマンスデータが、Intel Xeon シリーズ 55xx(E5502、 E5504、E5506、E5520、E5530、E5540、X5550、X5560、および X5570)の 1 基構成と 2 基構成の 2 つの グループに分けて表されています。Xeon L5530 のパフォーマンス値は Xeon E5530 と同等で、Xeon L5520 の 値は Xeon E5520 と、また、Xeon L5506 の値は Xeon E5506 と同等です。
すべての種類のプロセッサの中で最大の増加は、E5502 と E5504 との間で、+89 %~+96 %です。この場合、 プロセッサのコアの数は 2 から 4 へ倍増しています。また、E5506 と E5520 との間でも、プロセッサのキャッ シュが 4 MB から 8 MB に倍増することとハイパースレッディングを使用することによって、+59 %の大幅 な増加があります。最後に、E5520 から X5570 まで間の増加は +22~+23 %です。さまざまなメモリサイズ による性能向上率は、約 +8~+10 % です。これは、OLTP-2 ベンチマークのワークロードによるもので、す べてのデータベースアプリケーションでの標準値ではありません。
106.73 208.85 216.28 335.86 345.82 355.78 400.51 407.19 413.87 98.56 192.66 199.12 316.72 324.35 331.99 369.26 376.52 383.78 88.86 174.34 179.45 285.98 292.88 299.77 338.49 344.65 350.81 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 24 GB 36 GB 48 GB RAM OLTP-2: PRIMERGY BX920 S1 with 1 Xeon processor 55xx
bold numbers: measured results others: calculated results
+59% +23% +96% 106.73 208.85 216.28 335.86 345.82 355.78 400.51 407.19 413.87 98.56 192.66 199.12 316.72 324.35 331.99 369.26 376.52 383.78 88.86 174.34 179.45 285.98 292.88 299.77 338.49 344.65 350.81 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 24 GB 36 GB 48 GB RAM OLTP-2: PRIMERGY BX920 S1 with 1 Xeon processor 55xx
bold numbers: measured results others: calculated results
+59% +23% +96% 202.19 386.88 404.99 624.49 640.24 655.98 734.63 752.34 770.04 187.06 354.51 366.71 579.53 594.14 608.75 680.42 696.09 711.75 172.60 325.11 335.52 534.26 547.73 561.20 626.56 638.21 649.85 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 36 GB 48 GB 72 GB RAM OLTP-2: PRIMERGY BX920 S1 with 2 Xeon processors 55xx
bold numbers: measured results others: calculated results
+59% +22% +89% 202.19 386.88 404.99 624.49 640.24 655.98 734.63 752.34 770.04 187.06 354.51 366.71 579.53 594.14 608.75 680.42 696.09 711.75 172.60 325.11 335.52 534.26 547.73 561.20 626.56 638.21 649.85 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 36 GB 48 GB 72 GB RAM OLTP-2: PRIMERGY BX920 S1 with 2 Xeon processors 55xx
bold numbers: measured results others: calculated results
+59%
+22%
すべての設定を最大パフォーマンスの構成にして PRIMERGY BX920 S1 とブレードサーバ PRIMERGY BX620 S4 を比較した場合、スループットの増加は +132 %であることがわかります。 OLTP-2: PRIMERGY BX620 S4 vs. BX920 S1 331.52 770.04 0 100 200 300 400 500 600 700 800 PRIMERGY BX620 S4 2 x Xeon X5470 32 GB RAM PRIMERGY BX920 S1 2 x Xeon X5570 72 GB RAM +132% OLTP-2: PRIMERGY BX620 S4 vs. BX920 S1 331.52 770.04 0 100 200 300 400 500 600 700 800 PRIMERGY BX620 S4 2 x Xeon X5470 32 GB RAM PRIMERGY BX920 S1 2 x Xeon X5570 72 GB RAM +132%
ベンチマーク環境
テスト対象システム(B 層) ハードウェア サーバブレード PRIMERGY BX920 S1 ストレージブレード PRIMERGY SX940 プロセッサ Xeon E5502、E5504、E5506、E5540、X5550、X5570 メモリ 8 GB DDR3 PC3-8500R(最大 9 枚) 設定(デフォルト) ターボモード有効、NUMA サポート有効、ハイパースレッディング有効 ネットワークインター フェース 1 ギガビット LAN Intel(オンボード)(2 セット) ディスクサブシステム PRIMERGY BX920 S1: LSI SAS(1064E 搭載)(1 基) 2.5 インチ 73GB 15K Fujitsu MBC2073RC RAID-0、OS 用(1 台) デュアルチャネル FC メザニンカード Emulex(2 枚) PRIMERGY SX940: LSI SAS(1078 搭載)(1 基) 2.5 インチ 146GB 10K Fujitsu MBB2147RC RAID-0、ログ用(4 台) FibreCAT CX500(5 台): Seagate 36 GB 15 krpm、RAID-0、データ用(315 台) Seagate 73 GB 15 krpm、RAID-0、データ用(135 台) ソフトウェアオペレーティングシステム Windows Server 2008 Enterprise x64 Edition データベース SQL Server 2008 Enterprise x64 Edition
国または販売地域によっては一部のコンポーネントが利用できない場合があります。
負荷ジェネレーター
LAN スイッチ
負荷ジェネレーター ハードウェア モデル PRIMERGY Econel 200(4 台) プロセッサ Xeon 3.40 GHz、2 MB L2 キャッシュ(2 基) メモリ 2 GB DDR-SDRAM PC2700 ネットワークインター フェース 1 ギガビット LAN(オンボード)(1 セット) ソフトウェア オペレーティング
システム Windows Server 2003 Standard Edition SP1(x86) OLTP-2 ソフトウェア EGen バージョン 1.6.0-1011
SAP SD
ベンチマークの説明
SAP アプリケーションソフトウェアは、標準的な業務プロセスを管理するためのモジュールで構成されてい ます。受注組立(ATO)、財務会計(FI)、人事管理(HR)、在庫購買管理(MM)、生産計画(PP)および販 売管理(SD)、SCM(サプライチェーンマネジメント)、小売、銀行業務、公益事業、BI(ビジネスインテリ ジェンス)、CRM(顧客関係管理)、PLM(製品ライフサイクル管理)といった ERP(企業資源計画)用モジュー ルがあります。 このアプリケーションソフトウェアは、常にデータベースシステム上で実行されるので、完全な SAP の構成 は、(ハードウェアのサポートに加えて)ソフトウェアコンポーネントのオペレーティングシステム、データ ベースおよび SAP ソフトウェア自体となります。 SAP アプリケーションシステムのパフォーマンス、適合性およびスケーラビリティを評価するために、SAP AG は SAP 標準アプリケーションベンチマークを開発しました。これらのベンチマーク(SD ベンチマーク が最重要)では、システム全体のパフォーマンスが分析され、各コンポーネントを統合した状態での品質の 評価基準が用意されています。 ベンチマークは、2 階層の構成と 3 階層の構成で違いがあります。2 層の構成では、SAP アプリケーション とデータベースが、1 台のサーバにインストールされます。3 層の構成では、SAP アプリケーションの個々 のコンポーネントを数台のサーバに分散でき、別のサーバにデータベースが引き継がれます。SAP AG(ドイツ、Walldorf)によって開発されたベンチマークの詳細な仕様は、http://www.sap.com/benchmark
で参照できます。
ベンチマーク結果
2 基の Xeon X5570 プロセッサを搭載した PRIMERGY BX920 S1(SAP enhancement package 4 for SAP ERP 6.0(Unicode)と SQL Server 2008 Enterprise x64 Edition を使用)が、2009 年 5 月 28 日に、Windows Server 2008 Enterprise x64 Edition を使用して次の結果を達成したことが、認証番号 2009024 で SAP によって認証 されています。
ベンチマークユーザー数 3260 SD(Sales & Distribution)
平均ダイアログ応答時間 0.99 秒 スループット 完全に処理された注文項目数(1 時間あたり) 356000 ダイアログステップ(1 時間あたり) 1068000 SAPS 17800 平均 DB 要求時間(ダイアログ/アップデート) 0.030 秒/0.017 秒 CPU 使用率(中央サーバ) 99 %
オペレーティングシステム(中央サーバ) Windows Server 2008 Enterprise x64 Edition RDBMS SQL Server 2008 Enterprise x64 Edition
SAP Business Suite ソフトウェア SAP enhancement package 4 for SAP ERP 6.0(Unicode)
構成(中央サーバ) PRIMERGY BX920 S1
2 基の Xeon X5570、2.93 GHz、各コアに 512 KB L2 キャッ シュ、各チップに 8 MB L3 キャッシュ、48 GB RAM
ベンチマーク環境
テスト対象システム(System Under Test:SUT) ハードウェア サーバ PRIMERGY BX920 S1 プロセッサ Xeon X5570(2 基) メモリ 4 GB PC3-8500R DDR3-SDRAM x 6 枚 8 GB PC3-8500R DDR3-SDRAM x 3 枚 ディスクサブシステム PRIMERGY BX920 S1:
LSI MegaRAID SAS 1064E コントローラー(1 枚) 2.5 インチ SAS ディスク、73 GB、15 krpm(2 台) FC メザニンカード 8 Gbps、2 ポート(1 枚) FibreCAT CX3-40(1 台):
FC ディスク、146 GB、15 krpm(14 台) ソフトウェア
オペレーティングシステム Windows Server 2008 Enterprise x64 Edition データベース SQL Server 2008 Enterprise x64 Edition SAP Business Suite ソフト
ウェア SAP enhancement package 4 for SAP ERP 6.0(Unicode)
負荷ジェネレーター ハードウェア モデル PRIMERGY RX600 S2 プロセッサ Xeon 7040 × 4(3 GHz、4 MB L2 キャッシュ) メモリ 8 GB PC2-3200 DDR2-SDRAM ソフトウェア
オペレーティングシステム SUSE Linux Enterprise Server 11
国または販売地域によっては一部のコンポーネントが利用できない場合があります。
2 層環境
テスト対象システム 負荷ジェネレーター
ターミナルサーバ
ベンチマークの説明
ターミナルサーバの測定を行うための負荷シミュレーションツールがいくつか存在しますが、標準のベンチ マークは存在せず、結果を相互に比較することもできません。例えば、Microsoft ターミナルサービスと Citrix Presentation Server を同じ条件で測定することはできず、また、他にも制限があります。そのため、富士通 テクノロジー・ソリューションズでは、T4US(Tool for User Simulation)という名前の自社開発プログラムを 使用しています。これは、使用されているオペレーティングシステムやアプリケーションに関係なく、すべ てのターミナルサーバベースのシナリオをシミュレートできる柔軟性の高いツールで、さまざまなシステム コンポーネントの応答時間と使用率を詳細に測定できます。
T4US Record ツールは、ユーザーによるキーボードと マウスの操作をリアルタイムで記録し、さらに出力を表 示して T4US Script に保存します。T4US Script は、測 定中に使用される負荷プロファイルです。 T4US 負荷シミュレーターには 3 つのコンポーネントがあります。 T4US Control は 、シミュ レーションプロセス全体を集 中制御および監視し、測定中 の測定データを評価します。 T4US Playback のいくつか のインスタンスが負荷ジェネ レーター上で稼動します。各 T4US Playback は 、 T4US Record とともに記録された T4US Script を基にして、 キーボードとマウスからの入 力をリアルタイムでターミナ ルサーバクライアントに「転 送」し、ターミナルサーバク ライアントの画面の内容を監 視します。このようにして、 ターミナルサーバの応答時間は高精度のタイマーを使用して測定されます。T4US Agent はすべての負荷ジェ
ネレーター上で稼動します。T4US Agent は、コントローラーとの通信を処理し、T4US Playback のインス タンスを制御および監視して、測定された応答時間をコントローラーに転送します。 測定中は、ターミナルサーバを使用するユーザーの数が継続的に増加します。ターミナルサーバの応答時間 は、T4US コントローラーによって監視され、事前に行った数人のユーザーによる参照用の測定から決定さ れた、保存済みの参照値と比較されます。アプリケーションの応答時間が、事前に定義されたルールに適合 しない程度に低下した場合、測定が中止され、その時のユーザー数が測定結果になります。ただし、システ ムがサポートできるユーザー数は実際のユーザープロファイルによって常に左右されるので、この数を絶対 数と考えることはできません。結果は主に相対的な結果と考える必要があります。つまり、「PRIMERGY シ ステム A の効率は PRIMERGY システム B の 2 倍である」または「メインメモリを 2 倍にするとパフォーマン スが x %増加する」というように考えます。 T4US Play T4US Agent 負荷ジェネレーター
…
T4US Play T4US Play TS Client TS Client ターミナル サーバ…
TS Client テスト対象システム (System Under Test:SUT)SUT T4US Control コントローラー T4US Record T4US Script 実際に作業している ユーザー
負荷プロファイル V2
これまでターミナルサーバの測定で使用されていた負荷プロファイル V1 は使用できなくなりました。この プロファイルでは、各ユーザーがターミナルサーバに定期的にログオンし、テキストとイメージを作成して からログオフしていました。測定対象システムのパフォーマンスの向上により、ベンチマークは、システム のプロセッサのパフォーマンスではなく実行されるログオン/ログオフ処理によってユーザー数が決まるとい う状況になりました。言い換えるとオペレーティングシステムに制限が存在するということです。これは、 プロセッサの能力を使い切る前にこのベンチマークが限界に達してしまったことを意味します。したがって プロセッサのパフォーマンスの向上はこのベンチマークでは測定できません。このような理由から、ここで 実行される測定では、新しい負荷プロファイル V2 が使用されることになりました。 新しい負荷プロファイル V2 には、シミュレートされるユーザーがさまざまな Microsoft Office アプリケー ションを使用するという特徴があります。Microsoft Word ドキュメントの作成に加えて、PowerPoint プレゼン テーションも作成します。新しい Excel スプレッドシートに関する計算も実行されます。ログオン/ログオフ 処理数は、古い負荷プロファイルと比較して減尐しています。平均して 6 人に 1 人 のユーザーのみが定期的 にターミナルサーバにログオンおよびログオフします。また、平均して 6 人に 1 人のユーザーが Word ドキュ メントを印刷します。メモリ内のファイルの圧縮と解凍によって、さらに CPU の負荷が発生します。シミュ レーション対象のユーザーのタイピング速度は 1 分間に 330~440 文字です。 ターミナルサーバベンチマークに必要なメモ リは、ユーザー数に比例して増加し、基にな るオペレーティングシステムによって異なり ます。特に 32 ビットと 64 ビットのオペレー ティングシステムでは大きく異なります。こ の点については、『ターミナルサーバサイジン グガイド』に詳しい説明が記載されています (関連資料を参照してください)。 右側の図には、64 ビットの Windows Server 2008 システム上での負荷 プロファイル V2 を使用したベンチマークの メモリ要件を示しています。現在のユーザー はさまざまなアプリケーションを使用すると いう事実により、負荷プロファイル V2 では 元の負荷プロファイル V1 よりも多くのメモリが使用されます。 下図は、Windows Server 2008 x64 システム上で負荷プロファイル V2 を使用したときの ディスクとネット ワークの平均的な IO レート、および関連するデータスループットを示しています。ベンチマーク結果
ターミナルサーバシステム上で実行されるすべての測定で、オペレーティングシステムとして Windows Server 2008 x64 Enterprise Edition SP1 を使用しました。32 ビットオペレーティングシステムでは、仮想ア ドレス空間およびカーネル構造の制限のためにサポートされるユーザー数が制限されるので、このオペレー ティングシステムの測定は省略しました。 サーバまたはクライアントに行ったインストールでは最適化を行っていませんが、すべての PRIMERGY に 対して同じテスト条件になるように、以下の設定のみが変更されました。 オペレーティングシステムのページファイルは 36 GB の固定サイズに設定されました。 ターミナルサーバシステムでは、以下のパフォーマンス関連の要素が重要です。 ネットワーク ディスクサブシステム メインメモリ 演算処理のパフォーマンス ネットワーク ターミナルサーバベースのシステムは基盤になるネットワークインフラストラクチャーによって大きな影響を 受けます。ここでは個別のターミナルサーバのパフォーマンスが論点なので、ネットワークはボトルネック にならないような規模で構成されています。 ディスクサブシステム ディスクサブシステムは、さらに大きくパフォーマンスに影響する構成要素です。ここで使用する測定環境 では、オペレーティングシステムと、ユーザーデータおよびページファイルに分けてそれぞれを、2 台のハー ドディスクの RAID 0 アレイ上にあるパーティションを使用して、ターミナルサーバの 1 つのパーティション に保存しています。ただし、これが実際の顧客の構成に対応しているとは限りません。実際の構成では、一 般的にユーザーデータが適切なディスクサブシステムまたは外部ファイルサーバ上に置かれ、ターミナルサー バのローカルハードディスクには置かれないためです。最大のスループットを実現するために、ライトキャッ シュが有効になっています。ハードディスクのライトキャッシュはパフォーマンスの向上に大きく貢献し、 運用環境を含めてこの機能の使用が推奨されており、すべてのハードディスクで使用可能です。そのため、 停電とそれに伴うデータ損失から保護するために UPS を使用することが推奨されます。 メインメモリ メインメモリは、ターミナルサーバのパフォーマンスに最も大きく影響します。これは特に応答時間に反映 されます。必要なときには、Windows は、現在使用しないデータをメインメモリ(RAM)からハードディス ク上のスワップファイルに再配置(スワッピング)することで追加の仮想メモリを取得します。ただし、ディ スクアクセスにはメインメモリのアクセスの 1000 倍の時間がかかるので、直接的な結果としてパフォーマン スが大幅に低下し、応答時間が急激に増加します。 ターミナルサーバは数多くのユーザーとさまざまなアプリケーションを処理するので、十分なメモリを搭載 したシステムを用意することが特に重要です。メモリのアクセス速度は補助的な要因になります。72 GB ま での最大メモリ構成を備えた PRIMERGY BX920 S1 サーバブレードは、ターミナルサーバに良好なプラット フォームを提供します。 PRIMERGY BX920 S1 のメモリアクセス速度はプロセッサだけでなくメモリ構成にも依存します。メモリ DIMM が 1 つのバンクにのみ装着され、CPU に割り当てられた複数のチャネルに分散されているときに、最高のア クセス速度が実現されます。 今回実行した測定では、ターミナルサーバに十分なメモリが搭載されています。CPU ごとに 3 つのチャネル に分散された 4 GB メモリモジュールを 6 枚搭載した PRIMERGY BX920 S1 が、シミュレーション対象のユー ザー数に合わせて最適に構成されると同時に、メモリアクセス時間も短くなるように構成されました。