ホワイトペーパー
FUJITSU PRIMERGY サーバ
パフォーマンスレポート
PRIMERGY BX960 S1
本書では、PRIMERGY BX960 S1 で実行したベンチマークの概要について説明します。
PRIMERGY BX960 S1 のパフォーマンスデータを、他の PRIMERGY モデルと比較して
説明しています。ベンチマーク結果に加え、ベンチマークごとの説明およびベンチマーク
環境の説明も掲載しています。
バージョン 1.1a 2011-12-05 目次 ドキュメントの履歴 ... 2 製品データ... 3 SPECcpu2006 ... 4 SPECjbb2005 ... 8 OLTP-2 ... 11 SAP SD ... 15 vServCon ... 18 VMmark V1 ... 24 関連資料 ... 28 お問い合わせ先 ... 29ドキュメントの履歴
バージョン 1.0 以下のベンチマークを含むレポートの初版 SPECcpu2006 Xeon E7520、E7530、L7545、E7540、X7542、X7550、L7555、X7560 で測定 SPECjbb2005 Xeon L7555 で測定 SAP SD 認証番号 2010038 vServCon Xeon E7520、E7530、L7545、E7540、X7542、L7555、X7550、X7560 で測定 VMmark V1 Xeon E7540、E7520 で測定 バージョン 1.1 以下のベンチマークを追加 OLTP-2 Xeon E7520、E7530、E7540、L7545、L7555、X7542、X7550、X7560 で測定 以下のベンチマークを更新 VMmark V1 Xeon X7560 で新規測定 バージョン 1.1a 軽微な訂正製品データ
4 ソケットサーバブレード PRIMERGY BX960 S1 には、Intel 7500 チップセット、Intel Xeon プロセッサ 7500 シリーズ(4 コア、6 コア、8 コア)2 ~ 4 基、最大 512 GB の DDR3-SDRAM が搭載可能な DIMM スロット 32 本、2 ポート 10 Gbit LAN コントローラー 1 基、SSD 最大 2 台に対応するオンボードコント ローラー 1 基が搭載されています。 詳細な製品データについては、次のデータシートを参照してください。 PRIMERGY BX900 S1 データシート PRIMERGY BX960 S1 データシート
SPECcpu2006
ベンチマークの説明
SPECcpu2006 は、整数演算および浮動小数点演算でシステム性能を測定するベンチマークです。このベン チマークは、12 本のアプリケーションから成る整数演算テストセット(SPECint2006)、および 17 本のア プリケーションから成る浮動小数点演算テストセット(SPECfp2006)で構成されています。これらのアプ リケーションは大量の演算を実行し、CPU およびメモリを集中的に使用します。他のコンポーネント (ディスク I/O、ネットワークなど)は、このベンチマークでは測定しません。 SPECcpu2006 は、特定のオペレーティングシステムに依存しません。このベンチマークは、ソースコード として利用可能で、実際に測定する前にコンパイルする必要があります。したがって、使用するコンパイ ラーのバージョンやその最適化設定が、測定結果に影響を与えます。 SPECcpu2006 には、2 つのパフォーマンス測定方法が含まれています。1 つ目の方法(SPECint2006 およ び SPECfp2006)では、1 つのタスクの処理に必要な時間を測定します。2 つ目の方法(SPECint_rate2006 および SPECfp_rate2006)では、スループット(並列処理できるタスク数)を測定します。いずれの方法 も、さらに 2 つの測定の種類、「ベース」と「ピーク」に分かれています。これらは、コンパイラー最適化 を使用するかどうかという点で異なります。「ベース」値は常に公開されていますが、「ピーク」値はオプ ションです。 ベンチマーク 演算 タイプ コンパイラー最適化 測定結果 アプリケーション SPECint2006 整数 ピーク アグレッシブ 速度 単体実行 SPECint_base2006 整数 ベース 標準 SPECint_rate2006 整数 ピーク アグレッシブ スループット 多重実行 SPECint_rate_base2006 整数 ベース 標準 SPECfp2006 浮動小数点 ピーク アグレッシブ 速度 単体実行 SPECfp_base2006 浮動小数点 ベース 標準 SPECfp_rate2006 浮動小数点 ピーク アグレッシブ スループット 多重実行 SPECfp_rate_base2006 浮動小数点 ベース 標準 測定結果は、個々のベンチマークで得られた正規化比の幾何平均です。算術平均と比較して、幾何平均の方 が、ひとつの飛び抜けて高い値に左右されない平均値です。「正規化」とは、テストシステムがリファレン スシステムと比較してどの程度高速であるかを測定することです。例えば、リファレンスシステムの SPECint_base2006、SPECint_rate_base2006、SPECfp_base2006、および SPECfp_rate_base2006 の結 果が、値「1」と判定されたとします。このとき、SPECint_base2006 の値が「2」の場合は、測定システム が こ の ベ ン チ マ ー ク を リ フ ァ レ ン ス シ ス テ ム の 2 倍 の 速 さ で 実 行 し た こ と を 意 味 し ま す 。 SPECfp_rate_base2006 の値が「4」の場合は、測定対象システムがリファレンスシステムの約 4/[ベー スコピー数]倍の速さでこのベンチマークを実行したことを意味します。「ベースコピー数」とは、実行さ れたベンチマークの並行インスタンスの数です。 弊社では、SPEC の公開用に、SPECcpu2006 のすべての測定値を提出しているわけではありません。その ため、SPEC の Web サイトに公開されていない結果が一部あります。弊社では、すべての測定のログファ イルをアーカイブしているので、測定の内容に関していつでも証明できます。ベンチマーク結果
PRIMERGY BX960 S1 で、Xeon 7500 シリーズのプロセッサを測定しました。ベンチマークプログラムは、 インテル C++/Fortran コンパイラー 11.1 でコンパイルし、SUSE Linux Enterprise Server 11(64 ビット) で実行しました。プロセッサ コア GHz L3 キャッ シュ QPI スピード TDP SPECint_base2006 SPECint2006 2 チップ 4 チップ 2 チップ 4 チップ Xeon E7520 4 1.87 18 MB 4.80 GT/s 95 W 20.6 22.4 Xeon E7530 6 1.87 12 MB 5.86 GT/s 105 W 22.2 24.3 Xeon L7545 6 1.87 18 MB 5.86 GT/s 95 W 25.0 28.0 Xeon E7540 6 2 18 MB 6.40 GT/s 105 W 24.2 26.7 Xeon X7542 6 2.67 18 MB 5.86 GT/s 130 W 28.1 N/A 31.0 N/A Xeon X7550 8 2 18 MB 6.40 GT/s 130 W 24.6 N/A 27.2 N/A Xeon L7555 8 1.87 24 MB 5.86 GT/s 95 W 25.9 29.5 Xeon X7560 8 2.27 24 MB 6.40 GT/s 130 W 28.0 N/A 31.3 N/A
プロセッサ コア GHz L3 キャッ シュ QPI スピード TDP SPECint_rate_base2006 SPECint_rate2006 2 チップ 4 チップ 2 チップ 4 チップ Xeon E7520 4 1.87 18 MB 4.80 GT/s 95 W 155 311 165 335 Xeon E7530 6 1.87 12 MB 5.86 GT/s 105 W 221 441 237 473 Xeon L7545 6 1.87 18 MB 5.86 GT/s 95 W 227 454 244 489 Xeon E7540 6 2 18 MB 6.40 GT/s 105 W 243 487 259 524 Xeon X7542 6 2.67 18 MB 5.86 GT/s 130 W 247 N/A 265 N/A Xeon X7550 8 2 18 MB 6.40 GT/s 130 W 315 N/A 338 N/A Xeon L7555 8 1.87 24 MB 5.86 GT/s 95 W 298 595 321 638 Xeon X7560 8 2.27 24 MB 6.40 GT/s 130 W 348 N/A 375 N/A
プロセッサ コア GHz L3 キャッ シュ QPI スピード TDP SPECfp_base2006 SPECfp2006 2 チップ 4 チップ 2 チップ 4 チップ Xeon E7520 4 1.87 18 MB 4.80 GT/s 95 W 26.6 28.4 Xeon E7530 6 1.87 12 MB 5.86 GT/s 105 W 28.7 31.0 Xeon L7545 6 1.87 18 MB 5.86 GT/s 95 W 31.0 34.3 Xeon E7540 6 2 18 MB 6.40 GT/s 105 W 30.7 33.3 Xeon X7542 6 2.67 18 MB 5.86 GT/s 130 W 33.8 N/A 36.0 N/A Xeon X7550 8 2 18 MB 6.40 GT/s 130 W 31.0 N/A 33.2 N/A Xeon L7555 8 1.87 24 MB 5.86 GT/s 95 W 32.1 35.8 Xeon X7560 8 2.27 24 MB 6.40 GT/s 130 W 34.0 N/A 36.5 N/A
プロセッサ コア GHz L3 キャッ シュ QPI スピード TDP SPECfp_rate_base2006 SPECfp_rate2006 2 チップ 4 チップ 2 チップ 4 チップ Xeon E7520 4 1.87 18 MB 4.80 GT/s 95 W 132 262 138 274 Xeon E7530 6 1.87 12 MB 5.86 GT/s 105 W 174 338 180 356 Xeon L7545 6 1.87 18 MB 5.86 GT/s 95 W 182 353 189 375 Xeon E7540 6 2 18 MB 6.40 GT/s 105 W 196 376 202 399 Xeon X7542 6 2.67 18 MB 5.86 GT/s 130 W 203 N/A 210 N/A Xeon X7550 8 2 18 MB 6.40 GT/s 130 W 240 N/A 247 N/A Xeon L7555 8 1.87 24 MB 5.86 GT/s 95 W 225 449 233 467 Xeon X7560 8 2.27 24 MB 6.40 GT/s 130 W 257 N/A 265 N/A
整数演算テストセットおよび浮動小数点演算テストセットの両方で、4 プロセッサのスループットは 2 プロ セッサの 2 倍です。 SPECfp_rate_base2006 SPECfp_rate2006 0 50 100 150 200 250 300 350 400 450 500 2 x Xeon L7555 4 x Xeon L7555 225 449 233 467 SPECint_rate_base2006 SPECint_rate2006 0 100 200 300 400 500 600 700 2 x Xeon L7555 4 x Xeon L7555 298 595 321 638 SPECcpu2006:整数演算性能 PRIMERGY BX960 S1(4 ソケットと 2 ソケットの比較) SPECcpu2006:浮動小数点演算性能 PRIMERGY BX960 S1(4 ソケットと 2 ソケットの比較)
ベンチマーク環境
SPECcpu2006 の測定は、次のハードウェアおよびソフトウェア構成の PRIMERGY BX960 S1 で行いまし た。
ハードウェア
モデル PRIMERGY BX960 S1
CPU Xeon E7520、E7530、L7545、E7540、X7542、X7550、L7555、X7560
CPU 数 2 チップ Xeon E7520: 8 コア、4 コア(チップあたり) Xeon E7530、L7545、E7540、X7542: 12 コア、6 コア(チップあたり) Xeon L7555、X7550、X7560: 16 コア、8 コア(チップあたり) 4 チップ Xeon E7520: 16 コア、4 コア(チップあたり) Xeon E7530、L7545、E7540: 24 コア、6 コア(チップあたり) Xeon L7555: 32 コア、8 コア(チップあたり) 1 次キャッシュ 32 KB(命令) + 32 KB(データ)オンチップ(コアあたり) 2 次キャッシュ 256 KB オンチップ(コアあたり) その他のキャッシュ Xeon E7530: 12 MB(命令 + データ)オンチップ(チップあたり) Xeon E7520、L7545、E7540、X7542、X7550: 18 MB(命令 + データ)オンチップ(チップあたり) Xeon L7555、X7560: 24 MB(命令 + データ)オンチップ(チップあたり) ソフトウェア
オペレーティングシステム SUSE Linux Enterprise Server 11(64 ビット) コンパイラー インテル C++/Fortran コンパイラー 11.1
SPECjbb2005
ベンチマークの説明
SPECjbb2005 は、Java サーバプラットフォームのパフォーマンスを評価する Java ビジネスベンチマーク です。これは、本質的には SPECjbb2000 をアップデートしたものです。主な違いは次のとおりです。 トランザクションは、多様な機能範囲に対応するために、より複雑になっています。 ベンチマークのワーキングセットは、システムの負荷の増大に対応するために、拡大されています。 SPECjbb2000 では、アクティブな Java 仮想マシンインスタンスは 1 つのみ許可されていましたが、 SPECjbb2005 では複数のインスタンスが許可され、特に大規模なシステムで実環境との高い近似性 を得ることができます。 SPECjbb2005 は、ソフトウェアについては主にジャストインタイムコンパイラーで使用される JVM と、ス レッドおよびガーベージコレクションの実装のパフォーマンスを測定します。使用されるオペレーティング システムの機能も評価します。ハードウェアについては、CPU およびキャッシュの効率、メモリサブシス テム、共有メモリシステム(SMP)のスケーラビリティを評価します。ディスクおよびネットワーク I/O は 無関係です。 SPECjbb2005 は、最近の代表的なビジネスプロセスアプリケーションである 3 階層クライアント/サーバ システムをエミュレートしたもので、中間層システムに重点を置いています。 クライアントは、TPC-C ベンチマークを基にしたドライバスレッドを負荷として生成し、データ ベースへの OLTP アクセスを思考時間ゼロで行います。 中間層システムは、ビジネスプロセスおよびデータベースの更新を実装します。 データベースはデータ管理を行い、メモリ内の Java オブジェクトによりエミュレートされます。 トランザクションのログ記録は XML ベースで実装されます。 このベンチマークの主な利点は、シングルホスト上で 3 つの層すべてを実行できることです。中間層のパ フォーマンスが測定されます。このため、大規模なハードウェアの設置は不要となり、異なるシステムの SPECjbb2005 の結果を直接比較できます。クライアントとデータベースのエミュレーションも Java で記 述されています。
SPECjbb2005 には、オペレーティングシステムと J2SE 5.0 機能に対応した Java 仮想マシンのみが必要で す。 スケーリングの単位は、 約 25 MB の Java オブジェクトから成るウェアハウスです。1 つのウェアハウス につき、1 つの Java スレッドがオペレーションを実行します。これらのビジネスオペレーションは TPC-C で次の項目を前提としています。 新規オーダーエントリー 支払 オーダーステータスの照会 納入 在庫レベル監視 顧客レポート ただし、これらは SPECjbb2005 と TPC-C が共通して持っている機能にすぎません。2 つのベンチマーク の結果は比較できません。 SPECjbb2005 には、次の 2 つの性能指標があります。 bops(1 秒あたりのビジネスオペレーション)は、1 秒あたりのすべてのビジネスオペレーション の処理レートです。 bops/JVM は、上記の性能指標(bops)とアクティブな JVM インスタンス数の比率です。 SPECjbb2005 のさまざまな結果の比較では、両方の性能指標を考慮する必要があります。 これらの性能指標の測定は、次のようなベンチマークのルールに準拠しています。 ベンチマーク測定は、ウェアハウス数(スレッド数)が増加する一連の測定ポイントで構成され、それぞれ においてウェアハウス数は 1 つずつ増加します。測定は 1 ウェアハウスで開始され、2*MaxWh(少なくと も 8 ウェアハウス)まで実行されます。MaxWh は、ベンチマークで予想される秒あたりの処理レートが最
高になるウェアハウス数です。デフォルトでは、MaxWh はオペレーティングシステムで認識される CPU の数と同じ値が設定されます。
性能指標の bops は、MaxWh ウェアハウスと 2*MaxWh ウェアハウス間のすべての測定ポイントのオペ レーション速度の算術平均です。
ベンチマーク結果
2010 年 8 月、4 基の Xeon L7555 プロセッサおよび 128 GB の PC3-10600R DDR3-SDRAM メモリの構成 で PRIMERGY BX960 S1 を測定しました。測定には、Windows Server 2008 Enterprise x64 Edition SP2 を 使用しました。IBM から提供されている J9 VM の 16 のインスタンスを使用しました。 測定結果は次のとおりです。 SPECjbb2005 bops = 1662995 SPECjbb2005 bops/JVM = 103937 0 200000 400000 600000 800000 1000000 1200000 1400000 1600000 1800000 1 2 3 4 5 6 7 8 warehouses SPECjbb2005 bops: PRIMERGY BX960 S1 (Xeon L7555 を 4 基搭載)
ベンチマーク環境
SPECjbb2005 の測定は、次のハードウェアおよびソフトウェア構成の PRIMERGY BX960 S1 で行いまし た。 ハードウェア モデル PRIMERGY BX960 S1 CPU Xeon L7555 CPU 数 4 チップ、32 コア(チップあたり 8 コア) 1 次キャッシュ 32 KB(命令)+ 32 KB(データ)オンチップ(コアあたり) 2 次キャッシュ 256 KB(命令 + データ)オンチップ(コアあたり) その他のキャッシュ 24 MB(命令 + データ)オンチップ(チップあたり) メモリ 4 GB PC3-10600R DDR3-SDRAM × 32 枚 ソフトウェアオペレーティングシステム Windows Server 2008 Enterprise x64 Edition SP2
JVM バージョン IBM J9 VM (build 2.4, JRE 1.6.0 IBM J9 2.4 Windows Server 2008
amd64-64 jvmwaamd64-6460sr6-20090923_42924 (JIT enabled, AOT enabled) 国または販売地域によっては、一部のコンポーネントが利用できない場合があります。
OLTP-2
ベンチマークの説明
OLTP とは、Online Transaction Processing(オンライントランザクション処理)の略です。OLTP-2 ベン チマークは、データベースソリューションの標準的なアプリケーションシナリオを基にしています。OLTP-2 では、データベースアクセスがシミュレートされ、1 秒あたりに実行されるトランザクションの数(tps) が測定されます。 独立した機関によって標準化され、その規則を順守して測定しているかを監視される SPECint や TPC-E の ようなベンチマークとは異なり、OLTP-2 は、富士通が開発した固有のベンチマークです。OLTP-2 は、 データベースのベンチマークとしてよく知られている TPC-E を基に開発されました。そして、CPU やメモ リの構成に応じてシステムがスケーラブルな性能を示すことを実証するために、さまざまな構成で測定でき るように設計されています。 OLTP-2 と TPC-E の 2 つのベンチマークが同じ負荷プロファイルを使用して同様のアプリケーションのシ ナリオをシミュレートしても、この 2 つのベンチマークは異なる方法でユーザーの負荷をシミュレートする ため、結果を比較したり同等のものとして扱うことはできません。通常、OLTP-2 の値は、TPC-E に近い値 となります。しかし、価格性能比が算出されないため、直接比較できないだけでなく、OLTP-2 の結果を TPC-E として利用することも許可されません。 詳細情報は、『ベンチマークの概要 OLTP-2』を参照してください。
ベンチマーク結果
PRIMERGY BX960 S1 の OLTP-2 の値は、Intel Xeon 75xx プロセッサシリーズを使用して、 64 GB、 128 GB、256 GB、および 512 GB のメモリ構成で測定しました。これらの結果は、オペレーティングシス テム Microsoft Windows Server 2008 R2 Enterprise とデータベース SQL Server 2008 R2 Enterprise x64 Edition で測定したものです。データベースのパフォーマンスは、ハードディスクとコントローラーを含む システムの構成オプションによって、大幅に異なります。ここに記載されている次元のスループットは、通 常の外部ディスクサブシステムがボトルネックでない場合に実現されます。システム構成の詳細については、 「ベンチマークの環境」を参照してください。 次の表は、PRIMERGY BX960 S1 に搭載可能な各プロセッサの仕様を示しています。 プロセッサ コア数/ チップ HT TM プロセッサ周波数 L3 キャッ シュ QPI スピード メモリ周波数 TDP E7520(× 4 基) 4 1.86 GHz 18 MB 4.8 GT/s 800 MHz 95 W E7530(× 4 基) 6 1.86 GHz 12 MB 5.86 GT/s 978 MHz 105 W E7540(× 4 基) 6 2.0 GHz 18 MB 6.4 GT/s 1066 MHz 105 W L7545(× 4 基) 6 1.86 GHz 18 MB 5.86 GT/s 978 MHz 95 W L7555(× 4 基) 8 1.86 GHz 24 MB 5.86 GT/s 978 MHz 95 W X7542(× 2 基) 6 2.66 GHz 18 MB 5.86 GT/s 978 MHz 130 W X7550(× 2 基) 8 2.0 GHz 18 MB 6.4 GT/s 1066 MHz 130 W X7560(× 2 基) 8 2.26 GHz 24 MB 6.4 GT/s 1066 MHz 130 W HT = ハイパースレッディング、TM = ターボモード、QPI = QuickPath インターコネクト、 GT = ギガトランスファー、TDP = 熱設計電力 メモリに関しては、16 GB モジュールの最大構成、および 2 つの別構成で測定しました。ここでは、周波 数はプロセッサタイプによってのみ変わり、使用したメモリモジュールのタイプおよび数には影響されませ ん。メモリパフォーマンスの詳細については、ホワイトペーパー『Xeon 7500(Nehalem-EX)搭載システ ムのメモリパフォーマンス』を参照してください。
データベース環境でメインメモリを選択するときのガイドラインとして、メモリアクセス速度よりも、メモ リ容量が十分にあることが重要です。 次のグラフは、2 基または 4 基の Intel Xeon シリーズプロセッサとさまざまなメモリ構成で得られる PRIMERGY BX960 S1 の OLTP-2 パフォーマンスデータを示しています。 搭載可能なプロセッサの種類が多いため、PRIMERGY BX960 S1 では広範にわたるレベルのパフォーマン スが実現されていることがわかります。同じ最大メモリ構成で比較すると、パフォーマンスが最も低いプロ セッサ(E7520)を使用した場合(927 tps)に比べ、パフォーマンスが最も高いプロセッサ(L7555)を使 用した場合(1745 tps)は、OLTP-2 値は 1.9 倍になっています。 測定結果に基づき、プロセッサをいくつかのグループに分類できます。 最下位にランクするのはターボモードをサポートしていない、わずか 4 コアのプロセッサである E7520 です。 ハイパースレッディングとターボモードの両方をサポートする 6 コアのプロセッサ(E7530、E7540、 L7545)では、パフォーマンスが向上しています。 CPU あたり 8 コアのプロセッサである L7555、X7550、および X7560 は、パフォーマンスの最上位にラン クします。 6 コアでクロック周波数は高いものの、ハイパースレッディング機能をサポートしていない X7542 プロ セッサは例外です。データベースアプリケーションをシミュレートした OLTP-2 の負荷の下では特に、論理 的なプロセッサコア数を 2 倍にするハイパースレッディングのメリットを受けます。 メインメモリを増設すると、すべてのプロセッサタイプでデータベースのスループットを向上させることが できました。 一方で、4 ソケットサーバでは、プロセッサを 2 基から 4 基に増やしたときに、どの程度パフォーマンスが 向上するかという疑問もあります。スケーリングが向上すれば、サーバ内のリソース共有によって通常生じ るオーバーヘッドは減少します。スケーリングの係数はアプリケーションによっても変わります。サーバを 2CPUs-64GB 2CPUs-128GB 2CPUs-256GB 4CPUs-128GB 4CPUs-256GB 4CPUs-512GB 0 200 400 600 800 1000 1200 1400 1600 1800 2000 E7520 4Core E7530 6Core E7540 6Core L7545 6Core L7555 8Core X7542 6Core X7550 8Core X7560 8Core 453 650 712 670 852 626 884 969 494 710 778 732 930 684 967 1057 511 734 804 756 962 707 1006 1093 869 1247 1367 1286 1635 913 1311 1437 1352 1718 927 1332 1459 1373 1745 [tps] PRIMERGY BX960 S1 : OLTP-2 太字、斜体の数字:実測値 その他:計算値
データベースサーバとして使用する場合は、CPU 数を 2 基から 4 基に倍増することで、パフォーマンスを 82 %~ 92 %程度向上させることができます。
ベンチマーク環境
一般的な測定環境を以下に示します。 データベースサーバ(B 層) ハードウェア システム PRIMERGY BX960 S1 プロセッサ Xeon E7520(4 コア、1.86 GHz)× 4 基 Xeon E7530(6 コア、1.86 GHz)× 4 基 Xeon L7545(6 コア、1.86 GHz)× 4 基 Xeon E7540(6 コア、2.0 GHz)× 4 基 Xeon X7542(6 コア、2.66 GHz)× 2 基 Xeon L7555(8 コア、1.86 GHz)× 4 基 Xeon X7550(8 コア、2.0 GHz)× 2 基 Xeon X7560(8 コア、2.26 GHz)× 2 基 メモリ 64 GB~512 GB、 1333 MHz Registered ECC DDR3(8 GB DIMM)または1066 MHz Registered ECC DDR3(16 GB DIMM) 設定(デフォルト) ターボモード有効、NUMA サポート有効、ハイパースレッディング有効 ネットワーク インターフェース LAN 1 Gbps × 4 ディスクサブシステム RAID 1(OS 用) オペレーティングシステムおよびデータベースアプリケーション RAID 10(ログ用) シーケンシャルアクセス、応答時間を短縮するよう最適化 RAID 5(データ用) ランダムアクセス、スループットを最適化 ソフトウェア
オペレーティングシステム Windows Server 2008 R2 Enterprise データベース SQL Server 2008 R2 Enterprise x64
アプリケーション
サーバ
A 層
B 層
ネットワーク ネットワーク クライアントデータベースサーバ
ストレージサブシステムSUT(System Under Test:テスト対象システム)
アプリケーションサーバ(A 層) ハードウェア システム PRIMERGY RX200 S6 プロセッサ Xeon E5620(4 コア、2.40 GHz)× 2 基 メモリ 12 GB、1333 MHz Registered ECC DDR3 ネットワーク インターフェース オンボード LAN 1 Gbps × 2 基、デュアルポート LAN 1 Gbps × 2 基 ディスクサブシステム 73 GB 15k rpm SAS ドライブ × 1 台 ソフトウェア
オペレーティングシステム Windows Server 2008 R2 Standard クライアント ハードウェア システム PRIMERGY RX200 S5 プロセッサ Xeon X5570(4 コア、2.93 GHz)× 2 基 メモリ 24 GB、1333 MHz Registered ECC DDR3 ネットワーク インターフェース オンボード LAN 1 Gbps × 2 基 ディスクサブシステム 73 GB 15k rpm SAS ドライブ × 1 台 ソフトウェア
オペレーティングシステム Windows Server 2008 R2 Standard OLTP-2 ソフトウェア EGen バージョン 1.10.0
SAP SD
ベンチマークの説明
SAP アプリケーションソフトウェアは、標準的な業務プロセスを管理するためのモジュールで構成されて います。モジュールには、受注組立(ATO)、財務会計(FI)、人事管理(HR)、在庫購買管理(MM)、 生産計画(PP)、販売管理(SD)などの ERP(企業資源計画)用のものや、SCM(サプライチェーンマ ネジメント)、小売、銀行業務、公益事業、BI(ビジネスインテリジェンス)、CRM(顧客関係管理)、 PLM(製品ライフサイクル管理)用のものがあります。 SAP アプリケーションソフトウェアは必ずデータベースと関連しています。したがって、SAP の構成には、 ハードウェアに加え、ソフトウェアコンポーネントであるオペレーティングシステムとデータベース、およ び SAP ソフトウェア自体も含まれます。 SAP アプリケーションシステムのパフォーマンス、安定性およびスケーラビリティを評価するために、 SAP AG は SAP 標準アプリケーションベンチマークを開発しました。中でも、最も広く使用されており最 も重要なのは、SD ベンチマークです。これらのベンチマークでは、システム全体のパフォーマンスが分析 されるため、コンポーネントの統合品質を測定できます。 ベンチマークは、2 層の構成と 3 層の構成で異なります。2 層の構成では、SAP アプリケーションとデータ ベースを 1 台のサーバにインストールします。3 層の構成では、SAP アプリケーションの各コンポーネン トを数台のサーバに分散でき、別のサーバでデータベースを処理します。 SAP AG(ドイツ、Walldorf)によって開発されたベンチマークの詳細な仕様は、 http://www.sap.com/benchmark を参照してください。ベンチマーク結果
2010 年 8 月 31 日に Xeon L7555 プロセッサ 4 基を搭載した PRIMERGY BX960 S1(Windows Server 2008 R2 Datacenter で SAP Enhancement Package 4 for SAP ERP 6.0 と SQL Server 2008 を使用)で次 の結果を得たことが認証されました(認証番号 2010038)。
認証番号 2010038
Number of SAP SD benchmark users 8,470
Average dialog response time 0.99 seconds
Throughput
Fully processed order line items/hour dialog steps/hour
SAPS
924,330 2,773,000 46,220
Average database request time (dialog/update) 0.022 sec / 0.029 sec
CPU utilization of central server 96%
Operating system, central server Windows Server 2008 R2 Datacenter
RDBMS SQL Server 2008 Enterprise Edition
SAP Business Suite software SAP enhancement package 4 for SAP ERP 6.0
Configuration Central server
PRIMERGY BX960 S1
4 processors / 32 cores / 64 threads Xeon L7555 256 GB main memory 次のグラフは、PRIMERGY BX960 S1 と高性能な PRIMERGY 2 ソケットサーバ のスループットを比較し たものです。それぞれ最大のパフォーマンス構成になっています。 日付:2010 年 9 月 22 日 4910 8470 0 2000 4000 6000 8000 Number of Benchmark Users
Fujitsu PRIMERGY BX960 S1 4 x Xeon L7555
256 GB RAM
Windows Server 2008 R2 Datacenter SQL Server 2008 Enterprise Edition Fujitsu PRIMERGY BX922 S2 4 x Xeon X5680
72 GB RAM
Windows Server 2008 R2 Enterprise SQL Server 2008 Enterprise Edition
ベンチマーク環境
SUT(System Under Test:テスト対象システム) ハードウェア サーバ PRIMERGY BX960 S1 プロセッサ Xeon L7555 × 4 基 メモリ 8 GB PC3-10600R DDR3-SDRAM × 32 枚 ディスクサブシステム PRIMERGY BX960 S1 × 1 台:
PY FC Mezz Card 8Gb 2 Port(MC-FC82E) PRIMERGY SX940 S1 × 1 台:
RAID Ctrl SAS 6G 5/6 512MB(D2616)× 1 基 RAID Contr BBU Upgrade for RAID 5/6 V16 × 1 基 HD SAS 6G 73GB 15K HOT PLUG 2.5" EP × 2 台 HD SAS 6G 300GB 10K HOT PLUG 2.5" EP × 1 基 FibreCAT CX4-480 × 1 台
ソフトウェア
オペレーティングシステム Windows Server 2008 R2 Datacenter
データベース SQL Server 2008 Enterprise Edition
SAP Business Suite ソフト
ウェア SAP Enhancement Package 4 for SAP ERP 6.0
負荷ジェネレーター ハードウェア モデル PRIMERGY RX300 S4 プロセッサ Xeon X5460(3.17 GHz、12 MB L2 キャッシュ)× 2 基 メモリ 12 GB PC2-5300F DDR2-SDRAM ソフトウェア オペレーティング システム Linux 2.6.32 テスト対象システム 2 層環境 負荷ジェネレーター
vServCon
ベンチマークの説明
vServCon は、富士通テクノロジー・ソリューションズが、ハイパーバイザーを使用するサーバ構成につい て、サーバ統合の適合性の比較に使用するベンチマークです。これにより、システム、プロセッサ、および I/O テクノロジーの比較に加え、ハイパーバイザー、仮想化形式、および仮想マシン用の追加ドライバの比 較も可能になります。 vServCon は、厳密に言えば新しいベンチマークではありません。これは、言うなればフレームワークであ り、すでに確立されたベンチマークをワークロードとして集約し、統合され仮想化されたサーバ環境の負荷 を再現します。データベース、アプリケーションサーバ、Web サーバというアプリケーションシナリオを 対象とする 3 つの実証済みのベンチマークが使用されます。 3 つのアプリケーションシナリオのそれぞれが、1 つの専用の仮想マシン(VM)に割り当てられます。これ らに加えてアイドル VM という 4 番目の仮想マシンが追加されます。これら 4 つの VM が 1 つの「タイル」 を構成します。最大の性能値を引き出すためには、測定対象となるサーバの処理能力に応じて、いくつかの タイルを並行して開始しなければならない場合もあります。 3 つの vServCon アプリケーションシナリオのそれぞれが、各 VM のアプリケーション固有のトランザク ションレートという形でベンチマーク結果を提供します。スコアを正規化するために、1 つのタイルのそれ ぞれのベンチマーク結果とリファレンスシステムの結果との比を求めます。その相対性能値に適切な重み付 けを行い、すべての VM とすべてのタイルについて加算します。最終的な計算結果が、このタイル数に対す るスコアになります。 原則として、1 つのタイルから始めて、vServCon スコアの大幅な増加が見られなくなるまで、タイル数を 増やしながらこの手順が実行されます。最終的な vServCon スコアは、すべてのタイル数から得られた vServCon スコアの最大値です。したがって、このスコアは、CPU リソースを最大限まで使用する構成で達 成される最大スループットを反映しています。このため、vServCon の測定環境は、CPU のみが制限要因と なるように設計されており、他のリソースによる制限は発生しないように設計されています。 タイル数の増加に対する vServCon スコアの伸びは、テスト対象システムのスケーリング特性を知るための 有益な情報となります。さらに、vServCon では、ホストの合計 CPU 負荷(VM および他のすべての CPU 処理)を記録し、可能な 場合は消費電力も記録します。 vServCon の詳細については、『ベンチマークの概要 vServCon』を参照してください。 アプリケーションシナリオ ベンチマーク 論理 CPU コアの数 メモリ データベース Sysbench(補正済み) 2 1.5 GB Java アプリケーションサーバ SPECjbb(補正済み、50~60 %の負荷) 2 2 GB Web サーバ WebBench 1 1.5 GB テスト対象システム … … タイル n タイル 3 タイル 2 タイル 1 データベース VM Web VM アイドル VM Java VM データベース VM Web VM アイドル VM Java VM データベース VM Web VM アイドル VM Java VM データベース VM Web VM アイドル VM Java VM
ベンチマーク結果
PRIMERGY BX960 S1 は、最大 32 個のプロセッサコア、512 GB メインメモリ、4 つの 10 GbE ポート (オンボード)、さらに進歩したプロセッサテクノロジーなど、多様な拡張性を備え、多数のアプリケー ション VM の実行に適しています。前世代のプロセッサをベースとするシステムと比較して、仮想化性能が 最高約 130 %向上しています(vServCon スコアで測定)。プロセッサを 4 基搭載したシステムで、前述の vServCon プロファイルを基にして 54 のアプリケーション VM(18 のタイルに相当)を使用した場合、 CPU リソースの最大活用をほぼ実現できます。 上記のグラフは、各プロセッサで達成可能な仮想化性能値を比較したものです。このシステム用にリリース されたプロセッサには、4 コア、6 コア、8 コアがあり、技術的な仕様が異なります。次の表は、各プロ セッサの主な違いとベンチマーク結果を示しています(略号:QPI = QuickPath インターコネクト、GT = ギガトランスファー、TDP = 熱設計電力)。 プロセッサ コア数 L3 キャッ シュ プロセッサ 周波数 QPI スピード ハイパー スレッディング ターボ モード TDP タイル数 スコア E7520(4 基) 4 18 MB 1.86 GHz 4.8 GT/s 95 W 9 7.58 E7530(4 基) 6 12 MB 1.86 GHz 5.86 GT/s 105 W 14 10.23 E7540(4 基) 6 18 MB 2.0 GHz 6.4 GT/s 105 W 14 11.93 X7542(2 基) 6 18 MB 2.66 GHz 5.86 GT/s 130 W 4 5.29 X7550(2 基) 8 18 MB 2.0 GHz 6.4 GT/s 130 W 10 7.90 X7560(2 基) 8 24 MB 2.26 GHz 6.4 GT/s 130 W 10 9.02 L7545(4 基) 6 18 MB 1.86 GHz 5.86 GT/s 95 W 14 11.17 L7555(4 基) 8 24 MB 1.86 GHz 5.86 GT/s 95 W 18 15.34 メモリ構成のパフォーマンスに対する影響は、比較的複雑です。4 基未満のプロセッサを構成する場合は、 搭載したプロセッサに接続された DIMM スロットのみ使用できます。詳細は、ホワイトペーパー『Xeon 7500(Nehalem-EX)搭載システムのメモリパフォーマンス』を参照してください。このホワイトペーパー では、上の表で使用されている用語(QPI および GT)についても詳細を掲載しています。仮想化環境のメ インメモリを選択するときのガイドラインとして、メモリアクセス速度よりも、メモリ容量が十分にあるこ とが重要です。 2 × X 7 5 4 2 4 × E 7 5 2 0 2 × X 7 5 5 0 2 × X 7 5 6 0 4 × E 7 5 3 0 4 × L7545 4 × E 7 5 4 0 4 × L7555 4 9 10 10 14 14 14 18 0 2 4 6 8 10 12 14 16 F in a l v S e rv C o n S c o re #Tiles次 の グ ラ フ は 、 Xeon E7540 ( 6 コ ア ) プ ロ セ ッ サ ま た は L7555 ( 8 コ ア ) プ ロ セ ッ サ を 搭 載 し た PRIMERGY BX960 S1 で、VM 数の増加に伴う仮想化性能の推移を調べたものです。ホストのそれぞれの CPU 負荷も示されています。CPU 負荷が 90 %のときが最適なタイル数です。90 %を超えると過負荷とな り、仮想化のパフォーマンスは停滞または低下します。 上記のように多数の VM を実行できるのは、物理コア数の増加に加えて、7500 シリーズのほとんどすべて の Xeon プロセッサがハイパースレッディング機能をサポートしているためです。ハイパースレッディング 機能では、1 つの物理プロセッサコアが結果的に 2 つの論理コアに分割されるため、ハイパーバイザーが利 用できるコア数は 2 倍になります。そのため、ハイパースレッディング機能は、一般的にシステムの仮想化 性能を向上させます。 ハイパースレッディング機能を使用するシステムでは、前のグラフに示されているタイル数のスケーリング 曲線が明確に見られます。Xeon E7540 プロセッサには、24 個の物理コア、すなわち 48 個の論理コアがあ り、1 つのタイルにつき 4 個程度の論理コアが使用されます(『ベンチマークの説明』を参照)。つまり、 ほぼ 6 タイルまでは、複数の VM が同じ物理コアを並行して使用することを回避できます。そのため、この 範囲ではほぼ理想的にパフォーマンスが上昇します。その後、CPU 使用率が限界に達するまでのパフォー マンス曲線は、傾きが緩やかになっていきます。 前のグラフでは、ホストの全アプリケーション VM の総合的なパフォーマンスを測定しました。しかし、 個々のアプリケーション VM のパフォーマンスも興味深いものです。この情報は、前のグラフから読み取れ ます。例えば、高負荷で全体最適化された状態と、低負荷の状態での、個々のアプリケーション VM の仮想 化性能を考えます。上記の Xeon E7540 環境では、42 のアプリケーション VM(14 タイル)を使用した場 合が全体最適化された状態で、3 つのアプリケーション VM(1 タイル)を使用した場合が、低負荷の状態 です。1 タイルあたりの vServCon スコアは、vServCon の 3 つのアプリケーションシナリオを通じた平均 値です。1 タイルあたりの平均パフォーマンスは、vServCon スコアが低負荷のケース(1.75)から全体最 適化された状態(0.85=11.93/14)へ変化すると、49 %へと大幅に低下します。個々のアプリケーション VM の反応は、高負荷の状況では全く違ったものになります。ある特定の状況下では、仮想ホストの VM 数 に関して、全体的なパフォーマンス要件と、個々のアプリケーションのパフォーマンス要件のバランスをと る必要があります。 1 .7 5 3 .5 3 5 .1 7 6 .6 0 8 .1 5 9 .3 3 9 .8 7 1 0 .1 0 1 0 .3 3 1 0 .9 7 1 1 .2 9 1 1 .7 6 1 1 .8 7 1 1 .9 3 1.70 3 .3 1 5 .0 3 6 .5 9 7 .9 3 9 .5 0 1 0 .7 6 1 1 .8 3 1 2 .3 0 1 2 .6 7 1 2 .9 3 1 3 .4 4 1 3 .8 2 1 4 .3 8 1 4 .7 0 1 4 .8 8 1 5 .0 6 1 5 .3 4 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 4 x E7540 4 x L7555 0 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 C P U u til iz a tio n v S e rv C o n s c o re # Tiles vServCon score (left axis) CPU utilization of host (right axis)
2008 年以降のプロセッサテクノロジーにおける仮想化関連の進歩は、一方では個別の VM に影響し、他方 では CPU をフル活用したときの使用可能な最大 VM 数に影響しています。次のグラフでは、この 2 つの側 面における向上の度合いを比較しています。ここでは、プロセッサ周波数が異なる 3 つの構成を選択し、比 較しています。Xeon X7460 を 4 基搭載した 2008 年の 4 ソケットシステムと、Xeon E7540 を 4 基、およ び Xeon L7555 を 4 基搭載した PRIMERGY BX960 S1 です。
2008 年のシステムと Xeon E7540 プロセッサを搭載した現在のシステムを比較すると、VM の数が少ない ケース(1 タイル)での進歩は明らかです。プロセッサ周波数が 25 % 低いにも関わらず(2.67 GHz に対 して 2.0 GHz)、現在のシステムの vServCon スコアはわずかに高くなっています。この主な理由の 1 つが、
プロセッサの新しい機能である EPT(Extended Page Tables:拡張ページテーブル)です1
。 VM でシステムを完全負荷状態にすると、Xeon E7540 6 コアプロセッサを搭載した現行システムの仮想化 のパフォーマンスは、プロセッサ周波数が 25 % 低いにも関わらず、約 2 倍になります。その理由の 1 つは、 個々の VM で実現できるパフォーマンスの向上です(グラフ左側の Few VMs のスコアを参照)。もう 1 つ の理由は、全体最適化された状態で実行可能な VM の数が 2 倍以上に増加していることです(ハイパース レッディング機能の使用やメモリ帯域幅の拡大などによる)。ただし、VM の数を増やすことで個々の VM のパフォーマンスは低下しているため、全体としての性能向上は、VM の数が 6 タイルに対して 14 タイル になったことによってもたらされたものと言えます。 1 0 2 4 6 8 10 12 14 16 18 2008 X7460 4 × 6 2.67 GHz 2010 E7540 4 × 6 2.0 GHz 2010 L7555 4 × 8 1.86 GHz 2008 X7460 4 × 6 2.67 GHz 2010 E7540 4 × 6 2.0 GHz 2010 L7555 4 × 8 1.86 GHz Overall Optimum Few VMs
Virtualization relevant improvements for 4-way servers
× 1.79 v S e rv C o n S c o re × 2.30 Year CPU #Cores Freq.
前世代のプロセッサをベースとするシステムとの比較においては、完全負荷状態での現在のシステムのスコ アの向上に加えて、消費電力の削減も考慮すべきです。TDP(Thermal Design Power:熱設計電力)が、こ の指針となります。2008 年に使用されていた Xeon X7460 プロセッサの TDP は 130 W でしたが、現行の Xeon E7540 プロセッサの TDP はわずか 105 W です。 さらにコア数の多いプロセッサを使用することによって、仮想化性能をさらに向上させることができます。 (完全負荷状態で)6 コアプロセッサではなく 8 コアプロセッサの現在のシステムで同じ測定を行うと、 2008 年のシステムよりも明らかにパフォーマンスが向上していることがわかります。この例では、プロ セッサクロック周波数が 30 %低いのにも関わらず、仮想化のパフォーマンスは 2.30 倍に向上しています。 また、プロセッサの TDP は 95 W に低下し、エネルギー効率も高まっています。 仮想化パフォーマンスの増加は、個別の VM の性能向上によるものがすべてではありません。個別の VM の 性能向上だけでは、Xeon 7400 世代(2008 年)の同一クロックのプロセッサと比較して、30 %~ 50 %を 超えるスループットの増加は不可能です。2009 年以降の仮想化環境におけるパフォーマンス向上の大部分 は、実行できる最大 VM 数が増大したことによって達成されたものです。
ベンチマーク環境
測定は次のような環境で行いました。 SUT ハードウェア モデル PRIMERGY BX960 S1 プロセッサ Xeon E7520(4 コア、1.86 GHz)× 4 基 Xeon E7530(6 コア、1.86 GHz)× 4 基 Xeon L7545(6 コア、1.86 GHz)× 4 基 Xeon E7540(6 コア、2.0 GHz)× 4 基 Xeon X7542(6 コア、2.66 GHz)× 2 基 Xeon L7555(8 コア、1.86 GHz)× 4 基 Xeon X7550(8 コア、2.0 GHz)× 2 基 Xeon X7560(8 コア、2.26 GHz)× 2 基 メモリ 256 GB(8 GB DIMM を使用した完全構成) ネットワークインターフェース 10 Gbit LAN オンボード × 3:負荷用 × 1、制御用 × 1、ホスト OS 用 × 1 ディスクサブシステム 内蔵ハードディスクは使用せず、ストレージシステム FibreCAT CX500 のみを使用 VM の仮想ディスクファイル用のタイルあたり 1 つの 50 GB LUN各 LUN は、5 つの Seagate ST373454 ディスク(15 krpm)で構成された RAID 0 アレイ
ストレージの接続 FC コントローラー Emulex LPe12002 を使用 SUT ソフトウェア
オペレーティングシステム ハイパーバイザー VMware ESX Server バージョン バージョン 4.0 U2 ビルド 261974 BIOS バージョン Aptio 3.6 R1.01C.2873、デフォルト設定 SUT:仮想化に関する詳細 ESX 設定 デフォルト 一般的な詳細 『ベンチマークの概要 vServCon』を参照 負荷ジェネレーターのハードウェア モデル PRIMERGY BX600 S3 シャーシ内にタイルあたり 2 台のサーバブレード プロセッサ それぞれ Xeon 5130 × 2 基、2000 MHz メモリ 1~2 GB ネットワークインターフェース それぞれ 1 Gbit LAN × 2 オペレーティングシステム W2K3 EE 国または販売地域によっては、一部のコンポーネントが利用できない場合があります。 複数の 1 Gb または 10 Gb ネットワーク 負荷ジェネレーター サーバ ストレージシステム
SUT(System Under Test:テスト対象システム) フレームワーク
VMmark V1
ベンチマークの説明
このセクションの内容は、VMmark ベンチマークバージョン 1.1.1(以降、「VMmark V1」)に基づいてい ます。VMmark V1 は、ハイパーバイザーを使用した仮想化ソリューションにおけるサーバ統合の適合性比 較を行うために VMware が開発したベンチマークです。 ベンチマークは、負荷生成用のソフトウェアに加えて、定義済み負荷プロファイルおよび規定されたルール で構成されます。長い間、VMmark V1 は、ベンダー間の比較が可能な唯一の確立された仮想化ベンチマー クでした。VMmark V1 のベンチマーク結果は、VMware 社のレビュー後に VMware サイトで公開されてい ました。現在では、VMmark V2 に置き換えられており、VMmark V1 は研究目的でのみ使用可能です。 VMmark V1 のようなベンチマークは、サーバ統合の観点から実際のデータセンターを模倣します。言い方 を変えると、実際にサーバ上で仮想化されているアプリケーションシナリオを考慮しなければなりません。 目標は、稼動率が低いサーバをできるだけ多く VM として集約することです。そのため、ベンチマークに よって、さまざまなアプリケーション VM の全体的なスループットと、効率よく運用できる仮想マシンの個 数を評価することが必要になります。 これらの 2 つの目的のために次のようなソリューションコンセプトが確立されています。まず、アプリケー ションシナリオの代表的なグループが選択されます。これらは、測定時に仮想ホスト上で同時に開始されま す。各 VM には、適切な負荷ツールを使用して低い負荷がかけられるようになっています。このような VM をグループ化したものを「タイル」と呼びます。 VMmark V1 のタイルは 6 つの VM で構成され、 そのうち 5 つは特定のアプリケーションシナリ オに割り当てられます。これらの VM に加え、ス タンバイサーバという 6 番目の VM が追加され ます。VMmark V1 では、論理的なプロセッサ、 メモリ、ハードディスクスペースといった特定の リソースが各 VM に強制的に割り当てられます。 右の表に、6 つの VM とそれらを測定するために 使用する負荷ツールを示します。 測定対象となるサーバの処理能力によっては、全体として最大のパフォーマンスを達成するために複数のタ イルを並列して開始する必要があります。 5 つの VMmark V1 アプリケーションシナリオのそれぞれから VM ごとのベンチマーク結果が得られます。 これらの結果から単一のスコアを取得するために、すべての結果が適切に集約されます。結果は、あるタイ ル数に対する VMmark V1 スコアで表し、「12.34@5 タイル」のように実際のスコアに加えてタイル数が示 されます。 VMmark V1 の詳細については、『ベンチマークの概要 VMmark V1』を参照してください。 アプリケーションシナリオ 負荷ツール データベースサーバ Sysbench ファイルサーバ Dbench(変更済み) Java アプリケーションサーバ SPECjbb2005(変更済み) メールサーバ Loadsim 2003 Web サーバ SPECweb2005(変更済み) スタンバイサーバ - テスト対象システム タイル n タイル 3 タイル 2 タイル 1 データ ベース VM Java VM メール VM ファイル サーバ VM Web VM スタンバイ VM データ ベース VM Java VM メール VM ファイル サーバ VM Web VM スタンバイ VM データ ベース VM Java VM メール VM ファイル サーバ VM Web VM スタンバイ VM データ ベース VM Java VM メール VM ファイル サーバ VM Web VM スタンバイ VM … …ベンチマーク結果
2010 年 6 月 29 日、富士通は、 PRIMERGY BX960 S1 と VMware ESX v4.0 Update 2 を使用して 「52.27@35 タイル」の VMmark V1 スコアを達成し、2 位のシステムを 60 %以上引き離して 24 コアカテ ゴリで 1 位を獲得しました。2010 年 10 月に PRIMERGY RX600 S5 で行われた測定では、さらなる最適 化を行いパフォーマンスが 7 %向上しました。PRIMERGY RX600 S5 と PRIMERGY BX960 S1 が同等の 構成の場合、同等のパフォーマンスを実現することは、次のセクションの「16 プロセッサコア」 のベンチ マーク結果にも表れています。 次のグラフは、PRIMERGY BX960 S1 および PRIMERGY RX600 S5 と競合他社のシステムを比較2した結 果で、24 コアカテゴリの上位を示しています。 すべてのスコアおよび詳細な結果と構成データについては、 http://www.vmware.com/products/vmmark/v1/results.html を参照してください。 仮想化性能の向上を実現するために極めて重要なものは、Xeon 7500 シリーズプロセッサと、そのプロセッ サの機能を最適に使用できるバージョンのハイパーバイザーです。プロセッサの機能には、拡張ページテー ブル(EPT)3、ハイパースレッディング、およびこのプロセッサアーキテクチャーで採用されている高速 なメモリ接続が含まれます。これらはすべて、仮想化に対して有効に機能します。 システムを最適なパフォーマンスで稼動させるために、最大のメモリ構成(512 GB:16 GB DIMM × 32 枚) が必要でした。 すべての VM、それらのアプリケーションデータ、および追加で必要なデータは、合計で 49 個の LUN を備 えた ETERNUS DX80 システムの強力なファイバーチャネルディスクサブシステムに格納しました。ホスト オペレーティングシステムは、オンボード SATA コントローラーの SSD にインストールしました。 使用したすべてのコンポーネントは、それぞれが最適に動作するように調整しました。 2 上記の競合他社製品との比較は、2010 年 10 月 19 日現在のものです。また、この比較は、24 コアサーバカテゴリ の VMmark V1 の結果に基づいています。VMmark V1 の結果は、 http://www.vmware.com/products/vmmark/v1/results.html を参照してください。 3 5 5 .8 8 @ 3 9 ti le s 5 2 .2 7 @ 3 5 ti le s 3 2 .4 4 @ 2 2 ti le s 3 0 .9 6 @ 2 2 ti le s 3 0 .6 0 @ 2 1 ti le s 2 9 .9 5 @ 2 0 ti le s 2 9 .5 1 @ 2 0 ti le s 2 9 .1 9 @ 2 0 ti le s 2 0 .5 0 @ 1 4 ti le s 0 10 20 30 40 50 60 Fujitsu PRIMERGY RX600 S5 4 × Xeon E7540 Fujitsu PRIMERGY BX960 S1 4 × Xeon E7540 Dell PowerEdge R715 2 × Opteron 6176 SE HP ProLiant DL385 G7 2 × Opteron 6176 SE HP ProLiant DL385 G7 2 × Opteron 6176 SE HP ProLiant DL585 G6 4 × Opteron 8439 SE Dell PowerEdge R905 4 × Opteron 8439 SE HP ProLiant BL685c G6 4 × Opteron 8435 IBM System x3850 M2 4 × Xeon X7460
24 Cores
V M m a rk S c o re2010 年 10 月 19 日 、 富 士 通 は PRIMERGY BX960 S1 と VMware ESX v4.0 Update 2 を 使 用 し て VMmark V1 スコア「40.49@28 タイル」を達成し、同じ Nehalem-EX ベースのラックサーバ、PRIMERGY RX600 S5 との激戦の結果、16 コアカテゴリで 2 位を獲得しました。2010 年 10 月 19 日、富士通は、 PRIMERGY BX960 S1 と VMware ESX v4.0 Update 2 を使用して「40.49@28 タイル」の VMmark V1 スコ アを 達成し、 16 コアカテゴ リにおい て同じ Nehalem-EX ベ ースのラ ックサー バである PRIMERGY RX600 S5 と僅差で、2 位を獲得しました。 次のグラフは、PRIMERGY BX960 S1 および PRIMERGY RX600 S5 と競合他社のシステムを比較4した結 果で、16 コアカテゴリの上位を示しています。 すべてのスコアおよび詳細な結果と構成データについては、 http://www.vmware.com/products/vmmark/v1/results.html を参照してください。 24 コアシステムの結果と同様に、16 コアカテゴリのパフォーマンスが向上した主な理由として、Xeon 7500 シリーズ(ハイパースレッディングおよび EPT などの機能を搭載)の最新のプロセッサアーキテク チャーとその高速メモリ接続、およびハイパーバイザー VMware ESX v4.0 Update 2 の使用が挙げられます。 PRIMERGY BX960 S1 では、合計 16 プロセッサコア(8 コアプロセッサ × 2 基または 4 コアプロセッサ × 4 基)を使った構成が可能です。Nehalem-EX プロセッサファミリーのハイエンドである Xeon X7560 プロ セッサを 2 基使った構成の方が、ベーシッククラスの Xeon E7520 プロセッサを 4 基使った構成よりも大 幅にパフォーマンスを向上できます。 VMmark V1 ベンチマークの 16 プロセッサコア構成では、256 GB のメモリ構成が必要です。このメモリ構 成は、Xeon E7520 プロセッサを 4 基使った構成の場合、8 GB × 32 枚で実現できます。一方、プロセッサ が 2 基の構成では、そのアーキテクチャーの理由から、半分のメモリスロットしか割り当てることができな いため、16 GB × 16 枚のメモリ構成にする必要があります。 すべての VM、それらのアプリケーションデータ、および追加で必要なデータは、合計で 33 個、または 41 個の LUN を備えた ETERNUS DX80 システムの強力なファイバーチャネルディスクサブシステムに格納し ました。ホストオペレーティングシステムは、オンボード SATA コントローラーの SSD にインストールし ました。 使用したすべてのコンポーネントは、それぞれが最適に動作するように調整しました。 4 上記の競合他社製品との比較は、2010 年 10 月 19 日現在のものです。また、この比較は、16 コアサーバカテゴリ の VMmark V1 の結果に基づいています。VMmark V1 の結果は、 http://www.vmware.com/products/vmmark/v1/results.html を参照してください。 4 0 .5 2 @ 2 8 ti le s 4 0 .4 9 @ 2 8 ti le s 3 9 .1 9 @ 2 7 ti le s 3 7 .9 2 @ 2 8 ti le s 3 7 .2 8 @ 2 6 ti le s 3 7 .1 1 @ 2 6 ti le s 3 2 .8 2 @ 2 2 ti le s 2 2 .9 0 @ 1 7 ti le s 2 2 .7 0 @ 1 6 ti le s 0 5 10 15 20 25 30 35 40 Fujitsu PRIMERGY RX600 S5 2 × Xeon X7560 Fujitsu PRIMERGY BX960 S1 2 × Xeon X7560 Cisco UCS B230 M1 2 × Xeon X7560 HP ProLiant BL620c G7 2 × Xeon X7560 Dell PowerEdge R810 2 × Xeon X7560 Dell PowerEdge M910 2 × Xeon X7560 Fujitsu PRIMERGY BX960 S1 4 × Xeon E7520 Dell PowerEdge M905 4 × Opteron 8393 SE Dell PowerEdge R905 4 × Opteron 8393 SE
16 Cores
V M m a rk S c o reベンチマーク環境
一般的な測定環境を次に示します。 SUT ハードウェア モデル PRIMERGY BX960 S1 プロセッサ Xeon X7560(8 コア、2.27 GHz)× 2 基 Xeon E7540(6 コア、2.0 GHz)× 4 基 Xeon E7520(4 コア、1.87 GHz)× 4 基メモリ 512 GB(16 GB DIMM × 32 枚、クアッドランク)、1333 MHz Registered ECC DDR3 または 256 GB(16 GB DIMM × 16 枚、クアッドランク)、1333 MHz Registered ECC DDR3 または 256 GB(8 GB DIMM × 32 枚、デュアルランク)、1333 MHz Registered ECC DDR3
ネットワーク インターフェース
内蔵 Intel 82599EB デュアルポート 10 GbE アダプター × 2 基 ディスク
サブシステム
内蔵:ホスト OS 用として Intel SATA SSD 32 GB(オンボードコントローラー ICH10R を使 用)。8/9/11 ETERNUS DX80 ストレージシステムで複数の RAID-0 アレイに合計 172/196/244 のハードディスク ストレージ接続 デュアルチャネル MC-FC82E(Emulex LPe12002 ベース)× 1 基 SUT ソフトウェア オペレーティング システム
ハイパーバイザー VMware ESX Server
ESX バージョン VMware ESX v4.0 Update 2、ビルド 257240 またはビルド 261974 BIOS バージョン Aptio 3.6 R1.01C.2873 負荷ジェネレーターのハードウェア モデル サーバブレード PRIMERGY BX620 S4(タイルごとに 1 台) プロセッサ Intel Xeon 5130(2 GHz)× 2 基 メモリ 3 GB ネットワーク インターフェース それぞれ 1 Gbit LAN × 1 基 オペレーティング システム
Microsoft Windows Server 2003 R2 Enterprise、SP2 および KB955839 を適用 詳細 公開 URL http://www.vmware.com/files/pdf/vmmark/VMmark-Fujitsu-2010-10-18-BX960.pdf http://www.vmware.com/files/pdf/vmmark/VMmark-Fujitsu-2010-06-29BX960S1-24core.pdf http://www.vmware.com/files/pdf/vmmark/VMmark-Fujitsu-2010-06-29BX960S1.pdf 1 Gb または 10 Gb の 複数のネットワーク プライムクライアントを 含む負荷ジェネレーター サーバ ストレージシステム
関連資料
PRIMERGY システム http://ts.fujitsu.com/primergy PRIMERGY BX900 S1 データシート(英語) http://docs.ts.fujitsu.com/dl.aspx?id=0a5dcae5-f5a2-42dc-9039-7f887182bc5e パフォーマンスレポート PRIMERGY BX900 S1 http://docs.ts.fujitsu.com/dl.aspx?id=03d09581-3a16-4b48-bacf-38cbc3058790 PRIMERGY BX960 S1 データシート(英語) http://docs.ts.fujitsu.com/dl.aspx?id=f0e1190f-1a96-4a40-9cf4-29ca90e08c24 Xeon 7500(Nehalem-EX)搭載システムのメモリパフォーマンス http://docs.ts.fujitsu.com/dl.aspx?id=d9613ce4-223a-45e8-8f59-c39a831f2d18 RAID コントローラーのパフォーマンス http://docs.ts.fujitsu.com/dl.aspx?id=38e25913-195d-4f59-9efa-adaa2478ad6b 単一ディスクのパフォーマンス http://docs.ts.fujitsu.com/dl.aspx?id=de940140-2f25-4207-8862-563c4d91f30c PRIMERGY のパフォーマンス http://ts.fujitsu.com/products/standard_servers/primergy_bov.html OLTP-2 ベンチマークの概要 OLTP-2 http://docs.ts.fujitsu.com/dl.aspx?id=9775e8b9-d222-49db-98b1-4796fbcd6d7a SAP SD http://www.sap.com/benchmark ベンチマークの概要 SAP SD http://docs.ts.fujitsu.com/dl.aspx?id=ab13a8c0-44d8-40ee-9415-695d372e2e7b SPECcpu2006 http://www.spec.org/osg/cpu2006 ベンチマークの概要 SPECcpu2006 http://docs.ts.fujitsu.com/dl.aspx?id=00b0bf10-8f75-435f-bb9b-3eceb5ce0157 SPECjbb2005 http://www.spec.org/jbb2005 ベンチマークの概要 SPECjbb2005 http://docs.ts.fujitsu.com/dl.aspx?id=18c15041-a25f-4d23-b0a5-5742dd5715ba VMmark V1 ベンチマークの概要 VMmark V1 http://docs.ts.fujitsu.com/dl.aspx?id=253a2cc2-b824-4ff4-85a4-8b55c0a265d5 VMmark V1 http://www.vmware.com/products/vmmark/v1/overview.html VMmark V1 結果 http://www.vmware.com/products/vmmark/v1/results.htmlvServCon ベンチマークの概要 vServCon http://docs.ts.fujitsu.com/dl.aspx?id=c3d5ce5d-5610-43c6-86b4-051549940a71 PC サーバ PRIMERGY(プライマジー) http://jp.fujitsu.com/platform/server/primergy/