要約
このドキュメントでは、PRIMERGY BX620 S5 で実行したベンチマークの概要について説明します。 PRIMERGY BX620 S5 のパフォーマンスデータを、他の PRIMERGY モデルと比較して説明しています。 ベンチマーク結果に加え、ベンチマークごとの説明およびベンチマーク環境の説明も掲載しています。 目次 ドキュメントの履歴 ... 2 製品データ ... 3 SPECcpu2006 ... 4 SPECjbb2005 ... 12 StorageBench ... 15 OLTP-2 ... 22 ターミナルサーバ ... 27 vServCon ... 33 関連資料... 39 お問い合わせ先 ... 40 ページ数 40パフォーマンスレポート
PRIMERGY BX620 S5
ドキュメントの履歴
バージョン 2.0a ベンチマークの章を含むレポートの初版 SPECcpu2006 Xeon E5502、E5504、L5506、E5506、L5520、E5520、L5530、E5530、E5540、X5550、X5560、 および X5570 で測定 SPECjbb2005 Xeon X5570 で測定 StorageBenchLSI 1064E SAS IME ストレージモジュールコントローラー
および MegaRAID SAS PCI Express ™ ROMB コントローラーで測定
OLTP-2 Xeon E5502、E5504、E5506、E5520、E5530、E5540、X5550、X5560、および X5570 で測定 ターミナルサーバ Xeon E5504、X5570 で測定 vServCon Xeon L5520、E5520、E5540、X5550、および X5570 で測定
製品データ
PRIMERGY BX600 S3 ブレードサーバは、スケーラビリティの高い 19 インチラックシステム(7U)で、最 大 10 枚のコンパクトデュアルサーバブレードを搭載できます。企業のデータセンター、インターネットサー ビスプロバイダーやアプリケーションサービスプロバイダーの要件を理想的に満たします。 PRIMERGY BX600 S3 では、ホットプラグ対応のサーバブレードに加えて、冗長構成の 2 台のファンユニッ ト(それぞれ 2 台のファンを搭載)、冗長構成の最大 4 台の電源供給モジュール(それぞれ 3 台の追加のファンを 搭載)、1 つの KVM スイッチ、冗長構成の 2 枚のマネジメントブレードを搭載できます。さらにオプション で、最大 4 枚の ギガビット・イーサネットパススルーブレード、 ギガビット・イーサネットスイッチブレー ドまたは ギガビット・ イーサネットインテリジェントブレードと、最大 2 台のファイバーチャネルパススルー ブレード、ファイバーチャネルスイッチブレードまたはファイバーチャネルアクセスゲートウェイを統合で きます。 PRIMERGY BX620 S5 デュアルサーバブレードには、Intel 5520 チップセット、デュアルコアまたはクアッ ドコアの Intel Xeon 5500 シリーズプロセッサ 2 基、DIMM スロット 12 本(最大 96 GB の PC3-10600 また は PC3-8500 registered ECC DDR3-SDRAM 用)、周波数が 800、1067、または 1333 MHz のバス(使用されるプロセッサとメモリによって異なる)、1 ギガビット・イーサネットコントローラー 2 台、ホットプラグ
対応ストレージモジュール(内蔵ハードディスク用)、2.5 インチの SSD または SAS ハードディスク用の 2 つ のベイ、および PCIe x8 ソケットが搭載されています。
PRIMERGY サーバ管理ソリューション ServerView(オプションで Deployment Manager および Remote Management を使用)によって、サーバのインストール、管理、および監視が容易になります。
SPECcpu2006
ベンチマークの説明
SPECcpu2006 は、整数演算および浮動小数点演算のシステム性能を測定するベンチマークです。これは、 12 本のアプリケーションからなる整数演算テストセット、および 17 本 のアプリケーションからなる浮動小 数点演算テストセットで構成されています。これらのアプリケーションは大量の演算を実行し、 CPU / メモ リを集中的に使用します。ディスク I/O やネットワークなど、他のコンポーネントについては、このベンチ マークでは測定しません。 SPECcpu2006 は、特定のオペレーティングシステムに依存しません。このベンチマークは、ソースコード として利用可能で、実際のベンチマークの前にコンパイルする必要があります。したがって、使用するコン パイラーのバージョンやその最適化設定が測定結果に影響を与えます。 SPECcpu2006 には、2 つのパフォーマンス測定方法が含まれています。最初の方法(SPECint2006 および SPECfp2006)は、1 つのタスクの完了に必要な時間を評価します。次の方法(SPECint_rate2006 および SPECfp_rate2006)は、スループット(並列処理できるタスク数)を評価します。いずれの方法も、さらに 2 つの測定の種類、「ベース」と「ピーク」に分かれています。これは、コンパイラー最適化を使用するかどう かという点で異なります。「ベース」値は公開時に常に用いられますが、「ピーク」値はオプションです。 ベンチマーク 演算 タイプ コンパイラー 最適化 測定結果 アプリケーション SPECint2006 整数 ピーク アグレッシブ 速度 単体実行 SPECint_base2006 整数 ベース 標準 SPECint_rate2006 整数 ピーク アグレッシブ スループット 多重実行 SPECint_rate_base2006 整数 ベース 標準 SPECfp2006 浮動小数点 ピーク アグレッシブ 速度 単体実行 SPECfp_base2006 浮動小数点 ベース 標準 SPECfp_rate2006 浮動小数点 ピーク アグレッシブ スループット 多重実行 SPECfp_rate_base2006 浮動小数点 ベース 標準 結果は、個々のベンチマークで得られた正規化比の幾何平均を使用しています。算術平均と比較して、幾何 平均のほうが、ひとつの飛び抜けて高い値に左右されない平均値です。「正規化」とは、テストシステムが基 準システムと比較してどの程度高速に実行されるのかを測定することです。基準システムの SPECint_base2006、 SPECint_rate_base2006、SPECfp_base2006、および SPECfp_rate_base2006 の結果が、値「1」と判定さ れたとします。このとき、たとえば SPECint_base2006 の値 2 は、測定システムがこのベンチマークを基準 システムよりも約 2 倍の性能で実行したことを意味します。SPECfp_rate_base2006 の値 4 は、測定対象シ ステムが基準システムよりも、約 4/[ベースコピー数] 倍の性能でこのベンチマークを実行したことを意味し ます。ここで、「ベースコピー数」はベンチマークで実行された並行インスタンスの数です。 弊社は、SPEC の公開用に、 SPECcpu2006 を測定したデータのすべてを提出しているわけではありません。 このため、すべての結果が SPEC の Web サイトに表示されるわけではありません。弊社は、すべての測定 値のログデータをアーカイブしているので、測定の内容に関していつでも証明できます。 SPEC®、SPECint®、SPECfp®、および SPEC の各ロゴは、Standard Performance Evaluation Corporation(SPEC) の登録商標です。
ベンチマーク結果
PRIMERGY BX620 S5 の測定は、Xeon E5502、E5504、L5506、E5506、L5520、E5520、L5530、E5530、 E5540、X5550、X5560、および X5570 の各プロセッサを使用して行われました。ベンチマークプログラム は、インテル C++/Fortran コンパイラー 11.0 でコンパイルし、SUSE Linux Enterprise Server 10 SP2(64 ビッ ト)で実行しました。次の表の太字の値は、http://www.spec.org で公開されています。「予測」という印付き の値は、予測値です。 プロセッサ コア GHz L3 キャッシュ バス TDP SPECint_base2006 2 チップ SPECint2006 2 チップ
Xeon E5502 2 1.87 4 MB 800 MHz 80 watt 18.0 20.0
Xeon E5504 4 2 4 MB 800 MHz 80 watt 19.3 21.4
Xeon L5506 4 2.13 4 MB 800 MHz 60 watt 20.4 (予測) 22.6 (予測)
Xeon E5506 4 2.13 4 MB 800 MHz 80 watt 20.4 22.6
Xeon L5520 4 2.27 8 MB 1067 MHz 60 watt 24.5 (予測) 27.4 (予測)
Xeon E5520 4 2.27 8 MB 1067 MHz 80 watt 24.5 27.4
Xeon L5530 4 2.40 8 MB 1067 MHz 60 watt 25.6 (予測) 28.6 (予測)
Xeon E5530 4 2.40 8 MB 1067 MHz 80 watt 25.6 28.6
Xeon E5540 4 2.53 8 MB 1067 MHz 80 watt 26.6 29.9
Xeon X5550 4 2.67 8 MB 1333 MHz 95 watt 29.5 33.2
Xeon X5560 4 2.80 8 MB 1333 MHz 95 watt 30.6 34.4
プロセッサ コア GHz L3 キャッシュ バス TDP SPECint_rate_base2006 SPECint_rate2006 1 チップ 2 チップ 1 チップ 2 チップ Xeon E5502 2 1.87 4 MB 800 MHz 80 W 33.6 66.2 36.1 71.3 Xeon E5504 4 2 4 MB 800 MHz 80 W 65.1 126 69.8 136 Xeon L5506 4 2.13 4 MB 800 MHz 60 W 68.0 (予測) 132 72.8 (予測) 142 Xeon E5506 4 2.13 4 MB 800 MHz 80 W 68.0 132 72.8 142 Xeon L5520 4 2.27 8 MB 1067 MHz 60 W 93.0 (予測) 183 100 (予測) 197 Xeon E5520 4 2.27 8 MB 1067 MHz 80 W 93.0 188 100 203 Xeon L5530 4 2.40 8 MB 1067 MHz 60 W 97.5 (予測) 191 105 (予測) 206 Xeon E5530 4 2.40 8 MB 1067 MHz 80 W 97.5 193 105 209 Xeon E5540 4 2.53 8 MB 1067 MHz 80 W 101 199 108 214 Xeon X5550 4 2.67 8 MB 1333 MHz 95 W 108 216 116 232 Xeon X5560 4 2.80 8 MB 1333 MHz 95 W 113 226 121 244 Xeon X5570 4 2.93 8 MB 1333 MHz 95 W 116 232 124 249
プロセッサ コア GHz L3 キャッシュ バス TDP SPECfp_base2006 2 チップ SPECfp2006 2 チップ Xeon E5502 2 1.87 4 MB 800 MHz 80 W 21.9 23.3 Xeon E5504 4 2 4 MB 800 MHz 80 W 23.7 25.2 Xeon L5506 4 2.13 4 MB 800 MHz 60 W 24.9 (予測) 26.4 (予測) Xeon E5506 4 2.13 4 MB 800 MHz 80 W 24.9 26.4 Xeon L5520 4 2.27 8 MB 1067 MHz 60 W 29.7 (予測) 31.7 (予測) Xeon E5520 4 2.27 8 MB 1067 MHz 80 W 29.7 31.7 Xeon L5530 4 2.40 8 MB 1067 MHz 60 W 31.2 (予測) 33.2 (予測) Xeon E5530 4 2.40 8 MB 1067 MHz 80 W 31.2 33.2 Xeon E5540 4 2.53 8 MB 1067 MHz 80 W 32.2 34.3 Xeon X5550 4 2.67 8 MB 1333 MHz 95 W 35.5 37.9 Xeon X5560 4 2.80 8 MB 1333 MHz 95 W 36.7 39.3 Xeon X5570 4 2.93 8 MB 1333 MHz 95 W 37.7 40.3
プロセッサ コア GHz L3 キャッシュ バス TDP SPECfp_rate_base2006 SPECfp_rate2006 1 チップ 2 チップ 1 チップ 2 チップ Xeon E5502 2 1.87 4 MB 800 MHz 80 W 35.1 68.2 36.4 71.0 Xeon E5504 4 2 4 MB 800 MHz 80 W 57.7 111 59.7 116 Xeon L5506 4 2.13 4 MB 800 MHz 60 W 59.5 (予測) 115 61.6 (予測) 119 Xeon E5506 4 2.13 4 MB 800 MHz 80 W 59.5 115 61.6 119 Xeon L5520 4 2.27 8 MB 1067 MHz 60 W 78.4 (予測) 151 81.3 (予測) 157 Xeon E5520 4 2.27 8 MB 1067 MHz 80 W 78.4 154 81.3 160 Xeon L5530 4 2.40 8 MB 1067 MHz 60 W 80.5 (予測) 156 83.8 (予測) 162 Xeon E5530 4 2.40 8 MB 1067 MHz 80 W 80.5 157 83.8 163 Xeon E5540 4 2.53 8 MB 1067 MHz 80 W 82.7 160 85.8 166 Xeon X5550 4 2.67 8 MB 1333 MHz 95 W 91.5 178 94.6 184 Xeon X5560 4 2.80 8 MB 1333 MHz 95 W 93.7 184 97.5 191 Xeon X5570 4 2.93 8 MB 1333 MHz 95 W 96.0 186 99.2 194
整数演算テストスイートおよび浮動小数点演算テストスイートの両方で、2 プロセッサのスループットは 1 プ ロセッサの約 2 倍です。
次の 2 つの図は、PRIMERGY BX620 S5 とその旧モデルの PRIMERGY BX620 S4 のパフォーマンスを比較 したものです。両方とも最大パフォーマンス構成での比較です。
ベンチマーク環境
SPECcpu2006 での測定は、すべて次のハードウェアおよびソフトウェア構成の PRIMERGY BX620 S5 で実 行されました。
ハードウェア
モデル PRIMERGY BX620 S5
CPU Xeon E5502、E5504、L5506、E5506、L5520、E5520、L5530、E5530、E5540、 X5550、X5560、および X5570 CPU 数 1 チップ: Xeon E5502: 2 コア、2 コア/チップ その他: 4 コア、4 コア/チップ 2 チップ: Xeon E5502: 4 コア、2 コア/チップ その他: 8 コア、4 コア/チップ プライマリ キャッシュ 32 KB(命令) + 32 KB(データ)オンチップ (コアあたり) セカンダリ キャッシュ 256 KB オンチップ (コアあたり) その他の キャッシュ
Xeon E5502、E5504、L5506、および E5506:
4 MB(I+D)オンチップ (チップあたり)
その他: 8 MB(I+D)オンチップ (チップあたり)
ソフトウェア オペレーティング
システム SUSE Linux Enterprise Server 10 SP2(64 ビット) コンパイラー インテル C++/Fortran コンパイラー 11.0
SPECjbb2005
ベンチマークの説明
SPECjbb2005 は、Java サーバプラットフォームのパフォーマンスを評価する Java ビジネスベンチマークで す。これは、本質的に SPECjbb2000 を更新したバージョンで、主な違いは次のとおりです。 トランザクションは、多様な機能範囲を対象とするため、より複雑になっています。 ベンチマークのワーキングセットが、システムの負荷の増大に対応して拡大されました。 SPECjbb2000 では、アクティブな Java 仮想マシンインスタンスは 1 つのみ許可されましたが、 SPECjbb2005 では複数のインスタンスが許可され、特に大規模なシステムで実際との高い近似性を 得ることができます。 ソフトウェア側では、SPECjbb2005 は JVM、JIT(ジャストインタイム)コンパイラー、ガベージコレクション、 スレッドなどのオペレーティングシステムの機能を評価します。ハードウェアに関する限り、SPECjbb2005 は CPU およびキャッシュの効率、メモリサブシステム、共有メモリシステム(SMP)のスケーラビリティを 測定します。ディスクおよびネットワーク I/O は無関係です。 SPECjbb2005 は、最近の代表的なビジネスプロセスアプリケーションである 3 階層のクライアント/サーバ システムをエミュレートしたもので、特に中間層が強調されています。 クライアントは、TPC-C ベンチマークを基にしたドライバスレッドを負荷として生成し、データベー スへの OLTP アクセスを思考時間ゼロで行います。 中間層は、ビジネスプロセスおよびデータベースの更新を実装します。 データベースは、データ管理を担当し、メモリ内の Java オブジェクトによりエミュレートされます。 トランザクションのログ記録は XML ベースで実装されます。 このベンチマークの主な利点は、シングルホスト上で 3 つの層すべてを実行できることです。中間層のパフォー マンスが測定されるため、大規模なハードウェアの設置は不要となり、SPECjbb2005 の異なるシステム間の 結果を直接比較できます。クライアントとデータベースのエミュレーションも Java で記述されています。 SPECjbb2005 には、オペレーティングシステムと J2SE 5.0 機能に対応した Java 仮想マシンのみが必要で す。 スケーリングの単位は、約 25 MB の Java オブジェクトからなる1つのウェアハウスです。ウェアハウスあ たり 1 つの Java スレッドがこれらのオブジェクトに対しオペレーションを実行します。これらのビジネス オペレーションは 、TPC-C の次の項目を前提としています。 新規オーダーエントリー 支払 オーダーステータスの照会 納入 在庫レベル監視 顧客レポート SPECjbb2005 と TPC-C が共通して持っている機能は、これだけです。2 つのベンチマーク結果を比較する ことはできません。 SPECjbb2005 には、次の 2 つの性能指標があります。 bops(1 秒あたりのビジネスオペレーション)は、1 秒あたりのすべてのビジネスオペレーションの 性能です。 bops/JVM は、上記の性能指標(bops)とアクティブな JVM インスタンス数の比率です。
SPEC®、SPECjbb®、および SPEC の各ロゴは、Standard Performance Evaluation Corporation(SPEC)の登録商標 です。
SPECjbb2005 のさまざまな結果を比較する場合には、両方の性能指標を考慮する必要があります。 ベンチマーク測定が準拠すべき以下のルールは、この性能指標の基となるものです。 ベンチマーク測定は、ウェアハウス数(つまりスレッド数)が増加する一連の測定ポイントで構成され、各 ケースでウェアハウスが 1 だけ増加します。測定は、1 ウェアハウスで開始され、2*MaxWh まで(ただし、 尐なくとも 8 ウェアハウス)行います。MaxWh は、ベンチマークで予想される、秒あたりの最高オペレー ションレートでのウェアハウス数です。デフォルトでは、MaxWh はオペレーティングシステムで認識される CPU の数と同じ値が設定されます。
性能指標の bops は、MaxWh ウェアハウスと 2*MaxWh ウェアハウス間のすべての測定済みオペレーション 速度の算術平均です。
ベンチマーク結果
2009 年 5 月に、2 基の Xeon X5570 プロセッサと 24 GB PC3-10600R DDR3-SDRAM のメモリ構成を使用 して、PRIMERGY BX620 S5 で測定を行いました。測定には、Windows Server 2008 Enterprise x64 Edition SP2 を使用しました。Oracle から提供されている JRockit(R) 6 R28.0.0 の 4 つのインスタンスを測定用 JVM として使用しました。ベンチマーク結果には、4~8 個までのウェアハウスの全測定値が含まれています。
次の結果が得られました。
SPECjbb2005 bops = 554740 SPECjbb2005 bops/JVM = 138685
ベンチマーク環境
SPECjbb2005 でのすべての測定は、次のハードウェアおよびソフトウェア構成の PRIMERGY BX620 S5 で 実行されました。 ハードウェア モデル PRIMERGY BX620 S5 CPU Xeon X5570 チップ数 2 チップ、8 コア (チップあたり 4 コア) プライマリキャッシュ 32 KB(命令) + 32 KB(データ)オンチップ (コアあたり) セカンダリキャッシュ ¼ MB(I+D)オンチップ (コアあたり) その他のキャッシュ 8 MB(I+D)オンチップ (チップあたり) メモリ 6×4 GB PC3-10600R DDR3-SDRAM ソフトウェア オペレーティングシステム Windows Server 2008 Enterprise x64 Edition SP2
JVM バージョン (ビルド P28.0.0-29-114096-1.6.0_11-20090427-1759-windows-x86_64) Oracle JRockit(R) 6 P28.0.0
StorageBench
ベンチマークの説明
ディスクサブシステムの能力を評価するために、富士通テクノロジー・ソリューションズ は StorageBench と いうベンチマークを開発しました。StorageBench は、システムに接続されている異なるストレージシステムを 比較することができます。このベンチマークでは、インテルで開発された Iometer という測定ツールと、実 際の顧客アプリケーションで発生する負荷プロファイルを組み合わせ、測定シナリオを定義しました。 測定ツール 2001 年末以降、Iometer は http://SourceForge.net のプロジェクトとなり、さまざまなプラットフォームに移 植され、国際的な開発者グループによって強化されています。Iometer は、Windows のユーザーインターフェー スとさまざまなプラットフォームで利用できる、いわゆる「dynamo」で構成されています。この数年で、こ れら 2 つのコンポーネントは、 http://www.iometer.org/ または、 http://sourceforge.net/projects/iometer から 「インテルオープンソースライセンス」でダウンロードできるようになりました。 Iometer は、IO サブシステムへのアクセスについて実際のアプリケーションの動作を再現することができま す。このため、特に、使用するブロックサイズ、シーケンシャルリード/ライト、ランダムリード/ライト、 およびこれらの組み合わせなど、アクセスの種類を設定できます。また、同時アクセス数(「未処理 IO」)も 設定できます。その結果、Iometer は 1 秒あたりのスループット、1 秒あたりのトランザクション数、各アク セスパターンの平均応答時間などの基本的なパラメーターを含むカンマで区切られた.csv ファイルを生成し ます。この方法により、特定のアクセスパターンを使ってさまざまなサブシステムの性能を比較できます。 Iometer は、ファイルシステムを使用して、サブシステムにアクセスできるばかりでなく、いわゆる RAW デ バイスにもアクセスできます。 Iometer では、さまざまなアプリケーションのアクセスパターンをシミュレーションおよび測定できますが、 オペレーティングシステムのファイルキャッシュは考慮されません。また、オペレーションは 1 つのテスト ファイル上のブロックで行われます。 負荷プロファイル アプリケーションがマスストレージシステムにアクセスする方法は、ストレージシステムのパフォーマンス に多大な影響を及ぼします。各種アプリケーションのさまざまなアクセスパターンの例: アプリケーション アクセスパターン データベース(データ転送) ランダム、67 %読み取り、33 %ライト、8 KB(SQL Server) データベース(ログファイル) シーケンシャル、100 %ライト、64 KB ブロック バックアップ シーケンシャル、100 %リード、64 KB ブロック リストア シーケンシャル、100 %ライト、64 KB ブロック ビデオストリーミング シーケンシャル、100 %リード、ブロック ≥ 64 KB ファイルサーバ ランダム、67 %リード、33 %ライト、64 KB ブロック Web サーバ ランダム、100 %リード、64 KB ブロック オペレーティングシステム ランダム、40 %リード、60 %ライト、ブロック ≥ 4 KB ファイルコピー ランダム、50 %リード、50 %ライト、64 KB ブロック これから次の 4 つの独特なプロファイルが導き出されました。 負荷プロファイル アクセス アクセスパターン ブロック サイズ 未処理 IO 負荷 ツール リード ライト ストリーミング シーケンシャル 100 % 64 KB 3 Iometer リストア シーケンシャル 100 % 64 KB 3 Iometer データベース ランダム 67 % 33 % 8 KB 3 Iometer ファイルサーバ ランダム 67 % 33 % 64 KB 3 Iometer 4 つのプロファイルはすべて Iometer で生成されました。測定シナリオ
比較できる測定結果を得るためには、再現可能な同一の環境ですべての測定を実行することが重要です。そ のため StorageBench は上記の負荷プロファイルに加えて次の規則に基づいています。
実際の顧客構成で RAW デバイスを使用するのは例外的な状況のみであるため、内蔵ディスクのパフォー
マンス測定は常にファイルシステムを使用したディスク上で実行されます。高いパフォーマンスが他 のファイルシステムや RAW デバイスで実現できる場合でも、Windows では NTFS が使用され、Linux では ext3 が使用されます。
ハードディスクは、コンピュータシステムで最もエラーが発生しやすいコンポーネントです。ハード
ディスクの故障によるデータの損失をなくすためにサーバシステムで RAID コントローラーが使用さ れる理由はここにあります。ここでは、複数のハードディスクを組み合わせて「Redundant Array of Independent Disks」(RAID)を形成し、1 つのハードディスクが故障した場合でもすべてのデータが 維持されるように(RAID 0 を除く)すべてのデータを複数のハードディスクに分散させます。ハード ディスクをアレイで編成する最も一般的な方法は、RAID レベル、RAID 0、RAID 1、RAID 5、RAID 6、 RAID 10、RAID 50、RAID 60 です。各種 RAID アレイの基本については、資料 パフォーマンスレポー
ト - PRIMERGY 用モジュラー RAID を参照してください。
ディスクの数および装着されているコントローラーに応じて、 RAID 構成を変えながら PRIMERGY サー バの StorageBench を測定しました。2 台のハードディスクを装着できるシステムでは RAID 1 およ び RAID 0 を使用し、3 台以上では RAID 1E および RAID 5 を使用します。適用可能な場合はサポー トされていることを条件にさらに上位の RAID レベルを使用します。 ハードディスクのサイズに関係なく、サイズが 8 GB の測定ファイルを常に測定に使用しています。 I/O サブシステムの効率の評価では、プロセッサパフォーマンスおよびメモリ構成は、今日のシステ ムでは大きな要因ではありません。通常、考えられるボトルネックは CPU やメモリではなく、ハー ドディスクや RAID コントローラーに影響を及ぼします。したがって、CPU やメモリの構成を数々 変えながら StorageBench で解析する必要はありません。 測定結果 負荷プロファイルごとに、StorageBench は次のようにさまざまな主要指標を提供します。1 秒あたりのデー タ転送量をメガバイト数で表した(MB/s)「データスループット」、1 秒あたりの I/O オペレーション数(IO/s) の「トランザクションレート」、およびミリ秒(ms)単位の「待機時間」(「平均アクセス時間」)。シーケン シャルな負荷プロファイルでは、データスループットが通常の指標であり、小規模なブロックサイズを使用 するランダムな負荷プロファイルでは、通常、トランザクションレートが使用されます。スループットおよ びトランザクションレートは互いに直接比例し、次の式に従って計算できます。 データスループット [MB/s] = トランザクションレート [ディスク-I/O /s] × ブロックサイズ [MB] トランザクションレート [ディスク-I/O /s] = データスループット [MB/s] / ブロック サイズ [MB]
ベンチマーク結果
PRIMERGY BX620 S5 サーバでは、次のコントローラーが使用できます。 1. LSI 1064E SAS IME ストレージモジュールコントローラー
このコントローラーにはコントローラーキャッシュがありません。RAID レベル 0 および 1 に対応し ています。コントローラーの 2 種類のバージョン(追加の PCI Express カードのオプションの有無) で、パフォーマンスに差はありません。
2. MegaRAID SAS PCI Express™ ROMB コントローラー
このコントローラーには、256 MB のコントローラーキャッシュが搭載されています。RAID レベル 0 および 1 に対応しています。このコントローラーキャッシュは、電源障害に対してオプションのバッ テリバックアップユニット(BBU)で保護できます。 これらのコントローラーには、さまざまな SAS ハードディスクを接続できます。必要なパフォーマンスに応 じて、適切なディスクサブシステムを選択することができます。PRIMERGY BX620 S5 サーバでは、2.5 イン チハードディスク用の 2 つのホットプラグベイを使用できます。これらの 2 台のハードディスクに、オペレー ティングシステムをインストールできます。ストレージ容量を増やす必要がある場合は、オプションで PRIMERGY SX650 ストレージブレードを使用して、サーバを拡張できます。 PRIMERGY BX620 S5 には、次のハードディスクを選択できます。 2.5 インチ SAS ハードディスク、容量 36 GB、73 GB、146 GB(10 krpm) 2.5 インチ SAS ハードディスク、容量 36 GB、73 GB(15 krpm) 2.5 インチのドライブは、消費電力と熱の発生を抑えることができるため、デバイスの冷却コストを削減でき るという大きなメリットがあります。PRIMERGY BX620 S5 サーバは、2.5 インチハードディスクを使用す ることで、スペースの有効利用を行い、コンパクト化されています。 RAID アレイでは、可用性に関するデータを取り扱う方法が定義されています。各 RAID アレイ内でデータが 転送される速さは、ハードディスクのデータスループットによって大きく異なります。RAID アレイで測定用 に構成されるハードディスクの数は、RAID レベルに応じて決定されています。 ハードディスクキャッシュは ディスク I/O パフォーマンスに影響を及ぼします。多くの場合、この機能は電 源障害時の安全上の問題により無効化されます。しかし、ハードディスクの製造元は、書き込みパフォーマン スの向上のために組み込んでいます。I/O アクセス用のキャッシュは圧倒的に大きく、電源障害時の潜在的な リスク(データの損失)がメインメモリには存在します。これは、オペレーティングシステムによって管理 されます。データの損失を防止するには、システムに無停電電源装置(UPS)を装備することを推奨します。
LSI 1064E SAS IME ストレージモジュール RAID 1 でのハードディスクのスループットを、さまざまなアクセスパターンで比較します。測定では、PRIMERGY BX620 S5 サーバで現在利用可能なすべてのハードディスクタイプを解析しました。このコントローラーに は、コントローラーキャッシュがありません。よって、測定を実行するにあたり、ディスクキャッシュパラ メーターの影響のみを測定し、ハードディスク比較の測定は、ディスクキャッシュありとなしで実施しまし た。 この図は、64 KB ブロックサイズを使用してシーケンシャルなリードとライトを行った場合のスループット が、回転数の増加に伴って向上することを示しています。シーケンシャルリードの場合に、回転数 10 krpm の ハードディスクの代わりに回転数 15 krpm のものを使用 した結果、スループットは約 25 %向上しました。シー ケンシャルリードの場合に得られたスループットは、非 常に良い値で、キャッシュ設定によって変化していません。 ディスクキャッシュを有効にしたシーケンシャルリード の場合に、回転数 10 krpm のハードディスクの代わりに 回転数 15 krpm のものを使用した結果、スループットは 約 22 %向上しました。 図からわかるように、ディスクキャッシュを有効にする ことで、シーケンシャルライトでのスループットの向上 が可能です。10 krpm のハードディスクではスループッ トは約 41 %向上し、15 krpm のハードディスクではス ループットは約 53 %向上します。 次の図は、リードが 67 %を占めるランダムアクセスで も、ディスクキャッシュがスループットの向上に重要な役割を果たしていることを示しています。8 KB およ び 64 KB のブロックでのアクセスでは、ディスクキャッシュを有効にすることで、10 krpm のハードディス クと 15 krpm のハードディスクのどちらを使用しているかに関係なく、スループットは平均で 22 %向上し ます。 10 krpm のハードディスクと 15 krpm のハードディスクの スループットを比較すると、8 KB と 64 KB のブロックを 使用し、ディスクキャッシュを有効にした場合のランダム アクセスでは、15 krpm のハードディスクのスループット は、10 krpm のハードディスクのスループットよりも約 21 % 高いことがわかります。
LSI 1064E SAS IME Storage Module
MegaRAID SAS PCI Express ™ ROMB
MegaRAID SAS PCI Express™ ROMB
RAID 1 でのハードディスクのスループットを、さまざまなアクセスパターンで比較します。測定では、PRIMERGY BX620 S5 サーバで現在利用可能なすべてのハードディスクタイプを解析しました。 この図は、64 KB ブロックサイズを使用してシーケンシャルなリードとライトを行った場合のスループット が、回転数の増加に伴って向上することを示しています。シーケンシャルリードの場合に、回転数 10 krpm の ハードディスクの代わりに回転数 15 krpm のものを使用 した結果、スループットは約 23 %向上しました。シー ケンシャルリードの場合に得られたスループットは、非 常に良い値で、キャッシュ設定によって変化していません。 ディスクキャッシュを有効にしたシーケンシャルリード の場合に、回転数 10 krpm のハードディスクの代わりに 回転数 15 krpm のものを使用した結果、スループットは 約 23 %向上しました。 図からわかるように、ディスクキャッシュを有効にする ことで、シーケンシャルライトでのスループットの向上 が可能です。10 krpm のハードディスクではスループッ トは約 46 %向上し、15 krpm のハードディスクではス ループットは約 51 %向上します。 次の図は、リードが 67 %を占めるランダムアクセスでも、 ディスクキャッシュがスループットの向上に重要な役割を 果たしていることを示しています。 8 KB のブロックでのアクセスでは、ディスクキャッシュを 有効にすることで、スループットは、10 krpm のハード ディスクを使用している場合は平均で 30 %、15 krpm の ハードディスクを使用している場合は平均で 27 %向上し ます。64 KB のブロックでのアクセスでは、ディスクキャッ シュを有効にすることで、スループットは、10 krpm の ハードディスクを使用している場合は平均で 24 %、15 krpm のハードディスクを使用している場合は平均で 22 % 向上します。 10 krpm のハードディスクと 15 krpm のハードディスク のスループットを比較すると、8 KB と 64 KB のブロッ クを使用し、ディスクキャッシュを有効にした場合のラン ダムアクセスでは、15 krpm のハードディスクのスループットは、10 krpm のハードディスクのスループッ トよりも約 20 %高いことがわかります。
コントローラーの比較
ここでは、両方のコントローラーのスループットを比較します。同じ RAID 1 アレイで同じ種類のハードディ スクで測定しました。図では、キャッシュを無効にした場合(Off)と、最適なキャッシュ設定を行った場合 (Optimal)に得られるスループットを示しています。
MegaRAID SAS PCI Express™ ROMB コントローラーは、LSI 1064E SAS IME ストレージモジュールコン トローラーよりもわずかに優れたパフォーマンスを示しています。シーケンシャルアクセスでのスループッ トの値は、LSI 1064E SAS IME ストレージモジュールコントローラーを使用した場合よりも最大 6 %高くなっ ています。
オプションを使用しないアクセスでも、ほぼ同様のパフォーマンスの差があります。MegaRAID SAS PCI Express™ ROMB コントローラーを使用して得られたスループットの値は、LSI 1064E SAS IME ストレージ モジュールコントローラーを使用した場合よりも最大 5 %高くなっています。
最適なキャッシュ設定を行った結果、両方のコントローラーで、ライト操作でのパフォーマンスが大幅に向 上しています。
結論
どちらのコントローラーも、PRIMERGY BX620 S5 サーバで使用することで、基本的な RAID ソリューション である RAID 0 および RAID 1 に対応できます。RAID 1 では、既存のハードディスク上で全てのデータの冗 長性が保証されます。オプションで、PRIMERGY SX650 ストレージブレードを使用してサーバを拡張する こともできます。 PRIMERGY BX620 S5 サーバでは、回転数 10 krpm または 15 krpm の 2.5 インチ SAS ハードディスクを使 用できます。必要とするパフォーマンスに応じて、使用する回転数を決定する必要があります。回転数が速 い 15 krpm のハードディスクを使用すると、スループットの値が向上します。 最大のパフォーマンスを実現するために、特にコントローラーキャッシュを持たないコントローラーを使用 する場合は、ハードディスクのキャッシュを有効にするのが賢明です。これによって、使用するディスクの 種類とアクセスパターンによっては、パフォーマンスが最大 53 %向上します。ハードディスクのキャッシュを 有効にする場合は、UPS を使用してください。
ベンチマーク環境
ここで説明したすべての測定は、下記の一覧で示したハードウェアとソフトウェアのコンポーネントを使用 して実行されました。
コンポーネント 詳細
サーバ PRIMERGY BX620 S5
オペレーティングシステム Windows Server 2008、Enterprise Edition Version: 6.0.6001 Service Pack 1 Build 6001
ファイルシステム NTFS
測定ツール Iometer 27.07.2006
測定データ 8 GB の測定ファイル
SAS ストレージモジュールコントローラー
製品: LSI 1064E SAS IME
ドライバ名: lsi_sas.sys、ドライバのバージョン: 1.29.03.00 ファームウェアのバージョン: 1.27.00.00
BIOS のバージョン: 06.26.00.00
SAS/RAID ストレージモジュールコントロー ラー
製品: MegaRAID SAS PCI Express™ ROMB
ドライバ名: megasys.sys、ドライバのバージョン: 2.13.0.64 ファームウェアのパッケージ: 7.0.1-0066 ファームウェアのバージョン: 1.12.230-0066 BIOS のバージョン: MT33 コントローラーキャッシュ: 256 MB ハードディスク SAS、2½"、10 krpm Seagate ST973402SS、73 GB ハードディスク SAS、2½"、15 krpm Seagate ST973451SS、73 GB 国または販売地域によっては一部のコンポーネントが利用できない場合があります。
OLTP-2
ベンチマークの説明
OLTP とは、Online Transaction Processing (オンライントランザクション処理)の略です。OLTP-2 ベンチマー
クは、データベースソリューションの標準的なアプリケーションのシナリオを基にしています。OLTP-2 では、 データベースアクセスがシミュレートされ、1 秒あたりに実行されるトランザクションの数(tps)によって 測定対象システムのパフォーマンスを表すと決められています。 独立した機関によって標準化され、それぞれのルールや規則を順守することが求められる SPECint や TPC-E などのベンチマークとは違って、OLTP-2 は富士通テクノロジー・ソリューションズで開発された内部ベン チマークです。標準化されたベンチマークでは大掛かりなハードウェアの導入や時間の消費が必要なことが ありますが、OLTP-2 では適度なレベルに抑えられていて、さまざまな構成を限られた時間で測定できます。 OLTP-2 と TPC-E の 2 つの ベンチマークが同じワークロードを使用して同様のアプリケーションのシナリオを シミュレートしても、この 2 つのベンチマークは異なる方法を使用してユーザーの負荷をシミュレートする ので、結果を比較することも、同等のものとして扱うこともできません。OLTP-2 の値は、通常、TPC-E と 同じような値になります。しかし、特に価格性能比が算出されないという理由により、直接的な比較だけで なく、OLTP-2 の結果を TPC-E として参照することもできません。
ベンチマーク結果
PRIMERGY BX620 S5 ブレードサーバの測定は、Xeon 55xx シリーズプロセッサを使用して、メモリサイズを 24 GB、36 GB、48 GB、72 GB、および 96 GB として行いました。すべての結果は、オペレーティングシ ステム Microsoft Windows Server 2008 Enterprise x64 Edition とデータベース SQL Server 2008 Enterprise x64 Edition で測定されたものです。OLTP-2 のベンチマーク結果は、ハードディスクとコントローラーを含むシ ステムの構成オプションによって、大幅に異なります。そのため、このシステムには、5 台の FibreCAT CX500 内の合計 465 台のハードディスクに接続された 2 台のデュアルチャネルのファイバーチャネルコントローラー が装備されました。ディスクサブシステムは、測定のボトルネックにならないように配置されました。他の ディスクサブシステムでも、ボトルネックになっていなければ、比較可能な結果を得られる場合があります。 システム構成の詳細については、「ベンチマーク環境」セクションを参照してください。プロセッサが Xeon E5520、E5530、E5540、X5550、X5560、および X5570 の場合、PRIMERGY BX620 S5 の最大のメモリ構成(1 基のプロセッサの場合は 6 枚のメモリモジュールを使用し、2 基のプロセッサの場 合は 12 枚のメモリモジュールを使用)では、メモリのアクセス速度は 1067 MHz です。Xeon E5502、E5504、 および E5506 を使用する場合は、メモリのアクセス速度は 800 MHz です。
次の図では、PRIMERGY BX620 S5 の OLTP-2 のパフォーマンスデータを、Xeon 55xx シリーズプロセッサ (E5502、E5504、E5506、E5520、E5530、E5540、X5550、X5560、および X5570)を 1 基使用した場合 と 2 基使用した場合の 2 つのグループに分けて示しています。Xeon L5530 のパフォーマンス値は Xeon E5530 と同等で、Xeon L5520 の値は Xeon E5520 と、また、Xeon L5506 の値は Xeon E5506 と同等です。 すべての種類のプロセッサの中で最大の増加は、Xeon E5502 と Xeon E5504 との間で、+90~+95 %です。 この場合、プロセッサのコアの数は 2 個から 4 個へと 2 倍になっています。また、Xeon E5506 と Xeon E5520 との間でも、プロセッサのキャッシュを 4 MB から 8 MB に倍増することとハイパースレッディングを使用 することによって、+55~+59 %の大幅な増加があります。最後に、Xeon E5520 と Xeon X5570 の間の増加 は +20~+22 %です。メモリの増加による違いは、24 GB と 36 GB の間では約 +10 %、36 GB と 48 GB の 間では約 +7 %、48 GB と 72 GB の間では約 +10 %、72 GB と 96 GB の間では約 +2.5 %です。これは、 OLTP-2 ベンチマークのワークロードによるもので、すべてのデータベースアプリケーションでの標準値で はありません。
104.69 205.08 212.88 328.38 338.41 348.44 384.78 391.89 399.00 97.78 190.76 196.45 312.05 319.66 327.26 358.15 364.88 371.60 88.90 169.70 177.91 283.27 290.45 297.64 322.21 329.72 337.23 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 24 GB 36 GB 48 GB RAM
OLTP-2: PRIMERGY BX620 S5 with 1 Xeon processor 55xx
bold numbers: measured results others: calculated results
+59% +20% +95% 104.69 205.08 212.88 328.38 338.41 348.44 384.78 391.89 399.00 97.78 190.76 196.45 312.05 319.66 327.26 358.15 364.88 371.60 88.90 169.70 177.91 283.27 290.45 297.64 322.21 329.72 337.23 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 24 GB 36 GB 48 GB RAM OLTP-2: PRIMERGY BX620 S5 with 1 Xeon processor 55xx
bold numbers: measured results others: calculated results
+59% +20% +95% 204.67 397.65 405.08 630.98 649.00 667.02 736.06 753.38 770.71 202.58 385.54 397.15 615.05 634.09 653.12 721.20 735.31 749.41 182.77 343.81 351.20 564.15 580.36 596.57 660.90 673.51 686.59 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 48 GB 72 GB 96 GB RAM
OLTP-2: PRIMERGY BX620 S5 with 2 Xeon processors 55xx
+55% +22% +90%
bold numbers: measured results others: calculated results
204.67 397.65 405.08 630.98 649.00 667.02 736.06 753.38 770.71 202.58 385.54 397.15 615.05 634.09 653.12 721.20 735.31 749.41 182.77 343.81 351.20 564.15 580.36 596.57 660.90 673.51 686.59 0 100 200 300 400 500 600 700 800 tps Xeon E5502 Xeon E5504 Xeon E5506 Xeon E5520 Xeon E5530 Xeon E5540 Xeon X5550 Xeon X5560 Xeon X5570 48 GB 72 GB 96 GB RAM OLTP-2: PRIMERGY BX620 S5 with 2 Xeon processors 55xx
+55% +22%
+90%
bold numbers: measured results others: calculated results
PRIMERGY BX620 S5 とその旧モデルの PRIMERGY BX620 S4 を最大パフォーマンス構成で比較した場合、 スループットの増加は +132 %となりました。 OLTP-2: PRIMERGY BX620 S4 vs. BX620 S5 770.71 331.52 0 100 200 300 400 500 600 700 800 PRIMERGY BX620 S4 2 x Xeon X5470 32 GB RAM PRIMERGY BX620 S5 2 x Xeon X5570 96 GB RAM +132% OLTP-2: PRIMERGY BX620 S4 vs. BX620 S5 770.71 331.52 0 100 200 300 400 500 600 700 800 PRIMERGY BX620 S4 2 x Xeon X5470 32 GB RAM PRIMERGY BX620 S5 2 x Xeon X5570 96 GB RAM +132%
ベンチマーク環境
テスト対象システム(System Under Test:SUT) ハードウェア サーバブレード PRIMERGY BX620 S5 プロセッサ Xeon E5502、E5504、E5506、E5520、E5530、E5540、X5550、X5560、X5570 メモリ 8 GB DDR3 PC3-8500R(最大 12 枚) 設定(デフォルト) ターボモード有効、NUMA サポート有効、ハイパースレッディング有効 ネットワークインター フェース 1 ギガビット LAN Intel(内蔵)(2 セット) ディスクサブシステム PRIMERGY BX620 S5: LSI SAS(1064E 搭載)(1 基)
2.5 インチ 73GB 15K Fujitsu MAY2073RC RAID-0、OS 用(1 台) デュアルチャネル FC メザニンカード Emulex(1 枚) デュアルチャネル FC コントローラー Emulex LPe11002-M4(1 台) FibreCAT CX500(5 台): Seagate 36 GB 15 krpm、RAID-0、データ用(315 台) Seagate 73 GB 15 krpm、RAID-0、データ用(135 台) Seagate 36 GB 15 krpm、RAID-0、ログ用(15 台) ソフトウェア オペレーティングシス
テム Windows Server 2008 Enterprise x64 Edition データベース SQL Server 2008 Enterprise x64 Edition
国または販売地域によっては一部のコンポーネントが利用できない場合があります。
LAN スイッチ
負荷ジェネレーター ハードウェア モデル PRIMERGY Econel 200(4 台) プロセッサ Xeon 3.40 GHz、2 MB L2 キャッシュ(2 基) メモリ 2 GB DDR-SDRAM PC2700 ネットワークインター フェース 1 ギガビット LAN(内蔵)(1 セット) ソフトウェア オペレーティング
システム Windows Server 2003 Standard Edition SP1(x86) OLTP-2 ソフトウェア EGen バージョン 1.6.0-1011
ターミナルサーバ
ベンチマークの説明
ターミナルサーバの測定を行うための負荷シミュレーションツールがいくつか存在しますが、標準のベンチ マークは存在せず、結果を相互に比較することもできません。例えば、Microsoft ターミナルサービスと Citrix Presentation Server を同じ条件で測定することはできず、また、他にも制限があります。そのため、富士通 テクノロジー・ソリューションズでは、T4US(Tool for User Simulation)という名前の自社開発プログラムを 使用しています。これは、使用されているオペレーティングシステムやアプリケーションに関係なく、すべ てのターミナルサーバベースのシナリオをシミュレートできる柔軟性の高いツールで、さまざまなシステム コンポーネントの応答時間と使用率を詳細に測定できます。
T4US Record ツールは、ユーザーによるキーボードと マウスの操作をリアルタイムで記録し、さらに出力を表 示して T4US Script に保存します。T4US Script は、測 定中に使用される負荷プロファイルです。 T4US 負荷シミュレーターには 3 つのコンポーネントがあります。 T4US Control は 、シミュ レーションプロセス全体を集 中制御および監視し、測定中 の測定データを評価します。 T4US Playback のいくつか のインスタンスが負荷ジェネ レーター上で稼動します。各 T4US Playback は 、 T4US Record とともに記録された T4US Script を基にして、 キーボードとマウスからの入 力をリアルタイムでターミナ ルサーバクライアントに「転 送」し、ターミナルサーバク ライアントの画面の内容を監 視します。このようにして、 ターミナルサーバの応答時間は高精度のタイマーを使用して測定されます。T4US Agent はすべての負荷ジェ ネレーター上で稼動します。T4US Agent は、コントローラーとの通信を処理し、T4US Playback のインス タンスを制御および監視して、測定された応答時間をコントローラーに転送します。 測定中は、ターミナルサーバを使用するユーザーの数が継続的に増加します。ターミナルサーバの応答時間 は、T4US コントローラーによって監視され、事前に行った数人のユーザーによる参照用の測定から決定さ れた、保存済みの参照値と比較されます。アプリケーションの応答時間が、事前に定義されたルールに適合 しない程度に低下した場合、測定が中止され、その時のユーザー数が測定結果になります。ただし、システ ムがサポートできるユーザー数は実際のユーザープロファイルによって常に左右されるので、この数を絶対 数と考えることはできません。結果は主に相対的な結果と考える必要があります。つまり、「PRIMERGY シ ステム A の効率は PRIMERGY システム B の 2 倍である」または「メインメモリを 2 倍にするとパフォーマン スが x %増加する」というように考えます。 T4US Play T4US Agent 負荷ジェネレーター
…
T4US Play T4US Play TS Client TS Client ターミナル サーバ…
TS Client テスト対象システム (System Under Test:SUT)SUT T4US Control コントローラー T4US Record T4US Script 実際に作業している ユーザー
負荷プロファイル V2
これまでターミナルサーバの測定で使用されていた負荷プロファイル V1 は使用できなくなりました。この プロファイルでは、各ユーザーがターミナルサーバに定期的にログオンし、テキストとイメージを作成して からログオフしていました。測定対象システムのパフォーマンスの向上により、ベンチマークは、システム のプロセッサのパフォーマンスではなく実行されるログオン/ログオフ処理によってユーザー数が決まるとい う状況になりました。言い換えるとオペレーティングシステムに制限が存在するということです。これは、 プロセッサの能力を使い切る前にこのベンチマークが限界に達してしまったことを意味します。したがって プロセッサのパフォーマンスの向上はこのベンチマークでは測定できません。このような理由から、ここで 実行される測定では、新しい負荷プロファイル V2 が使用されることになりました。 新しい負荷プロファイル V2 には、シミュレートされるユーザーがさまざまな Microsoft Office アプリケー ションを使用するという特徴があります。Microsoft Word ドキュメントの作成に加えて、PowerPoint プレゼン テーションも作成します。新しい Excel スプレッドシートに関する計算も実行されます。ログオン/ログオフ 処理数は、古い負荷プロファイルと比較して減尐しています。平均して 6 人に 1 人 のユーザーのみが定期的 にターミナルサーバにログオンおよびログオフします。また、平均して 6 人に 1 人のユーザーが Word ドキュ メントを印刷します。メモリ内のファイルの圧縮と解凍によって、さらに CPU の負荷が発生します。シミュ レーション対象のユーザーのタイピング速度は 1 分間に 330~440 文字です。 ターミナルサーバベンチマークに必要なメモ リは、ユーザー数に比例して増加し、基にな るオペレーティングシステムによって異なり ます。特に 32 ビットと 64 ビットのオペレー ティングシステムでは大きく異なります。こ の点については、『ターミナルサーバサイジン グガイド』に詳しい説明が記載されています (関連資料を参照してください)。 右側の図には、64 ビットの Windows Server 2008 システム上での負荷 プロファイル V2 を使用したベンチマークの メモリ要件を示しています。現在のユーザー はさまざまなアプリケーションを使用すると いう事実により、負荷プロファイル V2 では 元の負荷プロファイル V1 よりも多くのメモリが使用されます。 下図は、Windows Server 2008 x64 システム上で負荷プロファイル V2 を使用したときの ディスクとネット ワークの平均的な IO レート、および関連するデータスループットを示しています。ベンチマーク結果
ターミナルサーバシステム上で実行されるすべての測定で、オペレーティングシステムとして Windows Server 2008 x64 Enterprise Edition SP1 を使用しました。32 ビットオペレーティングシステムでは、仮想ア ドレス空間およびカーネル構造の制限のためにサポートされるユーザー数が制限されるので、このオペレー ティングシステムの測定は省略しました。 サーバまたはクライアントに行ったインストールでは最適化を行っていませんが、すべての PRIMERGY に 対して同じテスト条件になるように、以下の設定のみが変更されました。 オペレーティングシステムのページファイルは 36 GB の固定サイズに設定されました。 ターミナルサーバシステムでは、以下のパフォーマンス関連の要素が重要です。 ネットワーク ディスクサブシステム メインメモリ 演算処理のパフォーマンス ネットワーク ターミナルサーバベースのシステムは基盤になるネットワークインフラストラクチャーによって大きな影響を 受けます。ここでは個別のターミナルサーバのパフォーマンスが論点なので、ネットワークはボトルネック にならないような規模で構成されています。 ディスクサブシステム ディスクサブシステムは、さらに大きくパフォーマンスに影響する構成要素です。ここで使用する測定環境 では、オペレーティングシステムと、ユーザーデータおよびページファイルに分けてそれぞれを、2 台のハー ドディスクの RAID 0 アレイ上にあるパーティションを使用して、ターミナルサーバの 1 つのパーティション に保存しています。ただし、これが実際の顧客の構成に対応しているとは限りません。実際の構成では、一 般的にユーザーデータが適切なディスクサブシステムまたは外部ファイルサーバ上に置かれ、ターミナルサー バのローカルハードディスクには置かれないためです。最大のスループットを実現するために、ライトキャッ シュを含むすべてのキャッシュが有効になっています。ハードディスクのライトキャッシュはパフォーマン スの向上に大きく貢献し、運用環境を含めてこの機能の使用が推奨されており、すべてのハードディスクで 使用可能です。そのため、停電とそれに伴うデータ損失から保護するために UPS を使用することが推奨され ます。 メインメモリ メインメモリは、ターミナルサーバのパフォーマンスに最も大きく影響します。これは特に応答時間に反映 されます。必要なときには、Windows は、現在使用しないデータをメインメモリ(RAM)からハードディス ク上のスワップファイルに再配置(スワッピング)することで追加の仮想メモリを取得します。ただし、ディ スクアクセスにはメインメモリのアクセスの 1000 倍の時間がかかるので、直接的な結果としてパフォーマン スが大幅に低下し、応答時間が急激に増加します。 ターミナルサーバは数多くのユーザーとさまざまなアプリケーションを処理するので、十分なメモリを搭載 したシステムを用意することが特に重要です。メモリのアクセス速度は補助的な要因になります。96 GB ま での最大メモリ構成を備えた PRIMERGY BX620 S5 サーバブレードは、ターミナルサーバに良好なプラット フォームを提供します。 PRIMERGY BX620 S5 のメモリアクセス速度はプロセッサだけでなくメモリ構成にも依存します。メモリ DIMM が 1 つのバンクにのみ装着され、CPU に割り当てられた複数のチャネルに分散されているときに、最高のア クセス速度が実現されます。 今回実行した測定では、ターミナルサーバに十分なメモリが搭載されています。CPU ごとに 3 つのチャネル に分散された 4 GB メモリモジュールを 6 枚搭載した PRIMERGY BX620S S5 が、シミュレーション対象の ユーザー数に合わせて最適に構成されると同時に、メモリアクセス時間も短くなるように構成されました。 メモリを 2 倍にして 48 GB にしてもベンチマーク結果は改善しませんでした。
演算処理のパフォーマンス
要件に応じて、PRIMERGY BX620 S5 サーバブレードにはさまざまなプロセッサを搭載できます。これらは、 クロック周波数、キャッシュ、Quick Path Interconnect の転送速度(ギガトランスファー、GT)、コアの数 などが異なります。
ターミナルサーバベンチマークは、最小のクアッドコアプロセッサである Xeon E5504、および現在最も強 力なクアッドコアプロセッサである Xeon X5570 の両方で測定されました。Xeon E5504 と比較すると、Xeon X5570 にはハイパースレッディングテクノロジーとターボブーストテクノロジーの両方が採用され、最大エ ネルギー消費量(熱設計電力、Thermal Design Power(TDP))未満で動作するとき、アプリケーションに応 じて自動的にプロセッサをクロックアップします。 測定したプロセッサの仕様 Xeon E5504、2.00 GHz、4.8 GT(ギガトランスファー)、最大 800 MHz DDR3 バス速度、 4 MB L3 キャッシュ、80 W Xeon X5570、2.93 GHz、6.4 GT(ギガトランスファー)、最大 1333 MHz DDR3 バス速度、 8 MB L3 キャッシュ、95 W 新しい負荷プロファイル V2 を使用して達成されるシステムあたりの最大ユーザー数を、以前の負荷プロファ イル V1 を使用して達成されるユーザー数と比較することはできません。混乱を避けるため、ベンチマーク 結果は絶対ユーザー数では表されなくなり、事前に測定されたリファレンスシステムとの比較に限って表さ れます。ここで使用する PRIMERGY TX200 S4 には、ハイパースレッディングテクノロジーもターボブース トテクノロジーも採用されていない最大 2 基の Xeon E5430 プロセッサが搭載されています。 Xeon E5430、2.67 GHz、1333 MHz フロントサイドバス、6 MB L2 キャッシュ × 2、80 W 新しい負荷プロファイル V2 を使用したターミナルサーバベンチマークは、演算性能と高い相関を示します。 プロセッサの数を 2 倍(4 コアから 8 コア)にすると、リファレンスシステムでも Xeon E5504 を搭載した PRIMERGY BX620 S5 でもシステムパフォーマンスが 1.8 倍に増加しました。 ハイパースレッディングを有効にした場合、 Xeon X5570 には 8 基の論理的な CPU コ アがあります。つまり、2 つ目の CPU を 追加すると、論理コアの数が 8 から 16 に 増加します。これらの測定でも、ベンチマー クではシステムパフォーマンスが CPU コ アの個数に応じて効果的に向上します(1.7 倍)。 システムパフォーマンスの点では、Xeon E5504 を搭載した PRIMERGY BX620 S5 サーバブレードは、リファレンスシステム と同程度になります。 PRIMERGY BX620 S5 サーバブレードに、 より強力な Xeon X5570 プロセッサを搭 載した場合は、 2 倍を超えるシステムパ フォーマンスが達成されます。クロック周 波 数の向上 に加え て、セカ ンドレベ ル キャッシュが大きくなり、メモリアクセスも高速になります。どちらの測定でも、システムに 4 GB メモリ が 6 つ搭載されました。論理コアを追加することで、ベンチマーク結果に大きな改善が見られます。Xeon X5570 のターボブーストテクノロジーにより、負荷がピークになったときにパフォーマンスが向上しました。 全体的に、PRIMERGY BX620 S5 サーバブレードはターミナルサーバアプリケーションに適しています。ハ イパースレッディングやターボブーストなどのテクノロジーは、プロセッサのパフォーマンスを強化し、大 きなメモリ構成を併用することで、ターミナルサーバを利用することができるユーザー数が増加します。た だし、実際のユーザー数は常に現在の顧客の負荷プロファイルに依存します。
ベンチマーク環境
下の図は、ターミナルサーバのパフォーマンス測定が実施される環境を示しています。負荷ジェネレーター アプリケーションはサーバ上で実行されるので、多数のユーザーのシミュレーションが可能です。ターミナ ルサーバプロトコルでは、クライアントからサーバに対してはキーボード入力とマウスクリックのみが転送 され、サーバからクライアントに対しては画面内容の変更のみが転送されます。したがって、大きなネット ワーク帯域幅は必要ありません。負荷シミュレーターとターミナルサーバ(テスト対象システム(System Under Test:SUT とも呼ばれる)の接続は、100 Mbit イーサネットネットワークによって確立され、ターミナルサー バはギガビットアップリンクを介して接続されました。ユーザープロファイルはターミナルサーバに保存さ れるようになっています。測定中に読み書きされるユーザーのファイルも、ターミナルサーバにローカルで 保存されるようになっています。SUT ネットワーク内に同様に配置されたインフラストラクチャーサーバが、 Active Directory、DNS、ターミナルサービスのライセンス管理などの基本的なサービスを提供します。シミュ レートされたユーザーのログインは、常に Active Directory によって実行されます。 国または販売地域によっては一部のコンポーネントが利用できない場合があります。 PRIMERGY C200 T4US Control テスト対象システムの ネットワーク 約 40 の PRIMERGY デュアルサーバ Windows Server 2003 TS ClientT4US Agent、T4US Playback それぞれが最大 12 人のユーザーをシ ミュレートする シミュレーションを 制御するためのネッ トワーク PRIMERGY C200 Windows Server 2003 Active Directory ターミナルサーバ ライセンス管理サービス PRIMERGY Windows Server 2008 Enterprise Edition インフラストラク チャーサーバ 100 Mbit スイッチ 負荷ジェネレーター シミュレーションの コントローラー 100 Mbit スイッチ テスト対象システム (SUT)
テスト対象システム(System Under Test:SUT) オペレーティングシステムに含まれている Microsoft ターミナルサービスをターミナルサーバとして実行 します。表に示した以外のアプリケーションは、ター ミナルサーバにインストールされていません。 ハードウェア モデル PRIMERGY BX620S5 // PRIMERGY TX200S4 プロセッサ Xeon E5504 × 1~2 // Xeon E5430 × 1~2
Xeon X5570 × 1~2 メモリ 24 GB // 12 GB ネットワーク
インター フェース
2 GBit LAN Intel(オンボード) ×1 // Broadcom ディスク サブシステム SAS/RAID ストレージモジュール SAS ディスク × 2、15 krpm、RAID 0 ソフトウェア オペレーティン グシステム
Windows Server 2008 x64 Enterprise Edition バージョン Service Pack 1 ネットワーク プロトコル TCP/IP ディスク編成 1 ボリューム:OS 1 ボリュームずつ:データとページ ファイル ターミナル サーバソフト ウェア Microsoft ターミナルサービス アプリケー ション
Microsoft Office 2003(32 ビット)、7-Zip 4.57
T4US 測定環境 負荷ジェネレーターがターミナルサーバを使用する さまざまなユーザーをシミュレートします。1 つの T4US コントローラーがシミュレーションプロセス全 体を集中的に制御および監視します。インフラスト ラクチャーサーバが基本的なサービスを提供します。 負荷ジェネレーターのハードウェア モデル PRIMERGY RX100 S3 // PRIMERGY BX300 負荷ジェネレー ターの数 20 // 20
プロセッサ Pentium D 940 // Pentium III 933 MHz × 2 メモリ 2 GB // 1 GB ネットワーク インター フェース 1 GBit LAN × 2 T4US コントローラーおよびインフラストラクチャーサー バハードウェア モデル PRIMERGY C200 プロセッサ Pentium III 1.40 GHz × 2 メモリ 1.5 GB ネットワークイン ターフェース 100 MBit LAN × 2 ソフトウェア オペレーティング システム
Windows Server 2003 Standard Edition SP2 ネットワーク プロトコル TCP/IP RDP クライ アント 6.0.6000.16459 T4US バージョン 3.3 T4US 負荷 プロファイル T4US 負荷プロファイル V2