ベンチマークの説明
vServCon
は、富士通テクノロジー・ソリューションズが、ハイパーバイザーを使用するサーバ構成について、サーバ統合の適合性の比較に使用するベンチマークです。これにより、システム、プロセッサ、および
I/O
テクノロジーの比較に加え、ハイパーバイザー、仮想化形式、および仮想マシン用の追加ドライバの比 較も可能になります。vServCon
は、厳密に言えば新しいベンチマークではありません。これは、言うなればフレームワークであり、すでに確立されたベンチマークをワークロードとして集約し、統合され仮想化されたサーバ環境の負荷 を再現します。データベース、アプリケーションサーバ、Web サーバというアプリケーションシナリオを 対象とする 3 つの実証済みのベンチマークが使用されます。
3 つのアプリケーションシナリオのそれぞれが、1 つの専用の仮想マシン(VM)に割り当てられます。これ
らに加えてアイドル VM という 4 番目の仮想マシンが追加されます。これら 4 つの VM が 1 つの「タイル」を構成します。最大の性能値を引き出すためには、測定対象となるサーバの処理能力に応じて、いくつかの タイルを並行して開始しなければならない場合もあります。
3 つの vServCon アプリケーションシナリオのそれぞれが、各 VM のアプリケーション固有のトランザクシ
ョンレートという形でベンチマーク結果を提供します。スコアを正規化するために、1 つのタイルのそれぞ れのベンチマーク結果とリファレンスシステムの結果との比を求めます。その相対性能値に適切な重み付け を行い、すべての VM とすべてのタイルについて加算します。最終的な計算結果が、このタイル数に対する スコアになります。原則として、1 つのタイルから始めて、vServCon スコアの大幅な増加が見られなくなるまで、タイル数を 増やしながらこの手順が実行されます。最終的な vServCon スコアは、すべてのタイル数から得られた
vServCon スコアの最大値です。したがって、このスコアは、CPU リソースを最大限まで使用する構成で達
成される最大スループットを反映しています。このため、vServCon の測定環境は、CPU のみが制限要因と なるように設計されており、他のリソースによる制限は発生しないように設計されています。タイル数の増加に対する
vServCon
スコアの伸びは、テスト対象システムのスケーリング特性を知るための 有益な情報となります。さらに、vServCon では、ホストの合計 CPU 負荷(VM および他のすべての CPU 処理)を記録し、可能な 場合は消費電力も記録します。
vServCon の詳細については、『ベンチマークの概要 vServCon』を参照してください。
アプリケーションシナリオ ベンチマーク 論理 CPU コアの数 メモリ データベース Sysbench(補正済み) 2 1.5 GB
Java アプリケーションサーバ SPECjbb(補正済み、50~60 %の負荷) 2 2 GB
Web サーバ WebBench 1 1.5 GB
テスト対象システム
… …
タイル n
タイル 3 タイル 2 タイル 1 データベース
VM Web
VM
アイドル Java VM
VM
データベース
VM Web
VM
アイドル Java VM
データベース VM
VM Web
VM
アイドル Java VM
データベース VM
VM Web
VM
アイドル Java VM
VM
ベンチマーク結果
PRIMERGY
の2
ソケットモデル現行世代は、Intel Xeon シリーズ 5600(または 5500)プロセッサをベー スにしています。次のようなさまざまなシステム構成に対応しています。
プロセッサ TX300 S6 RX200 S6 RX300 S6 BX620 S6 BX920 S2 BX922 S2 BX924 S2
5500 E5507
5600 シリーズ 4 コア E5607
L5609
4 コア、HT、TM
L5630
E5620
E5630
E5640
X5647
X5667
X5672
X5677
X5687
6 コア、HT、TM
L5640
E5645
E5649
X5650
X5660
X5670
X5675
X5680
X5690
HT = ハイパースレッディング、TM = ターボモード
PRIMERGY
の2
ソケットモデル現行世代は、プロセッサテクノロジーの進歩により、アプリケーションの仮想化に最適なシステムとなっています。6 コアプロセッサにも対応しているため、前世代のプロセッサを ベースとするシステムと比較して、仮想化性能が約 50 %向上しています(vServCon スコアで測定)。6 コ アプロセッサを 2 基搭載したシステムで、前述の vServCon プロファイルを基にして 27 のアプリケーショ ン VM(9 つのタイルに相当)を使用した場合、CPU リソースの最大活用をほぼ実現できます。
次のグラフは、各プロセッサで達成可能な仮想化性能値を比較したものです。発売済みの 4 コアまたは 6 コアのプロセッサを対象に幅広く測定しました。
このグラフに示されているプロセッサ間の大きな性能差は、その機能が影響していると考えられます。グラ フの左側のグループのプロセッサは、エントリーモデルです。グラフ中央のグループのプロセッサは、ハイ パースレッディングとターボモードに対応しているため、パフォーマンスが大幅に向上していることがわか ります。
グラフの中央と右側のグループのプロセッサでは、それぞれのプロセッサのメモリクロック周波数が徐々に 上がっています。このとき、パフォーマンスは、プロセッサのメモリクロック周波数とプロセッサ間のデー タ転送速度(「
QPI
スピード」)の組み合わせで決まります。グラフの右側のグループは、
6
コアプロセッサで構成されています。6
コアプロセッサの場合、同機能の4
コアプロセッサと比較すると、期待どおりにパフォーマンスが約 50 %向上しています。グラフの右側のグ ループでは、E5649
からX5650
への大幅な向上が特に目立っています。X5650
以降は、最高のQPI
スピー ドと強力なターボモードを備えたアドバンストプロセッサというカテゴリであるためです。メモリパフォーマンスと
QPI
アーキテクチャーの詳細については、ホワイトペーパー『Xeon 5600
(Westmere-EP)搭載システムのメモリパフォーマンス』を参照してください。
仮想化環境のメインメモリを選択するときのガイドラインとして、メモリアクセス速度よりも、メモリ容量 が十分にあることが重要です。
各プロセッサの製品データについて再度簡潔にまとめ、次の表に示します。
E5507 L5609 E5607 L5630 E5620 E5630 E5640 X5647 X5667 X5672 X5677 X5687 L5640 E5645 E5649 X5650 X5660 X5670 X5675 X5680 X5690
4 4 4 6 6 6 6 6 7 7 7 7 9 9 9 9 9 9 9 9 9
0 1 2 3 4 5 6 7 8 9 10
Final vServCon Score
#Tiles
4 Cores / 4 Threads 4 Cores / 8 Threads 6 Cores / 12 Threads
プロセッサ コア数/
チップ
L3 キャッ シュ
プロセッサ 周波数
QPI
スピード HT TM TDP タイル数 スコア
5500 E5507 4 4 MB 2.27 GHz 4.8 GT/s - - 80 W 4 3.02
5600 シリーズ 4 コア E5607 4 8 MB 2.27 GHz 4.8 GT/s - - 80 W 4 3.39
L5609 4 12 MB 1.87 GHz 4.8 GT/s - - 40 W 4 3.06
4 コア、HT、TM
L5630 4 12 MB 2.13 GHz 5.86 GT/s 40 W 6 4.61
E5620 4 12 MB 2.40 GHz 5.86 GT/s 80 W 6 5.40
E5630 4 12 MB 2.53 GHz 5.86 GT/s 80 W 6 5.56
E5640 4 12 MB 2.67 GHz 5.86 GT/s 80 W 6 5.79
X5647 4 12 MB 2.93 GHz 5.86 GT/s 130 W 6 6.23
X5667 4 12 MB 3.07 GHz 6.4 GT/s 95 W 7 6.93
X5672 4 12 MB 3.20 GHz 6.4 GT/s 95 W 7 7.20
X5677 4 12 MB 3.46 GHz 6.4 GT/s 130 W 7 7.24
X5687 4 12 MB 3.60 GHz 6.4 GT/s 130 W 7 7.57
6 コア、HT、TM
L5640 6 12 MB 2.27 GHz 5.86 GT/s 60 W 9 7.36
E5645 6 12 MB 2.40 GHz 5.86 GT/s 80 W 9 7.40
E5649 6 12 MB 2.53 GHz 5.86 GT/s 80 W 9 7.60
X5650 6 12 MB 2.67 GHz 6.4 GT/s 95 W 9 8.63
X5660 6 12 MB 2.80 GHz 6.4 GT/s 95 W 9 8.87
X5670 6 12 MB 2.93 GHz 6.4 GT/s 95 W 9 9.02
X5675 6 12 MB 3.06 GHz 6.4 GT/s 95 W 9 9.29
X5680 6 12 MB 3.33 GHz 6.4 GT/s 130 W 9 9.41
X5690 6 12 MB 3.46 GHz 6.4 GT/s 130 W 9 9.61
QPI = QuickPath インターコネクト、GT = ギガトランスファー、HT = ハイパースレッディング、
TM = ターボモード、TDP = 熱設計電力
次のグラフは、
Xeon E5620
(4
コア)プロセッサおよびE5649
(6
コア)プロセッサを搭載した時の、VM
数の増加に対する仮想化性能を示しています。ホストのそれぞれの CPU 負荷も示されています。CPU 負荷 が 90 %のときが最適なタイル数です。90 %を超えると過負荷となり、
仮想化のパフォーマンスは停滞また は低下します。
物理コア数の増加に加えて、ハイパ ースレッディング機能によって、多 数の VM の稼動が可能になります。
ハイパースレッディング機能では、
1
つの物理プロセッサコアが結果的 に 2 つの論理コアに分割されるた め、ハイパーバイザーが利用できる コア数は2
倍になります。そのた め、ハイパースレッディング機能は、一般的にシステムの仮想化性能を向 上させます。
ハイパースレッディング機能を使用するシステムでは、前のグラフに示されているタイル数のスケーリング 曲線が明確に見られます。Xeon E5649 プロセッサには、12 個の物理コア、すなわち 24 個の論理コアがあ り、1 つのタイルにつき 4 個程度の論理コアが使用されます(『ベンチマークの説明』を参照)。つまり、
ほぼ 3 タイルまでは、複数の VM が同じ物理コアを並行して使用することを回避できます。そのため、この 範囲ではほぼ理想的にパフォーマンスが上昇します。その後、CPU 使用率が限界に達するまでのパフォー マンス曲線は、傾きが緩やかになっていきます。
2.18 3.84 4.47 5.01 5.30 5.40 2.12 4.23 5.69 6.37 7.08 7.34 7.45 7.55 7.60
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
E5620 E5649
0 1 2 3 4 5 6 7 8
1 2 3 4 5 6 1 2 3 4 5 6 7 8 9
CPU utilization
vServCon Score
# Tiles vServCon Score (left axis) CPU utilization of host (right axis)
これまでは、システムの仮想化性能を全体的に分析してきました。ここからは、仮想化環境での個別アプリ ケーション VM の観点でパフォーマンスについて説明します。ここでは例として、Xeon E5649 プロセッサ のシステムを取り上げています。
システム総体としてのパフォーマンスを重視してアプリケーション VM の数を全体最適化(例として 6 タイ ル)すると、部分最適化(例として 1 タイル)して負荷が尐ない状況に比べ、個別の VM のパフォーマンス はかなり低くなります。次のグラフ(
VM
の数が増加したときの3
種類の各アプリケーションVM
のリファ レンスシステムに対する相対的なパフォーマンス)により、この点を明らかにしています。各アプリケーシ ョン(Java、Web、DB)のグラフの最初の列には、1 つのタイルを構成する合計 3 つの VM がアプリケー ション別に 1 つずつ表示されています。2 番目の列には 2 つのタイルを構成する合計 6 つの VM がアプリ ケーション別に 2 つずつ表示され、以降も同様に、タイルを構成する VM がアプリケーション別に表示され ています。各グラフから、個々のアプリケーション VM の値、およびアプリケーション種別ごとの合計値が 読み取れます。仮想ホスト上の VM の数に関して、全体的なパフォーマンスよりも個別のアプリケーションのパフォーマン ス要件を重視すべき場合もあります。
はじめに、完全に構成されたシステムの仮想化性能について見てきました。一方で、プロセッサを 1 基から
2
基に増やしたときに、どの程度パフォーマンスが向上するかという疑問もあります。パフォーマンスの向上度が増せば、サーバ内のリソース共有によるオー バーヘッドは減尐します。プロセッサ追加時の性能 向上度を示すスケーリング係数は、サーバの用途に よって異なります。サーバ統合用の仮想化プラット フォームとしてサーバを使用する場合、プロセッサ の追加で性能は 1.95 倍になります。つまり、Xeon
E5649
のグラフに示したように、2 基のプロセッサを使用すると、1 基のプロセッサを使用した場合に比 べて、仮想化性能が約
2
倍になります。0 1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Relative performance compared with RefSys
Relative performance of single VM for increasing tile count
9th VM 8th VM 7th VM 6th VM 5th VM 4th VM 3rd VM 2nd VM 1st VM
Web DB
Java
#Tiles
0 1 2 3 4 5 6 7 8 9
1 ×E5649 2 ×E5649
×1.95
vServCon Score