• 検索結果がありません。

VXPRO R1400® ご提案資料

N/A
N/A
Protected

Academic year: 2021

シェア "VXPRO R1400® ご提案資料"

Copied!
22
0
0

読み込み中.... (全文を見る)

全文

(1)

Intel® Core™ i7 プロセッサ 920

Preliminary Performance Report

(2)

ノード性能評価

• ノード性能の評価

– NAS Parallel Benchmark Class B – OpenMP版での性能評価

– 実行スレッド数を4で固定(デュアルソケットでは各プロセッサに2 スレッド)

– 全て、2.66GHzのコアとなるため、コアあたりのピーク性能は同じ • 評価システム

– Intel® Core™ 2 Extreme QX6700 (シングルソケット) • 2.66GHz、1066MHz FSB、2x4MB L2キャッシュ – Intel® Xeon 5150(デュアルソケット構成) • 2.66GHz、1333MHz FSB、4MB L2キャッシュ – Intel® Xeon 5430(デュアルソケット構成) • 2.66GHz、1333MHz FSB、2x6MB L2キャッシュ – Intel® Core™ i7 920 (シングルソケット) • 2.66GHz、8MB L3キャッシュ、3 チャネル DDR3 1066 MHz

(3)

評価システム構成

Core 0 Core 2 4MB shared L2 Cache Bus I/F MCH FSB Core 0 Core 2 4MB shared L2 Cache Bus I/F MCH FSB Core 0 Core 2 4MB shared L2 Cache Bus I/F Core 0 Core 2 4MB shared L2 Cache Bus I/F MCH FSB Core 2 Extreme QX6700 Core 0 Core 2 4MB shared L2 Cache Bus I/F MCH FSB Core 2 Duo (シングルソケット) Xeon 5150(デュアルソケット) Core 0 Core 2 6MB shared L2 Cache Bus I/F Core 0 Core 2 6MB shared L2 Cache Bus I/F MCH FSB Core 0 Core 2 6MB shared L2 Cache Bus I/F Core 0 Core 2 6MB shared L2 Cache Bus I/F MCH FSB Xeon 5430(デュアルソケット)

(4)

Intel® Core™ i7 プロセッサ 920

(Nehalemプロセッサ)

Core Core Core Core

Memory Controler L3 Cache MISC IO QPI 1 MISC IO QPI 0 Que ue

(5)

マルチスレッド向けシステム強化

• 完全にモジュール化されたシステム設計 • マイクロアーキテクチャ拡張 – マルチスレッドアプリケーションで重要となる同期 プリミティブの高速化 • キャッシュ階層 – L1、L2、L3の3階層のキャッシュ構成 – 256KBの専用L2キャッシュ – CPU中の全てのCPUコアで共有する大容量のL3 キャッシュ • プロセッサ上のメモリコントローラ

(6)

性能評価について

このレポートでの性能評価は、以前に弊社で実行した ベンチマークの結果とCore i7搭載システムの性能を 比較したものです。コンパイラは、そのテストを実施し た時点での最新版を利用しているため、各システムの 性能評価毎に違ったバージョンでの性能評価となって います。 利用しているコンパイラオプションは、-O3 –openmp だけを指定しています。 また、このベンチマークレポートは、マイクロプロセッ サとチップセットの世代毎の違いの概要を評価するた めだけに行っています。

(7)

性能評価結果(相対性能)

2008.03 実施

0 1 2 3 4 5 6 7 BT CG EP FT IS LU MG SP 相 対 性 能( Co re 2 Du o の性能 =1

Core2Duo/2 Core2Quad/4 Xeon5150/4 Xeon5430/4 Xeon5430/8

(8)

性能評価結果(相対性能)

• Core 2 Duoなどの65nmプロセッサと比較しても、同 一クロックでも性能向上が45nmプロセッサは示して いる。 – LUベンチマーク:2x6MB キャッシュでの性能向上 – EPベンチマーク:マイクロアーキテクチャ+コンパ イラによる性能向上 • 全般的に、同一のFSB速度にも関わらず、高い性能 向上を示している。 • Intel Xeon 5400番台プロセッサの高い潜在能力を 示す。

(9)

性能評価結果(相対性能)

2008.12 実施

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 BT CG EP FT IS LU MG SP 相対性能( Core 2 Ex treme Q X670 0 =1) NPB OpenMP – 4スレッドベンチマーク性能比較

Core 2 Extreme QX6700 Xeon 5150 DP Xeon 5430 DP Core i7

同じクァッドコアプロセッ サに対して、同一クロック で2-3倍の性能

(10)

性能評価結果(相対性能)

2008.12 実施

0 0.5 1 1.5 2 2.5 3 3.5 4 BT CG EP FT IS LU MG SP 相対性能( Core 2 Ex treme Q X670 0 =1) NPB OpenMP – 2スレッドベンチマーク性能比較

(11)

Intel® Core™ i7 プロセッサ 920

OpenMPスケーラビリティ

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 BT CG EP FT IS LU MG SP ス ケ ー ラビ リ ティ ( シング ルス レ ッ ドに対す る性能比 ) NPB OpenMP – スケーラビリティ評価 1 2 4 従来のプロセッサを大きく 上回るマルチスレッドで のスケーラビリティ

(12)

Intel® Core™ i7 プロセッサ 920

OpenMPスケーラビリティ

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 BT CG EP FT IS LU MG SP ス ケ ー ラビ リ ティ (C o re 2 Extr eme QX6700 =1 ) NPB OpenMP – スケーラビリティ評価

QX6700/1 QX6700/2 QX6700/4 Core i7/1 Core i7/2 Core i7/4

(13)

性能評価結果(相対性能)

• Core i7-920の圧倒的な性能 – 従来のCore2プロセッサやXeonプロセッサと比較 して、その高いメモリバンド幅による並列処理での 高いスケーラビリティ – シングルプロセッサ内の複数コアでのスレッド処理 での高いスケーラビリティ • 高いメモリバンド幅 • 新しいマイクロアーキテクチャの拡張 • キャッシュシステム

(14)

SMP LINPACKベンチマーク

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1000 2000 5000 10000 15000 18000 E ff ici e nc y (% to P e a k ) Matrix Size SMP LINPACK Efficiency 1スレッド 4スレッド 高いメモリバンド幅と低い メモリレイテンシ

(15)

メモリ階層ベンチマーク

• メモリ階層の簡単なベンチマークツール • Cachebench – http://icl.cs.utk.edu/projects/llcbench/cachebench.h tml – Cachebenchは、現在は、LLCbench として公開され ている

• LLCbench - Low Level Architectural Characterization Benchmark Suite

• http://icl.cs.utk.edu/projects/llcbench/index.html

(16)

メモリ階層ベンチマーク

0 5000 10000 15000 20000 25000 30000 35000 40000 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 M B/se c C Size (bytes)

double Read Cache Test

Opteron 2.8GHz Xeon 5160 3.0GHz Core2Quad 2.6GHz Core i7 2.6GHz

(17)

メモリ階層ベンチマーク

0 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 M B/se c C Size (bytes)

double write Cache Test

Opteron 2.8GHz Xeon 5160 3.0GHz Core2Quad 2.6GHz Core i7 2.6GHz

(18)

メモリ階層ベンチマーク

0 10000 20000 30000 40000 50000 60000 70000 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 M B/se c C Size (bytes)

Double read/modify/write Cache Test

Opteron 2.8GHz Xeon 5160 3.0GHz Core2Quad 2.6GHz Core i7 2.6GHz

(19)

Core i7 プロセッサ

• メモリ階層のベンチマーク結果は、Core i7 プロセッ サの高い性能を裏付ける結果となっています。 • 非常に優れたキャッシュ性能と従来製品を大きく上 回るメモリ性能は、HPC分野のアプリケーション性能 を大きく向上させることが可能となります。 注) このベンチマーク結果は、弊社が独自に行ったベン チマーク結果であり、その妥当性についての責任は 弊社にあります。また、この結果は特定の製品の性 能を保証するものではありません。

(20)

0 1000 2000 3000 4000 5000 6000 7000 1 4 8 MFLOPS 値 スレッド数

AMD Opteronプロセッサ 2384(Shanghai, 2.7GHz)x 2P

AMD Opteronプロセッサ 2380(Shanghai, 2.5GHz)x 2P

Intel Core i7 プロセッサ 920(Nehalem, 2.66GHz)x 1P

Himeno Benchmark ***)

メモリコントローラ内蔵では先行した AMD社のプロセッサと比較しても、 Core i7プロセッサは、マイクロアー キテクチャの優位性と今回のメモリ バンド幅の大幅な向上によって、非 常に大きな性能面での優位性を示す ことになる。 最新のOpteronプロセッサ2台よりも シングルプロセッサで高い性能を示 す。(Opteronの4スレッドは、2ソケッ トを利用した結果)

(21)

マルチスレッドアプリケーション

0:00:00 0:07:12 0:14:24 0:21:36 0:28:48 0:36:00 0:43:12 0:50:24 0:57:36 1:04:48 1 2 4 経過時間 スレッド数

VOXELCON/Voxel Analysis Solver**

Core2 Quad Q6700 Core i7

Intel® Core™ i7 920 (シングルソケット) 2.66GHz、8MB L3キャッシュ、3 チャネル DDR3 1066 MHz

12GB メモリ構成

Red Hat Enterprise Linux 4.7(for x64) Intel® Core2 Quad Q6700 2.66GHz 2.66GHz、2x4MB L3キャッシュ

1066 MHz FSB 8GB メモリ構成

Red Hat Enterprise Linux 5(for x64)

**株式会社くいんと

(22)

Technology Partners for HPC

スケーラブルなアプリケー ション性能 プロセッサの性能を最大限 に引き出すことが可能 高いIOとネットワーク性能 ‘使い易さ’ 充実した運用管理機能 開発環境 豊富なアプリケーション オープンなシステム環境 高い生産性(High Productivity) 高い性能(High Performance )

参照

関連したドキュメント

据付確認 ※1 装置の据付位置を確認する。 実施計画のとおりである こと。. 性能 性能校正

Faced with the phenomenon that should be called “the trend away from the papers”, which is spreading rap- idly across generations, particularly among youth in their twenties,

敷地と火山の 距離から,溶 岩流が発電所 に影響を及ぼ す可能性はな

敷地と火山の 距離から,溶 岩流が発電所 に影響を及ぼ す可能性はな

敷地と火山の 距離から,溶 岩流が発電所 に影響を及ぼ す可能性はな

影響度 特大 発現可能性 中-高

取水路 設置地盤の支持性能について 3.4