1 All Rights Reserved, Copyright 2004, NEC Corporation 2 All Rights Reserved, Copyright 2004, NEC Corporation

(1)

1

ベクトル計算機の動向

２００４年１1月１０日

2

ＨＰＣの動向

(2)

3

Capability

Computing

・

Goals

：

単一ジョブレベルでの実行性能

高速化（短

TAT

）

・大規模な重要問題

-

Challenging

--

従来型のスカラシステムには不向き

・強力なプロセッサによる

SMP

が最適

Capacity Computing

と

Capability Computing

Capacity

Computing

・

Goals

：

ワークロードとスループット

単一ジョブの実行性能は二次的

・多数の小規模問題

-

Not challenging

・マイクロプロセッサベースの並列機や

スカラクラスタ

…

Vector / SX

PC Cluster / Blade Server

(3)

5

0 200 400 600 800 1000 90 91 92 93 94 95 96 97 98 99 100

Capability Computing

∼実効性能向上を目指して∼

Capability Computingに必要なもの

Capability Computing

Capability Computingに必要なもの

に必要なもの

•

• アムダールの法則

アムダールの法則

•

• CPU

CPU

性能の向上

•

• 並列処理性能の向上

並列処理性能の向上

10GFLOPS/CPU ｘ 100 CPUs 1GFLOPS/CPU ｘ 1000 CPUs 96 99.6 並列度(%) 性能(GFLOPS)

実効性能向上のためには単一

CPU

の性能が大であることが重要

最大性能の最大性能の20%20%の処理性能を出すには、の処理性能を出すには、 --10GF10GFののCPU CPU ｘｘ100100台の場合台の場合ÎÎ96%96%の並列度の並列度 --1GF1GFののCPU CPU ｘｘ10001000台の場合台の場合ÎÎ99.6%99.6%の並列度の並列度が必要。が必要。

--

デバイス技術

--

メモリ性能

（バンド幅）

--

超高速

CPU

による高スケーラビリティ・高効率

--

小規模並列

：高バンド幅共有メモリ

--

大規模並列

：高性能ノード間通信（

MPI

）

同期オーバヘッド短縮（高速同期機構）

強い

_CPU

CPU

少ない並

列処理の

オーバーヘッド

6

ＣＯＴＳサーバ*への反省：

新しいコンセプトの追求が焦点

Î 米国はコモディティに頼ったHPC開発への反省から、新たな

アーキテクチャの開発を目指し、政府資金を積極投入

*COTSサーバ：Commercial-Off-The-Shelf （市販の部品を使用した）サーバ

ベクトル対スカラ：

対立するものではなく補完するもの

Î ベクトルとスカラを適材適所で利用/連携

Ｇｒｉｄ：

ＨＰＣを代替するものではなく、使い易くするもの

Î 実行するアプリケーションに適したシステム

（ベクトル機、スカラ機等）が自由に利用できる環境

ＣＯＴＳサーバ

*

への反省：

新しいコンセプトの追求が焦点

Î

米国はコモディティに頼ったHPC開発への反省から、新たな

アーキテクチャの開発を目指し、政府資金を積極投入

*COTSサーバ：Commercial-Off-The-Shelf （市販の部品を使用した）サーバ

ベクトル対スカラ：

対立するものではなく補完するもの

Î

ベクトルとスカラを適材適所で利用/連携

Ｇｒｉｄ：

ＨＰＣを代替するものではなく、使い易くするもの

Î

実行するアプリケーションに適したシステム

（ベクトル機、スカラ機等）が自由に利用できる環境

(4)

7

ASCI Red

ASCI Blue Mountain ASCI Blue Pacific

ASCI White ASCI Q ASCI Red Storm Blue Planet 用途：科学一般 ASCI Purple BG/P BG/Q BG/L

米A

SC

Iﾌ

ﾟﾛｼ

ﾞｪｸ

ﾄ（従

来）

ASCIの用途：核兵器ｼﾐｭﾚｰｼｮﾝ

米国超高速ｺﾝﾋﾟｭｰﾀ開発計画

100TFLOPS 100GFLOPS 1TFLOPS 10TFLOPS

IBM Blue Geneの汎用化用途：高分子モデリング → 一般化

‘９６

’９８

‘００

‘０２

’０４

‘０６

’０８

地球シミュレータ対抗 ⇒ 米・新規計画予定

実効性能

地球ｼﾐｭﾚｰﾀ (2002) ﾋﾟｰｸ 40TF 実効 26.6TF Blue Planet (2006) ﾋﾟｰｸ 160TF 実効 40∼50TF 地球対抗で実効性能強化へ

地球ｼﾐｭﾚｰﾀ

用途：気候変動・地殻変動解明

地球対抗で米国ＨＰＣ開発も実効性能重視に計画を見直し

8

(5)

9

ベクトル型とスカラ型の違い

ＰＣクラスタ、

スカラ型並列計算機

ＰＣクラスタ、

スカラ型並列計算機

ベクトル型

並列計算機

ベクトル型

並列計算機

一人乗りのエレベータ

エスカレータ

10

ベクトル型とスカラ型

スカラ処理向き

アプリケーション領域

ベクトル処理向き

アプリケーション領域

ベクトル型

スカラ型

ｷｬｯｼｭｻｲｽﾞ限界

性能

構造解析

物質・化学

衝突解析

流体解析

気象・気候

大容量データの超高速計算では、ベクトル型が圧倒的に優位

Î大規模シミュレーション分野にはベクトル型は必須

大容量データの超高速計算では、ベクトル型が圧倒的に優位

Î

大規模シミュレーション分野にはベクトル型は必須

ﾃﾞｰﾀ量がｷｬｯｼｭｻｲｽﾞを上回るとﾃﾞｰﾀがｷｬｯｼｭからあふれ、性能が大幅低下ﾒﾓﾘから直接、大規模ﾃﾞｰﾀをまとめてﾍﾞｸﾄﾙ演算器に供給

データサイズ

(6)

11

ＨＰＣのタイプとアプリケーションの適合性

■ ベクトル型は、大データ規模・大演算量の計算に強み

■ スカラ型は、小演算量の計算に強み

−大演算量計算では、CPU間のデータのやり取りが増え、並列化のスケーラビリティに限界

■ ベクトル型は、大データ規模・大演算量の計算に強み

■ スカラ型は、小演算量の計算に強み

−大演算量計算では、CPU間のデータのやり取りが増え、並列化のスケーラビリティに限界メモリバンド幅データ規模構造大少小大スカラ計算スカラ計算ベクトル計算ベクトル計算ゲノム解析化学気象流体衝突電磁波 12

①強力な単体プロセッサ性能

単一CPU性能でスカラプロセッサ

を凌駕。

②太いメモリバンド幅

CPU性能にバランスしたメモリバン

ド幅で、高スケーラビィティのノード

性能を実現。

③強力なノード間スイッチ

ノード当り必要十分な高速データ

転送性能と、等距離で競合の少な

い大規模単段クロスバースイッチ

。

Processor数 SGI Altix X1

STREAM（ triad）シングルCPUメモリバンド幅

1 10 100 1000 STRIDE [B y te s /s ] 100G 10G 1G 100M 10M 1M IBM p690 (Power4) SX-6 メモリバンド幅連続アクセス で50倍以上 の差多次元配列の飛びアクセスになる と100倍以上の差 SX SX--88

ベクトルアーキテクチャ（SX）の強み

10 20 30 40 50 60 70 80 90 100

Simulation Years per Day

ＣＰＵ台数 1 2 4 8 16 32 64 128 256 Earth Simulator IBM p690 cluster HP AlphaServer SC SGI Origin3000 IBM SP (NH II) IBM SP (WH II) 実効性能（海洋大循環シミュレーション (POP)）

４ ∼

９ 倍

(7)

13

ＣＰＵ性能（8CPU）

ﾒﾓﾘﾃﾞｰﾀ転送性能

ﾒﾓﾘｱｸｾｽ性能

ベクトル型はなぜ速い？

（圧倒的なメモリ性能）

ベクトル型

コンピュータ

主記憶（メモリ）ベクトルレジスタ演算器

スカラ型

コンピュータ

主記憶（メモリ）キャッシュメモリスカラレジスタ演算器

2.5

2.5 倍

倍

20

20 倍

倍

20

20 倍

倍

25.6GB/秒

512GB/秒

51.2GFLOPS

128GFLOPS

CPU性能に比してﾒﾓﾘ性能が大きく劣る巨大なﾒﾓﾘﾃﾞｰﾀ転送能力が実効性能を引き上げる

CPU性能とﾊﾞﾗﾝｽのとれたﾒﾓﾘ性能の実現が、実効性能を引き上げるﾎﾟｲﾝﾄ

14

0

50

100

150

200

250

0

50

100

150

200

250

300 STREAM COPY

SX-6

SV1ex Origin3000 Sun Fire 15K p690 superdome ES45 ベクトルマシンスカラマシン（キャッシュベースマシン）高い実効性能を支える高メモリバンド幅（高いプロセッサ性能とバランスのとれたメモリバンド幅）出典 : http://www.cs.virginia.edu/stream/ 2003.7.13 ES80 Altix3000

実効メモリバ

ン

ド幅

（GB/s

）

理論ピーク性能（GFLOPS）

(8)

15

SX-6（1CPU）

p690（1CPU）

100 1000 10000 1e+05 1e+06 1e+07 1e+08

データサイズ

1

実効メ

モリバンド幅（GB/

s）

10 100

STREAM2 COPY : a(i)=b(i)

SXのベクトルプロセッサ高いパフォーマンスを維持キャッシュベースシステム（汎用マイクロプロセッサなど）キャッシュ容量を超える演算では実効性能低下 16

ベクトル型はなぜ速い？

（ノード間通信性能）

ベクトル型

コンピュータ

スカラ型

コンピュータ

ﾉｰﾄﾞ性能に比して、

ﾉｰﾄﾞ間ﾃﾞｰﾀ転送性能

が大きく劣る。

大規模では多段ス

イッチ構成

巨大なﾉｰﾄﾞ間ﾃﾞｰﾀ転

送能力が並列処理性

能を引き上げる

SXでは単段のクロス

バスイッチ

超高速のノード間接続が並列処理性能向上のポイント

1GB/s

32GB/s

ノードノードノードノードノード間ノード間スイッチスイッチノード間接続ノード間接続装置装置(IXS)(IXS) （*QsNetIIの場合）

32倍

(9)

17

ベクトル型コンピュータの性能（気候）

SX-8（50CPU）は海洋シミュレーション

コードにより、

1日に100年分の現象を

シミュレーション可能。

同等

CPU数のスカラ機では、1日に15年

分のシミュレーションが限度。

SX

-

8

8 （

（

50CPU

）は海洋シミュレーション

コードにより、

1

1 日に

日に

100

100 年分の現象を

年分の現象を

シミュレーション可能。

同等

CPU

数のスカラ機では、

1

1 日に

日に

15

15 年

年

分のシミュレーションが限度。

海水面温度の計算を、NEC RVSLIBで可視化

気候アプリケーション

（海洋大循環モデル）

10 20 30 40 50 60 70 80 90 100 1 日でｼﾐｭﾚｰｼｮﾝできる年数プロセッサ数 1 2 4 8 16 32 64 128 256 512 SX-8 110 120 130 140 150 160

6∼10倍

（注）SX-8は推定値 スカラシステム 18

(10)

19

1998

2001

₂₀₀₁

SX SX--55

①ＨＰＣをリードする

実績と安心の将来性

②優れたｱｰｷﾃｸﾁｬの

継承と高実効性能

③洗練と充実の

サポート

最新テクノロジ採用の継続によりＨＰＣ市場ニーズにマッチするプライスパフォーマンスを実現したＳＸシリーズを提供します。ユーザ資産を最大限に保証する互換性・移行性を守ります。また、並列ベクトルマシンによる高実効性能が引き継がれます。 蓄積されたHPC技術に基づく サポート・サービスを提供できます。また、業界標準規格に準拠した使い易いソフトウェア開発環境もサポートしています。

ＳＸシリーズの発展と開発思想

ＨＰＣ市場ニーズにマッチした開発トレンド及び強化・開発サイクル

出荷年

ハイエンドユーザのニーズに応え、最新のテクノロジを

一貫したアーキテクチャ

に適用

2002

ＳＸシリーズ製品ロードマップ

SX SX--5f5f（強化）（強化）

2000

SX SX--66 SXSX--77

2004

SX SX--88

2003

SX SX--66（強化）（強化）演算性能演算性能主記憶容量主記憶容量主記憶ﾊﾞﾝﾄﾞ幅主記憶ﾊﾞﾝﾄﾞ幅 128GF 128GF 128GB 128GB 1024GB/s 1024GB/s 160GF 160GF 128GB 128GB 640GB/s 640GB/s 64GF 64GF 64GB 64GB 256GB/s 256GB/s 282GF 282GF 256GB 256GB 1131GB/s 1131GB/s 72GF 72GF 128GB 128GB 289GB/s 289GB/s 128GF 128GF 64/128GB 64/128GB 512GB/s 512GB/s 20

45.7cm 38.6cm CPU CPU

1985

1990

1995

2000

性能

バイポーラ

水冷

CMOS

空冷

アーキテクチャ

マルチノード

(>10

ノード

)

大規模クラスタ

(>100

ノード

)

ＳＸシリーズの進化

SX

-

3

3 SX

SX

-

5

5 シングルノード

シングルノード

1GFLOPS

超え

SX-6/7

SX-2

SX-4

テクノロジー

2cm 2cm 1 1 440 440

テクノロジとアーキテクチャ両面で

継続的にブレークスルーを達成

SX-8

_SX-8

超大規模クラスタ

(>500

ノード

)

2005

1

1 ﾓｼﾞｭｰﾙ

ﾓｼﾞｭｰﾙ

ﾉｰﾄﾞ

1

1 チップ

チップ

ﾍﾞｸﾄﾙﾌﾟﾛｾｯｻ

価格性能比、設置面積、価格性能比、設置面積、消費電力を大幅改善消費電力を大幅改善世界世界最高性能最高性能＊＊

マルチ

CPU

* 商用機で世界最高速 **ベクトル機で世界最高速

(11)

21

8 CPU (128GFLOPS) 510m m 460 m m R C U MMU PKG×32 ZIF Conn-ector C P U

SX

-

5

同軸布線同軸布線BOXBOX カード実装カード実装 C P U R C A C P U C P U C P U C P U C P U C P U C P U 450mm 450mm Wire Box MM 1, 800 mm 800m m 800mm CP CPU MM 同軸布線筐体同軸布線筐体 16 CPU (128GFLOPS) 8 CPU (64GFLOPS)

SX

-

6

6 SX

SX

-

8

1chip CPU 1chip CPU カード化カード化((ｹｰﾌﾞﾙﾚｽｹｰﾌﾞﾙﾚｽ))

布

線

布

線

CPU peak 8GF(250MHz) 8GF(500M/1GHz) 16GF(2GHz) LSI process 0.25μm 0.15μm Cu 90nm Cu 20,000 20,000本本 32LSIs/CPU 32LSIs/CPU 200m m

超高密度高速実装技術

最先端テクノロジで高性能を実現

22

ベクトルプロセッサの１チップ化により、価格性能比、

設置性、消費電力を大幅に改善！

8 Wide Vector Pipe 16 Wide Vector Pipe 8 Wide Vector Pipe

Performance ：2GFLOPS（8.0ns）：8GFLOPS（4.0ns）* ：8GFLOPS（2.0ns) LSI ：0.35µm CMOS ：0.25µm CMOS ：0.15µm CMOS

：37 Chips ：32 Chips ：1チップベクトルプロセッサ *2000年に10GFLOPS版発表価格性能比：約2.5倍改善（SX-4=1）価格性能比：約2.5倍改善（SX-4=1）価格性能比：約7.5倍改善_（SX-4=1）価格性能比：約7.5倍改善（SX-4=1） 1.8m 約6.4m 約6.9m 1.8m 約3.2m 約6.3m 1.8m 1.1m 1.0m SX-5/16A（128GFLOPS）消費電力：約90VA SX-4/64M2（128GFLOPS）消費電力：約180VA SX-6/16M2（128GFLOPS）消費電力：約17.2VA 消費電力・床面積 1/2以下消費電力・床面積 1/5以下

ベクトルプロセッサ

の進化

ＳＸ-４（１９９４年）ＳＸ-４（１９９４年）ＳＸ-５（１９９８年）_{ＳＸ-５（１９９８年）} ＳＸ-６（２００１年）_{ＳＸ-６（２００１年）} *2003年に9GFLOPS版発表

(12)

23

スーパーコンピュータＳＸシリーズ

モデル

24

ＳＸ

-

８開発の狙い

ハイエンドコンピューティングを実現する

超高性能ＨＰＣプラットフォームの提供

優れたプライスパフォーマンス

ＴＣＯ削減：

省スペース

低消費電力

高い実効性能のＳＸアーキテクチャ継承

マルチノードモデル SX-8/64M8 (1TFLOPS) シングルノードモデル SX-8/8A (128GFLOPS) シングルノードモデル SX-8/4B (64GFLOPS)

３倍以上

(SX

-

6

6 比

比

)

約４分の１

(

性能当りの

SX

-

6

6 比

比

)

約２分の１

(

性能当りの

SX

-

6

6 比

比

)

(13)

25

1

1 -

-

4

4 CPU/

CPU/

16

16 -

-

64

64 GB

GB

メモリ

シングルノード

A

タイプ

4

4 -

-

8CPU/

32

32 -

-

128GB

メモリ

16GFLOPS 16GFLOPS 64G 64GFLOPSFLOPS 128G 128GFLOPSFLOPS 65T 65TFLOPSFLOPS 最大ベクトル最大ベクトル性能性能拡張性拡張性ベクトルアーキテクチャベクトル処理では、1つの命令で一度にたくさんのデータを処理することができます。またその高性能なCPU性能を十分に発揮させるための高いメモリデータ転送性能も特長の1つです。大規模なデータで多くの演算を必要とするジョブを処理するのに適しています。

モデル

ＳＸ

-

８

８ シングルノード

シングルノード

B

タイプ

マルチノードシステム

8

8 -

-

4,096

CPU/

64GB

-

64T

B

メモリ

ベクトルプロセッサベクトルプロセッサ 9 9世界最高速世界最高速11チップベクトルプロセッサ（チップベクトルプロセッサ（16GFLOPS16GFLOPS）） 9 9高い実効性能高い実効性能 9 9使い勝手のよい共有メモリ使い勝手のよい共有メモリ 9 9優れたコストパフォーマンスと設置性優れたコストパフォーマンスと設置性 9 9実績あるオペレーティングシステム実績あるオペレーティングシステム SUPER SUPER--UXUX

最大

65TFLOPS

26

All Rights Reserved, Copyright 2004, NEC Corporation − １６Ｇバイト／秒×双方向（ノード当り）最大データ転送速度ノード間接続装置（ＩＸＳ）２５６Ｇバイト／秒５１２Ｇバイト／秒２６２Ｔバイト／秒最大データ転送速度１６Ｇ∼６４Ｇバイト３２Ｇ∼１２８Ｇバイト６４Ｇ∼６４Ｔバイト容量共有メモリ共有・分散メモリメモリアーキテクチャ主記憶装置（ＭＭＵ）（１６ＧＦＬＯＰＳ／ＣＰＵ）（１６ＧＦＬＯＰＳ／ＣＰＵ）（１６ＧＦＬＯＰＳ／ＣＰＵ）１６Ｇ∼６４ＧＦＬＯＰＳ６４Ｇ∼１２８ＧＦＬＯＰＳ１２８Ｇ∼６５ＴＦＬＯＰＳ最大ベクトル性能１∼４台４∼８台８∼４,０９６台ＣＰＵ数中央処理装置（ＣＰＵ）ＳＸ−８／ＢＳＸ−８／ＢＳＸ−８／ＡＳＸ−８／Ｍ１ノード２∼５１２ノードシングルノードマルチノード仕様マルチノードモデル SX-8/64M8 (1TFLOPS) シングルノードモデル SX-8/8A (128GFLOPS) シングルノードモデル SX-8/4B (64GFLOPS)

ＳＸ

-

８システム諸元

(14)

27

②

最先端テクノロジーによる高密度実装

•

16

16 ギガ

ギガ

FLOPS

の高性能を

1

1 チップで実現

チップで実現

•

90

90 ナノメートル（

ナノメートル（

nm

）銅配線技術を用いた超高速、高集積

CMOS LSI

•

• ノードを

ノードを

1

1 モジュール化、

モジュール化、

128

128 ギガ

ギガ

FLOPS

／ノード

（２倍：

SX

-

6

6 比）

比）

①

最大６５テラＦＬＯＰＳの世界最高ベクトル性能

•

• 最大

最大

512

512 ノード、

ノード、

4,096CPU

の大規模構成

（４倍：

SX

-

6

6 比）

比）

•

64

64 ﾃﾗﾊﾞｲﾄの大容量ﾒﾓﾘと

ﾃﾗﾊﾞｲﾄの大容量ﾒﾓﾘと

262

262 ﾃﾗﾊﾞｲﾄ／秒のﾒﾓﾘﾃﾞｰﾀ転送性能

ﾃﾗﾊﾞｲﾄ／秒のﾒﾓﾘﾃﾞｰﾀ転送性能

（８

倍：倍：

SX

-

6

6 比）

比）

•

8

8 テラバイト／秒の総合ノード間データ転送能力

テラバイト／秒の総合ノード間データ転送能力

（８倍：

SX

-

6

6 比

比

）

③

大規模マルチノード対応のソフトウェア環境と多彩なＡＰ

•

• 従来の

従来の

SX

シリーズで実績のある標準

UNIX

オペレーティングシステム

SUPER

-

UX

の

I/O

処理強化、

MPI

強化でスケーラビリティをさらに拡大

•

• SX

SX

シリーズ向けに高度にチューニングされた豊富なアプリケーションソフト

ウェアをそのまま利用可能

ＳＸ

-

８

８ の特長

の特長

28

ＳＸ

-

８

８ アーキテクチャ

アーキテクチャ

•

• SX

SX

-

6/SX

-

7

7 との上位互換

との上位互換

•

• ベクトルパイプライン

ベクトルパイプライン

--

4

4 論理演算パイプライン

論理演算パイプライン

--

144KB

ベクトルレジスタ

--

SQRT

命令のハードウェアサポート

•

• スカラプロセッサ

スカラプロセッサ

--

4way

スーパースカラ

RISC

•

• 主記憶

主記憶

--

2

2 種の

種の

RAM

をサポート

DDR2 DDR2--SDRAM: SDRAM: 大容量大容量 128GB/128GB/ノードノード FCRAM FCRAM : : 高速高速 64GB/64GB/ノードノード

•

• マルチノードシステム

マルチノードシステム

--

最大

512

512 ノード

ノード

--

65 TFLOPS

•

• I/O

I/O

処理強化

--

ダイレクト

CPU

制御

XMU SHA R ED M A IN M E MOR Y Scalar Registers 4-Wide Vector Unit

Input/Output sub system

Scalar Unit Scalar Execution unit Vector Registers Cache Memory Load/ Store

Mask Reg. Mask

Logical

Multiply Add/Shift

Divide /SQRT

Central Processing Unit

Inter-node connection NEW NEW NEW NEW NEW NEW

(15)

29

シングルノードシステム

•

• 最大

最大

8 CPU/

ノード

--

最大ベクトル性能

(PVP):

16 GFLOPS/CPU

128

128 G

G

FLOPS/

ノード

•

• Symmetric Multi Processing

Symmetric Multi Processing

(SMP)

•

• 大容量メモリ

大容量メモリ

--

最大

128GB

•

• 高メモリバンド幅

高メモリバンド幅

--

CPU

当たり

64GB/s

--

ノード総合

512GB/s

•

• 高

高

I/O

_I/O

スループット

--

ノード総合

12.8GB/s

éÂãLâØ I/O MM •••• I/O I/O

....

CPU CPU CPU

to IXS

30

① ノード単体性能

② 結合可能ノードﾞ数

③ ﾉｰﾄﾞ間

ﾃﾞｰﾀ転送性能

マルチノードシステム

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU IOF IOF

CPU CPU CPU

ノード#0 IOF

....

最大8CPU éÂãLâØMMU IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU IOF IOF

CPU CPU CPU

IOF

....

高速ノード間スイッチ

(IXS)

最も高性能な、単段、

Non-blocking方式採用

高性能ノード、大規模マルチノード構成、超高速ノード間結合により

大規模計算を高速に処理

高性能ノード、大規模マルチノード構成、超高速ノード間結合により

大規模計算を高速に処理

#3 #1 #2 #4 #5 #6 #7 ノード#511 IOF IOF

最大8ﾃﾗﾊﾞｲﾄ/秒

（総合ﾃﾞｰﾀ転送能力）

最大512ノード

最大128ギガFLOPS

32GB／秒／ノード 128ギガFLOPS

最大512ノード

128ギガFLOPS 最大8ﾃﾗﾊﾞｲﾄ/秒

高性能のノード

性能向上のポイント

2倍

(SX-6比)

4倍

(SX-6比)

8倍

(SX-6比) 光インタフェース接続

(16)

31

高性能・高集積・最先端ＬＳＩ

1.2mm 100m 100m

微細配線

1mm

□□

_に

₃₀

_ピン

15 15インチインチUXGA UXGA (1,600x1,200 (1,600x1,200ﾋﾟｸｾﾙﾋﾟｸｾﾙ) ) 液晶ディスプレイの画素液晶ディスプレイの画素とほぼ同じ密度とほぼ同じ密度

高密度実装

1mm 1mm

LSI(20mm

□

₎

最先端半導体技術により１ﾁｯﾌﾟで圧倒的な

CPU

性能を実現

90nmプロセス 9層Cu配線 90nmプロセス 9層Cu配線 外部入出力ピン Φ0.1mm, 8,000ピン 外部入出力ピン Φ0.1mm, 8,000ピン 0.6mm --野球場野球場99面面 --線幅線幅0.6mm0.6mm --1.2mm1.2mmピッチピッチ --総配線長総配線長1700km1700km LSI LSI

が野球場の

大きさになったら

333本 髪の毛の太さ髪の毛の太さ 80μ m m 32

高密度実装

ノードモジュール

高度な実装技術により１ノードをコンパクトに実現

SX-8

SX

-

8

8 64GFLOPS

128GFLOPS

体積／性能

１／５

CPU メモリモジュール

• 高速信号対応高密度・高多層プリント配線板

ノード内ケーブル接続→ボード接続化によるコンパクト化

• LSIの低消費電力化と高効率冷却設計により実装密度を向上

• 高速信号対応高密度・高多層プリント配線板

ノード内ケーブル接続→ボード接続化によるコンパクト化

• LSIの低消費電力化と高効率冷却設計により実装密度を向上

SX-6

SX

-

6

(17)

33

CPU

＆メモリ

CPUモジュール CPUモジュール（裏面）

メモリモジュール

34

設置性の改善

（

1TFOPS

で

SX

-

6

6 と比較）

と比較）

SX-6（16ノード）

SX-8（8ノード）

設置面積

*

48.0m

2 13.0m

2 SX-6（16ノード）

SX-8（8ノード）

設置面積

*

48.0m

2 13.0m

2

4.8m 10m

約

1/4

へ

SX

-

6

16

16 ノード

ノード

(1TFLOPS)

* *保守エリアを含む保守エリアを含む 3.3m 1.7m 保守エリア 4.6m 0.8m

コンパクト実装技術により設置性を大幅に改善

設置スペース効率を

大幅に改善

SX

-

8

8 ノード

ノード

(18)

35

シングルノードの設置諸元比較

1998年

2001年

2002年

2004年

SX-5

SX-6

SX-7

SX-8

外形寸法

（ W x D x H） (mm)

6320x3200

x1800

1000x1100

x1800

3900x2850

x1800

825x800

x1800

設置面積

(含保守エリア）

30.4m

2

3m

2

17.4m

2

2.5m

2

重量

6950kg

730kg

4340kg

約 570kg

消費電力

90KVA

7KVA

26KVA

約 9KVA

冷却方式

空冷

SX-5

SX-6

SX-7

SX-8

外形寸法

（ W x D x H） (mm)

6320x3200

x1800

1000x1100

x1800

3900x2850

x1800

825x800

x1800

設置面積

(含保守エリア）

30.4m

2

3m

2

17.4m

2

2.5m

2

重量

6950kg

730kg

4340kg

約 570kg

消費電力

90KVA

7KVA

26KVA

約 9KVA

冷却方式

空冷

128GF

128GB

282GF

256GB

128GF

128GB

64GF

64GB

36

設置面積比較

SX-5/16A

(128GF/128GB)

SX-8

8nodes

(1TF/1TB)

SX-7/32

(282GF/256GB)

2,850mm 800mm 3,9 00m m 保守エリア保守エリア保守エリア保守エリア 800mm 保守エリア 4,450mm 3,2 00m m 保守エリア 63 20m m 53 80m m 4.800mm 3200mm 保守エリア保守エリア保守エリア

30.4m

2

_17.4m

2

13m

2 保守エリア保守エリア 1700mm 800mm 800mm 30 00m m 46 00m m 80 0 mm 3300mm 80 0 mm

(19)

37

設置性と低消費電力

（スカラとの比較）

1

0.33

0.33 スカラ

SX-8

1

0.58

0.58 SX

SX

-

8

8 実効性能当り

設置面積（相対値）

実効性能当り

消費電力（相対値）

スカラ

実効性能当りの省スペース/低消費電力で

スカラシステムを凌駕

実効性能当りの省スペース

/

低消費電力で

スカラシステムを凌駕

38

SX

-

8

8 の特長（１）

の特長（１）

• ベクトル平方根演算器

– 2GF（倍精度）/CPU、4GF（単精度）/CPU

– ベクトル除算パイプラインと兼用

• メモリバンクキャッシュ

– 容量 : 32KB/CPU

① リストベクトルの同一アドレス参照に対する

Bankビジー時間の短縮

② 上記プログラムの多重実行時のBank競合の低減

• 複素数データ（２要素飛び）アクセス性能の改善

連続アクセス並の性能

（２要素飛び以外の偶数飛びも改善されます）

性能向上ポイント性能向上ポイント

(20)

39

メモリバンクキャッシュ

(MBC)

_(MBC)

の効果例

∼同一アドレスアクセス多発ジョブの多重実行∼

0 5000 10000 15000 20000 25000 SX-6 SX-8 SX-6 SX-8 SX-6 SX-8 [sec] 単体実行多重実行単体実行多重実行単体実行多重実行単体実行多重実行単体実行多重実行単体実行多重実行 26%性能低下 26%性能低下 21%性能低下 5%低下 4%低下 6%低下性能比_2.2倍性能比_2.2倍性能比_2.1倍単体実行時のSX-6とSX-8の性能比は２倍以上になっており、MBCの効果あり。更に、多重実行時のSX-8の性能低下は小さく、多重実行時にもMBCが効いている

実

行

時

間

40

複素数データアクセス強化の効果例

NPB/FT

ベンチマーク

Class C (ASIS

版

)

0 20 40 60 80 100 120 140 160 180 SX-6 SX-8（DDR2） [SEC] 1CPU 1CPU

2.76倍

複素数データアクセス

強化の効果

(21)

41

SX

-

8

8 の特長

の特長

（２）

•2種類の主記憶RAMのサポート

–DDR2-SDRAM

特性：ハイエンドサーバで使用される標準的なメモリ容量： 1ノード当たり最大128GB

–FCRAM (Network FCRAM)

特性：高速なランダムアクセスタイム（DDR2比約１／３倍）容量： 1ノード当たり最大64GB

•新規I/Oアーキテクチャの採用

–CPUの直接I/O命令制御による性能改善

小データサイズのI/O性能の向上

•標準I/Oインタフェースをサポート

–ノードあたりトータル12.8GB/S

–PCI-Xバス

1GB/s +(64bit-133MHz)

•１０／１００／ＧｂＥＴＨＥＲ

•2Gb-FC

•Ultra320-SCSI

42

LINPACK 100

0 500 1000 1500 2000 2500 GS1280 (1.3GHz) Opteron (2.192GHz) Pentium4 (3.06GHz) p655 (1.7GHz) rx2600 (1.5GHz) Altix3000 (1.5GHz) hpcLine (Xeon3.2GHz) VPP5000 (3.33GHz) SX-3/14R SX-4/1C SX-4/1A SX-5 SX-6 SX-7 ES SX-8(DDR2)

[MFLOPS] 出典：August 29,2004 Dongarra report

2025 1339 1000 1289 856 467 578 368 1156 1679 1659 1635 1486 1414 1253 1122 SX-8(FCRAM) 2175

シングル

CPU

世界最速

(22)

43

LINPACK TPP

出典：August 29,2004 Dongarra report 0 2000 4000 6000 8000 10000 12000 14000 16000 GS1280 (1.3GHz) Opteron (2.192GHz) Pentium4 (3.06GHz) p655 (1.7GHz) rx2600 (1.5GHz) Altix3000 (1.5GHz) hpcLine (Xeon3.2GHz) VPP5000 (3.33GHz) SX-3/14R SX-4/1C SX-4/1A SX-5 SX-6 SX-7 ES SX-8(DDR2) [MFLOPS] 14910 7614 8283 7575 7280 1929 5199 8784 1944 3148 5400 5431 3884 2880 3145 2132 SX-8(FCRAM) 14960

ピーク性能に

対する

実効効率

93.5%

（

FCRAM

）

93.2%

（

DDR2

）

実効効率:57.1% 実効効率:90.0% 実効効率:90.5% 実効効率:49.2% 実効効率:47.1% 実効効率:71.7% 実効効率:82.0% 44

LINPACK TPP Scalability

0 10 20 30 40 50 60 70 80 0 2 4 6 8 10 12 14 16 18 [GFLOPS] Number of Processors SX-8(DDR2) SX-7 SX-5 SX-6 ES Fujitsu hpcLine[3.2GHz] IBM p655[1.7GHz] HP rx5670[1.5GHz] SX-8(FCRAM)

SX-6同様に良好なスケーラビリティを実現！！

1 All Rights Reserved, Copyright 2004, NEC Corporation 2 All Rights Reserved, Copyright 2004, NEC Corporation

ベクトル計算機の動向

２００４年１1月１０日

ＨＰＣの動向

最新Linpack TOP500

Capability

Capability

Computing

Computing

・

・

Goals

Goals

：

：

単一ジョブレベルでの実行性能

単一ジョブレベルでの実行性能

高速化（短

高速化（短

TAT

TAT

）

）

・大規模な重要問題

・大規模な重要問題

-

-

Challenging

Challenging

--

従来型のスカラシステムには不向き

従来型のスカラシステムには不向き

・強力なプロセッサによる

・強力なプロセッサによる

SMP

SMP

が最適

が最適

Capacity Computing

Capacity Computing

と

と

Capability Computing

Capability Computing

Capacity

Capacity

Computing

Computing

・

・

Goals

Goals

：

：

ワークロードとスループット

ワークロードとスループット

単一ジョブの実行性能は二次的

単一ジョブの実行性能は二次的

・多数の小規模問題

・多数の小規模問題

-

-

Not challenging

Not challenging

・マイクロプロセッサベースの並列機や

・マイクロプロセッサベースの並列機や

スカラクラスタ

スカラクラスタ

…

Vector / SX

PC Cluster / Blade Server

Capability Computing

Capability Computing

∼実効性能向上を目指して∼

∼実効性能向上を目指して∼

Capability Computingに必要なもの

Capability Computing

Capability Computingに必要なもの

に必要なもの

•

_CPU