• 検索結果がありません。

1 All Rights Reserved, Copyright 2004, NEC Corporation 2 All Rights Reserved, Copyright 2004, NEC Corporation

N/A
N/A
Protected

Academic year: 2021

シェア "1 All Rights Reserved, Copyright 2004, NEC Corporation 2 All Rights Reserved, Copyright 2004, NEC Corporation"

Copied!
22
0
0

読み込み中.... (全文を見る)

全文

(1)

1

All Rights Reserved, Copyright 2004, NEC Corporation

ベクトル計算機の動向

2004年11月10日

2

All Rights Reserved, Copyright 2004, NEC Corporation

HPCの動向

(2)

3

All Rights Reserved, Copyright 2004, NEC Corporation

最新Linpack TOP500

LINPACK Performance 0 10000 20000 30000 40000 50000 60000 2001 2002 2003 2004 2005 2006 Rmax Yea r TOP500 (2004 年 11 月分) Columbia BlueGene/L DD3 TIGER 4 ASCI Q 地球SIM BlueGene/L DD1 BlueGene BlueGene/L /L DD2 DD2 LINPACK LINPACKは並列化が比較的容易では並列化が比較的容易でPCPCクラスタやクラスタや Blue Gene/L Blue Gene/L等でも性能が出せるようになっているが等でも性能が出せるようになっているが 実アプリの実効性能と乖離してきており 実アプリの実効性能と乖離してきておりHPCHPCベンチベンチ マークプログラムとして見直しの動きあり。 マークプログラムとして見直しの動きあり。 4

All Rights Reserved, Copyright 2004, NEC Corporation

Capability

Capability

Computing

Computing

Goals

Goals

単一ジョブレベルでの実行性能

単一ジョブレベルでの実行性能

高速化(短

高速化(短

TAT

TAT

・大規模な重要問題

・大規模な重要問題

-

-

Challenging

Challenging

--

従来型のスカラシステムには不向き

従来型のスカラシステムには不向き

・強力なプロセッサによる

・強力なプロセッサによる

SMP

SMP

が最適

が最適

Capacity Computing

Capacity Computing

Capability Computing

Capability Computing

Capacity

Capacity

Computing

Computing

Goals

Goals

ワークロードとスループット

ワークロードとスループット

単一ジョブの実行性能は二次的

単一ジョブの実行性能は二次的

・多数の小規模問題

・多数の小規模問題

-

-

Not challenging

Not challenging

・マイクロプロセッサベースの並列機や

・マイクロプロセッサベースの並列機や

スカラクラスタ

スカラクラスタ

Vector / SX

PC Cluster / Blade Server

(3)

5

All Rights Reserved, Copyright 2004, NEC Corporation

0 200 400 600 800 1000 90 91 92 93 94 95 96 97 98 99 100

Capability Computing

Capability Computing

∼実効性能向上を目指して∼

∼実効性能向上を目指して∼

Capability Computingに必要なもの

Capability Computing

Capability Computingに必要なもの

に必要なもの

アムダールの法則

アムダールの法則

CPU

CPU

性能の向上

性能の向上

並列処理性能の向上

並列処理性能の向上

10GFLOPS/CPU x 100 CPUs 1GFLOPS/CPU x 1000 CPUs 96 99.6 並列度(%) 性能(GFLOPS)

実効性能向上のためには単一

実効性能向上のためには単一

CPU

CPU

の性能が大であることが重要

の性能が大であることが重要

最大性能の 最大性能の20%20%の処理性能を出すには、の処理性能を出すには、 --10GF10GFののCPU CPU xx100100台の場合台の場合ÎÎ96%96%の並列度の並列度 --1GF1GFののCPU CPU xx10001000台の場合台の場合ÎÎ99.6%99.6%の並列度の並列度 が必要。 が必要。

--

デバイス技術

デバイス技術

--

メモリ性能

メモリ性能

(バンド幅)

(バンド幅)

--

超高速

超高速

CPU

CPU

による高スケーラビリティ・高効率

による高スケーラビリティ・高効率

--

小規模並列

小規模並列

:高バンド幅共有メモリ

:高バンド幅共有メモリ

--

大規模並列

大規模並列

:高性能ノード間通信(

:高性能ノード間通信(

MPI

MPI

同期オーバヘッド短縮(高速同期機構)

同期オーバヘッド短縮(高速同期機構)

強い

強い

CPU

CPU

少ない並

少ない並

列処理の

列処理の

オーバーヘッド

オーバーヘッド

6

All Rights Reserved, Copyright 2004, NEC Corporation

最近のHPC動向

最近のHPC動向

„

COTSサーバ*への反省:

新しいコンセプトの追求が焦点

Î 米国はコモディティに頼ったHPC開発への反省から、新たな

アーキテクチャの開発を目指し、政府資金を積極投入

*COTSサーバ:Commercial-Off-The-Shelf (市販の部品を使用した)サーバ

„

ベクトル対スカラ:

対立するものではなく補完するもの

Î ベクトルとスカラを適材適所で利用/連携

„

Grid:

HPCを代替するものではなく、使い易くするもの

Î 実行するアプリケーションに適したシステム

(ベクトル機、スカラ機等)が自由に利用できる環境

„

„

COTSサーバ

COTSサーバ

*

*

への反省:

への反省:

新しいコンセプトの追求が焦点

新しいコンセプトの追求が焦点

Î

Î

米国はコモディティに頼ったHPC開発への反省から、新たな

アーキテクチャの開発を目指し、政府資金を積極投入

*COTSサーバ:Commercial-Off-The-Shelf (市販の部品を使用した)サーバ

„

„

ベクトル対スカラ:

ベクトル対スカラ:

対立するものではなく補完するもの

対立するものではなく補完するもの

Î

Î

ベクトルとスカラを適材適所で利用/連携

„

„

Grid:

Grid:

HPCを代替するものではなく、使い易くするもの

HPCを代替するものではなく、使い易くするもの

Î

Î

実行するアプリケーションに適したシステム

(ベクトル機、スカラ機等)が自由に利用できる環境

(4)

7

All Rights Reserved, Copyright 2004, NEC Corporation

ASCI Red

ASCI Blue Mountain ASCI Blue Pacific

ASCI White ASCI Q ASCI Red Storm Blue Planet 用途:科学一般 ASCI Purple BG/P BG/Q BG/L

米A

SC

Iフ

゚ロシ

゙ェク

ト(従

来)

ASCIの用途: 核兵器シミュレーション

米国超高速コンピュータ開発計画

米国超高速コンピュータ開発計画

100TFLOPS 100GFLOPS 1TFLOPS 10TFLOPS

IBM Blue Geneの汎用化 用途:高分子モデリング → 一般化

‘96

’98

‘00

‘02

’04

‘06

’08

地球シミュレータ対抗 ⇒ 米・新規計画 予定

実効性能

地球シミュレータ (2002) ピーク 40TF 実効 26.6TF Blue Planet (2006) ピーク 160TF 実効 40∼50TF 地球対抗で 実効性能強化 へ

地球シミュレータ

用途:気候変動・ 地殻変動解明

地球対抗で米国HPC開発も実効性能重視に計画を見直し

8

All Rights Reserved, Copyright 2004, NEC Corporation

(5)

9

All Rights Reserved, Copyright 2004, NEC Corporation

ベクトル型とスカラ型の違い

ベクトル型とスカラ型の違い

PCクラスタ、

スカラ型並列計算機

PCクラスタ、

PCクラスタ、

スカラ型並列計算機

スカラ型並列計算機

ベクトル型

並列計算機

ベクトル型

ベクトル型

並列計算機

並列計算機

一人乗りのエレベータ

エスカレータ

10

All Rights Reserved, Copyright 2004, NEC Corporation

ベクトル型とスカラ型

ベクトル型とスカラ型

スカラ処理向き

スカラ処理向き

アプリケーション領域

アプリケーション領域

ベクトル処理向き

ベクトル処理向き

アプリケーション領域

アプリケーション領域

ベクトル型

ベクトル型

スカラ型

スカラ型

キャッシュ サイズ限界

性能

構造解析

構造解析

構造解析

物質・化学

物質・化学

物質・化学

衝突解析

衝突解析

衝突解析

流体解析

流体解析

流体解析

気象・気候

気象・気候

気象・気候

大容量データの超高速計算では、ベクトル型が圧倒的に優位

Î大規模シミュレーション分野にはベクトル型は必須

大容量データの超高速計算では、ベクトル型が圧倒的に優位

Î

大規模シミュレーション分野にはベクトル型は必須

データ量がキャッシュサイ ズを上回るとデータが キャッシュからあふれ、 性能が大幅低下 メモリから直接、大規模 データをまとめてベクトル 演算器に供給

データ サイズ

(6)

11

All Rights Reserved, Copyright 2004, NEC Corporation

HPCのタイプとアプリケーションの適合性

HPCのタイプとアプリケーションの適合性

■ ベクトル型は、大データ規模・大演算量の計算に強み

■ スカラ型は、小演算量の計算に強み

−大演算量計算では、CPU間のデータのやり取りが増え、並列化のスケーラビリティに限界

■ ベクトル型は、大データ規模・大演算量の計算に強み

■ スカラ型は、小演算量の計算に強み

−大演算量計算では、CPU間のデータのやり取りが増え、並列化のスケーラビリティに限界 メモリバンド幅 デー タ規模 構造 大 少 小 大 スカラ計算 スカラ計算 ベクトル計算 ベクトル計算 ゲノム解析 化学 気象 流体 衝突 電磁波 12

All Rights Reserved, Copyright 2004, NEC Corporation

①強力な単体プロセッサ性能

単一CPU性能でスカラプロセッサ

を凌駕。

②太いメモリバンド幅

CPU性能にバランスしたメモリバン

ド幅で、高スケーラビィティのノード

性能を実現。

③強力なノード間スイッチ

ノード当り必要十分な高速データ

転送性能と、等距離で競合の少な

い大規模単段クロスバースイッチ

Processor数 SGI Altix X1

STREAM( triad) シングルCPUメモリバンド幅

1 10 100 1000 STRIDE [B y te s /s ] 100G 10G 1G 100M 10M 1M IBM p690 (Power4) SX-6 メ モ リ バ ン ド 幅 連続アクセス で50倍以上 の差 多次元配列の飛 びアクセスになる と100倍以上の差 SX SX--88

ベクトルアーキテクチャ(SX)の強み

10 20 30 40 50 60 70 80 90 100

Simulation Years per Day

CPU台数 1 2 4 8 16 32 64 128 256 Earth Simulator IBM p690 cluster HP AlphaServer SC SGI Origin3000 IBM SP (NH II) IBM SP (WH II) 実効性能(海洋大循環シミュレーション (POP))

(7)

13

All Rights Reserved, Copyright 2004, NEC Corporation

CPU性能(8CPU)

メモリデータ転送性能

メモリアクセス性能

ベクトル型はなぜ速い?

ベクトル型はなぜ速い?

(圧倒的なメモリ性能)

(圧倒的なメモリ性能)

ベクトル型

コンピュータ

主記憶 (メモリ) ベクトル レジスタ 演算器

スカラ型

コンピュータ

主記憶 (メモリ) キャッシュ メモリ スカラ レジスタ 演算器

2.5

2.5

20

20

20

20

25.6GB/秒

25.6GB/秒

512GB/秒

512GB/秒

51.2GFLOPS

51.2GFLOPS

128GFLOPS

128GFLOPS

CPU性能に比 してメモリ性能が 大きく劣る 巨大なメモリデー タ転送能力が 実効性能を引 き上げる

CPU性能とバランスのとれたメモリ性能の実現が、実効性能を引き上げるポイント

14

All Rights Reserved, Copyright 2004, NEC Corporation

0

50

100

150

200

250

0

50

100

150

200

250

300

STREAM COPY

SX-6

SV1ex Origin3000 Sun Fire 15K p690 superdome ES45 ベクトルマシン スカラマシン (キャッシュベースマシン) 高い実効性能を支える高メモリバンド幅 (高いプロセッサ性能とバランスのとれたメモリバンド幅) 出典 : http://www.cs.virginia.edu/stream/ 2003.7.13 ES80 Altix3000

実効メモリバ

ド幅

(GB/s

理論ピーク性能(GFLOPS)

(8)

15

All Rights Reserved, Copyright 2004, NEC Corporation

SX-6(1CPU)

p690(1CPU)

100 1000 10000 1e+05 1e+06 1e+07 1e+08

データサイズ

1

実効メ

モリバンド幅(GB/

s)

10 100

STREAM2 COPY : a(i)=b(i)

SXのベクトルプロセッサ 高いパフォーマンスを維持 キャッシュベースシステム(汎用マイクロプロセッサなど) キャッシュ容量を超える演算では 実効性能低下 16

All Rights Reserved, Copyright 2004, NEC Corporation

ベクトル型はなぜ速い?

ベクトル型はなぜ速い?

(ノード間通信性能)

(ノード間通信性能)

ベクトル型

コンピュータ

スカラ型

コンピュータ

ノード性能に比して、

ノード間データ転送性能

が大きく劣る。

大規模では多段ス

イッチ構成

巨大なノード間データ転

送能力が並列処理性

能を引き上げる

SXでは単段のクロス

バスイッチ

超高速のノード間接続が並列処理性能向上のポイント

1GB/s

32GB/s

ノード ノード ノード ノード ノード間 ノード間 スイッチ スイッチ ノード間接続 ノード間接続 装置 装置(IXS)(IXS) (*QsNetIIの場合)

32倍

(9)

17

All Rights Reserved, Copyright 2004, NEC Corporation

ベクトル型コンピュータの性能(気候)

ベクトル型コンピュータの性能(気候)

SX-8(50CPU)は海洋シミュレーション

コードにより、

1日に100年分の現象を

シミュレーション可能。

同等

CPU数のスカラ機では、1日に15年

分のシミュレーションが限度。

SX

SX

-

-

8

8

50CPU

50CPU

)は海洋シミュレーション

)は海洋シミュレーション

コードにより、

コードにより、

1

1

日に

日に

100

100

年分の現象を

年分の現象を

シミュレーション可能。

シミュレーション可能。

同等

同等

CPU

CPU

数のスカラ機では、

数のスカラ機では、

1

1

日に

日に

15

15

分のシミュレーションが限度。

分のシミュレーションが限度。

海水面温度の計算を、NEC RVSLIBで可視化

気候アプリケーション

気候アプリケーション

(海洋大循環モデル)

(海洋大循環モデル)

10 20 30 40 50 60 70 80 90 100 1 日でシミュレーションでき る年数 プロセッサ数 1 2 4 8 16 32 64 128 256 512 SX-8 110 120 130 140 150 160

6∼10倍

(注)SX-8は推定値 スカラシステム 18

All Rights Reserved, Copyright 2004, NEC Corporation

(10)

19

All Rights Reserved, Copyright 2004, NEC Corporation

1998

1998

2001

2001

SX SX--55

①HPCをリードする

実績と安心の将来性

②優れたアーキテクチャの

継承と高実効性能

③洗練と充実の

サポート

最新テクノロジ採用の継続により HPC市場ニーズにマッチする プライスパフォーマンスを実現した SXシリーズを提供します。 ユーザ資産を最大限に保証する 互換性・移行性を守ります。 また、並列ベクトルマシンによる 高実効性能が引き継がれます。 蓄積されたHPC技術に基づく サポート・サービスを提供できます。 また、業界標準規格に準拠した 使い易いソフトウェア開発環境も サポートしています。

SXシリーズの発展と開発思想

HPC市場ニーズにマッチした開発トレンド及び強化・開発サイクル

HPC市場ニーズにマッチした開発トレンド及び強化・開発サイクル

出荷年

ハイエンドユーザのニーズに応え、最新のテクノロジを

ハイエンドユーザのニーズに応え、最新のテクノロジを

一貫したアーキテクチャ

一貫したアーキテクチャ

に適用

に適用

2002

2002

SXシリーズ製品ロードマップ

SXシリーズ製品ロードマップ

SX SX--5f5f(強化)(強化)

2000

2000

SX SX--66 SXSX--77

2004

2004

SX SX--88

2003

2003

SX SX--66(強化)(強化) 演算性能 演算性能 主記憶容量 主記憶容量 主記憶バンド幅 主記憶バンド幅 128GF 128GF 128GB 128GB 1024GB/s 1024GB/s 160GF 160GF 128GB 128GB 640GB/s 640GB/s 64GF 64GF 64GB 64GB 256GB/s 256GB/s 282GF 282GF 256GB 256GB 1131GB/s 1131GB/s 72GF 72GF 128GB 128GB 289GB/s 289GB/s 128GF 128GF 64/128GB 64/128GB 512GB/s 512GB/s 20

All Rights Reserved, Copyright 2004, NEC Corporation

45.7cm 38.6cm CPU CPU

1985

1990

1995

2000

性能

性能

バイポーラ

バイポーラ

水冷

水冷

CMOS

CMOS

空冷

空冷

アーキテクチャ

アーキテクチャ

マルチノード

マルチノード

(>10

(>10

ノード

ノード

)

)

大規模クラスタ

大規模クラスタ

(>100

(>100

ノード

ノード

)

)

SXシリーズの進化

SXシリーズの進化

SX

SX

-

-

3

3

SX

SX

-

-

5

5

シングルノード

シングルノード

1GFLOPS

1GFLOPS

超え

超え

SX-6/7

SX-6/7

SX-2

SX-2

SX-4

SX-4

テクノロジー

テクノロジー

2cm 2cm 1 1 440 440

テクノロジとアーキテクチャ両面で

継続的にブレークスルーを達成

SX-8

SX-8

超大規模クラスタ

超大規模クラスタ

(>500

(>500

ノード

ノード

)

)

2005

1

1

モジュール

モジュール

ノード

ノード

1

1

チップ

チップ

ベクトルプロセッサ

ベクトルプロセッサ

価格性能比、設置面積、 価格性能比、設置面積、 消費電力を大幅改善 消費電力を大幅改善 世界 世界 最高性能 最高性能**

マルチ

マルチ

CPU

CPU

* 商用機で世界最高速 **ベクトル機で世界最高速

(11)

21

All Rights Reserved, Copyright 2004, NEC Corporation

8 CPU (128GFLOPS) 510m m 460 m m R C U MMU PKG×32 ZIF Conn-ector C P U

SX

SX

-

-

5

5

同軸布線 同軸布線BOXBOX カード実装カード実装 C P U R C A C P U C P U C P U C P U C P U C P U C P U 450mm 450mm Wire Box MM 1, 800 mm 800m m 800mm CP CPU MM 同軸布線筐体 同軸布線筐体 16 CPU (128GFLOPS) 8 CPU (64GFLOPS)

SX

SX

-

-

6

6

SX

SX

-

-

8

8

1chip CPU 1chip CPU カード化 カード化((ケーブルレスケーブルレス))

CPU peak 8GF(250MHz) 8GF(500M/1GHz) 16GF(2GHz) LSI process 0.25μm 0.15μm Cu 90nm Cu 20,000 20,000本本 32LSIs/CPU 32LSIs/CPU 200m m

超高密度高速実装技術

超高密度高速実装技術

最先端テクノロジで高性能を実現

最先端テクノロジで高性能を実現

22

All Rights Reserved, Copyright 2004, NEC Corporation

ベクトルプロセッサの1チップ化により、価格性能比、

設置性、消費電力を大幅に改善!

8 Wide Vector Pipe 16 Wide Vector Pipe 8 Wide Vector Pipe

Performance :2GFLOPS(8.0ns) :8GFLOPS(4.0ns)* :8GFLOPS(2.0ns) LSI :0.35µm CMOS :0.25µm CMOS :0.15µm CMOS

:37 Chips :32 Chips :1チップベクトルプロセッサ *2000年に10GFLOPS版発表 価格性能比:約2.5倍改善 (SX-4=1) 価格性能比:約2.5倍改善 (SX-4=1) 価格性能比:約7.5倍改善(SX-4=1) 価格性能比:約7.5倍改善 (SX-4=1) 1.8m 約6.4m 約6.9m 1.8m 約3.2m 約6.3m 1.8m 1.1m 1.0m SX-5/16A(128GFLOPS) 消費電力:約90VA SX-4/64M2(128GFLOPS) 消費電力:約180VA SX-6/16M2(128GFLOPS) 消費電力:約17.2VA 消費電力・床面積 1/2以下 消費電力・床面積 1/5以下

ベクトルプロセッサ

ベクトルプロセッサ

の進化

の進化

SX-4(1994年) SX-4(1994年) SX-5(1998年)SX-5(1998年) SX-6(2001年)SX-6(2001年) *2003年に9GFLOPS版発表

(12)

23

All Rights Reserved, Copyright 2004, NEC Corporation

スーパーコンピュータSXシリーズ

モデル

24

All Rights Reserved, Copyright 2004, NEC Corporation

SX

SX

-

-

8開発の狙い

8開発の狙い

ハイエンドコンピューティングを実現する

ハイエンドコンピューティングを実現する

超高性能HPCプラットフォームの提供

超高性能HPCプラットフォームの提供

„

„

優れたプライスパフォーマンス

優れたプライスパフォーマンス

„

„

TCO削減:

TCO削減:

省スペース

省スペース

低消費電力

低消費電力

„

„

高い実効性能のSXアーキテクチャ継承

高い実効性能のSXアーキテクチャ継承

マルチノードモデル SX-8/64M8 (1TFLOPS) シングルノードモデル SX-8/8A (128GFLOPS) シングルノードモデル SX-8/4B (64GFLOPS)

3倍以上

3倍以上

(SX

(SX

-

-

6

6

)

)

約4分の1

約4分の1

(

(

性能当りの

性能当りの

SX

SX

-

-

6

6

)

)

約2分の1

約2分の1

(

(

性能当りの

性能当りの

SX

SX

-

-

6

6

)

)

(13)

25

All Rights Reserved, Copyright 2004, NEC Corporation

1

1

-

-

4

4

CPU/

CPU/

16

16

-

-

64

64

GB

GB

メモリ

メモリ

シングルノード

シングルノード

A

A

タイプ

タイプ

4

4

-

-

8CPU/

8CPU/

32

32

-

-

128GB

128GB

メモリ

メモリ

16GFLOPS 16GFLOPS 64G 64GFLOPSFLOPS 128G 128GFLOPSFLOPS 65T 65TFLOPSFLOPS 最大ベクトル 最大ベクトル 性能 性能 拡張性 拡張性 ベクトルアーキテクチャ ベクトル処理では、1つの命令で一度にたくさん のデータを処理することができます。またその高 性能なCPU性能を十分に発揮させるための高い メモリデータ転送性能も特長の1つです。大規模 なデータで多くの演算を必要とするジョブを処理 するのに適しています。

モデル

モデル

SX

SX

-

-

シングルノード

シングルノード

B

B

タイプ

タイプ

マルチノードシステム

マルチノードシステム

8

8

-

-

4,096

4,096

CPU/

CPU/

64GB

64GB

-

-

64T

64T

B

B

メモリ

メモリ

ベクトルプロセッサ ベクトルプロセッサ 9 9世界最高速世界最高速11チップベクトルプロセッサ(チップベクトルプロセッサ(16GFLOPS16GFLOPS)) 9 9高い実効性能高い実効性能 9 9使い勝手のよい共有メモリ使い勝手のよい共有メモリ 9 9優れたコストパフォーマンスと設置性優れたコストパフォーマンスと設置性 9 9実績あるオペレーティングシステム実績あるオペレーティングシステム SUPER SUPER--UXUX

最大

最大

65TFLOPS

65TFLOPS

26

All Rights Reserved, Copyright 2004, NEC Corporation − 16Gバイト/秒×双方向(ノード当り) 最大データ転送速度 ノード間接続装置(IXS) 256Gバイト/秒 512Gバイト/秒 262Tバイト/秒 最大データ転送速度 16G∼64Gバイト 32G∼128Gバイト 64G∼64Tバイト 容 量 共有メモリ 共有・分散メモリ メモリアーキテクチャ 主記憶装置(MMU) (16GFLOPS/CPU) (16GFLOPS/CPU) (16GFLOPS/CPU) 16G∼64GFLOPS 64G∼128GFLOPS 128G∼65TFLOPS 最大ベクトル性能 1∼4台 4∼8台 8∼4,096台 CPU数 中央処理装置(CPU) SX−8/B SX−8/B SX−8/A SX−8/M 1ノード 2∼512ノード シングルノード マルチノード 仕 様 マルチノードモデル SX-8/64M8 (1TFLOPS) シングルノードモデル SX-8/8A (128GFLOPS) シングルノードモデル SX-8/4B (64GFLOPS)

SX

SX

-

-

8システム諸元

8システム諸元

(14)

27

All Rights Reserved, Copyright 2004, NEC Corporation

最先端テクノロジーによる高密度実装

最先端テクノロジーによる高密度実装

16

16

ギガ

ギガ

FLOPS

FLOPS

の高性能を

の高性能を

1

1

チップで実現

チップで実現

90

90

ナノメートル(

ナノメートル(

nm

nm

)銅配線技術を用いた超高速、高集積

)銅配線技術を用いた超高速、高集積

CMOS LSI

CMOS LSI

ノードを

ノードを

1

1

モジュール化、

モジュール化、

128

128

ギガ

ギガ

FLOPS

FLOPS

/ノード

/ノード

(2倍:

(2倍:

SX

SX

-

-

6

6

比)

比)

最大65テラFLOPSの世界最高ベクトル性能

最大65テラFLOPSの世界最高ベクトル性能

最大

最大

512

512

ノード、

ノード、

4,096CPU

4,096CPU

の大規模構成

の大規模構成

(4倍:

(4倍:

SX

SX

-

-

6

6

比)

比)

64

64

テラバイトの大容量メモリと

テラバイトの大容量メモリと

262

262

テラバイト/秒のメモリデータ転送性能

テラバイト/秒のメモリデータ転送性能

(8

(8

倍:倍:

SX

SX

-

-

6

6

比)

比)

8

8

テラバイト/秒の総合ノード間データ転送能力

テラバイト/秒の総合ノード間データ転送能力

(8倍:

(8倍:

SX

SX

-

-

6

6

大規模マルチノード対応のソフトウェア環境と多彩なAP

大規模マルチノード対応のソフトウェア環境と多彩なAP

従来の

従来の

SX

SX

シリーズで実績のある標準

シリーズで実績のある標準

UNIX

UNIX

オペレーティングシステム

オペレーティングシステム

SUPER

SUPER

-

-

UX

UX

I/O

I/O

処理強化、

処理強化、

MPI

MPI

強化でスケーラビリティをさらに拡大

強化でスケーラビリティをさらに拡大

SX

SX

シリーズ向けに高度にチューニングされた豊富なアプリケーションソフト

シリーズ向けに高度にチューニングされた豊富なアプリケーションソフト

ウェアをそのまま利用可能

ウェアをそのまま利用可能

SX

SX

-

-

の特長

の特長

28

All Rights Reserved, Copyright 2004, NEC Corporation

SX

SX

-

-

アーキテクチャ

アーキテクチャ

SX

SX

-

-

6/SX

6/SX

-

-

7

7

との上位互換

との上位互換

ベクトルパイプライン

ベクトルパイプライン

--

4

4

論理演算パイプライン

論理演算パイプライン

--

144KB

144KB

ベクトルレジスタ

ベクトルレジスタ

--

SQRT

SQRT

命令のハードウェアサポート

命令のハードウェアサポート

スカラプロセッサ

スカラプロセッサ

--

4way

4way

スーパースカラ

スーパースカラ

RISC

RISC

主記憶

主記憶

--

2

2

種の

種の

RAM

RAM

をサポート

をサポート

DDR2 DDR2--SDRAM: SDRAM: 大容量大容量 128GB/128GB/ノードノード FCRAM FCRAM : : 高速高速 64GB/64GB/ノードノード

マルチノードシステム

マルチノードシステム

--

最大

最大

512

512

ノード

ノード

--

65 TFLOPS

65 TFLOPS

I/O

I/O

処理強化

処理強化

--

ダイレクト

ダイレクト

CPU

CPU

制御

制御

XMU SHA R ED M A IN M E MOR Y Scalar Registers 4-Wide Vector Unit

Input/Output sub system

Scalar Unit Scalar Execution unit Vector Registers Cache Memory Load/ Store

Mask Reg. Mask

Logical

Multiply Add/Shift

Divide /SQRT

Central Processing Unit

Inter-node connection NEW NEW NEW NEW NEW NEW

(15)

29

All Rights Reserved, Copyright 2004, NEC Corporation

シングルノードシステム

シングルノードシステム

最大

最大

8 CPU/

8 CPU/

ノード

ノード

--

最大ベクトル性能

最大ベクトル性能

(PVP):

(PVP):

16 GFLOPS/CPU

16 GFLOPS/CPU

128

128

G

G

FLOPS/

FLOPS/

ノード

ノード

Symmetric Multi Processing

Symmetric Multi Processing

(SMP)

(SMP)

大容量メモリ

大容量メモリ

--

最大

最大

128GB

128GB

高メモリバンド幅

高メモリバンド幅

--

CPU

CPU

当たり

当たり

64GB/s

64GB/s

--

ノード総合

ノード総合

512GB/s

512GB/s

I/O

I/O

スループット

スループット

--

ノード総合

ノード総合

12.8GB/s

12.8GB/s

éÂãLâØ I/O MM •••• I/O I/O

....

CPU CPU CPU

to IXS

30

All Rights Reserved, Copyright 2004, NEC Corporation

① ノード単体性能

② 結合可能ノード゙数

③ ノード間

データ転送性能

マルチノードシステム

マルチノードシステム

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU

IOF IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU IOF IOF

CPU CPU CPU

ノード#0 IOF

....

最大8CPU éÂãLâØMMU IOF IOF C P U C P U C P U ノード#0 IOF

....

最大8CPU éÂãLâØMMU IOF IOF

CPU CPU CPU

IOF

....

高速ノード間スイッチ

高速ノード間スイッチ

(IXS)

(IXS)

最も高性能な、単段、

Non-blocking方式採用

高性能ノード、大規模マルチノード構成、超高速ノード間結合により

大規模計算を高速に処理

高性能ノード、大規模マルチノード構成、超高速ノード間結合により

大規模計算を高速に処理

#3 #1 #2 #4 #5 #6 #7 ノード#511 IOF IOF

最大8テラバイト/秒

(総合データ転送能力)

最大512ノード

最大128ギガFLOPS

32GB/秒/ノード 128ギガFLOPS

最大512ノード

128ギガFLOPS 最大8テラバイト/秒

高性能のノード

性能向上のポイント

2倍

(SX-6比)

4倍

(SX-6比)

8倍

(SX-6比) 光インタフェース接続

(16)

31

All Rights Reserved, Copyright 2004, NEC Corporation

高性能・高集積・最先端LSI

高性能・高集積・最先端LSI

1.2mm 100m 100m

微細配線

微細配線

1mm

1mm

□□

30

30

ピン

ピン

15 15インチインチUXGA UXGA (1,600x1,200 (1,600x1,200ピクセルピクセル) ) 液晶ディスプレイの画素 液晶ディスプレイの画素 とほぼ同じ密度 とほぼ同じ密度

高密度実装

高密度実装

1mm 1mm

LSI(20mm

)

最先端半導体技術により1チップで圧倒的な

最先端半導体技術により1チップで圧倒的な

CPU

CPU

性能を実現

性能を実現

90nmプロセス 9層Cu配線 90nmプロセス 9層Cu配線 外部入出力ピン Φ0.1mm, 8,000ピン 外部入出力ピン Φ0.1mm, 8,000ピン 0.6mm --野球場野球場99面面 --線幅線幅0.6mm0.6mm --1.2mm1.2mmピッチピッチ --総配線長総配線長1700km1700km LSI LSI

が野球場の

が野球場の

大きさになったら

大きさになったら

333本 髪の毛の太さ 髪の毛の太さ 80μ m m 32

All Rights Reserved, Copyright 2004, NEC Corporation

高密度実装

高密度実装

ノードモジュール

ノードモジュール

高度な実装技術により1ノードをコンパクトに実現

高度な実装技術により1ノードをコンパクトに実現

SX-8

SX

SX

-

-

8

8

64GFLOPS

128GFLOPS

体積/性能

1/5

1/5

CPU メモリモジュール

• 高速信号対応 高密度・高多層プリント配線板

ノード内ケーブル接続→ボード接続化によるコンパクト化

• LSIの低消費電力化と高効率冷却設計により実装密度を向上

高速信号対応 高密度・高多層プリント配線板

ノード内ケーブル接続→ボード接続化によるコンパクト化

LSIの低消費電力化と高効率冷却設計により実装密度を向上

SX-6

SX

SX

-

-

6

6

(17)

33

All Rights Reserved, Copyright 2004, NEC Corporation

CPU

CPU

&メモリ

&メモリ

CPUモジュール CPUモジュール(裏面)

メモリモジュール

34

All Rights Reserved, Copyright 2004, NEC Corporation

設置性の改善

設置性の改善

1TFOPS

1TFOPS

SX

SX

-

-

6

6

と比較)

と比較)

SX-6(16ノード)

SX-8(8ノード)

設置面積

*

48.0m

2

13.0m

2

SX-6(16ノード)

SX-8(8ノード)

設置面積

*

48.0m

2

13.0m

2

4.8m 10m

1/4

1/4

SX

SX

-

-

6

6

16

16

ノード

ノード

(1TFLOPS)

(1TFLOPS)

(1TFLOPS)

(1TFLOPS)

* *保守エリアを含む保守エリアを含む 3.3m 1.7m 保守 エリア 4.6m 0.8m

コンパクト実装技術により設置性を大幅に改善

コンパクト実装技術により設置性を大幅に改善

設置スペース効率を

大幅に改善

SX

SX

-

-

8

8

8

8

ノード

ノード

(18)

35

All Rights Reserved, Copyright 2004, NEC Corporation

シングルノードの設置諸元比較

シングルノードの設置諸元比較

1998年

2001年

2002年

2004年

SX-5

SX-6

SX-7

SX-8

外 形 寸 法

( W x D x H) (mm)

6320x3200

x1800

1000x1100

x1800

3900x2850

x1800

825x800

x1800

設 置 面 積

(含 保 守 エ リア )

30.4m

2

3m

2

17.4m

2

2.5m

2

重 量

6950kg

730kg

4340kg

約 570kg

消 費 電 力

90KVA

7KVA

26KVA

約 9KVA

冷 却 方 式

空 冷

空 冷

空 冷

空 冷

SX-5

SX-6

SX-7

SX-8

外 形 寸 法

( W x D x H) (mm)

6320x3200

x1800

1000x1100

x1800

3900x2850

x1800

825x800

x1800

設 置 面 積

(含 保 守 エ リア )

30.4m

2

3m

2

17.4m

2

2.5m

2

重 量

6950kg

730kg

4340kg

約 570kg

消 費 電 力

90KVA

7KVA

26KVA

約 9KVA

冷 却 方 式

空 冷

空 冷

空 冷

空 冷

128GF

128GB

282GF

256GB

128GF

128GB

64GF

64GB

36

All Rights Reserved, Copyright 2004, NEC Corporation

設置面積比較

設置面積比較

SX-5/16A

(128GF/128GB)

SX-8

8nodes

(1TF/1TB)

SX-7/32

(282GF/256GB)

2,850mm 800mm 3,9 00m m 保守 エ リア 保守エリア 保守 エリア 保守 エリア 800mm 保守 エリア 4,450mm 3,2 00m m 保守 エリア 63 20m m 53 80m m 4.800mm 3200mm 保守 エリア 保守 エリア 保守 エリア

30.4m

2

17.4m

2

13m

2 保守 エリア 保守 エリア 1700mm 800mm 800mm 30 00m m 46 00m m 80 0 mm 3300mm 80 0 mm

(19)

37

All Rights Reserved, Copyright 2004, NEC Corporation

設置性と低消費電力

設置性と低消費電力

(スカラとの比較)

(スカラとの比較)

1

1

0.33

0.33

スカラ

SX-8

1

1

0.58

0.58

SX

SX

-

-

8

8

実効性能当り

設置面積(相対値)

実効性能当り

消費電力(相対値)

スカラ

„ 実効性能当りの省スペース/低消費電力で

スカラシステムを凌駕

„

„

実効性能当りの省スペース

実効性能当りの省スペース

/

/

低消費電力で

低消費電力で

スカラシステムを凌駕

スカラシステムを凌駕

38

All Rights Reserved, Copyright 2004, NEC Corporation

SX

SX

-

-

8

8

の特長(1)

の特長(1)

• ベクトル平方根演算器

– 2GF(倍精度)/CPU、4GF(単精度)/CPU

– ベクトル除算パイプラインと兼用

• メモリバンクキャッシュ

– 容量 : 32KB/CPU

① リストベクトルの同一アドレス参照に対する

Bankビジー時間の短縮

② 上記プログラムの多重実行時のBank競合の低減

• 複素数データ(2要素飛び)アクセス性能の改善

連続アクセス並の性能

(2要素飛び以外の偶数飛びも改善されます)

性能向上 ポイント 性能向上 ポイント

(20)

39

All Rights Reserved, Copyright 2004, NEC Corporation

メモリバンクキャッシュ

メモリバンクキャッシュ

(MBC)

(MBC)

の効果例

の効果例

∼同一アドレスアクセス多発ジョブの多重実行∼

0 5000 10000 15000 20000 25000 SX-6 SX-8 SX-6 SX-8 SX-6 SX-8 [sec] 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 26%性能低下 26%性能低下 21%性能低下 5%低下 4%低下 6%低下 性能比2.2倍 性能比2.2倍 性能比2.1倍 単体実行時のSX-6とSX-8の性能比は 2倍以上になっており、MBCの効果あり。 更に、多重実行時のSX-8の性能低下は 小さく、多重実行時にもMBCが効いている

40

All Rights Reserved, Copyright 2004, NEC Corporation

複素数データアクセス強化の効果例

複素数データアクセス強化の効果例

NPB/FT

NPB/FT

ベンチマーク

ベンチマーク

Class C (ASIS

Class C (ASIS

)

)

0 20 40 60 80 100 120 140 160 180 SX-6 SX-8(DDR2) [SEC] 1CPU 1CPU

2.76倍

複素数データアクセス

強化の効果

(21)

41

All Rights Reserved, Copyright 2004, NEC Corporation

SX

SX

-

-

8

8

の特長

の特長

(2)

(2)

•2種類の主記憶RAMのサポート

–DDR2-SDRAM

特性 : ハイエンドサーバで使用される標準的なメモリ 容量 : 1ノード当たり最大128GB

–FCRAM (Network FCRAM)

特性 : 高速なランダムアクセスタイム(DDR2比約1/3倍) 容量 : 1ノード当たり最大64GB

•新規I/Oアーキテクチャの採用

–CPUの直接I/O命令制御による性能改善

小データサイズのI/O性能の向上

•標準I/Oインタフェースをサポート

–ノードあたりトータル12.8GB/S

–PCI-Xバス

1GB/s +(64bit-133MHz)

•10/100/GbETHER

•2Gb-FC

•Ultra320-SCSI

42

All Rights Reserved, Copyright 2004, NEC Corporation

LINPACK 100

LINPACK 100

0 500 1000 1500 2000 2500 GS1280 (1.3GHz) Opteron (2.192GHz) Pentium4 (3.06GHz) p655 (1.7GHz) rx2600 (1.5GHz) Altix3000 (1.5GHz) hpcLine (Xeon3.2GHz) VPP5000 (3.33GHz) SX-3/14R SX-4/1C SX-4/1A SX-5 SX-6 SX-7 ES SX-8(DDR2)

[MFLOPS] 出典:August 29,2004 Dongarra report

2025 1339 1000 1289 856 467 578 368 1156 1679 1659 1635 1486 1414 1253 1122 SX-8(FCRAM) 2175

シングル

シングル

CPU

CPU

世界最速

世界最速

(22)

43

All Rights Reserved, Copyright 2004, NEC Corporation

LINPACK TPP

LINPACK TPP

出典:August 29,2004 Dongarra report 0 2000 4000 6000 8000 10000 12000 14000 16000 GS1280 (1.3GHz) Opteron (2.192GHz) Pentium4 (3.06GHz) p655 (1.7GHz) rx2600 (1.5GHz) Altix3000 (1.5GHz) hpcLine (Xeon3.2GHz) VPP5000 (3.33GHz) SX-3/14R SX-4/1C SX-4/1A SX-5 SX-6 SX-7 ES SX-8(DDR2) [MFLOPS] 14910 7614 8283 7575 7280 1929 5199 8784 1944 3148 5400 5431 3884 2880 3145 2132 SX-8(FCRAM) 14960

ピーク性能に

ピーク性能に

対する

対する

実効効率

実効効率

93.5%

93.5%

FCRAM

FCRAM

93.2%

93.2%

DDR2

DDR2

実効効率:57.1% 実効効率:90.0% 実効効率:90.5% 実効効率:49.2% 実効効率:47.1% 実効効率:71.7% 実効効率:82.0% 44

All Rights Reserved, Copyright 2004, NEC Corporation

LINPACK TPP Scalability

LINPACK TPP Scalability

0 10 20 30 40 50 60 70 80 0 2 4 6 8 10 12 14 16 18 [GFLOPS] Number of Processors SX-8(DDR2) SX-7 SX-5 SX-6 ES Fujitsu hpcLine[3.2GHz] IBM p655[1.7GHz] HP rx5670[1.5GHz] SX-8(FCRAM)

SX-6同様に良好なスケーラビリティを実現!!

参照

関連したドキュメント

サービスブランド 内容 特長 顧客企業

All Rights Reserved © 2016The Tokyo Electric Power Power Grid

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014. 貨物船以外 特殊船

サテライトコンパス 表示部.. FURUNO ELECTRIC CO., LTD. All Rights Reserved.. ECS コンソール内に AR ナビゲーション システム用の制御

Copyright(C) 2020 JETRO, Nagashima Ohno & Tsunematsu All rights reserved... a)

出所:香港BS & Food and Environmental Hygiene Department にもとづきジェトロ作成(2021年11月10日).. (A)

年度 2002 2003 2004 2005 2006 2007 2008. 件数 35 40 45 48 37

Copyright©2021 ITbook Holdings Co.,Ltd.. All