1
All Rights Reserved, Copyright 2004, NEC Corporation
ベクトル計算機の動向
2004年11月10日
2
All Rights Reserved, Copyright 2004, NEC Corporation
HPCの動向
3
All Rights Reserved, Copyright 2004, NEC Corporation
最新Linpack TOP500
LINPACK Performance 0 10000 20000 30000 40000 50000 60000 2001 2002 2003 2004 2005 2006 Rmax Yea r TOP500 (2004 年 11 月分) Columbia BlueGene/L DD3 TIGER 4 ASCI Q 地球SIM BlueGene/L DD1 BlueGene BlueGene/L /L DD2 DD2 LINPACK LINPACKは並列化が比較的容易では並列化が比較的容易でPCPCクラスタやクラスタや Blue Gene/L Blue Gene/L等でも性能が出せるようになっているが等でも性能が出せるようになっているが 実アプリの実効性能と乖離してきており 実アプリの実効性能と乖離してきておりHPCHPCベンチベンチ マークプログラムとして見直しの動きあり。 マークプログラムとして見直しの動きあり。 4All Rights Reserved, Copyright 2004, NEC Corporation
Capability
Capability
Computing
Computing
・
・
Goals
Goals
:
:
単一ジョブレベルでの実行性能
単一ジョブレベルでの実行性能
高速化(短
高速化(短
TAT
TAT
)
)
・大規模な重要問題
・大規模な重要問題
-
-
Challenging
Challenging
--
従来型のスカラシステムには不向き
従来型のスカラシステムには不向き
・強力なプロセッサによる
・強力なプロセッサによる
SMP
SMP
が最適
が最適
Capacity Computing
Capacity Computing
と
と
Capability Computing
Capability Computing
Capacity
Capacity
Computing
Computing
・
・
Goals
Goals
:
:
ワークロードとスループット
ワークロードとスループット
単一ジョブの実行性能は二次的
単一ジョブの実行性能は二次的
・多数の小規模問題
・多数の小規模問題
-
-
Not challenging
Not challenging
・マイクロプロセッサベースの並列機や
・マイクロプロセッサベースの並列機や
スカラクラスタ
スカラクラスタ
…
Vector / SX
PC Cluster / Blade Server
5
All Rights Reserved, Copyright 2004, NEC Corporation
0 200 400 600 800 1000 90 91 92 93 94 95 96 97 98 99 100
Capability Computing
Capability Computing
∼実効性能向上を目指して∼
∼実効性能向上を目指して∼
Capability Computingに必要なもの
Capability Computing
Capability Computingに必要なもの
に必要なもの
•
•
アムダールの法則
アムダールの法則
•
•
CPU
CPU
性能の向上
性能の向上
•
•
並列処理性能の向上
並列処理性能の向上
10GFLOPS/CPU x 100 CPUs 1GFLOPS/CPU x 1000 CPUs 96 99.6 並列度(%) 性能(GFLOPS)実効性能向上のためには単一
実効性能向上のためには単一
CPU
CPU
の性能が大であることが重要
の性能が大であることが重要
最大性能の 最大性能の20%20%の処理性能を出すには、の処理性能を出すには、 --10GF10GFののCPU CPU xx100100台の場合台の場合ÎÎ96%96%の並列度の並列度 --1GF1GFののCPU CPU xx10001000台の場合台の場合ÎÎ99.6%99.6%の並列度の並列度 が必要。 が必要。--
デバイス技術
デバイス技術
--
メモリ性能
メモリ性能
(バンド幅)
(バンド幅)
--
超高速
超高速
CPU
CPU
による高スケーラビリティ・高効率
による高スケーラビリティ・高効率
--
小規模並列
小規模並列
:高バンド幅共有メモリ
:高バンド幅共有メモリ
--
大規模並列
大規模並列
:高性能ノード間通信(
:高性能ノード間通信(
MPI
MPI
)
)
同期オーバヘッド短縮(高速同期機構)
同期オーバヘッド短縮(高速同期機構)
強い
強い
CPU
CPU
少ない並
少ない並
列処理の
列処理の
オーバーヘッド
オーバーヘッド
6All Rights Reserved, Copyright 2004, NEC Corporation
最近のHPC動向
最近のHPC動向
COTSサーバ*への反省:
新しいコンセプトの追求が焦点
Î 米国はコモディティに頼ったHPC開発への反省から、新たな
アーキテクチャの開発を目指し、政府資金を積極投入
*COTSサーバ:Commercial-Off-The-Shelf (市販の部品を使用した)サーバ
ベクトル対スカラ:
対立するものではなく補完するもの
Î ベクトルとスカラを適材適所で利用/連携
Grid:
HPCを代替するものではなく、使い易くするもの
Î 実行するアプリケーションに適したシステム
(ベクトル機、スカラ機等)が自由に利用できる環境
COTSサーバ
COTSサーバ
*
*
への反省:
への反省:
新しいコンセプトの追求が焦点
新しいコンセプトの追求が焦点
Î
Î
米国はコモディティに頼ったHPC開発への反省から、新たな
アーキテクチャの開発を目指し、政府資金を積極投入
*COTSサーバ:Commercial-Off-The-Shelf (市販の部品を使用した)サーバ
ベクトル対スカラ:
ベクトル対スカラ:
対立するものではなく補完するもの
対立するものではなく補完するもの
Î
Î
ベクトルとスカラを適材適所で利用/連携
Grid:
Grid:
HPCを代替するものではなく、使い易くするもの
HPCを代替するものではなく、使い易くするもの
Î
Î
実行するアプリケーションに適したシステム
(ベクトル機、スカラ機等)が自由に利用できる環境
7
All Rights Reserved, Copyright 2004, NEC Corporation
ASCI Red
ASCI Blue Mountain ASCI Blue Pacific
ASCI White ASCI Q ASCI Red Storm Blue Planet 用途:科学一般 ASCI Purple BG/P BG/Q BG/L
米A
SC
Iフ
゚ロシ
゙ェク
ト(従
来)
ASCIの用途: 核兵器シミュレーション米国超高速コンピュータ開発計画
米国超高速コンピュータ開発計画
100TFLOPS 100GFLOPS 1TFLOPS 10TFLOPSIBM Blue Geneの汎用化 用途:高分子モデリング → 一般化
‘96
’98
‘00
‘02
’04
‘06
’08
地球シミュレータ対抗 ⇒ 米・新規計画 予定実効性能
地球シミュレータ (2002) ピーク 40TF 実効 26.6TF Blue Planet (2006) ピーク 160TF 実効 40∼50TF 地球対抗で 実効性能強化 へ地球シミュレータ
用途:気候変動・ 地殻変動解明地球対抗で米国HPC開発も実効性能重視に計画を見直し
8All Rights Reserved, Copyright 2004, NEC Corporation
9
All Rights Reserved, Copyright 2004, NEC Corporation
ベクトル型とスカラ型の違い
ベクトル型とスカラ型の違い
PCクラスタ、
スカラ型並列計算機
PCクラスタ、
PCクラスタ、
スカラ型並列計算機
スカラ型並列計算機
ベクトル型
並列計算機
ベクトル型
ベクトル型
並列計算機
並列計算機
一人乗りのエレベータ
エスカレータ
10All Rights Reserved, Copyright 2004, NEC Corporation
ベクトル型とスカラ型
ベクトル型とスカラ型
スカラ処理向き
スカラ処理向き
アプリケーション領域
アプリケーション領域
ベクトル処理向き
ベクトル処理向き
アプリケーション領域
アプリケーション領域
ベクトル型
ベクトル型
スカラ型
スカラ型
キャッシュ サイズ限界性能
構造解析
構造解析
構造解析
物質・化学
物質・化学
物質・化学
衝突解析
衝突解析
衝突解析
流体解析
流体解析
流体解析
気象・気候
気象・気候
気象・気候
大容量データの超高速計算では、ベクトル型が圧倒的に優位
Î大規模シミュレーション分野にはベクトル型は必須
大容量データの超高速計算では、ベクトル型が圧倒的に優位
Î
大規模シミュレーション分野にはベクトル型は必須
データ量がキャッシュサイ ズを上回るとデータが キャッシュからあふれ、 性能が大幅低下 メモリから直接、大規模 データをまとめてベクトル 演算器に供給データ サイズ
11
All Rights Reserved, Copyright 2004, NEC Corporation
HPCのタイプとアプリケーションの適合性
HPCのタイプとアプリケーションの適合性
■ ベクトル型は、大データ規模・大演算量の計算に強み
■ スカラ型は、小演算量の計算に強み
−大演算量計算では、CPU間のデータのやり取りが増え、並列化のスケーラビリティに限界■ ベクトル型は、大データ規模・大演算量の計算に強み
■ スカラ型は、小演算量の計算に強み
−大演算量計算では、CPU間のデータのやり取りが増え、並列化のスケーラビリティに限界 メモリバンド幅 デー タ規模 構造 大 少 小 大 スカラ計算 スカラ計算 ベクトル計算 ベクトル計算 ゲノム解析 化学 気象 流体 衝突 電磁波 12All Rights Reserved, Copyright 2004, NEC Corporation
①強力な単体プロセッサ性能
単一CPU性能でスカラプロセッサ
を凌駕。
②太いメモリバンド幅
CPU性能にバランスしたメモリバン
ド幅で、高スケーラビィティのノード
性能を実現。
③強力なノード間スイッチ
ノード当り必要十分な高速データ
転送性能と、等距離で競合の少な
い大規模単段クロスバースイッチ
。
Processor数 SGI Altix X1STREAM( triad) シングルCPUメモリバンド幅
1 10 100 1000 STRIDE [B y te s /s ] 100G 10G 1G 100M 10M 1M IBM p690 (Power4) SX-6 メ モ リ バ ン ド 幅 連続アクセス で50倍以上 の差 多次元配列の飛 びアクセスになる と100倍以上の差 SX SX--88
ベクトルアーキテクチャ(SX)の強み
10 20 30 40 50 60 70 80 90 100Simulation Years per Day
CPU台数 1 2 4 8 16 32 64 128 256 Earth Simulator IBM p690 cluster HP AlphaServer SC SGI Origin3000 IBM SP (NH II) IBM SP (WH II) 実効性能(海洋大循環シミュレーション (POP))
4
∼
9
倍
13
All Rights Reserved, Copyright 2004, NEC Corporation
CPU性能(8CPU)
メモリデータ転送性能
メモリアクセス性能
ベクトル型はなぜ速い?
ベクトル型はなぜ速い?
(圧倒的なメモリ性能)
(圧倒的なメモリ性能)
ベクトル型
コンピュータ
主記憶 (メモリ) ベクトル レジスタ 演算器スカラ型
コンピュータ
主記憶 (メモリ) キャッシュ メモリ スカラ レジスタ 演算器2.5
2.5
倍
倍
20
20
倍
倍
20
20
倍
倍
25.6GB/秒
25.6GB/秒
512GB/秒
512GB/秒
51.2GFLOPS
51.2GFLOPS
128GFLOPS
128GFLOPS
CPU性能に比 してメモリ性能が 大きく劣る 巨大なメモリデー タ転送能力が 実効性能を引 き上げるCPU性能とバランスのとれたメモリ性能の実現が、実効性能を引き上げるポイント
14All Rights Reserved, Copyright 2004, NEC Corporation
0
50
100
150
200
250
0
50
100
150
200
250
300
STREAM COPY
SX-6
SV1ex Origin3000 Sun Fire 15K p690 superdome ES45 ベクトルマシン スカラマシン (キャッシュベースマシン) 高い実効性能を支える高メモリバンド幅 (高いプロセッサ性能とバランスのとれたメモリバンド幅) 出典 : http://www.cs.virginia.edu/stream/ 2003.7.13 ES80 Altix3000実効メモリバ
ン
ド幅
(GB/s
)
理論ピーク性能(GFLOPS)
15
All Rights Reserved, Copyright 2004, NEC Corporation
SX-6(1CPU)
p690(1CPU)
100 1000 10000 1e+05 1e+06 1e+07 1e+08
データサイズ
1実効メ
モリバンド幅(GB/
s)
10 100STREAM2 COPY : a(i)=b(i)
SXのベクトルプロセッサ 高いパフォーマンスを維持 キャッシュベースシステム(汎用マイクロプロセッサなど) キャッシュ容量を超える演算では 実効性能低下 16
All Rights Reserved, Copyright 2004, NEC Corporation
ベクトル型はなぜ速い?
ベクトル型はなぜ速い?
(ノード間通信性能)
(ノード間通信性能)
ベクトル型
コンピュータ
スカラ型
コンピュータ
ノード性能に比して、
ノード間データ転送性能
が大きく劣る。
大規模では多段ス
イッチ構成
巨大なノード間データ転
送能力が並列処理性
能を引き上げる
SXでは単段のクロス
バスイッチ
超高速のノード間接続が並列処理性能向上のポイント
1GB/s
32GB/s
ノード ノード ノード ノード ノード間 ノード間 スイッチ スイッチ ノード間接続 ノード間接続 装置 装置(IXS)(IXS) (*QsNetIIの場合)32倍
17
All Rights Reserved, Copyright 2004, NEC Corporation
ベクトル型コンピュータの性能(気候)
ベクトル型コンピュータの性能(気候)
SX-8(50CPU)は海洋シミュレーション
コードにより、
1日に100年分の現象を
シミュレーション可能。
同等
CPU数のスカラ機では、1日に15年
分のシミュレーションが限度。
SX
SX
-
-
8
8
(
(
50CPU
50CPU
)は海洋シミュレーション
)は海洋シミュレーション
コードにより、
コードにより、
1
1
日に
日に
100
100
年分の現象を
年分の現象を
シミュレーション可能。
シミュレーション可能。
同等
同等
CPU
CPU
数のスカラ機では、
数のスカラ機では、
1
1
日に
日に
15
15
年
年
分のシミュレーションが限度。
分のシミュレーションが限度。
海水面温度の計算を、NEC RVSLIBで可視化気候アプリケーション
気候アプリケーション
(海洋大循環モデル)
(海洋大循環モデル)
10 20 30 40 50 60 70 80 90 100 1 日でシミュレーションでき る年数 プロセッサ数 1 2 4 8 16 32 64 128 256 512 SX-8 110 120 130 140 150 1606∼10倍
(注)SX-8は推定値 スカラシステム 18All Rights Reserved, Copyright 2004, NEC Corporation
19
All Rights Reserved, Copyright 2004, NEC Corporation
1998
1998
2001
2001
SX SX--55①HPCをリードする
実績と安心の将来性
②優れたアーキテクチャの
継承と高実効性能
③洗練と充実の
サポート
最新テクノロジ採用の継続により HPC市場ニーズにマッチする プライスパフォーマンスを実現した SXシリーズを提供します。 ユーザ資産を最大限に保証する 互換性・移行性を守ります。 また、並列ベクトルマシンによる 高実効性能が引き継がれます。 蓄積されたHPC技術に基づく サポート・サービスを提供できます。 また、業界標準規格に準拠した 使い易いソフトウェア開発環境も サポートしています。SXシリーズの発展と開発思想
HPC市場ニーズにマッチした開発トレンド及び強化・開発サイクル
HPC市場ニーズにマッチした開発トレンド及び強化・開発サイクル
出荷年ハイエンドユーザのニーズに応え、最新のテクノロジを
ハイエンドユーザのニーズに応え、最新のテクノロジを
一貫したアーキテクチャ
一貫したアーキテクチャ
に適用
に適用
2002
2002
SXシリーズ製品ロードマップ
SXシリーズ製品ロードマップ
SX SX--5f5f(強化)(強化)2000
2000
SX SX--66 SXSX--772004
2004
SX SX--882003
2003
SX SX--66(強化)(強化) 演算性能 演算性能 主記憶容量 主記憶容量 主記憶バンド幅 主記憶バンド幅 128GF 128GF 128GB 128GB 1024GB/s 1024GB/s 160GF 160GF 128GB 128GB 640GB/s 640GB/s 64GF 64GF 64GB 64GB 256GB/s 256GB/s 282GF 282GF 256GB 256GB 1131GB/s 1131GB/s 72GF 72GF 128GB 128GB 289GB/s 289GB/s 128GF 128GF 64/128GB 64/128GB 512GB/s 512GB/s 20All Rights Reserved, Copyright 2004, NEC Corporation
45.7cm 38.6cm CPU CPU
1985
1990
1995
2000
性能
性能
バイポーラ
バイポーラ
水冷
水冷
CMOS
CMOS
空冷
空冷
アーキテクチャ
アーキテクチャ
マルチノード
マルチノード
(>10
(>10
ノード
ノード
)
)
大規模クラスタ
大規模クラスタ
(>100
(>100
ノード
ノード
)
)
SXシリーズの進化
SXシリーズの進化
SX
SX
-
-
3
3
SX
SX
-
-
5
5
シングルノード
シングルノード
1GFLOPS
1GFLOPS
超え
超え
SX-6/7
SX-6/7
SX-2
SX-2
SX-4
SX-4
テクノロジー
テクノロジー
2cm 2cm 1 1 440 440テクノロジとアーキテクチャ両面で
継続的にブレークスルーを達成
SX-8
SX-8
超大規模クラスタ
超大規模クラスタ
(>500
(>500
ノード
ノード
)
)
2005
1
1
モジュール
モジュール
ノード
ノード
1
1
チップ
チップ
ベクトルプロセッサ
ベクトルプロセッサ
価格性能比、設置面積、 価格性能比、設置面積、 消費電力を大幅改善 消費電力を大幅改善 世界 世界 最高性能 最高性能**マルチ
マルチ
CPU
CPU
* 商用機で世界最高速 **ベクトル機で世界最高速21
All Rights Reserved, Copyright 2004, NEC Corporation
8 CPU (128GFLOPS) 510m m 460 m m R C U MMU PKG×32 ZIF Conn-ector C P U
SX
SX
-
-
5
5
同軸布線 同軸布線BOXBOX カード実装カード実装 C P U R C A C P U C P U C P U C P U C P U C P U C P U 450mm 450mm Wire Box MM 1, 800 mm 800m m 800mm CP CPU MM 同軸布線筐体 同軸布線筐体 16 CPU (128GFLOPS) 8 CPU (64GFLOPS)SX
SX
-
-
6
6
SX
SX
-
-
8
8
1chip CPU 1chip CPU カード化 カード化((ケーブルレスケーブルレス))布
線
布
線
CPU peak 8GF(250MHz) 8GF(500M/1GHz) 16GF(2GHz) LSI process 0.25μm 0.15μm Cu 90nm Cu 20,000 20,000本本 32LSIs/CPU 32LSIs/CPU 200m m超高密度高速実装技術
超高密度高速実装技術
最先端テクノロジで高性能を実現
最先端テクノロジで高性能を実現
22All Rights Reserved, Copyright 2004, NEC Corporation
ベクトルプロセッサの1チップ化により、価格性能比、
設置性、消費電力を大幅に改善!
8 Wide Vector Pipe 16 Wide Vector Pipe 8 Wide Vector Pipe
Performance :2GFLOPS(8.0ns) :8GFLOPS(4.0ns)* :8GFLOPS(2.0ns) LSI :0.35µm CMOS :0.25µm CMOS :0.15µm CMOS
:37 Chips :32 Chips :1チップベクトルプロセッサ *2000年に10GFLOPS版発表 価格性能比:約2.5倍改善 (SX-4=1) 価格性能比:約2.5倍改善 (SX-4=1) 価格性能比:約7.5倍改善(SX-4=1) 価格性能比:約7.5倍改善 (SX-4=1) 1.8m 約6.4m 約6.9m 1.8m 約3.2m 約6.3m 1.8m 1.1m 1.0m SX-5/16A(128GFLOPS) 消費電力:約90VA SX-4/64M2(128GFLOPS) 消費電力:約180VA SX-6/16M2(128GFLOPS) 消費電力:約17.2VA 消費電力・床面積 1/2以下 消費電力・床面積 1/5以下
ベクトルプロセッサ
ベクトルプロセッサ
の進化
の進化
SX-4(1994年) SX-4(1994年) SX-5(1998年)SX-5(1998年) SX-6(2001年)SX-6(2001年) *2003年に9GFLOPS版発表23
All Rights Reserved, Copyright 2004, NEC Corporation
スーパーコンピュータSXシリーズ
モデル
24
All Rights Reserved, Copyright 2004, NEC Corporation
SX
SX
-
-
8開発の狙い
8開発の狙い
ハイエンドコンピューティングを実現する
ハイエンドコンピューティングを実現する
超高性能HPCプラットフォームの提供
超高性能HPCプラットフォームの提供
優れたプライスパフォーマンス
優れたプライスパフォーマンス
TCO削減:
TCO削減:
省スペース
省スペース
低消費電力
低消費電力
高い実効性能のSXアーキテクチャ継承
高い実効性能のSXアーキテクチャ継承
マルチノードモデル SX-8/64M8 (1TFLOPS) シングルノードモデル SX-8/8A (128GFLOPS) シングルノードモデル SX-8/4B (64GFLOPS)3倍以上
3倍以上
(SX
(SX
-
-
6
6
比
比
)
)
約4分の1
約4分の1
(
(
性能当りの
性能当りの
SX
SX
-
-
6
6
比
比
)
)
約2分の1
約2分の1
(
(
性能当りの
性能当りの
SX
SX
-
-
6
6
比
比
)
)
25
All Rights Reserved, Copyright 2004, NEC Corporation
1
1
-
-
4
4
CPU/
CPU/
16
16
-
-
64
64
GB
GB
メモリ
メモリ
シングルノード
シングルノード
A
A
タイプ
タイプ
4
4
-
-
8CPU/
8CPU/
32
32
-
-
128GB
128GB
メモリ
メモリ
16GFLOPS 16GFLOPS 64G 64GFLOPSFLOPS 128G 128GFLOPSFLOPS 65T 65TFLOPSFLOPS 最大ベクトル 最大ベクトル 性能 性能 拡張性 拡張性 ベクトルアーキテクチャ ベクトル処理では、1つの命令で一度にたくさん のデータを処理することができます。またその高 性能なCPU性能を十分に発揮させるための高い メモリデータ転送性能も特長の1つです。大規模 なデータで多くの演算を必要とするジョブを処理 するのに適しています。モデル
モデル
SX
SX
-
-
8
8
シングルノード
シングルノード
B
B
タイプ
タイプ
マルチノードシステム
マルチノードシステム
8
8
-
-
4,096
4,096
CPU/
CPU/
64GB
64GB
-
-
64T
64T
B
B
メモリ
メモリ
ベクトルプロセッサ ベクトルプロセッサ 9 9世界最高速世界最高速11チップベクトルプロセッサ(チップベクトルプロセッサ(16GFLOPS16GFLOPS)) 9 9高い実効性能高い実効性能 9 9使い勝手のよい共有メモリ使い勝手のよい共有メモリ 9 9優れたコストパフォーマンスと設置性優れたコストパフォーマンスと設置性 9 9実績あるオペレーティングシステム実績あるオペレーティングシステム SUPER SUPER--UXUX最大
最大
65TFLOPS
65TFLOPS
26All Rights Reserved, Copyright 2004, NEC Corporation − 16Gバイト/秒×双方向(ノード当り) 最大データ転送速度 ノード間接続装置(IXS) 256Gバイト/秒 512Gバイト/秒 262Tバイト/秒 最大データ転送速度 16G∼64Gバイト 32G∼128Gバイト 64G∼64Tバイト 容 量 共有メモリ 共有・分散メモリ メモリアーキテクチャ 主記憶装置(MMU) (16GFLOPS/CPU) (16GFLOPS/CPU) (16GFLOPS/CPU) 16G∼64GFLOPS 64G∼128GFLOPS 128G∼65TFLOPS 最大ベクトル性能 1∼4台 4∼8台 8∼4,096台 CPU数 中央処理装置(CPU) SX−8/B SX−8/B SX−8/A SX−8/M 1ノード 2∼512ノード シングルノード マルチノード 仕 様 マルチノードモデル SX-8/64M8 (1TFLOPS) シングルノードモデル SX-8/8A (128GFLOPS) シングルノードモデル SX-8/4B (64GFLOPS)
SX
SX
-
-
8システム諸元
8システム諸元
27
All Rights Reserved, Copyright 2004, NEC Corporation
②
②
最先端テクノロジーによる高密度実装
最先端テクノロジーによる高密度実装
•
•
16
16
ギガ
ギガ
FLOPS
FLOPS
の高性能を
の高性能を
1
1
チップで実現
チップで実現
•
•
90
90
ナノメートル(
ナノメートル(
nm
nm
)銅配線技術を用いた超高速、高集積
)銅配線技術を用いた超高速、高集積
CMOS LSI
CMOS LSI
•
•
ノードを
ノードを
1
1
モジュール化、
モジュール化、
128
128
ギガ
ギガ
FLOPS
FLOPS
/ノード
/ノード
(2倍:
(2倍:
SX
SX
-
-
6
6
比)
比)
①
①
最大65テラFLOPSの世界最高ベクトル性能
最大65テラFLOPSの世界最高ベクトル性能
•
•
最大
最大
512
512
ノード、
ノード、
4,096CPU
4,096CPU
の大規模構成
の大規模構成
(4倍:
(4倍:
SX
SX
-
-
6
6
比)
比)
•
•
64
64
テラバイトの大容量メモリと
テラバイトの大容量メモリと
262
262
テラバイト/秒のメモリデータ転送性能
テラバイト/秒のメモリデータ転送性能
(8
(8
倍:倍:SX
SX
-
-
6
6
比)
比)
•
•
8
8
テラバイト/秒の総合ノード間データ転送能力
テラバイト/秒の総合ノード間データ転送能力
(8倍:
(8倍:
SX
SX
-
-
6
6
比
比
)
)
③
③
大規模マルチノード対応のソフトウェア環境と多彩なAP
大規模マルチノード対応のソフトウェア環境と多彩なAP
•
•
従来の
従来の
SX
SX
シリーズで実績のある標準
シリーズで実績のある標準
UNIX
UNIX
オペレーティングシステム
オペレーティングシステム
SUPER
SUPER
-
-
UX
UX
の
の
I/O
I/O
処理強化、
処理強化、
MPI
MPI
強化でスケーラビリティをさらに拡大
強化でスケーラビリティをさらに拡大
•
•
SX
SX
シリーズ向けに高度にチューニングされた豊富なアプリケーションソフト
シリーズ向けに高度にチューニングされた豊富なアプリケーションソフト
ウェアをそのまま利用可能
ウェアをそのまま利用可能
SX
SX
-
-
8
8
の特長
の特長
28All Rights Reserved, Copyright 2004, NEC Corporation
SX
SX
-
-
8
8
アーキテクチャ
アーキテクチャ
•
•
SX
SX
-
-
6/SX
6/SX
-
-
7
7
との上位互換
との上位互換
•
•
ベクトルパイプライン
ベクトルパイプライン
--
4
4
論理演算パイプライン
論理演算パイプライン
--
144KB
144KB
ベクトルレジスタ
ベクトルレジスタ
--
SQRT
SQRT
命令のハードウェアサポート
命令のハードウェアサポート
•
•
スカラプロセッサ
スカラプロセッサ
--
4way
4way
スーパースカラ
スーパースカラ
RISC
RISC
•
•
主記憶
主記憶
--
2
2
種の
種の
RAM
RAM
をサポート
をサポート
DDR2 DDR2--SDRAM: SDRAM: 大容量大容量 128GB/128GB/ノードノード FCRAM FCRAM : : 高速高速 64GB/64GB/ノードノード•
•
マルチノードシステム
マルチノードシステム
--
最大
最大
512
512
ノード
ノード
--
65 TFLOPS
65 TFLOPS
•
•
I/O
I/O
処理強化
処理強化
--
ダイレクト
ダイレクト
CPU
CPU
制御
制御
XMU SHA R ED M A IN M E MOR Y Scalar Registers 4-Wide Vector UnitInput/Output sub system
Scalar Unit Scalar Execution unit Vector Registers Cache Memory Load/ Store
Mask Reg. Mask
Logical
Multiply Add/Shift
Divide /SQRT
Central Processing Unit
Inter-node connection NEW NEW NEW NEW NEW NEW
29
All Rights Reserved, Copyright 2004, NEC Corporation
シングルノードシステム
シングルノードシステム
•
•
最大
最大
8 CPU/
8 CPU/
ノード
ノード
--
最大ベクトル性能
最大ベクトル性能
(PVP):
(PVP):
16 GFLOPS/CPU
16 GFLOPS/CPU
128
128
G
G
FLOPS/
FLOPS/
ノード
ノード
•
•
Symmetric Multi Processing
Symmetric Multi Processing
(SMP)
(SMP)
•
•
大容量メモリ
大容量メモリ
--
最大
最大
128GB
128GB
•
•
高メモリバンド幅
高メモリバンド幅
--
CPU
CPU
当たり
当たり
64GB/s
64GB/s
--
ノード総合
ノード総合
512GB/s
512GB/s
•
•
高
高
I/O
I/O
スループット
スループット
--
ノード総合
ノード総合
12.8GB/s
12.8GB/s
éÂãLâØ I/O MM •••• I/O I/O....
CPU CPU CPU
to IXS
30
All Rights Reserved, Copyright 2004, NEC Corporation
① ノード単体性能
② 結合可能ノード゙数
③ ノード間
データ転送性能
マルチノードシステム
マルチノードシステム
最大8CPU éÂãLâØMMUIOF IOF IOF C P U C P U C P U ノード#0 IOF
....
最大8CPU éÂãLâØMMUIOF IOF IOF C P U C P U C P U ノード#0 IOF
....
最大8CPU éÂãLâØMMUIOF IOF IOF C P U C P U C P U ノード#0 IOF
....
最大8CPU éÂãLâØMMUIOF IOF IOF C P U C P U C P U ノード#0 IOF
....
最大8CPU éÂãLâØMMUIOF IOF IOF C P U C P U C P U ノード#0 IOF
....
最大8CPU éÂãLâØMMUIOF IOF IOF C P U C P U C P U ノード#0 IOF
....
最大8CPU éÂãLâØMMUIOF IOF IOF C P U C P U C P U ノード#0 IOF
....
最大8CPU éÂãLâØMMU IOF IOFCPU CPU CPU
ノード#0 IOF
....
最大8CPU éÂãLâØMMU IOF IOF C P U C P U C P U ノード#0 IOF....
最大8CPU éÂãLâØMMU IOF IOFCPU CPU CPU
IOF
....
高速ノード間スイッチ
高速ノード間スイッチ
(IXS)
(IXS)
最も高性能な、単段、
Non-blocking方式採用
高性能ノード、大規模マルチノード構成、超高速ノード間結合により
大規模計算を高速に処理
高性能ノード、大規模マルチノード構成、超高速ノード間結合により
大規模計算を高速に処理
#3 #1 #2 #4 #5 #6 #7 ノード#511 IOF IOF最大8テラバイト/秒
(総合データ転送能力)最大512ノード
最大128ギガFLOPS
32GB/秒/ノード 128ギガFLOPS最大512ノード
128ギガFLOPS 最大8テラバイト/秒高性能のノード
性能向上のポイント
2倍
(SX-6比)4倍
(SX-6比)8倍
(SX-6比) 光インタフェース接続31
All Rights Reserved, Copyright 2004, NEC Corporation
高性能・高集積・最先端LSI
高性能・高集積・最先端LSI
1.2mm 100m 100m微細配線
微細配線
1mm
1mm
□□に
に
30
30
ピン
ピン
15 15インチインチUXGA UXGA (1,600x1,200 (1,600x1,200ピクセルピクセル) ) 液晶ディスプレイの画素 液晶ディスプレイの画素 とほぼ同じ密度 とほぼ同じ密度高密度実装
高密度実装
1mm 1mmLSI(20mm
□)
最先端半導体技術により1チップで圧倒的な
最先端半導体技術により1チップで圧倒的な
CPU
CPU
性能を実現
性能を実現
90nmプロセス 9層Cu配線 90nmプロセス 9層Cu配線 外部入出力ピン Φ0.1mm, 8,000ピン 外部入出力ピン Φ0.1mm, 8,000ピン 0.6mm --野球場野球場99面面 --線幅線幅0.6mm0.6mm --1.2mm1.2mmピッチピッチ --総配線長総配線長1700km1700km LSI LSIが野球場の
が野球場の
大きさになったら
大きさになったら
333本 髪の毛の太さ 髪の毛の太さ 80μ m m 32All Rights Reserved, Copyright 2004, NEC Corporation
高密度実装
高密度実装
ノードモジュール
ノードモジュール
高度な実装技術により1ノードをコンパクトに実現
高度な実装技術により1ノードをコンパクトに実現
SX-8
SX
SX
-
-
8
8
64GFLOPS
128GFLOPS
体積/性能
1/5
1/5
CPU メモリモジュール• 高速信号対応 高密度・高多層プリント配線板
ノード内ケーブル接続→ボード接続化によるコンパクト化
• LSIの低消費電力化と高効率冷却設計により実装密度を向上
•
高速信号対応 高密度・高多層プリント配線板
ノード内ケーブル接続→ボード接続化によるコンパクト化
•
LSIの低消費電力化と高効率冷却設計により実装密度を向上
SX-6
SX
SX
-
-
6
6
33
All Rights Reserved, Copyright 2004, NEC Corporation
CPU
CPU
&メモリ
&メモリ
CPUモジュール CPUモジュール(裏面)
メモリモジュール
34
All Rights Reserved, Copyright 2004, NEC Corporation
設置性の改善
設置性の改善
(
(
1TFOPS
1TFOPS
で
で
SX
SX
-
-
6
6
と比較)
と比較)
SX-6(16ノード)
SX-8(8ノード)
設置面積
*
48.0m
2
13.0m
2
SX-6(16ノード)
SX-8(8ノード)
設置面積
*
48.0m
2
13.0m
2
4.8m 10m約
約
1/4
1/4
へ
へ
SX
SX
-
-
6
6
16
16
ノード
ノード
(1TFLOPS)
(1TFLOPS)
(1TFLOPS)
(1TFLOPS)
* *保守エリアを含む保守エリアを含む 3.3m 1.7m 保守 エリア 4.6m 0.8mコンパクト実装技術により設置性を大幅に改善
コンパクト実装技術により設置性を大幅に改善
設置スペース効率を
大幅に改善
SX
SX
-
-
8
8
8
8
ノード
ノード
35
All Rights Reserved, Copyright 2004, NEC Corporation
シングルノードの設置諸元比較
シングルノードの設置諸元比較
1998年
2001年
2002年
2004年
SX-5
SX-6
SX-7
SX-8
外 形 寸 法
( W x D x H) (mm)6320x3200
x1800
1000x1100
x1800
3900x2850
x1800
825x800
x1800
設 置 面 積
(含 保 守 エ リア )30.4m
23m
217.4m
22.5m
2重 量
6950kg
730kg
4340kg
約 570kg
消 費 電 力
90KVA
7KVA
26KVA
約 9KVA
冷 却 方 式
空 冷
空 冷
空 冷
空 冷
SX-5
SX-6
SX-7
SX-8
外 形 寸 法
( W x D x H) (mm)6320x3200
x1800
1000x1100
x1800
3900x2850
x1800
825x800
x1800
設 置 面 積
(含 保 守 エ リア )30.4m
23m
217.4m
22.5m
2重 量
6950kg
730kg
4340kg
約 570kg
消 費 電 力
90KVA
7KVA
26KVA
約 9KVA
冷 却 方 式
空 冷
空 冷
空 冷
空 冷
128GF
128GB
282GF
256GB
128GF
128GB
64GF
64GB
36All Rights Reserved, Copyright 2004, NEC Corporation
設置面積比較
設置面積比較
SX-5/16A
(128GF/128GB)
SX-8
8nodes
(1TF/1TB)
SX-7/32
(282GF/256GB)
2,850mm 800mm 3,9 00m m 保守 エ リア 保守エリア 保守 エリア 保守 エリア 800mm 保守 エリア 4,450mm 3,2 00m m 保守 エリア 63 20m m 53 80m m 4.800mm 3200mm 保守 エリア 保守 エリア 保守 エリア30.4m
217.4m
213m
2 保守 エリア 保守 エリア 1700mm 800mm 800mm 30 00m m 46 00m m 80 0 mm 3300mm 80 0 mm37
All Rights Reserved, Copyright 2004, NEC Corporation
設置性と低消費電力
設置性と低消費電力
(スカラとの比較)
(スカラとの比較)
1
1
0.33
0.33
スカラ
SX-8
1
1
0.58
0.58
SX
SX
-
-
8
8
実効性能当り
設置面積(相対値)
実効性能当り
消費電力(相対値)
スカラ
実効性能当りの省スペース/低消費電力で
スカラシステムを凌駕
実効性能当りの省スペース
実効性能当りの省スペース
/
/
低消費電力で
低消費電力で
スカラシステムを凌駕
スカラシステムを凌駕
38All Rights Reserved, Copyright 2004, NEC Corporation
SX
SX
-
-
8
8
の特長(1)
の特長(1)
• ベクトル平方根演算器
– 2GF(倍精度)/CPU、4GF(単精度)/CPU
– ベクトル除算パイプラインと兼用
• メモリバンクキャッシュ
– 容量 : 32KB/CPU
① リストベクトルの同一アドレス参照に対する
Bankビジー時間の短縮
② 上記プログラムの多重実行時のBank競合の低減
• 複素数データ(2要素飛び)アクセス性能の改善
連続アクセス並の性能
(2要素飛び以外の偶数飛びも改善されます)
性能向上 ポイント 性能向上 ポイント39
All Rights Reserved, Copyright 2004, NEC Corporation
メモリバンクキャッシュ
メモリバンクキャッシュ
(MBC)
(MBC)
の効果例
の効果例
∼同一アドレスアクセス多発ジョブの多重実行∼
0 5000 10000 15000 20000 25000 SX-6 SX-8 SX-6 SX-8 SX-6 SX-8 [sec] 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 単体 実行 多重 実行 26%性能低下 26%性能低下 21%性能低下 5%低下 4%低下 6%低下 性能比2.2倍 性能比2.2倍 性能比2.1倍 単体実行時のSX-6とSX-8の性能比は 2倍以上になっており、MBCの効果あり。 更に、多重実行時のSX-8の性能低下は 小さく、多重実行時にもMBCが効いている実
行
時
間
40All Rights Reserved, Copyright 2004, NEC Corporation
複素数データアクセス強化の効果例
複素数データアクセス強化の効果例
NPB/FT
NPB/FT
ベンチマーク
ベンチマーク
Class C (ASIS
Class C (ASIS
版
版
)
)
0 20 40 60 80 100 120 140 160 180 SX-6 SX-8(DDR2) [SEC] 1CPU 1CPU
2.76倍
複素数データアクセス
強化の効果
41
All Rights Reserved, Copyright 2004, NEC Corporation
SX
SX
-
-
8
8
の特長
の特長
(2)
(2)
•2種類の主記憶RAMのサポート
–DDR2-SDRAM
特性 : ハイエンドサーバで使用される標準的なメモリ 容量 : 1ノード当たり最大128GB–FCRAM (Network FCRAM)
特性 : 高速なランダムアクセスタイム(DDR2比約1/3倍) 容量 : 1ノード当たり最大64GB
•新規I/Oアーキテクチャの採用
–CPUの直接I/O命令制御による性能改善
小データサイズのI/O性能の向上
•標準I/Oインタフェースをサポート
–ノードあたりトータル12.8GB/S
–PCI-Xバス
1GB/s +(64bit-133MHz)
•10/100/GbETHER
•2Gb-FC
•Ultra320-SCSI
42All Rights Reserved, Copyright 2004, NEC Corporation
LINPACK 100
LINPACK 100
0 500 1000 1500 2000 2500 GS1280 (1.3GHz) Opteron (2.192GHz) Pentium4 (3.06GHz) p655 (1.7GHz) rx2600 (1.5GHz) Altix3000 (1.5GHz) hpcLine (Xeon3.2GHz) VPP5000 (3.33GHz) SX-3/14R SX-4/1C SX-4/1A SX-5 SX-6 SX-7 ES SX-8(DDR2)[MFLOPS] 出典:August 29,2004 Dongarra report
2025 1339 1000 1289 856 467 578 368 1156 1679 1659 1635 1486 1414 1253 1122 SX-8(FCRAM) 2175
シングル
シングル
CPU
CPU
世界最速
世界最速
43
All Rights Reserved, Copyright 2004, NEC Corporation
LINPACK TPP
LINPACK TPP
出典:August 29,2004 Dongarra report 0 2000 4000 6000 8000 10000 12000 14000 16000 GS1280 (1.3GHz) Opteron (2.192GHz) Pentium4 (3.06GHz) p655 (1.7GHz) rx2600 (1.5GHz) Altix3000 (1.5GHz) hpcLine (Xeon3.2GHz) VPP5000 (3.33GHz) SX-3/14R SX-4/1C SX-4/1A SX-5 SX-6 SX-7 ES SX-8(DDR2) [MFLOPS] 14910 7614 8283 7575 7280 1929 5199 8784 1944 3148 5400 5431 3884 2880 3145 2132 SX-8(FCRAM) 14960
ピーク性能に
ピーク性能に
対する
対する
実効効率
実効効率
93.5%
93.5%
(
(
FCRAM
FCRAM
)
)
93.2%
93.2%
(
(
DDR2
DDR2
)
)
実効効率:57.1% 実効効率:90.0% 実効効率:90.5% 実効効率:49.2% 実効効率:47.1% 実効効率:71.7% 実効効率:82.0% 44All Rights Reserved, Copyright 2004, NEC Corporation