• 検索結果がありません。

Titan Sequoia K computer 地球シミュ

ドキュメント内 PowerPoint プレゼンテーション (ページ 37-54)

MPI

天河 2 Titan Sequoia K computer 地球シミュ

レータ

CPU

コア数

384,000 299,008 1,572,864 705,024 5,120

ノード数

16,000 18,688 98,304 88,128 640

アクセラレータ

Xeon Phi Tesla No No No

理論性能

54.9 PF 27.1 PF 20.1 PF 11.3 PF 0.041 PF

実性能

33.9 PF 17.6 PF 16.3 PF 10.5 PF 0.036 PF

実性能

/

理論

0.61 0.64 0.81 0.93 0.88

電力

17.8MW 8.2MW 7.9MW 12.7MW 3.2 MW

実性能

/

電力

1.9 GF/W 2.1 GF/W 2.1 GF/W 0.83GF/W 0.01GF/W

スーパーコンピュータを使いこなす:

並列計算に対する期待と現実

プログラマ

:

「CPUを

4

台使うんだから,並列計算で

4

倍速くなって欲しい」

計算機製作者

:

「CPU

4

台で

3

倍くらい速くなれば十分だろう」

• Why?

アムダールの法則

負荷のバランス

通信のコスト

アムダールの法則

プログラム中の高速化した部分しか高速化されない

並列化にあてはめて考えると:

並列化による性能向上率の理論的な限界

=1/((1-P)+P/N)

P: プログラム中の並列化対象部分が全処理時間に占める割合

N: プロセス数

例)

N=4 で 3.5倍以上高速化する

ためには

95%以上の部分の並列化が

必要

分担する計算量のバランス

並列プログラムの処理時間は

「最も遅いプロセスの処理時間」

である

Rank 0 Rank 1 Rank 2

Rank 0 Rank 1 Rank 2 Execution time

of this program

Execution time of this program

通信時間

並列化前は不要だった時間

= 並列化によるオーバーヘッド

Rank 0 Rank 1 Rank 2 並列化前

並列化後

スーパーコンピュータの 計算時間と通信時間

計算時間:

基本的に、プロセス数に応じて短縮

通信時間:

基本的に、プロセス数に応じて増加

所要時間

計算時間 通信時間

スーパーコンピュータのネットワーク への要求

通信性能

遅延時間を短く

高速なネットワークコントローラ

短い接続経路

経路の帯域幅を大きく

高い伝送速度のネットワーク

経路の競合を少なく

経路数増加

高度な経路制御

費用

なるべく安く:

経路長い 経路短い

帯域幅細い 帯域幅太い

競合 競合

経路数少ない 経路数多い

Bus / Ring Topology

一本の

Bus

を全ノードで共有

両端をつなげたものが Ring

長所:

構成が簡単なので 1本あたりの帯域幅を太く出来る

経路とスイッチの数はノード数と同じなので費用は低い

短所:

同時に利用可能な通信経路は1本だけ

双方向の場合、2

プロセッサ内部のコア間ネットワーク(

8

コア)のような

小規模なネットワークで利用

Full Direct Connection

全ノード間で、一対一に接続

長所:

遅延時間( 通信距離)最小

短所:

高価

ノード数の2乗に応じた 経路数

各ノードでノード数分の

接続が可能な大規模スイッチ

小規模の

CPU

間ネットワーク

4CPU

程度)で利用

Crossbar Switch

行列上の

switch

を介して全ノードを接続

長所:

遅延時間(≒通信距離)はほぼ最小

ノード数に比例した同時通信帯域幅

短所:

高価

ノード数の2乗に比例した 結線数とスイッチ数

最大で、地球シミュレータ

640

ノード)程度まで利用

Fat Tree

多段のcrossbar switch による木構造で構成

長所:

比較的、遅延時間が低い

通信距離はスイッチの段数x 2

比較的、同時通信帯域幅が高い

上位層のスイッチ数と経路数による

比較的、費用が安価

短所:

数万ノード以上のシステムでは、まだ高価

大規模なシステムでは上位層の経路数を削減

通常、数千ノード規模まで

Tianhe-2は特別

多次元メッシュ / トーラス

多次元の格子状にノードを配置し、隣接ノード間を直接接続

両端を接続したものがトーラス

長所:

費用が安価

ノード数N に比例した経路数

リングやバスより格段に高速

特に隣接ノードとの通信

短所:

通信パターンによっては、

通信衝突が多発

プログラムの高度な チューニングが必要

主に数万ノード規模で利用

さらなる大規模化に向けて

• High-Radix switch(

ポート数の多いスイッチ

)

の利用

段数小 通信遅延の低減

同時通信帯域幅の維持

例)

出典: http://www.unixer.de/publications/img/ibm-percs-network.pdf

多段全対全結合

Dragonfly

スーパーコンピュータ開発の今後

膨大な開発費:

京の場合,

7

年間で約

1,200

億円

事業仕分けでの指摘

2番じゃダメなんですか?」

次の目標:

2018

年~

2020

年に

1 Exa FLOPS

を達成

1 Exa = 1,000 Peta)

予算は???

今後の開発計画

富士通: 京の商用機発表

http://www.hpcwire.com/hpcwire/2011-11-07/fujitsu_unveils_post-k_supercomputer.html

NECSX-9後継のベクトル計算機開発計画を発表

http://www.perfect-abs.info/news/Vector-Processor.html

IBMBlueGene/Q 100PFLOPSを狙う

http://www.theregister.co.uk/2011/11/16/ibm_bluegene_q_power_775/

Cray: Blue Water

http://wjbc.com/cray-replaces-ibm-on-u-of-illinois-supercomputer/

Barcelona Supercomputing Center:

Tegra + GPGPUでスーパーコンピュータ開発

http://latimesblogs.latimes.com/technology/2011/11/nvidia-supercomputer.html

中国: 自国製CPU ShenWey SW1600

http://www.hpcwire.com/hpcwire/2011-11-米国の変化

• PCAST (President’s Council of Advaisors on Science and Technology)

の指摘

http://insidehpc.com/2010/12/22/pcast-report-supercomputing-arms-race-may-be-the-wrong-path-forward/

"an arms race that is very expensive and may not be a good use of funds."

• TOP500

創設者が

LINPACK

ベンチマークの限界を指摘

http://www.top500.org/blog/top500-founder-erich-strohmaier-on-the-lists-evolution/

"It is expected to debut this November in tandem with SC13."

"you will need to keep learning, changing and adapting to the rapidly changing hardware and software environments of HPC."

今後、ゲームのルールが変わる可能性

Top500 に代わる指標

• HPC Challenge

http://icl.cs.utk.edu/hpcc/

複数の部門でそれぞれ順位づけ

Linpack, Matrix Multiply, Memory Bandwidth,

Matrix Transpose, Random Access, Fast Fourier Trans, Communication Bandwidth and Latency

京は HPC Challenge5部門でも 1

• Graph500

http://www.graph500.org

組み合わせ最適化問題の計算性能比較

• Green500

http://www.green500.org

ドキュメント内 PowerPoint プレゼンテーション (ページ 37-54)

関連したドキュメント