MPI
天河 2 Titan Sequoia K computer 地球シミュ
レータ
総
CPUコア数
384,000 299,008 1,572,864 705,024 5,120ノード数
16,000 18,688 98,304 88,128 640アクセラレータ
Xeon Phi Tesla No No No理論性能
54.9 PF 27.1 PF 20.1 PF 11.3 PF 0.041 PF実性能
33.9 PF 17.6 PF 16.3 PF 10.5 PF 0.036 PF実性能
/理論
0.61 0.64 0.81 0.93 0.88電力
17.8MW 8.2MW 7.9MW 12.7MW 3.2 MW実性能
/電力
1.9 GF/W 2.1 GF/W 2.1 GF/W 0.83GF/W 0.01GF/Wスーパーコンピュータを使いこなす:
並列計算に対する期待と現実
•
プログラマ
:「CPUを
4台使うんだから,並列計算で
4倍速くなって欲しい」
•
計算機製作者
:「CPU
4台で
3倍くらい速くなれば十分だろう」
• Why?
• アムダールの法則
• 負荷のバランス
• 通信のコスト
アムダールの法則
•
プログラム中の高速化した部分しか高速化されない
•
並列化にあてはめて考えると:
並列化による性能向上率の理論的な限界
=1/((1-P)+P/N)
• P: プログラム中の並列化対象部分が全処理時間に占める割合
• N: プロセス数
•
例)
N=4 で 3.5倍以上高速化する
ためには
95%以上の部分の並列化が必要
分担する計算量のバランス
•
並列プログラムの処理時間は
「最も遅いプロセスの処理時間」
である
Rank 0 Rank 1 Rank 2
Rank 0 Rank 1 Rank 2 Execution time
of this program
Execution time of this program
通信時間
•
並列化前は不要だった時間
= 並列化によるオーバーヘッド
Rank 0 Rank 1 Rank 2 並列化前
並列化後
スーパーコンピュータの 計算時間と通信時間
•
計算時間:
基本的に、プロセス数に応じて短縮
•
通信時間:
基本的に、プロセス数に応じて増加
所要時間
計算時間 通信時間
スーパーコンピュータのネットワーク への要求
•
通信性能
• 遅延時間を短く
• 高速なネットワークコントローラ
• 短い接続経路
• 経路の帯域幅を大きく
• 高い伝送速度のネットワーク
• 経路の競合を少なく
• 経路数増加
• 高度な経路制御
•
費用
• なるべく安く:
経路長い 経路短い
帯域幅細い 帯域幅太い
競合 競合
経路数少ない 経路数多い
Bus / Ring Topology
•
一本の
Busを全ノードで共有
• 両端をつなげたものが Ring
•
長所:
• 構成が簡単なので 1本あたりの帯域幅を太く出来る
• 経路とスイッチの数はノード数と同じなので費用は低い
•
短所:
• 同時に利用可能な通信経路は1本だけ
• 双方向の場合、2本
•
プロセッサ内部のコア間ネットワーク(
8コア)のような
小規模なネットワークで利用
Full Direct Connection
•
全ノード間で、一対一に接続
•
長所:
• 遅延時間(≒ 通信距離)最小
•
短所:
• 高価
• ノード数の2乗に応じた 経路数
• 各ノードでノード数分の
接続が可能な大規模スイッチ
•
小規模の
CPU間ネットワーク
(
4CPU程度)で利用
Crossbar Switch
•
行列上の
switchを介して全ノードを接続
•
長所:
• 遅延時間(≒通信距離)はほぼ最小
• ノード数に比例した同時通信帯域幅
•
短所:
• 高価
• ノード数の2乗に比例した 結線数とスイッチ数
•
最大で、地球シミュレータ
(
640ノード)程度まで利用
Fat Tree
• 多段のcrossbar switch による木構造で構成
• 長所:
• 比較的、遅延時間が低い
• 通信距離はスイッチの段数x 2
• 比較的、同時通信帯域幅が高い
• 上位層のスイッチ数と経路数による
• 比較的、費用が安価
• 短所:
• 数万ノード以上のシステムでは、まだ高価
• 大規模なシステムでは上位層の経路数を削減
• 通常、数千ノード規模まで
• Tianhe-2は特別
多次元メッシュ / トーラス
•
多次元の格子状にノードを配置し、隣接ノード間を直接接続
• 両端を接続したものがトーラス
•
長所:
• 費用が安価
• ノード数N に比例した経路数
• リングやバスより格段に高速
• 特に隣接ノードとの通信
•
短所:
• 通信パターンによっては、
通信衝突が多発
⇒ プログラムの高度な チューニングが必要
•
主に数万ノード規模で利用
さらなる大規模化に向けて
• High-Radix switch(
ポート数の多いスイッチ
)の利用
• 段数小 ⇒ 通信遅延の低減
• 同時通信帯域幅の維持
• 例)
出典: http://www.unixer.de/publications/img/ibm-percs-network.pdf
多段全対全結合
Dragonfly
スーパーコンピュータ開発の今後
•
膨大な開発費:
京の場合,
7年間で約
1,200億円
• 事業仕分けでの指摘
「2番じゃダメなんですか?」
•
次の目標:
2018
年~
2020年に
1 Exa FLOPSを達成
(
1 Exa = 1,000 Peta)• 予算は???
今後の開発計画
• 富士通: 京の商用機発表
http://www.hpcwire.com/hpcwire/2011-11-07/fujitsu_unveils_post-k_supercomputer.html
• NEC: SX-9後継のベクトル計算機開発計画を発表
http://www.perfect-abs.info/news/Vector-Processor.html
• IBM: BlueGene/Q で 100PFLOPSを狙う
http://www.theregister.co.uk/2011/11/16/ibm_bluegene_q_power_775/
• Cray: Blue Water
http://wjbc.com/cray-replaces-ibm-on-u-of-illinois-supercomputer/
• Barcelona Supercomputing Center:
Tegra + GPGPUでスーパーコンピュータ開発
http://latimesblogs.latimes.com/technology/2011/11/nvidia-supercomputer.html
• 中国: 自国製CPU ShenWey SW1600
http://www.hpcwire.com/hpcwire/2011-11-米国の変化
• PCAST (President’s Council of Advaisors on Science and Technology)
の指摘
http://insidehpc.com/2010/12/22/pcast-report-supercomputing-arms-race-may-be-the-wrong-path-forward/
"an arms race that is very expensive and may not be a good use of funds."
• TOP500
創設者が
LINPACKベンチマークの限界を指摘
http://www.top500.org/blog/top500-founder-erich-strohmaier-on-the-lists-evolution/
"It is expected to debut this November in tandem with SC13."
"you will need to keep learning, changing and adapting to the rapidly changing hardware and software environments of HPC."
今後、ゲームのルールが変わる可能性
Top500 に代わる指標
• HPC Challenge
http://icl.cs.utk.edu/hpcc/
• 複数の部門でそれぞれ順位づけ
• Linpack, Matrix Multiply, Memory Bandwidth,
Matrix Transpose, Random Access, Fast Fourier Trans, Communication Bandwidth and Latency
• 京は HPC Challengeの 5部門でも 1位
• Graph500
http://www.graph500.org
• 組み合わせ最適化問題の計算性能比較
• Green500
http://www.green500.org