スパコンプログラミング

(1)

スパコンプログラミング (1), (I) ガイダンス

東京大学情報基盤センター准教授塙敏博

2019年9月24日（火）10:25 - 12:10

(2)

ガイダンスの流れ

1. 講義の目的

2. 講師紹介

3. 講義日程の確認

4. 成績の評価方法

5. イントロダクション（残り時間）

(3)

•

高性能計算の研究者として生き残るための、

最低限の技術を習得する

1.

情報基盤センターのスーパーコンピュータ利用法

2.

並列化手法と MPI の使い方

3.

高性能計算手法

•

上記技術の習得により、受講生の分野の研究を格段に進めることを目的とする

•

計算科学アライアンス認定講義（カテゴリー D)

• http://www.compsci-alliance.jp

• 是非アライアンスへの登録を！http://www.compsci-alliance.jp/学生募集/

• 要件を満たせば修了証を発行

• 優先的な海外派遣、国際シンポジウムでの発表

• 東京大学スパコンのアカウント発行

(4)

本講義のシラバス上での位置付け

• スパコンプログラミング（１）

• 工学部学生対象（共通科目）

• スパコンプログラミング（Ⅰ）

• 工学系研究科大学院生対象（共通科目）

• 他学部の学生、他大学院の大学院生も受講できます

• 本科目は、夏学期、冬学期の通年科目です

• 夏学期、冬学期ともに、同様の講義内容です

(5)

• 名前：塙敏博（はなわとしひろ）

• 経歴：

• 1993年3月慶應義塾大学理工学部電気工学科卒業

• 1995年3月慶應義塾大学大学院理工学研究科計算機科学専攻修士課程修了

• 1998年3月慶應義塾大学大学院理工学研究科計算機科学専攻博士課程修了

• 1998年4月東京工科大学工学部情報工学科講師

• 2002年4月〜2007年3月東京工科大学コンピュータサイエンス学部講師

• 2007年4月〜2008年11月筑波大学計算科学研究センター研究員

• 2008年12月～2013年11月筑波大学システム情報工学研究科准教授

• 2013年12月～2015年11月東京大学情報基盤センター特任准教授

• 2015年12月～現在情報基盤センター准教授

• 2016年2月〜現在（兼担）大学院工学系研究科電気系工学専攻

• 「GPUコンピューティング」「スパコン向けネットワーク」などの分野で活躍中！

• 詳しくは「塙敏博」でググるといろいろ出てきます

(6)

講義日程（工学部共通科目）

1. 9月24日(今日)：ガイダンス

2. 10月1日

l 並列数値処理の基本演算（座学）

3. 10^月8^{日：スパコン利用開始}

l ログイン作業、テストプログラム実行

4. 10月15日

l 高性能プログラミング技法の基礎１

（階層メモリ、ループアンローリング）

5. 10月29日

l 高性能プログラミング技法の基礎2

（キャッシュブロック化）

6. 11月5日

l 行列-ベクトル積の並列化

7. 11月12日

l べき乗法の並列化

8. 11月26日

l 行列-行列積の並列化（１）

9. 12月3日

l 行列－行列積の並列化（２）

10. 12月10日

l ＬＵ分解法（１）

l コンテスト課題発表

11. 12月17日

l ＬＵ分解法（２）

12. 1月7日

l ＬＵ分解法（３）、非同期通信

13. 1月14日

l RB-Hお試し、研究紹介他

（締切：

2019^年2^月5^日（月）24^{時厳守}

(7)

1. 実習で出題される課題を解きレポートにして提出

l 加算方式

l 解けば解くほど評価が高まる

l すべての問題を解く必要はない（解けないほど多く出す）

2. コンテスト課題を解く

l 入賞（１位～３位（予定））は、無条件に“優”（予定）

l ちゃんと動作するものをつくれば、実習レポート点に加点

• １のみ、２のみ、１と２の両方、の選択がある。

• １と２の両方を行った場合は、当然、加算方式で成績を決定する。

• 技術の習得が目的、積極的にトライしてほしい

(8)

2016 年度以降

1. 2016(平成28)年度 S1S2

• 受講申し込み： 37名

• レポート課題提出： 22名

• 優上：1名、優：13名、良：4名、可：3名、うち、コンテスト課題提出者：3名（3名は無条件で優）

2. 2016(平成28)年度 A1A2

• 優：4名、うち、コンテスト課題提出者：2名（2名は無条件で優）

3. 2017(平成29)年度 S1S2

• 優上: 3名、優：18名、良：13名、可：3名、うち、コンテスト課題提出者：5名（3名は無条件で優以上）

4. 2017(平成29)年度 A1A2

• 優：6名、良: 1名、可: 3名、うち、コンテスト課題提出者：1名（1名は無条件で優）

5. 2018(平成30)年度 S1S2

• 優上: 1名、優：5名、良: 8名、可: 0名、うち、コンテスト課題提出者：5名（2名は無条件で優）

6. 2018(平成30)年度 A1A2

• 優上: 1名、優：3名、良: 1名、可: 1名、うち、コンテスト課題提出者：5名（2名は無条件で優）

7. 2019(平成31)年度 S1S2

• 優上: 1名、優：11名、良: 3名、うち、コンテスト課題提出者：3名（2名は無条件で優以上）

(9)

• Ｃ言語（もしくは Fortran 言語）とＭＰＩを用いて実習

• ほとんどが、並列化の課題実行時で脱落

• ＵＮＩＸの基本コマンド、及び、プログラムの基本がわかっていないと厳しい。

• なるべく脱落者を減らしたい

• ＵＮＩＸの基本コマンドがわかっていない人、プログラムの基本がわかっていない人は、個別に、集中的に教えるよう配慮しますので、

遠慮なく聞いてください。

• 出席を考慮（評価得点全体に対し２０％程度）

• その結果：単位取得率は約

50

％前後、ほぼ全員が「優」。

(10)

講義の流れ

• 次次回から、情報基盤センタのスーパーコンピュータ（ Oakforest-PACS スーパーコン

ピュータシステム）を利用します。

• 10 月 8 日（火）の講義中に、

アカウント名とパスワードを紙で配布する予定です。必ず出席してください。

• 最終回に GPU クラスタ (Reedbush-H) も使い

ます。

(11)

• 配布したプリントに従い、以下の参考資料をダウンロードしてください。

l 講義スライドの PDF ファイル

http://www.cspp.cc.u-tokyo.ac.jp/hanawa/class/

(12)

参考書

• 「スパコンを知る:

その基礎から最新の動向まで」

• 岩下武史、片桐孝洋、高橋大介著

• 東大出版会、ISBN-10: 4130634550、

ISBN-13: 978-4130634557、

発売日：2015年2月18日、176頁

• 【本書の特徴】

• スパコンの解説書です。以下を分かりやすく解説しています。

•

スパコンは何に使えるか

•

スパコンはどんな仕組みで、なぜ速く計算できるのか

•

最新技術、今後の課題と将来展望、など

(13)

• 「スパコンプログラミング入門

－並列処理とMPIの学習－」

• 片桐孝洋著、

• 東大出版会、ISBN978-4-13-062453-4、

発売日：2013年3月12日、判型:A5, 200頁

• C言語で解説

• C言語、Fortran90言語のサンプルプログラムが付属

• 数値アルゴリズムは、図でわかりやすく説明

• 本講義の内容を全てカバー

• 内容は初級。初めて並列数値計算を学ぶ人向けの入門書

(14)

教科書（演習書）

• 「並列プログラミング入門：

サンプルプログラムで学ぶOpenMPとOpenACC」

• 片桐孝洋著

• 東大出版会、ISBN-10: 4130624563、ISBN-13: 978-4130624565、

発売日： 2015年5月25日

• C言語、Fortran90言語で解説

• C言語、Fortran90言語の複数のサンプルプログラムが入手可能（ダウンロード形式）

• 本講義の内容を全てカバー

• Windows PC演習可能(Cygwin利用)。スパコンでも演習可能。

• 内容は初級。初めて並列プログラミングを学ぶ人向けの入門書

(15)

• 「並列数値処理 - 高速化と性能向上のために -」

• 金田康正東大教授理博編著、

片桐孝洋東大特任准教授博士（理学）著、黒田久泰愛媛大准教授博士（理学）著、山本有作神戸大教授博士（工学）著、五百木伸洋

㈱日立製作所著、

• コロナ社、発行年月日：2010/04/30 ，判型： A5，ページ数：272頁、

ISBN：978-4-339-02589-7，定価：3,990円（本体3,800円＋税5%)

• Fortran言語で解説

• 数値アルゴリズムは、数式などで厳密に説明

• 本講義の内容に加えて、固有値問題の解法、疎行列反復解法、FFT、

ソート、など、主要な数値計算アルゴリズムをカバー

• 内容は中級～上級。専門として並列数値計算を学びたい人向き

(16)

教科書（スパコンプログラミング入門）

の利用方法

• 本講義の全内容、演習内容をカバーした資料

• 教科書というより、実機を用いた並列プログラミングの演習書として位置づけられている

• 使える並列計算機があることが前提

• 付属の演習プログラムの利用について

1. 東京大学情報基盤センターのFX10スーパーコンピュータシステムでそのまま利用する

2. 研究室のPCクラスタ（MPIが利用できるもの）で利用する

3. 東大以外の大学等のスーパーコンピュータで利用する

• 各自の

PC

を用いて、（

MPI

ではない）逐次プログラムで演習する（主に逐次プログラムの高速化の話題）

(17)

イントロダクション

スパコンとは何か？

(18)

スーパーコンピュータとは

• 人工知能搭載のコンピュータではない、量子コンピュータでもない

• 明確な定義はない

• 現在の最高レベルの演算性能をもつ計算機のこと

• 経験的には、PCの１０００倍高速で、１０００倍大容量なメモリをもつ計算機

• 「外国為替及び外国貿易法」=>「輸出貿易管理令」（政令）=>

「輸出貿易管理令別表第一及び外国為替令別表の規定に基づき貨物又は技術を定める省令」（平成28年11月18日経済産業省令）の規制対象デジタル電子計算機

• 第７条第三項ハ：デジタル電子計算機であって、

加重最高性能が12.5実効テラ演算を超えるもの

• スーパーコンピュータ導入手続 (平成26年3月31日申し合わせ)

• I 適用範囲 3. この手続は50TFLOPS以上の理論的最高性能を有するスーパーコンピューターの導入に適用されるが、この対象範囲は必要に応じ見直すこととする。

• 現在、ほとんどすべてのスーパーコンピュータは並列計算機

• 東京大学情報基盤センタが所有するReedbushスーパーコンピュータシステム、Oakforest- PACSスーパーコンピュータシステムも、並列計算機

今時、GPU 数枚で超えてしまう!!

(19)

現在のすべてのスーパーコンピュータは並列計算機：多数のCPUを接続することで高性能化を実現

• MPP (Massively Parallel Processor)

• スパコン専用機：富士通PRIMEHPC-FXシリーズ、Cray XCシリーズなど

• 専用のノード間ネットワーク(インタコネクト): 富士通TOFU, Cray Aries (単独販売されない)

• クラスタ

• 多数のサーバをネットワークで結合して1システム化したもの

• ノード間ネットワーク：Intel OmniPath, InfiniBandなどコモディティ製品

• Ethernetはあまり使われない

以下は（スパコンとしては）絶滅に近い：

• ベクトル

• NEC SXシリーズ

• メモリシステム周辺のコストが大きすぎる

• SMP (Symmetric Multi Processor)

• 共有メモリマシン：HP (旧SGI) UVシリーズ、256CPU程度まで，これ以上大きくできない

(20)

スパコンの分類 (2)

• アクセラレータ搭載の有無

• GPU (NVIDIA Tesla)

• PEZY-SC2

• Intel Xeon Phi (Knights Corner)

• NEC SX-Aurora TSUBASA

• 等

•

PCI Express

ボード

=>

専用インタフェース

東大ITCのGPU搭載スパコン、

Reedbush-Lの構成

(21)

•

TFLOPS

（テラ・フロップス、

Tera Floating Point Operations Per Second

）

• １秒間に１回の演算能力（浮動小数点）が１FLOPS。

• K（キロ）は１,０００（千）、M（メガ）は１,０００,０００（百万）、G（ギガ）は１,０００,０００,０００

（十億）、T（テラ）は１,０００,０００,０００,０００（一兆）

• だから、一秒間に一兆回の浮動小数点演算の能力があること。

•

PFLOPS

（ぺタ・フロップス）

• １秒間に0.１京（けい）回の浮動小数点演算の能力がある。

• 「京コンピュータ」（2012年9月共用開始、11.2PFLOPS） l PCの演算能力は？

l 4.2GHｚ（１秒間に42億回のクロック周波数）として、もし１クロックあたり１回の浮動小数点演算ができれば4.2GFLOPS。

l Intel Core i7 (Skylake)では、4コア、１クロックで16回の浮動小数計算ができるので、4.2 GHz * 16回浮動小数点演算/Hz * 4コア = 268.8 GFLOPS

l Cray-１は160MFLOPS。１９７０年代のスパコンより、PCの方が1680倍高速！

(22)

スーパーコンピュータの評価指標

• 理論ピーク性能（

Theoretical Peak Performance

）

• ハードウェア性能からはじき出した性能。

• １クロックに実行できる浮動小数点回数から算出した FLOPS値を使うことが多い。

• 実効性能（

Effective Performance

）

• 何らかのベンチマークソフトウエアを実行して実行時間を計測。

• そのベンチマークプログラムに使われている浮動小数点演算を算出。

• 以上の値を基に算出したFLOPS値のこと。

• 連立一次方程式の求解ベンチマークであるLINPACK、共役勾配法 (CG 法）の求解ベンチマークであるHPCGが広く使われている。

• 浮動小数点以外のベンチマークも多数（後述）

(23)

•

LINPACK

ベンチマークでの

500

位までのランキング

• 連立一次方程式の求解

(

密行列

)

• 大体

4

年で

10

倍

• 性能向上が近年は鈍化傾向

Linpack性能

1〜500位の合計

500位

1位京コンピュータ

太湖之光 (TaihuLight) 天河2号(Tianhe-2)

京コンピュータ

Sequoia

Titan

http://www.top500.org/ より

(24)

ムーアの法則

• 米

Intel

社の設立者ゴードン・ムーアが提唱した、半導体技術の進

歩に関する経験則。

「半導体チップの集積度は、およそ

18

ヵ月で２倍になる」

• これから転じて、

「マイクロプロセッサの性能は、およそ

18

ヵ月で２倍になる」

• 上記によると、約５年で

10

倍となる。

• 正確には、デナード則

(25)

• TOP500 （ http://www.top500.org/ ）

• LINPACK の値から実効性能を算出した値の 500 位までのランキング

• 米国オークリッジ国立研究所／テネシー大学ノックスビル校の Jack Dongarra 教授が発案

• 毎年 6 月 @ ドイツの国際会議 ISC 、 11 月 @ 米国の国際会議 SC で更新

（他にも〇〇 500 がいろいろある）

(26)

スーパーコンピュータのランキング (2)

• Green500 （ http://www.green500.org/ ）

• Top500 に登録されたシステムのうち、電力当たり

性能でのランキング

•

Linpack

実行中の電力を測定、性能

/

電力

=FLOPS/W

• HPCG (http://www.hpcg-benchmark.org/)

• 共役勾配法 (CG 法 ) によるベンチマーク

• 疎行列なので密行列の Linpack よりメモリアクセス

がボトルネックに、現実のアプリに近い

(27)

• Graph500 （ http://graph500.org/ ）

•

大規模グラフ探索を解き、 TEPS (Traversed Edges Per Second) でランキング

•

幅優先探索 (BFS) に加えて、 2017/11 から

SSSP (Single Source Shortest Paths) も追加に

•

Green Graph500 というのもある（過去形？）

• IO500 (http://www.io500.org/)

•

ストレージの性能（以下の幾何平均）

• メタデータ性能 (IOPS)

• バンド幅 (GB/sec)

• 2017/11 から

(28)

http://www.top500.org/

Site Computer/Year Vendor Cores Rmax

(TFLOPS)

Rpeak

(TFLOPS)

Power (kW) 1 Summit, 2018, USA

DOE/SC/Oak Ridge National Laboratory

IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

2,414,592 148,600

(= 148.6 PF) 200,795 10,096 2 Sieera, 2018, USA

DOE/NNSA/LLNL

IBM Power System S922LC, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

1,572,480 94,640 125,712 7,438

3 Sunway TaihuLight, 2016, China National Supercomputing Center in Wuxi

Sunway MPP, Sunway SW26010 260C

1.45GHz, Sunway 10,649,600 93,015 125,436 15,371

4

Tianhe-2A, 2018, China

National Super Computer Center in Guangzhou

TH-IVB-FEP Cluster, Intel Xeon E5-2692v2

12C 2.2GHz, TH Express-2, Matrix-2000 4,981,760 61,445 100,679 18,482 5 Frontera, 2019, USA

Texas Advanced Computing Center

Dell C6420, Xeon Platinum 8280 28c 2.7GHz,

Mellanox Infiniband HDR 448,448 23,516 38,746

6 Piz Daint, 2017, Switzerland

Swiss National Supercomputing Centre (CSCS)

Cray XC50, Xeon E5-2690v3 12C 2.6GHz,

Aries interconnect , NVIDIA Tesla P100 387,872 21,230 27,154 2,384 7 Trinity, 2017, USA

DOE/NNSA/LANL/SNL

Cray XC40, Intel Xeon Phi 7250 68C 1.4GHz,

Aries interconnect 979,072 20,159 41,461 7,578

8

ABCI (AI Bridging Cloud Infrastructure), 2018, Japan

National Institute of Advanced Industrial Science and Technology (AIST)

PRIMERGY CX2550 M4, Xeon Gold 6148 20C 2.4GHz, NVIDIA Tesla V100 SXM2, Infiniband EDR

391,680 19,880 32,577 1,649

9 SuperMUC-NG, 2018, Germany Leibniz Rechenzentrum

Lenovo, ThinkSystem SD650, Xeon Platinum

8174 24C 3.1GHz, Intel Omni-Path 305,856 19,477 26,874 10 Lassen, 2019, USA

DOE/NNSA/LLNL

IBM Power System S922LC, IBM POWER9 22C 3.1GHz, NVIDIA Volta V100, Dual-rail Mellanox EDR Infiniband

288,288 18,200 23,047 16

Oakforest-PACS, 2016, Japan Joint Center for Advanced High Performance Computing

PRIMERGY CX1640 M1, Intel Xeon Phi 7250

68C 1.4GHz, Intel Omni-Path 556,104 13,556 24,913 2,719

R_peak: Peak Performance (TFLOPS), Power: kW

2019/9/24

(29)

http://www.hpcg-benchmark.org/

Computer Cores HPL Rmax

(Pflop/s)

TOP500 Rank

HPCG (Pflop/s)

1 Summit 2,414,592 148,600 1 2.926

2 Sierra 1,572,480 94.640 2 1.796

3 K computer 705,024 10.510 20 0.603

4 Trinity 979,072 20,159 7 0.546

5 ABCI 391,680 19,880 8 0.509

6 Piz Daint 387,872 21.230 6 0.497

7 Sunway TaihuLight 10,649,600 93.015 3 0.481 8 Nurion (KISTI, Korea) 570,020 13.929 15 0.391

9 Oakforest-PACS 556,104 13.555 16 0.385

10 Cori (NERSC/LBNL,

USA) 632,400 14.015 14 0.355

2019/9/24

(30)

Green 500 Ranking (June, 2019)

TOP 500

Rank System Cores HPL Rmax

(Pflop/s)

Power

(MW) GFLOPS/W

1 472 Shoubu system B, Japan 953,280 1,063 60 17.604

2 470 DGX SaturnV Volta, USA 22,440 1,070 97 15.113

3 1 Summit, USA 2,414,592 148,600 10,096 14.719

4 8 ABCI, Japan 391,680 19,880 1,649 14.423

5 394 MareNostrum P9 CTE, Spain 18,360 1,145 81 14.131

6 25 TSUBAME 3.0, Japan 135,828 8,125 792 13.704

7 444 PANGEA III, France 291,024 17,860 1,367 13.065

8 2 Sierra, USA 1,572,480 94,640 7,438 12.723

9 43 Advanced Computing System (PreE),

China 163,840 4,325 380 11.382

10 23 Taiwania 2, Taiwan 170,352 900 798 11.285

13

June’18

Reedbush-L, U.Tokyo, Japan 16,640 806 79 10.167

19 Reedbush-H, U.Tokyo, Japan 17,760 802 94 8.576

2019/9/24

(31)

Site Computer File system

procs Score (GiB/s) （kIOP/s) 1 University of

Cambridge, UK

Data

Accelerator

Dell EMC Lustre

512

8192 620.69 ^162.05 ^2377.44

2 Oak Ridge National

Laboratory, USA Summit IBM Spectrum

Scale 504

1008 330.56 ^88.20 ^1238.93

3 JCAHPC, Japan Oakforest-

PACS DDN IME 2048

2048 275.65 ^492.06 ^154.41

4 KISTI, Korea NURION DDN IME 2048

4096 156.91 ^554.23 ^44.43

5 CSIRO, Australia bracewell Dell/ThinkPar Q BeeGFS

26

260 140.58 ^69.29 ^285.21

6 DDN IME140 DDN IME 17

272 112.67 ^90.34 ^140.52

7 DDN Colorado DDN IME140 DDN IME 10

160 109.42 ^75.79 ^157.96

8 DDN AI400 DDN Lustre 10

160 104.34 ^19.65 ^553.98

9 KAUST, Saudi Shaheen2 Cray DataWarp

1024

8192 77.37 ^496.81 ^12.05

10 University of Cambridge, UK

Data

Accelerator

Dell EMC BeeGFS

184

5888 74.58 ^58.81 ^94.57

2019/9/24

(32)

Top500 ランキング（ 2019 年 6 月現在）

その他の日本のマシン

l 20位理研R-CCS: 京コンピュータ 10.5 PFLOPS

l 25位東工大: TSUBAME3.0 8.125 PFLOPS

l 32,33位気象庁 5.73 PFLOPS x2

l 41位九州大：ITO 4.54 PFLOPS

l 45位東京大：Oakbridge-CX 4.29 PFLOPS

l 46位 ?? どこかの研究所 4.13 PFLOPS

l 54位さくらインターネット 3.71 PFLOPS

l 66位 JAXA: SORA-MA 3.15 PFLOPS

l 70位京都大: Camphor2 3.05 PFLOPS

l 75位名古屋大: FX100 2.91 PFLOPS

l 80位量子研（六ヶ所核融合研）: JFRS-1 2.78 PFLOPS

…

• 東京大学内のマシン

l 45位情報基盤センター：Oakbridge-CX 4.29 PFLOPS

l 293位物性研: Sekirei 1.178 PFLOPS

l 411位情報基盤センター:

Reedbush-L

0.805 PFLOPS

l 414位情報基盤センター:

Reedbush-H

0.802 PFLOPS

l 436位物性研: Sekirei-ACC 0.864 PFLOPS

(33)

• 中国・無錫

(Wuxi)

国立スパコンセンター

(NRCPC)

• ピーク

125.4 PF, Linpack 93.0 PF, 40960

ノード

•

Sunway

製

SW26010

• 260コアのメニーコアプロセッサ (1+64コア)*4クラスタ, 1.45GHz

• ピーク性能：3.06TF

• メモリバンド幅：136.5 GB/s

• インタコネクト：

InfiniBand FDR

参考：Top500, HPCWire Japan, PCwatch

(34)

Summit @ ORNL

• 米国エネルギー省

(DoE)

オークリッジ国立研究所

• ピーク

>200 PF, Linpack 148.6 PF

•

4,608

ノード

(

ノード当たり：

V100 x6

基

+ Power 9 x2

ソケット

)

• IBM AC922

• Sierra, Lassenは V100 x4基

•

InfiniBand EDR x 2port

参考：https://www.olcf.ornl.gov/olcf-resources/compute-systems/summit/

(35)

• スイス

ETH Zurich

内の国立スパコンセンター

• ピーク

33.8 PF, Linpack 19.5 PF (2017 upgrade)

•

5,320 (P100 + Xeon Haswell) + 1,431 Xeon Broadwell

• Cray XC50 + XC40

参考：https://www.cscs.ch/publications/news/piz-daint-one-of-the-most- powerful-supercomputers-in-the-world/

(36)

Cori @ NERSC

•

NERSC:

米国エネルギー省

(DoE)

ローレンスバークレー国立研究所

(LBNL)

の

1

組織

• National Energy Research Scientific Computing Center

•

9,688 Intel Xeon Phi (KNL),

ピーク性能

30 PF + 2,388 Intel Xeon (Haswell)

• Cray XC40 システム

•

Gerty Cori:

生化学者、アメリカ女性最初のノーベル賞受賞者

(37)

• 理研計算科学研究センター（神戸ポートアイランド）

• ２０１２年９月共用開始、2019年8月シャットダウン

• ＣＰＵ：SPARC64 VIIIfx(CPU当たり 128GFLOPS)

• 2011年11月TOP500のLINPACK性能

• 理論性能：11.280 PLOPS

• 実行性能：10.510 PFLOPS ^効率：93.1^％

• 「富岳」（ポスト京）設置準備中

参照：理研

計算科学機構（http://www.aics.riken.jp/index.html ）

(38)

国内のスーパーコンピュータ：地球シミュレータ 3

• 海洋研究開発機構地球シミュレータ 3

• NEC SX-ACE

• 5,120ノード

• １ノードあたり4コア

• 理論性能：

１.３PFLOPS

• メモリバンド幅

1.3PB/sec

参照：海洋研究開発機構

（http://www.jamstec.go.jp/es/jp/system/index.html）

(39)

•

HPE ICE-XA

• CPU: Intel Xeon E5-2680v4 2.4 GHz (14 cores) x 2

(Hyperthreading enabled)

• GPU: NVIDIA Tesla P100 x 4

• Memory: 256GB

• 540台

参考：http://www.t3.gsic.titech.ac.jp/sites/default/files/guidance.pdf

(40)

FY 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Yayoi: Hitachi SR16000/M1 IBM Power-7

54.9 TFLOPS, 11.2 TB

Reedbush, HPE Broadwell + Pascal

1.93 PFLOPS

T2K Tokyo

140TF, 31.3TB

Oakforest-PACS Fujitsu, Intel KNL

25PFLOPS, 919.3TB

BDEC System

60+ PFLOPS (?)

Oakleaf-FX: Fujitsu PRIMEHPC FX10, SPARC64 IXfx

1.13 PFLOPS, 150 TB

Oakbridge-FX

136.2 TFLOPS, 18.4 TB

Reedbush-L

1.43 PFLOPSHPE

Big Data &

Extreme Computing

Oakbridge-CX

Intel Xeon CascadeLake

6.61 PFLOPS _{スーパーコンピュータ}^{大規模超並列} メニーコア型大規模

スーパーコンピュータ

（JCAHPC：筑波大・東大）

データ解析・シミュレーション融合スーパーコンピュータ

長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ

東大センターのスパコン

2

基の大型システム，

6

年サイクル（？）

(41)

• 東大ITC初のGPUシステム, DDN IME (Burst Buffer)

• データ解析・シミュレーション融合スーパーコンピュータ（2016年7月〜 2020年6月）

• Reedbush-U: CPU only, 420 nodes, 508 TF (2016年7月)

• Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (2017年3月)

• 長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ

（2017年10月～2020年6月）RB

• Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (2017年10月)

•

Oakforest-PACS (OFP) ( 富士通、 Intel Xeon Phi (KNL))

• JCAHPC (筑波大CCS＆東大ITC)

• 25 PF, TOP 500で9位 (2017年11月) (日本で2位)

• Omni-Path アーキテクチャ, DDN IME (Burst Buffer)

•

Oakbridge-CX (OBCX) ( 富士通、 Intel Xeon Scalable (CascadeLake-SP))

• 6.61 PF, 1368ノード、うち128ノードにSSD内蔵、Omni-Path

• 2019/7/1稼働開始

(42)

Reedbush システム

Reedbush-U

2016年7月1日試験運転開始 2016年9月1日正式運用開始

Reedbush-H

2017年3月1日試験運転開始 2017年4月3日正式運用開始

Reedbush-L

2017年10月2日試験運転開始 2017年11月1日正式運用開始 Top500: RB-L 291位@Nov. 2017

RB-H 203位@Jun. 2017 RB-U 361位@Nov. 2016 Green500: RB-L 11位@Nov. 2017

RB-H 11位@Jun. 2017

(43)

外部接続ルータ 1Gigabit/10Gigabit Ethernet Network

InterConnect( 4x EDR InﬁniBand) InterConnect( 4x EDR InﬁniBand)

ログインノード群 SGI Rackable C1110-GP2

6nodes

NFS Filesystem 16TB

Lustre Filesystem DDN SFA14KE x3set

5.04PB

高速キャッシュ DDN IME14K x6set

209TB NAS Storage

24TB E5-2680v4 2.4GHz

14core,256GiB Mem

管理サーバ群 SGI Rackable C1110-GP2

9nodes

GbE SW x6

x6 x2

x2(for PBS)

Reedbush-H x240 (FDRx2/node) Reebush-U

x420

x36(IME:6x6) x24(OSS(VM):x 12 x2)

x4(MDS:x 2)

x12

高速キャッシュ DDN IME240 x8set

153.6 TB

管理用補助 SGI Rackableサーバ C1110-GP2 x2

x16(IME:8x2) x2

x12

x8 x2

x10(Ctrl:8,MDS:2)

Reedbush-L x128( EDR x2/node) x4

x6 x9

x4 x9

x64 x120 x420

x9

Management port 管理コンソール

Mac Pro 電力管理サーバ

電力計器

SGI Rackable C2112-4GP3

420 nodes, 508.03TFLOPS

・CPU : E5-2695v4 2.1GHz 18core

Reedbush-H

SGI Rackable C1102-GP8

120 nodes, 240GPUs, 1.418PFLOPS

・GPU : NVIDIA Tesla P100 SXM2 x2/node

Reedbush-L

SGI Rackable C1102-GP8

64 nodes, 256GPUs, 1.434PFLOPS

・GPU : NVIDIA Tesla P100 SXM2 x4/node E5-2680v4 2.4GHz

14core,128GiB Mem

ライフ／管理ネットワーク 1Gigabit/10Gigabit Ethernet Network

(44)

Reedbush のサブシステム

Reedbush-U Reedbush-H Reedbush-L CPU/node Intel Xeon E5-2695v4 (Broadwell-EP, 2.1GHz, 18core) x 2

sockets (1.210 TF), 256 GiB (153.6GB/sec)

GPU - NVIDIA Tesla P100 (Pascal, 5.3TF,

720GB/sec, 16GiB)

Infiniband EDR FDR×2ch EDR×2ch

ノード数 420 120 64

GPU数 - 240 (=120×2) 256 (=64×4)

ピーク性能

(TFLOPS) 509 1,417

(145 + 1,272)

1,433

(76.8 + 1,358) メモリバンド幅

(TB/sec) 64.5 191.2

(18.4+172.8)

194.2 (9.83+184.3)

運用開始 2016.07 2017.03 2017.10

(45)

• 2016 年 12 月 1 日稼働開始

• 8,208 Intel Xeon/Phi (KNL) 、ピーク性能 25PFLOPS

• 富士通が構築

• TOP 500 9 ^位（国内 2 ^位）， HPCG 6 ^位（国内 2 ^位）

（ 2017 ^年 11 ^月）

• 最先端共同 HPC ^基盤施設 (JCAHPC: Joint Center for Advanced High Performance Computing)

• 筑波大学計算科学研究センター

• 東京大学情報基盤センター

• 東京大学柏キャンパスの東京大学情報基盤センター内に、両機関の教職員が中心となって設計するスーパーコンピュータシステムを設置し，最先端の大規模高性能計算基盤を構築・運営するための組織

•

http://jcahpc.jp

(46)

Oakforest-PACS 全景

国内最高性能の新スパコン「オークフォレスト・パックス」の前で握手する

東大の中村宏情報基盤センター長（左）と筑波大の梅村雅之計算科学研究センター長

＝１日午後、千葉県柏市の東大柏キャンパス

時事通信 www.jiji.com

(47)

• 計算ノード

• 1ノード 68コア，3TFLOPS×8,208 ノード＝ 25 PFLOPS

• メモリ（MCDRAM（高速，16GB）＋

DDR4（低速，96GB））

• ノード間通信

• フルバイセクションバンド幅を持つ Fat-Treeネットワーク

• 全系運用時のアプリケーション性能に効果，多ジョブ運用

• Intel Omni-Path Architecture

(48)

Oakforest-PACS の仕様

総ピーク演算性能

25 PFLOPS

ノード数

8,208

計算ノード

Product

富士通

PRIMERGY CX600 M1 (2U) + CX1640 M1 x 8node

プロセッサ

Intel® Xeon Phi™ 7250

（開発コード

: Knights Landing

）

68

コア、

1.4 GHz

メモリ ^{高バンド幅}

16 GB, MCDRAM,

実効

490 GB/sec

低バンド幅

96 GB, DDR4-2400,

ピーク

115.2 GB/sec

相互結合網

Product Intel® Omni-Path Architecture

リンク速度

100 Gbps

トポロジフルバイセクションバンド幅

Fat-tree

網

(49)

• ファイル

I/O

• 並列ファイルシステム: Lustre 26PB

• ファイルキャッシュシステム

（DDN IME）：

1TB/secを超える実効性能, 約1PB

• 計算科学・ビッグデータ解析・機械学習にも貢献

• 消費電力

• Green 500でも世界6位

• Linpack： 2.72 MW

• 4,986 MFLOPS/W（OFP）

• 830 MFLOPS/W（京）

並列ファイルシステム

ファイルキャッシュシステム

ラック当たり120ノードの高密度実装

(50)

Oakforest-PACS の仕様（続き）

Type Lustre File System

総容量

26.2 PB

Product DataDirect Networks SFA14KE

総バンド幅

500 GB/sec

高速ファイルキャッシュシステム

Type Burst Buffer, Infinite Memory Engine (by DDN)

総容量

940 TB (NVMe SSD,

パリティを含む

) Product DataDirect Networks IME14K

総バンド幅

1,560 GB/sec

総消費電力

4.2MW

（冷却を含む）

総ラック数

102

(51)

CentOS

および

McKernel (

計算ノード、切替可能

)

• McKernel: 理研AICSで開発中のメニーコア向けOS

•

Linux

互換、

Linux

に比べ軽量、ユーザプログラムに与える影響なし

• ポスト京コンピュータにも搭載される予定。

• コンパイラ：

GCC, Intel Compiler, XcalableMP

• XcalableMP: 理研

AICS

と筑波大で共同開発中の並列プログラミング言語

•

C

や

Fortran

で記述されたコードに指示文を加えることで、性能の高い並列アプリケーションを簡易に開発することができる。

• ライブラリ・アプリケーション：オープンソースソフトウェア

• ppOpen-HPC, OpenFOAM, ABINIT-MP, PHASE system, FrontFlow/blue， LAPACK, ScaLAPACK, PETSc, METIS, SuperLU etc.

(52)

52

2019/9/24 スパコンプログラミング (1), (I)

(53)

総理論演算性能

6.61 PFLOPS

総ノード数

1,368=1,240+112+16

総主記憶容量

256.5 TiB

ネットワークトポロジー

Full-bisection Fat Tree

システム名

Lustre

ファイルシステム

サーバ

(OSS) DDN ES18K

サーバ

(OSS)

数

8

ストレージ容量

12.4 PB

ストレージデータ

転送速度

193.9 GB/s

(54)

ノードの構成

項目仕様

製品名 FujitsuPRIMERGY

CX2550 M5

Fujitsu PRIMERGY CX2560 M5

ノード数 1240 112+16

CPU

プロセッサ名 Intel® Xeon® Platinum 8280

（開発コード名：CascadeLake）プロセッサ数(コア数) 2 (28+28)

周波数 2.7 GHz

理論演算性能 4.8384 TFLOPS

Memory 192 GiB(DDR4)

インターコネクト Intel ® Omni-Path ネットワーク (100 Gbps)

SSD

容量 - 1.6 TB(NVMe)

読み出し性能 3.20 GB/s

書き込み性能 1.32 GB/s

(55)

ピュータシステムの料金表（ 2019 年 4 月 1 日）

• パーソナルコース（年間）

• 150,000円： RB-U: 4ノード（基準）、最大16ノードまで RB-H: 1ノード（基準）、消費係数 2.5x RB-L: 1ノード（基準）、消費係数 4.0x

• グループコース

• 300,000円： 1口 4ノード（基準）、最大128ノードまで、

RB-H： 1ノード（基準）、トークン係数はUの2.5倍 RB-L： 1ノード（基準）、トークン係数はUの4.0倍

• RB-Uのみ企業 360,000円： 1口 4ノード（基準）、最大128ノードまで

• RB-Hのみ企業 216,000円： 1口 1ノード（基準）

• RB-Lのみ企業 360,000円： 1口 1ノード（基準）

• 以上は、「トークン制」で運営

• 申し込みノード数×360日×24時間の「トークン」が与えられる

• 基準ノードまでは、トークン消費係数が1.0 (Hは2.5, Lは 4.0)

• 基準ノードを超えると、超えた分は、消費係数が2倍になる

• 大学等のユーザはOakforest-PACS, Oakbridge-CXとの相互トークン移行も可能

• ノード固定もあり

(56)

東大情報基盤センター Oakforest-PACS スーパーコンピュータシステムの料金表（2019年4月1日〜）

• 100,000円： 1口8ノード(基準)、最大2048ノードまで実行可

• 3口まで

• 400,000円 (企業 480,000円) ： 1口 8ノード（基準）、最大2048ノードまで

• パーソナルコースは2ノード相当

• 基準ノードまでは、トークン消費係数が1.0

• 基準ノードを超えると、超えた分は、消費係数が2.0になる

• 大学等のユーザはReedbush, Oakbridge-CXとの相互トークン移行も可能

(57)

ピュータシステムの料金表（2019年10月1日〜）

• 100,000円： 1口4ノード(基準)、最大256ノードまで実行可

• 3口まで

• 400,000円 (企業 480,000円) ： 1口 4ノード（基準）、最大2048ノードまで

• パーソナルコースは1ノード相当

• 基準ノードまでは、トークン消費係数が1.0

• 基準ノードを超えると、超えた分は、消費係数が2.0になる

• 大学等のユーザはReedbush, Oakforest-PACSとの相互トークン移行も可能

• ノード固定もあり

(58)

GFLOPS ^{（ピーク性能換算）}

あたり負担金（～ W ^）

System JPY/GFLOPS

Reedbush-U (HPE)

(Intel BDW) 61.9

Reedbush-H (HPE)

(Intel BDW+NVIDIA P100x2/node) 15.9 Reedbush-L (HPE)

(Intel BDW+NVIDIA P100x4/node) 13.4 Oakforest-PACS (Fujitsu)

(Intel Xeon Phi/Knights Landing) 16.5 Oakbridge-CX (Fujitsu)

(Intel Cascade Lake (CLX)) 20.7

(59)

ユーザにとって：

• 必要な計算をより短時間に終わらせる

• 計算にかかるコストをより安くできる

• 同じ時間、予算でより多くの計算ができる

• スパコンのシステム特性を理解し、特性に合わせたプログラミング

• 多レベルの並列性を引き出す、アルゴリズムの工夫

運用側にとっても：

• 貴重なリソースなので、有効に使ってほしい

• RB-Uは現時点で90%近くの利用率（現実的にはほぼ満杯）

• 100億円のマシンの利用効率を 10%上げれば10億円得したことに

•

OFP

の場合

• 借料：月額1.1億円、

5年半総額で72.2億円、

筑波大と折半

• 電気代：年間約4億円（空調、

水冷込み）、3.2 MWくらい

(60)

並列プログラミングとは？

• 逐次実行のプログラム（実行時間

T

）を、

ｐ

台の計算機を使って、

T / ｐ

にすること。

• 素人考えでは自明。

• 実際は、できるかどうかは、対象処理の内容

（アルゴリズム）で大きく難しさが違う

• アルゴリズム上、絶対に並列化できない部分の存在

• 通信のためのオーバヘッドの存在

• 通信立ち上がり時間

• データ転送時間

T

T / ｐ

(61)

•

Message Passing Interface

• メッセージ通信用のライブラリ規格

• TCP/IPのソケット通信などに相当，ずっと記述は容易

• 大規模計算が可能

• プロセス数の多い並列システム（Massively Parallel Processing (MPP)システム）に使える

• 数万〜百万プロセスまで対象に考えられている

• 移植が容易

• API（Application Programming Interface）の標準化

• スケーラビリティ、性能が高い

• 通信処理をユーザが記述することによるアルゴリズムの最適化が可能

(62)

Oakforest-PACS 設置の動画

(63)

来週へつづく

並列数値計算の基礎

スパコンプログラミング

スパコンプログラミング (1), (I) ガイダンス

ガイダンスの流れ

高性能計算の研究者として生き残るための、

最低限の技術を習得する

情報基盤センターのスーパーコンピュータ利用法

並列化手法と MPI の使い方

高性能計算手法

上記技術の習得により、受講生の分野の研究を 格段に進めることを目的とする

計算科学アライアンス認定講義（カテゴリー D)

本講義のシラバス上での位置付け

• スパコンプログラミング（１）

• スパコンプログラミング（Ⅰ）

• 他学部の学生、他大学院の大学院生も受講できます

• 本科目は、夏学期、冬学期の通年科目です

講義日程（工学部共通科目 ）

2016 年度以降

• Ｃ言語（もしくは Fortran 言語）とＭＰＩを用いて実習

• ほとんどが、並列化の課題実行時で脱落

50

講義の流れ

• 次次回から、情報基盤センタのスーパーコン ピュータ（ Oakforest-PACS スーパーコン

ピュータシステム）を利用します。

• 10 月 8 日（火）の講義中に、

アカウント名とパスワードを紙で配布する 予定です。必ず出席してください。

• 最終回に GPU クラスタ (Reedbush-H) も使い

ます。

• 配布したプリントに従い、以下の参考資料を ダウンロードしてください。

l 講義スライドの PDF ファイル

http://www.cspp.cc.u-tokyo.ac.jp/hanawa/class/

参考書

•

•

•

教科書（演習書）

教科書（スパコンプログラミング入門）

の利用方法

PC

MPI

イントロダクション

スーパーコンピュータとは

スパコンの分類 (2)

PCI Express

=>

TFLOPS

Tera Floating Point Operations Per Second

PFLOPS

スーパーコンピュータの評価指標

Theoretical Peak Performance

Effective Performance

LINPACK

500

(

)

4

10

ムーアの法則

Intel

18

18

10

• TOP500 （ http://www.top500.org/ ）

• LINPACK の値から実効性能を算出した値の 500 位までのランキング

• 米国オークリッジ国立研究所／テネシー大学 ノックスビル校の Jack Dongarra 教授が発案

• 毎年 6 月 @ ドイツの国際会議 ISC 、 11 月 @ 米国の国際会議 SC で更新

（他にも 〇〇 500 がいろいろある）

スーパーコンピュータのランキング (2)

• Green500 （ http://www.green500.org/ ）

• Top500 に登録されたシステムのうち、電力当たり

性能でのランキング

Linpack

/

=FLOPS/W

• HPCG (http://www.hpcg-benchmark.org/)

• 共役勾配法 (CG 法 ) によるベンチマーク

• 疎行列なので密行列の Linpack よりメモリアクセス

がボトルネックに、現実のアプリに近い

• Graph500 （ http://graph500.org/ ）

大規模グラフ探索を解き、 TEPS (Traversed Edges Per Second) でランキング

幅優先探索 (BFS) に加えて、 2017/11 から

上記技術の習得により、受講生の分野の研究を格段に進めることを目的とする

講義日程（工学部共通科目）

• 次次回から、情報基盤センタのスーパーコンピュータ（ Oakforest-PACS スーパーコン

アカウント名とパスワードを紙で配布する予定です。必ず出席してください。

• 配布したプリントに従い、以下の参考資料をダウンロードしてください。

• 米国オークリッジ国立研究所／テネシー大学ノックスビル校の Jack Dongarra 教授が発案

（他にも〇〇 500 がいろいろある）

Top500 ランキング（ 2019 年 6 月現在）

• 海洋研究開発機構地球シミュレータ 3

• TOP 500 9 ^位（国内 2 ^位）， HPCG 6 ^位（国内 2 ^位）

（ 2017 ^年 11 ^月）

• 最先端共同 HPC ^基盤施設 (JCAHPC: Joint Center for Advanced High Performance Computing)