スパコンプログラミング

(1)

スパコンプログラミング (1), (I) ガイダンス

東京大学情報基盤センター准教授塙敏博

2020年9月29日（火）10:25 - 12:10

(2)

ガイダンスの流れ

0. Zoom

の使い方

1. 講義の目的

2. 講師紹介

3. 講義日程の確認

4. 成績の評価方法

5. イントロダクション（残り時間）

(3)

Zoom の使い方

• https://utelecon.github.io

• [email protected] でZoomにアカウントを登録してください。

• しばらくはZoomへの登録なしでも接続可能にしておきます。

• 何かあれば、「チャット」に書くか、「手を挙げ」てください。「反応」もwelcome!

チャット反応

手を挙げる

(4)

本講義の目的

•

高性能計算の研究者として生き残るための、

最低限の技術を習得する

1.

情報基盤センターのスーパーコンピュータ利用法

2.

並列化手法と MPI の使い方

3.

高性能計算手法

•

上記技術の習得により、受講生の分野の研究を格段に進めることを目的とする

•

計算科学アライアンス認定講義（カテゴリー D)

• http://www.compsci-alliance.jp

• 是非アライアンスへの登録を！http://www.compsci-alliance.jp/学生募集/

• 要件を満たせば修了証を発行

• 優先的な海外派遣、国際シンポジウムでの発表

• 東京大学スパコンのアカウント発行

(5)

本講義のシラバス上での位置付け

• スパコンプログラミング（１）

• 工学部学生対象（共通科目）

• スパコンプログラミング（Ⅰ）

• 工学系研究科大学院生対象（共通科目）

• 他学部の学生、他大学院の大学院生も受講できます

• 本科目は、夏学期、冬学期の通年科目です

• 夏学期、冬学期ともに、同様の講義内容です

(6)

講師紹介

• 名前：塙敏博（はなわとしひろ）

• 経歴：

• 1993年3月慶應義塾大学理工学部電気工学科卒業

• 1995年3月慶應義塾大学大学院理工学研究科計算機科学専攻修士課程修了

• 1998年3月慶應義塾大学大学院理工学研究科計算機科学専攻博士課程修了

• 1998年4月東京工科大学工学部情報工学科講師

• 2002年4月〜2007年3月東京工科大学コンピュータサイエンス学部講師

• 2007年4月〜2008年11月筑波大学計算科学研究センター研究員

• 2008年12月～2013年11月筑波大学システム情報工学研究科准教授

• 2013年12月～2015年11月東京大学情報基盤センター特任准教授

• 2015年12月～現在情報基盤センター准教授

• 2016年2月〜現在（兼担）大学院工学系研究科電気系工学専攻

• 「GPUコンピューティング」「スパコン向けネットワーク」などの分野で活躍中！

• 詳しくは「塙敏博」でググるといろいろ出てきます

(7)

講義日程（工学部共通科目）

1. 9月29日(今日)：ガイダンス

2. 10月6日

l 並列数値処理の基本演算（座学）

3. 10^月13^{日：スパコン利用開始}

l ログイン作業、テストプログラム実行 4. 10月20日

l 高性能プログラミング技法の基礎１

（階層メモリ、ループアンローリング）

5. 10月27日

l 高性能プログラミング技法の基礎2

（キャッシュブロック化）

6. 11月10日

l 行列-ベクトル積の並列化

7. 11月17日

l べき乗法の並列化

8. 11月24日

l 行列-行列積の並列化(1)

9. 12月1日

l 行列－行列積の並列化(2)

10. 12月8日

l ＬＵ分解法(1)

l コンテスト課題発表

11. 12月15日

l ＬＵ分解法(2) 、非同期通信

12. 12月22日

l RB-Hログイン、GPUプログラミング（1）

13. 1月5日

l GPUプログラミング(2) 、研究紹介他

（締切：

2021^年2^月1^日（月）24^{時厳守}

(8)

評価方法

1. 実習で出題される課題を解きレポートにして提出

l 加算方式

l 解けば解くほど評価が高まる

l すべての問題を解く必要はない（解けないほど多く出す）

2. コンテスト課題を解く

l 入賞（１位～３位（予定））は、無条件に“優”（予定）

l ちゃんと動作するものをつくれば、実習レポート点に加点

• １のみ、２のみ、１と２の両方、の選択がある。

• １と２の両方を行った場合は、当然、加算方式で成績を決定する。

• 技術の習得が目的、積極的にトライしてほしい

(9)

2016 年度以降

1. 2016(平成28)年度 S1S2

• 受講申し込み： 37名

• レポート課題提出： 22名

• 優上：1名、優：13名、良：4名、可：3名、うち、コンテスト課題提出者：3名（3名は無条件で優）

2. 2016(平成28)年度 A1A2

• 優：4名、うち、コンテスト課題提出者：2名（2名は無条件で優）

3. 2017(平成29)年度 S1S2

• 優上: 3名、優：18名、良：13名、可：3名、うち、コンテスト課題提出者：5名（3名は無条件で優以上）

4. 2017(平成29)年度 A1A2

• 優：6名、良: 1名、可: 3名、うち、コンテスト課題提出者：1名（1名は無条件で優）

5. 2018(平成30)年度 S1S2

• 優上: 1名、優：5名、良: 8名、可: 0名、うち、コンテスト課題提出者：5名（2名は無条件で優）

6. 2018(平成30)年度 A1A2

• 優上: 1名、優：3名、良: 1名、可: 1名、うち、コンテスト課題提出者：5名（2名は無条件で優）

(10)

2019 年度以降

7.

2019(

平成

31)

年度

S1S2

• 優上: 1名、優：11名、良: 3名、うち、コンテスト課題提出者：3名（2名は無条件で優以上）

8.

2019(

令和元

)

年度

A1A2

• 優：11名、良: 5名、うち、コンテスト課題提出者：3名（1名は無条件で優以上）

9.

2020(

令和

2)

年度

S1S2

• 優上：1名、優：9名、良: 2名、可：1名、うち、コンテスト課題提出者：2名（2名は無条件で優以上）

(11)

講義の様子

• Ｃ言語（もしくは Fortran 言語）とＭＰＩを用いて実習

• ほとんどが、並列化の課題実行時で脱落

• ＵＮＩＸの基本コマンド、及び、プログラムの基本がわかっていないと厳しい。

• なるべく脱落者を減らしたい

• ＵＮＩＸの基本コマンドがわかっていない人、プログラムの基本がわかっていない人は、個別に、集中的に教えるよう配慮しますので、

遠慮なく聞いてください。

• 出席を考慮（評価得点全体に対し２０％程度）

• その結果：単位取得率は約

50

％前後、ほぼ全員が「優」。

(12)

講義の流れ

• 次次回から、情報基盤センタのスーパーコンピュータ（ Oakforest-PACS スーパーコン

ピュータシステム）を利用します。

• 10 月 13 日（火）の講義中に、

アカウント名とパスワードを ITC-LMS により配布する予定です。必ず出席してください。

• 最終回に GPU クラスタ (Reedbush-H) も使い

ます。

(13)

講義資料について

• 以下の資料を参照してください。

l 講義スライドの PDF ファイル

http://www.cspp.cc.u-tokyo.ac.jp/hanawa/class/

l ITC-LMS

https://itc-lms.ecc.u-tokyo.ac.jp/lms/course?idnumber=2020FEN- CO4d11L10J01

(14)

演習のための準備

1. 事前に登録をお願いします。

• 履修登録、LMSの両方が必要（履修登録とLMSは連動している、はず）

2.

LMS

のアンケートに答えてください。

• 連絡先 (メール、電話番号)

• 留学生かどうか

• 利用者番号、パスワードを渡すのにも使います。

↑

は

10/6

までに行っておくこと

3. スパコンを使うための準備（別ファイル参照）

• Cygwinのインストール (Windowsユーザーのみ）

• Mac, Linuxユーザーは「ターミナル」 / “Terminal” を使用

↑

は

10/12

までに行っておくこと

(15)

参考書

• 「スパコンを知る:

その基礎から最新の動向まで」

• 岩下武史、片桐孝洋、高橋大介著

• 東大出版会、ISBN-10: 4130634550、

ISBN-13: 978-4130634557、

発売日：2015年2月18日、176頁

• 【本書の特徴】

• スパコンの解説書です。以下を

分かりやすく解説しています。

•

スパコンは何に使えるか

•

スパコンはどんな仕組みで、なぜ速く計算できるのか

•

最新技術、今後の課題と将来展望、など

(16)

教科書（演習書）

• 「スパコンプログラミング入門

－並列処理とMPIの学習－」

• 片桐孝洋著、

• 東大出版会、ISBN978-4-13-062453-4、

発売日：2013年3月12日、判型:A5, 200頁

•

C言語で解説

•

C言語、Fortran90言語のサンプルプログラムが付属

•

数値アルゴリズムは、図でわかりやすく説明

• 本講義の内容を全てカバー

• 内容は初級。初めて並列数値計算を学ぶ人向けの入門書

(17)

教科書（演習書）

• 「並列プログラミング入門：

サンプルプログラムで学ぶOpenMPとOpenACC」

• 片桐孝洋著

• 東大出版会、ISBN-10: 4130624563、ISBN-13: 978-4130624565、

発売日： 2015年5月25日

•

C言語、Fortran90言語で解説

•

C言語、Fortran90言語の複数のサンプルプログラムが入手可能（ダウンロード形式）

• 本講義の内容を全てカバー

•

Windows PC演習可能(Cygwin利用)。スパコンでも演習可能。

• 内容は初級。初めて並列プログラミングを学ぶ人向けの

入門書

(18)

参考書

• 「並列数値処理 - 高速化と性能向上のために -」

• 金田康正東大教授理博編著、

片桐孝洋東大特任准教授博士（理学）著、黒田久泰愛媛大准教授博士（理学）著、山本有作神戸大教授博士（工学）著、五百木伸洋

㈱日立製作所著、

• コロナ社、発行年月日：2010/04/30 ，判型： A5，ページ数：272頁、

ISBN：978-4-339-02589-7，定価：3,990円（本体3,800円＋税5%)

• Fortran言語で解説

• 数値アルゴリズムは、数式などで厳密に説明

• 本講義の内容に加えて、固有値問題の解法、疎行列反復解法、FFT、

ソート、など、主要な数値計算アルゴリズムをカバー

• 内容は中級～上級。専門として並列数値計算を学びたい人向き

(19)

教科書（スパコンプログラミング入門）

の利用方法

• 本講義の全内容、演習内容をカバーした資料

• 教科書というより、実機を用いた並列プログラミングの演習書として位置づけられている

• 使える並列計算機があることが前提

•

付属の演習プログラムの利用について

1. 東京大学情報基盤センターのFX10スーパーコンピュータシステムでそのまま利用する

2. 研究室のPCクラスタ（MPIが利用できるもの）で利用する

3. 東大以外の大学等のスーパーコンピュータで利用する

• 各自の

PC

を用いて、（

MPI

ではない）逐次プログラムで演習する（主に逐次プログラムの高速化の話題）

(20)

イントロダクション

スパコンとは何か？

(21)

スーパーコンピュータとは

• 人工知能搭載のコンピュータではない、量子コンピュータでもない

• 明確な定義はない

• 現在の最高レベルの演算性能をもつ計算機のこと

• 経験的には、PCの１０００倍高速で、１０００倍大容量なメモリをもつ計算機

• 法令では…

• 「外国為替及び外国貿易法」=>「輸出貿易管理令」（政令）=>

「輸出貿易管理令別表第一及び外国為替令別表の規定に基づき貨物又は技術を定める省令」

（令和2年1月14日経済産業省令）の規制対象デジタル電子計算機

• 第７条第三項ハ：デジタル電子計算機であって、

加重最高性能が29実効テラ演算を超えるもの

• スーパーコンピュータ導入手続 (平成26年3月31日申し合わせ, 令和元年12月23日一部改正)

• I 適用範囲 3. この手続は下記の理論的最高性能を有するスーパーコンピューターの導入に適用されるが、この対象範囲は必要に応じ見直すこととする。

• 2.0 PFLOPS以上(2019年12月23日以降)

これまで50TFだったのがようやくまともな数字に

(20%増 / 年)

(22)

スパコンの分類 (1)

現在のすべてのスーパーコンピュータは並列計算機：多数のCPUを接続することで高性能化を実現

• MPP (Massively Parallel Processor)

• スパコン専用機：富士通PRIMEHPC-FXシリーズ、Cray XCシリーズなど

• 専用のノード間ネットワーク(インタコネクト): 富士通TOFU, Cray Aries, Cray Slingshot (単独販売されない)

• クラスタ

• 多数のサーバをネットワークで結合して1システム化したもの

• ノード間ネットワーク：InfiniBand, Intel OmniPathなどコモディティ製品

• Ethernetはあまり使われない

以下は（スパコンとしては）絶滅に近い：

• ベクトル

• NEC SXシリーズ (SX-ACE以前): メモリシステム周辺のコストが大きすぎる

=> SX-Aurora TSUBASAでアクセラレータへ

• SMP (Symmetric Multi Processor)

• 共有メモリマシン：HP (旧SGI) UVシリーズ、256CPU程度まで，これ以上大きくできない

(23)

• アクセラレータ

搭載の有無

• GPU

• NVIDIA Tesla

• AMD Radeon Instinct

• NEC SX-Aurora TSUBASA

• PEZY-SC2

•

PCI Express ボード

=> 専用インタフェース

東大ITCのGPU搭載スパコン、

Reedbush-Lの構成

スパコンの分類 (2)

(24)

スーパーコンピュータで用いる単位

•

TFLOPS

（テラ・フロップス、

Tera Floating Point Operations Per Second

）

• １秒間に１回の演算能力（浮動小数点）が１FLOPS。

• K（キロ）は１,０００（千）、M（メガ）は１,０００,０００（百万）、G（ギガ）は１,０００,０００,０００

（十億）、T（テラ）は１,０００,０００,０００,０００（一兆）

• だから、一秒間に一兆回の浮動小数点演算の能力があること。

•

PFLOPS

（ぺタ・フロップス）

• １秒間に0.１京（けい）回の浮動小数点演算の能力がある。

• 「京コンピュータ」（2012年9月共用開始〜2019年8月、11.2PFLOPS） l PCの演算能力は？

l 2.3GHｚ（１秒間に23億回のクロック周波数）として、もし１クロックあたり１回の浮動小数点演算ができれば2.3 GFLOPS。

l Intel 第10世代 Core i7-10875H (Comet Lake)では、8コア、１クロックで16個の浮動小数計算ができるので、2.3 GHz * 16浮動小数点演算/Hz * 8コア = 294.4 GFLOPS

l Cray-１は160MFLOPS。１９７０年代のスパコンより、PCの方が1840倍高速！

(25)

スーパーコンピュータの評価指標

• 理論ピーク性能（

Theoretical Peak Performance

）

• ハードウェア性能からはじき出した性能。

• １クロックに実行できる浮動小数点回数から算出した FLOPS値を使うことが多い。

• 実効性能（

Effective Performance

）

• 何らかのベンチマークソフトウエアを実行して実行時間を計測。

• そのベンチマークプログラムに使われている浮動小数点演算を算出。

• 以上の値を基に算出したFLOPS値のこと。

• 連立一次方程式の求解ベンチマークであるLINPACK、共役勾配法 (CG 法）の求解ベンチマークであるHPCGが広く使われている。

• 浮動小数点以外のベンチマークも多数（後述）

(26)

Linpack性能

1〜500位の合計

500位

1位太湖之光(TaihuLight) 天河2号(Tianhe-2)

京コンピュータ

Sequoia

Titan

http://www.top500.org/ より Summit 富岳

•

LINPACK ベンチ

マークでの

500 位までのランキ

ング

•

連立一次方程式

の求解

( 密行列 )

• 大体

4

年で

10 倍

• 性能向上が近年は鈍化傾向

(27)

ムーアの法則

•

米 Intel 社の設立者ゴードン・ムーアが提唱した、半導体技術の進歩に関する経験則。

「半導体チップの集積度は、およそ

18

ヵ月で２倍になる」

• これから転じて、

「マイクロプロセッサの性能は、およそ

18

ヵ月で２倍になる」

•

上記によると、約５年で 10 倍となる。

• 正確には、デナード則

(28)

スーパーコンピュータのランキング (1)

• TOP500 （ http://www.top500.org/ ）

• LINPACK の値から実効性能を算出した値の 500 位までのランキング

• 米国オークリッジ国立研究所／テネシー大学ノックスビル校の Jack Dongarra 教授が発案

• 毎年 6 月 @ ドイツの国際会議 ISC 、 11 月 @ 米国の国際会議 SC で更新

（他にも〇〇 500 がいろいろある）

(29)

スーパーコンピュータのランキング (2)

• Green500 （ http://www.green500.org/ ）

• Top500 に登録されたシステムのうち、電力当たり

性能でのランキング

•

Linpack

実行中の電力を測定、性能

/ 電力 =FLOPS/W

• HPCG (http://www.hpcg-benchmark.org/)

• 共役勾配法 (CG 法 ) によるベンチマーク

• 疎行列なので密行列の Linpack よりメモリアクセス

がボトルネックに、現実のアプリに近い

(30)

スーパーコンピュータのランキング (3)

• Graph500 （ http://graph500.org/ ）

•

大規模グラフ探索を解き、 TEPS (Traversed Edges Per Second) でランキング

•

幅優先探索 (BFS) に加えて、 2017/11 から

SSSP (Single Source Shortest Paths) も追加に

•

Green Graph500 というのもある（過去形？）

• IO500 (http://www.io500.org/)

•

ストレージの性能（以下の幾何平均）

• メタデータ性能 (IOPS)

• バンド幅 (GB/sec)

• 2017/11 から

(31)

http://www.top500.org/

Site Computer/Year Vendor Cores Rmax

(TFLOPS)

Rpeak

(TFLOPS)

Power (kW)

1 Fugaku, 2020, Japan R-CCS, RIKEN

Fujitsu PRIMEHPC FX1000, Fujitsu A64FX 48C

2.2GHz, Tofu-D 7,299,072 415,530

(= 415.5 PF) 513,854.7 28,335 2 Summit, 2018, USA

DOE/SC/Oak Ridge National Laboratory

IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

2,414,592 148,600 200,795 10,096

3 Sierra, 2018, USA DOE/NNSA/LLNL

IBM Power System S922LC, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

1,572,480 94,640 125,712 7,438

4 Sunway TaihuLight, 2016, China National Supercomputing Center in Wuxi

Sunway MPP, Sunway SW26010 260C 1.45GHz,

Sunway 10,649,600 93,015 125,436 15,371

5 Tianhe-2A, 2018, China

National Super Computer Center in Guangzhou

TH-IVB-FEP Cluster, Intel Xeon E5-2692v2 12C

2.2GHz, TH Express-2, Matrix-2000 4,981,760 61,445 100,679 18,482 6 HPC5, 2020, Italy

Eni S.p.A.

Dell C4140, Xeon Gold 6252 24c 2.1GHz, NVIDIA

Volta GV100, Mellanox Infiniband HDR 669,760 35,450 51,720 2,252 7 Selene, 2020, USA

NVIDIA

NVIDIA DGX A100 SuperPOD, AMD EPYC 7742 64C 2.25GHz, NVIDIA GA100, Mellanox Infiniband HDR

277,760 27,580 34,568 1,344 8 Frontera, 2019, USA

Texas Advanced Computing Center

Dell C6420, Xeon Platinum 8280 28c 2.7GHz,

Mellanox Infiniband HDR 448,448 23,516 38,746

9 Marconi-100, 2020, Italy Cineca

IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

347,776 21,640 29,354 1,476

10 Piz Daint, 2017, Switzerland Swiss National Supercomputing Centre (CSCS)

Cray XC50, Xeon E5-2690v3 12C 2.6GHz, Aries

interconnect , NVIDIA Tesla P100 387,872 21,230 27,154 2,384

18 Oakforest-PACS, 2016, Japan Joint Center for Advanced HPC

PRIMERGY CX1640 M1, Intel Xeon Phi 7250 68C

1.4GHz, Intel Omni-Path 556,104 13,556 24,913 2,719

R_peak: Peak Performance (TFLOPS), Power: kW

2020/6/23

(32)

http://www.hpcg-benchmark.org/

Computer Cores HPL Rmax

(Pflop/s)

TOP500 Rank

HPCG (Pflop/s)

1 Fugaku 7,299,072 415.530 1 13.400

2 Summit 2,414,592 148.600 2 2.926

3 Sierra 1,572,480 94.640 3 1.796

4 HPC5 669,760 35,450 6 0.860

5 Trinity 979,072 20.159 11 0.546

6 Selene 277,760 27.580 7 0.509

7 ABCI 391,680 19.880 12 0.509

8 Piz Daint 387,872 21.230 10 0.497

9 Sunway TaihuLight 10,649,600 93.015 4 0.481

10 Nurion (KISTI, Korea) 570,020 13.929 18 0.391

11 Oakforest-PACS 556,104 13.555 19 0.385

2020/6/23

(33)

Green 500 Ranking (Jun., 2020)

TOP 500 Rank

System Accelerator Cores HPL Rmax

(Pflop/s)

Power (kW)

GFLOPS/

W 1 394 MN-3, Preferred Networks, Japan MN-Core 2,080 1.621 77 21.108 2 7 Selena, NVIDIA, USA NVIDIA A100 277,760 27.580 1,344 20.518

3 469 NA-1, PEZY, Japan PEZY-SC2 1,271,040 1.303 80 *18.433

4 205 A64FX Prototype, Fujitsu, Japan 36,864 1.999 118 16.876

5 27 AiMOS, USA NVIDIA V100 130,000 8.339 512 16.285

6 6 HPC5, Italy NVIDIA V100 669,760 35.450 2,252 15.740

7 422 Satori, USA NVIDIA V100 34,040 1.464 94 15.574

8 2 Summit, USA NVIDIA V100 2,414,592 148.6 10,096 14.719

9 1 Fugaku, Fujitsu, Japan 7,299,072 415.53 28,335 14.665

10 9 Marconi-100, Italy NVIDIA V100 347,776 21.64 1,476 14.671

(13)

Nov.’17

Reedbush-L, U.Tokyo, Japan NVIDIA P100 16,640 806 79 10.167

(19) Reedbush-H, U.Tokyo, Japan NVIDIA P100 17,760 802 94 8.576

2020/6/23

(34)

Site Computer File system Client nodes/

procs IO500 Score BW

(GiB/s)

MD

（kIOP/s)

1 Intel Wolf Intel

DAOS

52

1664 1792.98 ^371.67 ^8649.57

2 WekaIO WekaIO on AWS WekaIO

WekaIO Matrix

345

8625 938.95 174.74 5045.33

3 TACC, US Frontera Intel

DAOS 60

1440 763.80 ^78.31 ^7449.56

4 ANL, US Presque ANL

DAOS

16

544 537.31 108.19 2668.57 5 NSC Changsha,

China Tianhe-2E NUDT

Lustre 480

5280 453.68 ^209.43 ^982.78

6 KISTI, Korea NURION DDN IME 2048

2048 282.45 515.59 154.74 7 Oracle Cloud

Infrastructure

BeeGFS on Oracle Cloud

Oracle Cloud Infrastructure BeeGFS

270

3240 267.25 ^293.05 ^243.73

8 NVIDIA, US DGX-2H SuperPod DDN Lustre 10

400 249.50 ^86.97 ^715.76

9 University of

Cambridge, UK Data Accelerator Dell EMC Lustre 128

2048 229.45 131.25 401.13

10 CEA, France Tera-1000 DDN

Lustre

128

4096 210.26 ^81.01 ^545.74

11 JCAHPC, Japan Oakforest-PACS DDN IME 512

4096 175.85 348.95 88.62

2020/9/29

(35)

Top500 ランキング（ 2020 年 6 月現在）

その他日本のマシン 100位以内

l 12位産総研：AI Bridging Cloud 19.88 PFLOPS

l 27位東工大: TSUBAME3.0 8.12 PFLOPS

l 36位名古屋大: 不老(FX1000) 6.61 PFLOPS

l 41,42位気象庁 5.73 PFLOPS x2

l 53位九州大：ITO 4.54 PFLOPS

l 59位東京大：Oakbridge-CX 4.29 PFLOPS

l 60位 ??どこかの研究所 4.13 PFLOPS

l 67位さくらインターネット 3.71 PFLOPS

l 83位JAXA: SORA-MA 3.15 PFLOPS

l 87位NIMS: Numerical Materials Simulator

3.08 PFLOPS

l 89位京都大: Camphor2 3.05 PFLOPS

…

• 東京大学内のマシン

l 59位情報基盤センター：Oakbridge-CX 4.29 PFLOPS

l 477位物性研: Sekirei 1.178 PFLOPS

l 436位物性研: Sekirei-ACC 0.864 PFLOPS

l 411位情報基盤センター:

Reedbush-L 0.805 PFLOPS

l 414位情報基盤センター:

Reedbush-H 0.802 PFLOPS

(36)

• 理研計算科学研究センター(神戸ポートアイランド)

• 2021年4月共用開始予定

• CPU: A64FX (3.3792 TFLOPS)

• 2020年6月 Top500

• 理論性能： 513.8 PFLOPS ( = 0.5 EFLOPS)

• 実効性能： 415.5 PFLOPS (効率80%、調整中)

• HPL-AI: 1.421 EFLOPS （全体の79.7%使用、倍＋単＋半精度）

https://www.riken.jp/pr/news/2020/20200623_3/

(37)

スーパーコンピュータ「富岳」概要

システム全体

• ラック数 432

• ノード数 158,976

• 384ノード x 396ラック

• 192ノード x 36ラック

• 総演算性能： 537 PFLOPS (倍精度）

1.07 EFLOPS (単精度) 2.15 EFLOPS (半精度) 4.30 EFLOPS (整数8bit)

• 総メモリ容量: 4.85 PiB

• 総メモリバンド幅: 163 PB/s

• インタコネクト: Tofu-D

• 6次元トーラス

• ストレージ

• 1^st一時ファイルシステム: SSD搭載

• 2^ndFEFS (Lustreベース)

• 3^rd 商用クラウドストレージ (Oracle Cloud Infrastructure)

ノード単体

• 命令セット: Arm v8.2-A SVE 512bit (+富士通拡張)

• コア数: 48 + 2 or 4アシスタントコア

• 4 CMG (Core Memory Group)

• クロック周波数: 2GHz-2.2GHz （ブーストモード）

• 性能：3.072 – 3.3792TFLOPS (倍精度)

• 単精度 x2倍, 半精度 x4倍, int8 x8倍

• メモリ: HBM2 32 GB, 1024GB/s

• ネットワークインタフェース: Tofu-D

• 28 Gbps x 2 lane x 10 port

https://www.fujitsu.com/jp/Images/the-tofu-interconnect-d.pdf

https://www.r-ccs.riken.jp/jp/fugaku/overview.html

(38)

Summit @ ORNL

• 米国エネルギー省

(DoE)

オークリッジ国立研究所

• ピーク

>200 PF, Linpack 148.6 PF

•

4,608

ノード

(

ノード当たり：

V100 x6

基

+ Power 9 x2

ソケット

)

• IBM AC922

• Sierra, Lassenは V100 x4基

•

InfiniBand EDR (100 G) x 2port

参考：https://www.olcf.ornl.gov/olcf-resources/compute-systems/summit/

(39)

Sunway Taihulight 神威太湖之光

• 中国・無錫

(Wuxi)

国立スパコンセンター

(NRCPC)

• ピーク

125.4 PF, Linpack 93.0 PF, 40960

ノード

•

Sunway

製

SW26010

• 260コアのメニーコアプロセッサ (1+64コア)*4クラスタ, 1.45GHz

• ピーク性能：3.06TF

• メモリバンド幅：136.5 GB/s

• インタコネクト：

InfiniBand FDR (56 Gbps)

参考：Top500, HPCWire Japan, PCwatch

(40)

Piz Daint @ CSCS

• スイス

ETH Zurich

内の国立スパコンセンター

• ピーク

33.8 PF, Linpack 19.5 PF (2017 upgrade)

•

5,320 (P100 + Xeon Haswell) + 1,431 Xeon Broadwell

• Cray XC50 + XC40

参考：https://www.cscs.ch/publications/news/piz-daint-one-of-the-most- powerful-supercomputers-in-the-world/

(41)

Cori @ NERSC

•

NERSC:

米国エネルギー省

(DoE)

ローレンスバークレー国立研究所

(LBNL)

の

1

組織

• National Energy Research Scientific Computing Center

•

9,688 Intel Xeon Phi (KNL),

ピーク性能

30 PF + 2,388 Intel Xeon (Haswell)

• Cray XC40 システム

•

Gerty Cori:

生化学者、アメリカ女性最初のノーベル賞受賞者

(42)

TSUBAME3.0

•

HPE ICE-XA

• CPU: Intel Xeon E5-2680v4 2.4 GHz (14 cores) x 2

(Hyperthreading enabled)

• GPU: NVIDIA Tesla P100 x 4

• Intel OmniPath x4 (400G)

• Memory: 256GB

• 540台

参考：http://www.t3.gsic.titech.ac.jp/sites/default/files/guidance.pdf

(43)

今後登場するエクサスケールシステム

• 2021春? Perlmutter @ NERSC, 米国Lawrence Berkeley国立研究所

• AMD EPYC CPU+NVIDIA Tesla A100 GPU

• 現在の3倍=100 PF を超える (pre-Exa)

• https://www.nersc.gov/systems/perlmutter/

• 2021秋 Aurora @ 米国Argonne国立研究所

• Intel Xeon CPU (Sapphire Rapids) + Intel GPU X^e(Ponte Vecchio)

• 1 Exa Flopsを超える

• https://press3.mcs.anl.gov/aurora/

• 2021秋 Frontier @ 米国Oak Ridge国立研究所

• AMD EPYC CPU + AMD Radeon Instinct GPU

• 1.5 Exa Flopsを超える

• https://www.olcf.ornl.gov/frontier/

• 2022秋 El Capitan @ 米国Lawrence Livermore国立研究所

• AMD EPYC CPU Zen4 ”Genoa”+ AMD Radeon Instinct GPU

• 2 Exa Flopsを超える

• https://www.llnl.gov/news/llnl-and-hpe-partner-amd-el-capitan-projected-worlds- fastest-supercomputer

• 中国(Exascaleを3機種開発中？詳細不明) : NUDT, Sugon, NRCPC

• EUも計画あり

(44)

コンピューティングインフラ・ (HPCI)

文部科学省委託事業

http://www.hpci-office.jp/

• 使命：我が国における

–

計算資源（スパコン，

大規模ストレージ（東西拠点））

–

計算科学推進（

HPCI

戦略プログラム

⇒

ポスト京重点課題）

• HPCI コンソーシアム（ 2012 ～）

– HPCI

計算資源運用

–

産官学

–

資源提供者・利用者によるコミュニティ

– 2012

年度発足

一般社団法人日本流体力学会財団法人計算科学振興財団

特定非営利活動法人バイオグリッドセンター関西自然科学研究機構核融合科学研究所

スーパーコンピューティング技術産業応用協議会神戸大学

東京大学物性研究所計算物質科学研究センター計算物質科学イニシアティブ（分野２「新物質・エネルギー創成」）

東京大学生産技術研究所（分野４「次世代ものづくり」）

計算基礎科学連携拠点（分野５「物質と宇宙の起源と構造」）

名古屋大学太陽地球環境研究所

独立行政法人宇宙航空研究開発機構宇宙科学研究所独立行政法人海洋研究開発機構

一般社団法人日本計算工学会計算生命科学ネットワーク

情報基盤センター群以外の会員リスト

国立研究開発法人理化学研究所計算科学研究機構高エネルギー加速器研究機構共通基盤研究施設・計算科学センター

情報・システム研究機構国立情報学研究所一般財団法人高度情報科学技術研究機構筑波大学計算科学研究センター大阪大学核物理研究センター

国立研究開発法人産業技術総合研究所情報技術研究部門東京大学物性研究所

東北大学金属材料研究所

情報・システム研究機構統計数理研究所

自然科学研究機構分子科学研究所計算科学研究センター独立行政法人宇宙航空研究開発機構情報計算工学セン

2020/9/29 ター

スパコンプログラミング (1), (I)

(45)

東大のみ2020年8月末時点

スパコンプログラミング(1), (I)

BDEC 40+PF

(46)

共同利用共同研究拠点（ JHPCN ^）

• https://jhpcn-kyoten.itc.u-tokyo.ac.jp/ja/

• 北大・東北大・東大・東工大・名大・京大・阪大・九大の各大型計算機センター

• 公募型共同研究によって， OFP ， Reedbush-H/L, OBCX を無料で使用可能

• 計算科学・計算機科学の分野型横断研究

• 各センター教員との共同研究が多い

• 国際共同研究，企業共同研究等の制度もあり

2020/9/29 スパコンプログラミング (1), (I) 46

(47)

•

文科省委託費

•

東拠点（東京大学柏キャンパス）

50PB

•

西拠点（理研

R-CCS) 50PB

ストレージ

HPCI ^{共用ストレージ}

HPCI共⽤ストレージ東拠点

東京⼤学・柏キャンパス

・データストレージ（総容量 50 PB）

・メタデータサーバ 2 台

・⼤容量メモリサーバ、GPUサーバ等

HPCI共⽤ストレージ⻄拠点

理研R-CCS・神⼾

・データストレージ（総容量 50 PB）

・メタデータサーバ 2 台

スパコンプログラミング(1), (I)

(48)

新型コロナウィルス (COVID-19) 感染症対応

• スパコンで早期解決の一助に

• 創薬：治療薬候補の探索

• ウィルスのタンパク質構造予測

• ゲノム解析

• パンデミック対策

• 米国

• https://covid19-hpc-consortium.org

• 日本

• 「富岳」試行利用（正式稼働前）

• HPCI(12機関、国立大学＋JAMSTEC+産総研) https://www.hpci-office.jp/pages/hpci_covid19

(49)

FY 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Yayoi: Hitachi SR16000/M1 IBM Power-7

54.9 TFLOPS, 11.2 TB

T2K Tokyo

140TF, 31.3TB

Oakforest-PACS Fujitsu, Intel KNL

25PFLOPS, 919.3TB

BDEC System (tentative)

30+ PFLOPS

Oakleaf-FX: Fujitsu PRIMEHPC FX10, SPARC64 IXfx

1.13 PFLOPS, 150 TB

Oakbridge-FX

136.2 TFLOPS, 18.4 TB

Reedbush-L HPE

1.43 PFLOPS

「計算・データ・学習」融合スーパーコンピュータ

Oakbridge-CX

Intel Xeon CascadeLake

6.61 PFLOPS _{大規模超並列}

スーパーコンピュータメニーコア型大規模

スーパーコンピュータ

（JCAHPC：筑波大・東大）

データ解析・シミュレーション融合スーパーコンピュータ

長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ

東大センターのスパコン

2

基の大型システム，

6

年サイクル（？）

RB-H

Reedbush, HPE Broadwell + Pascal

1.93 PFLOPS

(50)

•

Reedbush (HPE, Intel BDW + NVIDIA P100 (Pascal))

• 東大ITC初のGPUシステム, DDN IME (Burst Buffer)

• データ解析・シミュレーション融合スーパーコンピュータ

• Reedbush-U: CPU only, 420 nodes, 508 TF (2016年7月~2020年6月退役)

• Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (2017年3月~2021年?)

• 長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ

• Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (2017年10月~2021年？)

•

Oakforest-PACS (OFP) (

富士通、

Intel Xeon Phi (KNL))

• JCAHPC (筑波大CCS＆東大ITC)

• 25 PF, TOP 500で9位 (2017年11月) (日本で2位)

• Omni-Path アーキテクチャ, DDN IME (Burst Buffer)

• 2016年12月〜

•

Oakbridge-CX (OBCX) (

富士通、

Intel Xeon Scalable (CascadeLake-SP))

• 6.61 PF, 1368ノード、うち128ノードにSSD内蔵、Omni-Path

• 2019年7月~

(51)

Engineering Earth/Space Material

Energy/Physics Info. Sci. : System Info. Sci. : Algrorithms Info. Sci. : AI

Education Industry

BioBioinformatics

Social Sci. & Economics Data

Education Industry

BioBioinformatics

Social Sci. & Economics マルチコアクラスタ Data

Intel BDW Only (Reedbush-U)

GPU^クラスタ

Intel BDW + NVIDIA P100 (Reedbush-H)

工学・

ものづくり

地球科学・

宇宙科学

材料科学エネルギー・

物理学生物科学

生体力学

情報科学：AI 工学・

ものづくりバイオインフォマ

ティクス・医療画像処理・ゲノム解析情報科学：

アルゴリズム.

材料科学

工学・ものつくり地球科学・宇宙科学材料科学

エネルギー・物理学情報科学：システム情報科学：アルゴリズム情報科学：AI

教育産業利用

生物科学・生体力学バイオインフォマティクス社会科学・経済学

データ科学・データ同化

社会科学経済学

(52)

Education Industry

BioBioinformatics

Social Sci. & Economics Data

Education Industry

BioBioinformatics

Social Sci. & Economics マルチコアクラスタ Data

Intel CLX

(Oakbridge-CX) メニィコアクラスタ

Intel Xeon Phi (Oakforest-PACS)

工学・ものつくり地球科学・宇宙科学材料科学

エネルギー・物理学情報科学：システム情報科学：アルゴリズム情報科学：AI

教育産業利用

生物科学・生体力学バイオインフォマティクス社会科学・経済学

データ科学・データ同化

地球科学・

宇宙科学エネル

ギー・

物理学

材料科学バイオインフォマ

ティクス・ゲノム解析

生物科学生体力学

データ科学

バイオインフォマティクス・ゲノム解析

エネルギー・

物理学

工学・

ものづくり

地球科学・

宇宙科学材料科学

生物科学生体力学

(53)

Reedbush システム

Reedbush-U

2016年7月1日試験運転開始 2016年9月1日正式運用開始 2020年6月30日運用終了

Reedbush-H

2017年3月1日試験運転開始 2017年4月3日正式運用開始

Reedbush-L

2017年10月2日試験運転開始 2017年11月1日正式運用開始 Top500: RB-L 291位@Nov. 2017

RB-H 203位@Jun. 2017 RB-U 361位@Nov. 2016 Green500: RB-L 11位@Nov. 2017

RB-H 11位@Jun. 2017

(54)

外部接続ルータ 1Gigabit/10Gigabit Ethernet Network

InterConnect( 4x EDR InﬁniBand) InterConnect( 4x EDR InﬁniBand)

ログインノード群 SGI Rackable C1110-GP2

6nodes

NFS Filesystem 16TB

Lustre Filesystem DDN SFA14KE x3set

5.04PB

高速キャッシュ DDN IME14K x6set

209TB NAS Storage

24TB E5-2680v4 2.4GHz

14core,256GiB Mem

管理サーバ群 SGI Rackable C1110-GP2

9nodes

GbE SW x6

x6 x2

x2(for PBS)

Reedbush-H x240 (FDRx2/node) Reebush-U

x420

x36(IME:6x6) x24(OSS(VM):x 12 x2)

x4(MDS:x 2)

x12

高速キャッシュ DDN IME240 x8set

153.6 TB

管理用補助 SGI Rackableサーバ C1110-GP2 x2

x16(IME:8x2) x2

x12

x8 x2

x10(Ctrl:8,MDS:2)

Reedbush-L x128( EDR x2/node) x4

x6 x9

x4 x9

x64 x120 x420

x9

Management port 管理コンソール

Mac Pro 電力管理サーバ

電力計器

Reedbush-U

SGI Rackable C2112-4GP3

420 nodes, 508.03TFLOPS

・CPU : E5-2695v4 2.1GHz 18core

Reedbush-H

SGI Rackable C1102-GP8

120 nodes, 240GPUs, 1.418PFLOPS

・GPU : NVIDIA Tesla P100 SXM2 x2/node

Reedbush-L

SGI Rackable C1102-GP8

64 nodes, 256GPUs, 1.434PFLOPS

・GPU : NVIDIA Tesla P100 SXM2 x4/node E5-2680v4 2.4GHz

14core,128GiB Mem

ライフ／管理ネットワーク 1Gigabit/10Gigabit Ethernet Network

スパコンプログラミング

スパコンプログラミング (1), (I) ガイダンス

ガイダンスの流れ

0. Zoom

Zoom の使い方

本講義の目的

高性能計算の研究者として生き残るための、

最低限の技術を習得する

情報基盤センターのスーパーコンピュータ利用法

並列化手法と MPI の使い方

高性能計算手法

上記技術の習得により、受講生の分野の研究を 格段に進めることを目的とする

計算科学アライアンス認定講義（カテゴリー D)

本講義のシラバス上での位置付け

• スパコンプログラミング（１）

• スパコンプログラミング（Ⅰ）

• 他学部の学生、他大学院の大学院生も受講できます

• 本科目は、夏学期、冬学期の通年科目です

講師紹介

講義日程（工学部共通科目 ）

評価方法

2016 年度以降

2019 年度以降

2019(

31)

S1S2

2019(

)

A1A2

2020(

2)

S1S2

講義の様子

• Ｃ言語（もしくは Fortran 言語）とＭＰＩを用いて実習

• ほとんどが、並列化の課題実行時で脱落

50

講義の流れ

• 次次回から、情報基盤センタのスーパーコン ピュータ（ Oakforest-PACS スーパーコン

ピュータシステム）を利用します。

• 10 月 13 日（火）の講義中に、

アカウント名とパスワードを ITC-LMS により配 布する予定です。必ず出席してください。

• 最終回に GPU クラスタ (Reedbush-H) も使い

ます。

講義資料について

• 以下の資料を参照してください。

l 講義スライドの PDF ファイル

http://www.cspp.cc.u-tokyo.ac.jp/hanawa/class/

l ITC-LMS

演習のための準備

LMS

↑

10/6

↑

10/12

参考書

ISBN-13: 978-4130634557、

発売日：2015年2月18日、176頁

分かりやすく解説しています。

•

•

•

教科書（演習書）

発売日：2013年3月12日、判型:A5, 200頁

C言語で解説

C言語、Fortran90言語のサンプルプログラムが付属

数値アルゴリズムは、図でわかりやすく説明

教科書（演習書）

発売日： 2015年5月25日

C言語、Fortran90言語で解説

C言語、Fortran90言語の複数のサンプルプログラムが 入手可能（ダウンロード形式）

Windows PC演習可能(Cygwin利用)。スパコンでも演習可能。

入門書

参考書

教科書（スパコンプログラミング入門）

の利用方法

付属の演習プログラムの利用について

PC

MPI

イントロダクション

スーパーコンピュータとは

上記技術の習得により、受講生の分野の研究を格段に進めることを目的とする

講義日程（工学部共通科目）

• 次次回から、情報基盤センタのスーパーコンピュータ（ Oakforest-PACS スーパーコン

アカウント名とパスワードを ITC-LMS により配布する予定です。必ず出席してください。

C言語、Fortran90言語の複数のサンプルプログラムが入手可能（ダウンロード形式）

米 Intel 社の設立者ゴードン・ムーアが提唱した、半導体技術の進歩に関する経験則。

• 米国オークリッジ国立研究所／テネシー大学ノックスビル校の Jack Dongarra 教授が発案

（他にも〇〇 500 がいろいろある）

Top500 ランキング（ 2020 年 6 月現在）