• 検索結果がありません。

スパコンプログラミング

N/A
N/A
Protected

Academic year: 2021

シェア "スパコンプログラミング"

Copied!
76
0
0

読み込み中.... (全文を見る)

全文

(1)

スパコンプログラミング (1), (I) ガイダンス

東京大学 情報基盤センター 准教授 塙 敏博

2020年9月29日(火)10:25 - 12:10

(2)

ガイダンスの流れ

0. Zoom

の使い方

1. 講義の目的

2. 講師紹介

3. 講義日程の確認

4. 成績の評価方法

5. イントロダクション(残り時間)

(3)

Zoom の使い方

https://utelecon.github.io

[email protected] Zoomにアカウントを登録してください。

しばらくはZoomへの登録なしでも接続可能にしておきます。

何かあれば、「チャット」に書くか、「手を挙げ」てください。「反応」もwelcome!

チャット 反応

手を挙げる

(4)

本講義の目的

高性能計算の研究者として生き残るための、

最低限の技術を習得する

1.

情報基盤センターのスーパーコンピュータ利用法

2.

並列化手法と MPI の使い方

3.

高性能計算手法

上記技術の習得により、受講生の分野の研究を 格段に進めることを目的とする

計算科学アライアンス認定講義(カテゴリー D)

http://www.compsci-alliance.jp

是非アライアンスへの登録を!http://www.compsci-alliance.jp/学生募集/

要件を満たせば修了証を発行

優先的な海外派遣、国際シンポジウムでの発表

東京大学スパコンのアカウント発行

(5)

本講義のシラバス上での位置付け

• スパコンプログラミング(1)

• 工学部学生対象(共通科目)

• スパコンプログラミング(Ⅰ)

• 工学系研究科大学院生対象(共通科目)

• 他学部の学生、他大学院の大学院生も受講できます

• 本科目は、夏学期、冬学期の通年科目です

• 夏学期、冬学期ともに、同様の講義内容です

(6)

講師紹介

• 名前:塙 敏博(はなわ としひろ)

• 経歴:

19933月 慶應義塾大学 理工学部 電気工学科 卒業

19953月 慶應義塾大学大学院理工学研究科計算機科学専攻修士課程 修了

19983月 慶應義塾大学大学院理工学研究科計算機科学専攻博士課程 修了

19984月 東京工科大学工学部情報工学科 講師

20024月〜20073月 東京工科大学コンピュータサイエンス学部 講師

20074月〜200811月 筑波大学計算科学研究センター 研究員

200812月~201311月 筑波大学システム情報工学研究科 准教授

201312月~201511月 東京大学 情報基盤センター 特任准教授

201512月~現在 情報基盤センター 准教授

20162月〜現在 (兼担)大学院工学系研究科電気系工学専攻

GPUコンピューティング」「スパコン向けネットワーク」などの分野で 活躍中!

詳しくは「塙敏博」でググるといろいろ出てきます

(7)

講義日程(工学部共通科目 )

1. 929(今日): ガイダンス

2. 106

l 並列数値処理の基本演算(座学)

3. 1013日:スパコン利用開始

l ログイン作業、テストプログラム実行 4. 1020

l 高性能プログラミング技法の基礎1

(階層メモリ、ループアンローリン グ)

5. 1027

l 高性能プログラミング技法の基礎2

(キャッシュブロック化)

6. 1110

l 行列-ベクトル積の並列化

7. 1117

l べき乗法の並列化

8. 1124

l 行列-行列積の並列化(1)

9. 121

l 行列-行列積の並列化(2)

10. 128

l LU分解法(1)

l コンテスト課題発表

11. 1215

l LU分解法(2) 、非同期通信

12. 1222

l RB-Hログイン、GPUプログラミ ング(1

13. 15

l GPUプログラミング(2) 、研究 紹介他

(締切:

202121日(月)24時 厳守

(8)

評価方法

1. 実習で出題される課題を解きレポートにして提出

l 加算方式

l 解けば解くほど評価が高まる

l すべての問題を解く必要はない(解けないほど多く出す)

2. コンテスト課題を解く

l 入賞(1位~3位(予定))は、無条件に“優”(予定)

l ちゃんと動作するものをつくれば、実習レポート点に加点

• 1のみ、2のみ、1と2の両方、の選択がある。

• 1と2の両方を行った場合は、当然、加算方式で成績を 決定する。

• 技術の習得が目的、積極的にトライしてほしい

(9)

2016 年度以降

1. 2016(平成28)年度 S1S2

受講申し込み: 37名

レポート課題提出: 22名

優上:1名、優:13名、良:4名、可:3名、うち、コンテスト課題提出者:3名(3名は無条件で優)

2. 2016(平成28)年度 A1A2

受講申し込み: 9名

レポート課題提出: 4名

優:4名、うち、コンテスト課題提出者:2名(2名は無条件で優)

3. 2017(平成29)年度 S1S2

受講申し込み: 60名

レポート課題提出: 40名

優上: 3名、優:18名、良:13名、可:3名、うち、コンテスト課題提出者:5名(3名は無条件で優以上)

4. 2017(平成29)年度 A1A2

受講申し込み: 21名

レポート課題提出: 11名

優:6名、良: 1名、可: 3名、うち、コンテスト課題提出者:1名(1名は無条件で優)

5. 2018(平成30)年度 S1S2

受講申し込み: 37名

レポート課題提出: 15名

優上: 1名、優:5名、良: 8名、可: 0名、うち、コンテスト課題提出者:5名(2名は無条件で優)

6. 2018(平成30)年度 A1A2

受講申し込み: 9名

レポート課題提出: 6名

優上: 1名、優:3名、良: 1名、可: 1名、うち、コンテスト課題提出者:5名(2名は無条件で優)

(10)

2019 年度以降

7.

2019(

平成

31)

年度

S1S2

受講申し込み: 35

レポート課題提出: 15

優上: 1名、優:11名、良: 3名、うち、コンテスト課題提出者:3名(2名は無条 件で優以上)

8.

2019(

令和元

)

年度

A1A2

受講申し込み: 25

レポート課題提出: 16

優:11名、良: 5名、うち、コンテスト課題提出者:3名(1名は無条件で優以上)

9.

2020(

令和

2)

年度

S1S2

受講申し込み: 36

レポート課題提出: 13

優上:1名、優:9名、良: 2名、可:1名、うち、コンテスト課題提出者:2名(2 は無条件で優以上)

(11)

講義の様子

• C言語(もしくは Fortran 言語)とMPIを用いて実習

• ほとんどが、並列化の課題実行時で脱落

• UNIXの基本コマンド、及び、プログラムの基本が わかっていないと厳しい。

• なるべく脱落者を減らしたい

• UNIXの基本コマンドがわかっていない人、プログラムの基本がわ かっていない人は、個別に、集中的に教えるよう配慮しますので、

遠慮なく聞いてください

• 出席を考慮(評価得点全体に対し20%程度)

• その結果:単位取得率は約

50

%前後、ほぼ全員が「優」。

(12)

講義の流れ

• 次次回から、情報基盤センタのスーパーコン ピュータ( Oakforest-PACS スーパーコン

ピュータシステム)を利用します。

• 10 月 13 日(火)の講義中に、

アカウント名とパスワードを ITC-LMS により配 布する予定です。必ず出席してください。

• 最終回に GPU クラスタ (Reedbush-H) も使い

ます。

(13)

講義資料について

• 以下の資料を参照してください。

l 講義スライドの PDF ファイル

http://www.cspp.cc.u-tokyo.ac.jp/hanawa/class/

l ITC-LMS

https://itc-lms.ecc.u-tokyo.ac.jp/lms/course?idnumber=2020FEN- CO4d11L10J01

(14)

演習のための準備

1. 事前に登録をお願いします。

履修登録、LMSの両方が必要(履修登録とLMSは連動している、はず)

2.

LMS

のアンケートに答えてください。

連絡先 (メール、電話番号)

留学生かどうか

利用者番号、パスワードを渡すのにも使います。

10/6

までに行っておくこと

3. スパコンを使うための準備 (別ファイル参照)

Cygwinのインストール (Windowsユーザーのみ)

Mac, Linuxユーザーは 「ターミナル」 / “Terminal” を使用

10/12

までに行っておくこと

(15)

参考書

• 「スパコンを知る:

その基礎から最新の動向まで」

• 岩下武史、片桐孝洋、高橋大介 著

• 東大出版会、ISBN-10: 4130634550、

ISBN-13: 978-4130634557、

発売日:2015年2月18日、176頁

• 【本書の特徴】

• スパコンの解説書です。以下を

分かりやすく解説しています。

スパコンは何に使えるか

スパコンはどんな仕組みで、なぜ速く計算できるのか

最新技術、今後の課題と将来展望、など

(16)

教科書(演習書)

• 「スパコンプログラミング入門

-並列処理とMPIの学習-」

• 片桐 孝洋 著、

• 東大出版会、ISBN978-4-13-062453-4、

発売日:2013年3月12日、判型:A5, 200頁

• 【本書の特徴】

C言語で解説

C言語、Fortran90言語のサンプルプログラムが付属

数値アルゴリズムは、図でわかりやすく説明

• 本講義の内容を全てカバー

• 内容は初級。初めて並列数値計算を学ぶ人向けの入門書

(17)

教科書(演習書)

• 「並列プログラミング入門:

サンプルプログラムで学ぶOpenMPとOpenACC」

• 片桐 孝洋 著

• 東大出版会、ISBN-10: 4130624563、ISBN-13: 978-4130624565、

発売日: 2015年5月25日

• 【本書の特徴】

C言語、Fortran90言語で解説

C言語、Fortran90言語の複数のサンプルプログラムが 入手可能(ダウンロード形式)

• 本講義の内容を全てカバー

Windows PC演習可能(Cygwin利用)。スパコンでも演習可能。

• 内容は初級。初めて並列プログラミングを学ぶ人向けの

入門書

(18)

参考書

「並列数値処理 - 高速化と性能向上のために -」

金田康正 東大教授 理博 編著、

片桐孝洋 東大特任准教授 博士(理学) 著、黒田久泰 愛媛大准教授 博士(理学) 著、山本有作 神戸大教授 博士(工学) 著、 五百木伸洋

㈱日立製作所 著、

コロナ社、発行年月日:2010/04/30 , 判 型: A5, ページ数:272頁、

ISBN:978-4-339-02589-7, 定価:3,990円 (本体3,800円+税5%)

【本書の特徴】

Fortran言語で解説

数値アルゴリズムは、数式などで厳密に説明

本講義の内容に加えて、固有値問題の解法、疎行列反復解法、FFT、

ソート、など、主要な数値計算アルゴリズムをカバー

内容は中級~上級。専門として並列数値計算を学びたい人向き

(19)

教科書(スパコンプログラミング入門)

の利用方法

• 本講義の全内容、演習内容をカバーした資料

• 教科書というより、実機を用いた並列プログラミングの 演習書として位置づけられている

使える並列計算機があることが前提

付属の演習プログラムの利用について

1. 東京大学情報基盤センターのFX10スーパーコンピュータ システムでそのまま利用する

2. 研究室のPCクラスタ(MPIが利用できるもの)で利用する

3. 東大以外の大学等のスーパーコンピュータで利用する

• 各自の

PC

を用いて、(

MPI

ではない)逐次プログラムで 演習する(主に逐次プログラムの高速化の話題)

(20)

イントロダクション

スパコンとは何か?

(21)

スーパーコンピュータとは

人工知能搭載のコンピュータではない、量子コンピュータでもない

明確な定義はない

現在の最高レベルの演算性能をもつ計算機のこと

経験的には、PCの1000倍高速で、1000倍大容量なメモリをもつ計算機

法令では

「外国為替及び外国貿易法」=>「輸出貿易管理令」(政令)=>

輸出貿易管理令別表第一及び外国為替令別表の規定に基づき貨物又は技術を定める省令」

(令和2114日経済産業省令)の規制対象デジタル電子計算機

第7条第三項ハ:デジタル電子計算機であって、

加重最高性能が29実効テラ演算を超えるもの

スーパーコンピュータ導入手続 (平成26331日申し合わせ, 令和元年1223 一部改正)

I 適用範囲 3. この手続は下記の理論的最高性能を有するスーパーコン ピューターの導入に適用されるが、この対象範囲は必要に応じ見直すことと する。

• 2.0 PFLOPS以上(20191223日以降)

• 2.4 PFLOPS以上(20201223日以降)

• 2.88 PFLOPS以上(20211223日以降)

これまで50TFだったのが ようやくまともな数字に

(20% / )

(22)

スパコンの分類 (1)

現在のすべてのスーパーコンピュータは並列計算機:多数のCPU 接続することで高性能化を実現

MPP (Massively Parallel Processor)

スパコン専用機:富士通PRIMEHPC-FXシリーズ、Cray XCシリーズなど

専用のノード間ネットワーク(インタコネクト): 富士通TOFU, Cray Aries, Cray Slingshot (単独販売されない)

クラスタ

多数のサーバをネットワークで結合して1システム化したもの

ノード間ネットワーク:InfiniBand, Intel OmniPathなどコモディティ製品

Ethernetはあまり使われない

以下は(スパコンとしては)絶滅に近い:

ベクトル

NEC SXシリーズ (SX-ACE以前): メモリシステム周辺のコストが大きすぎる

=> SX-Aurora TSUBASAでアクセラレータへ

SMP (Symmetric Multi Processor)

共有メモリマシン:HP (SGI) UVシリーズ、256CPU程度まで,これ以上大きくできない

(23)

• アクセラレータ

搭載の有無

GPU

NVIDIA Tesla

AMD Radeon Instinct

NEC SX-Aurora TSUBASA

PEZY-SC2

PCI Express ボード

=> 専用インタフェース

東大ITCのGPU搭載スパコン、

Reedbush-Lの構成

スパコンの分類 (2)

(24)

スーパーコンピュータで用いる単位

TFLOPS

(テラ・フロップス、

Tera Floating Point Operations Per Second

1秒間に1回の演算能力(浮動小数点)が1FLOPS。

K(キロ)は1,000(千)、M(メガ)は1,000,000(百万)、G(ギガ)は1,000,000,000

(十億)、T(テラ)は1,000,000,000,000(一兆)

だから、一秒間に一兆回の浮動小数点演算の能力がある こと。

PFLOPS

(ぺタ・フロップス)

1秒間に0.1京(けい)回の浮動小数点演算の能力がある。

「京コンピュータ」(20129月共用開始〜20198月、11.2PFLOPS l PCの演算能力は?

l 2.3GHz(1秒間に23億回のクロック周波数)として、もし1クロックあたり1回の 浮動小数点演算ができれば2.3 GFLOPS

l Intel 10世代 Core i7-10875H (Comet Lake)では、8コア、1クロックで16個の浮 動小数計算ができるので、2.3 GHz * 16浮動小数点演算/Hz * 8コア = 294.4 GFLOPS

l Cray-1は160MFLOPS。 1970年代のスパコンより、PCの方が1840倍高速!

(25)

スーパーコンピュータの評価指標

• 理論ピーク性能(

Theoretical Peak Performance

ハードウェア性能からはじき出した性能。

1クロックに実行できる浮動小数点回数から算出した FLOPS値を使うことが多い。

• 実効性能(

Effective Performance

何らかのベンチマークソフトウエアを実行して実行時間を計測。

そのベンチマークプログラムに使われている浮動小数点演算 を算出。

以上の値を基に算出したFLOPS値のこと。

連立一次方程式の求解ベンチマークであるLINPACK、共役勾配法 (CG 法)の求解ベンチマークであるHPCGが広く使われている。

• 浮動小数点以外のベンチマークも多数(後述)

(26)

Linpack性能

1500位の合計

500

1 太湖之光(TaihuLight) 天河2(Tianhe-2)

京コンピュータ

Sequoia

Titan

http://www.top500.org/ より Summit 富岳

LINPACK ベンチ

マークでの

500 位までのランキ

ング

連立一次方程式

の求解

( 密行列 )

大体

4

年で

10 倍

性能向上が近 年は鈍化傾向

(27)

ムーアの法則

米 Intel 社の設立者ゴードン・ムーアが提唱した、半導体技術の進 歩に関する経験則。

「半導体チップの集積度は、およそ

18

ヵ月で2倍になる」

• これから転じて、

「マイクロプロセッサの性能は、およそ

18

ヵ月で2倍になる」

上記によると、約5年で 10 倍となる。

正確には、デナード則

(28)

スーパーコンピュータのランキング (1)

• TOP500 ( http://www.top500.org/ )

• LINPACK の値から実効性能を算出した値の 500 位までのランキング

• 米国オークリッジ国立研究所/テネシー大学 ノックスビル校の Jack Dongarra 教授が発案

• 毎年 6 月 @ ドイツの国際会議 ISC 、 11 月 @ 米国の国際会議 SC で更新

(他にも 〇〇 500 がいろいろある)

(29)

スーパーコンピュータのランキング (2)

• Green500 ( http://www.green500.org/ )

• Top500 に登録されたシステムのうち、電力当たり

性能でのランキング

Linpack

実行中の電力を測定、性能

/ 電力 =FLOPS/W

• HPCG (http://www.hpcg-benchmark.org/)

• 共役勾配法 (CG 法 ) によるベンチマーク

• 疎行列なので密行列の Linpack よりメモリアクセス

がボトルネックに、現実のアプリに近い

(30)

スーパーコンピュータのランキング (3)

• Graph500 ( http://graph500.org/ )

大規模グラフ探索を解き、 TEPS (Traversed Edges Per Second) でランキング

幅優先探索 (BFS) に加えて、 2017/11 から

SSSP (Single Source Shortest Paths) も追加に

Green Graph500 というのもある(過去形?)

• IO500 (http://www.io500.org/)

ストレージの性能(以下の幾何平均)

• メタデータ性能 (IOPS)

• バンド幅 (GB/sec)

• 2017/11 から

(31)

http://www.top500.org/

Site Computer/Year Vendor Cores Rmax

(TFLOPS)

Rpeak

(TFLOPS)

Power (kW)

1 Fugaku, 2020, Japan R-CCS, RIKEN

Fujitsu PRIMEHPC FX1000, Fujitsu A64FX 48C

2.2GHz, Tofu-D 7,299,072 415,530

(= 415.5 PF) 513,854.7 28,335 2 Summit, 2018, USA

DOE/SC/Oak Ridge National Laboratory

IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

2,414,592 148,600 200,795 10,096

3 Sierra, 2018, USA DOE/NNSA/LLNL

IBM Power System S922LC, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

1,572,480 94,640 125,712 7,438

4 Sunway TaihuLight, 2016, China National Supercomputing Center in Wuxi

Sunway MPP, Sunway SW26010 260C 1.45GHz,

Sunway 10,649,600 93,015 125,436 15,371

5 Tianhe-2A, 2018, China

National Super Computer Center in Guangzhou

TH-IVB-FEP Cluster, Intel Xeon E5-2692v2 12C

2.2GHz, TH Express-2, Matrix-2000 4,981,760 61,445 100,679 18,482 6 HPC5, 2020, Italy

Eni S.p.A.

Dell C4140, Xeon Gold 6252 24c 2.1GHz, NVIDIA

Volta GV100, Mellanox Infiniband HDR 669,760 35,450 51,720 2,252 7 Selene, 2020, USA

NVIDIA

NVIDIA DGX A100 SuperPOD, AMD EPYC 7742 64C 2.25GHz, NVIDIA GA100, Mellanox Infiniband HDR

277,760 27,580 34,568 1,344 8 Frontera, 2019, USA

Texas Advanced Computing Center

Dell C6420, Xeon Platinum 8280 28c 2.7GHz,

Mellanox Infiniband HDR 448,448 23,516 38,746

9 Marconi-100, 2020, Italy Cineca

IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband

347,776 21,640 29,354 1,476

10 Piz Daint, 2017, Switzerland Swiss National Supercomputing Centre (CSCS)

Cray XC50, Xeon E5-2690v3 12C 2.6GHz, Aries

interconnect , NVIDIA Tesla P100 387,872 21,230 27,154 2,384

18 Oakforest-PACS, 2016, Japan Joint Center for Advanced HPC

PRIMERGY CX1640 M1, Intel Xeon Phi 7250 68C

1.4GHz, Intel Omni-Path 556,104 13,556 24,913 2,719

Rpeak: Peak Performance (TFLOPS), Power: kW

2020/6/23

(32)

http://www.hpcg-benchmark.org/

Computer Cores HPL Rmax

(Pflop/s)

TOP500 Rank

HPCG (Pflop/s)

1 Fugaku 7,299,072 415.530 1 13.400

2 Summit 2,414,592 148.600 2 2.926

3 Sierra 1,572,480 94.640 3 1.796

4 HPC5 669,760 35,450 6 0.860

5 Trinity 979,072 20.159 11 0.546

6 Selene 277,760 27.580 7 0.509

7 ABCI 391,680 19.880 12 0.509

8 Piz Daint 387,872 21.230 10 0.497

9 Sunway TaihuLight 10,649,600 93.015 4 0.481

10 Nurion (KISTI, Korea) 570,020 13.929 18 0.391

11 Oakforest-PACS 556,104 13.555 19 0.385

2020/6/23

(33)

Green 500 Ranking (Jun., 2020)

TOP 500 Rank

System Accelerator Cores HPL Rmax

(Pflop/s)

Power (kW)

GFLOPS/

W 1 394 MN-3, Preferred Networks, Japan MN-Core 2,080 1.621 77 21.108 2 7 Selena, NVIDIA, USA NVIDIA A100 277,760 27.580 1,344 20.518

3 469 NA-1, PEZY, Japan PEZY-SC2 1,271,040 1.303 80 *18.433

4 205 A64FX Prototype, Fujitsu, Japan 36,864 1.999 118 16.876

5 27 AiMOS, USA NVIDIA V100 130,000 8.339 512 16.285

6 6 HPC5, Italy NVIDIA V100 669,760 35.450 2,252 15.740

7 422 Satori, USA NVIDIA V100 34,040 1.464 94 15.574

8 2 Summit, USA NVIDIA V100 2,414,592 148.6 10,096 14.719

9 1 Fugaku, Fujitsu, Japan 7,299,072 415.53 28,335 14.665

10 9 Marconi-100, Italy NVIDIA V100 347,776 21.64 1,476 14.671

(13)

Nov.’17

Reedbush-L, U.Tokyo, Japan NVIDIA P100 16,640 806 79 10.167

(19) Reedbush-H, U.Tokyo, Japan NVIDIA P100 17,760 802 94 8.576

2020/6/23

(34)

Site Computer File system Client nodes/

procs IO500 Score BW

(GiB/s)

MD

kIOP/s)

1 Intel Wolf Intel

DAOS

52

1664 1792.98 371.67 8649.57

2 WekaIO WekaIO on AWS WekaIO

WekaIO Matrix

345

8625 938.95 174.74 5045.33

3 TACC, US Frontera Intel

DAOS 60

1440 763.80 78.31 7449.56

4 ANL, US Presque ANL

DAOS

16

544 537.31 108.19 2668.57 5 NSC Changsha,

China Tianhe-2E NUDT

Lustre 480

5280 453.68 209.43 982.78

6 KISTI, Korea NURION DDN IME 2048

2048 282.45 515.59 154.74 7 Oracle Cloud

Infrastructure

BeeGFS on Oracle Cloud

Oracle Cloud Infrastructure BeeGFS

270

3240 267.25 293.05 243.73

8 NVIDIA, US DGX-2H SuperPod DDN Lustre 10

400 249.50 86.97 715.76

9 University of

Cambridge, UK Data Accelerator Dell EMC Lustre 128

2048 229.45 131.25 401.13

10 CEA, France Tera-1000 DDN

Lustre

128

4096 210.26 81.01 545.74

11 JCAHPC, Japan Oakforest-PACS DDN IME 512

4096 175.85 348.95 88.62

2020/9/29

(35)

Top500 ランキング ( 2020 年 6 月現在)

その他日本のマシン 100位以内

l 12位 産総研:AI Bridging Cloud 19.88 PFLOPS

l 27位 東工大: TSUBAME3.0 8.12 PFLOPS

l 36位 名古屋大: 不老(FX1000) 6.61 PFLOPS

l 41,42位 気象庁 5.73 PFLOPS x2

l 53位 九州大:ITO 4.54 PFLOPS

l 59位 東京大:Oakbridge-CX 4.29 PFLOPS

l 60位 ??どこかの研究所 4.13 PFLOPS

l 67位 さくらインターネット 3.71 PFLOPS

l 83位JAXA: SORA-MA 3.15 PFLOPS

l 87位NIMS: Numerical Materials Simulator

3.08 PFLOPS

l 89位 京都大: Camphor2 3.05 PFLOPS

東京大学内のマシン

l 59位 情報基盤センター:Oakbridge-CX 4.29 PFLOPS

l 477位 物性研: Sekirei 1.178 PFLOPS

l 436位 物性研: Sekirei-ACC 0.864 PFLOPS

l 411位 情報基盤センター:

Reedbush-L 0.805 PFLOPS

l 414位 情報基盤センター:

Reedbush-H 0.802 PFLOPS

(36)

理研計算科学研究センター(神戸ポートアイランド)

2021年4月共用開始予定

CPU: A64FX (3.3792 TFLOPS)

2020年6月 Top500

理論性能: 513.8 PFLOPS ( = 0.5 EFLOPS)

実効性能: 415.5 PFLOPS (効率80%、調整中)

HPL-AI: 1.421 EFLOPS (全体の79.7%使用、倍+単+半精度)

https://www.riken.jp/pr/news/2020/20200623_3/

https://www.riken.jp/pr/news/2020/20200623_2/

(37)

スーパーコンピュータ「富岳」概要

システム全体

ラック数 432

ノード数 158,976

384ノード x 396ラック

192ノード x 36ラック

総演算性能: 537 PFLOPS (倍精度)

1.07 EFLOPS (単精度) 2.15 EFLOPS (半精度) 4.30 EFLOPS (整数8bit)

総メモリ容量: 4.85 PiB

総メモリバンド幅: 163 PB/s

インタコネクト: Tofu-D

6次元トーラス

ストレージ

1st一時ファイルシステム: SSD搭載

2ndFEFS (Lustreベース)

3rd 商用クラウドストレージ (Oracle Cloud Infrastructure)

ノード単体

命令セット: Arm v8.2-A SVE 512bit (+ 士通拡張)

コア数: 48 + 2 or 4アシスタントコア

4 CMG (Core Memory Group)

クロック周波数: 2GHz-2.2GHz (ブースト モード)

性能:3.072 – 3.3792TFLOPS (倍精度)

単精度 x2倍, 半精度 x4倍, int8 x8倍

メモリ: HBM2 32 GB, 1024GB/s

ネットワーク インタフェース: Tofu-D

28 Gbps x 2 lane x 10 port

https://www.fujitsu.com/jp/Images/the-tofu-interconnect-d.pdf

https://www.r-ccs.riken.jp/jp/fugaku/overview.html

(38)

Summit @ ORNL

• 米国エネルギー省

(DoE)

オークリッジ国立研究所

• ピーク

>200 PF, Linpack 148.6 PF

4,608

ノード

(

ノード当たり:

V100 x6

+ Power 9 x2

ソケット

)

IBM AC922

Sierra, Lassen V100 x4

InfiniBand EDR (100 G) x 2port

参考:https://www.olcf.ornl.gov/olcf-resources/compute-systems/summit/

(39)

Sunway Taihulight 神威太湖之光

• 中国・無錫

(Wuxi)

国立スパコンセンター

(NRCPC)

• ピーク

125.4 PF, Linpack 93.0 PF, 40960

ノード

Sunway

SW26010

260コアのメニーコアプロセッサ (1+64コア)*4クラスタ, 1.45GHz

ピーク性能:3.06TF

メモリバンド幅:136.5 GB/s

• インタコネクト:

InfiniBand FDR (56 Gbps)

参考:Top500, HPCWire Japan, PCwatch

(40)

Piz Daint @ CSCS

• スイス

ETH Zurich

内の国立スパコンセンター

• ピーク

33.8 PF, Linpack 19.5 PF (2017 upgrade)

5,320 (P100 + Xeon Haswell) + 1,431 Xeon Broadwell

Cray XC50 + XC40

参考:https://www.cscs.ch/publications/news/piz-daint-one-of-the-most- powerful-supercomputers-in-the-world/

(41)

Cori @ NERSC

NERSC:

米国エネルギー省

(DoE)

ローレンスバークレー国立研究所

(LBNL)

1

組織

National Energy Research Scientific Computing Center

9,688 Intel Xeon Phi (KNL),

ピーク性能

30 PF + 2,388 Intel Xeon (Haswell)

Cray XC40 システム

Gerty Cori:

生化学者、アメリカ女性最初のノーベル賞受賞者

(42)

TSUBAME3.0

HPE ICE-XA

CPU: Intel Xeon E5-2680v4 2.4 GHz (14 cores) x 2

(Hyperthreading enabled)

GPU: NVIDIA Tesla P100 x 4

Intel OmniPath x4 (400G)

Memory: 256GB

540台

参考:http://www.t3.gsic.titech.ac.jp/sites/default/files/guidance.pdf

(43)

今後登場するエクサスケールシステム

2021? Perlmutter @ NERSC, 米国Lawrence Berkeley国立研究所

AMD EPYC CPU+NVIDIA Tesla A100 GPU

現在の3=100 PF を超える (pre-Exa)

https://www.nersc.gov/systems/perlmutter/

2021 Aurora @ 米国Argonne国立研究所

Intel Xeon CPU (Sapphire Rapids) + Intel GPU Xe(Ponte Vecchio)

1 Exa Flopsを超える

https://press3.mcs.anl.gov/aurora/

2021 Frontier @ 米国Oak Ridge国立研究所

AMD EPYC CPU + AMD Radeon Instinct GPU

1.5 Exa Flopsを超える

https://www.olcf.ornl.gov/frontier/

2022 El Capitan @ 米国Lawrence Livermore国立研究所

AMD EPYC CPU Zen4 ”Genoa”+ AMD Radeon Instinct GPU

2 Exa Flopsを超える

https://www.llnl.gov/news/llnl-and-hpe-partner-amd-el-capitan-projected-worlds- fastest-supercomputer

中国(Exascaleを3機種開発中?詳細不明) : NUDT, Sugon, NRCPC

EUも計画あり

(44)

コンピューティングインフラ ・ (HPCI)

文部科学省委託事業

http://www.hpci-office.jp/

• 使命:我が国における

計算資源(スパコン,

大規模ストレージ(東西拠点))

計算科学推進(

HPCI

戦略プログラム

ポスト京重点課題)

• HPCI コンソーシアム( 2012 ~)

– HPCI

計算資源運用

産官学

資源提供者・利用者によるコミュニティ

– 2012

年度発足

一般社団法人日本流体力学会 財団法人計算科学振興財団

特定非営利活動法人バイオグリッドセンター関西 自然科学研究機構核融合科学研究所

スーパーコンピューティング技術産業応用協議会 神戸大学

東京大学物性研究所計算物質科学研究センター計算物質科 学イニシアティブ(分野2「新物質・エネルギー創成」)

東京大学生産技術研究所(分野4「次世代ものづくり」)

計算基礎科学連携拠点(分野5「物質と宇宙の起源と構造」)

名古屋大学 太陽地球環境研究所

独立行政法人宇宙航空研究開発機構宇宙科学研究所 独立行政法人海洋研究開発機構

一般社団法人日本計算工学会 計算生命科学ネットワーク

情報基盤センター群以外の会員リスト

国立研究開発法人理化学研究所計算科学研究機構 高エネルギー加速器研究機構 共通基盤研究施設・計算科学 センター

情報・システム研究機構 国立情報学研究所 一般財団法人高度情報科学技術研究機構 筑波大学 計算科学研究センター 大阪大学 核物理研究センター

国立研究開発法人産業技術総合研究所 情報技術研究部門 東京大学 物性研究所

東北大学 金属材料研究所

情報・システム研究機構 統計数理研究所

自然科学研究機構分子科学研究所 計算科学研究センター 独立行政法人宇宙航空研究開発機構 情報計算工学セン

2020/9/29 ター

スパコンプログラミング (1), (I)

(45)

東大のみ20208月末時点

スパコンプログラミング(1), (I)

BDEC 40+PF

(46)

共同利用共同研究拠点( JHPCN

• https://jhpcn-kyoten.itc.u-tokyo.ac.jp/ja/

• 北大・東北大・東大・東工大・名大・京大・阪大・九大の各 大型計算機センター

• 公募型共同研究によって, OFP , Reedbush-H/L, OBCX を無料で使用可能

• 計算科学・計算機科学の分野型横断研究

• 各センター教員との共同研究が多い

• 国際共同研究,企業共同研究等の制度もあり

2020/9/29 スパコンプログラミング (1), (I) 46

(47)

文科省委託費

東拠点(東京大学 柏キャンパス)

50PB

西拠点(理研

R-CCS) 50PB

ストレージ

HPCI 共用ストレージ

HPCI共⽤ストレージ東拠点

東京⼤学・柏キャンパス

・データストレージ(総容量 50 PB)

・メタデータサーバ 2 台

・⼤容量メモリサーバ、GPUサーバ等

HPCI共⽤ストレージ⻄拠点

理研R-CCS・神⼾

・データストレージ(総容量 50 PB)

・メタデータサーバ 2 台

・メタデータサーバ 2 台

スパコンプログラミング(1), (I)

(48)

新型コロナウィルス (COVID-19) 感染症対応

• スパコンで早期解決の一助に

創薬:治療薬候補の探索

ウィルスのタンパク質構造予測

ゲノム解析

パンデミック対策

• 米国

https://covid19-hpc-consortium.org

• 日本

「富岳」試行利用 (正式稼働前)

https://www.riken.jp/pr/news/2020/20200407_1/

HPCI(12機関、国立大学+JAMSTEC+産総研) https://www.hpci-office.jp/pages/hpci_covid19

(49)

FY 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Yayoi: Hitachi SR16000/M1 IBM Power-7

54.9 TFLOPS, 11.2 TB

T2K Tokyo

140TF, 31.3TB

Oakforest-PACS Fujitsu, Intel KNL

25PFLOPS, 919.3TB

BDEC System (tentative)

30+ PFLOPS

Oakleaf-FX: Fujitsu PRIMEHPC FX10, SPARC64 IXfx

1.13 PFLOPS, 150 TB

Oakbridge-FX

136.2 TFLOPS, 18.4 TB

Reedbush-L HPE

1.43 PFLOPS

「計算・データ・学習」融合 スーパーコンピュータ

Oakbridge-CX

Intel Xeon CascadeLake

6.61 PFLOPS 大規模超並列

スーパーコンピュータ メニーコア型大規模

スーパーコンピュータ

(JCAHPC:筑波大・東大)

データ解析・シミュレーション 融合スーパーコンピュータ

長時間ジョブ実行用演算加速装置 付き並列スーパーコンピュータ

東大センターのスパコン

2

基の大型システム,

6

年サイクル(?)

RB-H

Reedbush, HPE Broadwell + Pascal

1.93 PFLOPS

(50)

Reedbush (HPE, Intel BDW + NVIDIA P100 (Pascal))

東大ITC初のGPUシステム, DDN IME (Burst Buffer)

データ解析・シミュレーション融合スーパーコンピュータ

Reedbush-U: CPU only, 420 nodes, 508 TF (20167~20206月退役)

Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (20173~2021?)

長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ

Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (201710~2021年?)

Oakforest-PACS (OFP) (

富士通、

Intel Xeon Phi (KNL))

JCAHPC (筑波大CCS&東大ITC)

25 PF, TOP 5009 (201711) (日本で2)

Omni-Path アーキテクチャ, DDN IME (Burst Buffer)

201612月〜

Oakbridge-CX (OBCX) (

富士通、

Intel Xeon Scalable (CascadeLake-SP))

6.61 PF, 1368ノード、うち128ノードにSSD内蔵、Omni-Path

20197~

(51)

Engineering Earth/Space Material

Energy/Physics Info. Sci. : System Info. Sci. : Algrorithms Info. Sci. : AI

Education Industry

BioBioinformatics

Social Sci. & Economics Data

Engineering Earth/Space Material

Energy/Physics Info. Sci. : System Info. Sci. : Algrorithms Info. Sci. : AI

Education Industry

BioBioinformatics

Social Sci. & Economics マルチコアクラスタ Data

Intel BDW Only (Reedbush-U)

GPUクラスタ

Intel BDW + NVIDIA P100 (Reedbush-H)

工学・

ものづくり

地球科学・

宇宙科学

材料科学 エネルギー・

物理学 生物科学

生体力学

情報科学:AI 工学・

ものづくり バイオインフォマ

ティクス・医療画像 処理・ゲノム解析 情報科学:

アルゴリズム.

材料科学

工学・ものつくり 地球科学・宇宙科学 材料科学

エネルギー・物理学 情報科学:システム 情報科学:アルゴリズム 情報科学:AI

教育 産業利用

生物科学・生体力学 バイオインフォマティクス 社会科学・経済学

データ科学・データ同化

社会科学 経済学

(52)

Engineering Earth/Space Material

Energy/Physics Info. Sci. : System Info. Sci. : Algrorithms Info. Sci. : AI

Education Industry

BioBioinformatics

Social Sci. & Economics Data

Engineering Earth/Space Material

Energy/Physics Info. Sci. : System Info. Sci. : Algrorithms Info. Sci. : AI

Education Industry

BioBioinformatics

Social Sci. & Economics マルチコアクラスタ Data

Intel CLX

(Oakbridge-CX) メニィコアクラスタ

Intel Xeon Phi (Oakforest-PACS)

工学・ものつくり 地球科学・宇宙科学 材料科学

エネルギー・物理学 情報科学:システム 情報科学:アルゴリズム 情報科学:AI

教育 産業利用

生物科学・生体力学 バイオインフォマティクス 社会科学・経済学

データ科学・データ同化

地球科学・

宇宙科学 エネル

ギー・

物理学

材料科 バイオインフォマ

ティクス・ゲノム解

生物科学 生体力学

データ科学

バイオインフォマ ティクス・ゲノム解

エネルギー・

物理学

工学・

ものづくり

地球科学・

宇宙科学 材料科学

生物科学 生体力学

(53)

Reedbush システム

Reedbush-U

201671日 試験運転開始 201691日 正式運用開始 2020630日 運用終了

Reedbush-H

201731日 試験運転開始 201743日 正式運用開始

Reedbush-L

2017102日 試験運転開始 2017111日 正式運用開始 Top500: RB-L 291@Nov. 2017

RB-H 203@Jun. 2017 RB-U 361@Nov. 2016 Green500: RB-L 11@Nov. 2017

RB-H 11@Jun. 2017

(54)

外部接続ルータ 1Gigabit/10Gigabit Ethernet Network

InterConnect( 4x EDR InfiniBand) InterConnect( 4x EDR InfiniBand)

ログインノード群 SGI Rackable C1110-GP2

6nodes

NFS Filesystem 16TB

Lustre Filesystem DDN SFA14KE x3set

 5.04PB

高速キャッシュ DDN IME14K x6set

209TB NAS Storage

24TB E5-2680v4 2.4GHz

 14core,256GiB Mem

管理サーバ群 SGI Rackable C1110-GP2

9nodes

GbE SW x6

x6 x2

x2(for PBS) 

Reedbush-H x240 (FDRx2/node) Reebush-U

x420

x36(IME:6x6)  x24(OSS(VM):x 12 x2) 

x4(MDS:x 2) 

x12

高速キャッシュ DDN IME240 x8set

153.6 TB

管理用補助 SGI Rackableサーバ C1110-GP2 x2

x16(IME:8x2) x2

x12

x8 x2

x10(Ctrl:8,MDS:2)

Reedbush-L x128( EDR x2/node)  x4

x6 x9

x4 x9

x64 x120 x420

x9

Management port 管理コンソール

Mac Pro 電力管理サーバ

電力計器

Reedbush-U

SGI Rackable  C2112-4GP3

420 nodes, 508.03TFLOPS

・CPU : E5-2695v4 2.1GHz 18core 

Reedbush-H

SGI Rackable C1102-GP8

120 nodes, 240GPUs, 1.418PFLOPS

・CPU : E5-2695v4 2.1GHz 18core 

・GPU : NVIDIA Tesla P100 SXM2 x2/node

Reedbush-L

SGI Rackable C1102-GP8

64 nodes, 256GPUs,  1.434PFLOPS

・CPU : E5-2695v4 2.1GHz 18core 

・GPU : NVIDIA Tesla P100 SXM2 x4/node E5-2680v4 2.4GHz

 14core,128GiB Mem

 1Gigabit/10Gigabit Ethernet Network 

参照

関連したドキュメント

ADF5902 は、24GHz 電圧制御発振器(VCO)を内蔵した 24GHz トランスミッタ(Tx )モノリシック・マイクロ波集積回路.

From this figure it is clear that the counter-propagation network is composed of three layers: an input layer that reads input patterns from the training set and forwards them to

0.1uF のポリプロピレン・コンデンサと 10uF を並列に配置した 100M

0 500 1000 1500 2000 2500 3000 3500

供試体の採取頻度は、大口径(既設管口径 800mm 以上)の場合は注入日ごとに、小口径(既設管 口径 800mm

1 PWM_PH1H PWM1H to gate−driver 2 PWM_PH1L PWM1L to gate−driver 3 PWM_PH2H PWM2H to gate−driver 4 PWM_PH2L PWM2L to gate−driver 5 PWM_PH3H PWM3H to gate−driver 6 PWM_PH3L PWM3L

[r]

直接線評価 :幅約 8.0m,奥行約 16.0m,高さ約 3.2m スカイシャイン線評価 :幅約 112.5m,奥行約 27.6m,高さ約 3.2m (5)