• 検索結果がありません。

スパコンプログラミング

N/A
N/A
Protected

Academic year: 2021

シェア "スパコンプログラミング"

Copied!
55
0
0

読み込み中.... (全文を見る)

全文

(1)

スパコンプログラミング (1), (I) ガイダンス

東京大学 情報基盤センター 准教授 塙 敏博

2017年9月27日(水)10:25 - 12:10

(2)

ガイダンスの流れ

1.

講義の目的

2.

講師紹介

3.

講義日程の確認

4.

成績の評価方法

5.

計算機利用申請

6.

イントロダクション(30分)

(3)

本講義の目的

高性能計算の研究者として生き残るための、

最低限の技術を習得する

1.

情報基盤センターのスーパーコンピュータ利用法

2.

並列化手法と

MPI

の使い方

3.

高性能計算手法

上記技術の習得により、受講生の分野の研究を 格段に進めることを目的とする

計算科学アライアンス認定講義(カテゴリー

D)

http://www.compsci-alliance.jp

是非アライアンスへの登録を!http://www.compsci-alliance.jp/学生募集/

要件を満たせば修了証を発行

優先的な海外派遣、国際シンポジウムでの発表

東京大学スパコンのアカウント発行

(4)

本講義のシラバス上での位置付け

スパコンプログラミング(1)

工学部学生対象(共通科目)

スパコンプログラミング(Ⅰ)

工学系研究科大学院生対象(共通科目)

他学部の学生、他大学院の大学院生も受講できます

本科目は、夏学期、冬学期の通年科目です

夏学期、冬学期ともに、同様の講義内容です

(5)

講師紹介

名前:塙 敏博(はなわ としひろ)

経歴:

19933月 慶應義塾大学 理工学部 電気工学科 卒業

19953月 慶應義塾大学大学院理工学研究科計算機科学専攻修士課程 修了

19983月 慶應義塾大学大学院理工学研究科計算機科学専攻博士課程 修了

19984月 東京工科大学工学部情報工学科 講師

20024月〜20073月 東京工科大学コンピュータサイエンス学部 講師

20074月〜200811月 筑波大学計算科学研究センター 研究員

200812月~201311月 筑波大学システム情報工学研究科 准教授

201312月~201511月 東京大学 情報基盤センター 特任准教授

201512月~現在 情報基盤センター 准教授

20162月〜現在 (兼担)大学院工学系研究科電気系専攻

GPUコンピューティング」「スパコン向けネットワーク」などの分野で 活躍中!

詳しくは「塙敏博」でググるといろいろ出てきます

(6)

講義日程( 工学部共通科目)

1. 9

27

(

今日

)

: ガイダンス

2. 10

4

l 並列数値処理の基本演算(座学)

3. 1011日:スパコン利用開始

l ログイン作業、テストプログラム実行

4. 10

18

l 高性能プログラミング技法の基礎1

(階層メモリ、ループアンローリン グ)

5. 10

25

l 高性能プログラミング技法の基礎2

(キャッシュブロック化)

6. 11

1

l 行列-ベクトル積の並列化

7. 11

8

l べき乗法の並列化

8. 11

22

l 行列-行列積の並列化(1)

9. 11

29

l 行列-行列積の並列化(2)

10. 12

6

l LU分解法(1)

l コンテスト課題発表

11. 12

13

l LU分解法(2)

12. 12

20

l LU分解法(3)

13. 1

10

l RB-Hお試し、非同期通信、研 究紹介他

2018212日(月)24時 厳守

(7)

評価方法

1.

実習で出題される課題を解きレポートにして提出

l

加算方式

l

解けば解くほど評価が高まる

l

すべての問題を解く必要はない(解けないほど多く出す)

2.

コンテスト課題を解く

l

入賞(1位~3位(予定))は、無条件に“優”(予定)

l

ちゃんと動作するものをつくれば、実習レポート点に加点

1のみ、2のみ、1と2の両方、の選択がある。

1と2の両方を行った場合は、当然、加算方式で成績を 決定する。

技術の習得が目的、積極的にトライしてほしい

(8)

2007 ~ 2009 年度の様子(前任者)

C

言語もしくは

Fortran

言語 と MPI を用いて実習

1. 平成19年度(夏学期)

受講申し込み: 81名

レポート課題提出: 19名

優:16名、良:3名、うち、コンテスト課題提出者:4名(3名は無条件で優)

2. 平成19年度(冬学期)

受講申し込み: 29名

レポート課題提出: 13名

優:13名、うち、コンテスト課題提出者:4名(3名は無条件で優)

3. 平成20年度(夏学期)

受講申し込み: 62名

レポート課題提出: 13名

優:10名、良:2名、可:1名。うち、コンテスト課題提出者:3名(3名は無条件で優)

4. 平成20年度(冬学期)

受講申し込み: 35名

レポート課題提出: 9名

優:8名、良:1名、可:0名。うち、コンテスト課題提出者:3名(3名は無条件で優)

5. 平成21年度(夏学期)

受講申し込み: 24名

レポート課題提出: 6名

優:4名、良:2名、可:0名。うち、コンテスト課題提出者:0名(0名は無条件で優)

6. 平成21年度(冬学期)

受講申し込み: 16名

レポート課題提出: 3名

優:3名、良:0名、可:0名。うち、コンテスト課題提出者:1名(1名は無条件で優)

(9)

2010 年度以降の様子(前任者)

7. 平成22年度(夏学期)

受講申し込み: 23名

レポート課題提出: 12名

優:12名、良:0名、うち、コンテスト課題提出者:3名(3名は無条件で優)

8. 平成22年度(冬学期)

受講申し込み: 22名

レポート課題提出: 9名

優:9名、良:0名、うち、コンテスト課題提出者:0名 9. 平成23年度(夏学期)

受講申し込み: 20名

レポート課題提出: 10名

優:9名、良:0名、可:1名、うち、コンテスト課題提出者:0名 10.平成23年度(冬学期)

受講申し込み: 25名

レポート課題提出: 10名

優:9名、良:1名、可:0名、うち、コンテスト課題提出者:2名 11.平成24年度(夏学期)

受講申し込み: 34名

レポート課題提出: 15名

優:15名、良:0名、可:0名、うち、コンテスト課題提出者:5名 12.平成24年度(冬学期)

受講申し込み: 21名

レポート課題提出: 8名

優:8名、良:0名、可:0名、うち、コンテスト課題提出者:0名

(10)

2013 年度以降の様子(前任者)

13. 平成25年度(夏学期)

受講申し込み: 27名

レポート課題提出: 14名

優:14名、良:0名、うち、コンテスト課題提出者:0名(0名は無条件で優)

14.平成25年度(冬学期)

受講申し込み: 25名

レポート課題提出: 10名

優:9名、良:1名、うち、コンテスト課題提出者:3名(3名は無条件で優)

15.平成26年度(夏学期)

受講申し込み: 37名

レポート課題提出: 11名

優:8名、良:2名、うち、コンテスト課題提出者:2名(2名は無条件で優)

16.平成26年度(冬学期)

受講申し込み: 23名

レポート課題提出: 10名

優:8名、良:0名、可:2名、うち、コンテスト課題提出者:0名(0名は無条件で優)

17.平成27年度(夏学期)

受講申し込み: 12名

レポート課題提出:

優上:1名、優:6名、うち、コンテスト課題提出者:0名(0名は無条件で優)

18.平成27年度(冬学期)

受講申し込み:

レポート課題提出:

優:名、良:名、可:名、うち、コンテスト課題提出者:名(名は無条件で優)

(11)

2016 年度以降

1. 2016(

平成

28)

年度

S1S2

受講申し込み:

37

レポート課題提出:

22

優上:1名、優:13名、良:4名、可:3名、うち、コンテスト課題提出者:3名(3名 は無条件で優)

2. 2016(

平成

28)

年度

A1A2

受講申し込み:

9

レポート課題提出:

4

優:4名、うち、コンテスト課題提出者:2名(2名は無条件で優)

3. 2017(

平成

29)

年度

S1S2

受講申し込み:

60

レポート課題提出:

40

優上: 3名、優:18名、良:13名、可:3名、うち、コンテスト課題提出者:5名(3 名は無条件で優以上)

(12)

講義の様子

C言語(もしくは

Fortran

言語)とMPIを用いて実習

ほとんどが、並列化の課題実行時で脱落

UNIXの基本コマンド、及び、プログラムの基本が わかっていないと厳しい。

なるべく脱落者を減らしたい

UNIXの基本コマンドがわかっていない人、プログラムの基本がわ かっていない人は、個別に、集中的に教えるよう配慮しますので、

遠慮なく聞いてください 。

平成

22

年度から、出席を考慮(評価得点全体に対し20%程度)

その結果:単位取得率は約

50

%前後、ほぼ全員が「優」。

(13)

講義の流れ

次次回から、情報基盤センタのスーパーコン ピュータ( Reedbush スーパーコンピュータシス テム , Reedbush-U )を利用します。

10 月 11 日(水)の講義中に、

アカウント名とパスワードを紙で配布する 予定です。必ず出席してください。

最終回に GPU クラスタ (Reedbush-H) も使い

ます。乞うご期待!

(14)

参考資料について

配布したプリントに従い、以下の参考資料を ダウンロードしてください。

l

講義スライドの

PDF

ファイル

http://www.cspp.cc.u-tokyo.ac.jp/hanawa/class/

(15)

参考書

「スパコンを知る:

その基礎から最新の動向まで」

岩下武史、片桐孝洋、高橋大介 著

東大出版会、ISBN-10: 4130634550、

ISBN-13: 978-4130634557、

発売日:2015年2月18日、176頁

【本書の特徴】

スパコンの解説書です。以下を 分かりやすく解説しています。

スパコンは何に使えるか

スパコンはどんな仕組みで、なぜ速く計算できるのか

最新技術、今後の課題と将来展望、など

(16)

教科書(演習書)

「スパコンプログラミング入門

-並列処理とMPIの学習-」

片桐 孝洋 著、

東大出版会、ISBN978-4-13-062453-4、

発売日:2013年3月12日、判型:A5, 200頁

【本書の特徴】

C言語で解説

C言語、Fortran90言語のサンプルプログラムが付属

数値アルゴリズムは、図でわかりやすく説明

本講義の内容を全てカバー

内容は初級。初めて並列数値計算を学ぶ人向けの入門書

(17)

教科書(演習書)

「並列プログラミング入門:

サンプルプログラムで学ぶOpenMPとOpenACC」

片桐 孝洋 著

東大出版会、ISBN-10: 4130624563、ISBN-13: 978-4130624565、

発売日: 2015年5月25日

【本書の特徴】

C言語、Fortran90言語で開設

C言語、Fortran90言語の複数のサンプルプログラムが 入手可能(ダウンロード形式)

本講義の内容を全てカバー

Windows PC演習可能(Cygwin利用)。スパコンでも演習可能。

内容は初級。初めて並列プログラミングを学ぶ人向けの

入門書

(18)

参考書

「並列数値処理 - 高速化と性能向上のために -」

金田康正 東大教授 理博 編著、

片桐孝洋 東大特任准教授 博士(理学) 著、黒田久泰 愛媛大准教授 博士(理学) 著、山本有作 神戸大教授 博士(工学) 著、 五百木伸洋

㈱日立製作所 著、

コロナ社、発行年月日:2010/04/30 , 判 型: A5, ページ数:272頁、

ISBN:978-4-339-02589-7, 定価:3,990円 (本体3,800円+税5%)

【本書の特徴】

Fortran言語で解説

数値アルゴリズムは、数式などで厳密に説明

本講義の内容に加えて、固有値問題の解法、疎行列反復解法、FFT、

ソート、など、主要な数値計算アルゴリズムをカバー

内容は中級~上級。専門として並列数値計算を学びたい人向き

(19)

教科書(スパコンプログラミング入門)

の利用方法

本講義の全内容、演習内容をカバーした資料

教科書というより、実機を用いた並列プログラミングの 演習書として位置づけられている

使える並列計算機があることが前提

付属の演習プログラムの利用について

1.

東京大学情報基盤センターの

FX10

スーパーコンピュータ システムでそのまま利用する

2.

研究室の

PC

クラスタ(

MPI

が利用できるもの)で利用する

3.

東大以外の大学等のスーパーコンピュータで利用する

各自の

PC

を用いて、(

MPI

ではない)逐次プログラムで

演習する(主に逐次プログラムの高速化の話題)

(20)

イントロダクション

スパコンとは何か?

(21)

スーパーコンピュータとは

人工知能搭載のコンピュータではない、量子コンピュータでもない

明確な定義はない

現在の最高レベルの演算性能をもつ計算機のこと

経験的には、PCの1000倍高速で、1000倍大容量な メモリをもつ計算機

「外国為替及び外国貿易法」=>「輸出貿易管理令」(政令)=>

輸出貿易管理令別表第一及び外国為替令別表の規定に基づき貨物又は技術を定める省 令」(平成28年11月18日経済産業省令)の規制対象デジタル電子計算機

第7条第三項ハ:デジタル電子計算機であって、

加重最高性能が12.5実効テラ演算を超えるもの

スーパーコンピュータ導入手続

(

平成

26

3

31

日申し合わせ

)

I

適用範囲

3.

この手続は

50TFLOPS

以上の理論的最高性能を有す るスーパーコンピューターの導入に適用されるが、この対象範囲は 必要に応じ見直すこととする。

現在、ほとんどすべてのスーパーコンピュータは並列計算機

東京大学情報基盤センタが所有するFX10スーパーコンピュータシステム、Reedbushスー パーコンピュータシステム、Oakforest-PACSスーパーコンピュータシステムも、並列計算機

(22)

スーパーコンピュータの歴史

1976年

Cray-

ベクトル型、クレイ社

}

1974年(1機)

ILLIAC-IV

、 並列型(64プロセッサ)、

イリノイ大学

世界一高価 なイス!

500-800万ドル)

最悪スパコン

(10年遅れ、

性能目標低下、

3,100万ドル)

出典:http://ja.wikipedia.org/wiki/Cray-1 出典:http://ja.wikipedia.org/wiki/ILLIAC_IV

(23)

スーパーコンピュータで用いる単位

TFLOPS

(テラ・フロップス、

Tera Floating Point Operations Per Second

1秒間に1回の演算能力(浮動小数点)が1FLOPS

K(キロ)は1,000(千)、M(メガ)は1,000,000(百万)、G(ギガ)は1,000,000,000

(十億)、T(テラ)は1,000,000,000,000(一兆)

だから、一秒間に一兆回の浮動小数点演算の能力がある こと。

PFLOPS

(ぺタ・フロップス)

1秒間に0.1京(けい)回の浮動小数点演算の能力がある。

「京コンピュータ」(2012年9月共用開始、11.2PFLOPS、現在TOP5007

l PCの演算能力は?

l 4.2GHz(1秒間に42億回のクロック周波数)として、もし1クロックあたり1回の 浮動小数点演算ができれば4.2GFLOPS。

l Intel Core i7 (Skylake)では、4コア、1クロックで16回の浮動小数計算ができるの で、4.2 GHz * 16回浮動小数点演算/Hz * 4コア = 268.8 GFLOPS

l Cray-1は160MFLOPS。 1970年代のスパコンより、PCの方が1680倍高速!

(24)

スーパーコンピュータ用語

理論性能(

Theoretical Performance

ハードウェア性能からはじき出した性能。

1クロックに実行できる浮動小数点回数から算出した

FLOPS

値を使うことが多い。

実効性能(

Effective Performance

何らかのベンチマークソフトウエアを実行して実行時間を計測。

そのベンチマークプログラムに使われている浮動小数点演算 を算出。

以上の値を基に算出した

FLOPS

値のこと。

連立一次方程式の求解ベンチマークである

LINPACK

用いることが多い。

(25)

ムーアの法則

Intel

社の設立者ゴードン・ムーアが提唱した、半導体技術の進 歩に関する経験則。

「半導体チップの集積度は、およそ18ヵ月で2倍になる」

これから転じて、

「マイクロプロセッサの性能は、およそ18ヵ月で2倍になる」

上記によると、約5年で10倍となる。

正確には、デナード則

(26)

スーパーコンピュータのランキング

TOP500 Supercomputer Sites

( http://www.top500.org/ )

LINPACK

の値から実効性能を算出した値の 500位までのランキング

米国オークリッジ国立研究所/テネシー大学 ノックスビル校の

Jack Dongarra

教授が発案

毎年、6月(ドイツの国際会議

ISC

)、11月(米国の

国際会議

SC

)で発表

(27)

スーパーコンピュータの性能向上

LINPACK

ベンチ マークでの

500

位までのランキ ング

連立一次方程式 の求解

(

密行列

)

大体

4

年で

10

性能向上が近 年は鈍化傾向

Linpack性能

1500位の合計

500

1 京コンピュータ

太湖之光 (TaihuLight) 天河2(Tianhe-2)

京コンピュータ

Sequoia

Titan

http://www.top500.org/ より

(28)

http://www.top500.org/

Site Computer/Year Vendor Cores Rmax

(TFLOPS)

Rpeak (TFLOPS)

Power (kW) 1 National Supercomputing

Center in Wuxi, China

Sunway TaihuLight , Sunway MPP, Sunway SW26010 260C 1.45GHz, 2016 NRCPC

10,649,600 93,015

(= 93.0 PF) 125,436 15,371 2 National Supercomputing

Center in Tianjin, China

Tianhe-2, Intel Xeon E5-2692, TH

Express-2, Xeon Phi, 2013 NUDT 3,120,000 33,863

(= 33.9 PF) 54,902 17,808 3 Oak Ridge National

Laboratory, USA

Titan

Cray XK7/NVIDIA K20x, 2012 Cray 560,640 17,590 27,113 8,209 4 Lawrence Livermore National

Laboratory, USA

Sequoia

BlueGene/Q, 2011 IBM 1,572,864 17,173 20,133 7,890 5 DOE/SC/LBNL/NERSC

USA

Cori, Cray XC40, Intel Xeon Phi 7250

68C 1.4GHz, Cray Aries, 2016 Cray 632,400 14,015 27,881 3,939 6

Joint Center for Advanced High Performance

Computing, Japan

Oakforest-PACS, PRIMERGY CX600 M1, Intel Xeon Phi Processor 7250 68C 1.4GHz, Intel Omni-Path,

2016 Fujitsu

557,056 13,555 24,914 2,719

7 RIKEN AICS, Japan K computer, SPARC64 VIIIfx , 2011

Fujitsu 705,024 10,510 11,280 12,660

8 Swiss Natl. Supercomputer Center, Switzerland

Piz Daint

Cray XC30/NVIDIA P100, 2013 Cray 206,720 9,779 15,988 1,312 9 Argonne National Laboratory,

USA

Mira

BlueGene/Q, 2012 IBM 786,432 8,587 10,066 3,945

10 DOE/NNSA/LANL/SNL, USA Trinity, Cray XC40, Xeon E5-2698v3

16C 2.3GHz, 2016 Cray 301,056 8,101 11,079 4,233

Rmax: Performance of Linpack (TFLOPS)

Rpeak: Peak Performance (TFLOPS), Power: kW

(29)

29 http://www.top500.org/

Site Computer/Year Vendor Cores (TFLOPS) (TFLOPS) (kW)

1 National Supercomputing Center in Wuxi, China

Sunway TaihuLight, Sunway MPP, Sunway SW26010 260C 1.45GHz, 2016 NRCPC

10,649,600 93,015

(= 93.0 PF) 125,436 15,371 2 National Supercomputing

Center in Tianjin, China

Tianhe-2, Intel Xeon E5-2692, TH

Express-2, Xeon Phi, 2013 NUDT 3,120,000 33,863

(= 33.9 PF) 54,902 17,808 3 Swiss Natl. Supercomputer

Center, Switzerland

Piz Daint

Cray XC30/NVIDIA P100, 2013 Cray 361,760 19,590 33,863 2,272 4 Oak Ridge National

Laboratory, USA

Titan

Cray XK7/NVIDIA K20x, 2012 Cray 560,640 17,590 27,113 8,209 5 Lawrence Livermore National

Laboratory, USA

Sequoia

BlueGene/Q, 2011 IBM 1,572,864 17,173 20,133 7,890 6 DOE/SC/LBNL/NERSC

USA

Cori, Cray XC40, Intel Xeon Phi 7250

68C 1.4GHz, Cray Aries, 2016 Cray 632,400 14,015 27,881 3,939 7

Joint Center for Advanced High Performance

Computing, Japan

Oakforest-PACS, PRIMERGY CX600 M1, Intel Xeon Phi Processor 7250 68C 1.4GHz, Intel Omni-Path,

2016 Fujitsu

557,056 13,555 24,914 2,719

8 RIKEN AICS, Japan K computer, SPARC64 VIIIfx , 2011

Fujitsu 705,024 10,510 11,280 12,660

9 Argonne National Laboratory, USA

Mira

BlueGene/Q, 2012 IBM 786,432 8,587 10,066 3,945

10 DOE/NNSA/LANL/SNL, USA Trinity, Cray XC40, Xeon E5-2698v3

16C 2.3GHz, 2016 Cray 301,056 8,101 11,079 4,233

Rmax: Performance of Linpack (TFLOPS)

Rpeak: Peak Performance (TFLOPS), Power: kW

(30)

現在のランキング

出典:https://www.top500.org/list/2017/06/

(31)

京コンピュータ( K-Computer )理研

理研 計算科学機構(神戸ポートアイランド)

2012年9月共用開始

CPU:SPARC64 VIIIfx(CPU当たり 128GFLOPS)

201111TOP500LINPACK性能

理論性能:11.280 PLOPS

実行性能:10.510 PFLOPS 効率:93.1

参照:理研

計算科学機構(http://www.aics.riken.jp/index.html

(32)

東京工業大学 TSUBAME2.5

HP Proliant SL390s G7

CPU: Intel Xeon 2.93 GHz (6 cores) x 2

(Hyperthreading enabled)

GPU: NVIDIA Tesla K20X x 3

Memory: 54GB(

一部

128GB)

1408

合計コア数:74,358コア

参考:http://tsubame.gsic.titech.ac.jp/hardware-architecture

• LINPACK

効率

• 2843TF/5609TF = 50.6%

(33)

東京工業大学 TSUBAME3.0

HPE ICE-XA

CPU: Intel Xeon E5-2680v4 2.4 GHz (14 cores) x 2

(Hyperthreading enabled)

GPU: NVIDIA Tesla P100 x 4

Memory: 256GB

540

参考:http://www.t3.gsic.titech.ac.jp/sites/default/files/guidance.pdf

(34)

国内のスーパーコンピュータ:地球シミュレータ 3

海洋研究開発機構 地球シミュレータ 3

NEC SX-ACE

5,120

ノード

1ノードあたり

4

コア

理論性能:

.

PFLOPS

メモリバンド幅

1.3PB/sec

参照: 海洋研究開発機構

http://www.jamstec.go.jp/es/jp/system/index.html

(35)

東京大学情報基盤センタースパコン( 1 / 3 )

35

Total Peak performance : 54.9 TFLOPS Total number of nodes : 56

Total memory : 11200 GB

Peak performance per node : 980.4 GFLOPS Main memory per node : 200GB

Disk capacity : 556 TB

IBM POWER7 3.83GHz (30.64GFLOPS)

HITACHI SR16000

201110月~20179

(36)

東京大学情報基盤センター スパコン( 1/3 )

36

Total Peak performance : 1.13 PFLOPS Total number of nodes : 4,800

Total memory : 150TB

Peak performance per node : 236.5 GFLOPS Main memory per node : 32 GB

Disk capacity : 2.1 PB SPARC64 IXfx 1.848GHz

Fujitsu PRIMEHPC FX10FX10スーパーコンピュータシステム)

2012

7

~2018

3

月(予定)

Oakbridge-FX

長時間ジョブ用の

FX10

ノード数:

24

576

制限時間:最大

168

時間

(1週間)

(37)

東京大学情報基盤センター スパコン( 2/3-1 )

37

Total Peak performance : 508 TFLOPS Total number of nodes : 420

Total memory : 105 TB

Peak performance per node : 1209.6 GFLOPS Main memory per node : 256 GB

Disk capacity : 5.04 PB File Cache system (SSD) : 230 TB

Intel Xeon E5-2695v4 2.1GHz 18 core x2 socket

Reedbush-USGI Rackable クラスタシステム )

2016

7

1

日試験運転開始

2016

9

1

日正式運用開始

(38)

東京大学情報基盤センター スパコン( 2/3-2 )

38

Total Peak performance : 1.41 PFLOPS

(145 TFLOPS + 1273 TFLOPS) Total number of nodes : 120

Total memory : 30 TB + 3.75 TB Peak performance per node : 1209.6 GFLOPS

+ 10.6 TFLOPS Main memory per node : 256 GB

+ 32 GB Disk capacity (shared w/ U) : 5.04 PB File Cache system (SSD, (shared w/ U)

: 230 TB

Intel Xeon E5-2695v4 2.1GHz 18 core x2 socket + NVIDIA Tesla P100 with NVLink x 2

Reedbush-HSGI Rackable クラスタシステム )

2017

3

1

日試験運転開始

2017

4

1

日正式運用開始

(39)

東京大学情報基盤センター スパコン( 2/3-3 ) New!!

39

Total Peak performance : 1.43 PFLOPS

(77.4 TFLOPS + 1356 TFLOPS) Total number of nodes : 64

Total memory : 16TB + 4 TB Peak performance per node : 1209.6 GFLOPS

+ 21.2 TFLOPS Main memory per node : 256 GB

+ 64 GB Disk capacity (shared w/ U,H) : 5.04 PB File Cache system (SSD, separately)

: 153.6 TB

Intel Xeon E5-2695v4 2.1GHz 18 core x2 socket + NVIDIA Tesla P100 with NVLink x 4

Reedbush-LSGI Rackable クラスタシステム )

2017

10

2

日試験運転開始

(予定)

2017

11

1

日正式運用開始

(予定)

Reedbush-U+H+Lの合計性能

= 3.36 PFLOPS

長時間ジョブ用

制限時間:最大168時間

(1週間)

(40)

東京大学情報基盤センター スパコン( 3/3 )

Total Peak performance : 25 PFLOPS Total number of nodes : 8,208

Total memory : 897.7 TB

Peak performance per node : 3.046 TFLOPS Main memory per node : 96 GB (DDR4)

+ 16 GB(MCDRAM) Disk capacity : 26.2 PB

File Cache system (SSD) : 960 TB

Intel Xeon Phi 7250 1.4 GHz 68 core x1 socket

Oakforest-PACSFujitsu PRIMERGY CX600

2016

12

1

日試験運転開始

2017

4

3

日正式運用開始

筑波大学計算科学研究センター

と共同運用

(41)

Memory Memory Memory

各CPUの内部構成

Core

#1

Core

#2

Core

#3 Core

#0

1ソケットのみ

Core

#13

Core

#14

Core

#15 Core

#12

L2 (16コアで共有、12MB)

L1 L1 L1 L1 : L1データキャッシュ32KB L1 L1 L1 L1

85GB/秒

=(8Byte×1333MHz

×8 channel)

DDR3 DIMM

Memory

4GB ×24GB ×24GB ×24GB ×2枚 ノード内合計メモリ量:8GB×432GB

20GB/

Network ICC

(42)

FX10 TOFU

42

ノード ノード

ノード ノード

ノード

ノード ノード

ノード ノード

ノード

ノード ノード

TOFU単位

6

本それぞれ

5GB/

(双方向)

計算ノード内

1TOFU単位 間の結合用

ノード

(43)

TOFU

単位

TOFU 単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU 単位

TOFU 単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

FX10 の通信網(1 TOFU 単位間の結合)

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

TOFU

単位

3次元接続

l

ユーザから見ると、

X

軸、

Y

軸、

Z

軸について、

奥の

1TOFU

と、手前の

TOFU

は、繋がってみえます

(3次元トーラス接続)

l

ただし物理結線では

l X

軸はトーラス

l Y

軸はメッシュ

l Z

軸はメッシュまたは、

トーラス

になっています

(44)

Reedbush-U ノードのブロック図

メモリのうち、「近い」メモリと「遠い」メモリがある

=> NUMA (Non-Uniform Memory Access) (FX10

はフラット

)

Intel Xeon E5-2695 v4 (Broadwell-

EP)

QPI 76.8GB/s

76.8GB/s

IB EDR HCA

15.7 GB/s

DDR4

メモリ 128GB

76.8GB/s 76.8GB/s

Intel Xeon E5-2695 v4 (Broadwell-

QPI EP) DDR4

DDR4 DDR4

DDR4 DDR4 DDR4 DDR4

メモリ 128GB

G3 x16

(45)

Memory Memory Memory

76.8 GB/秒

=(8Byte×2400MHz×4 channel) DDR4

DIMM Memory

16GB ×216GB ×2枚 16GB ×2枚 16GB ×2枚

ソケット当たりメモリ量:16GB×8128GB

Core

#0 L 1

L

2 L3

Core

#1 L 1

L

2 L3

Core

#2 L 1

L

2 L3

Core

#3 L 1

L

2 L3

Core

#4 L 1

L

2 L3

Core

#5 L 1

L

2 L3

Core

#6 L 1

L

2 L3

Core

#7 L 1

L

2 L3

Core

#8 L 1

L

2 L3

Core

#9 L 1

L

2 L3

Core

#10 L 1

L

2 L3

Core

#11 L 1

L

2 L3

Core

#12 L 1

L

2 L3

Core

#13 L 1

L

2 L3

Core

#14 L 1

L

2 L3

Core

#15 L 1

L

2 L3

Core

#16 L 1

L

2 L3

Core

#17 L 1

L

2 L3

QPI x2 PCIe コア当たりL1データ: 2KB, L2: 256KB, L3: 2.5MB(共有) => L3 は全体で45MB

(46)

Reedbush-U の通信網

フルバイセクションバンド幅を持つ

Fat Tree

どのように計算ノードを選んでも互いに無衝突で通信が可能

Mellanox InfiniBand EDR 4x CS7500: 648

ポート

内部は36ポートスイッチ (SB7800)(36+18)台組み合わせたものと等価

RB-Hはもう1段、RB-Lとは部分的に接続

18

1 19 36 37 54

Downlink: 18

. . . . . . . . .

Uplink: 18

. . .

. . . Leaf 36ポートスイッチ

36 36ポート Spineスイッチ

18

648ポートDirectorスイッチ 1台の中身

(47)

Reedbush-H ノードのブロック図

NVIDIA Pascal

NVIDIA Pascal NVLinK

20 GB/s

Intel Xeon E5-2695 v4 (Broadwell-

EP)

NVLinK 20 GB/s

QPI 76.8GB/s

76.8GB/s

IB FDR HCA

G3x16 15.7 GB/s 15.7 GB/s

DDR4

メモリ 128G

B

EDR switch

EDR

76.8GB/s 76.8GB/s

Intel Xeon E5-2695 v4 (Broadwell-

QPI EP) DDR4

DDR4 DDR4

DDR4 DDR4 DDR4 DDR4

メモリ 128G

B

PCIe sw

G3x16

PCIe sw

G3x16 G3x16

IB FDR HCA

(48)

Oakforest-PACS 計算ノード

Intel Xeon Phi (Knights Landing)

1ノード1ソケット

MCDRAM:

オンパッケージ の高バンド幅メモリ

16GB + DDR4

メモリ

Knights Landing Overview

Chip: 36 Tiles interconnected by 2D Mesh Tile: 2 Cores + 2 VPU/core + 1 MB L2

Memory: MCDRAM: 16 GB on-package; High BW DDR4: 6 channels @ 2400 up to 384GB IO: 36 lanes PCIe Gen3. 4 lanes of DMI for chipset Node: 1-Socket only

Fabric: Omni-Path on-package (not shown)

Vector Peak Perf: 3+TF DP and 6+TF SP Flops Scalar Perf: ~3x over Knights Corner

Streams Triad (GB/s): MCDRAM : 400+; DDR: 90+

TILE

4

2 VPU Core

2 VPU Core 1MB

L2 CHA

Package

Source Intel: All products, computer systems, dates and figures specified are preliminary based on current expectations, and are subject to change without notice. KNL data are preliminary based on current expectations and are subject to change without notice. 1Binary Compatible with Intel Xeon processors using Haswell Instruction Set (except TSX). 2Bandwidth numbers are based on STREAM-like memory access pattern when MCDRAM used as flat memory. Results have been estimated based on internal Intel analysis and are provided for informational purposes only. Any difference in system hardware or software design or configuration may affect actual performance.

Omni-path not shown

EDC EDC PCIe Gen 3

EDC EDC

Tile

DDR MC DDR MC

EDC EDC misc EDC EDC

36 Tiles connected by

2D Mesh Interconnect

MCDRAM MCDRAM MCDRAM MCDRAM

3 D D R 4 C H A N N E L S

3 D D R 4 C H A N N E L S

MCDRAM MCDRAM MCDRAM MCDRAM

D M I 2 x16

1 x4

X4 DMI

HotChips27 KNLスライドより

First self-boot Intel® Xeon Phi™ processor that is binary compatible with main line IA. Boots standard OS.

Significant improvement in scalar and vector performance Integration of Memory on package: innovative memory architecture for high bandwidth and high capacity Integration of Fabric on package

Potential future options subject to change without notice.

All timeframes, features, products and dates are preliminary forecasts and subject to change without further notification.

Three products

KNL Self-Boot KNL Self-Boot w/ Fabric KNL Card (Baseline) (Fabric Integrated) (PCIe-Card)

Intel® Many-Core Processor targeted for HPC and Supercomputing

2 VPU 2 VPU

Core 1MB Core L2

MCDRAM: 490GB/秒以上 (実測)

DDR4: 115.2 GB/

=(8Byte×2400MHz×6 channel)

ソケット当たりメモリ量:16GB×696GB

(49)

Oakforest-PACS: Intel Omni-Path Architecture

による フルバイセクションバンド幅

Fat-tree

768 port Director Switch

12

(Source by Intel)

48 port Edge Switch 362

2 2

24

1 25 48 49 72

Uplink: 24

Downlink: 24

. . . . . . . . .

コストはかかるがフルバイセクションバンド幅を維持

システム全系使用時にも高い並列性能を実現

柔軟な運用:ジョブに対する計算ノード割り当ての自由度が高い

計算ノード ラックに分散

(50)

東大情報基盤センター Oakforest-PACS スーパーコン ピュータシステムの料金表( 2017 年 4 月 1 日 )

パーソナルコース(年間)

コース1: 100,000

円 :

8ノード(基準)、最大16ノードまで

コース2: 200,000

円 :

16ノード(基準)、最大64ノードまで

グループコース

400,000

(

企業

480,000

)

18ノード(基準)、最大128ノードまで

以上は、「トークン制」で運営

申し込みノード数×

360

日×

24

時間の「トークン」が与えられる

基準ノードまでは、トークン消費係数が1.0

基準ノードを超えると、超えた分は、消費係数が2.0になる

大学等のユーザは

FX10

Reedbush

との相互トークン移行も可能

(51)

東大情報基盤センター Reedbush スーパーコン ピュータシステムの料金表( 2017 年 4 月 1 日 )

パーソナルコース(年間)

150,000円 : RB-U: 4ノード(基準)、最大16ノードまで RB-H: 1ノード(基準)、最大2ノードまで

グループコース

300,000円: 14ノード(基準)、最大128ノードまで、

RB-H1ノード(基準)、最大32ノードまで(トークン係数はU2.5倍)

RB-Uのみ 企業 360,000円 : 14ノード(基準)、最大128ノードまで

RB-Hのみ 企業 216,000円 : 11ノード(基準)、最大32ノードまで

以上は、「トークン制」で運営

申し込みノード数×360日×24時間の「トークン」が与えられる

基準ノードまでは、トークン消費係数が1.0

基準ノードを超えると、超えた分は、消費係数が2.0になる

大学等のユーザはFX10, Oakforest-PACSとの相互トークン移行も可能

ノード固定もあり

(52)

東大情報基盤センター FX10 スーパーコン ピュータシステムの料金表( 2017 年 4 月 1 日)

パーソナルコース(年間)

コース1: 90,000

円 :

12ノード(基準)、最大24ノードまで

コース2: 180,000

円 :

24ノード(基準)、最大96ノードまで

グループコース

360,000

(

企業

432,000

)

1口、12ノード、最大1440ノードまで

以上は、「トークン制」で運営

申し込みノード数×

360

日×

24

時間の「トークン」が与えられる

基準ノードまでは、トークン消費係数が1.0

基準ノードを超えると、超えた分は、消費係数が2.0になる

大学等のユーザは

Reedbush, Oakforest-PACS

との相互トークン移

行も可能

(53)

スパコンプログラミングの意義

ユーザにとって:

必要な計算をより短時間に 終わらせる

計算にかかるコストをより安 くできる

同じ時間、予算でより多くの 計算ができる

スパコンのシステム特性を 理解し、特性に合わせたプ ログラミング

多レベルの並列性を引き出 す、アルゴリズムの工夫

運用側にとっても:

貴重なリソースなので、有効 に使ってほしい

FX10

は現時点で

90%

近くの利 用率(現実的にはほぼ満杯)

100

億円のマシンの利用効率を

10%

上げれば

10

億円得したこと に

OFP

の場合

借料:月額

1.1

億円、

5

年半総額で

72.2

億円、

筑波大と折半

電気代:年間約

4

億円(空調、

水冷込み)、

3.2 MW

くらい

(54)

Oakforest-PACS 設置の動画

参照

関連したドキュメント

Conley index, elliptic equation, critical point theory, fixed point index, superlinear problem.. Both authors are partially supportedby the Australian

Necessary and sufficient conditions are found for a combination of additive number systems and a combination of multiplicative number systems to preserve the property that all

It is well known that the inverse problems for the parabolic equations are ill- posed apart from this the inverse problems considered here are not easy to handle due to the

The idea of applying (implicit) Runge-Kutta methods to a reformulated form instead of DAEs of standard form was first proposed in [11, 12], and it is shown that the

Left: time to solution for an increasing load for NL-BDDC and NK-BDDC for an inhomogeneous Neo-Hooke hyperelasticity problem in three dimensions and 4 096 subdomains; Right:

Based on sequential numerical results [28], Klawonn and Pavarino showed that the number of GMRES [39] iterations for the two-level additive Schwarz methods for symmetric

In this article, using the sub-supersolution method and Rabinowitz- type global bifurcation theory, we prove some results on existence, uniqueness and multiplicity of positive

2 Principal bundles with connection are transport functors 1324 3 Transport 2-functors and gauge invariant surface holonomy 1352 4 The path-curvature 2-functor associated to a