Reedbush-U
の概要
ログイン方法
東京大学情報基盤センター
スーパーコンピューティング研究部門
東大センターのスパコン
2
基の大型システム,
6
年サイクル(だった)
2FY
11
12 13 14 15 16 17 18 19 20 21 22 23 24 25
Yayoi: Hitachi SR16000/M1 IBM Power-7 5459 TFLOPS, 1152 TB Reedbush, HPE Broadwell + Pascal 1593 PFLOPS T2K Tokyo 140TF, 3153TB Oakforest-PACS Fujitsu, Intel KNL 25PFLOPS, 919M3TB BDEC System 60+ PFLOPS (?) Oakleaf-FX: Fujitsu PRIMEHPCFX10, SPARC64 IXfx 1513 PFLOPS, 150 TB Oakbridge-FX 13652 TFLOPS, 1854 TB Reedbush-L HPE 1543 PFLOPS Oakbridge-CX
Intel Xeon Scalable Proc’s
6561 PFLOPS
Big Data & Extreme Computing データ解析・シミュレーション 融合スーパーコンピュータ 長時間ジョブ実行用演算加速装置 付き並列スーパーコンピュータ メニーコア型大規模 スーパーコンピュータ JCAHPC:筑波大・東大 大規模超並列 スーパーコンピュータ
2
(または
3,4
)システム運用中
• Oakleaf-FX (
富士通
PRIMEHPC FX10)
– 1.135 PF, 京コンピュータ商用版, 2012年4月 〜 2018年3月
• Oakbridge-FX (
富士通
PRIMEHPC FX10)
– 136.2 TF, 長時間実行用(168時間), 2014年4月 〜 2018年3月
• Reedbush (HPE, Intel BDW + NVIDIA P100 (Pascal))
– データ解析・シミュレーション融合スーパーコンピュータ
• 2016-Jun.2016年7月~2020年6月
– 東大情基セ初のGPU搭載システム
– Reedbush-U: CPU only, 420 nodes, 508 TF (2016年7月)
– Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (2017年3月)
– Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (2017年10月)
• Oakforest-PACS (OFP) (
富士通
, Intel Xeon Phi (KNL))
– JCAHPC (筑波大CCS&東大ITC)
– 25 PF, 世界第12位 (2018年6月) (日本第2位)
JPY (=Watt)/GFLOPS Rate
Smaller is better (efficient)
4
System
JPY/GFLOPS
Oakleaf/Oakbridge-FX (Fujitsu)
(Fujitsu PRIMEHPC FX10)
125
Reedbush-U (HPE)
(Intel BDW)
61.9
Reedbush-H (HPE)
(Intel BDW+NVIDIA P100x2/node)
15.9
Reedbush-L (HPE)
(Intel BDW+NVIDIA P100x4/node)
13.4
Oakforest-PACS (Fujitsu)
Engineering
Earth/Space
Material
Energy/Physics
Information Sci5
Education
Industry
Bio
Social Sci5 & Economics
Data
Research Area based on CPU Hours
FX10 in FY.2017 (Commercial
Version of K)
Oakleaf-FX + Oakbridge-FX
Engineering
Material
Science
Earth & Space
Science
Oakforest-PACS
http://www.cc.u-tokyo.ac.jp/system/ofp/
• 2016
年
12
月
1
日稼働開始
• 8,208 Intel Xeon/Phi (KNL)
,ピーク性能
25PFLOPS
–
富士通が構築
• TOP 500 #14 (#2 in Japan), HPCG #9 (#3) (June
2017)
•
最先端共同
HPC
基盤施設
(JCAHPC: Joint Center
for Advanced High Performance Computing)
–
筑波大学計算科学研究センター
–
東京大学情報基盤センター
–
http://jcahpc.jp
2
(または
3,4
)システム運用中
• Oakleaf-FX (
富士通
PRIMEHPC FX10)
– 1.135 PF, 京コンピュータ商用版, 2012年4月 〜 2018年3月
• Oakbridge-FX (
富士通
PRIMEHPC FX10)
– 136.2 TF, 長時間実行用(168時間), 2014年4月 〜 2018年3月
• Reedbush (HPE, Intel BDW + NVIDIA P100 (Pascal))
– データ解析・シミュレーション融合スーパーコンピュータ
• 2016-Jun.2016年7月~2020年6月
– 東大情基セ初のGPU搭載システム
– Reedbush-U: CPU only, 420 nodes, 508 TF (2016年7月)
– Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (2017年3月)
– Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (2017年10月)
• Oakforest-PACS (OFP) (
富士通
, Intel Xeon Phi (KNL))
– JCAHPC (筑波大CCS&東大ITC)
– 25 PF, 世界第12位 (2018年6月) (日本第2位)
東大センターのスパコン
2
基の大型システム,
6
年サイクル(だった)
8FY
11
12 13 14 15 16 17 18 19 20 21 22 23 24 25
Yayoi: Hitachi SR16000/M1 IBM Power-7 5459 TFLOPS, 1152 TB Reedbush, HPE Broadwell + Pascal 1593 PFLOPS T2K Tokyo 140TF, 3153TB Oakforest-PACS Fujitsu, Intel KNL 25PFLOPS, 919M3TB BDEC System 60+ PFLOPS (?) Oakleaf-FX: Fujitsu PRIMEHPCFX10, SPARC64 IXfx 1513 PFLOPS, 150 TB Oakbridge-FX 13652 TFLOPS, 1854 TB Reedbush-L HPE 1543 PFLOPS Oakbridge-CX
Intel Xeon Scalable Proc’s
6561 PFLOPS
Big Data & Extreme Computing データ解析・シミュレーション 融合スーパーコンピュータ 長時間ジョブ実行用演算加速装置 付き並列スーパーコンピュータ メニーコア型大規模 スーパーコンピュータ JCAHPC:筑波大・東大 大規模超並列 スーパーコンピュータ
GPU
の導入
• OpenACC
– OpenMP
と類似したインタフェース:使いやすいが性能悪かった
⇨昨今の性能向上,
CUDA
とそれほど大きな差がなくなった
• NVIDIA研究者との共同研究– OpenACC
専門家など、
GPU
に詳しい人材の情報基盤センターへ
の加入
•
データ科学,深層学習(
Deep Learning
)
–
従来の計算科学,計算工学分野とは異なった分野の新規ユーザー開拓
が急務:電気代=負担金
–
東京大学ゲノム医科学研究機構
–
東京大学病院
• 医療画像処理への深層学習適用Engineering
Earth/Space
Material
Energy/Physics
Info5 Sci5 : System
Info5 Sci5 : Algrorithms
Info5 Sci5 : AI
Education
Industry
Bio
Bioinformatics
Social Sci5 & Economics
Data
Research Area based on CPU Hours
Reedbush-H in FY.2018
2-GPU’s/Node
10Molecular Sim.
Biomechanics
生体力学
Info. Sci: AI
EngineeringMedical Image
Recognition
医療画像処理
Engineering
Earth/Space
Material
Energy/Physics
Info5 Sci5 : System
Info5 Sci5 : Algrorithms
Info5 Sci5 : AI
Education
Industry
Bio
Bioinformatics
Social Sci5 & Economics
Data
Research Area based on CPU Hours
Reedbush-L in FY.2018
4-GPU’s/Node
Deep Learning
In Medical Care
Astro
Physics
Eng.Medical
Image
Recognition
Data
Assim.
Climate
Human
Dose Sim.
Info. Sci: AI
Reedbush (1/2)
•
システム構成・運用:
SGI => HPE
• Reedbush-U (CPU only, 2016
年
7
月〜
)
– Intel Xeon E5-2695v4 (Broadwell-EP, 2.1GHz, 18core) x 2
ソケット
(1.210 TF), 256 GiB (153.6GB/sec)
– InfiniBand
EDR
, Full bisection BW Fat-tree
–
システム全系
: 420
ノード
, 508.0 TF
• Reedbush-H (with GPU
,
2017
年
3
月〜
)
– CPU
・メモリ:
Reedbush-U
と同様
– NVIDIA Tesla P100
(Pascal
世代
GPU: 5.3TF, 720GB/sec, 16GiB) x 2 /
ノード
– InfiniBand
FDR x 2ch
, Full bisection BW Fat-tree
– 120
ノード
, 145.2 TF(CPU)+ 1.27 PF(GPU)= 1.42 PF
• Reedbush-L (with GPU:
長時間ジョブ用,
2017
年
10
月〜
)
– CPU
・メモリ:
Reedbush-U
と同様
– NVIDIA Tesla P100
(Pascal
世代
GPU: 5.3TF, 720GB/sec, 16GiB)
x 4
/
ノード
– InfiniBand
EDR x 2ch
, Full bisection BW Fat-tree (U, H
とは少し遠い)
– 64
ノード
, 76.8 TF(CPU)+ 1.35 PF(GPU)= 1.43 PF
Reedbush (2/2)
•
ストレージ
/
ファイルシステム
–
並列ファイルシステム
(Lustre)
• 5.04 PB, 145.2 GB/sec
–
高速ファイルキャッシュシステム
: Burst Buffer (DDN IME
(Infinite Memory Engine)) : SSD
によるキャッシュ
• Reedbush-U,H: 230.4 TB, 385.2 GB/sec
• Reedbush-L:
153.6 TB, 166.4 GB/sec
•
電力
,
冷却
,
設置面積
–
空冷
, 368 kW (RB-U,H) + 134 kW (RB-L) (
冷却除く
)
– < 90 m
2•
データ解析、ディープラーニング向けソフトウェア・ツール
キット
– OpenCV, Theano, Anaconda, ROOT, TensorFlow, Torch,
Caffe, Chainer, GEANT4
Compute Node of Reedbush-H
Reedbush-L: 各ソケットにPascal 1個=>2個ずつ,FDR=>EDRCompute Node of Reedbush-L
Reedbush-L: 各ソケットにPascal 1個=>2個ずつ,FDR=>EDRログイン方法
鍵による認証について
公開鍵認証を用います。
センター発行のパスワード
(8桁)はログインには使い
ません
18 18ログイン方法
パスワード(8桁)は何に使うのか??
鍵を登録するために使います
鍵を作った人が本当にセンターの利用者であることを確
認するために必要です
マニュアル閲覧のために使います
著作権上の問題でマニュアルは利用者のみへの公開とな
ります
鍵を用いて SSH の Port Forwarding をすることもできます
19 19ログイン方法
手順
鍵の生成
鍵の登録
ログイン
20 20鍵の生成 (UNIX, Mac, Cygwin)
UNIX(MNcを含む)系システムと Cygwin では OpenSSH
を使います
鍵の生成コマンド
$ ssh-keygen –t rsN
最初に鍵の保存場所を聞かれます。何も入力せずにリ
ターンしてください
次にパスフレーズを聞かれます。必ず入力してください
もう一度パスフレーズを入力したら完了です
21鍵の生成 (UNIX, Mac, Cygwin)
>$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/guestx/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):(自分の好きなパスワード) Enter same passphrase again:
Your identification has been saved in /home/guestx/.ssh/id_rsa. Your public key has been saved in /home/guestx/.ssh/id_rsa.pub. The key fingerprint is:
>$ cd ~/.ssh >$ ls -l
total 12
-rw--- 1 guestx guestx 1743 Aug 23 15:14 id_rsa
-rw-r--r-- 1 guestx guestx 413 Aug 23 15:14 id_rsa.pub >$ cat id_rsa.pub
文字列出力
ユーザ名の確認
本講習会でのユーザー名
利用者番号 : t00xxx~
利用グループ: gt00
ここで、00xxx~は数字
24以下へアクセスする。
httpst//reedbush-www.cc.u-tokyo.ac.jp/
ユーザ名とパスワードを聞かれるので、
センター発行のユーザ名とパスワードを入力。
注意:記載パスワードは、そのままではNG
25Password
ポータル画面(ログイン前)
26
センターから配られた
利用者番号
と
パスワード
“ChNnge LNnguNge” で日本語に変更できます。
“JNpNnese (JA_JP.UTF-8)” を選んで “ChNnge”を押す
終わったら、ブラウザで再読み込み
講習会:ライブラリ利用 [RB] 271. ここをクリック
2. ここを選択
3. ここをクリック
鍵の登録
1.
左側メニューの「公開鍵アップロード」を
クリックする
2.
「公開鍵を追加」をクリックし、画面に、公開
鍵をカットアンドペーストする
3.
「作成」ボタンを押す
講習会:ライブラリ利用 [RB] 28講習会:ライブラリ利用 [RB]
29
ポータル画面(公開鍵登録)
講習会:ライブラリ利用 [RB] 30ペースト後
クリック
公開鍵をペースト
講習会:ライブラリ利用 [RB]
31