• 検索結果がありません。

GPUコンピューティング講習会パート1

N/A
N/A
Protected

Academic year: 2021

シェア "GPUコンピューティング講習会パート1"

Copied!
17
0
0

読み込み中.... (全文を見る)

全文

(1)

GPUコンピューティング(CUDA)

講習会

GPUとGPUを用いた計算の概要

丸山 直也

(2)

2009/9/28

スケジュール

• 13:20-13:50 「GPUを用いた計算の概要」 – 担当 丸山 • 13:50-14:30 「GPUコンピューティングによるHPC アプリケーションの高速化の事例紹介」 – 担当 青木 • 14:30-14:40 休憩 • 14:40-17:00 「CUDAプログラミングの基礎」 – 担当 丸山

(3)

TSUBAMEのTesla利用方法:ログイン

1. 端末(iMac)へのログイン – 配布した紙に記載されているID, passwordを利用 2. Titech2006もしくは「移動」ユーティリティを選択し、 X11.appを起動(xtermの起動) 3. Tsubameへログイン

(4)

2009/9/28

TSUBAMEのTesla利用方法:準備

• GSIC「TESLA利用の手引き」を参照 – http://www.gsic.titech.ac.jp/~ccwww/tebiki/tesla/tesla. html • CUDAインストールディレクトリへのパスを各種環境 変数に追加 – お使いのシェルにあわせて、source cuda_setup.{csh,sh} としてください • 詳しくは利用の手引き4節を参照 (csh系: cuda-setup.csh)

setenv PATH ${PATH}:/opt/cuda/bin

setenv LD_LIBRARY_PATH ${LD_LIBRARY_PATH}:/opt/cuda/lib setenv MANPATH ${MANPATH}:/opt/cuda/man

(bash系: cuda-setup.sh)

export PATH=${PATH}:/opt/cuda/bin

export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/opt/cuda/lib export MANPATH=${MANPATH}:/opt/cuda/man

(5)

GPUコンピューティング

• GPUを一般アプリケーションの高速化に適用

– GPUを計算アクセラレータとして利用

• GPGPU (General-Purpose Computing on GPU) とも言われる

• 2000年前半から研究としては存在。2007年に CUDAがリリースされてから大きな注目

(6)

2009/9/28

計算加速器 (アクセラレータ)

• Cell, GPU, GRAPE, ClearSpeed, FPGA, …

• 汎用CPUとは別に特定の計算のオフロードが可能 なプロセッサ • 汎用CPUと比較して高性能and/or低消費電力 • HPCではベクトル演算に特化したアクセラレータが 注目 • ハイブリッドコンピューティング – 汎用CPUとアクセラレータの組み合わせ – HPCにおける最近の最もホットなトピックの1つ

(7)

例: Roadrunner at LANL

• Opteron + PowerXCell 8i

• 史上初ペタフロップ超えマシン

– 1.105 PFLOPS (LINPACK)

• 現在世界最速スパコン

– 2008年6月よりTOP500スーパーコンピュータラ ンキングにて1位

(8)

2009/9/28

例:TSUBAME @ 東工大GSIC

• Opteron (> 10K cores) + ClearSpeed (>

600) + NVIDIA Tesla (> 600)

• Peak: 170 TFLOPS (DP), Linpack: 87.01

TFLOPS (41

st

at Jun ’09 TOP500)

Tesla S1070

• 4 Tesla cards in a 1U node

• Connected to host machines via PCIe extension cables

(9)

Tesla 10 (T10)

• NVIDIA G200系アーキテクチャによるHPC向けプロセッサ

– コンシューマ向け  GeForce 280 GTX

• 240コア @ 1.29-1.44 GHz • 4GB memory, 102 GB/s

• Peak: 1 TFLOPS (SP), 90 GFLOPS (DP) • 製品

– Tesla C1060: PCIe card

– Tesla S1060: 1U system with 4 C1060 cards

• GeForceとの違い

– ビデオ出力無し

– 品質(NVIDIAによる全品検査 vs ボードメーカによるサンプル検査) – 価格 (C1060 @ $1,700, GTX 280 @ $400)

(10)

2009/9/28

なぜGPU?

• CPUを

大幅に上回る計算性能+メモリバンド幅

– Tesla • 1 TFOPS (SP) / 90 GFOPS (DP) • 100 GB/s – Core 2 Quad @ 3 GHz • 96 GFLOPS (SP) / 48 GFOPS (DP) • < 10 GB/s

• 多くのデータ並列なアプリ

0 20 40 60 80 100 120 140 160 Intel Q6700 Phenom 9500 Opteron 16core PS3 (CELL) 8800 GT 8800 GTS 512 8800 GTX 280 GTX G F L O P S 3次元FFT(額田@GSIC)

(11)

性能トレンド

(12)

12

TSUBAME 1.2 Evolution

(Oct. 2008)

The world’s first GPU-based SC in the World

500GB

48d isks

N EC SX-8i Voltaire ISR9288 Infiniband x8

10Gbp s x2 ~1310+50 Ports ~13.5Terabits/ s

(3Tbits bisection)

10Gbp s+External N W Su n x4600 (16 Op teron Cores)

32~128GBytes/ N od e 10480core/ 655N od es 21.4TeraBytes 50.4TeraFlop s OS Linu x (Su SE 9, 10) N AREGI Grid MW Unified Infiniband netw ork ClearSp eed CSX600 SIMD accelerator 360 648 board s, 35 52.2TeraFlop s PCI-e

170 N vid ia Tesla 1070, ~680 Tesla card s H igh Perform ance in Many BW-Intensive Ap p s

10% p ow er increase over TSUBAME 1.0

Storage

1.5 Petabyte (Su n x4500 x 60) 0.1Petabyte (N EC iStore)

Lu stre FS, N FS, CIF, WebDAV (over IP)

60GB/ s aggregate I/ O BW 10,000 CPU Cores 300,000 SIM D Cores > 3 M illion Threads ~900TFlops-SFP, ~170TFlops-DFP 80TB/s M em BW (1/2 ES) N EW: co-TSUBAME

90N od e 720CPU (Low Pow er) ~7.2TeraFlop s

N EW Dep loy: GCOE TSUBASA H arp ertow n-Xeon

90N od e 720CPU 8.2TeraFlop s

(13)

13

TSUBAME 1.2. The most

Heterogeneous Supercomputer in the

world

• Three node configurations with four different

processors  >30,000 cores, ~170TFlops system

Su nFire X4600+ 2 TESLAs + ClearSp eed

• Opteron 2.4GHz 16 cores

• TESLA S1070 (30cores) 2board s • ClearSpeed X620 (2cores) 1board  78 cores, 330 Gflops peak

Su nFire X4600+ClearSp eed

• Opteron 2.4GHz 16 cores

• ClearSpeed X620 (2cores) 1board  18 cores, 157 Gflops peak

Su nBlad e X6250 (TSUBASA clu ster) • Xeon 2.83GHz 8 cores

x 318nod es

x 330nod es

(14)

2009/9/28

GPUコンピューティング

• GPUを一般アプリケーションの高速化に適用

– GPUアクセラレータと呼ばれるものの一種

• GPGPU (General-Purpose Computing on GPU) とも言われる

• 2000年前半から研究としては存在。2007年に CUDAがリリースされてから大きな注目

(15)

GPUコンピューティング:ハードウェア

• NVIDIA GPU

– GeForceシリーズ: 一般のPCに搭載されている タイプで、比較的安価。GeForce 8800 GTXより CUDAを実行可能 – Teslaシリーズ: GPUコンピューティング専用 ハードウェア(ディスプレイ出力無し)。高価だが より高信頼(といわれている)。TSUBAMEに搭載

• AMD/ATI GPU

– Radeonシリーズ – FireStreamシリーズ

(16)

2009/9/28

GeForce 8800 GTX

Load/store

Global Memory

Thread Execution Manager

Input Assembler Host

TextureTexture Texture Texture Texture Texture Texture Texture Texture

Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache

(17)

GPUコンピューティング:ソフトウェア

• NVIDIA CUDA – 2007年2月にNVIDIAが自社のGPU向けにリリース – C/C++の言語拡張 – NVIDIAのGPU専用 – 最も普及 • OpenCL – Appleによる提案に始まり、標準化団体により制定 – 言語自体はベンダー非依存 – Snow Leopardに標準搭載

– NVIDIA GPU、x86 CPU向けSDKが利用可能 – 普及はまだ(そのうち?)

• その他

参照

関連したドキュメント

問題集については P28 をご参照ください。 (P28 以外は発行されておりませんので、ご了承く ださい。)

• AF/AE ロック機能を使って、同じ距離の他の被写体にピントを 合わせてから、構図を変えてください(→ 43 ページ)。. •

ㅡ故障の内容によりまして、弊社の都合により「一部代替部品を使わ

利用している暖房機器について今冬の使用開始月と使用終了月(見込) 、今冬の使用日 数(見込)

~自動車の環境・エネルギー対策として~.. 【ハイブリッド】 トランスミッション等に

№3 の 3 か所において、№3 において現況において環境基準を上回っている場所でございま した。ですので、№3 においては騒音レベルの増加が、昼間で

使用済自動車に搭載されているエアコンディショナーに冷媒としてフロン類が含まれている かどうかを確認する次の体制を記入してください。 (1又は2に○印をつけてください。 )

生育には適さない厳しい環境です。海に近いほど