nagasaki 最近の更新履歴 Ocean and Climate Change Lab

(1)

CUDA, OpenCL ^ン ^実習

濱田剛

長崎大学工学部

超高速ココンュンセン

[email protected]

(2)

14^：45^～16^：15 •CUDA, OpenCL ^ン ^実習CUDA OpenCL^環境構築

•CUDA^入門

•CUDA ^ッ ^使い方

•OpenCL^入門

実習環境い



^C/C++ ^言語＊ ^64-bit ^Ｊ inux (CentOS 5)



^ン用端 ^シン ⁽⁸⁰ ⁾



^Core2Duo



^GPU ^い ^い ^！



Happy Hacking Keyboard



^計算用 ^シン



^GPU ^ス ⁽¹²⁸ ¹ ^式 ⁾



^Core2Quad



GeForce9800GTX+ x 2GPUs

(4)

CUDA ( ), OpenCL



CUDA: (Compute unified device architecture)



NVIDIA ^提供 NVIDIA ^製 GPU ^開発環境



^無料



C/C++ ^文法 GPU ^ン ^能



^ン SPMD



^ン ^セス , gather/scatter operation



OpenCL



AMD, NVIDIA ^製 GPU, Cell, ^コ CPU ^利用 ^能 ^開発

環境



^ＡＵＢＡ ^う ^汎用的 ^ン ^環境 NVIDIA ^製 GPU ^以外

利用う群



^当然対象 ^階層 ^深い ^複雑

(5)

始前

GPGPU習得 ^奥義

い

ぶ挫折

(6)

(奥義そ 1)

ュ最初べ

ぶ挫折

(7)

(奥義そ 2)

SDK ^サン ^コ

最初べ

CUDA ^学習 ^質 ^関係

(8)

(奥義そ 3)

理屈学ぶ前

あえ動．

CUDA ^質 ^理解 ^コ

手

(9)

CUDA学習用コ ^： ^／

例題 _500個全 _sqrt

// ^関数 (GPU ^処理部 )

global

void calc_on_gpu (float *y)

{

int i = threadIdx.x;

y[i] = sqrt(y[i]);

(10)

CUDA学習用コ ^： ^０

例題 _500個全 _sqrt

// ^ス ^処理 int main() {

int n = 500;

int nb = sizeof(float) * n; float *x = (float*) malloc(nb); float *y;

cudaMalloc( (void**) &y, nb); for(int i=0; i<n; i++) x[i] = i;

cudaMemcpy( y, x, nb, cudaMemcpyHostToDevice);

calc_on_gpu <<<1, 500 >>> ( y ); // ^関数 (500^個 ^ス ^ッ ^処理) cudaMemcpy(x, y, nb, cudaMemcpyDeviceToHost);

return 0; }

(11)

CUDAコ ^コン ^実行

 ^{CUDA SDK} CUDA Toolkit ^ン

& ^ンス ^＆後 ^明 )

 ^例題 ^保存 ^(test.cu)

 ^例題 ^以 ^場所 ^あ

~/GPGPU-seminar-CUDA/sample1

 ^コン

 nvcc test.cu

(12)

コ何い？

＆動作仕組い明＇

(13)

CUDA ^基

移動スッ並列処理



^必 ^GPU ^移動 ^処理



^そ ^処理 ^関数 ^呼ぶ



Host ^GPU ^GPU

(14)

CUDA学習用コ

int n = 500;

cudaMemcpy( y, x, nb, cudaMemcpyHostToDevice); calc_on_gpu <<<1, 500 >>> ( y );

cudaMemcpy(x, y, nb, cudaMemcpyDeviceToHost); return 0;

}

// ~/GPGPU-seminar-CUDA/sample1/test.cu

ＧＮＵ確保

転送 ( ^ス _{→ GPU}

転送

(GPU _→ ^ス )

500^個 ^ス ^ッ

関数処理

(15)

スッ番号

// ^関数 (GPU ^処理部 )

global

void calc_on_gpu (float *y)

{

int i = threadIdx.x; // ^各ス ^ッ ^毎 ^番号

y[i] = sqrt(y[i]);

(16)

CUDA学習用コ

３．．個スッ関数(calc_on_gpu) ^{並列実行！！}

スッスッ

スッスッスッ

スッ

スッスッ

スッスッスッ

スッ

スッスッ

スッスッスッ

スッ

スッスッ

スッスッスッ

スッ

スッスッスッ

スッ

スッスッ

(17)

Block( ^ッ ) ^い

int n = 500;

cudaMemcpy( y, x, nb, cudaMemcpyHostToDevice);

<<<1, 500 >>>

何？？？

……… 答え _{= block}

(18)



^GPU



1 ^～ 2 ^個 GPU

構成



^GPU

 30^個 SM

(Streaming Multiprocessor) 構成



^{SM, SP}

 8^個 SP

(Streaming processor) 構成．

 ^各SP ^{浮動小数点}

積和算器

NVIDIA GT200

SP SP SP SP

SP SP SP SP Shared Memory

SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM SM

GPU

DRAM DRAM DRAM

×

）

(19)

<<<1, 500>>> 1 ^ッ 500ス

ッいう意味



^学習コ



⁵⁰⁰ ^個 ^ス ^ッ ¹ ^個 ^SM(Stream

Multiprocessor) ^中 ^け ^動作 ^い

(20)

多数ッ使用方法

int n = 60000; // 120 block , 500 thread/block; int nb = sizeof(float) * n;

float *x = (float*) malloc(nb); float *y;

cudaMemcpy( y, x, nb, cudaMemcpyHostToDevice); calc_on_gpu

<<<120, 500 >>>

^{( y );}

cudaMemcpy(x, y, nb, cudaMemcpyDeviceToHost); return 0;

}

計算増や

→ ^そ ^前 ^GPU ^う ^い ^明

ッ数増や

(21)

若干修正

global

void calc_on_gpu (float *y)

{

int tid = threadIdx.x; // ^各ス ^ッ ^毎 ^番号

int bid = blockIdx.x; // ^各 ^ッ ^毎 ^番号

int i = 500 * bid + tid;

y[i] = sqrt(y[i]);

(22)

<<<120, 500>>>

120 ^ッ 500スッ ^いう意味



^SM ^あ ⁶ ^ッ ^替え ^実行



^GPU ^全体 ^{／４．．．ス} ^ッ ^動作

(23)

CUDA/OpenCL

GPU ^ンス

(実演)

自身

GPGPU環境構築

(24)

CUDA /OpenCL ^ンス

Initlevel 3 ^変更

念 _Xサ落

(25)

CUDA /OpenCL ^ンス

ンス起動

(26)

CUDA /OpenCL ^ンス

(27)

CUDA /OpenCL ^ンス

(28)

CUDA /OpenCL ^ンス

(29)

CUDA /OpenCL ^ンス

(30)

CUDA /OpenCL ^ンス

(31)

CUDA /OpenCL ^ンス

(32)

CUDA /OpenCL ^ンス

(33)

CUDA /OpenCL ^ンス

以 _GPU ンス終了．

明簡略化＊再起動

(34)

CUDA

Toolkit & SDK

ンス

(35)

CUDA Toolkit ^ンス

CUDA SDK ^ンス ^起動

Root

(36)

CUDA ンス

環境設定開く

以う _CUDA 必要環境変数追加

(37)

CUDA SDK ^ンス

CUDA SDK ^ンス ^起動

追加環境変数効

(38)

CUDA SDK ンス

Enter (^標準 ^場所 ^ンス ^場合)

Enter (^標準 ^場所 CUDA Toolkit ^ンス ^い ^場合)

(39)

CUDA SDK ンス

ンス終了様子

(40)

CUDA

SDKサン ^コ

コン

(41)

サンコ＊ＳＢＩ

コン



^多少無駄 ^あ

cd ~NVIDIA_CUDA_SDK/

make

＊サンココン

べ自動行わ．



^{最低限必要} ^コン ^作業



Common

(42)

CUDA ^ッ

(CUDA-GDB)

入門

(43)

CUDA-GDB ^？



_{GDB CUDA} ^コ ^ッ ^う ^機

能拡張



Host GPU ^側 ^コ ^対象



CUDA-GDB 2.2 Linux 64 bit ^版 ^対応



CUDA-GDB 2.2 ^用 ^ュ ^ン ^公開

(44)

コン起動



^ッ ^ション付 ^コン

nvcc -g -G foo.cu -o foo



CUDA-GDB ^起動

cuda-gdb foo

(45)

動

(cuda-gdb) break myFirstKernel

(cuda-gdb) run

(cuda-gdb) next

(cuda-gdb) print idx

(cuda-gdb) finish

(cuda-gdb) quit

(46)

GDB ^拡張コ ^ン



^現在 _focus ^い ^ス ^ッ ^表示

(cuda-gdb) thread



^中 ^ス ^ッ ^替え

例 _: ッ _{(0, 0)} スッ _{(1, 0, 0)} 替え

(cuda-gdb) thread <<<(0, 0), (1, 0, 0)>>>



^全ス ^ッ ^状態一覧

(cuda-gdb) info cuda threads all

(47)

起動 breakpoint設定実行

(48)

スッ情報表示スッ実行

(49)

スッ替えスッ実行

(50)

nvcc ^ッ ^用 ^ション



--debug (-g)



Generate debug information for host code.



--device-debug <level> (-G)



Generate debug information for device code, plus

also specify the optimization level for the device

code in order to control its 'debuggability.



Allowed values for this option: 0,1,2,3.

(51)

OpenCL 入門

(52)

OpenCL



OpenCL



AMD, NVIDIA ^製 GPU, Cell, ^コ CPU ^利用 ^能 ^開発

環境



^ン ^業界標準 API ^策定 ^{行う非営利団体} OpenCLKhronos

Group ^仕様策定



^現在 Nvidia ^実装 ^公開 & ^無料 ^利用 ^能



^ＡＵＢＡ ^う ^汎用的 ^ン ^環境 NVIDIA ^製 GPU ^以外

利用う群



^当然対象 ^階層 ^深い ^複雑



^＊考え方 CUDA ^同

＊くスッ

(53)

CUDA OpenCL ^対応



CUDA OpenCL ^同 ^点



^ス GPU ^移動 ^必要 ^あ



^多数 ^ス ^ッ ^実行



^ス ^ッ ^識別番号 ^用い ^ス ^ッ ^動作 ^指定



CUDA OpenCL ^異 ^点



^OpenCL ^方 ^細 ^手続 ^多い

(54)

CUDA OpenCL ^対応

＆スッ識別＇

CUDA OpenCL

threadIdx.x get_local_id(0)

blockIdx.x get_group_id(0)

blockDim.x get_local_size(0)

blockIdx.x * blockDim.x + threadIdx.x get_global_size(0)



CUDA OpenCL ^似 ^う ^識別子 ^取得



^⇒単一 ^複数 ^ス ^ッ ^並列実行



^基 ^的 ^ン ^CUDA ^同

(55)

サン明



^各 _work-item ^自 ^{識別子ＩＢ} ^使 ^配

列ＩＢ番目要素ＩＢ値入サン

→ ^く単純 ^動作

＆以実演交え明＇

(56)

ＭｐｅｎＡＪ関係変数

// OpenCL Vars

cl_context cxGPUContext; // OpenCL context

cl_command_queue cqCommandQue; // OpenCL command que cl_device_id* cdDevices; // OpenCL device list

cl_program cpProgram; // OpenCL program cl_kernel ckKernel; // OpenCL kernel

cl_mem cmDevSrcA; // OpenCL device source buffer A cl_mem cmDevSrcB; // OpenCL device source buffer B cl_mem cmDevDst; // OpenCL device destination buffer size_t szGlobalWorkSize; // 1D var for Total # of work items

size_t szLocalWorkSize; // 1D var for # of work items in the work group size_t szParmDataBytes; // Byte size of context information

size_t szKernelLength; // Byte size of kernel code cl_int ciErr1, ciErr2; // Error code var

char* cPathAndName = NULL; // var for full paths to data, src, etc. char* cSourceCL = NULL; // Buffer to hold source for compilation

(57)

work-item数 ^指定

// Length of float arrays to process int iNumElements = 11444777;

// set and log Global and Local work size dimensions SzLocalWorkSize = 256;

// rounded up to the nearest multiple of the LocalWorkSize

szGlobalWorkSize = shrRoundUp((int)szLocalWorkSize, iNumElements);

(58)

処理内容

// OpenCL Kernel Function for element by element vector addition

__kernel void VectorAdd(__global float* c, __global int iNumElements) {

// get index into global data array int iGID = get_global_id(0);

// bound check (equivalent to the limit on a 'for' loop for standard/serial C code

if (iGID >= iNumElements) {

return; }

// add the vector elements c[iGID] = iGID;

}

(59)

Host側 ^確保

// Allocate and initialize host arrays

dst = (void *)malloc(sizeof(cl_float) * szGlobalWorkSize);

cl_mem_flags Description

CL_MEM_READ_WRITE ^{カーネ} って読み書きさ CL_MEM_WRITE_ONLY ^{カーネ} write only CL_MEM_READ_ONLY ^{カーネ} read only

CL_MEM_USE_HOST_PTR ータの格納先としてホスのを指定

(60)

スコンスコンュ

作成

// Create the OpenCL context on a GPU device

cxGPUContext = clCreateContextFromType(0, CL_DEVICE_TYPE_GPU, NULL, NULL, &ciErr1);

// Get the list of GPU devices associated with context

clGetContextInfo( cxGPUContext, CL_CONTEXT_DEVICES, 0, NULL, &szParmDataBytes);

cdDevices = (cl_device_id*)malloc(szParmDataBytes);

clGetContextInfo( cxGPUContext, CL_CONTEXT_DEVICES,

szParmDataBytes, cdDevices, NULL);

// Create a command-queue CqCommandQue =

clCreateCommandQueue(cxGPUContext, cdDevices[0], 0, &ciErr1);

(61)

ス側確保

// Allocate the OpenCL buffer memory objects on the device GMEM. cmDevDst = clCreateBuffer(cxGPUContext, CL_MEM_WRITE_ONLY,

sizeof(cl_float) * szGlobalWorkSize, NULL, &ciErr2);

(62)

込コン

// Name of the file with the source code for the computation kernel const char* cSourceFile = "VectorInit.cl";

// Read the OpenCL kernel in from source file

cPathAndName = shrFindFilePath(cSourceFile, argv[0]);

cSourceCL = oclLoadProgSource(cPathAndName, "", &szKernelLength);

// Create the program CpProgram =

ClCreateProgramWithSource( cxGPUContext, 1, (const char **)&cSourceCL,

&szKernelLength, &ciErr1);

// Build the program

clBuildProgram(cpProgram, 0, NULL, NULL, NULL, NULL); // Create the kernel

ckKernel = clCreateKernel(cpProgram, "VectorAdd", &ciErr1);

(63)

引数指定

起動

// Set the Argument values

clSetKernelArg(ckKernel, 0, sizeof(cl_mem), (void*)&cmDevDst); clSetKernelArg(ckKernel, 1, sizeof(cl_int), (void*)&iNumElements);

// Launch kernel

clEnqueueNDRangeKernel(cqCommandQue, ckKernel, 1, NULL,

&szGlobalWorkSize, &szLocalWorkSize, 0, NULL, NULL);

// Synchronous/blocking read of results, and check accumulated errors ClEnqueueReadBuffer(cqCommandQue, cmDevDst, CL_TRUE, 0,

sizeof(cl_float) * szGlobalWorkSize, dst,

(64)

OpenCL入門



OpenCL CUDA ^比べ ^非常 ^柔軟 ^仕様



^言い方 ^え ^複雑



^ン ^考え方 CUDA ^同 ^．

CUDA ^学習時間 ^無駄 ^．



^う ^必要

CUDA ^一通 ^学習 ^後

OpenCL ^取 ^掛 ^近道 ^思い ^．

(65)

CUDA/OpenCL

くく基的入門行い

機会あ

高速化編行いい

思い

(66)

Enjoy the CUDA and OpenCL !

長崎大学うそ！

(67)

付録 _:

CUDA-GDB ^ンス

(68)

CUDA-GDB ンス

(69)

付録 _:

OpenCL ^ンス

(70)

注意事項

OpenCL 64-bit Linux

正規方法動作

(Ubuntu8.1以外 )

以方法

CentOS5.3-x86_64 ^動

裏技入い！！

(71)

OpenCL ンス

(72)

OpenCL ンス

(73)

OpenCL ンス

(74)

OpenCL ンス

(75)

OpenCL ンス

(76)

OpenCL ンス

(77)

OpenCL ンス

(78)

OpenCL ンス

(79)

OpenCL ンス

(80)

OpenCL ンス

(81)

nagasaki 最近の更新履歴 Ocean and Climate Change Lab

CUDA, OpenCL ン 実習

濱田 剛

Contents

実習環境 い

C/C++ 言語＊ 64-bit Ｊ inux (CentOS 5)

ン用端 シン (80 )

Core2Duo

GPU い い ！

Happy Hacking Keyboard

計算用 シン

GPU ス (128 1 式 )

Core2Quad

GeForce9800GTX+ x 2GPUs

CUDA ( ), OpenCL

CUDA: (Compute unified device architecture)

NVIDIA 提供 NVIDIA 製 GPU 開発環境

無料

C/C++ 文法 GPU ン 能

ン SPMD

ン セス , gather/scatter operation

OpenCL

AMD, NVIDIA 製 GPU, Cell, コ CPU 利用 能 開発

環境

ＡＵＢＡ う 汎用的 ン 環境 NVIDIA 製 GPU 以外

利用 う 群

当然対象 階層 深い 複雑

始 前

GPGPU習得 奥義

い

ぶ 挫折

(奥義そ 1)

ュ 最初 べ

ぶ 挫折

(奥義そ 2)

SDK サン コ

最初 べ

CUDA 学習 質 関係

(奥義そ 3)

理屈 学ぶ前

あえ 動 ．

CUDA 質 理解 コ

手

CUDA学習用コ ： ／

例題 500個 全 sqrt

__global__

void calc_on_gpu (float *y)

{

int i = threadIdx.x;

y[i] = sqrt(y[i]);

CUDA学習用コ ： ０

例題 500個 全 sqrt

CUDAコ コン 実行

 CUDA SDK CUDA Toolkit ン

& ンス ＆後 明 )

 例題 保存 (test.cu)

 例題 以 場所 あ

~/GPGPU-seminar-CUDA/sample1

 コン

 nvcc test.cu

コ 何 い ？

＆動作 仕組 い 明＇

CUDA 基

移動 ス ッ 並列処理

必 GPU 移動 処理

そ 処理 関数 呼ぶ

Host GPU GPU

CUDA学習用コ

ス ッ 番号

__global__

void calc_on_gpu (float *y)

{

int i = threadIdx.x; // 各ス ッ 毎 番号

y[i] = sqrt(y[i]);

CUDA学習用コ

Block( ッ ) い

<<<1, 500 >>>

GPU

1 ～ 2 個 GPU

構成

CUDA, OpenCL ^ン ^実習

濱田剛

実習環境い

^C/C++ ^言語＊ ^64-bit ^Ｊ inux (CentOS 5)

^ン用端 ^シン ⁽⁸⁰ ⁾

^Core2Duo

^GPU ^い ^い ^！

^計算用 ^シン

^GPU ^ス ⁽¹²⁸ ¹ ^式 ⁾

^Core2Quad

NVIDIA ^提供 NVIDIA ^製 GPU ^開発環境

^無料

C/C++ ^文法 GPU ^ン ^能

^ン SPMD

^ン ^セス , gather/scatter operation

AMD, NVIDIA ^製 GPU, Cell, ^コ CPU ^利用 ^能 ^開発

^ＡＵＢＡ ^う ^汎用的 ^ン ^環境 NVIDIA ^製 GPU ^以外

利用う群

^当然対象 ^階層 ^深い ^複雑

始前

GPGPU習得 ^奥義

ぶ挫折

ュ最初べ

ぶ挫折

SDK ^サン ^コ

最初べ

CUDA ^学習 ^質 ^関係

理屈学ぶ前

あえ動．

CUDA ^質 ^理解 ^コ

CUDA学習用コ ^： ^／

例題 _500個全 _sqrt

global

CUDA学習用コ ^： ^０

例題 _500個全 _sqrt

CUDAコ ^コン ^実行

 ^{CUDA SDK} CUDA Toolkit ^ン

& ^ンス ^＆後 ^明 )

 ^例題 ^保存 ^(test.cu)

 ^例題 ^以 ^場所 ^あ

 ^コン

コ何い？

＆動作仕組い明＇

CUDA ^基

移動スッ並列処理

^必 ^GPU ^移動 ^処理

^そ ^処理 ^関数 ^呼ぶ

Host ^GPU ^GPU

スッ番号

global

int i = threadIdx.x; // ^各ス ^ッ ^毎 ^番号

Block( ^ッ ) ^い

^GPU

1 ^～ 2 ^個 GPU

^GPU

^{SM, SP}

<<<1, 500>>> 1 ^ッ 500ス

ッいう意味

^学習コ

⁵⁰⁰ ^個 ^ス ^ッ ¹ ^個 ^SM(Stream

Multiprocessor) ^中 ^け ^動作 ^い

多数ッ使用方法

global

int tid = threadIdx.x; // ^各ス ^ッ ^毎 ^番号

int bid = blockIdx.x; // ^各 ^ッ ^毎 ^番号

120 ^ッ 500スッ ^いう意味

^SM ^あ ⁶ ^ッ ^替え ^実行

^GPU ^全体 ^{／４．．．ス} ^ッ ^動作

GPU ^ンス

GPGPU環境構築

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス

CUDA /OpenCL ^ンス