テクスチャによるリダクション計算

1 5 9 3 6 7 2 4

+ + + +

+ +

第 1 ステージ

第 2 ステージ

第 3 ステージ

図4.34: リダクション計算のカスケード実行

図4.35: リダクション計算のカスケード実行

float sum = 0.0;

for(int j = 0; j < M; j++){

for(int i = 0; i < N; i++){

sum += z[i][j];

}

この計算も繰り返し順に値を足し込むから一見すると並列性がない。が、図4.35のように

隣接する4要素毎に加算を行えばカスケード計算が可能である。1次元のカスケード計算

が二分木構造であったのに対して2次元のそれは四分木構造になる。

図4.36^{を用いてい、この}2次元カスケード計算についてさらに考察する。この図は、図

4.35の最初の計算：黒いメッシュの最下層のテクスチャから青いメッシュのひとつ上位の、

サイズが1/4のメッシュを求めるステップを抜き出したものである。今、図4.36^{の青いメッ}

シュの画素点(m, n)^{に黒いメッシュの}4点のデータの和を求めることを考える。(m, n)^に

対応する4点の位置は(2m,2n)、(2m+ 1,2n)、(2m,2n+ 1)、(2m+ 1,2n+ 1)、である。

フラグメントシェーダーでは(2m,2n)、(2m+ 1,2n)、(2m,2n+ 1)、(2m+ 1,2n+ 1)の

位置の数値の和を求め、それを(m, n)の位置に書き込めばよい。ホストプログラムはこの

計算を図4.35のように階層的に繰り返せばよい。

この方法はデータサイズが大きい場合にはそれなりの高速化が期待できる。

m 2m 2m+1 n

2n 2n+1

0 0

図4.36: 2次元リダクション計算のカスケード実行

4.7.1 ホストプログラム

さて、またプログラム全体の見通しが悪くなってきた。処理内容も相当に複雑であるか

ら、以下ではこの章のまとめを兼ねて、この計算に関する主要なプログラムを全て載せる

こととする。

まず、宣言などを集めたヘッダーファイルAll.h^は図4.37^、図4.38^{の通りである。各種}

システムヘッダーの読み込み、構造体の定義、頂点バッファを表すクラスArrayBuffer^、読

み書き可能2次元テクスチャのクラスRWTexture2D、シェーダーを統括するクラスShader

を定義している。ArrayBuffer^{クラスのメンバー関数} moveData()^{を新規に導入してい}

る。これについては後述する。

main関数は図4.39の通りである。図4.2から変更ない。

initSystem()は図4.40の通りである。これは図4.3から変更ない。

2次元リダクション計算に関係するヘッダファイルの読み込みと大域変数の宣言は図4.41

の通りである。頂点バッファはinitData()^とcompute()の両方からアクセスするため、

大域化した。

図4.42が、合計値計算のためのinitData()である。ここでは頂点データの座標値が−1

の場合のみ設定している。というもの、図4.35^、図4.36に示したように、計算を行う矩形領

域の左辺、底辺は固定のままなのだが、右辺は徐々に左側へ移動し、上辺は徐々に下方へ移

✓ ✏

#include <iostream>

using namespace std;

#include <stdio.h>

#include <stdlib.h>

#if defined(WIN32)

# pragma comment(lib, "glew32.lib")

# include "glew.h"

# include "glut.h"

# include "glext.h"

#elif defined(__APPLE__) || defined(MACOSX)

# include <GLUT/glut.h>

#else

# define GL_GLEXT_PROTOTYPES

# include <GL/glut.h>

#endif

struct Position2D { float x;

float y;

};

struct RGBA { float r;

float g;

float b;

float a;

};

struct ArrayBuffer { GLuint bufID;

int size;

ArrayBuffer(float* data, int s, int n);

void moveData(float* data, int n); // ^{頂点データを}GPU^へ転送 };

struct RWTexture2D { GLuint texID;

GLint num;

RWTexture2D(int tnum, void* data, int w, int h);

void readData(void*, int w, int h);

✒}; ✑

図 4.37: 2 次元リダクション計算のためのヘッダファイル（図 4.38 ^{へ続く、}

ArrayBuffer::moveData()を新規で追加）

✓ ✏ struct Shader {

GLuint program;

Shader(const char* vsn, const char* fsn);

void use();

void bindArrayBuffer(const char* vname, ArrayBuffer* ap);

void setFloat(const char* vname, float val);

void bindTextureR(const char* vname, RWTexture2D* tp);

void bindTextureW(RWTexture2D* tp);

void run(GLenum mode, int n);

GLuint compileProgram(GLenum type, const GLchar *file);

void buildProgram(const GLchar *vsfile, const GLchar *fsfile);

✒}; ✑

図 4.38: 2次元リダクション計算のためのヘッダファイル（図4.37^{からの続き、リダク} ション計算固有の部分はない）

✓ ✏

int main(int argc, char *argv[]) {

initSystem(argc,argv);

initData();

compute();

showResults();

return 0;

✒} ✑

図4.39: 2次元リダクション計算のためのmain()（リダクション計算固有の部分はない）

✓ ✏ void initSystem(int argc, char *argv[])

{

glutInit(&argc,argv);

glutInitDisplayMode(GLUT_RGB|GLUT_SINGLE);

glutInitWindowSize(width,height);

glutCreateWindow("Test Window");

glClearColor(0.0,0.0,0.0,0.0);

#if defined(WIN32) glewInit();

#endif

GLuint fb;

glGenFramebuffers(1, &fb);

glBindFramebuffer(GL_FRAMEBUFFER, fb);

sp = new Shader("shader.vert","shader.frag");

sp->use();

✒} ✑

図 4.40: 2次元リダクション計算のためのinitSystem()（リダクション計算固有の部分はない）

✓ ✏

#include "All.h"

#include <math.h>

#include <time.h>

const int NUM_POINTS = 4;

const int width = 4096;

const int height = 4096;

RWTexture2D *texXp; // ^{テクスチャ} X ^{へのポインタ}

RGBA x[height][width]; // X^{のテクスチャデータ}

RWTexture2D *texZp; // ^{テクスチャ} Z ^{へのポインタ}

Shader *sp; // シェーダーへのポインタ

ArrayBuffer* abp; // 頂点バッファへのポインタ

Position2D pos[NUM_POINTS]; // 頂点バッファの配列 double start_clock, end_clock; // 実行時間計測のため

✒ ✑

✓ ✏ void initData()

{

pos[0].x = -1.0; pos[0].y = -1.0; // 頂点データの部分的な初期化 pos[1].y = -1.0; // ^残りはcompute()^内で計算 pos[3].x = -1.0;

//頂点バッファの生成とシェーダーへの結合

abp = new ArrayBuffer((float*)pos,2,NUM_POINTS);

sp->bindArrayBuffer("position",abp);

for(int h = height-1; h >= 0; h--){ // テクスチャ X の初期値の設定 for(int w = 0; w < width; w++){

x[h][w].r = w+h+0.1;

x[h][w].g = w+h+0.2;

x[h][w].b = w+h+0.3;

x[h][w].a = w+h+0.4;

} }

start_clock = clock();

texXp = new RWTexture2D(0,x,width,height); // X^{を入力に設定} texZp = new RWTexture2D(1,NULL,width,height); // Z^{を出力に設定} sp->setFloat("width",width); // uniform変数 width の設定 sp->setFloat("height",height); // uniform変数 height の設定

✒} ✑

図4.42: 2次元リダクション計算のためのinitData()

✓ ✏ void compute(void)

{

float offset;

for(int size = width; size > 1; ){

offset = float(size)/float(width)-1.0;

pos[1].x = offset;

pos[2].x = offset; pos[2].y = offset;

pos[3].y = offset;

abp->moveData((float*)pos,NUM_POINTS);

sp->bindTextureR("tx",texXp);

sp->bindTextureW(texZp);

glClear(GL_COLOR_BUFFER_BIT);

sp->run(GL_POLYGON,NUM_POINTS);

size /= 2;

offset = float(size)/float(width)-1.0;

pos[1].x = offset;

pos[2].x = offset;

pos[2].y = offset;

pos[3].y = offset;

abp->moveData((float*)pos,NUM_POINTS);

sp->bindTextureR("tx",texZp);

sp->bindTextureW(texXp);

glClear(GL_COLOR_BUFFER_BIT);

sp->run(GL_POLYGON,NUM_POINTS);

size /= 2;

}

✒} ✑

図4.43: 2次元リダクション計算のためのcompute()

動しながらリダクション演算を行うため、初期設定では左辺、底辺に関する座標値のみを設

定している。右辺、上辺は関数compute()内で設定する。また、テクスチャとシェーダー

プログラムの関連付けを行う関数呼び出しsp->bindTextureR()^、sp->bindTextureW()

も全て compute() ^{へ移動させた。}

リダクション計算の中核は、図4.43^の関数compute()である。

図4.36を思い出そう。まず、画像全体を表す矩形領域は、

左下の座標点：(−1, −1), ^{右上の座標点：}(1, 1)

である。それに対して、青いメッシュの矩形領域は、縦横の辺の長さが半分になるから

✓ ✏ void ArrayBuffer::moveData(float* data, int n){

glBindBuffer(GL_ARRAY_BUFFER, bufID);

glBufferSubData(GL_ARRAY_BUFFER, 0, sizeof(float)*size*n, data);

✒} ✑

図 4.44: 頂点データをGPUへ転送する関数である。さらに緑のメッシュの矩形領域は、

左下の座標点：(−1, −1), 右上の座標点：(0.5, 0.5)

である。これを繰り返し、その矩形領域に含まれる画素点が1個になったところで計算を

終了させる。関数 compute()のforループは、矩形のサイズを1／2に減じながら実行

する繰り返しである。

関数 compute()の中を少し詳しく述べると、図4.43^{のプログラム辺：}

offset = float(size)/float(width)-1.0;

pos[1].x = offset;

pos[2].x = offset;

pos[2].y = offset;

pos[3].y = offset;

はその矩形領域の右辺と上辺の座標値の設定を行なっている部分である。

設定された頂点座標値は

abp->moveData((float*)pos,NUM_POINTS);

によってGPU^{へ転送する。関数}moveData()^{の実装は図}4.44^{の通りである。ここに}OpenGL

の関数呼び出し：

glBufferSubData(G ARRAY BUFFER, 0, sizeof(float)*size*n, data)¹⁷

は、すでにGPU内に領域確保されている頂点バッファに頂点データを一斉転送する¹⁸。

以上が矩形領域の設定である。

一旦、矩形が設定されたならば、関数呼び出し：

sp->bindTextureR("tx",texXp);

sp->bindTextureW(texZp);

glClear(GL_COLOR_BUFFER_BIT);

sp->run(GL_POLYGON,NUM_POINTS);

17void glBufferSubData(GLenum target, GLintptr offset, GLsizeiptr size, const GLvoid * data);

18一斉転送ではなく、glMapBuffer()¹⁹^、glUnmapBuffer()²⁰を用いることも可能であるが、それについての解説は省略する。

✓ ✏ void showResults()

{

RGBA result;

texXp->readData(&result,1,1);

end_clock = clock();

double total = (end_clock-start_clock)/CLOCKS_PER_SEC;

double gflops = (4.0*(4096*4096-1)) / (total * 1e9);

start_clock = clock();

RGBA result2;

result2.r = result2.g = result2.b = result2.a = 0.0;

for(int h = height-1; h >= 0; h--){

for(int w = 0; w < width; w++){

result2.r += x[h][w].r;

result2.g += x[h][w].g;

result2.b += x[h][w].b;

result2.a += x[h][w].a;

} }

end_clock = clock();

double total2 = (end_clock-start_clock)/CLOCKS_PER_SEC;

double gflops2 = (4.0*(4096*4096-1)) / (total2 * 1e9);

printf("GPU: %f %f %f %f\n",result.r,result.g,result.b,result.a);

printf("CPU: %f %f %f %f\n",result2.r,result2.g,result2.b,result2.a);

printf("%le %le %le %le\n",total,gflops,total2,gflops2);

✒} ✑

図 4.45: リダクション計算のためのshowResults()

は、テクスチャの設定、フレームバッファの初期化、描画の実行を行う。この一連の実行

で図4.35^{の黒いメッシュの}4画素点の値の和は、対応する青いメッシュの画素点に格納さ

れる。

OpenGLによるGPGPUの基本はピンポン計算であるから、図4.43の後半では、2枚

のテクスチャの役割を入れ替え、矩形の一片のサイズを半分に減じて、同様の計算を繰り

返す。

このピンポン計算を矩形に含まれる画素点が1個になるまで繰り返す。

図4.45は、計算結果、実行時間を出力するプログラムである。

GPU^{の計算結果は}GPUのメモリ内のテクスチャの左下の1画素分の求められている

から、

texXp->readData(&result,1,1);

によってCPU^の1^{画素分の変数} result^{に転送している。}

CPUによる合計計算は、単純な二重ループで実装した。

出力は、まずGPUとCPUの計算結果を

printf("GPU: %f %f %f %f\n",result.r,result.g,result.b,result.a);

printf("CPU: %f %f %f %f\n",result2.r,result2.g,result2.b,result2.a);

によって比較出力する。それに続きて実行時間、演算性能を計算し、出力する。この計算

に必要な総演算数は、4.0*(4096*4096-1)^である²¹^。GPU内での実際の演算数も同じで

ある。

4.7.2 シェーダープログラム

バーテックスシェーダーのソースプログラムは図4.46の通りである。これは図4.11と

同じものである。

フラグメントシェーダーのソースプログラムは図4.47の通りである。図4.36で見たよ

うに、フラグメントシェーダーの画素点が(m, n)であるとき、テクスチャ上の(2m,2n)、

(2m+ 1,2n)^、(2m,2n+ 1)^、(2m+ 1,2n+ 1)の位置の値の和を求めねばならない。そこで、

座標値を保持する変数texCoord^、texCoord00^、texCoord10^、texCoord01^、texCoord00

を用いて、テクスチャ上の座標を計算している。プログラム中の定数 0.5 ^{は座標値をよ}

り正確に計算するための調整用である。

4.7.3 実行結果

プログラムを実行するとshowResults()が以下のような計算結果を出力する。

GPU: 68704378880.000 68706054144.000 68707733504.000 68709408768.000

CPU: 68711055360.000 68711055360.000 68711055360.000 68711055360.000

GPU^とCPUの計算結果が異なる。これはGPU^{のリダクション計算と}CPU^{の単純な二重}

ループの計算の計算順序の違いに依る。float型は有効桁数がせいぜい7^{桁程度しかない}

ため、7桁以上大きさの異なる数の加算では小さい方の数が無視される。単純な二重ルー

プによる積算ではそれが起きやすいが、階層的なリダクション計算ではそれが起きにくい。

実際、テクスチャサイズを小さくすると、GPUとCPUの計算結果は完全に一致するこ

とを確認している。

21正確に言えば、CPUによる単純な二重ループでの演算数は4.0*4096*4096^{であって、}4個だけ無駄な演算があるが、もちろん演算性能の数値ではほとんど無視できる。

✓ ✏

#version 120

attribute vec2 position;

void main(void) {

gl_Position = vec4(position,0.0,1.0);

✒} ✑

図4.46: リダクション計算のためのバーテックシェーダーソースプログラム

✓ ✏

#version 120

uniform sampler2D tx;

uniform float width;

uniform float height;

void main(void) {

vec2 texCoord = 2*(gl_FragCoord.xy-vec2(0.5));

vec2 delta = vec2(0.5/width,0.5/height);

vec2 texCoord00

= vec2(texCoord.x/width,texCoord.y/height)+delta;

vec2 texCoord10

= vec2((texCoord.x+1)/width,texCoord.y/height)+delta;

vec2 texCoord01

= vec2(texCoord.x/width,(texCoord.y+1)/height)+delta;

vec2 texCoord11

= vec2((texCoord.x+1)/width,(texCoord.y+1)/height)+delta;

vec4 x00 = texture2D(tx,texCoord00);

vec4 x10 = texture2D(tx,texCoord10);

vec4 x01 = texture2D(tx,texCoord01);

vec4 x11 = texture2D(tx,texCoord11);

gl_FragColor = x00+x10+x01+x11;

✒} ✑

図 4.47: リダクション計算のためのフラグメントシェーダーソースプログラム

表4.4: リダクション計算の実行時間と実行速度

GPU CPU

時間速度時間速度

1.69E-01 4.00E-01 2.13E-02 3.15E+00 時間の単位は秒、速度の単位はGFLOPS

4.7.4 実行速度

図4.4^は、GPU^{による計算と}CPUによる計算の実行時間、演算性能である。テクスチャ

サイズは、図4.41のプログラム中に埋め込んでいるように、4096²とした。前節、前々節

の計算では繰り返しを多数回行うことで演算性能を稼ぐことができたが、この節のリダク

ション演算では合計値を1回計算しただけの時間を測定した。

4.7.5 演算性能の評価

図4.4^{によれば、}GPU^{の演算性能は約}0.4GFLOPS^{であるが、}CPU^のそれは3.15GFLOPS

であった。

総演算数が少ない上に単純な計算ではないことから、GPU^の性能がCPU^の約1/10^で

あることは仕方がない。むしろ、1/10で済んだことを良しとすべきである。特殊な目的

でない限り、リダクション計算はそれほど頻度の高い計算ではなく、多用されることはな

い。リダクション計算が全体の計算の中でそれほどネックにならないことを確認できたと

考えるべきである。

この章では、OpenGL^を用いたGPGPU^{を見てきた。}

現在はCUDA^やOpenCL^といったGPGPU専用の環境が利用できるから、この章の

内容がGPGPUの主流になることはなく、むしろ古い技術とみなすべきである。しかし、

「なぜグラフィックス専用ハードウェアが高速計算に利用できるのか」という問いへのひと

つの答えになっていると考える。

最近の3D CGレンダリングは大規模計算を必要としている。ここで述べた内容はその

用途では依然として重要な技術でありうる。

ドキュメント内 _openglcl (ページ 151-164)