Claret におけるモデルの構築 - MD シミュレーションのモデル化 21 - 多数の仮想 GPU を用いた際の計算性能モデルの構築

第 5 章 MD シミュレーションのモデル化 21

5.3 Claret におけるモデルの構築

本節では計算性能モデル構築の為に必要な各係数を求めるための予備実験の説明と結果を述べ, 実測値とモデルの比較を行い仮想GPUの利用について議論を行う.

1stepの計算時間T をGPUで要する計算時間(T_gpu),CPUで要する計算時間(T_cpu), server-client間の通信時間(T_com)の和でモデル化する.

T =T_gpu+T_cpu+T_com (5.2) 以下の小節で,各項のモデル式の決定と各定数の決定について述べる.

5.3.1 T

_gpu

のモデル化

T_gpuはGPU内での演算に要する計算時間であり, DS-CUDAによる仮想GPUを利用するか, またはPCI Express拡張Boxによる物理GPUを利用するかを問わず,GPUの性能によって等しい値になることを想定している.

T_gpuを以下のようにモデル化した. ただし,⌈⌉は整数値への切り上げを意味する.

Tgpu = ⌈ n

kcN_gpu⌉nkctgpu (5.3)











n : 粒子数

N_gpu : GP U並列数

t_gpu : 1つのGP Uが1ペアの粒子間の力の計算にかかる時間(sec) c : GP Uあたりのコア数(今回は2304)

k : 1コアが並列処理できるスレッド数

ここでkcN_gpuは全GPUで1度に処理できるスレッド数を表している.

c= 2304は今回用いたGPUであるGeForce GTX 780による. 粒子数n がkcN_gpuより小さい場合,式5.3は

Tgpu =kctgpu (n < kcNgpu) (5.4) と表せる.このことは, 粒子数nがkcN_gpuより小さい場合,並列GPUに対し1回のKernel命令が発効されること,そしてKernel関数内にはnに

関するforループが一つある為(付録2疑似コード9〜12行), Kernel関数の処理時間はO(n)に比例することに由来する.

一方,粒子数が十分大きく,Kernel命令の発行回数がO(n)に比例すると見なせる場合, 式5.3は以下の式で近似出来る.

T_gpu = n²t_gpu

N_gpu (n >> kcN_gpu) (5.5) ここで,決定すべき係数はk,t_gpuである.

t_gpuの決定は次の方法による. 十分大きな粒子数nに対し, 1台のGPU に対してClaretシミュレーションを実行する. 付録1の17行目のkernel 実行の後にスレッド同期命令を挿入し, kernel実行の前からスレッド同期命令終了までの時間を測定する. 幾つか粒子数nを取り,またDS-CUDA とPCI Express拡張Boxの両手法を用いた場合においてデータをプロットし,式5.5に基づいて最小二乗法でt_gpuを決定した.

kの決定は式5.4より次の方法による. 粒子数nの小さい領域に対して同様にシミュレーションを実行する. 所要した実行時間を粒子数nで割った値が十分近い領域に対して, さらに先に求めたt_gpu,cを割り, 最も近い自然数としてk = 4を決定した. 決定した係数を表5.2に示す.

t_gpu k

1.94×10⁻¹⁰ 4

表 5.1: T_gpuのモデル式において求めた係数

5.3.2 T

_cpu

のモデル化

Tcpuを以下のようにモデル化する.

T_cpu =nt_cpu (5.6)

CPUでは,主にデータの初期化と,kernelで得られた各粒子にかかる力を元に座標情報の更新を行っている.従って,計算時間は粒子数nに比例すると考えられる.未知の係数は比例定数t_cpu(sec)である. 付録1の12,22 行目のclient-server間のデータ転送と,17行目のKernel関数をコメントア

ウトしたClaretプログラムに対し, 十分大きな粒子数nを幾つか取って

演算時間を測定し,プロットしたものから最小二乗法によってt_cpuを決定した.

本研究では同一のclient端末を用いている為, T_gpuと同様にDS-CUDA とPCI Express拡張Boxの両手法の違いによらない等しい値になることが望ましい. しかし,コンパイルオプションを同一のものにすることができなかった為, t_cpuの値が異なっている. 一方で,DS-CUDAを用いた手法のうち,通信にInﬁnibandを用いた場合とGigabitEthernetを用いた場合とでは有意差は見られなかった為,同一の値を用いる. T_cpuはモデルが比較的簡単な形で信頼性が高いこと, 総和T の議論において本質的ではなく除きうることからこのまま議論を進めている.

5.3.3 T

_com

のモデル化

T_comを以下のようにモデル化する.

T_com =

(16nN_gpu

B_h2d +N_gpuL_h2d

)

(12n

B_d2h +NgpuLh2d

)

+tkernelNgpu (5.7) T_comはclient(host)からserver(device)へのデータ転送(付録1:12行目)にかかる時間Th2d, deviceからhostへのデータ転送(付録1:22行目)にかかる時間T_d2h, そして各GPUへのkernel命令の発行(付録1:17行目)にか

かる時間T_kernelの和として,以下のように表せる.

Tcom=Th2d+Td2h+Tkernel (5.8)

ここでT_h2dは転送データ量S_h2d(bytes),転送スループットB_h2d(sec/bytes), 転送レイテンシL_h2d(sec), GPU並列数N_gpuを用いて

Th2d= S_h2d

B_h2dNgpu+Lh2dNgpu (5.9) DS-CUDA PCI-Ebox

t_cpu 7.95×10⁻⁸ 5.04×10⁻⁸ 表 5.2: 実験で求めたt_cpu

と表せる.ここで付録1における転送データvecは粒子一つあたりfloat 変数によるxyz座標とint変数による粒子の種類による16byteの大きさを持つ. したがってS_h2d= 16nを代入することで,式5.7の第一項を得る.

T_h2d=

(16nN_gpu

B_h2d +N_gpuL_h2d

)

(5.10) T_d2hにおいても同様に,付録1における転送データforceは粒子一つあたりfloat変数による力のxyz成分をもち. 12byteの大きさを持つ. 各 GPUからは ⁿ

Ngpu 個分のデータを転送する為, Sd2h = 12n/Ngpuを代入することで, 式5.7の第二項を得る.

Td2h = 12n

B_d2h +NgpuLh2d (5.11)

また,T_kernel について,kernel命令をGPUの数だけ発行することから,

kernel命令を1回発行するのに必要な時間をt_kernelとすれば

T_kernel =t_kernelN_gpu (5.12)

と表せる.

求めるべき係数はB_h2d,L_h2d, B_d2h,L_d2h,T_kernelである. 以下導出方法を述べる.

• B, Lの導出

一例として,DS-CUDAにおけるB_h2d,L_h2dの算出方法を述べる. xbytesのデータをhostからdeviceへ転送するCUDAプログラムを実行し,転送時間をプロットする. プロット結果から最小二乗法で一次関数を求める(図 5.10). 切片をL_h2d、傾きを1/B_h2dとする. L_d2h, B_d2hについて,またPCI Express拡張Boxについても同様である.

• T_kernelの導出

付録1:17行目で呼び出すkernel関数の代わりに,引数だけ受け取りほぼ何も実行しないダミーkernel関数を実行する. t_gpuの導出と同様に,スレッド同期命令挿入し,ダミーkernel関数の実行からスレッド同期命令の終了までの時間を測定する. 得られた時間をt_kernelとする.

得られた各係数を表5.3に示す.

DS-CUDA(Inﬁniband) DS-CUDA(GigabitEthernet) PCI-Ebox

B_h2d 1.84×10⁹ 1.89×10⁸ 4.98×10⁹

L_h2d 9.36×10⁻⁶ 1.52×10⁻⁴ 6.12×10⁻⁶

B_d2h 1.33×10⁹ 1.12×10⁸ 3.56×10⁹

L_d2h 1.72×10⁻⁵ 2.78×10⁻⁴ 1.04×10⁻⁵

t_kernel 1.02×10⁻⁴ 1.01×10⁻³ 1.63×10⁻⁵

表 5.3: T_comにおける各係数

図 5.10: DS-CUDAにおけるB_h2d, L_h2dの導出例

ドキュメント内多数の仮想 GPU を用いた際の計算性能モデルの構築 (ページ 31-36)