• 検索結果がありません。

GPUを用いたN体計算

N/A
N/A
Protected

Academic year: 2021

シェア "GPUを用いたN体計算"

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

(1)

単精度190Tflops GPUクラスタ

(長崎大)の紹介

長崎大学工学部 長崎大学工学部 超高速メニーコアコンピューティングセンター 超高速メニーコアコンピューティングセンター テニュアトラック助教 テニュアトラック助教 濱田 濱田 剛剛 2009/3/12 理研シンポジウム-第3世代PCクラスタ 1

(2)

概要

„

„

GPU (Graphics Processing Unit)

GPU (Graphics Processing Unit)

について簡単に

について簡単に

説明します.

説明します.

„ „

GPU

GPU

クラスタが得意とする応用問題を議論し

クラスタが得意とする応用問題を議論し

„ „

長崎大学での

長崎大学での

GPU

GPU

クラスタによる

クラスタによる

‹ ‹

取組方針

取組方針

‹ ‹

N

N

体計算の高速化に関する研究内容

体計算の高速化に関する研究内容

を紹介します.

を紹介します.

„ „

まとめ

まとめ

2009/3/12 理研シンポジウム-第3世代PCクラスタ 2

(3)

GPU (Graphics Processing Unit)

„ „

パソコンの

パソコンの

3

3

D

D

描画アクセラレータ

描画アクセラレータ

„ „

演算性能が急速に向上

演算性能が急速に向上

‹ ‹

1

1

T flops/board

T flops/board

„ „

オンボードメモリバンド幅

オンボードメモリバンド幅

‹ ‹

~ 160 GB/s

~ 160 GB/s

„ „

低価格

低価格

‹ ‹

400 Gflops

400 Gflops

程度のボードが

程度のボードが

2

2

万円弱

万円弱

2009/3/12 理研シンポジウム-第3世代PCクラスタ 3

(4)

GPGPU

„

„

General

General

-

-

Purpose computation on GPUs

Purpose computation on GPUs

„ „

GPU

GPU

N

N

体計算や流体計算

体計算や流体計算

などに応用す

などに応用す

る試み

る試み

„ „

応用方法はメーカごとに若干異なる.互換

応用方法はメーカごとに若干異なる.互換

性もなし

性もなし

‹

‹ CUDA (Nvidia)CUDA (Nvidia)

‹

‹ CAL(AMD)CAL(AMD)

‹

‹ Ct (Intel)Ct (Intel)

‹

‹ OpenCLOpenCL((AMDAMDはやる気満々.はやる気満々.Intel/NvidiaIntel/Nvidiaはは……))

(5)

CUDA

(Compute Unified Device Architecture)

„

„

NVIDIA GPU

NVIDIA GPU

用プログラミング環境

用プログラミング環境

‹ ‹

言語

言語

,

,

ライブラリ

ライブラリ

,

,

コンパイラ

コンパイラ

„ „

他と比べ

他と比べ

GPGPU

GPGPU

ユーザーが多い

ユーザーが多い

‹ ‹

早期に

早期に

(2006

(2006

11

11

)

)

公開

公開

,

,

無料

無料

„ „

超並列プログラミングが基本

超並列プログラミングが基本

„ „

ボードあたり

ボードあたり

5

5

千~

千~

1

1

万スレッド程度の並列

万スレッド程度の並列

性が必要で性能を出すのが大変

性が必要で性能を出すのが大変

„ „

GeForce 8800

GeForce 8800

以降に対応

以降に対応

2009/3/12 理研シンポジウム-第3世代PCクラスタ 5

(6)

PCクラスタと比べたGPUクラスタ

„ „ PCPCクラスタにもいろいろあるが,大きな違いは1つクラスタにもいろいろあるが,大きな違いは1つ ‹ ‹ ノード当たりの演算性能が高いノード当たりの演算性能が高い „ „ 見方を変えると見方を変えると ‹ ‹ ネットワーク性能が相対的に低いネットワーク性能が相対的に低い „ „ 11ソケットソケット100100万円とかの万円とかのPCPCクラスタと比べるとクラスタと比べると ‹ ‹ 同程度の演算性能を同程度の演算性能を1/101/10のコストで手入可能のコストで手入可能 „ „ 似ているようで使い方は結構違う似ているようで使い方は結構違う 2009/3/12 理研シンポジウム-第3世代PCクラスタ 6

(7)

超高速メニーコアコンピューティングセンター

(Nagasaki Advanced Computing Center: NACC)

„ „ 平成平成2121年度から運営開始年度から運営開始 ‹ ‹ センター長:センター長: 小栗小栗 清清 „ „ 短期的な目標短期的な目標 ‹ ‹ GPUGPUクラスタの応用方法に関する研究クラスタの応用方法に関する研究 ‹ ‹ 地方大学でも導入可能な低コスト・スーパーコンピュ地方大学でも導入可能な低コスト・スーパーコンピュ ータの実現 ータの実現 „ „ 中・長期的な目標中・長期的な目標 ‹ ‹ 学内における並列計算機応用研究の促進学内における並列計算機応用研究の促進 ‹ ‹ 次世代次世代LSILSIアーキテクチャ・コンパイラ技術の開発アーキテクチャ・コンパイラ技術の開発 2009/3/12 理研シンポジウム-第3世代PCクラスタ 7

(8)

経緯

„ „ 平成19年度文部科学省科学技術振興調整費平成19年度文部科学省科学技術振興調整費(若手研究者の(若手研究者の 自立的研究環境整備促進)採択課題「地方総合大学における若手人材育成戦略」 自立的研究環境整備促進)採択課題「地方総合大学における若手人材育成戦略」 とと して開始 して開始 ‹ ‹ 128128台の台のGPU GPU クラスタを構築クラスタを構築 (2008/3)(2008/3) „ „ 平成平成2121年度政府補正予算年度政府補正予算--長崎大学概算要求「新世代長崎大学概算要求「新世代 GPU GPU型スーパーコンピューティング環境の実現」でサポ型スーパーコンピューティング環境の実現」でサポ ート ート ‹ ‹ GPUGPUの台数をの台数を256256台に増強台に増強 (2008/11)(2008/11) „ „ 「超高速メニーコアコンピューティングセンター」を工学部「超高速メニーコアコンピューティングセンター」を工学部 内に設置 内に設置 2009/3/12 理研シンポジウム-第3世代PCクラスタ 8

(9)

応用分野の分類

2009/3/12 理研シンポジウム-第3世代PCクラスタ 9 embarrassingly parallel

non embarrassingly parallel

computation neck

memory band neck

NACCでは領域 I, II, Ⅳをターゲット

(10)

NACC GPUクラスタの対象領域

„

„ 領域領域 I, II, IVI, II, IVのみをターゲットのみをターゲット

‹

‹ NN体計算体計算((領域領域I, II, IV)I, II, IV)

‹ ‹ 電磁波・流体計算電磁波・流体計算((領域領域IV)IV) ‹ ‹ 画像処理・統計処理画像処理・統計処理((領域領域I, IV)I, IV) „ „ 領域領域IIIIIIに分類される応用(並列に分類される応用(並列FFT, FFT, 並列並列CFDCFDなどなど))は視野は視野 に入れない に入れない ‹ ‹ ネットワークがボトルネックネットワークがボトルネック ‹ ‹ 高価な高速・低レイテンシネットワークが必要高価な高速・低レイテンシネットワークが必要 ‹ ‹ 長崎大では長崎大ではI, II, IVI, II, IVの領域を開拓することを優先の領域を開拓することを優先 2009/3/12 理研シンポジウム-第3世代PCクラスタ 10

(11)

長崎大学GPUクラスタ仕様(2008/11)

„

„

Core2Quad Q6600

Core2Quad Q6600

128

128

ノード

ノード

„

„

各ノードに

各ノードに

Nvidia GeForce GPUを

Nvidia GeForce GPU

‹ ‹

8800GTS

8800GTS

-

-

OC

OC

x 128

x 128

ボード

ボード

‹ ‹

9800GTX+ x

9800GTX+ x

128ボード

128

ボード

„ „

単精度

単精度

190

190

Tflops

Tflops

„

„

1 GbE 48ポートスイッチ

1 GbE 48

ポートスイッチ

(

(

NetGear) x 4

NetGear) x 4

台をスタック

台をスタック

接続

接続

„

„

開発コスト

開発コスト

: 2

: 2

千万円程度

千万円程度

(12)

NGC190T (NACC GPU Cluster)

2009/3/12 理研シンポジウム-第3世代PCクラスタ 部屋面積 24 m2 部屋給電能力 640 A 1人で1週間もあれば組立可能 12

(13)

GPUによるN体計算

„ „

長崎大学での

長崎大学での

GPU

GPU

研究発展の原点

研究発展の原点

„ „

GPU

GPU

による

による

N

N

体計算を深く理解することが

体計算を深く理解することが

他の応用分野に展開する際に重要

他の応用分野に展開する際に重要

„ „

以後少々詳しく説明します.

以後少々詳しく説明します.

2009/3/12 理研シンポジウム-第3世代PCクラスタ 13

(14)

N体計算

基礎方程式 (重力N体) 粒子 粒子 相互作用 相互作用 逐次処理部分 (積分計算など) を担当 並列処理部分 (相互作用の計算) を担当

(15)

N体計算のアルゴリズム

Direct Summation Algorithm

O(N

2

): Small

Tree code

O(N logN): Large

領域IIの問題 領域Iに近い問題

(16)

Modified Tree code

original

Modified

Original Modified List creation cost on the host N N / ng Interaction list length shorter longer

ng=4

(17)

GPUでのN体計算(Direct Sum.)

L.Nyland 2004 M. Harris 2005 M. Harris 2005 R. Belleman 2007 L. Nyland 2007 Gflop/s S. Portegies Zwart 2007 Hamada 2007 G80 Cg G80 CUDA Hamada 2008 G80 CUDA G80 CUDA G80 CUDA G70 Cg G70 Cg 単体GPUのN-bodyの性能推移(直接和, 1相互作用38演算換算) 17

(18)

最適化

„

„

Shared Memory

Shared Memory

の利用

の利用

„ „

ループアンロール

ループアンロール

„ „

メモリアクセスの最適化

メモリアクセスの最適化

„ „

詳細は

詳細は

情報処理学会会誌「情報処理」

情報処理学会会誌「情報処理」

2009

2009

2

2

月号参照

月号参照

( (成見,濱田,小西成見,濱田,小西, , 情報処理学会会誌「情報処理」情報処理学会会誌「情報処理」20092009年年22月号月号, , IPSJ IPSJ--MGN500207)MGN500207) 2009/3/12 理研シンポジウム-第3世代PCクラスタ 18

(19)

Tree codeではもうひと工夫が必要

Tree code Direct Sum.

N=64 K N= 4 M

plummer

(20)

性能の出し方(Direct Sum.の場合)

全てのスレッドが別々のi粒子への力を計算 (i並列)

i粒子が数千~1万程度の場合に効率が高い

(21)

性能の出し方(Tree codeの場合

)

„

„

Multiple Walks ( Hamada et al 2008 )

Multiple Walks ( Hamada et al 2008 )

‹

‹ 複数の複数のii粒子のグループ粒子のグループ((walk)walk)を一度に計算を一度に計算

(22)

Multiple Walksによる効果

Tree code

N= 4 M, plummer, Ncrit = 2000

(Hamada et al. SC08)

(23)

128GPUでのtree code

演算性能

2009/3/12 理研シンポジウム-第3世代PCクラスタ 23

(24)

コスト性能

0.3

3

30

1997 2000

2003

2006

2009

Makino et al. Warren et al. Fukushige et al.

100

10

1

0.1

0.01

Price/Performance

($/Mflops)

Performance (Tflops) Makino et al. Makino et al. Warren et al. Warren et al. Makino et al. Kawai et al.

Kawai et al. (NGC97T)NACC

(25)

電力性能

#Direct Sum. (Hamada et. al. submitted to FCCM’09)

2009/3/12 理研シンポジウム-第3世代PCクラスタ 25

„

„ GPUGPUははCPUCPUよりも良いがよりも良いがFPGAFPGAには及ばないには及ばない

„

„ 今後は電力性能も優れたアーキテクチャの開発の今後は電力性能も優れたアーキテクチャの開発の

余地

(26)

NACCでのその他の応用

„ „

電磁場解析(領域

電磁場解析(領域

I, IV)

I, IV)

9 9

GPS

GPS

用アンテナの設計

用アンテナの設計

„ „

画像レジストレーション

画像レジストレーション

(

(

領域

領域

IV)

IV)

9 9

災害時映像を用いた

災害時映像を用いた

PIV

PIV

解析

解析

„ „

流体解析(領域

流体解析(領域

IV)

IV)

9 9

東シナ海藻類の生理生態学的課程と流

東シナ海藻類の生理生態学的課程と流

体環境の相互作用のモデル構築

体環境の相互作用のモデル構築

等々

等々

2009/3/12 理研シンポジウム-第3世代PCクラスタ 26

(27)

まとめ

„

„

GPU

GPU

クラスタが得意とする領域

クラスタが得意とする領域

I, II, IV

I, II, IV

‹ ‹ 領域領域IIIIIIで無理に頑張らないのが長崎大の特徴で無理に頑張らないのが長崎大の特徴 ‹ ‹ 応用問題がどの領域に属するのかを理解するセンスが応用問題がどの領域に属するのかを理解するセンスがGPUGPUクラスクラス タでは特に重要 タでは特に重要 ‹ ‹ NN体計算における経験はそれらを理解する上でとても有用体計算における経験はそれらを理解する上でとても有用 2009/3/12 理研シンポジウム-第3世代PCクラスタ 27 embar. non embar. computation memory band

参照

関連したドキュメント

Our translation L M can be extracted by a categorical interpretation on the model Per 0 that is the Kleisli category of the strong monad 0 on the cartesian closed category Per!.

⑥ニューマチックケーソン 職種 設計計画 設計計算 設計図 数量計算 照査 報告書作成 合計.. 設計計画 設計計算 設計図 数量計算

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (

問題解決を図るため荷役作業の遠隔操作システムを開発する。これは荷役ポンプと荷役 弁を遠隔で操作しバラストポンプ・喫水計・液面計・積付計算機などを連動させ通常

4.「注記事項 連結財務諸表作成のための基本となる重要な事項 4.会計処理基準に関する事項 (8)原子力発 電施設解体費の計上方法

この場合,波浪変形計算モデルと流れ場計算モデルの2つを用いて,図 2-38

の会計処理に関する当面の取扱い 第1四半期連結会計期間より,「連結 財務諸表作成における在外子会社の会計