GPUによる樹枝状凝固成長のフェーズフィールド計算青木尊之 * 小川慧山中晃徳 * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られているこのようなミクロな組織の

(1)

TSUBAME 2.0の全貌

GPUによる樹枝状凝固成長の

フェーズフィールド計算

TSUBAMEを用いた

フラーレン・ナノチューブ・グラフェンの

構造変化と新物質研究

創刊号

1

(2)

フェーズフィールド・モデルは、非平衡統計物理学から導出され、分子スケールとマクロなスケールの中間のメソスケールの現象を記述できる。秩序変数φを導入し、固相部分φ=1 に、液相部分にφ =0 と設定する。界面を含む領域ではφが 0 から 1 へと急峻かつ滑らかに変化する拡散界面として扱い、φ= 0.5を界面として扱う。フェーズフィールド・モデルでは従来使われていた界面追跡法等の手法が不要となり、領域全体で同一の計算を行うことができる。　本研究で対象とする純金属のデンドライト凝固成長ではフェーズフィールド・モデルから導出されるAllen-Cahn方程式と熱伝導方程式を解く[4]_{。界面エネルギーの異方性を考慮したφに対する方程} 式として式（1）を用いる。また、式（1）中、 βは式（2）、εは式（3）である。ただし、 L は潜熱、Χは[-1.0,1.0 ]の乱数、αは乱数の振幅、γは異方性強度、Τmは融点、δは界面厚さ、σは界面エネルギー、λは界面幅制金属材料の機械的強度や特性はミクロの組織的構造に基づくため、より高性能な材料を得るためにはミクロなダイナミクスの解明が必要である。近年、材料の相転移や相分離などの解明に非平衡統計力学から導出されるフェーズフィールド・モデル[1]_{が注目されている。} 導出される方程式は時間空間の偏微分方程式になっていて、有限差分法や有限要素法などで解かれることが多い。しかしフェーズフィールド・モデルは計算負荷が大きいため、HPC分野において最近注目されているアクセラレータ技術[2]_{、特にGPGPU（General-Purpose}

Graphics Processing Unit）[3]_{を使うことを考える。}

　GPUはパソコンにも普通に使われる画像表示専用のプロセッサであるが、グラフィクス処理の高度化に伴い機能が急速に進化し、画像処理以外の一般的な計算も行えるようになってきた。浮動小数点演算の性能が高く、ビデオメモリへのバンド幅が大きいため、従来のアクセラレータと違いさまざまなアプリケーションへの適用が可能である。さらに 2006 年にNVIDIAがGPGPU用の統合開発環境であるCUDA[3]_{をリリースしたことにより、標準 C言語でGPGPUのア} プリケーションを開発できるようになり、一気に利用が広がっている。　本稿では、フェーズフィールド・モデルに基づいて純金属の過冷却凝固における樹枝状（デンドライト）組織の成長を計算する。 CUDAを用いて有限差分法で離散化された時間発展方程式をプログラミングし、TSUBAME 1.2 のGPU上で計算することにより、CPU と比較して圧倒的に高速に計算できることを示す。従来のGPU計算が単一 GPUを利用することが多かったのに対し、本研究では 1 つの GPU上のメモリには載らないような大規模の計算に対し、領域分割法で並列化すると共に、複数ノードに搭載されたGPUを使う計算のスケーラビリティを調べた。

青木尊之

*

　小川慧

**

　山中晃徳

** * 東京工業大学　学術国際情報センター , ** 東京工業大学　理工学研究科

はじめに

1 フェーズフィールド・モデル

2

（1）（2）

溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られている。

このようなミクロな組織の形態形成を解明するために、近年強力な組織形成シミュレーション法として注目されている

フェーズフィールド・モデルを用いて界面の動的な変化と温度変化を解き、凝固過程を計算する。

これまで、フェーズフィールド・モデルは計算負荷が大きいため 3 次元計算が殆ど行われてこなかったが、

TSUBAME 1.2 のGPU を使うことで非常に高速に計算を行うことができ、60 GPUで 10TFlopsという実行性能が得られた。

(3)

に使い廻している。　温度Tn_{に関する計算でも同じようにシェアードメモリを使い計算} を行う。ただし、式（2）の右辺にφn_{の時間微分∂φ/∂}_t｜n i , j , kが表れるため、φn i , j ,k→φn+1i , j ,kの時間発展とTni , j ,k→ Tn+1i , j ,kの時間発展のカーネル関数をフューズさせ、スレッド内で∂φ/∂t｜n i , j , kを保持することにより、グローバルメモリへのアクセスを減らしている。 3-2 単一 GPU計算の実行性能 GPU計算の計算結果の検証と実効性の比較のためにCPUのコードも作成している。CPUコードを用いて 1 格子点あたりの浮動小数点演算数をPAPI （Performance API）[5]_{を用いハードウェア・カウンター}

で測定する。GPUでは整数演算もSPが処理を行うため、CPUコードで数えた浮動小数点演算数を基に経過時間を測定して実行性能を評価する。Tesla S1070 の1GPUからアクセスできるメモリサイズが 4 GByteであるため、計算できる最大の問題サイズが格子数 640 × 640×640程度までに制限される。　1 GPUによる計算において格子点数を変えながら、実行性能を測定すると、64 × 64 × 64 格子で 116.8 GFLOPS、 128 × 128 × 128 格御パラメータ、他定数はb=tanh-1_{（ 1-2λ）、}_{W =σb /δ、M=bT} mµ /3 δL である。　一方、凝固過程に最も関係する温度Tについて、界面からの潜熱の発生を考慮した熱伝導方程式（4）を用いる。本研究では東京工業大学学術国際情報センタースーパーコンピュータTSUBAME 1.2 を利用する。各ノードはSun Fire X4600 （AMD Opteron 2.4 GHz 16 コア, 32 GByte）であり、ノード間は2本

の10 Gbps のSDR Infinibandで接続されている。GPU計算のために使用するノードには、NVIDIA Tesla S1070 （動作周波数：1.44GHz。 VRAM 4GByte、最大1036GFLOPS、メモリバンド幅102GByte/s）のうち2機のGPUがPCI-Express Gen1.0×8で接続されているが、本研究では1ノードにおいて1機のGPUのみを用いる。一方、各ノードの Opteron CPUは、1コア当たり4.8 GFLOPS、メモリバンド幅6.4 GByte/ sec （DDR-400）である。実行環境はCUDA 2.2対応 Runtime、NVIDIA Kernel Module 185.18.14、OSはSUSE Enterprise Linux 10である。

3-1 高速化技術 CUDAを用いてGPUのプログラミングを行った。（1）式と（4）式を 2次精度有限差分法で離散化し、1次精度の時間積分（オイラー法）を行っている。従属変数である秩序変数φの時間発展に必要なnステップとn+1ステップの配列をビデオメモリ（CUDAではグローバルメモリと呼ばれる）上に確保する。時間発展の過程で、必要な時だけデータをCPU側に転送するようにし、PCI-Express Bus を介したデータ通信は可能な限り頻度を減らしている。　1 つのGPUが担当する計算領域の格子点数をnx×ny×nz とする。それらをx 方向にL 分割、y 方向にM 分割、z 方向にN 分割すると、分割された小領域の格子点数はMX×MY×MZとなる。ただし、MX=nx/L、 MY=ny/M 、MZ=nz/N である。各々の小領域に対してCUDAのブロック内のスレッドを（MX 、MY 、1）として割り当てる。各スレッドでは、z 方向にMZ 個の格子点をループで計算する。高い実行性能を得るためには、問題サイズに合わせ適切な分割数を選ぶ必要があり、 MX=64 、MY=4 が最適であった。　φに対する式（1）の離散化式は隣接の18個の格子点にアクセスする。グローバルメモリへのアクセス回数を低減させるために、シェアードメモリをSoftware Managed Cache として用いる。さらにシェアードメモリの使用量を節約するためにブロック内に（MX+2）×（MY+2）の大きさの3つの配列をシェアードメモリ上に確保し、サイクリック

GPUコンピューティング

3

図 1 純金属の樹枝状凝固成長の過程（4）

GPUによる樹枝状凝固成長のフェーズフィールド計算

(4)

4.3 マルチGPU計算の実行性能 4 つの解像度での計算（512 × 512 × 512 格子、 960 × 960 × 960 格子、 1920 × 1920 × 1920 格子、2400 × 2400 × 2400）の各々についてGPU間通信とGPU計算をオーバーラップさせる計算と、非オーバーラップ計算に対して、GPU数を変えて得られた実行性能の強スケーラビリティを図2に示す。　いずれの解像度においてもオーバーラップ計算は非オーバーラップ計算に対して性能が大幅に改善されていることが分かる。オーバーラップ計算では512×512×512格子について1 ～ 8 GPUまでの範囲、 960 × 960 × 960 格子について 4 ～ 24 GPUまで範囲、1920 × 1920 × 1920 格子において 30 ～ 48 GPUまでの範囲で理想的な強スケーリングを示していることが分かる。また、問題サイズを大きくすることによる弱スケーラビリティについては、試した計算の範囲内で理想的な性能が示されている。　オーバーラップ計算の特徴として、強スケーラビリティはGPU数が少ないときに理想的な直線に近づくが、GPU数が増えて計算時間より通信時間の方が長くなり、もはや通信を隠ぺいできなくなると急激に性能が頭打ちになる。　本稿で特筆するべき点は、格子数2400×2400×2400の計算に対して、60 GPUを用いたオーバーラップ計算の実行性能が10 TFLOPS に達したことである。世界トップクラスのスパコンで実現されるアプリケーションの性能である。　TSUBAME 1.2 のCPU計算との実行性能の比較を行うために、全く同じ 960 × 960 × 960 格子の計算をCPUとGPUの両者で行った。 GPU計算の最大性能は、オーバーラップ計算を行った場合に24 GPU で 3.7 TFLOPSである。CPUとGPUの実行性能の比較を図 3 に示す。検証可能な範囲のCPU 計算は 128コアまでほぼ理想的な強スケーリングを示しているが、GPUの最高性能である3.7 TFLOPSに達するには理想的な強スケーリングを仮定しても 4000CPUコア強が必要みと2回の書き込みの計28 wordのメモリアクセスがある。本研究では単精度計算を行っていて、全ての格子点で同じ計算を行うので、3.33 FLOP/Byteの演算密度がある。これに対し、シェアードメモリを用いることで、袖領域を含まない格子点においては読み込みを2回に減らすことができ、メモリアクセスを4回に低減することができる。その結果、演算密度を23.31 FLOP/Byteにまで高めることができる。この値は一般的な流体計算などと比較すると非常に大きく、計算インテンシブになっているため、GPUの高い演算性能を引き出すことができた。 4-1 複数ノードに搭載されたGPU計算 複数のGPUを用いて計算する目的は次の2つである。①単一 GPUのカードに搭載されているメモリに入りきらないような大規模計算を行う。②決められた格子点数の問題に対して1 GPUよりさらに高速化を図る。複数個のGPUを用いるには、GPU単位での並列化が必要となる。3 章で述べたようにGPU計算では、単一 GPU内でもスレッドのブロックがあるので並列化の階層がさらに 1 つ増えた多階層の並列化になる。GPU間の並列計算にはMPIライブラリの通信を行い、 GPU数とMPIのプロセス数は等しくなる。領域間のデータ転送量を減らすためには、計算全体の格子に対して3次元的な領域分割（サイの目型の分割）をする方が有利であるが、ここではz軸方向に沿って1 次元的な領域分割（短冊型分割）を行い、計算とのバランスを明らかにすることを優先する。 4-2 通信と計算のオーバーラップ 複数ノードのCPUを用いた計算では、各プロセスに割り当てられた領域内のすべての格子の計算（時間発展）を行ってから、袖領域のデータ通信を行うことが多い。本方法を「非オーバーラップ計算（Non-Overlapping）」と呼ぶことにする。一方、「計算とデータ通信のオーバーラップ」により、通信時間を隠ぺいすることができる。オーバーラップ手法を導入したGPU計算では、まず袖領域のデータとして交換される格子を先に計算する。計算後、非同期に2つのstreamを生成し同時実行する。stream 0では袖領域を除いた中心部分の格子点に対する計算を行い、stream 1は袖領域の通信を行う。

マルチGPUコンピューティング

4

図 2 マルチGPUによるオーバーラップ/ 　　非オーバーラップ計算の実行性能

(5)

参考文献

[1] Tomohiro Takaki, Toshimichi Fukuoka and Yoshihiro Tomita, Phase-field simulation during directional solidification of a binary alloy using adaptive finite element method, J. Crystal Growth 283 （2005） pp.263-278.

[2] 遠藤敏夫、松岡聡、橋爪信明、長坂真路、ヘテロ型スーパーコンピュータTSUBAMEのLinpackによる性能評価、情報処理学会論文誌コンピューティングシステム、 48（SIG 8（ACS 18））: 62-70、 2007.

[3] NVIDIA Corporation, NVIDIA CUDA Compute Unified Device Architecture Programming Guide Version 2.0, NVIDIA Corporation, California, 2008.

[4] Ryo Kobayashi, “Modeling and numerical simulations of dendritic crystal growth”, Physica D, 63, 3-4, pp.410-423, 1993. [5] PAPI, http://icl.cs.utk.edu/papi/

となる。同じ計算を同じ時間で得ようとすると、CPU計算ではGPU 数の150倍のコア数が必要になることが分かる。

純金属の樹枝状凝固成長に対して、フェーズフィールド・モデルに基づいたAllen-Cahn方程式と熱伝導方程式を連立させた計算を NVIDIA のTesla GPUを搭載したTSUBAME 1.2 を用いて実行した。 CUDAによりプログラミングを行い、単一 GPUで 171 GFLOPS（単精度計算）を達成した。さらにマルチGPUに対して領域分割に基づく並列化を行い、強スケーラビリティと弱スケーラビリティを示した。CPU計算に対して 100 倍以上の高速化を行うことができ、これは消費電力を大きく下げることでもある。60GPUを用いることで10 TFLOPSの実行性能を達成することができ、GPUが次世代スパコンの中心的な役割を担う可能性が高いことを示すことができた。謝辞本研究の一部は日本学術振興会（JSPS）グローバルCOE プログラム「計算世界観の深化と展開」（Comp View）、科学研究費補助金・基盤研究（B）課題番号19360043「多モーメント手法による多目的 CFD コアの開発」および科学技術振興機構（JST） CREST「次世代テクノロジーのモデル化・最適化による低消費電力ハイパフォーマンスコンピューティング」（ULP-HPC）から支援を受けている。本研究を遂行するにあたり、スーパーコンピュータTSUBAME Grid Cluster での大規模並列計算キューの利用に対して東京工業大学学術国際情報センターよりご協力を頂いた。記して謝意を表す。

おわりに

5

図 3 TSUBAME 1.2 において、960 × 960 × 960 　　格子のCPU計算とGPU計算の比較

TSUBAME 2.0の全貌

GPUによる樹枝状凝固成長の

フェーズフィールド計算

TSUBAMEを用いた

フラーレン・ナノチューブ・グラフェンの

構造変化と新物質研究

創刊号

1

青木 尊之

小川 慧

山中 晃徳

はじめに

1

フェーズフィールド・モデル

2

溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られている。

このようなミクロな組織の形態形成を解明するために、近年強力な組織形成シミュレーション法として注目されている

フェーズフィールド・モデルを用いて界面の動的な変化と温度変化を解き、凝固過程を計算する。

これまで、フェーズフィールド・モデルは計算負荷が大きいため 3 次元計算が殆ど行われてこなかったが、

TSUBAME 1.2 のGPU を使うことで非常に高速に計算を行うことができ、60 GPUで 10TFlopsという実行性能が得られた。

GPUコンピューティング

3

GPUによる樹枝状凝固成長のフェーズフィールド計算

マルチGPUコンピューティング

4

おわりに

5

GPUによる樹枝状凝固成長のフェーズフィールド計算

青木尊之

　小川慧

　山中晃徳