Vol.-HPC- No. // 情報処理学会研究報告 integer :: array():[*] integer :: tmp() if (this_image() == ) then array(:)[] = tmp(:) tmp(:) = arrray(:)[] end if! Put co

(1)

京速コンピュータ「京」における

PGAS

モデルによる

気象コード

NICAM

の実装

中尾昌広

1,2,a)

_{佐藤三久}

1,2,3

概要：PGASモデル言語の1つであるXcalableMPを用いて全球雲解像モデルNICAMの通信モジュー

ルの実装を行い，その生産性と性能評価を京速コンピュータ「京」を用いて行った．生産性については，

MPIで記述されたNICAMの一対一通信をXcalableMPが提供するcoarray記法を用いて記述すること

で，その通信を簡易に表現することができた．また，「京」においてXcalableMPのcoarray記法で記述されたコードは，「京」が提供しているRDMA機能を利用するようにコード変換されるため，その通信の高速化を見込むことができる．XcalableMPで実装を行ったNICAMを「京」を用いて性能評価した結果， 160ノード利用時に全体として約19%の高速化を達成することができた．

1. はじめに

日本学術振興会・多国間国際研究協力事業[1]の研究プロジェクトの1つである「エクサスケール・コンピューティングによる精緻な気候シミュレーションの実現」では，各国のスーパーコンピュータを用いた気候シミュレーションの研究が行われている．その研究の目的の1つに，エクサスケール計算環境下におけるアプリケーション作成の生産性向上がある．分散メモリ環境におけるアプリケーションの作成には，規模の大小を問わずMessage Passing Interface（MPI）[2]

が広く用いられている．しかしながら，近年，生産性の面でMPIよりも有利なPartitioned Global Address Space

（PGAS）モデル[3]言語が普及しつつある．PGASモデル言語の多くは片側通信と親和性が高く，またその片側通信は計算ノードが持つRemote Direct Memory Access（RDMA）

機能を直接利用する場合がある．そのため，PGASモデル言語を用いることで，MPIを用いた場合と比較して生産性だけではなく性能も向上する可能性がある．

本稿では，PGASモデル言語の1つであるXcalableMP

（XMP）[4]を用いて，気候アプリケーションの1つである全球雲解像モデルNICAM（Nonhydrostatic ICosahedral 1 _{筑波大学計算科学研究センター}

Center for Computational Sciences, University of Tsukuba 2 _{理化学研究所計算科学研究機構}

RIKEN Advanced Institute for Computational Science 3 _{筑波大学大学院システム情報工学研究科}

Graduate School of Systems and Information Engineering, University of Tsukuba a) _{[email protected]} Atmospheric Model）[5]の通信モジュールを実装し，その生産性を評価する．また京速コンピュータ「京」（以下，京）を用いた性能評価も行う．本稿の構成は次の通りである．2章ではPGASモデルの概要について説明し，3章ではNICAMの概要について説明する．4章ではXMPを用いたNICAMの実装について述べ，5章では生産性と性能の評価を行う．6章で本稿のまとめと今後の課題について述べる．

2. Partitioned Global Address Space モ

デル

PGASモデルは，各プロセスが透過的にアクセス可能な領域を持つため，プロセス間通信を簡易に記述可能であるという特徴がある．また，並列アプリケーションの作成に必要なバリアやロックなどの機能も言語内に備えていることが多い．XMP以外のPGASモデル言語としては， SHMEM[6]，Global Arrays[7]，Coarray Fortran（CAF）[8]，

Titanium[9]，Unified Parallel C[10]，Chapel[11]，X10[12]

などがある．特にCAFはFortran 2008の標準規格に組み込まれているため，今後の普及が期待できる． CAFでは，丸括弧を用いた通常の配列と，image番号（CAFにおけるデータオブジェクトの識別番号）を指定する角括弧の2つを用いてリモートのデータ領域をアクセス する．図1に，CAFのプログラミング例を示す．1行目では，要素数10のinteger型のcoarrayを宣言している．5

行目では，image1がimage2のcoarrayに対してデータを送信している（Put通信）．6行目では，image1がimage3

(2)

integer :: array(10):[*] integer :: tmp(10) if (this_image() == 1) then array(:)[2] = tmp(:) tmp(:) = arrray(:)[3] end if sync all 1 2 3 4 5 6 7 8 9 ! Define coarray ! Put communication ! Get communication ! Synchronization 図1 Coarray Fortranにおける通信の記述方法 Glevel-0 Glevel-1 図2 NICAMの格子点[5] のsync all文は，それより前に行われた片信通信を完了させ，かつバリア同期を行う命令である．本稿では，図1 の5行目と6行目に示したような片側通信の記述方法を coarray記法と呼ぶ． XMPは，並列アプリケーションで広く用いられている FortranとC言語のそれぞれの言語拡張であり，XMPが提供する指示文もしくはcoarray記法を用いて，通信を表現する．また，Fortran版のXMPはCAFの上位互換となるように設計されているため，CAFで記述されたプログラムをXMPとして動作させることが可能である．

3. NICAM

NICAMは全球雲解像モデルの1つであり，Fortranと MPIライブラリで記述されている．NICAMが行う通信の多くは一対一の隣接通信であるため，スケーラビリティが非常に高いという特徴がある．本章では主に，並列計算に必要な事柄について説明する． NICAMでは，全球に対して正二十面体格子を用いるこ とで，計算対象の点（水平格子点）を決定する．図 2に， NICAMの水平格子点の概念図を示す．まず，全球を正二十面体に分割する．この状態をGlevel-0と呼ぶ（図 2 左）．その三角形のそれぞれの頂点が水平格子点である． Glevel-0のそれぞれの三角形を4分割した格子をGlevel-1 と呼ぶ（図2右）．このように再帰的に三角形を4分割していくことで，目的に応じた解像度をユーザが設定することができる．再帰回数がnの場合の格子をGlevel-nと呼ぶ．Glevel-nの場合の水平格子点数は10∗ 4n_{+ 2}_の式で計算することができる．次に，並列化を行う場合の各プロセスが担当する領域の設定方法について説明する．まず，Glevelと同様に，全球

Glevel-3, Rlevel-0 Glevel-3, Rlevel-1

図3 NICAMの領域分割（領域の一部のみ，太枠で囲んでいる）[5] を正二十面体に分割する．次に，その正二十面体の三角形を2つずつ合わせて四角形の領域を作成する．この領域が，各プロセスが担当する領域である．そして，Glevelと同様に，再帰的に領域を4分割していくことで，多くの領域を設定することが可能である．最初の分割された領域を Rlevel-0と呼び，次に4分割された領域をRlevel-1と呼ぶ． Rlevel-0の場合の領域数は10であり，Rlevel-1の場合の領域数は40である．図3に例を示す．GlevelとRlevelは個別に設定することが可能である．Rlevel-nの場合の領域数は10∗ 4n_{の式で計算することができる．並列計算に用い} るプロセス数は，Rlevelによって設定された領域数の約数である必要がある．例えば，Rlevel-0の場合の領域数は10 であるため，ユーザが利用できるプロセス数は1，2，5，10 となる．

4. XcalableMP による NICAM の実装

4.1 関連研究 NICAMは地球シミュレータを用いて開発が行われてきたため，NICAMのコードはベクトル計算機用に最適化されている．そのため，京の性能を引き出すためのNICAM に対する最適化作業が現在進められている．[13]では，地球シミュレータで動作していたコードに対してキャッシュ最適化などを行うことにより，京上におけるNICAMの性能効率を2倍以上に高めている．また[14]では，京の3次元トーラスネットワークに対して，通信のホップ数が少なくなるようなプロセスの割り当て手法の提案が行われている． 4.2 最適化の方針 NICAMの一対一通信をXMPのcoarray記法による片側通信によって記述することで，コードの簡易化を図る．また，XMPの実装において，京のRDMA機能を用いて片 側通信を実行させることにより，高速化も図る．表 1に，京が提供している拡張RDMAインタフェースの一覧を示す[15]．このRDMAインタフェースはC言語の関数として定義されている．C言語で実装されたXMPのランタイムライブラリから，表1の各関数を呼び出すことによって，京のRDMA機能を直接用いることができる．

(3)

表1 拡張RDMAインタフェース[15]

関数名機能

FJMPI Rdma init 拡張RDMAインターフェースの初期化

FJMPI Rdma finalize 拡張RDMAインターフェースの終了処理

FJMPI Rdma reg mem メモリの登録

FJMPI Rdma dereg mem メモリの登録解除

FJMPI Rdma get remote addr リモートDMAアドレスの獲得

FJMPI Rdma put RDMA WRITE通信

FJMPI Rdma get RDMA READ通信

FJMPI Rdma poll cq RDMA完了確認

MPI Isend/Irecv RDMA 10 10 10 10 10 10 10 10 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0 Ba n d w id th (G Byt e /s)

Transfer Size (Byte)

0 1 2 3 4 5 6 7 図4 RDMAとMPI関数との通信性能比較 10 10 10 10 10 10 10 10 3.0 2.5 2.0 1.5 1.0 0.5 0 Pe rf o rma n ce R a ti o

Transfer Size (Byte)

0 1 2 3 4 5 6 7

RDMA Bandwidth/ MPI_Isend/Irecv Bandwidth

図5 RDMAとMPI関数との通信性能比

4.3 予備実験

NICAMの一対一通信は，MPI Isend/Irecv関数を用い

て実装されている．そこで，まず京のRDMA機能を用いた通信とMPI Isend/Irecv関数との性能比較を行う． 2ノード間でpingpongを行うプログラムを京のRDMA 機能を用いた通信およびMPI Isend/Irecv関数を用いて それぞれ作成し，京において実行した．結果を図 4に示す．また，図4における性能比を示すグラフを図5に示す．図5の縦軸の値が1.0以上であれば，RDMA機能を用いた通信の方の性能が高い．図4と図5より，すべての転送サイズにおいてRDMA機能を用いた方がMPI Isend/Irecv

関数を用いた場合よりも高速であることがわかる．また

do i=1, recv_num

call mpi_irecv(recvbuf(1,i), recv_count(i),

mpi_double_precision, sourcerank(i), ...) enddo

...

do i=1, send_num

call mpi_isend(sendbuf(1,i), send_count(i), mpi_double_precision, destrank(i) ...) enddo ... call mpi_waitall(...) 1 2 3 4 5 6 7 8 9 10 11 MPI (Original)

real(8) :: recvbuf(maxdatasize_r, romax(halomax)):[*] real(8) :: sendbuf(maxdatasize_s, somax(halomax)):[*]

...

! Obtain information of destination position -> dest_position() ... do i=1, send_num recvbuf(1:send_count(i), dest_position(i))[destrank(i)] = sendbuf(1:send_count(i), i) enddo ... sync all 1 2 3 4 5 6 7 8 9 10 11 XcalableMP 図6 XcalableMPによるNICAMの通信モジュールの実装例（変数名などは一部変更）図5より，転送サイズが105_Byte_{以下の場合，}_RDMA_機能を用いた通信は特に高速であることがわかる． 4.4 XcalableMPによるNICAMの通信モジュールの 実装

NICAMはFortranで記述されているため，Fortran版の

XMPを用いてNICAMの通信モジュールの実装を行う．図6に，オリジナルのNICAMからFortran版のXMPに変換したコードの一部を示す（図における分かりやすさを優先させたため，実際のコードとは変数名や配列の次元数は異なる）．図6下のXMPのコードにおいて，1行目と2行目では配列recvbufとsendbufをCoarrayとして宣言している．

XMP（およびCAF）の文法上は，配列sendbufはCoarray

である必要はないが，京では送信用バッファのアドレスも

RDMAを用いる領域として登録する必要があるため，配列 sendbufもCoarrayとして宣言している．4行目（実際は複

(4)

数行．紙面の都合上省略している）では，送信するデータの格納先の情報を，MPI Allgather通信を用いることで各プロセスから取得し，配列dest positionに保存している．この操作は，オリジナルのMPI版では必要のない操作である．なお，NICAMでは通信を行う対象プロセスとそのデータの格納先のアドレスはプログラム実行中は不変であるため，この操作はプログラム開始時に一度行うだけで良い．6行目と7行目では，Put通信を行っている．最後に 11行目では，片側通信の完了処理とバリア同期を行っている． XMPで実装したNICAMとオリジナルのNICAMとの他の違いには，配列recvbufとsendbufの要素数が異なる点が挙げられる．オリジナルのNICAMでは，プロセス毎に配列recvbufとsendbufの要素数は異なる．XMP（およびCAF）の規格上，各プロセスで宣言するCoarrayは同じ要素数である必要がある．そのため，今回の実装では，各プロセスで最大となるそれぞれの配列の要素数を用いてCoarrayの宣言を行っている．ただし，配列recvbufと sendbufの要素数は各プロセスでほぼ同じであるため，最大要素数を用いることによる利用メモリ量の増加はデメリットにはならない．

5. 評価

5.1 生産性 生産性を表す指標には行数がよく用いられる．今回の実装において行数に着目した場合，通信のコードが全体を占める割合は僅かであるため，全体としての行数はほとんど変化しない．しかしながら，coarray記法によるXMPの実装では，通信の記述は送信元プロセスのみでよく，またオリジナルのNICAMで用いられているMPI関数の呼び出しよりも直感的に通信の記述が行える．以上のことから， XMPのcoarray記法を用いた実装の方が，より簡潔に通信を表現できていると言える． 5.2 性能京を用いてXMPで実装したNICAMとオリジナルの NICAMとの性能比較を行う．ただし，Fortran版のXMP の片側通信機能は未実装であるため，今回の性能評価においては，図6下に示したXMPのコードからXMPコンパイラが変換すると考えられる表1のRDMA関数を直接呼 び出す形で実装を行っている．京のシステム概要を表2に示す．実験で用いたNICAMの並列計算に関係するパラメータとして，Glevelは5（格子点数は10242）に固定し，Rlevel は0，1，2と変化させて実験を行った．並列数は各Rlevel の最大並列数である10，40，160に設定した．NICAMは OpenMPおよびコンパイラの自動並列化機能によりスレッド並列化されて実行されるため，京の各計算ノードに対し Rlevel-0 (10 nodes) Rlevel-1 (40 nodes) Rlevel-2 (160 nodes) 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0 0 T ime (s) (0.46)3.60 (0.56)3.72 7.53 (0.41) 7.60 (0.31) 2.35 (0.93) RDMAăઌ̲࢘в RDMAăઌ࢘ MPIăઌ̲࢘в MPIăઌ࢘ 2.79 (1.22) 図7 性能評価と内訳（括弧内の数値は通信に要する時間）て1プロセスを割り当て，各プロセスは8スレッドで動作するように設定した．他のパラメータとして，シミュレーションを行う時間変化量とステップ数がある．今回の実験では時間変化量は 1200秒，ステップ数は12に設定した．すなわち，14400秒（4時間）のシミュレーションである．またNICAMではステップ毎に中間ファイルを生成し，さらに最終ステップにリスタート用のファイルを生成する．今回の実験では，低いGlevelを用いたため，これらのファイルの生成に要する時間が全体の計算時間に与える影響が大きい．そのため，これらのファイルの生成は行わないようにした． 性能評価の結果を図 7に示す．図7の括弧内の数値は，今回実装を行った通信に関係する箇所の時間（通信の開始から同期をとるまでの時間．その間に計算も行われている）である．図 7より，利用するノード数が多いほど，XMP で実装したNICAMの方がオリジナルのNICAMよりも性能がより高くなることがわかる．160ノードを利用した際のXMPの実装とオリジナルとの速度差は，通信部分だけでは約31%の速度向上，全体としては約19%の速度向上であった． NICAMでデータ交換を行う箇所は各領域の袖の部分であり，Rlevelが1つ上がる毎に，各領域に存在する水平格子数は1/4になる一方，データ通信量は1/2にしかならない．すなわち，Rlevelが上がる毎に通信時間の占める割合が増えるため，Rlevelが大きい方がより通信の性能差が現れやすくなる． Rlevel-0 における1回の通信の平均転送サイズは約

23KByteであり，Rlevel-1の平均転送サイズは約9KByte，

Rlevel-2の平均転送サイズは約5KByteである．図5より，それぞれの転送サイズにおけるRDMAとMPIとの速度差は約2.5倍である．図7の括弧内のそれぞれの数値が2.5 倍も差はない理由は，その数値は同期待ちの時間が含まれており，また通信と同時に計算も行われているからと考えられる．

(5)

表2 京のシステム概要

CPU SPARC64 VIIIfx 2.0GHz, 8Cores/Socket, 128GFlops

Memory DDR3 SDRAM 16GB, 64GB/s/Socket

Network Torus fusion six-dimensional mesh/torus network, 5GB/s Compiler Fujitsu Fortran Compiler Version K-1.2.0-13

Communication Library Fujitsu MPI Version K-1.2.0-13

6. まとめと今後の課題

本稿では，PGASモデル言語の1つであるXMPを用いて，NICAMの通信モジュールの実装を行い，京の上で性能評価を行った．MPI関数で記述されている一対一通信を，XMPのcoarray記法を用いることによって，京の持つRDMA機能を直接利用でき，通信の高速化を図ることができる．京の計算ノードを最大160ノード用いて性能評価を行った結果，全体として約19%の高速化を達成することができた．また，一対一通信にcoarray記法を用いることで，ソースコードの簡易化を行うことができた．今後の課題として，Fortran版のXMPのCoarray実装を進めることと，より解像度が高いデータとより多くの計算ノードを用いて性能評価を行うことが挙げられる．また，図6における今回の実装では全プロセス間でバリア同期を行うsync all文を用いたが，実際は通信を行う相手間の同期のみで計算を進めることができる．すなわち，部分的なバリア同期を行うことにより，性能向上を図ることができる．部分的なバリア同期を行うための命令として，XMP

やCAFではsync images文が規格されている．さらに， [14]のような京のネットワークに最適なプロセスマッピング方法と本実装とを併用することで，さらなる高速化が可能になると考えられる．謝辞本研究を遂行するにあたり，NICAMを提供してくださった東京大学の佐藤正樹先生を始めとするNICAM 開発グループの皆様に感謝の意を表します．また，NICAM の利用方法，チューニングなどについてアドバイスを下さった筑波大学計算科学研究センターの寺崎康児研究員に感謝の意を表します．本研究は，日本学術振興会・多国間国際研究協力事業「エクサスケール・コンピューティングによる精緻な気候シミュレーションの実現」の支援によって行われました． 参考文献 [1] 日本学術振興会多国間国際研究協力事業:事業概要． http://www.jsps.go.jp/j-bottom/01 b gaiyo.html [2] M. Snir, S. Otto, S. Huss-Lederman, D. Walker, and J.

Dongarra, MPI-The Complete Reference, Volume 1: The MPI Core, 2nd ed. Cambridge, MA, USA: MIT Press, 1998.

[3] PGAS - Partitioned Global Address Space Languages．

http://www.pgas.org [4] http://www.xcalablemp.org

[5] Satoh, M., T. Matsuno, H. Tomita, H. Miura, T. Nasuno,

S. Iga (2008), “Nonhydrostatic Icosahedral Atmospheric Model (NICAM) for global cloud resolving simulations.” Journal of Computational Physics, the special issue on Predicting Weather, Climate and Extreme events, 227, 3486-3514, doi:10.1016/j.jcp.2007.02.006.

[6] B. Chapman, T. Curtis, S. Pophale, S. Poole, J. Kuehn, C. Koelbel, and L. Smith, “Introducing openshmem: Shmem for the pgas community,” in Proceedings of the Fourth Conference on Partitioned Global Address Space Programming Model, ser. PGAS ’10. New York, NY, USA: ACM, 2010, pp. 2:1 – 2:3.

[7] J. Nieplocha, R. J. Harrison, and R. J. Littlefield, “Global arrays: A non-uniform-memory-access program-ming model for high-performance computers,” THE JOURNAL OF SUPERCOMPUTING, vol. 10, pp. 169 – 189, 1996.

[8] R. W. Numrich and J. Reid, “Co-array fortran for par-allel programming,” SIGPLAN Fortran Forum, vol. 17, no. 2, pp. 1 – 31, Aug. 1998.

[9] K. Yelick, L. Semenzato, G. Pike, C. Miyamoto, B. Li-blit, A. Krish- namurthy, P. Hilfinger, S. Graham, D. Gay, P. Colella, and A. Aiken, “Titanium: A high-performance Java dialect,” in ACM 1998 Workshop on Java for High-Performance Network Computing. New York, NY 10036, USA: ACM Press, 1998.

[10] U. Consortium, “UPC Language Specifications,” Berke-ley National Laboratory, Tech. Rep. LBNL-59208, 2005. [11] B. Chamberlain, D. Callahan, and H. Zima, “Parallel programmability and the chapel language,” Int. J. High Perform. Comput. Appl., vol. 21, no. 3, pp. 291–312, Aug. 2007.

[12] V. Saraswat, B. Bloom, I. Peshansky, O. Tardieu, and D. Grove, “X10 language specification,” 2013, http://x10.sourceforge.net/documentation/ languagespec/x10-231.pdf. [13] 八代尚，“全球非静力学モデルNICAMの現在と今後の開発計画について”，地球流体データ解析・数値計算ワークショップ，http://www.gfd-dennou.org/arch/davis/ workshop/2012-12-12/yashiro 20121212.pdf， 2012年 [14] 小玉知央，寺井優晃，野田暁，山田洋平，佐藤正樹，清木達也，伊賀晋一，富田浩文，南一生，“正二十面体格子におけるノードマッピング手法の開発と評価”，京コンピュータ・シンポジウム2012，2012年

[15] Parallelnavi for MP10 V1.0，Parallelnavi Technical Com-puting Language MPI使用手引書，2013年

Vol.-HPC- No. // 情報処理学会研究報告 integer :: array():[*] integer :: tmp() if (this_image() == ) then array(:)[] = tmp(:) tmp(:) = arrray(:)[] end if! Put co

京速コンピュータ「京」における

PGAS

モデルによる

気象コード

NICAM

の実装

中尾 昌広

佐藤 三久

1.

はじめに

2.

Partitioned Global Address Space モ

デル

3.

NICAM

4.

XcalableMP による NICAM の実装

5.

評価

6.

まとめと今後の課題

中尾昌広

_{佐藤三久}