ループアルゴリズム量子モンテカルロ法のMPI/OpenMPによる超並列化
全文
(2) 2012年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012. HPCS2012 2012/1/24. ALPS[2]というオープンソフトウェアライブラリ. です.Flops 値の出ないアプリケーションの開発者. を利用している.ALPS は量子格子模型のシミュレ. からの観点からエクサスケールのスパコンに期待. ーションを行うために格子構造や相互作用の XML. できることがあればお話ししたいと思います.. 形式の入力,計算結果の XML や HDF5 形式での出 6.. 力,統計解析を行うための関数群,シミュレーショ ンを行うためのスケジューラなどを提供している.. おわりに 本講演の内容はナノ分野グランドチャレンジ・大. また,量子格子模型に関する近年の代表的なシミュ. 規模並列量子モンテカルロ法(開発責任者 藤堂眞. レーション法を実装したアプリケーション群も提. 治)で行ってきた研究開発に基づくものです.. 供している.我々のグループが開発を行っている looper はそのアプリケーションの1つである. 3.. 参. MPI/OpenMP に よ る Union-Find ア ル ゴ リ ズ. のループアルゴリズムの実装ではこの作業に. 献. [2]. B. Bauer et al. ”The ALPS project release 2.0: open source software for strongly correlated systems” J. Stat. Mech., P05001 (2011). [3]. 松尾春彦, 藤堂眞治, “Union-find アルゴリズムの非 同期スレッド並列化”, HPCS2011 論文集. 則により結びつけクラスターを生成し,最終的には システムをいくつかのクラスターに分割する.我々. 文. H. Evertz “The loop algorithm” Adv. Phys., 52, 1, pp1-66, Nov 2010. ムの並列化 ループアルゴリズムではスピンどうしをある規. 考. [1]. union-find ア ル ゴ リ ズ ム を 利 用 し て い る . Union-find アルゴリズムの計算量は O(α(n)),α (n)はアッカーマンの逆関数,となることが知られ ている.すなわちシステムサイズに対してほぼ線形 な計算量となり,アルゴリズムの改良による計算量 の改善はあまり望めない.そこで我々はシミュレー ションで扱う時空間を分割する並列化により高速 化を行った.虚時間方向では MPI による並列化を 行っている.計算量は通信のコストを除けば虚時間 の長さに比例する.そのため計算量については MPI プロセス数で分割できる.メモリの使用量について も同様に分割される.一方,実空間方向については OpenMP に よ る ス レ ッ ド 並 列 化 を 行 っ た . Compare and swap 命令を利用し非同期スレッド 並列化[3]を行うことでこのアルゴリズムの高速化 に成功した.1ソケットあたりではほぼコア数程度 のスケーラビリティとなっている. 4.. MPI 通信経路の最適化 もともとの MPI 並列の通信経路は二分木状にな. るような実装を採用していた.京コンピュータのネ ットワークトポロジーは 3 次元トーラスであり,こ れに対応できるよう多次元方向への隣接通信が行 えるアルゴリズムに変更した. 5.. エクサスケールスパコンへ向けての課題 現在のスパコンは flops 値至上主義と言える状況. 4. ⓒ 2012 Information Processing Society of Japan.
(3)
関連したドキュメント
This year, the world mathematical community recalls the memory of Abraham Robinson (1918–1984), an outstanding scientist whose contributions to delta-wing theory and model theory
Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and
Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and
Comparing the Gauss-Jordan-based algorithm and the algorithm presented in [5], which is based on the LU factorization of the Laplacian matrix, we note that despite the fact that
13 proposed a hybrid multiobjective evolutionary algorithm HMOEA that incorporates various heuristics for local exploitation in the evolutionary search and the concept of
5 used an improved version of particle swarm optimization algorithm in order to solve the economic emissions load dispatch problem for a test system of 6 power generators, for
First algorithm of our classifier is classif yCeq, which classifies the simple sin- gularities in characteristic p > 0 with respect to the contact equivalence.. This
We presented simple and data-guided lexisearch algorithms that use path representation method for representing a tour for the benchmark asymmetric traveling salesman problem to