• 検索結果がありません。

ループアルゴリズム量子モンテカルロ法のMPI/OpenMPによる超並列化

N/A
N/A
Protected

Academic year: 2021

シェア "ループアルゴリズム量子モンテカルロ法のMPI/OpenMPによる超並列化"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)2012年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012. HPCS2012 2012/1/24. ループアルゴリズム量子モンテカルロ法の MPI/OpenMP による超並列化 † 松尾 春彦 . 量子磁性体のシミュレーション方法の中で最も大規模なシステムサイズが扱えるのがループア ルゴリズム量子モンテカルロ法である.この手法で計算の核となる部分は union-find アルゴリ ズムと呼ばれるグラフ理論のアルゴリズムであり,行列計算のような flops 値を要求する通常の 科学計算と比較し,CPU に対しまったく異なる性能を要求する.本講演ではループアルゴリズ ムの実装を京コンピュータでのフルノード(64 万コア)での動作に向けチューニングしている現 在進行中のプロジェクトについて紹介したい.. MPI/OpenMp Parallelization of Loop Algorithm Quantum Monte Carlo Method . HARUHIKO MATSUO . The loop algorithm for quantum Monte Carlo simulations is a powerful tool to treat large quantum spin systems. The core of this algorithm is the union-find algorithm, which is popular in graph theory. But, compared to usual scientific calculations, such as matrix operation, the union-find algorithm requires of different type performance. In this talk, I will present our development of the loop algorithm, which is aiming to execute an extremely large-scale simulation on the 640,000 cores.. をランダムにアップデートすることで緩和時間の 1.. ループアルゴリズム量子モンテカルロ法. 短縮を行っている.そのため非常に大きな系の臨界 点近傍のシミュレーションも可能となっている.. ループアルゴリズム量子モンテカルロ法[1]は量 子磁性体のシミュレーション方法の中でも最も大. 我々のグループではループアルゴリズムを大規. 規模なシステムサイズが扱える手法である.スピン. 模並列化し,これまで T2K 筑波や物性研の System. を1つずつアップデートするような通常のモンテ. B などで約 10,000 コア規模の並列計算を行った.. カルロ法のアルゴリズムでは物理的に興味の持た. これらの成果として spin-4 の Haldane ギャップお. れる臨界現象のシミュレーションは難しい.それは. よび相関長が得られた.現在は spin-5 の Haldane. 通常の方法では臨界点付近での緩和時間が非常に. ギャップの評価に向け,京コンピュータ上でのプロ. 長くなってしまい,サンプリングが上手くいかなく. グラムの研究開発を行っている.. なり,正しい物理量を得られなくなってしまうから. 2.. である.ループアルゴリズムではシミュレーション する系をいくつかのクラスターに分割し,それぞれ. †. ALPS/looper プロジェクト ループアルゴリズムを実装するにあたり. 東京大学物性研究所 Institute for Solid State Physics, The University of Tokyo. 3. ⓒ 2012 Information Processing Society of Japan.

(2) 2012年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012. HPCS2012 2012/1/24. ALPS[2]というオープンソフトウェアライブラリ. です.Flops 値の出ないアプリケーションの開発者. を利用している.ALPS は量子格子模型のシミュレ. からの観点からエクサスケールのスパコンに期待. ーションを行うために格子構造や相互作用の XML. できることがあればお話ししたいと思います.. 形式の入力,計算結果の XML や HDF5 形式での出 6.. 力,統計解析を行うための関数群,シミュレーショ ンを行うためのスケジューラなどを提供している.. おわりに 本講演の内容はナノ分野グランドチャレンジ・大. また,量子格子模型に関する近年の代表的なシミュ. 規模並列量子モンテカルロ法(開発責任者 藤堂眞. レーション法を実装したアプリケーション群も提. 治)で行ってきた研究開発に基づくものです.. 供している.我々のグループが開発を行っている looper はそのアプリケーションの1つである. 3.. 参. MPI/OpenMP に よ る Union-Find ア ル ゴ リ ズ. のループアルゴリズムの実装ではこの作業に. 献. [2]. B. Bauer et al. ”The ALPS project release 2.0: open source software for strongly correlated systems” J. Stat. Mech., P05001 (2011). [3]. 松尾春彦, 藤堂眞治, “Union-find アルゴリズムの非 同期スレッド並列化”, HPCS2011 論文集. 則により結びつけクラスターを生成し,最終的には システムをいくつかのクラスターに分割する.我々. 文. H. Evertz “The loop algorithm” Adv. Phys., 52, 1, pp1-66, Nov 2010. ムの並列化 ループアルゴリズムではスピンどうしをある規. 考. [1]. union-find ア ル ゴ リ ズ ム を 利 用 し て い る . Union-find アルゴリズムの計算量は O(α(n)),α (n)はアッカーマンの逆関数,となることが知られ ている.すなわちシステムサイズに対してほぼ線形 な計算量となり,アルゴリズムの改良による計算量 の改善はあまり望めない.そこで我々はシミュレー ションで扱う時空間を分割する並列化により高速 化を行った.虚時間方向では MPI による並列化を 行っている.計算量は通信のコストを除けば虚時間 の長さに比例する.そのため計算量については MPI プロセス数で分割できる.メモリの使用量について も同様に分割される.一方,実空間方向については OpenMP に よ る ス レ ッ ド 並 列 化 を 行 っ た . Compare and swap 命令を利用し非同期スレッド 並列化[3]を行うことでこのアルゴリズムの高速化 に成功した.1ソケットあたりではほぼコア数程度 のスケーラビリティとなっている. 4.. MPI 通信経路の最適化 もともとの MPI 並列の通信経路は二分木状にな. るような実装を採用していた.京コンピュータのネ ットワークトポロジーは 3 次元トーラスであり,こ れに対応できるよう多次元方向への隣接通信が行 えるアルゴリズムに変更した. 5.. エクサスケールスパコンへ向けての課題 現在のスパコンは flops 値至上主義と言える状況. 4. ⓒ 2012 Information Processing Society of Japan.

(3)

参照

関連したドキュメント

This year, the world mathematical community recalls the memory of Abraham Robinson (1918–1984), an outstanding scientist whose contributions to delta-wing theory and model theory

Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and

Proof of Theorem 2: The Push-and-Pull algorithm consists of the Initialization phase to generate an initial tableau that contains some basic variables, followed by the Push and

Comparing the Gauss-Jordan-based algorithm and the algorithm presented in [5], which is based on the LU factorization of the Laplacian matrix, we note that despite the fact that

13 proposed a hybrid multiobjective evolutionary algorithm HMOEA that incorporates various heuristics for local exploitation in the evolutionary search and the concept of

5 used an improved version of particle swarm optimization algorithm in order to solve the economic emissions load dispatch problem for a test system of 6 power generators, for

First algorithm of our classifier is classif yCeq, which classifies the simple sin- gularities in characteristic p > 0 with respect to the contact equivalence.. This

We presented simple and data-guided lexisearch algorithms that use path representation method for representing a tour for the benchmark asymmetric traveling salesman problem to