• 検索結果がありません。

固体系量子モンテカルロ電子状態計算のAPUを用いた高速化

N/A
N/A
Protected

Academic year: 2021

シェア "固体系量子モンテカルロ電子状態計算のAPUを用いた高速化"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)HPCS2014 2014/1/7. 2014年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2014. 固体系量子モンテカルロ電子状態計算の APUを用いた高速化 (北陸先端科学技術大学院大学・情報科学研究科 )○今村 光良、前園涼 OpenCL1.2を用いて以下の通り実装した. Ⅰ. Introduction. ● Packaging Vector. . . 64. 量子モンテカルロ(QMC)計算のMPI並列性能は十分. ri  に対して4 4 4の64個から成る各Blip基底関数で 評価した値をGPUで計算するように準備する.  (r ) s. i. s=1. 50万並列でも90% 以上の 並列化効率を維持している. ● Packaging Coefficient. ※Weak Scaling. 各軌道におけるBlip基底関数の係数を準備する. しかし超並列計算の実現によって ボトルネックが変わる. GPUで処理しやすいすいように 計算部分の係数のみでデータを再構成する. ● Calculating GPU. 2013/R. Maezono and M.D. Towler. SP .    a111 (ri) + a122 (ri) +,,+a16464 (ri). 1 (ri). Process1. . 計算は大きくわけて 平衡化部分と統計蓄積部分.   j (ri) . Process2. 軌道の並列数を利用して、 SP(ストリームプロセッサ)で 並列処理をおこなっていく.    a j11 (ri) + a j 22 (ri) +,,+a j 6464 (ri)    aL11 (ri) + aL 22 (ri) +,,+aL 6464 (ri).   L (ri) Process3. ● Getting Results. MPI並列が行われるのは統計蓄積部分 平衡化部分は1プロセスごとに必要となる. ※本実行環境では倍精度扱えないため、データの準備段階で倍精度から単精度に、  結果の取得段階で単精度から倍精度とする動作を含んでいる. 新たに計算律速箇所となった部分を高速化することが課題 E. 1 M. . . 既存のMPI並列を活かした 1プロセスあたりの計算性能の向上.   ( R )Hˆ  ( R ) M. 1 trial. i. trial. i. i. Ⅳ. Results. Ⅱ. Acceleration Device 本研究ではMPI並列と共存できる並列化として、GPGPUを扱う また、利用するGPUは従来の外付けのものではなく、 CPUコアと一緒にパッケージされたCPU内蔵のGPUを用いる 外付け型. 内蔵型※. ・実行環境 CPU : AMD Fusion APU A6-3670 2.7GHz GPU : HD 6350D 443MHz SP 320基 試行回数 : 10000. 時間(μs ). 1400 1200 1000. Memory. Memory. Memory. 積和部分の実行速度比較. 軌道数56の実行速度比較 時間(μs). 10.14x. 100. 

(2) !. 90. CPU1. $". 80. GPU. "  $! . 70. !. 60. 800. 50 600. 30 20. 200. GPU. CPU. UNB. CPU. GPU. 2.02x. 10. 0. CPU. 3.71x. 40. 400. GPU. 0 56. 168. 384. 軌道数. ・計算部分が10μs以下なのに対して各Packagingでは数十倍、  結果の取得に関しては数百倍の時間を要している 内蔵型のGPUは外付け型のGPUと比べ、メモリバンド幅こそ劣るが、 UNB(Unified North Bridge)という機能を利用することで、CPUと同一のメモリを扱い、 PCIeを介さず、直接データのやりとりができるという利点がある ※本研究ではAMD社のAPUを指す. Ⅲ. Implementation. ー Packagingに関して言えば、今回作成したプログラムでは、   計算ルーチンにはいたびにpackagingを行っていたが、   原理的に係数部分はpackagingを1回にすることが可能 ー 基底関数計算部分も計算ルーチンにはいる前の計算段階でpackagingが可能 ー 倍精度が利用できれば精度を戻す作業が不要 ・積和算を行うCalculating部分のみで比較すると最大で約10倍の高速化. 平衡化部分の律速1つとして  試行関数を構成する一体軌道関数  ( ri)の再計算部分がある. . L. . 64.  . { j (ri )} j=1 =  a js  s (ri )  s=1. j=1. 軌道: j と s のループを並列計算可能. 再計算部分をGPUで計算することで高速化を実現する L 64  64    a js  s (ri )      s=1  j=1 s=1  j ( ri) = a j11 ( ri) + a j 2 2 ( ri) ++,, +a + j 64 64 ( ri).    L { j (ri )} j=1.     k ( ri) = ak11 ( ri) + ak 2 2 ( ri) +,, +a + k 64 64 ( ri). .  . Ⅴ. Summary. L.      L ( ri) = aL11 ( ri) + aL 2 2 ( ri) ++,, +a + L 64 64 ( ri). ⓒ 2014 Information Processing Society of Japan. ・成果 内蔵型のGPUを利用することで最大約10倍の高速化が可能 ・今後の課題 利用するデータの扱いを最適化する必要がある References 1 !$"%$"&!&$" +) *  *')*$!**78);7.<8/64570* 1",- $"$  1)  * ) *   *')*$!**76)6698-66:6/64550*. 36.

(3)

参照

関連したドキュメント

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

充電器内のAC系統部と高電圧部を共通設計,車両とのイ

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船

分配関数に関する古典統計力学の近似 注: ややまどろっこしいが、基本的な考え方は、q-p 空間において、 ①エネルギー En を取る量子状態

なお、関連して、電源電池の待機時間については、開発品に使用した電源 電池(4.4.3 に記載)で

・発電設備の連続運転可能周波数は, 48.5Hz を超え 50.5Hz 以下としていただく。なお,周波数低下リレーの整 定値は,原則として,FRT

・発電設備の連続運転可能周波数は, 48.5Hz を超え 50.5Hz 以下としていただく。なお,周波数低下リレーの整 定値は,原則として,FRT

・私は小さい頃は人見知りの激しい子どもでした。しかし、当時の担任の先生が遊びを