• 検索結果がありません。

メニーコア計算機環境でのアジョイント法によるデータ同化における時空間ブロッキングの性能評価

N/A
N/A
Protected

Academic year: 2021

シェア "メニーコア計算機環境でのアジョイント法によるデータ同化における時空間ブロッキングの性能評価"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)HPCS2017 2017/6/5. 2017年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2017. メニーコア計算機環境でのアジョイント法による データ同化における時空間ブロッキングの性能評価 藤川 隼人†. 池田 朋哉‡ 片桐 孝洋†3. 永井 亨†3. 荻野 正雄†3. 名古屋大学大学院情報学研究科情報システム学専攻† 名古屋大学大学院情報科学研究科情報システム学専攻‡ 名古屋大学 情報基盤センター†3 1. はじめに 大規模数値シミュレーションと大容量観測データの融 合を狙う計算技術としてデータ同化が注目されている. このデータ同化の手法としてアジョイント法があるが, フェーズフィールドモデルのような大規模で自由度の高 いデータを扱う際のアジョイント法適用の問題点の 1 つ として,メモリアクセスの増大による演算効率の低下が ある.この問題に対し,アジョイント法のステンシル計 算に対し時空間ブロッキング[1]を行うことで高性能化す る手法が提案されている[2]. 本研究では,時空間ブロッキングをメニーコア計算機 上で動作させて性能パラメータを変化させることによる チューニングの効果を調べる.. 2. 時空間ブロッキング アジョイント法における時空間ブロッキングとは,空 間方向だけでなく時間方向にもブロッキングを施すこと により,キャッシュのデータを再利用しつつ,次のステ ップの計算を可能にする考え方である. 大規模で自由度が高いモデルでは,近傍の格子点値の アクセス範囲がキャッシュ容量を超え,演算効率が低下 する問題がある.この問題が生じる原因は,空間方向へ の計算を先に行うため,次のステップの計算を行うとき にはキャッシュにデータが残っていないことによる.そ こで,時間方向への計算を先行的に行い,キャッシュに データをできるだけ保持するように計算を進めることで, キャッシュ上のデータを再利用することができる.. 3. 性能評価 性能評価は名古屋大学情報基盤センター設置の Fujitsu PRIMEHPC FX100,Fujitsu PRIMERGY CX400,および東京 大学情報基盤センター設置の Oakforest-PACS(メニーコ ア計算機)を用いる.このことで,メニーコア計算機環 境の性能の特徴を明らかにする.フェーズフィールドモ デルにおいて,初期値を推定する問題をベンチマークと し,以下の問題設定で行った.また,時空間ブロッキン グサイズを変化させて実行時間を測定した. 表 1.問題設定 格子点数 1600 × 1600 初期値 すべて 0.2 真の値 乱数[0,1]の 0.1 刻み 時間ステップ数 128 変化させたスレッド数は,FX100 では 1,4,16,25,32, CX400 では 1,4,14,16,25,28 であり,ソケットを跨ぐ NUMA. ⓒ 2017 Information Processing Society of Japan. の影響を考慮したスレッド数を設定した.また, Oakforest-PACS では,1,68,136,204,272 と物理コア 数(68 コア)を超えるスレッド数を指定した. FX100 では,計測を行ったすべてのスレッド数に対して 高速化を得ることができた.ブロッキングサイズを変化 させた結果,最大で 1.5 倍の速度向上が得られた.最高 速のスレッド数は 16 であったため,スレッド数を増やす ほど速度向上が得られたわけではない. CX400 では,時空間ブロッキングサイズを変化させると 最大で 1.6 倍の速度向上が得られた.しかし,スレッド 数が 25 と 28 の際は時空間ブロッキングを行うと逆に速 度が遅くなるという結果が得られた.ラストレベルキャ ッシュミス率を測定した結果,時空間ブロッキングを施 すとキャッシュミス率が高くなっていた.そのため,1 ソ ケット 14 コアを超えるスレッド実行では,NUMA 構成によ るメモリアクセスが影響していると考えられる. 一方,Oakforest-PACS では,測定したスレッド数全て に対して時空間ブロッキングによる速度向上が得られた. 時空間ブロッキングによる速度向上は最大で 1.3 倍だっ た.スレッド数を増やすほど高速になるため,最大のス レッド数 272 の際は naïve な実装と比較して 28.9 倍の速 度向上を得ることができた.. 4. まとめ 実験の結果,FX100 と Oakforest-PACS では時空間ブロ ッキングによる高性能化が得られることが明らかになっ た.一方,CX400 では,ソケットを跨ぐことにより時空間 ブロッキングの効果が無くなった.詳しい性能分析の結 果は当日発表する.. 謝辞 本研究の一部は,科学技術研究費補助金基盤研 究(B)「通信回避・削減アルゴリズムのための自動チュ ーニング技術の新展開」(課題番号:16H02823),およ び JSPS 二国間交流事業共同研究(オープンパートナーシ ップ)「国際交流による自動チューニングのための性能 モデルの深化」による. 参考文献 [1] K. Datta, et.al., Stencil computation optimization and auto-tuning on state-of-the-art multicore architectures, Proc. of the 2008 ACM/IEEE conference on Supercomputing (2008) [2] 池田ほか, アジョイント法における Forward model への階層ブロッキング適用による高性能化,情報処理学 会研究報, Vol.2016-HPC-157, No.17 (2016). 10.

(2)

参照

関連したドキュメント

(ページ 3)3 ページ目をご覧ください。これまでの委員会における河川環境への影響予測、評

定可能性は大前提とした上で、どの程度の時間で、どの程度のメモリを用いれば計

耐震性及び津波対策 作業性を確保するうえで必要な耐震機能を有するとともに,津波の遡上高さを

船舶の航行に伴う生物の越境移動による海洋環境への影響を抑制するための国際的規則に関して

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船

・性能評価試験における生活排水の流入パターンでのピーク流入は 250L が 59L/min (お風呂の

環境影響評価の項目及び調査等の手法を選定するに当たっては、条例第 47

環境への影響を最小にし、持続可能な発展に貢