高度成形・溶接シミュレータのための分散メッシュパーティショナの開発Development of distributed parallel mesh partitioner for advanced press forming and welding simulation

(1)

9

hp150276 ポスト「京」研究開発枠（重点課題 8） R&D category for post K computer (Priority Issues 8)

高度成形・溶接シミュレータのための

分散メッシュパーティショナの開発

Development of distributed parallel mesh partitioner

for advanced press forming and welding simulation

奥田洋司、橋本学

Hiroshi OKUDA, Gaku Hashimoto 東京大学新領域創成科学研究科

Graduate School of Frontier Science, The University of Tokyo 要旨自動車/重機械フレーム全体の溶接解析を行う場合、数 m 規模の解析領域に対して数 mm の解像が必要となる。このとき、必要な要素数は数千億~数兆要素規模 (解析メッシュの粗密あり) となる。そのため、大規模溶接解析メッシュを分割可能な並列領域分割アルゴリズムの開発が必要となる。そこで、グラフ分割ツール「ParMETIS」を利用した並列領域分割アルゴリズムの全体処理の流れを検討した。本課題で開発した並列領域分割アルゴリズムは、並列プロセス数を増やすことで、メモリ使用量を抑えることが可能である。節点番号に空間的な飛びが多いデータを含む、大規模解析モデルの分割において、メモリ使用量が抑えられることを確認した。キーワード：プレス成形・溶接シミュレーション、有限要素法、構造解析、領域分割法、分散メッシュ Abstract

Spatial resolution of millimeter-order is necessary in an analysis domain of meter-order to perform welding analyses of automobile/heavy-machinery frames. The total number of elements needed for such analyses is hundreds of billions – trillions of elements including mesh coarse/fine distributions. It is important to develop a parallel domain decomposition algorithm for large-scale welding analysis meshes. A basic flow of the whole processing was proposed for parallel domain decomposition using a graph partitioning tool “ParMETIS”. The parallel domain decomposition algorithm developed in this subject suppresses memory consumption by increasing the number of parallel processes. Suppression of memory consumption was confirmed for domain decomposition of large-scale analysis models including irregular node deployment data.

Accepted: 2 April 2021 Available online: 28 April 2021

(2)

10

Keywords: Press forming and welding simulation, Finite Element Method, Structural Analysis, Domain decomposition method, Distributed mesh

1. 研究の背景と目的 自動車をはじめ、圧力容器、タービンなどの製造には、様々な鋼板のプレス成形や溶接が行われている。近年は、環境負荷低減や燃費向上への要請から、超高張力鋼などの新材料に対応した高度なプレス成形・溶接シミュレーションに基づく「ものづくり基盤工程の高度化」が必須となっている。本課題では京コンピュータで実績のある並列構造解析ソフトウェア FrontISTR[1]を基盤とし、新材料に対応した高度成形・溶接シミュレータの開発を目標とし、５カ年かけて本シミュレータを、強度と成形性を両立させた新材料の開発に必須のキラーアプリに育てる。その際、ポスト京コンピュータを用いることによって寸法精度評価に足る規模の解析メッシュが計算可能になることからm スケールの製品（自動車、圧力容器など）に対する数 μm スケールの溶融条件の制御までを念頭にしたモデル化を行う。本課題の研究開発計画初年度となる今年度は、そうした最終目標に対するフィージビリティ・スタディの段階として、数十億・数百億に達しうる構造解析有限要素メッシュを扱う上で欠かせないメッシュパーティショナの分散並列化を実施した。本稿では、メッシュパーティショナの分散並列化とその性能評価について報告する。 2. 計算モデル メッシュパーティショナは、溶接シミュレーションの前段に実行するプリ処理で、溶接シミュレーションを実施する際の MPI プロセス数と等しい数の領域に、全体メッシュを予め分割する。メッシュパーティショナの汎用性を考え、メッシュパーティショナを実行する際の MPI プロセス数は、分割したい領域の数と必ずしも一致していなくてもよいものとした。ただし、MPI プロセス数は、分割する領域数を超えない任意の2 の累乗とする。例えば、16 領域への領域分割をする処理は 4MPI プロセスで実行することができ、この場合、図1 のように、各プロセスが 4 つずつ分散領域メッシュを生成する。図1 16 個の部分領域に領域分割する処理を 4MPI プロセスで並列処理する場合

(3)

11 図2 並列パーティショナの処理の流れ図 2 に基本アルゴリズムの流れを示す。また図中の各処理で実施する具体的な内容を下記に述べる。 • 節点情報の入力全ての MPI プロセスにおいて入力は節点情報のみとする。ただし、未使用節点などの情報が含まれないように、一端、要素情報も読み込み、実際に使用されている節点かどうかを確認し、未使用節点であれば削除する。確認後は、読み込んだ要素情報は一切メモリには格納せず、読み捨てる。 • RCB による初期分割

次に、節点を座標情報に基づきRCB（Recursive Coordinate Bisection）によって MPI プロセス数

に分割する。これは、メッシュ分割を分散並列で実行する際のParMetis に対する入力を分散グラフ構造で与えるための初期分割であり、それぞれの部分グラフがある程度まとまったものとなるようにするために実施する。ここでの分割数は、最終的に出力する分散メッシュの領域数とは異なる。 • 要素情報の入力初期分割が決まったら、各プロセスが、自分が担当する部分グラフを構成している節点を含む要素情報を読み込み、メモリに格納する。 • グラフ生成要素情報からグラフ情報を生成し、さらに、ParMetis の呼び出しに適したデータ構造への変換を行う。 • ParMetis による分割生成されたグラフ構造を ParMetis に渡し、FrontISTR の並列数と同数の領域に並列グラフ分割を行い、領域分割を決定する。 • 分散領域メッシュの生成・出力最後に、各 MPI プロセスが全体メッシュを再度読み込みながら、自分が担当する分散領域メッシュを生成・出力する。その際の出力形式は、従来のFrontISTR の並列計算用の分散領域メッシュのデータとする。

(4)

12 また、今回の分散並列パーティショナの開発においては、数十億・数百億規模のメッシュを想定し、メッシュデータのメンバーの一部を、32 ビット整数から 64 ビット整数に変更する必要があった。FrontISTR 本体への修正は大掛りとなるため、パーティショナは FrontISTR とは独立に開発したが、将来的には、HEC-MW[2,3]の中に取り込み、重複を排除した形で統合化する予定である。 3. 並列計算の方法と効果（性能） 3 つの例題による性能評価を行った。うち 2 つは、従来の逐次領域分割法でも領域分割できる規模の例題（比較的単純な形状で番号の飛びが少ないもの、および、複数部品で構成されているような複雑な形状のもの）であり、残りの1 つは、大規模分散環境での優位性が評価できる規模（数億節点）の例題である。表1 に三つの例題の概要を示す。1 つ目のモデル cube_h1_3M は、1 辺を100 分割した約 300 万自由度の立方体モデルで六面体 1 次要素である。メッシュデータは自動生成しているため、節点番号の空間的な飛びは少ない。2 つ目のモデル pump は、約 1 億自由度のポンプモデルで四面体2 次要素である。このモデルは、四面体 1 次要素のメッシュを後で 2 次要素化したモデルデータであるため要素の頂点の節点が先に振られ、その後に中間節点の番号が振られている。このため、節点番号の空間的な飛びが多いデータとなっている。3 つ目のモデルcube_t2_1G は、1 辺を 350 分割した、約 10 億自由度の立方体モデルで、四面体 2 次要素である。このモデルも、pump モデルと同様に、要素の頂点の節点に番号が振られた後に、中間節点の番号が振られているため、節点番号の空間的な飛びが多いデータとなっている。表 1 性能評価に用いた三つの解析モデルの概要 ID モデル名要素タイプ節点数要素数自由度数 1 cube_h1_3M 六面体1 次 1,030,301 1,000,000 3,090,901 2 pump 四面体2 次 36,728,129 26,289,770 110,184,387 3 cube_t2_1G 四面体2 次 344,472,101 257,250,000 1,033,416,303 まず、初期領域分割に、RCB を用いた場合と、節点番号の先頭から MPI プロセス数で均等に分割した場合とで、計算時間、メモリ使用量を比較した結果を表2 に示す。この結果、番号順の初期分割では、MPI プロセス数を増加した場合でもプロセスあたりの最大メモリ使用量の減少が少ない。一方、RCB による初期分割では、著しく減少することがわかる。計算時間に関しては、大きな違いは見られない。また、分割データの質を表すエッジカットについてもほぼ同等である。次に、従来の逐次領域分割法を用いて同じメッシュデータの領域分割を行った場合の、計算時間、メモリ使用量、並列効率、などについて比較を行う。cube_h1_3M と pump については、従来のパーティショナでも分割可能であるので、この両者について分割を行った際の計算時間とメモリ使用量を表 3 に示す。最大メモリ使用量は並列版の 1 プロセス実行時と比較しても大きく、

(5)

13 MPI 並列プロセス数を増やしてもほぼ変化しないことがわかる。分割の質については、エッジカットの数がほぼ同じであることから、大きな差はないと言える。表 2 初期領域分割方法の違いによる計算時間、メモリ使用量の比較 ID モデル名領域数初期分割 # PE 計算時間 [s] 最大メモリ [GB/PE] エッジカット 1 cube_h1_3M 8 番号順 1 12 0.49 3.7e+4 2 10 0.43 3.8e+4 4 9 0.41 3.8e+4 RCB 1 12 0.49 3.7e+4 2 10 0.31 3.7e+4 4 9 0.25 3.7e+4 2 pump 128 番号順 1 423 17.1 5.5e+6 4 305 16.3 5.7e+6 16 281 15.9 5.8e+6 RCB 1 423 17.1 5.5e+6 4 310 6.8 5.5e+6 16 287 4.7 5.5e+6 3 cube_t2_1G 1024 番号順 8 5,236 14.3 1.3e+7 32 3,728 14.1 1.4e+7 128 2,925 14.2 1.4e+7 RCB 8 5,413 14.3 1.3e+7 32 3,923 9.7 1.3e+7 128 3,193 5.9 1.3e+7 表 3 従来パーティショナによる計算時間とメモリ使用量 ID モデル名領域数 #PE 計算時間 [s] 最大メモリ [GB] エッジカット 1 cube_h1_3M 8 1 11 0.73 3.7e+4 2 10 0.73 3.7e+4 4 9 0.73 3.7e+4 2 pump 128 1 1,328 26.3 5.5e+6 4 1,032 26.4 5.5e+6 16 9,728 26.4 5.5e+6

(6)

14 4. 研究成果 ノードあたりのメモリが数 GB、ノード数が数万～数十万、の環境を想定した場合の、領域分割性能についての見込みや、今回、対象外とした仕様に対する今後の実装対策について検討した。従来の逐次領域分割法では、MPI 並列プロセス数を増やしても、ノードあたり最大メモリ使用量が減少しない。このため、大規模なメッシュの分割は通常の計算ノードで実施することができず、大きなメモリを搭載した別マシンでの分割が必要となっていた。これに対し、今回開発した並列パーティショナでは、並列プロセス数を増やすことで、ノードあたりの最大メモリ使用量が減少することがわかった。本パーティショナを「京」のようなノード数が数万～数十万の環境で活用することで、プリ処理となることが確認された。 5. まとめと今後の課題 今回開発した並列パーティショナは、主としてメモリ使用量を抑えることに注力しているが、計算時間の観点では、RCB 分割など、並列化が可能と思われる部分が残されており、さらなる高速化が可能であることが考えられる。本作業では、FrontISTR のための並列パーティショナの高速化方法の検討、および、機能の拡張を実施した。メモリ消費量の観点からは、節点番号に空間的な飛びがあるモデルを含め、大規模モデルの分割に有効であることが確認できたが、計算時間に関しては、 RCB 分割の並列化や、分散メッシュ書き出し部における一時ファイルの書き出し／読み込み部分の見直しや、全体的な逐次計算性能の向上による高速化が可能と考えられる。参考文献 [1] 奥田洋司，中島研吾共編, 並列有限要素解析[I]・[II], クラスタコンピューティング, 培風館, 2004． [2] 中島研吾，奥田洋司，ハイエンド計算機環境における科学技術計算コード開発基盤(HPC ミドルウェア) 計算工学講演会論文集 7(1), 199-202, 2002-05-20. [3]奥田洋司，北山健，ハイエンド計算ミドルウェア援用構造解析システム FrontSTR の性能評価，計算工学講演会論文集 13(2), 671-672, 2008-05-19．