• 検索結果がありません。

高度成形・溶接シミュレータのための分散メッシュパーティショナの開発Development of distributed parallel mesh partitioner for advanced press forming and welding simulation

N/A
N/A
Protected

Academic year: 2021

シェア "高度成形・溶接シミュレータのための分散メッシュパーティショナの開発Development of distributed parallel mesh partitioner for advanced press forming and welding simulation"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

9

hp150276 ポスト「京」研究開発枠(重点課題 8) R&D category for post K computer (Priority Issues 8)

高度成形・溶接シミュレータのための

分散メッシュパーティショナの開発

Development of distributed parallel mesh partitioner

for advanced press forming and welding simulation

奥田洋司、橋本学

Hiroshi OKUDA, Gaku Hashimoto 東京大学 新領域創成科学研究科

Graduate School of Frontier Science, The University of Tokyo 要旨 自動車/重機械フレーム全体の溶接解析を行う場合、数 m 規模の解析領域に対して数 mm の 解像が必要となる。このとき、必要な要素数は数千億~数兆要素規模 (解析メッシュの粗密あり) となる。そのため、大規模溶接解析メッシュを分割可能な並列領域分割アルゴリズムの開発が必 要となる。そこで、グラフ分割ツール「ParMETIS」を利用した並列領域分割アルゴリズムの全体 処理の流れを検討した。本課題で開発した並列領域分割アルゴリズムは、並列プロセス数を増や すことで、メモリ使用量を抑えることが可能である。節点番号に空間的な飛びが多いデータを含 む、大規模解析モデルの分割において、メモリ使用量が抑えられることを確認した。 キーワード:プレス成形・溶接シミュレーション、有限要素法、構造解析、領域分割法、分散メ ッシュ Abstract

Spatial resolution of millimeter-order is necessary in an analysis domain of meter-order to perform welding analyses of automobile/heavy-machinery frames. The total number of elements needed for such analyses is hundreds of billions – trillions of elements including mesh coarse/fine distributions. It is important to develop a parallel domain decomposition algorithm for large-scale welding analysis meshes. A basic flow of the whole processing was proposed for parallel domain decomposition using a graph partitioning tool “ParMETIS”. The parallel domain decomposition algorithm developed in this subject suppresses memory consumption by increasing the number of parallel processes. Suppression of memory consumption was confirmed for domain decomposition of large-scale analysis models including irregular node deployment data.

© 2021 Research Organization for Information Science and Technology All rights reserved. Received: 5 October 2020

Accepted: 2 April 2021 Available online: 28 April 2021

(2)

10

Keywords: Press forming and welding simulation, Finite Element Method, Structural Analysis, Domain decomposition method, Distributed mesh

1. 研究の背景と目的 自動車をはじめ、圧力容器、タービンなどの製造には、様々な鋼板のプレス成形や溶接が行わ れている。近年は、環境負荷低減や燃費向上への要請から、超高張力鋼などの新材料に対応した 高度なプレス成形・溶接シミュレーションに基づく「ものづくり基盤工程の高度化」が必須とな っている。本課題では京コンピュータで実績のある並列構造解析ソフトウェア FrontISTR[1]を基 盤とし、新材料に対応した高度成形・溶接シミュレータの開発を目標とし、5カ年かけて本シミ ュレータを、強度と成形性を両立させた新材料の開発に必須のキラーアプリに育てる。その際、ポス ト京コンピュータを用いることによって寸法精度評価に足る規模の解析メッシュが計算可能に なることからm スケールの製品(自動車、圧力容器など)に対する数 μm スケールの溶融条件の 制御までを念頭にしたモデル化を行う。本課題の研究開発計画初年度となる今年度は、そうした最 終目標に対するフィージビリティ・スタディの段階として、数十億・数百億に達しうる構造解析 有限要素メッシュを扱う上で欠かせないメッシュパーティショナの分散並列化を実施した。本稿 では、メッシュパーティショナの分散並列化とその性能評価について報告する。 2. 計算モデル メッシュパーティショナは、溶接シミュレーションの前段に実行するプリ処理で、溶接シミュレー ションを実施する際の MPI プロセス数と等しい数の領域に、全体メッシュを予め分割する。メッシ ュパーティショナの汎用性を考え、メッシュパーティショナを実行する際の MPI プロセス数は、分 割したい領域の数と必ずしも一致していなくてもよいものとした。ただし、MPI プロセス数は、分割 する領域数を超えない任意の2 の累乗とする。例えば、16 領域への領域分割をする処理は 4MPI プ ロセスで実行することができ、この場合、図1 のように、各プロセスが 4 つずつ分散領域メッシュを 生成する。 図1 16 個の部分領域に領域分割する処理を 4MPI プロセスで並列処理する場合

(3)

11 図2 並列パーティショナの処理の流れ 図 2 に基本アルゴリズムの流れを示す。また図中の各処理で実施する具体的な内容を下記に述べる。 • 節点情報の入力 全ての MPI プロセスにおいて入力は節点情報のみとする。ただし、未使用節点などの情報が含 まれないように、一端、要素情報も読み込み、実際に使用されている節点かどうかを確認し、未 使用節点であれば削除する。確認後は、読み込んだ要素情報は一切メモリには格納せず、読み捨 てる。 • RCB による初期分割

次に、節点を座標情報に基づきRCB(Recursive Coordinate Bisection)によって MPI プロセス数

に分割する。これは、メッシュ分割を分散並列で実行する際のParMetis に対する入力を分散グラフ 構造で与えるための初期分割であり、それぞれの部分グラフがある程度まとまったものとなるように するために実施する。ここでの分割数は、最終的に出力する分散メッシュの領域数とは異なる。 • 要素情報の入力 初期分割が決まったら、各プロセスが、自分が担当する部分グラフを構成している節点を含む 要素情報を読み込み、メモリに格納する。 • グラフ生成 要素情報からグラフ情報を生成し、さらに、ParMetis の呼び出しに適したデータ構造への変換 を行う。 • ParMetis による分割 生成されたグラフ構造を ParMetis に渡し、FrontISTR の並列数と同数の領域に並列グラフ分割 を行い、領域分割を決定する。 • 分散領域メッシュの生成・出力 最後に、各 MPI プロセスが全体メッシュを再度読み込みながら、自分が担当する分散領域メッ シュを生成・出力する。その際の出力形式は、従来のFrontISTR の並列計算用の分散領域メッシ ュのデータとする。

(4)

12 また、今回の分散並列パーティショナの開発においては、数十億・数百億規模のメッシュを想定 し、メッシュデータのメンバーの一部を、32 ビット整数から 64 ビット整数に変更する必要があ った。FrontISTR 本体への修正は大掛りとなるため、パーティショナは FrontISTR とは独立に開 発したが、将来的には、HEC-MW[2,3]の中に取り込み、重複を排除した形で統合化する予定であ る。 3. 並列計算の方法と効果(性能) 3 つの例題による性能評価を行った。うち 2 つは、従来の逐次領域分割法でも領域分割できる 規模の例題(比較的単純な形状で番号の飛びが少ないもの、および、複数部品で構成されている ような複雑な形状のもの)であり、残りの1 つは、大規模分散環境での優位性が評価できる規模 (数億節点)の例題である。表1 に三つの例題の概要を示す。1 つ目のモデル cube_h1_3M は、1 辺を100 分割した約 300 万自由度の立方体モデルで六面体 1 次要素である。メッシュデータは自 動生成しているため、節点番号の空間的な飛びは少ない。2 つ目のモデル pump は、約 1 億自由 度のポンプモデルで四面体2 次要素である。このモデルは、四面体 1 次要素のメッシュを後で 2 次要素化したモデルデータであるため要素の頂点の節点が先に振られ、その後に中間節点の番号 が振られている。このため、節点番号の空間的な飛びが多いデータとなっている。3 つ目のモデ ルcube_t2_1G は、1 辺を 350 分割した、約 10 億自由度の立方体モデルで、四面体 2 次要素であ る。このモデルも、pump モデルと同様に、要素の頂点の節点に番号が振られた後に、中間節点の 番号が振られているため、節点番号の空間的な飛びが多いデータとなっている。 表 1 性能評価に用いた三つの解析モデルの概要 ID モデル名 要素タイプ 節点数 要素数 自由度数 1 cube_h1_3M 六面体1 次 1,030,301 1,000,000 3,090,901 2 pump 四面体2 次 36,728,129 26,289,770 110,184,387 3 cube_t2_1G 四面体2 次 344,472,101 257,250,000 1,033,416,303 まず、初期領域分割に、RCB を用いた場合と、節点番号の先頭から MPI プロセス数で均等に 分割した場合とで、計算時間、メモリ使用量を比較した結果を表2 に示す。この結果、番号順の 初期分割では、MPI プロセス数を増加した場合でもプロセスあたりの最大メモリ使用量の減少が 少ない。一方、RCB による初期分割では、著しく減少することがわかる。計算時間に関しては、 大きな違いは見られない。また、分割データの質を表すエッジカットについてもほぼ同等である。 次に、従来の逐次領域分割法を用いて同じメッシュデータの領域分割を行った場合の、計算時 間、メモリ使用量、並列効率、などについて比較を行う。cube_h1_3M と pump については、従来 のパーティショナでも分割可能であるので、この両者について分割を行った際の計算時間とメモ リ使用量を表 3 に示す。最大メモリ使用量は並列版の 1 プロセス実行時と比較しても大きく、

(5)

13 MPI 並列プロセス数を増やしてもほぼ変化しないことがわかる。分割の質については、エッジカ ットの数がほぼ同じであることから、大きな差はないと言える。 表 2 初期領域分割方法の違いによる計算時間、メモリ使用量の比較 ID モデル名 領域数 初期分割 # PE 計算時間 [s] 最大メモリ [GB/PE] エッジ カット 1 cube_h1_3M 8 番号順 1 12 0.49 3.7e+4 2 10 0.43 3.8e+4 4 9 0.41 3.8e+4 RCB 1 12 0.49 3.7e+4 2 10 0.31 3.7e+4 4 9 0.25 3.7e+4 2 pump 128 番号順 1 423 17.1 5.5e+6 4 305 16.3 5.7e+6 16 281 15.9 5.8e+6 RCB 1 423 17.1 5.5e+6 4 310 6.8 5.5e+6 16 287 4.7 5.5e+6 3 cube_t2_1G 1024 番号順 8 5,236 14.3 1.3e+7 32 3,728 14.1 1.4e+7 128 2,925 14.2 1.4e+7 RCB 8 5,413 14.3 1.3e+7 32 3,923 9.7 1.3e+7 128 3,193 5.9 1.3e+7 表 3 従来パーティショナによる計算時間とメモリ使用量 ID モデル名 領域数 #PE 計算時間 [s] 最大メモリ [GB] エッジ カット 1 cube_h1_3M 8 1 11 0.73 3.7e+4 2 10 0.73 3.7e+4 4 9 0.73 3.7e+4 2 pump 128 1 1,328 26.3 5.5e+6 4 1,032 26.4 5.5e+6 16 9,728 26.4 5.5e+6

(6)

14 4. 研究成果 ノードあたりのメモリが数 GB、ノード数が数万~数十万、の環境を想定した場合の、領域分 割性能についての見込みや、今回、対象外とした仕様に対する今後の実装対策について検討した。 従来の逐次領域分割法では、MPI 並列プロセス数を増やしても、ノードあたり最大メモリ使用量 が減少しない。このため、大規模なメッシュの分割は通常の計算ノードで実施することができず、 大きなメモリを搭載した別マシンでの分割が必要となっていた。これに対し、今回開発した並列 パーティショナでは、並列プロセス数を増やすことで、ノードあたりの最大メモリ使用量が減少 することがわかった。本パーティショナを「京」のようなノード数が数万~数十万の環境で活用 することで、プリ処理となることが確認された。 5. まとめと今後の課題 今回開発した並列パーティショナは、主としてメモリ使用量を抑えることに注力しているが、 計算時間の観点では、RCB 分割など、並列化が可能と思われる部分が残されており、さらなる高 速化が可能であることが考えられる。本作業では、FrontISTR のための並列パーティショナの高速 化方法の検討、および、機能の拡張を実施した。メモリ消費量の観点からは、節点番号に空間的な飛 びがあるモデルを含め、大規模モデルの分割に有効であることが確認できたが、計算時間に関しては、 RCB 分割の並列化や、分散メッシュ書き出し部における一時ファイルの書き出し/読み込み部分の 見直しや、全体的な逐次計算性能の向上による高速化が可能と考えられる。 参考文献 [1] 奥田洋司,中島研吾共編, 並列有限要素解析[I]・[II], クラスタコンピューティング, 培風館, 2004. [2] 中島研吾,奥田洋司,ハイエンド計算機環境における科学技術計算コード開発基盤(HPC ミ ドルウェア) 計算工学講演会論文集 7(1), 199-202, 2002-05-20. [3]奥田洋司,北山健,ハイエンド計算ミドルウェア援用構造解析システム FrontSTR の性能評 価,計算工学講演会論文集 13(2), 671-672, 2008-05-19.

参照

関連したドキュメント

Monotone domain decomposition algorithm for the parabolic problem (1.2) For solving the nonlinear difference scheme (2.5), we construct and investigate a paral- lel domain

The 100MN hydraulic press of the whole structural model based on the key dimension parameters and other parameters is analyzed in order to verify the influence of the

Nevertheless, when the turbulence is dominated by large and coherent structures, typically strongly correlated, the ergodic hypothesis cannot be assumed and only a probability

The scaled boundary finite element method is used to calculate the dynamic stiffness of the soil, and the finite element method is applied to analyze the dynamic behavior of

We design and implement a high-accuracy cut finite element method (CutFEM) which enables the use of a structured mesh that is not aligned with the immersed membrane, and we formulate

Let F be a simple smooth closed curve and denote its exterior by Aco.. From here our plan is to approximate the solution of the problem P using the finite element method. The

Keywords: compressible Navier-Stokes equations, nonlinear convection-diffusion equa- tion, finite volume schemes, finite element method, numerical integration, apriori esti-

The finite element method is used to simulate the variation of cavity pressure, cavity volume, mass flow rate, and the actuator velocity.. The finite element analysis is extended