• 検索結果がありません。

トーラス/メッシュ環境のプロセスランクマッピングによる通信性能評価

N/A
N/A
Protected

Academic year: 2021

シェア "トーラス/メッシュ環境のプロセスランクマッピングによる通信性能評価"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 77 回全国大会. 1J-03. トーラス/メッシュ環境のプロセスランクマッピングによる 通信性能評価 根本貴大†. 熊谷洋佑†. 藤井昭宏†. 田中輝雄†. 工学院大学†. 表 1 ネットワーク構成の特徴. 1. はじめに 近年,京コンピュータのように,大規模並列計 算機のインターコネクトにメッシュ/トーラス構 造を採用するケースがある.メッシュ/トーラス 構造は他の代表的な構造のファット・ツリー構造 と比べ,通信プロセスのハードウェア上の位置関 係により通信時間が変化する[1]. 本研究では,メッシュ/トーラス構造のインタ ーコネクトを持つ東京大学の FX10(oakleaf-fx)[2] において,プロセス通信のハードウェア上の距離 による通信時間の変化を確認した.また,数値シ ミュレーションに用いる疎行列ベクトル積 (SpMV)において,通信頻度の高いプロセス集合 を同じノードに割り当てるランクマップにより, 通信時間の削減を図った.. 3 次元トーラス. ファット・ツリー. 概形. トーラス. 木構造. ノード間距離. 個別. 均一. 図 1 3 次元トーラスネットワークトポロジ. 図 2 ノードの各トポロジ上の位置関係. 2.2 ランクマップ. 2. プロセスマッピング. FX10 はハードウェアでは 6 次元メッシュ/トーラ ス,ソフトウェアでは 1・2・3 次元トーラスをネ ットワークトポロジに使用できる[2].それぞれハ ードウェアトポロジ,ソフトウェアトポロジと呼 ぶことにする.各ノードはユーザが指定したソフ トウェアトポロジでのリンクを維持してハードウ ェアトポロジ上に配置される.図 2 は MPI プログ ラム実行時に 1 次元トーラスを指定したプロセス のハードウェアトポロジ上の位置の例である.プ ロセスのソフトウェアトポロジ上の位置をランク マップと言う[2].3.3 節にて,FX10 上で SpMV の ラックマップ改善を行い通信時間への効果を示す.. 2.1 ネットワークトポロジ. 大規模並列計算機における各演算ユニットをノ ード,各通信網をリンクと呼ぶことにする.ノー ドとリンクにより構成される形をネットワークト ポロジと呼ぶ.大規模並列計算機のネットワーク トポロジの例にファット・ツリー,3 次元トーラス の 2 種がある.この 2 種の特徴を表 1 に示す. 図 1 に示す 3 次元トーラスは各ノードが 3 次元 方向にリンクを持ち,各ノード間通信時に経由す るリンク数にばらつきが発生する.ファット・ツ リーは木構造であるため,各ノード間通信時に経 由するリンク数は一定である.ノード間通信の経 3. 実験 路上のリンク数をホップ数とする. FX10 では,6 次元メッシュ/トーラスの Tofu イ 実験 1 では FX10 のソフトウェアトポロジ上の ンターコネクト[2]をネットワークトポロジに持つ. 距離による通信時間の変化をみる. このトポロジにおいて,各通信ノード間の距離の 実験 2 ではフラット MPI による SpMV 実行時に 違いによるノード間通信時間の影響を 3.1 節に示す. ソフトウェアトポロジ上のノード毎に通信の多い An Evaluation of Communication Performance using Process プロセス同士を集約し,通信を改善したランクマ Mapping on Torus and Mesh Networks † † † ッピングの通信時間への効果を示す.集約の手法 Takahiro Nemoto , Yosuke Kumagai , Akihiro Fujii , Teruo Tanaka† † Kogakuin University. 1-35. Copyright 2015 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 77 回全国大会. 表 3 最小カットによるランクマップ改善の効果. 通信時間 [msec.]. 150 100. プロセス. 50. マップ 改善. 0 5 10 15 20 25 30 35 40 45 ホップ数(ソフトウェアトポロジ). 1536. 図 3 ソフトウェアトポロジ上のホップと通信時間 表 2 各トポロジ上でのホップ数と通信時間 ホップ数 ソフトウェア ハードウェア トポロジ トポロジ. 3072 6144. 実行時間 [μsec.] 演 通信 算 (削減率[%]). プロセス間通信数 ノード内(b) (b/a[%]). 無. 104. 194(-). 814(4%). 有. 105. 157(19%). 7466(36%). 無. 67. 181(-). 1706(4%). 有. 62. 165(9%). 27858(64%). 無. 44. 180(-). 4992(6%). 有. 44. 170(5%). 72146(81%). 全体 (a) 20718 43362 89504. 通信時間 [msec.]. 45. 2. 39.6. 10. 5. 101.7. 3.2 実験 2. としてグラフ理論におけるグラフ分割のカットを 最小化するライブラリ(ParMETIS[3]の PartKway) を利用した.SpMV 実行時の MPI 通信の通信テー ブルにおける各プロセスと通信関係を頂点とエッ ジに対応させグラフ化する.このグラフに対し, カット後のグループ数が使用ノード数と同じにな る条件でグラフ分割を行い,ノードへのプロセス の割り当てを決定する.この割り当てによりプロ セス配置を改善する.計測の SpMV に用いた疎行 列は 3 次元ポアソン方程式の 27 点差分問題,サイ ズ 200 の 3 乗である.すべての実験でソフトウェ アトポロジに 1 次元トーラスを指定した.. 3.1 実験 1 ここでは FX10 で 96 ノードに対しプロセスを 1 つずつ生成し,80MByte の倍精度型配列を 1 対 1 で通信しあう実験を行った.全プロセスがソフト ウェアトポロジ上で同じホップ数の通信を同時に 行い,開始と終了の同期を取った全体の通信時間 を計測した.5~45 まで 5 刻み 9 種類のソフトウェ アトポロジ上でのホップ数の結果を図 3 に示す. 表 2 はソフトウェアトポロジ上でのホップ数 10 と 45 の通信時間とそれぞれのハードウェアトポロジ 上でのホップ数を示す.ソフトウェアトポロジ上 のホップ数の大小関係に反し,ホップ数 10 の通信 時間はホップ数 45 の通信時間の 2.56 倍であった. ハードウェアトポロジ上に配置された各プロセ スの通信はソフトウェアトポロジにない最短経路 のリンクを使う場合がある.図 2 における 0 と 5 のノード間通信が例である.このような経路が本 実験でも使われたため,ハードウェアトポロジ上 のホップ数が通信時間に影響したと考えられる.. 1-36. ここではフラット MPI による SpMV の通信経路 改善を行う.ブロック行分割の並列 SpMV の実行 時間と,最小カットを用いたランクマップでソフ トウェアトポロジ上でのプロセス配置の改善をし た並列 SpMV の実行時間の比較を表 3 に示す.削 減率はプロセス配置の改善前の通信時間から削減 できた通信時間の割合である. 実行環境 1536 プロセス,96 ノードでは,ランク マップ改善の効果としてノード内通信の割合が 32%増加した.この改善により SpMV の通信時間 が 19%削減された.. 4. おわりに 本研究では,プロセス通信に対するハードウェ アトポロジの影響と,SpMV でのソフトウェアト ポロジのランクマッピング改善の効果を示した. 今回の実験 2 ではソフトウェアトポロジ上での ランクマップ改善であった.実験 1 からハードウ ェアトポロジのホップ数によるプロセス通信の影 響を確認したので今後はハードウェアトポロジに 着目したランクマップ改善の効果を検証したい. 参考文献 [1] YU, Hao, et al. Topology mapping for Blue Gene/L supercomputer. 2006 ACM/IEEE conference on Supercomputing. no.52 pp.116 (2006). [2] 東京大学情報学基盤センタースーパーコンピ ューティング部門 -FX10 スーパーコンピュー タシステム(oakleaf-fx), http://www.ipsj.or.jp/kenkyukai/genko.html . [3] ParMETIS, http://glaros.dtc.umn.edu/gkhome/metis/parmetis/ overview .. Copyright 2015 Information Processing Society of Japan. All Rights Reserved..

(3)

図 3   ソフトウェアトポロジ上のホップと通信時間 表 2   各トポロジ上でのホップ数と通信時間 ホップ数 通信時間 [msec.] ソフトウェア トポロジ ハードウェアトポロジ 45  2  39.6  10  5  101.7  としてグラフ理論におけるグラフ分割のカットを 最小化するライブラリ( ParMETIS[3] の PartKway ) を利用した. SpMV 実行時の MPI 通信の通信テー ブルにおける各プロセスと通信関係を頂点とエッ ジに対応させグラフ化する.このグラフに対し, カッ

参照

関連したドキュメント

が前スライドの (i)-(iii) を満たすとする.このとき,以下の3つの公理を 満たす整数を に対する degree ( 次数 ) といい, と書く..

妊婦又は妊娠している可能性のある女性には投与しない こと。動物実験(ウサギ)で催奇形性及び胚・胎児死亡 が報告されている 1) 。また、動物実験(ウサギ

瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。 なお,保管エリアが満杯となった際には,実際の線源形状に近い形で

・性能評価試験における生活排水の流入パターンでのピーク流入は 250L が 59L/min (お風呂の

第2章 環境影響評価の実施手順等 第1

このような環境要素は一っの土地の構成要素になるが︑同時に他の上地をも流動し︑又は他の上地にあるそれらと

右の実方説では︑相互拘束と共同認識がカルテルの実態上の問題として区別されているのであるが︑相互拘束によ

本稿で取り上げる関西社会経済研究所の自治 体評価では、 以上のような観点を踏まえて評価 を試みている。 関西社会経済研究所は、 年