• 検索結果がありません。

中密度実装クラスタにおける同期ユニットの設計および評価

N/A
N/A
Protected

Academic year: 2021

シェア "中密度実装クラスタにおける同期ユニットの設計および評価"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)社団法人 情報処理学会 研究報告 IPSJ SIG Technical Report. 2006−ARC−167(8) 2006−HPC−105(8) − 2006/2/27. 中密度実装クラスタにおける同期ユニットの設計および評価 早川. 潔. 本稿では,  クラスタにおける同期ユニットの設計・実装および性能評価について述べる.  クラスタは,  筐体  シャーシ)に  台の  が実装され,そのシャーシが  シャーシ (ノード数は )搭載されたクラスタであり,シャーシ内ネットワークおよびシャーシ間ネット ワークを搭載している.シャーシ内ネットワーク(   ネットワーク)は,シャーシ内ノード 間をより密に結合し,シャーシ間ネットワークは,とりまわしがよくスケーラビリティの高い汎 用ネットワークでシャーシ外ノード間を結合する.本研究では,   ネットワークを使用した シャーシ内ノードの同期処理を行うハードウェア同期ユニットを設計した.同期処理ユニットに おいて,新たな同期変数管理方式を採用した.その同期ユニットを  クラスタの一部のノー ドに実装し評価をした.その評価では,シャーシ内ノード間のバリア同期処理を 

(2)  で処理で きた..     

(3) 

(4) 

(5)  

(6)  

(7)           

(8)                ! "        # $   $. !  %   &  !# ' " %& #$    "   # &     & (     $  $    $. )  ! $*    )! $ ) ! $*          # $ ) )! $*       # $  #  $  ! $*    $  %&  #   $     #"   %   ""   "" ""    $   $   %   

(9)   ! $. はじめに. 力・高密度を目指しているが,それと同時に長期間 運用可能なクラスタを目指している.. 近年,汎用 + の低消費電力化が進み,その. + を使用した  クラスタにおける低消費電力 化の研究が行われている.また,低消費電力 + を使用することにより*+ ファンなどの冷却装置 が小型化され(または省かれ),より高密度に実装 可能になってきている. 高密度実装クラスタとして, や.  ,-. 

(10)   ,.- というクラスタが知られている.. いずれのクラスタも  シャーシに . 個前後の + が搭載されている. + はいずれも '" の + を 使 用 し て い る. 本 研 究 室 で 開 発 中 の.  クラスタにおいてもできるだけ低消費電. 近年の + の開発サイクルは急激に速くなり, .* 年もすれば入手が困難になってきている.その ような状況の中で,故障 + やマザーボードの修 復などが難しくなっている. そこで,  ク ラスタでは, /0 などで使用する  1 仕様のマ ザーボードを採用し,そのマザーボードにインテル が供給している ("%+ を搭載することで 長期間運用することを可能にする.  1 のマ ザーボードにも "  が搭載できる製品もで てきており,より低消費電力なクラスタが実現可能 になってきている. 1シャーシに複数台数のノードが搭載されてい. 大阪府立工業高等専門学校 総合工学システム学科.   

(11)        −43− . るクラスタの場合,ネットワークをシャーシ内と シャーシ外に分けて,構成したほうがより効率よ.

(12) いデータ転送ができる.つまり* シャーシ間ネット ワーク )! $& は*( など のシャーシ間接続でノイズが入りにくいような処理 が施されているネットワークを採用し* シャーシ内 ネットワーク( ! $)では信号 線を直接結合させるような比較的に密なネットワー ク 例えば* バス結合& を採用する シャーシ内ネッ トワークでは,より高速なデータ通信が可能とな り,それにともなって高速なバリア同期も構成可能 となる. 図 7. そこで,本稿では,シャーシ内ネットワークを使.  クラスタの構成. 用したハードウェア同期ユニットについて述べる. 同期ユニットにおけるバリア同期変数管理方式を提 案し,バリア同期の処理速度をシミュレーションお よび実機で測定し,バリア同期の処理速度削減効果 について検証する.また,シャーシ内バリア同期と シャーシ間バリア同期とを合わせたクラスタ全体の バリア同期の処理時間を見積ることにより,クラス タ全体のバリア同期処理時間の削減効果も検証す. 図 .7.   ネットワークを利用したノード間接続. る.. . よび 6$ 3)のみで構成されている  #.  クラスタ. は* 同期・通信処理をハードウェアで実装すること. 中密度実装クラスタとして*  クラスタシス テムを構築した(図 参照&  クラスタシス テムは  ボード( 1 規格のボード +:. "

(13) 2 )を 34'5 の ( および   ネットワークで結合したクラスタシ 34'5 の ( 接続を ステムである. シャーシ間ネットワークとし*   ネットワークを シャーシ内ネットワークとする(. つのネットワー クをまとめて「  ネットワーク」とする) 本 クラスタでは* シャーシあたり + ボードが実 装 さ れ て い る 各 + ボー ド の  ス ロッ ト に   ネットワークボートと呼ばれる  ネット ワークボードを実装する. . シャーシ内バリア同期処理.   ネットワークを利用したシャーシ内バリア 同期(以後「   3」とする)を行う同期 ユニットについて述べる..   ネットワークボード   ネットワークボードは* # およ びシャーシ内ネットワークコネクタ(6$ 0 お . −44−. により* 高速化を実現する シャーシ内ネットワー クコネクタは . ピンのパラレルケーブル用のコネ クタであり* パラレルケーブルを用いて 6$ 0 と. 6$ 3 を接続する(図 .参照).   ネッ ト ワー ク ボー ド は* 本 来* メッ セー ジ パッシング型の通信処理および拡張型バリア同期処 理を低レイテンシで実現するために開発された  ボードである ,8-. しかし* 今回* この   ネット. ワークボードをシャーシ内ネットワークに特化した.  ボートとして開発する.     

(14)  図 に . # 内のブロック図を示す.  # は* ! % ブリッジ* 同期制 御部* 通信制御部* 送受信パケット処理部* および共 有メモリで構成される.  ! % ブリッジは* バスプロトコル と % バスプロトコルをインターフェース し* のターゲット機能をサポートする 同期制 御部は*   ネットワークを使用した同期処理アク セスを行い* 任意参加バリア*/  バリアの同期を 処理する 通信制御部は* パケットデータ処理を行 う 送受信パケット処理部は* 通信モードを解析し*.

(15) 図 7.    # の構成. 図 87 同期制御部の構成. パケットを同期パケットと通信パケットに分けてパ. れた同期番号のバリアフラグをアクセスし,必要. ケット送受信処理を行う 共有メモリには* 各ブロッ. に応じて,同期パケットを自動的に生成する.つま. ク間が連携して処理する場合に必要なデータを格納. り,ノードプロセッサが  および % を. する. 介して,バリアフラグをセットしたときに,パケッ. 本稿では,同期ユニットの設計・実装について述. ト解析 9 データ送出部が同期到達パケットを自動. べるので,それに関連する「同期制御部」について. 生成する.また,バリアが成立した場合,同期検 出部がパケット解析 9 データ送出部に同期成立パ. のみ言及する.. ケット生成を依頼し,その依頼を受けたパケット解. . 析 9 データ送出部はバリア成立パケットを自動生. 同期制御部の構成 図 8 に   3 を処理する同期制御部の. 構成を示す.同期制御部は, % インター フェース,パケット解析 9 データ送出部* 同期メモ. 成する.   同期情報の管理方法 同期メモリの中にある同期変数は変数ごとに管理. リおよび同期検出部で構成される. 同 期 メ モ リ の 構 成 は,  ノー ド と : また 6 ノードの間で異った形をとる. . 方法が異なる.バリアフラグは各ノードで分散管理 し,バリアマスクおよびバリア到達情報は . ノー ド の 同 期 メ モ リ は, バ リ ア フ ラ グ 図 で は. ノードが集中管理する バリアフラグは同じ同期番. 3!/&,バリアマスク 図では 3!$& および バリア到達情報 図では 3!:& で構成される. 一方, : および 6 の同期メモリは,バリア. 号のバリアフラグが各ノードに配置される.各ノー ドの同期番号が同じバリアフラグは同期成立パケッ トによって,  が保たれる.バリアマスク. フラグのみで構成される.また,同期検出部は,. およびバリア到達情報は,  ノードが集中管.  ノードのみに実装される.バリアフラグお. 理する.  ノード以外のノードが,バリアマ. よびバリアマスクは3ビットの変数であり,各ビッ. スクおよびバリア到達情報を変更する場合,同期. 成立パケットと呼ぶ . 種類のパケットを用意する.. 到達パケットを  ノードに送ることにより,  ノードがそれらの変数を変更する.  ノードにおけるバリア同期手順に伴う同. 同期到達パケットは,  ノードへ同期成立を. 期管理手順を以下に示す.. トがシャーシ内ノードに対応している. 同期パケットには,同期到達パケットおよび同期. 知らせるパケットであり,同期成立パケットは,.  ノードが : および 6 ノードへ同期の 成立を知らせるパケットである.同期パケットはパ ケット解析 9 データ送出部によって,自動的に生 成される..   ノードのプロセッサが同期ポイントに 到達したら,特定の番地に同期番号と同期情報 (バリアマスクおよびバリアフラグの情報)を 書き込む.. バリア同期を行う際に, % 経由で同期番. . % インターフェースがそれら書き込み. 号および同期参加情報が書き込まれ,その書き込ま. を検知して,その同期番号に対応したバリアフ. −45− .

(16) ラグをセットし,バリア到達情報を更新し,同 期メモリにバリアマスクを保存する..  他のノードから同期到達パケットが届いたら, パケット解析 9 データ送出部が同期メモリの 同期情報を書きこむ.. 8 同 期 検 出 部 が, 書 き 込 ま れ た バ リ ア 情 報  % インターフェースまたはパケット 解析 9 データ送出部が書いた情報)をもとに* 同期を検出する.同期検出部がバリア同期完了 を検出した場合,パケット解析 9 データ送出 部に同期成立パケット生成を依頼し,バリアフ ラグをリセットする.. 図 ;7 クラスタ全体同期のネットワーク構成. ; 同期検出部の依頼にしたがって,パケット解析 9 データ送出部が同期成立パケットを自動生成 し, 6 および : ノードにそのパケット. ク ラ ス タ 全 体 の バ リ ア 同 期 は, 各 シャー シ を. を送る.. 6 および : ノードにおけるバリア同期手 順に伴う同期管理情報手順を以下に示す.. 「3 ( !. 6&」, 「36!(&」 の  つ に 分け(図 ;参照),それぞれ異なった手順で同期を 行う.. ラグをセットし,パケット解析 9 データ送出. : の 同 期 手 順 を 述 べ る. ま ず, : 内 で   % を 行 い, 同 期 が 成 立 し た ら, : 内 の 各 ノー ド が 下 位 階 層 3 の  ノー ド に : の み の   % の 完 了 を 知 ら せ る. 次 に*: 内 の 各 ノー ド は 下 位 階 層 3 全てが同期完了したことを示す. 部へ同期到達パケットを生成するように要求す. パケットを受信する処理を行い,その後,再度,.  6 または : ノードのプロセッサが同期 ポイントに到達したら,特定の番地に同期番号 と同期情報を書きこむ.. . % インターフェースがそれら書き込み を検知して,その同期番号に対応したバリアフ.   % 同期を行う.2回目の   %. る..  パケット解析 9 データ送出部は % イ ンターフェースの要求にしたがって,同期到達 パケットを生成して  ノードへ送る.. 8  ノードから同期成立パケットが届いた ら,パケット解析 9 データ送出部がバリアフ ラグをリセットする.. . 「:」,. クラスタ全体バリア同期. が終了したら,それを成立を知らせるパケットを下 位階層 3 の  ノードへ送る.. 3 ( !6& の 同 期 手 順 を 述 べ る. ま ず, 3 ( !6& 内 の  ノードが上位階層の  から送られて くるパケットを受け取り,その後,   % を 行 う. 3 ( !6& 内 の : および 6 ノードが上位階層のシャーシでのバ リア同期完了を示すパケットを下の階層の  ノードに送り,返送されるパケット受け取る.その. クラスタ全体のバリア同期は,シャーシ内外の. 後, 再 度,   % を 行 う. 3. ネットワークを利用して行う.基本的には,シャー. ( !6& 内の  ノードが上位層のノー. シ外ネットワークトポロジーを図のような ' ト. ドにパケットを送り,返送されるパケット受け取. ポロジーと考えて,シャーシ内のみのバリア同期を. る. 再 度,   % を 行 い,   %. 行い,それが終了後にシャーシ間で同期を行う形で. 終了後 : および 6 ノードが階層にパケット. バリア同期を行う. を送る. −46− 8.

(17) 図 >7. 表 7.   3 の処理工程.   3 の各工程における見積もり処理. 時間 図

(18) 7 クラスタ全体同期の処理手順. 3 (6!(& の 同 期 手 順 を 述 べ る. 上 位 階 層 の 3ま た は :& か ら送られてくるパケットを 3 (6! (& 内 の  ノー ド が 受 け 取 り, そ の 後,   % を 行 う. 3 (6!(& 内の  ノードが上位層のノードにパケットを 送り,返送されるパケットを受け取る.最後に,.   % を行う..     " & 0  ?

(19)   >?   ? :.    

(20)   " & 3  .; (  8?;.  .>.  .>. た.表 に   3 の各工程の処理時間を示 した. 図 >のタイミングチャートおよび表 に各処理 の 処 理 時 間 か ら  ノー ド の   3 は . >. . 性能評価 同期ユニットの評価として,   3 にお. ける同期ユニット内の処理時間を見積もり,実機で.   3 の実行時間を測定した.また,クラ スタ全体バリア同期の実行時間も見積もった..  で終了し, 6 または : ノードの   3 は  8

(21) sで終了するという結果を 得た. 3 クラスタ ,;- での同期ユニットの処理 時間(約  . s)に比べると約 > 倍処理時間がか かっている. 実 際 に, : お よ び  ノー ド . ノー ド での   ネットワークを使用したバリア同期の 処理時間を測定した.その結果,  ノードは. .> sで完了し, : ノードは 

(22) sで完了.   .  のレイテンシ. した.見積もり実行時間と実際に計測した結果がほ.   3 の同期ユニット内の処理時間をシ. ぼ一致しているが,これは,デバイスドライバの処. ミュレーションによって見積もった.シミュレー. 理時間を含んだ時間なので,実際のシミュレーショ. ションはアルテラ社の < (=; )を使用. ンのより早く処理されたと思われる.. した. を示す.  ノードにおける   3 の. ( のみを使った  3 の場合, . 台で約 . と約 4 削減されているが, 3 クラスタ ,;- でのバリア同期処理時間( . )より. 処理手順をおおまかに3つの工程にわけ, :・. は処理時間が延びている.これは,同期ユニットの. 6 ノードの   3 の処理手順をおおまか. 差というより,デバイスドライバの処理時間の差で. に2つの工程にわけ,タイミングチャートに表し. ある.. 図 >に   3 処理のタイミングチャート. ; −47−.

(23)  クラスタ全体バリア同期の評価 クラスタ全体バリア同期の実行時間を見積もっ た.図の手順をおおまかに見積もると以下のように なる..  @ .  のとき,   @  . 8 . & のとき.   @ 8 A  & A  A & ここで, . &. .&. 図 7 クラスタ全体バリア同期と  3 との 比較.   は   3 レイテンシ,  は ' トポ ロ ジ の !6 番 号,  は 4 の はクラスタ全体のバリア処理時間,. 処理時間である. 式 & および式 .& をグラフで表す( をパラ. 行うことと,このバリア同期を実アプリケーション に有効的に使うための方法を検討することが挙げら れる.. メータとして)と図 となる.図 において,イー. サーネットのみを利用した  3 の実行時 間 と 比 較 し た.  が

(24)  程 度 だ と, . ネットワークを使用したバリア同期が有利である が,  が . を超えると, ( のみを使用. した  3 が有利になるということが推測. される.. おわりに シャーシ内ネットワークを使用したハードウェ. ア同期ユニットの設計および評価を行った.   ネットワークボードに搭載するコントロール # の概要を説明し,そのボードによって構成される.   ネットワークについて述べた.また,   ネットワークを利用したシャーシ内のバリア同期制 御部の構成について述べ,そのブロックで行われる バリア変数管理手法について述べた. 性 能 評 価 と し て, シャー シ 内 バ リ ア 同 期 の 処 理 見 積 も り 時 間 お よ び . ノー ド を 利 用 し た.   3 の予備評価を行った.その結果, . ノードの   3 が 

(25)  で処理できた. この結果は,イーサーネット使用した  3 の実行時間の約  分の1に相当する. ま た, ク ラ ス タ 全 体 バ リ ア に お い て も,. 4: の 実 行 時 間 が

(26)   を 超 え な け れ ば,イーサーネットのみを利用した  3 よりよい結果になると見積もることができた. 今後の課題として,実機  台で   3 を 実行させ,クラスタ全体のバリア同期の実機測定を −48−

(27). 参考文献 ,-  * ( * /* B2!  "#70 .8!C 3  ) %  B* # "# ..* C ... ,.- 中 島* 中 村, 佐 藤, 朴, 松 岡, 高 橋, 堀 田* B高性能計算のための低電力・高密度クラス タ B* 情 報 処 理 学 会 論 文 誌7 コ ン ピューティングシステム* = 8

(28) *C 1. (0 &* ## 8

(29) !

(30) * 0 .;. ,- 北村* 濱田* 宮部* 伊澤* 宮代* 田邊* 中條* 天 野* B !. ネットワークインタフェース コントローラの設計と実装 B,先進的計算基盤 システムシンポジウム 0 .;* ## .?! ,  .;. ,8- D 2$* B 3 6+ '(: E '(! EC2:)C F0' )C 0C  (+) 16)306 6)D )+C'(: E'(!B* . 0 '( G .  C.;, ## .

(31) !.., /% .;. ,;- D 2$*  * $*B  3! "  0 ! " 0B* ;'2   2 ! " "#  0!H :* !:)* # ..

(32)

図 7  # の構成 パケットを同期パケットと通信パケットに分けてパ ケット送受信処理を行う  共有メモリには * 各ブロッ ク間が連携して処理する場合に必要なデータを格納 する  本稿では,同期ユニットの設計・実装について述 べるので,それに関連する「同期制御部」について のみ言及する.  同期制御部の構成 図 8 に 3 を処理する同期制御部の 構成を示す.同期制御部は, % インター フェース,パケット解析 9 データ送出部 * 同期メモ リおよび同期検出部で構成される. 同 期 メ モ リ の 構
図 7 クラスタ全体同期の処理手順 3 ( 6!(&amp; の 同 期 手 順 を 述 べ る. 上 位 階 層 の 3 ま た は :&amp; か ら送られてくるパケットを 3 ( 6! (&amp; 内 の  ノー ド が 受 け 取 り, そ の 後, % を 行 う. 3 ( 6!(&amp; 内の  ノードが上位層のノードにパケットを 送り,返送されるパケットを受け取る.最後に, % を行う.  性能評価 同期ユニットの評価として, 3 にお ける同期ユニット内の処理時間を見積もり,実機で 3

参照

関連したドキュメント

本症例における IL 6 および IL 18 の動態につい て評価したところ,病初期に IL 6 は s JIA/ inac- tive より高値を示し,敗血症合併時には IL

および皮膚性状の変化がみられる患者においては,コ.. 動性クリーゼ補助診断に利用できると述べている。本 症 例 に お け る ChE/Alb 比 は 入 院 時 に 2.4 と 低 値

デロイト トーマツ グループは、日本におけるデロイト アジア パシフィック

当第1四半期連結累計期間におけるわが国経済は、製造業において、資源価格の上昇に伴う原材料コストの増加

瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。 なお,保管エリアが満杯となった際には,実際の線源形状に近い形で

当初申請時において計画されている(又は基準年度より後の年度において既に実施さ

本案における複数の放送対象地域における放送番組の

最近の電装工事における作業環境は、電気機器及び電線布設量の増加により複雑化して