第34回超並列計算研究会
HPCにおけるネットワーク
-Myrinet-住商エレクトロニクスカンパニー
ES事業部 HPCソリューション
小林 裕之
http://www.sse.co.jp/myrinet/
Out Line
クラスタ
Myrinet
クラスタ
定義
計算クラスタとは、複数の計算機をインターコネクトで 接続し、問題を解くシステム(分散メモリ型)関連して
HPCにおいては、特に大規模クラスタではコスト/パ フォーマンスやオープンポリシーであるかを求められ ている。例えば、50ノードのクラスタで2ノードがダウン しても48ノードでの動作を求められる。クラスタコンピュータの構造
分散メモリ対応のアプリケーション プログラミングスタイル O.S. コモディティ・コンポーネント Low-level ネットワークソフトウェア インターコネクトネットワークComputer Computer Computer Computer Computer
クラスタの設計
ホスト
2-4プロセッサ/ホストがコスト/パフォーマンスでは最も優れているOS
Linux、商用の高価なOSを使うメリットは?インターコネクトネットワーク
様々な経験則から、双方向通信のデータレートはホストの メモリバンド幅の5-20%が適している。 分散システムではノード間通信にメモリバンド幅を大量に 消費しこれが全体のパフォーマンスに影響を与える。 Xeonでは~4GBであるのでメモリバンド幅は~400MB/s。 GbEでは不足、Myrinetが適している。 ホストのI/O(PCIバス)がリミット メッセージレイテンシとホストCPUの使用率アプリケーション
構造解析
(MSC Software; LSTC LS-Dyna , 金属
成型/カッティング、
biomedical, 地震工学)
流体
(Fluent, Zeus-MP 他)
気象予測コード
(MM5)
化学/物理
(GAMESS)
天体・宇宙物理
(Cactus)
化学
(CHARMM, AMBER, and others)
生物
(macromolecular modeling, gene
sequencing)
Myrinet
標準的な構成
インターフェイス, ソフトウェア (オープンソース), スイッチ と ケーブル。ネットワークアーキテクチュア
, プロトコルとテクノロジー
MPPにおけるパケット通信とルーティング技術(オープンアー キテクチュア) ANSI スタンダード (ANSI/VITA 26-1998). 広範囲なアプリケーションに対応クラスタインターコネクトとしてのマーケットリーダ
1994に初出荷。インストールベース:1000サイト 、現在の出 荷(Qあたり)インターフェイス 5,000~、10,000~スイッチポー トMyrinet
Technology
“in the Large”
LSU “SuperMike” Cluster
SuperMike cluster:Atipa、 2002年春
512 dual 1.8GHz Xeon servers 総延長10 km に及ぶ optical-fiberケーブル
Myrinet
Technology
“in the Small”
CSPI Quad-PowerPC VME Signal-Processing Board
CSPIはLANai9をVMEボー ドに実装し信号処理システ ムに販売
2003年11月TOP500リスト
Myrinet HyperFabric 1-20 21-40 41-60 61-80 81-100 101-120 121-140 141-160 161-180 181-200 201-220 221-240 241-260 261-280 281-300 301-320 321-340 341-360 361-380 381-400 401-420 421-440 441-460 461-480 481-500 FSL LSU Buffalo VPlantLegend ANL CPlant
HELICS TITECH
Titan Magi SCore Platinum NRL
Russia
Prairiefire
Kyoto Oklahoma
Scripps Maui HPCC
LosLobos New Zealand Amsterdam
OSC Maine Korea
FSL TITECH 15 of the top 100 140 of the use Myrinet technology
なぜ、
Myrinet ?
低レイテンシ M3F-PCI64C: ~7µs PCIXD-2: ~6.3µs 高いデータレート 2+2 Gb/s (250+250 MB/s) リン ク 2ポート版の開発予定 拡張性 Full-bisection Clos networks 最
大 8192 ホスト 非常に低いホストCPU使用率 logP < 1µs マルチモードファイバーリンク 軽量、容易な配線、高信頼性 高可用性 自動マッピング、自己復旧 リンク接続のモニタリング データ妥当性 メモリ-バスのパリティ リンク-パケットペイロード CRC メジャープラッホームの対応 Webサイトからダウンロード オープンソース
Low-level API + TCP|UDP/IP +
MPI + VI + PVM + Sockets ハイブリッドMyrinet/GbEネットワーク
GbEとの協調性
8ポート GbEポート LANai-XM プロトコル変換モジュール実装 M3-E128エンクロージャに実装:最大128ポートのGbEスイッチ の構築が可能 256ポートへも対応可能Myrinet -Link
2002/ 6月 - LANai XMマルチプロトコルチップ
Myrinet port, long-range-Myrinet port, GbE port, または
InfiniBand port
インターオペラビリティMyrinet, long-range Myrinet, GbE, &
InfiniBand.
2Q03 - PCI-X インターフェイス
1ポート/2ポートタイプ、GM-2ではルーティング方式を変更 2 x (250+250) MB/s = 1GB/s、PCI-Xに最適
2003後半 - SerDes チップをVLSI chipsと統合
PCI-Expressへの対応
プロトタイプ
-マルチプロトコルスイッ
チラインカード
プロトタイプ
(M3-SW16-2E2X4F)Lanai XM プロトコルコンバータ
Send/recv DMA engines Send/recv DMA engines SAN network interface X network interface SerDes or GbE PHY SerDes or GbE PHY L-bus memory interface Control & memory initialize x72b SRAM x72b SRAM RISC To line-card front-panel port To line card XBar16 port To line card µC (JTAG) Lanai XM Modes - Myrinet - Program control long-range fiber - GbE - InfiniBandThis circuitry is repeated for each “special” line-card port.
225MHz RISC & Memory
Myrinet スイッチ/ネットワーク
8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts Closネットワーク (バックプレーン) 最大128ホスト スイッチファミリーの一つとしてM3-Mモニタリングカードがあります。モニタリング カードに実装されたマイクロコンピュータにとSNMPによりスイッチ内部の温度状 況、ポートのモニタリング(通信エラー、CRCエラーなど)が行えます。Myrinet -Switch
Myrinet, long-range-Myrinet, GbE, 及び
(場合によっては) InfiniBandポート
GM-2でマルチパス(分散)ルーティング
2003後半以降
XBar32.
“Clos256+256” switch、14U (?)
“4x Myrinet” links (2004~)
Myrinet Interface 概要
Fast SRAM (2cycles/clock) Packet DMA Network Interface SANport DMAHost
Bridge 64 bit
RISC の部分はすべて
LANai chip にインプリメ
Myrinet –インターフェイス
Myrinet/PCI-X
225MHz x 8 MB memory & 225MHz RISC; 1 port (Lanai
XP)
~6.3µs GM latency. MPI, VI
エントリーレベルのPCI-Xインターフェイス
3Q/03: 333MHz x 8 MB memory & 333MHz RISC; 2 ports
(Lanai 2XP)
~4.8µs GM latency.
ハイエンドPCI-X インターフェイス
PCI-XシリーズはGM 2のみ対応
Myrinet/PCI-Express インターフェイス 2004以降
Lanai 4 Myrinet ports (or 4x port) 2004以降
LANai XP- PCI-Xインターフェイス
Interface EEPROM & JTAG Send/recv DMA engines X network interface SerDes SerDes L-bus memory interface Control & memory initialize x72b SRAM x72b SRAM RISC PCI-card port Lanai XP PCI-X & DMA Engine (225MHz) PCI-X busLANai-XP ベース M3F-PCIXD-2
ロープロファイル PCI & PCI-X、3.3V only, Dual 2.4GHz Xeon / Serverworks chip set:
High End LANai 2XP PCI-X
Send/recv DMA engines Send/recv DMA engines X network interface X network interface SerDes SerDes L-bus memory interface Control & memory initialize x72b SRAM x72b SRAM RISC PCI-card port Lanai 2XP SerDes SerDes PCI-card port PCI-X & DMA Engine PCI-X bus Interface EEPROM & JTAG (333MHz)Myrinet Software Interface 概要
“Middleware” “OSバイパス” APIs(Multiple host processes) Myrinetインター フェースの中で 実行されるApplications
UDP TCP IP Ethernet Myrinet MPI VIAMyrinet Control Program(MCP)
10/100/1000 Mb/s 2000+2000 Mb/s
Host OS
GMメッセージパッシングシステム
GM Data-Rate Performance (Myrinet-2000 Fiber Interfaces)
ユーザレベルで保護された 通信 信頼性のあるメッセージ通 信 非常に低いCPUオーバヘッド マッピング ハイレベルのフローコントロー ル ユーザレベルでのゼロコピー 通信
UNIX user process to user process Fully protected
End-to-end data integrity
GM short-message latency (Myrinet-2000 interfaces) ~ 7µs (PCI64C) or ~9µs (PCI64B)
GMドライバソフトウェア対応状況
IA32, IA-64 Win 2000/XP
IA-32 & Alpha FreeBSD, … Apple Macintosh G4 MacOS X PowerPC VxWorks * MIPS Irix * IBM Power AIX Alpha Tru64 UltraSPARC Solaris
IA-32, IA-64, Alpha, PowerPC, IBM Power 3 & 4
Linux
Platforms OS
GMソフトウェアインターフェイス
GM API Lowレベル、アプリケーションの実装に時間がかかる TCP/IP Ethernetエミュレーション、全てのGM で動作 1.9 Gb/s TCP/IP (netperfベンチマーク) MPICH-GM Argonne MPICH over GM
VI-GM
VI Architecture API directly over GM
Sockets-GM
UNIX または Windows sockets (or DCOM) over GM. バイナリ完全互
換。
PVM
様々なサードパーティにより開発されたドライバ。SCore は代表的なパッケージ
Myrinet -ソフトウェア
GM 2, 新GMプログラム GM-1と比較しg m_get関数を含む幾つかの新機能 新しいマッピング機能 Ethernetエミュレーション時におけるホストCPU使用率の低減 需要が高いMyrinet-GbEの協調性への対応 Myrinet Express (MX): 高度にチューニングされたファームウェ アをソフトウェアによりMPIとEthernetエミュレーションをサポー ト。PCIXEインターフェイス上で3.5µs (?) MPIレイテンシ 3Q03 リリース予定Linux, PCIXD & PCIXE対応のみ
GMの置き換えではない(専用)。