• 検索結果がありません。

Myrinet2000 ご紹介

N/A
N/A
Protected

Academic year: 2021

シェア "Myrinet2000 ご紹介"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

第34回超並列計算研究会

HPCにおけるネットワーク

-Myrinet-住商エレクトロニクスカンパニー

ES事業部 HPCソリューション

小林 裕之

http://www.sse.co.jp/myrinet/

(2)

Out Line

クラスタ

Myrinet

(3)

クラスタ

定義

„ 計算クラスタとは、複数の計算機をインターコネクトで 接続し、問題を解くシステム(分散メモリ型)

関連して

„ HPCにおいては、特に大規模クラスタではコスト/パ フォーマンスやオープンポリシーであるかを求められ ている。例えば、50ノードのクラスタで2ノードがダウン しても48ノードでの動作を求められる。

(4)

クラスタコンピュータの構造

分散メモリ対応のアプリケーション プログラミングスタイル O.S. コモディティ・コンポーネント Low-level ネットワークソフトウェア インターコネクトネットワーク

Computer Computer Computer Computer Computer

(5)

クラスタの設計

ホスト

  „ 2-4プロセッサ/ホストがコスト/パフォーマンスでは最も優れている

OS

„ Linux、商用の高価なOSを使うメリットは?

インターコネクトネットワーク

„ 様々な経験則から、双方向通信のデータレートはホストの メモリバンド幅の5-20%が適している。 „ 分散システムではノード間通信にメモリバンド幅を大量に 消費しこれが全体のパフォーマンスに影響を与える。 „ Xeonでは~4GBであるのでメモリバンド幅は~400MB/s。 GbEでは不足、Myrinetが適している。 „ ホストのI/O(PCIバス)がリミット „ メッセージレイテンシとホストCPUの使用率

(6)

アプリケーション

構造解析

(MSC Software; LSTC LS-Dyna , 金属

成型/カッティング、

biomedical, 地震工学)

流体

(Fluent, Zeus-MP 他)

気象予測コード

(MM5)

化学/物理

(GAMESS)

天体・宇宙物理

(Cactus)

化学

(CHARMM, AMBER, and others)

生物

(macromolecular modeling, gene

sequencing)

(7)

Myrinet

標準的な構成

„ インターフェイス, ソフトウェア (オープンソース), スイッチ と ケーブル。

ネットワークアーキテクチュア

, プロトコルとテクノロジー

„ MPPにおけるパケット通信とルーティング技術(オープンアー キテクチュア) „ ANSI スタンダード (ANSI/VITA 26-1998). „ 広範囲なアプリケーションに対応

クラスタインターコネクトとしてのマーケットリーダ

„ 1994に初出荷。インストールベース:1000サイト 、現在の出 荷(Qあたり)インターフェイス 5,000~、10,000~スイッチポー ト

(8)

Myrinet

Technology

“in the Large”

LSU “SuperMike” Cluster

SuperMike cluster:Atipa、 2002年春

512 dual 1.8GHz Xeon servers 総延長10 km に及ぶ optical-fiberケーブル

(9)

Myrinet

Technology

“in the Small”

CSPI Quad-PowerPC VME Signal-Processing Board

CSPIはLANai9をVMEボー ドに実装し信号処理システ ムに販売

(10)

2003年11月TOP500リスト

Myrinet HyperFabric 1-20 21-40 41-60 61-80 81-100 101-120 121-140 141-160 161-180 181-200 201-220 221-240 241-260 261-280 281-300 301-320 321-340 341-360 361-380 381-400 401-420 421-440 441-460 461-480 481-500 FSL LSU Buffalo VPlant

Legend ANL CPlant

HELICS TITECH

Titan Magi SCore Platinum NRL

Russia

Prairiefire

Kyoto Oklahoma

Scripps Maui HPCC

LosLobos New Zealand Amsterdam

OSC Maine Korea

FSL TITECH 15 of the top 100 140 of the use Myrinet technology

(11)

なぜ、

Myrinet ?

低レイテンシ „ M3F-PCI64C: ~7µs „ PCIXD-2: ~6.3µs 高いデータレート „ 2+2 Gb/s (250+250 MB/s) リン ク „ 2ポート版の開発予定 拡張性

„ Full-bisection Clos networks 最

大 8192 ホスト 非常に低いホストCPU使用率 „ logP < 1µs マルチモードファイバーリンク „ 軽量、容易な配線、高信頼性 高可用性 „ 自動マッピング、自己復旧 „ リンク接続のモニタリング データ妥当性 „ メモリ-バスのパリティ „ リンク-パケットペイロード CRC メジャープラッホームの対応 „ Webサイトからダウンロード „ オープンソース

„ Low-level API + TCP|UDP/IP +

MPI + VI + PVM + Sockets ハイブリッドMyrinet/GbEネットワーク

(12)

GbEとの協調性

8ポート GbEポート „ LANai-XM プロトコル変換モジュール実装 „ M3-E128エンクロージャに実装:最大128ポートのGbEスイッチ の構築が可能 „ 256ポートへも対応可能

(13)

Myrinet -Link

2002/ 6月 - LANai XMマルチプロトコルチップ

„ Myrinet port, long-range-Myrinet port, GbE port, または

InfiniBand port

„ インターオペラビリティMyrinet, long-range Myrinet, GbE, &

InfiniBand.

2Q03 - PCI-X インターフェイス

„ 1ポート/2ポートタイプ、GM-2ではルーティング方式を変更 „ 2 x (250+250) MB/s = 1GB/s、PCI-Xに最適

2003後半 - SerDes チップをVLSI chipsと統合

„ PCI-Expressへの対応

(14)

プロトタイプ

-マルチプロトコルスイッ

チラインカード

プロトタイプ

(M3-SW16-2E2X4F)

(15)

Lanai XM プロトコルコンバータ

Send/recv DMA engines Send/recv DMA engines SAN network interface X network interface SerDes or GbE PHY SerDes or GbE PHY L-bus memory interface Control & memory initialize x72b SRAM x72b SRAM RISC To line-card front-panel port To line card XBar16 port To line card µC (JTAG) Lanai XM Modes - Myrinet - Program control long-range fiber - GbE - InfiniBand

This circuitry is repeated for each “special” line-card port.

225MHz RISC & Memory

(16)
(17)
(18)

Myrinet スイッチ/ネットワーク

8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts 8 hosts Closネットワーク (バックプレーン) 最大128ホスト スイッチファミリーの一つとしてM3-Mモニタリングカードがあります。モニタリング カードに実装されたマイクロコンピュータにとSNMPによりスイッチ内部の温度状 況、ポートのモニタリング(通信エラー、CRCエラーなど)が行えます。

(19)

Myrinet -Switch

Myrinet, long-range-Myrinet, GbE, 及び

(場合によっては) InfiniBandポート

GM-2でマルチパス(分散)ルーティング

2003後半以降

„

XBar32.

„

“Clos256+256” switch、14U (?)

“4x Myrinet” links (2004~)

(20)
(21)

Myrinet Interface 概要

Fast SRAM (2cycles/clock) Packet DMA Network Interface SAN

port DMAHost

Bridge 64 bit

RISC の部分はすべて

LANai chip にインプリメ

(22)

Myrinet –インターフェイス

Myrinet/PCI-X

„ 225MHz x 8 MB memory & 225MHz RISC; 1 port (Lanai

XP)

Š ~6.3µs GM latency. MPI, VI

Š エントリーレベルのPCI-Xインターフェイス

„ 3Q/03: 333MHz x 8 MB memory & 333MHz RISC; 2 ports

(Lanai 2XP)

Š ~4.8µs GM latency.

Š ハイエンドPCI-X インターフェイス

„ PCI-XシリーズはGM 2のみ対応

Myrinet/PCI-Express インターフェイス 2004以降

Lanai 4 Myrinet ports (or 4x port) 2004以降

(23)

LANai XP- PCI-Xインターフェイス

Interface EEPROM & JTAG Send/recv DMA engines X network interface SerDes SerDes L-bus memory interface Control & memory initialize x72b SRAM x72b SRAM RISC PCI-card port Lanai XP PCI-X & DMA Engine (225MHz) PCI-X bus

(24)

LANai-XP ベース M3F-PCIXD-2

ロープロファイル PCI & PCI-X、3.3V only, Dual 2.4GHz Xeon / Serverworks chip set:

(25)

High End LANai 2XP PCI-X

Send/recv DMA engines Send/recv DMA engines X network interface X network interface SerDes SerDes L-bus memory interface Control & memory initialize x72b SRAM x72b SRAM RISC PCI-card port Lanai 2XP SerDes SerDes PCI-card port PCI-X & DMA Engine PCI-X bus Interface EEPROM & JTAG (333MHz)

(26)

Myrinet Software Interface 概要

“Middleware” “OSバイパス” APIs(Multiple host processes) Myrinetインター フェースの中で 実行される

Applications

UDP TCP IP Ethernet Myrinet MPI VIA

Myrinet Control Program(MCP)

10/100/1000 Mb/s 2000+2000 Mb/s

Host OS

(27)

GMメッセージパッシングシステム

GM Data-Rate Performance (Myrinet-2000 Fiber Interfaces)

ユーザレベルで保護された 通信 信頼性のあるメッセージ通 信 非常に低いCPUオーバヘッド マッピング ハイレベルのフローコントロー ル ユーザレベルでのゼロコピー 通信

UNIX user process to user process Fully protected

End-to-end data integrity

GM short-message latency (Myrinet-2000 interfaces) ~ 7µs (PCI64C) or ~9µs (PCI64B)

(28)

GMドライバソフトウェア対応状況

IA32, IA-64 Win 2000/XP

IA-32 & Alpha FreeBSD, … Apple Macintosh G4 MacOS X PowerPC VxWorks * MIPS Irix * IBM Power AIX Alpha Tru64 UltraSPARC Solaris

IA-32, IA-64, Alpha, PowerPC, IBM Power 3 & 4

Linux

Platforms OS

(29)

GMソフトウェアインターフェイス

GM API „ Lowレベル、アプリケーションの実装に時間がかかる TCP/IP „ Ethernetエミュレーション、全てのGM で動作 Š 1.9 Gb/s TCP/IP (netperfベンチマーク) MPICH-GM

„ Argonne MPICH over GM

VI-GM

„ VI Architecture API directly over GM

Sockets-GM

„ UNIX または Windows sockets (or DCOM) over GM. バイナリ完全互

換。

PVM

様々なサードパーティにより開発されたドライバ。SCore は代表的なパッケージ

(30)

Myrinet -ソフトウェア

GM 2, 新GMプログラム „ GM-1と比較しg m_get関数を含む幾つかの新機能 „ 新しいマッピング機能 „ Ethernetエミュレーション時におけるホストCPU使用率の低減 需要が高いMyrinet-GbEの協調性への対応 Myrinet Express (MX): 高度にチューニングされたファームウェ アをソフトウェアによりMPIとEthernetエミュレーションをサポー ト。PCIXEインターフェイス上で3.5µs (?) MPIレイテンシ

„ 3Q03 リリース予定Linux, PCIXD & PCIXE対応のみ

Š GMの置き換えではない(専用)。

参照

関連したドキュメント

Let F be a simple smooth closed curve and denote its exterior by Aco.. From here our plan is to approximate the solution of the problem P using the finite element method. The

Let F be a simple smooth closed curve and denote its exterior by Aco.. From here our plan is to approximate the solution of the problem P using the finite element method. The

An explicit expression of the speed of the oil- water interface is given in a pseudo-2D case via the resolution of an auxiliary Riemann problem.. The explicit 2D solution is

In section 4 we use this coupling to show the uniqueness of the stationary interface, and then finish the proof of theorem 1.. Stochastic compactness for the width of the interface

2 When tank mixing with sulfonylurea herbicides refer to the product label for rates and restrictions. Use the highest rate of surfactant when using the lower rate ranges of the

Since bits [b4 – b0] of the MOSI register contain the smart card data, programming the CRD_VCC output voltage shall be done by sending a previous MOSI message according to Table 2

22 CSP1 Non−inverting input to current balance sense amplifier for phase 1 23 CSP2 Non−inverting input to current balance sense amplifier for phase 2 24 CSP3 Non−inverting input

This is done by starting a Byte Write sequence, whereby the Master creates a START condition, then broadcasts a Slave address with the R/W bit set to ‘0’ and then sends two