第 3 章 関連研究および関連技術
3.1 クラスタ向けインタコネクションネットワーク
3.1.1 Myrinet
Myricom社[47]のMyrinet[3]はCaltech Mosaic C [48]およびMosaic Cで用いられたUSC/ISI
ATOMIC LAN [49]の成果を元に開発されたクラスタ向けインタコネクションネットワークであ
る.Myrinetは専用スイッチ,専用ネットワークインタフェースおよびそれらの間を接続するリン
クで構成される.
Myrinetのスイッチは,カットスルー方式でパケットのスイッチングを行うクロスバスイッチで
あり,8×8や16×16のクロスバスイッチをバックプレーンを介して多段接続し,Fat-TreeやClos 網と呼ばれるトポロジの結合網を構築してノード間を接続する.このような結合網上でノード側 でソースルーティングによる経路選択を行うことで,トラフィックの分散や経路の冗長化を実現 する.16×16のクロスバスイッチを組み合せてFat-Treeを構築し,128ノードの接続に対応した Myrinetの結合網を図3.1に示す.
MyrinetのネットワークインタフェースはLANai(注1)と呼ばれるネットワークインタフェースコ
ントローラと大容量のSRAMを搭載する.LANaiは内部に32bitのRISCプロセッサを持ち,ネッ トワークインタフェース上でのプロトコル処理はRISCプロセッサ上で実行されるMyrinet Control
Program (MCP)と呼ばれるファームウェアによって実現される.SRAMは通信バッファなどに用い
る.また,LANai外部の専用コントローラ(注2)によって,ホストPC上の物理メモリやネットワー クとの間でのDMA転送が提供されている.図3.2に,第3世代のMyrinetであるMyrinet-2000用 のネットワークインタフェースの構成を示す.図の中央には,LANai9[50]と呼ばれるコントロー ラが位置している.
Myrinetは信頼性の高いリンクを用いており元々のエラー発生率は低い.また,CRCを用いた
エラー検出を提供している.
(注1)最近のものは“Lanai”と表記が変更されている.
(注2)最近のMyrinetのネットワークインタフェースではこれらはLANaiに統合されている.
Backplane
Ports to up to 128 hosts
図3.1 16×16のクロスバスイッチを多段結合してFat-Treeを構築したMyrinetの結合網
PCIDMA chip LANai9
Fast Local Memory
64/32bit 66/33MHz 3.3/5V PCI Bus
Myrinet SAN
link 64bit data
Address
SAN/Fiber Conversion
Myrinet-2000 Fiber Link PCI
Bridge
DMA Controller
Host
Interface RISC Packet Interface
図3.2 Myrinet-2000用のネットワークインタフェースの構成
第1世代および第2世代のMyrinet
1994年に登場した最初のMyrinetは,Sun Microsystems社のワークステーションをホストとし てサポートしており,ネットワークインタフェースはSPARC向けのバスであるSBusを介してホ ストと接続可能であった.リンク速度は0.64G+0.64Gbpsであった.
1990年代後半に登場した第2世代のMyrinetでは,リンク速度が1.28G+1.28Gbpsに強化され た.ネットワークインタフェースには33MHz動作のLANai (LANai 4)と最大1MbyteのSRAMが 搭載され,SBusに加えて新たに32bit/33MHzのPCIバスを介したホスト接続への対応が行われ た.また,後に66MHz動作のLANai (LANai 7[51])を搭載した64bit/66MHz PCIバス対応のネッ トワークインタフェースも登場した.
この頃のMyrinetのリンク媒体には銅線が用いられており,SANモードと呼ばれる接続方式で
は最大3m,LANモードと呼ばれる接続でも最大10mと,EthernetなどのLANと比べてリンク長 に厳しい制限が存在していた.
Myrinet-2000
2000年頃に登場した第3世代のMyrinetはMyrinet-2000と呼ばれ,現在主流となっている.
Myrinet-2000では,リンク速度が2.0G+2.0Gbpsに向上した.当初はネットワークインタフェース として64bit/66MHz規格のPCIバスに対応したもの(最大200MHz動作のLANai (LANai 9[50])を 搭載)が提供されていたが,現在は64bit/133MHzのPCI-Xバスに接続可能なもの(最大333MHz 動作のLanai (Lanai X[52])を搭載)が提供されている.PCI-Xバスの転送能力と比べた場合,リン ク速度は低いが,この問題を回避するためにネットワークインタフェース上のポート数を2ポー トに増やしてノード間のデータ転送速度の強化を図ったデュアルポート方式のネットワークイン タフェースも提供されている.リンクの媒体は光ファイバ(50/125マルチモードファイバ)が標準 となっており,最大で200mまで延長可能となっている.
Myrinetのソフトウェア環境
Myrinet向けのソフトウェア環境については,Myricom社により低レベル通信ライブラリであ
るGM[53][54]が提供されており,GMを利用したMPIやTCP/IPの実装が用意されている.また,
Lanai Xを搭載したネットワークインタフェース向けにMyrinet Express (MX)[55]と呼ばれる,よ り低遅延な通信を提供する通信ライブラリが用意されている.
なお,Myrinetではネットワークインタフェースの仕様が公開されており,開発環境が提供され
ていることから,PM/Myrinet[56][7]などの独自の通信プロトコルが開発されており,研究用途に も広く利用されている[57].
Myri-10G
Myri-10G[58]は10Gigabit Ethernet (10GbE)との相互運用が可能なMyricom社による新しいイ ンタコネクションネットワークである.IEEE 802.3akやIEEE 802.3aeといった10GbEと同じ物理 層の規格を採用しており,スイッチやネットワークインタフェースのリンクの媒体には 10GBase-CX4規格の銅線や10GBase-R系列の光ファイバの利用が可能である.Myri-10Gのリンク速度は 10G+10Gbpsであるが,ネットワークインタフェースはPCI Express x8規格のバスを介した接続
に対応しているため,ホストとの間は16G+16Gbpsの全二重I/O接続となり,リンクに対して十 分なデータ転送性能を提供可能な構成となっている.
Myri-10Gのネットワークインタフェースは,従来のMyrinetと同様に,300MHz以上のクロッ クで動作するLanai (Lanai Z8E)を搭載し,ソフトウェアによりプロトコル処理を行う.MXで提
供されるLanai上のファームウェアで,データリンクレベルでMyrinetと10GbEの両方のプロト
コルに対応することができるため,Myri-10Gのネットワークインタフェースは10GbEのネット ワークインタフェースとしても利用可能である.