電気工学科岩根雅彦電気工学科茶屋道宏貴

(1)

マルチマイクロプロセッサMDBM／FMMの開発

（平成7年11月30日原稿受付）

電気工学科岩根雅彦

電気工学科茶屋道宏貴

電気工学科立川尚久

Development of Multi−microprocessor System MDBM／FMM

by Masahiko Iwane Hirotaka Chayamichi Akira Motoishi Naohisa Tatsukawa Naohiko Urasaki

Abstract

In a general purpose multi−processor system， decreasing the overhead of interprocessor com．

munication and synchronization is important for running fine to coarse grain size parallel pro9「ams・

The dynamic barrier synchronization mechanism with a small amount of hardware to reduce the synchronization overhead for fine grain programs and the reconfigurable shared memory sys−

tem with the mesh network for all grain size programs are shown． The dynamic barriCr synchro．

nization mechanism specifies dynamically in execution of programs the barrier group in which the processing units（PUs）synchronize each other． The reconfigurable shared memory system gives

。n。p。，t・fm・m・・yinth・・y・t・m・・a・h・・edm・m・・yt・・n・p・・all・l p・・9・am・nd・n・th・・p・・t・f memory as the private memory with the mesh network to another parallel program at the same time， or all of memory as a shared memory to the system．

・MDBM／FMM has been developed including the synchronization mechanism and the recon．

figurable memory system as a test bed． It consists of 180486 based personal computer as a HOST／10P，328088十8087 based PUs and the interface unit between HOST／10P and the PUs．

Most of the interface unit and most of the PU except MPU are implemented using FPGA to change the design easily． 9FPGAs are used for the interface unit and 96 FPGAs for 32 PUs．

MDBM／FMM is under evaluation using benchmarks．

期をとるプロセッサ組（バリアグループ）の指定方法とし

1・はじめこて，タグによる指定・），キューを用いたSBM（St。ti，

細粒度並列処理を実行するマルチプロセッサではプロ Barrier MIMD）6・7）， CAM（Content Addressable セッサ間の同期と通信によるオーバーヘッド1）を極力削 Memory）を用いたDBM（Dynamic Barrier MIMD）8），

減する必要がある。 MCAM（Modified Content Addressable Memory）9）によプロセッサ間同期の方法の一つにハードウェァによるるMSBM （Multiple Static Barrier management バリア同期機構2）が提案されている。ハードウェアバリ MIMD）10）がある。

ア同期の機能拡張としてのFuzzy Barrier3）， Elastic 並列計算機におけるメモリ構成は共有メモリ構成と分

Barrier4）， Ultimate Barrier同期機構5），またバリア同散メモ，リ構成に分けられる。共有メモリ構成による密結

(2)

合マルチプロセッサではどのプロセッサからも共有メモ更命令方式が考えられる。

リに直接アクセスできるので細粒度並列処理にも使用さタグ方式はハードウェアによるプロセッサのバリア同れている。しかしこのような構成では共有メモリとプロ期命令に同期を識別する情報を付加する。ソフトウェアセッサを接続する相互結合網やメモリモジュールで競合によるバリア同期をそのままハードウェア化しているのが起こり性能が低下することがある。とくにバス結合にでハードウェア量は多くなる。しかし必要なプロセッサ

よる相互結合網ではプロセッサ数が多くなるに従って競のみが選択されるのでダミーバリア同期は不要である。

合が著しく増加する。プロセッサが十数台以上になると予約方式の一つはバリアグループをあらかじめまとめキャッシュメモリによりバス競合を削減させている1）。てバリアキューに登録しておき同期が成立することに自局所メモリだけをもつ疎結合マルチプロセッサではこの動的にバリアキューを更新する。SBMはバリア同期間ような競合は発生しない。疎結合マルチプロセッサにおに完全順序関係を導入しバリアキューによって単一のバけるプロセッサ間通信は入出力操作と同様に行われる。リアグループのバリア同期を可能にしている。DBMは直接通信路のないプロセッサ間ではオーバヘッドが生じバリア同期間に半順序関係を導入しバリアキューと

るが，隣接したプロセッサへ一度に多量の通信を行える CAMによって複数のバリアグループのバリア同期成立ので中粒度／粗粒度の並列性をもつプログラムに対してを可能としている。変更命令方式はプロセッサにバリアは格子結合網が有効であるL11）。同期命令だけでなくバリアグループ変更命令をもたせ，

細粒度並列処理におけるバリア同期と細粒度／中粒度／バリアグループの変更が必要となるたびに変更命令を発粗粒度並列処理におけるプロセッサ間通信の検証のため行してソフトウェアでバリアグループを管理する。

にマルチマイクロプロセッサMDBM（Multiple Dynamic 動的なバリアグループ設定のハードウェア量はタグ方 Barrier management MIMD）／FMM（Flexible Mesh一式，予約方式，変更命令方式の順に少なくなる。逆に設 network Multiprocessors）をテストベッドとして開発し定時間は変更命令方式，予約方式，タグ方式の順で短くた。MDBM／FMMでは並列プログラムの実行時になる。そこでバリァグループ設定のハードウェア量をで MCAMの内容を動的に書き換えることによってバリアきる限り少なくしかつ設定時間を短縮する方法を考える。

グループの指定を行う。またプロセッサ間通信機構とし 21．2．スケジューリングとバリア同期管理

て，局所メモリつきの共有メモリ，分散メモリおよびこ並列処理される1つの応用プログラムは，主プログラれらの中間的な部分分散共有メモリとなる再構成可能なムと複数のサブプログラムから構成され，これらをプロメモリおよび隣接プロセッサ間通信のためのILLIAC セジャと呼ぶ。オペレーティングシステムOSによりス網によるDMA転送機構をもつ。大学の一研究室によるケジューリングされて実行される1つの応用プログラム MDBM／FMMの開発では設計変更が多いのでFPGA をプロセスと呼び，1つのプロセスに割り当てられたプ

（Field Programmable Gate Array）を積極的に使用した。ロセッサの集合をプロセッサグループと呼ぶ。プロセ本論文では，2章で細粒度並列処理におけるバリア同ジャごとにコードスケジューリングを行って各々のコー期とプロセッサ間通信について述べる。3章でMDBM／ドを論理プロセッサに割り当ててバリアグループ変更命 FMMのシステム構成，4，5章でハードウェアの詳細令およびバリア同期命令を挿入する。このとき必要なら

について述べる。ばダミーバリア同期命令も挿入する。プロセジャ間でリ 2．基本設計ンクをとってプロセジャスケジューリングを行ってプロセスを生成する。プロセスでは異なったバリアグループ 2．1．動的バリア同期管理単位（スレッドセット）で論理プロセッサを物理プロセッ 2．1．1．バリアグループ指定サに実行時に割り当てられる。すなわちバリアグループ静的なバリア同期管理であるMSBMでは一つのプロ内は静的なスケジューリングが行われバリアグループ間

グラムに一つまたは複数のバリアグループをMCAMには動的なスケジューリングが行われるのでハイブリッド

プログラムの実行前に登録しておきプログラム終了後にスケジューリング12）と呼ぶ。ハイブリッドスケジュー

除去する。この方法ではプロセッサの有効利用および不リングではバリアグループの設定を動的スケジューリン

必要なダミーバリア同期に関して問題がある。そこで動グに埋め込むことによってバリアグループの設定時間に

的なバリア同期管理を考える。よるオーバーヘッドを削減する。変更命令方式によるバ

バリア同期をとるプロセッサすなわちバリアグループリアグループの設定でもスレッドセットの実行時間があ

を動的に指定する方法にはタグ方式，予約方式および変る程度長ければ細粒度並列処理も可能である。図1にハ

(3)

プロセッサ

0 1 2 3 4 5

PU PU PU PU PU

：

1 −一一一一

：

ロ

：図2 再構成可能共有メモリ

：

．」

LM LM LM LM

儀ぽ斑

@A

GSM

@A GSM

@B GSM

@B

LM

GSM

@血

ロセッサで任意の大きさの共通のメモリ空間がとれる再図1動的バリア管理構成可能共有メモリRSM（Reconfigurable Shared Mem−

ory）を考える。プロセッサグループ（以後グループ）内のイブリッドスケジューリングにおける動的バリア同期管すべてのプロセッサで共通なメモリ空間をグループ共有理を示す。図1の破線で囲んだ部分がプロセス，実線でメモリGSM（Group Shared Memory），システム内のす囲んだ部分が動的スケジューリング単位すなわちスレッベてのプロセッサで共通なメモリ空間をシステム共有メ

ドセット，斜線での塗りつぶしはバリアグループ変更命モリSSM（System Shared Memory）と呼ぶ。図2に令，網かけ線は設定されたバリアグループ，×印はバリ RSMを示す。プロセッサのメモリ空間は境界レジスタ

ア同期命令またはダミーバリア同期命令を示す。またプによって局所メモリLM（Local Memory）とGSMとロセス毎に並列度は異なることから，使用していないプ SSMに任意に分割できる。各プロセッサごとに境界レロセッサを別のプロセスに割り当て多重実行し，システジスタを設定するのでグループごとに任意の大きさのムを多重プログラミング環境，つまりMDBM（Multiple GSMをもつことができ， SSMの境界レジスタはすべて Dynamic Barrier management MIMD）とすることでシのプロセッサで同一値に設定される。システム内のすベステム全体のスループット向上をはかる。てのプロセッサを同じグループに設定すればこのシステ 2．2．プロセッサ間通信ムのメモリ構成は共有メモリ構成となる。GSMではグマルチプロセッサシステムのメモリは各プロセッサかループごとに，SSMではすべてのプロセッサに対して

らのアクセスに競合が生じない構成が望ましい。このよ内容を一致させるので，一つのプロセッサのGSMまたうな競合は実行するプログラムに依存する。細粒度並列はSSMに書き込みが発生すると同一のグループのほか処理では頻繁におこるプロセッサ間通信によるオーバーのプロセッサのGSMまたはすべてのプロセッサのヘッドを削減するために共有メモリが用いられている。 SSMを更新する。

共有メモリのアクセス競合を低減させるために各プロ中粒度，粗粒度並列処理ではプロセッサグループ内プセッサが1つのメモリを共有する集中型共有メモリではロセッサ間で大量のデータの転送が必要なことがある。

なく，個々のプロセッサに分散して共有メモリを持たせこのような場合は共有メモリによるプロセッサ間通信でる分散型共有メモリが有効である。中粒度，粗粒度並列はオーバーヘッドが大きい。そこでプロセッサグループ処理ではプロセッサ間通信はそれほど頻繁におこらない内隣接プロセッサ間の大量のデータ転送のためにので局所メモリのみで共有メモリをもたない構成も多い。 ILLIAC網によるDMA転送機構を用意する。

汎用マルチプロセッサシステムでは細粒度，中粒度，粗

粒度並列処理を効率よく行う必要があるので，共有メモ 3・MDBM／FMMシステム構成

リ構成から局所メモリ構成まで段階的にメモリ構成を選 3．1．システム概要

択できる再構成可能メモリが望ましい。そこで共有メモ図3に示すようにMDBM／FMMはホストコンピュー

リを個々のプロセッサに分散させて，プロセッサグルータHC（Host Computer），新統合インタフェースNIIU

プごとに任意の大きさの共通のメモリ空間，すべてのプ（New Integrated Interface Unit）および32−64台のプロ

(4)

トのスケジュールがされたときにWMCAM命令により終了したスレッドセットのバリアグループをMCAMから削除してあらたなバリアグループをMCAMに登録する。

通常のバリア同期のほかに広がりのある領域内での同期を許すファジーバリア（Fuzzy Barrier）同期を導入する。これらの同期を実現するためにADBAR（Advanced Barrier）命令， BAR（Barrier）命令をPU出力命令として用意する。BAR命令単独で通常のバリア同期，

ADBAR命令とBAR命令のペアでファジーバリアを実現する。

3．2．2．動的バリア同期機構

動的バリア同期機構を図4に示す。それはNIIUに存在し，システム内PU台数に等しいビット長をもった図3 MDBM／FMMシステム構成 BRR（Barrier Request Register）およびMCAMで構成される。PUがWMCAM命令を実行したときINTバスを

セッサPU（Processing Unit）で構成され， HC−NIIU間通ってアドレスとバリアグループが動的バリア同期機構は16ビットデータ幅のHCバス， MIU−PU間は8ビッに送られMCAMに書き込まれる。 PUがADBAR，

トデータ幅のDTバスと16ビットデータ幅のINTバス， BAR命令を実行するとPUはBreq信号を動的バリア同 PU間は8ビットデータ幅のRSMバスおよびILLIAC 期機構に送ると共にその実行を中断する。動的バリア同網で結合される。またNIIUと各々のPUから1本づっ期機構ではPUから送付されたBreq信号はBRRの当該のバリア信号が結合され，バリア同期要求／バリア同期ビットをセットする。BRRをMCAMの探索データと成立をあたえる。して用いて包含関係が成立すればMCAMを読み出す。

HCは80486DX−MPU，8MBメモリ，各種入出力装すなわち，

置およびNIIUインタフェースから構成され，単に周辺 if MCAMij⊆BRRj then Bgrt：＝MCAMij（j＝0，

機器制御のための1／0プロセッサ10Pとして使用でき一一，n−1）

る。またプロセススケジューリング，pu管理，入出力但し， iはMCAM内のi番目のバリアグループ， jは管理，ユーザインタフェースおよびバリアグループ管理バリァグループiのjビット目，nはシステムのPU総などを行うことも可能である。NIIUはHCとPUの間数を表す。また包含関係はMCAMij⊆BRRj≡rMCA．

のインタフェースであり，マルチキャスト機能による Mij＞BRRjである。

データ転送，PUからHCへの割り込みの仲介および PUからのバリア同期処理を行う。 PUは8088MPU＋

8087NDP，256KBメモリ， NIIUインタフェース，

RSMインタフェースで構成され，スレッドセットの実行だけでなく，プロセスおよびスレッドセットスケジューリング，PU管理，バリアグループ管理などを行うことができる。

3．2．MCAMによる動的バリア同期機構

3．2．1．バリアグループの設定とバリア同期の拡張バリアグループの設定をPUから動的に行えるようにするためにその出力命令としてWMCAM（Write MCAM）命令を用意する。 PUはスレッドセットをスケジュールするときにバリアグループをWMCAM命令によって動的バリア同期機構にあるMCAMに登録する。

スレッドセットの実行が終了してあらたなスレッドセッ図4 動的バリア同期機構

(5)

MCAMから読み出されたバリアグループはBgrt信 Port．BからDPMに書き込む。 SSMへの書き込みの場号としてPUに同期の成立を伝える。同時にそのバリァ合もグループ番号を放送しないことを除いてGSMと同

グループが包含されているBRR（探索データ）の該当じである。なおGSMおよびSSMの相互排除のためにビットをリセットする。 lock／unlock機能を用意している。

このようにMCAMによる動的バリア同期機構では 4．新統合インタフエースユニットNllU MCAMにバリアグループをPUから登録できる。また

複数のバリアグループの同期成立を同時に検出できる。 4・1・NllU構成

3．3．再構成可能共有メモリ NIIUは図6に示すようにHCとPU間のデータ通信各PUのメモリは図5に示すように128KBのRAM，を行うデータ転送ユニットDTU（Data Transfer Unit）・

96KBの2ポートメモリDPMおよび32KBのROMに PUからHCへの割り込み処理を行う割り込み処理ユ基本的に分けられる。RAMはLM， DPMはLM， GSM ニットINTU（Interrupt Unit）および動的バリア同期機およびSSMに使用される。 LMには局所プログラム構であるバリア同期処理ユニットMCAMU（MCAM コードや局所データ，GSMまたはSSMにはグループ Unit）から構成されている。 DTUはDTバス・INTUは内PU間またはすべてのPU間で共有するプログラム INTバスによってPUと接続されており・バリア同期のコードやデータ，ROMには基本的なソフトウェアが格ためのPU個々からのBreq／Bgrt信号はMCAMUに接納される。メモリはLM， GSMおよびSSMの区別なく続されている。 DTUはDMA転送のためのDMAC PU毎に0番地から連続してアドレスづけがなされてい（DMA Controller）， PUのメモリアドレスを示すアドるがSSMおよび同一プロセッサグループ内PUのレスカウンタADRCNTR，転送方向を示す方向レジス GSMの同一アドレスには同一データが格納される。タHPNEWSおよびNIIUの状態を示す状態レジスタ MPUはPUバスを介してPUのメモリのすべてのアド STATUSをもっている。 MCAMUはMCAM・BRR

レス空間にアクセスできるように，PUバスにはRAM，のほかにPUまたはHCからMCAMにバリアグループ DPMの一つのポートPort．AおよびROMが接続されの登録のためのMCAMアドレスレジスタMCAMADR ている。DPMのもう一つのポートPort．BはRSMバスとMCAMデータレジスタMCAMDTをもっている・

インタフェースRSMifに接続されている。 MPUからメ PUは2×16ビットのPUNOを含んだパラメータの送付モリの全アドレス空間に読み出しおよび書き込み可能でを伴ってINTUにMCAMへのバリアグループの設定あるが，書き込み時にはRSMifの境界レジスタBASE およびHCへの割り込を要求するが・INTUはこのパラ

（GS：グループ／SS：システム）と比較しGSMへの書メータを格納するためにバッファBUFFERをもっていき込みならばRSMバスにグループ番号，アドレス，る。図7にPUから送付されるデータのフォーマットをデータが放送される。受け取り側のPUではRSMifで示す。なおPUからの要求の優先順位はデイジーチェー RSMバス上のグループ番号とPUがもっているグルーン接続によって決められている。 MCAMUの動的バリ

プ番号を比較し一致すればRSMバス上のデータをア同期機構およびINTUの動作は独自のシーケンサに

HC BUS MPU MPU ・…・・ MPU

PU BUS PU BUS PU BUS

Port＿B

NIIu

ADRCNTR HPNEWS STATUS

INTU

BUFFER

MCAMU MCAMADR MCAMDT

Breq！Bgrt

INT BUS

図5 RSM構成図6 NllU構成

(6)

る。このPUの選択のためにHCの出力命令にSELPU

313°292423 @ 1615 ° 鈴をもうけた．SELPU命令によりPU内のPU選択

フラグの設定が行われる。

PU−PU間DMA転送ではDMACのメモリーメモリ McAM Address 間転送機能を使用する。 HPNEWSにより転送方向N P・siti・n （上）， E（右）， W（左）， S（下）を与える。このNEWS転送ではプロセッサグループ内のすべてのPU間で指定方 oo PUからHCへの割り込み処理向に同時にデータ転送される・

ステータスレジスタSTATUSはNIIU内に散在して 10 バリアパターンの登鍋削除の割り込み処理

いるフラグや，PUに関するフラグを集めて1つのレジ図7 PU．INTU間デ＿タフォ＿マットスタのようにまとめたものである。 HCはこの内容を読み込むことによってNIIUおよびPUの状態を知ることができる。

よって常にその動作を繰り返している。

42データ転送エットDTu 5・プ゜セッサPU

DTUはHCメモリとPUメモリの間でプログラムお 5．1． PU構成

よびデータをHCバスとDTバスを使用してDMA転送 PUは割り当てられたスレッドセットの逐次命令列をする。また隣接したPUのメモリ間でデータをILLIAC 各々独立に実行するユニットである。図8に示すように

（NEws）網を使用してDMA転送する。 Hc−Pu間 PuはMPu， MEMoRY， RsMif， NEwsif， NIIuイ DMA転送においてHcのメモリリフレッシュを簡素化ンタフェースであるDTuif， INTuif，BARifおよび複するために，HCメモリはメモリとして， PUメモリは数のレジスタで構成されている。 PUの出力命令に動的 1／0として取り扱う。このためにDMACのアドレスレバリア同期関連命令のほかにHCに入出力処理などを依ジスタによってHCメモリのアドレスは与えられるが，頼するためのSVCC命令， RSMの相互排除のための PUメモリのアドレスはADRCNTRで与える・また SLOCK命令， GLOCK命令， SUNLOCK命令， GUN．

HPNEWSによってHCからPUまたはPUからHCへ LOCK命令をもうけている。 SVCC命令およびWCAM の転送方向を与える。PUからHCへの転送は1対1で命令はINTuifのバッファに格納されているデータを図行なわれるがHCからPUへの転送は1対mのマルチ 7の形式でNIIUに送出する。 MPUとこれらのインタキャスト機能がPUヘプログラムコードのローディングフェースはPUバスで相互に接続されている。 NIIUとやデータの集配，マンマシンインタフェースに必要であ DTUIfとはDTバスで， INTUifとはINTバスで，

BARifとはBreq／Bgrt信号線で接続され，各PUの DT Bus RsMifはRsMバスで， NEwsifはILLIAc網で接続さ INT BUS れている。

Breq／Bg・t PU内レジスタにはPUの固有の値で識別するための PU番号レジスタPUNO，プロッセサグループごとに固有の値をもって識別するグループ番号レジスタGPNO，

MEMORYのLMとGSMとSSMの境界を示す境界レジスタBASE（GS／SS）およびHCとPU間での小規模の通信のための通信レジスタPUCOMMがある。 PUNO はスイッチで設定されているが，GPNO， BASE （GS／SS）， PUCOMMはHCとPUの両方から設定可能である。とくにGPNOはRSMバスおよびDTバスでのマルチキャスト転送またはILLIAC網による NEWS転送に， PUNOはプロセッサグループの形成や DTバスでのマルチキャスト転送およびHCへの割り込図8 PU構成み識別に用いられる。 PUCOMMはPUがHCにSVCC

Parameter PUNO

Barrier Pattern

MCAM Address oosition vrite Bit

DT BUS INT BUS Breq／Bgrt

PU

DTUif INTUif BARif

PU BUS

PUNO

GPNO NEWSif RSMif MEMORY PUCOMM

BASE（GS／SS）

RSM BUS N

E

W S NEWSNetwork

(7)

命令によって入出力処理を依頼したときにHCからPU の実行を中断する。 ADフラグがセットしていればりへ1／0動作終了の確認などに使用される。セットしてPUの実行を中断する。 GRフラグがセットし 5．2．各種インタフェースユニットていればリセットして処理を続行する。Bgrt信号を受 DTUifは， PU選択フラグがセットしているとき，け取ったBARifはADフラグがセットしていればGR DTバス上にあるアドレス，データおよび，読み出し／フラグのセットとADフラグをリセットする。 ADフラ書き込みなどの制御信号を受け取ることによってグがリセットしていればPUの処理を再開する。

Hc−Pu間転送を行う。 INTuifは， wMcAM命令，以上で述べた機能を持ったマルチマイクロプロセッサ SVCC命令を実行したときデイジーチェーンによる優 MDBM／FMMを開発した。その概観を図10に示す。製先順位に従ってINTUに要求信号とともにパラメータ作にはキャパシタによる遅れが問題とならない回路にはを送る。パラメータはMPUの出力命令によりあらかじ FPGAを使用したところボード間のバス関係以外はすめINTuif内のバッファに書き込んでおく。べてFPGAで実現できた。その結果NIIuではゲート RSMifはRSMバスによってほかのPUのRSMifと数3000−5000のFPGAを9個， PUは一台あたりFPGA 相互接続され，SSMおよび同一グループ内PUのGSM が3個で構成できた。

の内容を一致させる処理のほかに相互排除のための

6．むすび lock／unlock処理を行っている。 SLOCK命令はこの命

令を実行したPU以外のすべてのPUの動作を中断させ，動的バリア同期機構と再構成可能共有メモリをもった SUNLOCK命令の実行によって他のPUの実行を再開マルチマイクロプロセッサMDBM／FMMのハードウェ

させる。GLOCK命令はこの命令を実行したPUの属すア構成について述べた。 MDBM／FMMはこれらの機構るグループ内の他のすべてのPUの動作を中断させ，の有効性を検証するテストベッドとして，また細粒度か GUNLOCKはPUの実行を再開させる。 MPUがこれら粗粒度までの並列アルゴリズムの開発およびその評価

らの命令を実行したときRSMifからRSMバスに制御のための並列計算機として開発された。 MDBM／FMM 信号およびGPNOを送出する。受け取るPUのRSMf はHCとしてのIBM−DOS／Vパーソナルコンピュータでは制御信号とGPNOを調べてlockまたはunlock動と新統合インタフェースボード1枚，1枚に4PU搭載作を行なう。図9にRSMバス制御信号を示す。 SSM，のプロセッサボード8枚，合計9枚のワイヤラップボー GSMへの書き込みとlock，unlockとで共用するのでドすなわち32台のPUで評価中である。細粒度並列計算ハードウェアが削減される。なおRSMバスの調停にお機MSBMの3枚のワイヤラップボードで構成される統いてPUNOによって優先順位がきめられている。合インタフェースユニットを再検討し動的バリア同期機 BARifはPUでのバリア同期処理を行う。 PUが構などの諸機能を付加して1枚の新統合インタフェース ADBAR命令を実行したときBARifにあるADフラグユニットとして再設計した。またPuもMsBMのPu

をセットしてBreq信号をMCAMUに送りPUの処理に再構成可能共有メモリやILLIAC網などの諸機能をを続行する。このときバリア同期が成立しておれば付加して再設計した。32PU構成のMDBM／FMMでは MCAMUはBgrt信号を送る。 BARifにあるGRフラグゲート数3000−5000のFPGAを105個を使用している。

をセットする。BAR命令ではADフラグとGRフラグ開発途中の設計変更に迅速に対応できたのはFPGAをがリセットしていればBreq信号をMCAMUに送りPU

S／G M／L L！u GPNO

00一 GPNOで指定したグループにマルチキャスト 0 10 GPNOで指定したグループをアンロック

011 GPNOで定したグループをロック 10一システム全体にブロードキャスト

110 システム全体をアンロック

1 1 1 システム全体をロック

図9 RSMバス制御信号構成図10 MDBM／FMM概観

(8)

積極的に多用したことが大きい。MDBM／FMMはデ pp．91−97（1991）

バッグを完了し各種ベンチマークにより評価中である。（6）M・T・0 K？efe and H・G・Dietz：Hardware Barrier Synchronizatlon：Static Barrier MIMD（SBM）， 901nt．

今後この評価を完了して提案した機構の有効性を実証す Conf．。n parallel pr。cessing， pp．15−142（1ggO）．

る予定である。（7）早川他：SBM同期機構を用いたOne−PE同期方式，

信学論D−1，Vol． J78−D−1，No．2， pp．73−81（1995）

（8）M．T．0 Keefe and H．G．Dietz：Hardware Barrier Syn一参考文献 ch・・nizad・n・Dynamic Barrie・MIMD（DBM）， 901nt．

（1）富田，末吉：並列処理マシン，オーム社（1989）．（9）議雷＝漂…溜㌫篇㌫）毛リの開発

（2）S・F・Lun弓・…m・ApPlica・i・n・C・n・id・・a亘・n・i・・h・九州工業大学研究報告（工学）， N・．66， PP．45−52（M・・．

System Deslgn of Highly Concurrent Multlprocessors・ 1994）

IEEE trans・on Computer・VoL C−36・No・11・PP1292− 〈10）岩根他：細粒度並列計算機MSBMの開発，九州工業

（3）C°麗⌒zyBarrle，、AM。，h。ni，mf。，High（11）三学響欝言，喩iぽ・，IP罐8㍑125）PAX

電気工学科岩根雅彦 電気工学科茶屋道宏貴

マルチマイクロプロセッサMDBM／FMMの開発

（平成7年11月30日 原稿受付）

電気工学科岩根雅彦

電気工学科茶屋道宏貴

電気工学科立川尚久

Development of Multi−microprocessor System MDBM／FMM

by Masahiko Iwane Hirotaka Chayamichi Akira Motoishi Naohisa Tatsukawa Naohiko Urasaki

Abstract

In a general purpose multi−processor system， decreasing the overhead of interprocessor com．

munication and synchronization is important for running fine to coarse grain size parallel pro9「ams・

The dynamic barrier synchronization mechanism with a small amount of hardware to reduce the synchronization overhead for fine grain programs and the reconfigurable shared memory sys−

tem with the mesh network for all grain size programs are shown． The dynamic barriCr synchro．

nization mechanism specifies dynamically in execution of programs the barrier group in which the processing units（PUs）synchronize each other． The reconfigurable shared memory system gives

・MDBM／FMM has been developed including the synchronization mechanism and the recon．

figurable memory system as a test bed． It consists of 180486 based personal computer as a HOST／10P，328088十8087 based PUs and the interface unit between HOST／10P and the PUs．

Most of the interface unit and most of the PU except MPU are implemented using FPGA to change the design easily． 9FPGAs are used for the interface unit and 96 FPGAs for 32 PUs．

MDBM／FMM is under evaluation using benchmarks．

期をとるプロセッサ組（バリアグループ）の指定方法とし

1・はじめ こ て，タグによる指定・），キューを用いたSBM（St。ti，

細粒度並列処理を実行するマルチプロセッサではプロ Barrier MIMD）6・7）， CAM（Content Addressable セッサ間の同期と通信によるオーバーヘッド1）を極力削 Memory）を用いたDBM（Dynamic Barrier MIMD）8），

ア同期の機能拡張としてのFuzzy Barrier3）， Elastic 並列計算機におけるメモリ構成は共有メモリ構成と分

Barrier4）， Ultimate Barrier同期機構5），またバリア同 散メモ，リ構成に分けられる。共有メモリ構成による密結

合マルチプロセッサではどのプロセッサからも共有メモ 更命令方式が考えられる。

よる相互結合網ではプロセッサ数が多くなるに従って競 のみが選択されるのでダミーバリア同期は不要である。

細粒度並列処理におけるバリア同期と細粒度／中粒度／ バリアグループの変更が必要となるたびに変更命令を発 粗粒度並列処理におけるプロセッサ間通信の検証のため 行してソフトウェアでバリアグループを管理する。

グループの指定を行う。またプロセッサ間通信機構とし 21．2．スケジューリングとバリア同期管理

グラムに一つまたは複数のバリアグループをMCAMに は動的なスケジューリングが行われるのでハイブリッド

プログラムの実行前に登録しておきプログラム終了後に スケジューリング12）と呼ぶ。ハイブリッドスケジュー

除去する。この方法ではプロセッサの有効利用および不 リングではバリアグループの設定を動的スケジューリン

必要なダミーバリア同期に関して問題がある。そこで動 グに埋め込むことによってバリアグループの設定時間に

的なバリア同期管理を考える。 よるオーバーヘッドを削減する。変更命令方式によるバ

バリア同期をとるプロセッサすなわちバリアグループ リアグループの設定でもスレッドセットの実行時間があ

を動的に指定する方法にはタグ方式，予約方式および変 る程度長ければ細粒度並列処理も可能である。図1にハ

プロセッサ

0 1 2 3 4 5

PU PU PU PU PU

1 −一一一一

： 図2 再構成可能共有メモリ

LM LM LM LM

儀ぽ斑

@A

GSM

@A GSM

@B GSM

@B

LM

GSM

@血

ロセッサで任意の大きさの共通のメモリ空間がとれる再 図1動的バリア管理 構成可能共有メモリRSM（Reconfigurable Shared Mem−

ドセット，斜線での塗りつぶしはバリアグループ変更命 モリSSM（System Shared Memory）と呼ぶ。図2に 令，網かけ線は設定されたバリアグループ，×印はバリ RSMを示す。プロセッサのメモリ空間は境界レジスタ

共有メモリのアクセス競合を低減させるために各プロ 中粒度，粗粒度並列処理ではプロセッサグループ内プ セッサが1つのメモリを共有する集中型共有メモリでは ロセッサ間で大量のデータの転送が必要なことがある。

汎用マルチプロセッサシステムでは細粒度，中粒度，粗

粒度並列処理を効率よく行う必要があるので，共有メモ 3・MDBM／FMMシステム構成

リ構成から局所メモリ構成まで段階的にメモリ構成を選 3．1．システム概要

択できる再構成可能メモリが望ましい。そこで共有メモ 図3に示すようにMDBM／FMMはホストコンピュー

リを個々のプロセッサに分散させて，プロセッサグルー タHC（Host Computer），新統合インタフェースNIIU

プごとに任意の大きさの共通のメモリ空間，すべてのプ （New Integrated Interface Unit）および32−64台のプロ

トのスケジュールがされたときにWMCAM命令により 終了したスレッドセットのバリアグループをMCAMか ら削除してあらたなバリアグループをMCAMに登録す る。

ADBAR命令とBAR命令のペアでファジーバリアを実 現する。

3．2．2．動的バリア同期機構

動的バリア同期機構を図4に示す。それはNIIUに存 在し，システム内PU台数に等しいビット長をもった 図3 MDBM／FMMシステム構成 BRR（Barrier Request Register）およびMCAMで構成さ れる。PUがWMCAM命令を実行したときINTバスを

セッサPU（Processing Unit）で構成され， HC−NIIU間 通ってアドレスとバリアグループが動的バリア同期機構 は16ビットデータ幅のHCバス， MIU−PU間は8ビッ に送られMCAMに書き込まれる。 PUがADBAR，

HCは80486DX−MPU，8MBメモリ，各種入出力装 すなわち，

置およびNIIUインタフェースから構成され，単に周辺 if MCAMij⊆BRRj then Bgrt：＝MCAMij（j＝0，

機器制御のための1／0プロセッサ10Pとして使用でき 一一，n−1）

のインタフェースであり，マルチキャスト機能による Mij＞BRRjである。

データ転送，PUからHCへの割り込みの仲介および PUからのバリア同期処理を行う。 PUは8088MPU＋

8087NDP，256KBメモリ， NIIUインタフェース，

RSMインタフェースで構成され，スレッドセットの実 行だけでなく，プロセスおよびスレッドセットスケ ジューリング，PU管理，バリアグループ管理などを行 うことができる。

3．2．MCAMによる動的バリア同期機構

スレッドセットの実行が終了してあらたなスレッドセッ 図4 動的バリア同期機構

MCAMから読み出されたバリアグループはBgrt信 Port．BからDPMに書き込む。 SSMへの書き込みの場 号としてPUに同期の成立を伝える。同時にそのバリァ 合もグループ番号を放送しないことを除いてGSMと同

グループが包含されているBRR（探索データ）の該当 じである。なおGSMおよびSSMの相互排除のために ビットをリセットする。 lock／unlock機能を用意している。

このようにMCAMによる動的バリア同期機構では 4．新統合インタフエースユニットNllU MCAMにバリアグループをPUから登録できる。また

複数のバリアグループの同期成立を同時に検出できる。 4・1・NllU構成

3．3．再構成可能共有メモリ NIIUは図6に示すようにHCとPU間のデータ通信 各PUのメモリは図5に示すように128KBのRAM， を行うデータ転送ユニットDTU（Data Transfer Unit）・

プ番号を比較し一致すればRSMバス上のデータを ア同期機構およびINTUの動作は独自のシーケンサに

HC BUS MPU MPU ・…・・ MPU

PU BUS PU BUS PU BUS

電気工学科岩根雅彦電気工学科茶屋道宏貴

（平成7年11月30日原稿受付）

1・はじめこて，タグによる指定・），キューを用いたSBM（St。ti，

Barrier4）， Ultimate Barrier同期機構5），またバリア同散メモ，リ構成に分けられる。共有メモリ構成による密結

合マルチプロセッサではどのプロセッサからも共有メモ更命令方式が考えられる。

よる相互結合網ではプロセッサ数が多くなるに従って競のみが選択されるのでダミーバリア同期は不要である。

細粒度並列処理におけるバリア同期と細粒度／中粒度／バリアグループの変更が必要となるたびに変更命令を発粗粒度並列処理におけるプロセッサ間通信の検証のため行してソフトウェアでバリアグループを管理する。

グラムに一つまたは複数のバリアグループをMCAMには動的なスケジューリングが行われるのでハイブリッド

プログラムの実行前に登録しておきプログラム終了後にスケジューリング12）と呼ぶ。ハイブリッドスケジュー

除去する。この方法ではプロセッサの有効利用および不リングではバリアグループの設定を動的スケジューリン

必要なダミーバリア同期に関して問題がある。そこで動グに埋め込むことによってバリアグループの設定時間に

的なバリア同期管理を考える。よるオーバーヘッドを削減する。変更命令方式によるバ

バリア同期をとるプロセッサすなわちバリアグループリアグループの設定でもスレッドセットの実行時間があ

を動的に指定する方法にはタグ方式，予約方式および変る程度長ければ細粒度並列処理も可能である。図1にハ

：図2 再構成可能共有メモリ

ロセッサで任意の大きさの共通のメモリ空間がとれる再図1動的バリア管理構成可能共有メモリRSM（Reconfigurable Shared Mem−

ドセット，斜線での塗りつぶしはバリアグループ変更命モリSSM（System Shared Memory）と呼ぶ。図2に令，網かけ線は設定されたバリアグループ，×印はバリ RSMを示す。プロセッサのメモリ空間は境界レジスタ

共有メモリのアクセス競合を低減させるために各プロ中粒度，粗粒度並列処理ではプロセッサグループ内プセッサが1つのメモリを共有する集中型共有メモリではロセッサ間で大量のデータの転送が必要なことがある。

択できる再構成可能メモリが望ましい。そこで共有メモ図3に示すようにMDBM／FMMはホストコンピュー

リを個々のプロセッサに分散させて，プロセッサグルータHC（Host Computer），新統合インタフェースNIIU

プごとに任意の大きさの共通のメモリ空間，すべてのプ（New Integrated Interface Unit）および32−64台のプロ

トのスケジュールがされたときにWMCAM命令により終了したスレッドセットのバリアグループをMCAMから削除してあらたなバリアグループをMCAMに登録する。

ADBAR命令とBAR命令のペアでファジーバリアを実現する。

動的バリア同期機構を図4に示す。それはNIIUに存在し，システム内PU台数に等しいビット長をもった図3 MDBM／FMMシステム構成 BRR（Barrier Request Register）およびMCAMで構成される。PUがWMCAM命令を実行したときINTバスを

セッサPU（Processing Unit）で構成され， HC−NIIU間通ってアドレスとバリアグループが動的バリア同期機構は16ビットデータ幅のHCバス， MIU−PU間は8ビッに送られMCAMに書き込まれる。 PUがADBAR，

HCは80486DX−MPU，8MBメモリ，各種入出力装すなわち，

機器制御のための1／0プロセッサ10Pとして使用でき一一，n−1）

RSMインタフェースで構成され，スレッドセットの実行だけでなく，プロセスおよびスレッドセットスケジューリング，PU管理，バリアグループ管理などを行うことができる。

スレッドセットの実行が終了してあらたなスレッドセッ図4 動的バリア同期機構

MCAMから読み出されたバリアグループはBgrt信 Port．BからDPMに書き込む。 SSMへの書き込みの場号としてPUに同期の成立を伝える。同時にそのバリァ合もグループ番号を放送しないことを除いてGSMと同

グループが包含されているBRR（探索データ）の該当じである。なおGSMおよびSSMの相互排除のためにビットをリセットする。 lock／unlock機能を用意している。

3．3．再構成可能共有メモリ NIIUは図6に示すようにHCとPU間のデータ通信各PUのメモリは図5に示すように128KBのRAM，を行うデータ転送ユニットDTU（Data Transfer Unit）・

プ番号を比較し一致すればRSMバス上のデータをア同期機構およびINTUの動作は独自のシーケンサに

図5 RSM構成図6 NllU構成

いるフラグや，PUに関するフラグを集めて1つのレジ図7 PU．INTU間デ＿タフォ＿マットスタのようにまとめたものである。 HCはこの内容を読み込むことによってNIIUおよびPUの状態を知ることができる。

よびデータをHCバスとDTバスを使用してDMA転送 PUは割り当てられたスレッドセットの逐次命令列をする。また隣接したPUのメモリ間でデータをILLIAC 各々独立に実行するユニットである。図8に示すように

Breq／Bg・t PU内レジスタにはPUの固有の値で識別するための PU番号レジスタPUNO，プロッセサグループごとに固有の値をもって識別するグループ番号レジスタGPNO，

令を実行したPU以外のすべてのPUの動作を中断させ，動的バリア同期機構と再構成可能共有メモリをもった SUNLOCK命令の実行によって他のPUの実行を再開マルチマイクロプロセッサMDBM／FMMのハードウェ

をセットする。BAR命令ではADフラグとGRフラグ開発途中の設計変更に迅速に対応できたのはFPGAをがリセットしていればBreq信号をMCAMUに送りPU