• 検索結果がありません。

電気工学科岩根雅彦 電気工学科茶屋道宏貴

N/A
N/A
Protected

Academic year: 2021

シェア "電気工学科岩根雅彦 電気工学科茶屋道宏貴"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

マルチマイクロプロセッサMDBM/FMMの開発

(平成7年11月30日 原稿受付)

電気工学科岩根雅彦

電気工学科茶屋道宏貴

電気工学科立川尚久

Development of Multi−microprocessor System MDBM/FMM

by Masahiko Iwane    Hirotaka Chayamichi    Akira Motoishi    Naohisa Tatsukawa    Naohiko Urasaki

Abstract

   In a general purpose multi−processor system, decreasing the overhead of interprocessor com.

munication and synchronization is important for running fine to coarse grain size parallel pro9「ams・

   The dynamic barrier synchronization mechanism with a small amount of hardware to reduce the synchronization overhead for fine grain programs and the reconfigurable shared memory sys−

tem with the mesh network for all grain size programs are shown. The dynamic barriCr synchro.

nization mechanism specifies dynamically in execution of programs the barrier group in which the processing units(PUs)synchronize each other. The reconfigurable shared memory system gives

。n。p。,t・fm・m・・yinth・・y・t・m・・a・h・・edm・m・・yt・・n・p・・all・l p・・9・am・nd・n・th・・p・・t・f memory as the private memory with the mesh network to another parallel program at the same time, or all of memory as a shared memory to the system.

   ・MDBM/FMM has been developed including the synchronization mechanism and the recon.

figurable memory system as a test bed. It consists of 180486 based personal computer as a HOST/10P,328088十8087 based PUs and the interface unit between HOST/10P and the PUs.

Most of the interface unit and most of the PU except MPU are implemented using FPGA to change the design easily. 9FPGAs are used for the interface unit and 96 FPGAs for 32 PUs.

MDBM/FMM is under evaluation using benchmarks.

       期をとるプロセッサ組(バリアグループ)の指定方法とし

1・はじめ こ       て,タグによる指定・),キューを用いたSBM(St。ti,

 細粒度並列処理を実行するマルチプロセッサではプロ   Barrier MIMD)6・7), CAM(Content Addressable セッサ間の同期と通信によるオーバーヘッド1)を極力削   Memory)を用いたDBM(Dynamic Barrier MIMD)8),

減する必要がある。      MCAM(Modified Content Addressable Memory)9)によ  プロセッサ間同期の方法の一つにハードウェァによる   るMSBM (Multiple Static Barrier management バリア同期機構2)が提案されている。ハードウェアバリ   MIMD)10)がある。

ア同期の機能拡張としてのFuzzy Barrier3), Elastic   並列計算機におけるメモリ構成は共有メモリ構成と分

Barrier4), Ultimate Barrier同期機構5),またバリア同  散メモ,リ構成に分けられる。共有メモリ構成による密結

(2)

合マルチプロセッサではどのプロセッサからも共有メモ   更命令方式が考えられる。

リに直接アクセスできるので細粒度並列処理にも使用さ    タグ方式はハードウェアによるプロセッサのバリア同 れている。しかしこのような構成では共有メモリとプロ   期命令に同期を識別する情報を付加する。ソフトウェア セッサを接続する相互結合網やメモリモジュールで競合   によるバリア同期をそのままハードウェア化しているの が起こり性能が低下することがある。とくにバス結合に   でハードウェア量は多くなる。しかし必要なプロセッサ

よる相互結合網ではプロセッサ数が多くなるに従って競   のみが選択されるのでダミーバリア同期は不要である。

合が著しく増加する。プロセッサが十数台以上になると    予約方式の一つはバリアグループをあらかじめまとめ キャッシュメモリによりバス競合を削減させている1)。   てバリアキューに登録しておき同期が成立することに自 局所メモリだけをもつ疎結合マルチプロセッサではこの   動的にバリアキューを更新する。SBMはバリア同期間 ような競合は発生しない。疎結合マルチプロセッサにお   に完全順序関係を導入しバリアキューによって単一のバ けるプロセッサ間通信は入出力操作と同様に行われる。   リアグループのバリア同期を可能にしている。DBMは 直接通信路のないプロセッサ間ではオーバヘッドが生じ   バリア同期間に半順序関係を導入しバリアキューと

るが,隣接したプロセッサへ一度に多量の通信を行える   CAMによって複数のバリアグループのバリア同期成立 ので中粒度/粗粒度の並列性をもつプログラムに対して   を可能としている。変更命令方式はプロセッサにバリア は格子結合網が有効であるL11)。      同期命令だけでなくバリアグループ変更命令をもたせ,

 細粒度並列処理におけるバリア同期と細粒度/中粒度/   バリアグループの変更が必要となるたびに変更命令を発 粗粒度並列処理におけるプロセッサ間通信の検証のため   行してソフトウェアでバリアグループを管理する。

にマルチマイクロプロセッサMDBM(Multiple Dynamic    動的なバリアグループ設定のハードウェア量はタグ方 Barrier management MIMD)/FMM(Flexible Mesh一   式,予約方式,変更命令方式の順に少なくなる。逆に設 network Multiprocessors)をテストベッドとして開発し   定時間は変更命令方式,予約方式,タグ方式の順で短く た。MDBM/FMMでは並列プログラムの実行時に   なる。そこでバリァグループ設定のハードウェア量をで MCAMの内容を動的に書き換えることによってバリア   きる限り少なくしかつ設定時間を短縮する方法を考える。

グループの指定を行う。またプロセッサ間通信機構とし    21.2.スケジューリングとバリア同期管理

て,局所メモリつきの共有メモリ,分散メモリおよびこ    並列処理される1つの応用プログラムは,主プログラ れらの中間的な部分分散共有メモリとなる再構成可能な   ムと複数のサブプログラムから構成され,これらをプロ メモリおよび隣接プロセッサ間通信のためのILLIAC   セジャと呼ぶ。オペレーティングシステムOSによりス 網によるDMA転送機構をもつ。大学の一研究室による   ケジューリングされて実行される1つの応用プログラム MDBM/FMMの開発では設計変更が多いのでFPGA   をプロセスと呼び,1つのプロセスに割り当てられたプ

(Field Programmable Gate Array)を積極的に使用した。   ロセッサの集合をプロセッサグループと呼ぶ。プロセ  本論文では,2章で細粒度並列処理におけるバリア同   ジャごとにコードスケジューリングを行って各々のコー 期とプロセッサ間通信について述べる。3章でMDBM/   ドを論理プロセッサに割り当ててバリアグループ変更命 FMMのシステム構成,4,5章でハードウェアの詳細   令およびバリア同期命令を挿入する。このとき必要なら

について述べる。       ばダミーバリア同期命令も挿入する。プロセジャ間でリ  2.基本設計       ンクをとってプロセジャスケジューリングを行ってプロ       セスを生成する。プロセスでは異なったバリアグループ  2.1.動的バリア同期管理       単位(スレッドセット)で論理プロセッサを物理プロセッ  2.1.1.バリアグループ指定      サに実行時に割り当てられる。すなわちバリアグループ  静的なバリア同期管理であるMSBMでは一つのプロ   内は静的なスケジューリングが行われバリアグループ間

グラムに一つまたは複数のバリアグループをMCAMに   は動的なスケジューリングが行われるのでハイブリッド

プログラムの実行前に登録しておきプログラム終了後に   スケジューリング12)と呼ぶ。ハイブリッドスケジュー

除去する。この方法ではプロセッサの有効利用および不   リングではバリアグループの設定を動的スケジューリン

必要なダミーバリア同期に関して問題がある。そこで動   グに埋め込むことによってバリアグループの設定時間に

的なバリア同期管理を考える。      よるオーバーヘッドを削減する。変更命令方式によるバ

 バリア同期をとるプロセッサすなわちバリアグループ   リアグループの設定でもスレッドセットの実行時間があ

を動的に指定する方法にはタグ方式,予約方式および変   る程度長ければ細粒度並列処理も可能である。図1にハ

(3)

プロセッサ

 0   1   2   3   4   5

PU    PU    PU    PU      PU

1       −一一一一

:      図2 再構成可能共有メモリ

.」

LM LM LM LM

儀ぽ斑

@A

GSM

@A GSM

@B GSM

@B

LM

GSM

@血

       ロセッサで任意の大きさの共通のメモリ空間がとれる再        図1動的バリア管理       構成可能共有メモリRSM(Reconfigurable Shared Mem−

      ory)を考える。プロセッサグループ(以後グループ)内の イブリッドスケジューリングにおける動的バリア同期管   すべてのプロセッサで共通なメモリ空間をグループ共有 理を示す。図1の破線で囲んだ部分がプロセス,実線で   メモリGSM(Group Shared Memory),システム内のす 囲んだ部分が動的スケジューリング単位すなわちスレッ   ベてのプロセッサで共通なメモリ空間をシステム共有メ

ドセット,斜線での塗りつぶしはバリアグループ変更命   モリSSM(System Shared Memory)と呼ぶ。図2に 令,網かけ線は設定されたバリアグループ,×印はバリ   RSMを示す。プロセッサのメモリ空間は境界レジスタ

ア同期命令またはダミーバリア同期命令を示す。またプ   によって局所メモリLM(Local Memory)とGSMと ロセス毎に並列度は異なることから,使用していないプ   SSMに任意に分割できる。各プロセッサごとに境界レ ロセッサを別のプロセスに割り当て多重実行し,システ   ジスタを設定するのでグループごとに任意の大きさの ムを多重プログラミング環境,つまりMDBM(Multiple  GSMをもつことができ, SSMの境界レジスタはすべて Dynamic Barrier management MIMD)とすることでシ   のプロセッサで同一値に設定される。システム内のすベ ステム全体のスループット向上をはかる。        てのプロセッサを同じグループに設定すればこのシステ  2.2.プロセッサ間通信       ムのメモリ構成は共有メモリ構成となる。GSMではグ  マルチプロセッサシステムのメモリは各プロセッサか   ループごとに,SSMではすべてのプロセッサに対して

らのアクセスに競合が生じない構成が望ましい。このよ   内容を一致させるので,一つのプロセッサのGSMまた うな競合は実行するプログラムに依存する。細粒度並列   はSSMに書き込みが発生すると同一のグループのほか 処理では頻繁におこるプロセッサ間通信によるオーバー  のプロセッサのGSMまたはすべてのプロセッサの ヘッドを削減するために共有メモリが用いられている。   SSMを更新する。

共有メモリのアクセス競合を低減させるために各プロ    中粒度,粗粒度並列処理ではプロセッサグループ内プ セッサが1つのメモリを共有する集中型共有メモリでは   ロセッサ間で大量のデータの転送が必要なことがある。

なく,個々のプロセッサに分散して共有メモリを持たせ   このような場合は共有メモリによるプロセッサ間通信で る分散型共有メモリが有効である。中粒度,粗粒度並列   はオーバーヘッドが大きい。そこでプロセッサグループ 処理ではプロセッサ間通信はそれほど頻繁におこらない   内隣接プロセッサ間の大量のデータ転送のために ので局所メモリのみで共有メモリをもたない構成も多い。  ILLIAC網によるDMA転送機構を用意する。

汎用マルチプロセッサシステムでは細粒度,中粒度,粗

粒度並列処理を効率よく行う必要があるので,共有メモ   3・MDBM/FMMシステム構成

リ構成から局所メモリ構成まで段階的にメモリ構成を選   3.1.システム概要

択できる再構成可能メモリが望ましい。そこで共有メモ   図3に示すようにMDBM/FMMはホストコンピュー

リを個々のプロセッサに分散させて,プロセッサグルー   タHC(Host Computer),新統合インタフェースNIIU

プごとに任意の大きさの共通のメモリ空間,すべてのプ   (New Integrated Interface Unit)および32−64台のプロ

(4)

      トのスケジュールがされたときにWMCAM命令により       終了したスレッドセットのバリアグループをMCAMか       ら削除してあらたなバリアグループをMCAMに登録す       る。

       通常のバリア同期のほかに広がりのある領域内での同       期を許すファジーバリア(Fuzzy Barrier)同期を導入す       る。これらの同期を実現するためにADBAR(Advanced       Barrier)命令, BAR(Barrier)命令をPU出力命令として       用意する。BAR命令単独で通常のバリア同期,

      ADBAR命令とBAR命令のペアでファジーバリアを実       現する。

       3.2.2.動的バリア同期機構

       動的バリア同期機構を図4に示す。それはNIIUに存       在し,システム内PU台数に等しいビット長をもった       図3 MDBM/FMMシステム構成         BRR(Barrier Request Register)およびMCAMで構成さ       れる。PUがWMCAM命令を実行したときINTバスを

セッサPU(Processing Unit)で構成され, HC−NIIU間   通ってアドレスとバリアグループが動的バリア同期機構 は16ビットデータ幅のHCバス, MIU−PU間は8ビッ   に送られMCAMに書き込まれる。 PUがADBAR,

トデータ幅のDTバスと16ビットデータ幅のINTバス,  BAR命令を実行するとPUはBreq信号を動的バリア同 PU間は8ビットデータ幅のRSMバスおよびILLIAC   期機構に送ると共にその実行を中断する。動的バリア同 網で結合される。またNIIUと各々のPUから1本づっ   期機構ではPUから送付されたBreq信号はBRRの当該 のバリア信号が結合され,バリア同期要求/バリア同期   ビットをセットする。BRRをMCAMの探索データと 成立をあたえる。       して用いて包含関係が成立すればMCAMを読み出す。

 HCは80486DX−MPU,8MBメモリ,各種入出力装   すなわち,

置およびNIIUインタフェースから構成され,単に周辺    if MCAMij⊆BRRj then Bgrt:=MCAMij(j=0,

機器制御のための1/0プロセッサ10Pとして使用でき   一一,n−1)

る。またプロセススケジューリング,pu管理,入出力    但し, iはMCAM内のi番目のバリアグループ, jは 管理,ユーザインタフェースおよびバリアグループ管理   バリァグループiのjビット目,nはシステムのPU総 などを行うことも可能である。NIIUはHCとPUの間   数を表す。また包含関係はMCAMij⊆BRRj≡rMCA.

のインタフェースであり,マルチキャスト機能による   Mij>BRRjである。

データ転送,PUからHCへの割り込みの仲介および PUからのバリア同期処理を行う。 PUは8088MPU+

8087NDP,256KBメモリ, NIIUインタフェース,

RSMインタフェースで構成され,スレッドセットの実 行だけでなく,プロセスおよびスレッドセットスケ ジューリング,PU管理,バリアグループ管理などを行 うことができる。

 3.2.MCAMによる動的バリア同期機構

 3.2.1.バリアグループの設定とバリア同期の拡張  バリアグループの設定をPUから動的に行えるように するためにその出力命令としてWMCAM(Write MCAM)命令を用意する。 PUはスレッドセットをスケ ジュールするときにバリアグループをWMCAM命令に よって動的バリア同期機構にあるMCAMに登録する。

スレッドセットの実行が終了してあらたなスレッドセッ      図4 動的バリア同期機構

(5)

 MCAMから読み出されたバリアグループはBgrt信   Port.BからDPMに書き込む。 SSMへの書き込みの場 号としてPUに同期の成立を伝える。同時にそのバリァ   合もグループ番号を放送しないことを除いてGSMと同

グループが包含されているBRR(探索データ)の該当   じである。なおGSMおよびSSMの相互排除のために ビットをリセットする。      lock/unlock機能を用意している。

 このようにMCAMによる動的バリア同期機構では    4.新統合インタフエースユニットNllU MCAMにバリアグループをPUから登録できる。また

複数のバリアグループの同期成立を同時に検出できる。    4・1・NllU構成

 3.3.再構成可能共有メモリ       NIIUは図6に示すようにHCとPU間のデータ通信  各PUのメモリは図5に示すように128KBのRAM,   を行うデータ転送ユニットDTU(Data Transfer Unit)・

96KBの2ポートメモリDPMおよび32KBのROMに   PUからHCへの割り込み処理を行う割り込み処理ユ 基本的に分けられる。RAMはLM, DPMはLM, GSM   ニットINTU(Interrupt Unit)および動的バリア同期機 およびSSMに使用される。 LMには局所プログラム   構であるバリア同期処理ユニットMCAMU(MCAM コードや局所データ,GSMまたはSSMにはグループ   Unit)から構成されている。 DTUはDTバス・INTUは 内PU間またはすべてのPU間で共有するプログラム   INTバスによってPUと接続されており・バリア同期の コードやデータ,ROMには基本的なソフトウェアが格   ためのPU個々からのBreq/Bgrt信号はMCAMUに接 納される。メモリはLM, GSMおよびSSMの区別なく  続されている。 DTUはDMA転送のためのDMAC PU毎に0番地から連続してアドレスづけがなされてい   (DMA Controller), PUのメモリアドレスを示すアド るがSSMおよび同一プロセッサグループ内PUの   レスカウンタADRCNTR,転送方向を示す方向レジス GSMの同一アドレスには同一データが格納される。   タHPNEWSおよびNIIUの状態を示す状態レジスタ MPUはPUバスを介してPUのメモリのすべてのアド  STATUSをもっている。 MCAMUはMCAM・BRR

レス空間にアクセスできるように,PUバスにはRAM,   のほかにPUまたはHCからMCAMにバリアグループ DPMの一つのポートPort.AおよびROMが接続され   の登録のためのMCAMアドレスレジスタMCAMADR ている。DPMのもう一つのポートPort.BはRSMバス   とMCAMデータレジスタMCAMDTをもっている・

インタフェースRSMifに接続されている。 MPUからメ   PUは2×16ビットのPUNOを含んだパラメータの送付 モリの全アドレス空間に読み出しおよび書き込み可能で   を伴ってINTUにMCAMへのバリアグループの設定 あるが,書き込み時にはRSMifの境界レジスタBASE  およびHCへの割り込を要求するが・INTUはこのパラ

(GS:グループ/SS:システム)と比較しGSMへの書   メータを格納するためにバッファBUFFERをもってい き込みならばRSMバスにグループ番号,アドレス,   る。図7にPUから送付されるデータのフォーマットを データが放送される。受け取り側のPUではRSMifで   示す。なおPUからの要求の優先順位はデイジーチェー RSMバス上のグループ番号とPUがもっているグルー   ン接続によって決められている。 MCAMUの動的バリ

プ番号を比較し一致すればRSMバス上のデータを   ア同期機構およびINTUの動作は独自のシーケンサに

HC BUS MPU      MPU   ・…・・ MPU

 PU BUS     PU BUS      PU BUS

Port_B

NIIu

   

ADRCNTR HPNEWS STATUS

INTU

BUFFER

MCAMU MCAMADR MCAMDT

Breq!Bgrt

INT BUS

図5 RSM構成      図6 NllU構成

(6)

      る。このPUの選択のためにHCの出力命令にSELPU

313°292423 @ 1615   ° 鈴をもうけた.SELPU命令によりPU内のPU選択

      フラグの設定が行われる。

       PU−PU間DMA転送ではDMACのメモリーメモリ       McAM Address      間転送機能を使用する。 HPNEWSにより転送方向N       P・siti・n        (上), E(右), W(左), S(下)を与える。このNEWS転       送ではプロセッサグループ内のすべてのPU間で指定方  oo PUからHCへの割り込み処理      向に同時にデータ転送される・

       ステータスレジスタSTATUSはNIIU内に散在して  10 バリアパターンの登鍋削除の割り込み処理

      いるフラグや,PUに関するフラグを集めて1つのレジ     図7 PU.INTU間デ_タフォ_マット        スタのようにまとめたものである。 HCはこの内容を読       み込むことによってNIIUおよびPUの状態を知ること       ができる。

よって常にその動作を繰り返している。

42データ転送エットDTu    5・プ゜セッサPU

 DTUはHCメモリとPUメモリの間でプログラムお   5.1. PU構成

よびデータをHCバスとDTバスを使用してDMA転送    PUは割り当てられたスレッドセットの逐次命令列を する。また隣接したPUのメモリ間でデータをILLIAC   各々独立に実行するユニットである。図8に示すように

(NEws)網を使用してDMA転送する。 Hc−Pu間   PuはMPu, MEMoRY, RsMif, NEwsif, NIIuイ DMA転送においてHcのメモリリフレッシュを簡素化   ンタフェースであるDTuif, INTuif,BARifおよび複 するために,HCメモリはメモリとして, PUメモリは   数のレジスタで構成されている。 PUの出力命令に動的 1/0として取り扱う。このためにDMACのアドレスレ  バリア同期関連命令のほかにHCに入出力処理などを依 ジスタによってHCメモリのアドレスは与えられるが,   頼するためのSVCC命令, RSMの相互排除のための PUメモリのアドレスはADRCNTRで与える・また   SLOCK命令, GLOCK命令, SUNLOCK命令, GUN.

HPNEWSによってHCからPUまたはPUからHCへ   LOCK命令をもうけている。 SVCC命令およびWCAM の転送方向を与える。PUからHCへの転送は1対1で   命令はINTuifのバッファに格納されているデータを図 行なわれるがHCからPUへの転送は1対mのマルチ  7の形式でNIIUに送出する。 MPUとこれらのインタ キャスト機能がPUヘプログラムコードのローディング   フェースはPUバスで相互に接続されている。 NIIUと やデータの集配,マンマシンインタフェースに必要であ   DTUIfとはDTバスで, INTUifとはINTバスで,

      BARifとはBreq/Bgrt信号線で接続され,各PUの        DT Bus    RsMifはRsMバスで, NEwsifはILLIAc網で接続さ        INT BUS    れている。

      Breq/Bg・t       PU内レジスタにはPUの固有の値で識別するための       PU番号レジスタPUNO,プロッセサグループごとに固       有の値をもって識別するグループ番号レジスタGPNO,

      MEMORYのLMとGSMとSSMの境界を示す境界レ       ジスタBASE(GS/SS)およびHCとPU間での小規模の       通信のための通信レジスタPUCOMMがある。 PUNO       はスイッチで設定されているが,GPNO, BASE       (GS/SS), PUCOMMはHCとPUの両方から設定可        能である。とくにGPNOはRSMバスおよびDTバス       でのマルチキャスト転送またはILLIAC網による        NEWS転送に, PUNOはプロセッサグループの形成や        DTバスでのマルチキャスト転送およびHCへの割り込       図8 PU構成       み識別に用いられる。 PUCOMMはPUがHCにSVCC

Parameter PUNO

Barrier Pattern

MCAM Address oosition vrite Bit

DT BUS INT BUS Breq/Bgrt

PU

DTUif INTUif BARif

PU BUS

PUNO

GPNO NEWSif RSMif MEMORY PUCOMM

BASE(GS/SS)

RSM BUS N

E

W S NEWSNetwork

(7)

命令によって入出力処理を依頼したときにHCからPU   の実行を中断する。 ADフラグがセットしていればり へ1/0動作終了の確認などに使用される。       セットしてPUの実行を中断する。 GRフラグがセットし  5.2.各種インタフェースユニット      ていればリセットして処理を続行する。Bgrt信号を受  DTUifは, PU選択フラグがセットしているとき,   け取ったBARifはADフラグがセットしていればGR DTバス上にあるアドレス,データおよび,読み出し/  フラグのセットとADフラグをリセットする。 ADフラ 書き込みなどの制御信号を受け取ることによって   グがリセットしていればPUの処理を再開する。

Hc−Pu間転送を行う。 INTuifは, wMcAM命令,    以上で述べた機能を持ったマルチマイクロプロセッサ SVCC命令を実行したときデイジーチェーンによる優   MDBM/FMMを開発した。その概観を図10に示す。製 先順位に従ってINTUに要求信号とともにパラメータ   作にはキャパシタによる遅れが問題とならない回路には を送る。パラメータはMPUの出力命令によりあらかじ   FPGAを使用したところボード間のバス関係以外はす めINTuif内のバッファに書き込んでおく。       べてFPGAで実現できた。その結果NIIuではゲート  RSMifはRSMバスによってほかのPUのRSMifと   数3000−5000のFPGAを9個, PUは一台あたりFPGA 相互接続され,SSMおよび同一グループ内PUのGSM   が3個で構成できた。

の内容を一致させる処理のほかに相互排除のための

      6.むすび lock/unlock処理を行っている。 SLOCK命令はこの命

令を実行したPU以外のすべてのPUの動作を中断させ,   動的バリア同期機構と再構成可能共有メモリをもった SUNLOCK命令の実行によって他のPUの実行を再開   マルチマイクロプロセッサMDBM/FMMのハードウェ

させる。GLOCK命令はこの命令を実行したPUの属す   ア構成について述べた。 MDBM/FMMはこれらの機構 るグループ内の他のすべてのPUの動作を中断させ,   の有効性を検証するテストベッドとして,また細粒度か GUNLOCKはPUの実行を再開させる。 MPUがこれ   ら粗粒度までの並列アルゴリズムの開発およびその評価

らの命令を実行したときRSMifからRSMバスに制御   のための並列計算機として開発された。 MDBM/FMM 信号およびGPNOを送出する。受け取るPUのRSMf  はHCとしてのIBM−DOS/Vパーソナルコンピュータ では制御信号とGPNOを調べてlockまたはunlock動   と新統合インタフェースボード1枚,1枚に4PU搭載 作を行なう。図9にRSMバス制御信号を示す。 SSM,   のプロセッサボード8枚,合計9枚のワイヤラップボー GSMへの書き込みとlock,unlockとで共用するので   ドすなわち32台のPUで評価中である。細粒度並列計算 ハードウェアが削減される。なおRSMバスの調停にお   機MSBMの3枚のワイヤラップボードで構成される統 いてPUNOによって優先順位がきめられている。      合インタフェースユニットを再検討し動的バリア同期機  BARifはPUでのバリア同期処理を行う。 PUが   構などの諸機能を付加して1枚の新統合インタフェース ADBAR命令を実行したときBARifにあるADフラグ   ユニットとして再設計した。またPuもMsBMのPu

をセットしてBreq信号をMCAMUに送りPUの処理   に再構成可能共有メモリやILLIAC網などの諸機能を を続行する。このときバリア同期が成立しておれば   付加して再設計した。32PU構成のMDBM/FMMでは MCAMUはBgrt信号を送る。 BARifにあるGRフラグ   ゲート数3000−5000のFPGAを105個を使用している。

をセットする。BAR命令ではADフラグとGRフラグ   開発途中の設計変更に迅速に対応できたのはFPGAを がリセットしていればBreq信号をMCAMUに送りPU

S/G M/L L!u GPNO

00一 GPNOで指定したグループにマルチキャスト 0 10 GPNOで指定したグループをアンロック

011 GPNOで 定したグループをロック 10一 システム全体にブロードキャスト

110 システム全体をアンロック

1 1 1 システム全体をロック

図9 RSMバス制御信号構成       図10 MDBM/FMM概観

(8)

積極的に多用したことが大きい。MDBM/FMMはデ    pp.91−97(1991)

バッグを完了し各種ベンチマークにより評価中である。   (6)M・T・0 K?efe and H・G・Dietz:Hardware Barrier       Synchronizatlon:Static Barrier MIMD(SBM), 901nt.

今後この評価を完了して提案した機構の有効性を実証す     Conf.。n parallel pr。cessing, pp.15−142(1ggO).

る予定である。      (7)早川 他:SBM同期機構を用いたOne−PE同期方式,

      信学論D−1,Vol. J78−D−1,No.2, pp.73−81(1995)

      (8)M.T.0 Keefe and H.G.Dietz:Hardware Barrier Syn一       参考文献       ch・・nizad・n・Dynamic Barrie・MIMD(DBM), 901nt.

(1)富田,末吉:並列処理マシン,オーム社(1989).  (9)議雷=漂…溜㌫篇㌫)毛リの開発

(2)S・F・Lun弓・…m・ApPlica・i・n・C・n・id・・a亘・n・i・・h・  九州工業大学研究報告(工学), N・.66, PP.45−52(M・・.

  System Deslgn of Highly Concurrent Multlprocessors・     1994)

  IEEE trans・on Computer・VoL C−36・No・11・PP1292−   〈10)岩根他:細粒度並列計算機MSBMの開発,九州工業

(3)C°麗⌒zyBarrle,、AM。,h。ni,mf。,High(11)三学響欝言,喩iぽ・,IP罐8㍑125)PAX

参照

関連したドキュメント

この混雑距離をサンプル点の追加時,及び最適化手法として用いた Multi Objective Pariticle Swarm Optimization ( MOPSO )においてのパレート解の評価に用いた。. 3.2.1

GPUによる並列処理の方針  ベクトル和と同様に1スレッドが一つの天体を計算 i=blockIdx.x*blockDim.x+threadIdx.x; for(j=0;j<N;j++){ 加速度を積算 }

「化学Ⅱ」学習ガイド 前学期中間までの学習範囲 【第 1週】 授業の進め方・評価方法を確認し,物質の三態間の状態変化に伴うエネルギーの出入り,分子間力

さらに,各研究室のマイコンに加え,新たに設置され た,教育用情報処理ネットワークシステム(スーパーミ ※ 56..

複雑な構成の制御系では幾何学的に図示した方が取り 扱いやすいことを理解する D2:1,2 伝達関数の基本形を整理し,これら基本形の伝達関数 を持つ要素の過渡応答について理解する

トを想定している。32ビットのデータフィールドは整数  使用権を獲得できずにブロックされる。BSPはマザーボー

方向に電界を発生することが報告されている;Dところ   測定用試料は図一1に示すような手順で作成した。十