考察並列処理プログラミ

(1)

ングの

^一

考察並列処理プログラミ

1925-1995

中弘

田

の処理を完了するまでの経過時間を問題とするタ^ーンアラウンドタイム (turn-arround

time) の短縮化であり，他は，一定時間にコン

ピュ^ータが有効に動作する割合を問題とするスル^ープット (throughput)の向上である。前者はもっばらハ^ードウェアの性能向上の問題であり，後者はソフトウェアヘの比重が重<, OS (operating system) の大きな目的の1つでもある。タ^ーンアラウンドタイムの短縮化，

ル^ープットの向上とも，人間まで含めたデ^ータ処理システムの問題として広く考える必要があるが，ここでは狭義に考えており，システム設計に関わることは取り上げない。

デ^ータ処理の基本的パタ^ーンは，入力⇒処理

⇒出力の繰り返しであるが，人出力を行う周辺装置の速度がCPU (central processing unit) に比して遅いため，初期の直列処理のコンピュ^ータでは図l^{に示すように，} CPU ^は入出力が完了するまで「待ち」の状態となり， CPU に遊休時間が生じる。このような状態を少なくして処理効率を上げる対策として考えられたのが，処理が終了し出力が始まると同時に次のデ^ータを読み込むという，周辺装置の同時動作である（図2)。また，記憶装置から取り出した命令を解読して実行する execution cycle のス はじめに

最近，複数のプロセッサを並べて高速処理を実現しようという並列コンピュ^ータヘの期待が高まっている。

メモリ^ー内にプログラムを内蔵しておいて，

それを順番に取り出して実行する逐次制御方式のコンピュ^ータは，その開発の当初から，いわゆるノイマン型コンビュ^ータとして目覚ましい発達を遂げてきて現在に至っている。もっとも，この方式のコンビュ^ータをノイマン型と呼ぶことについては異論もある100 ENIAC ^が達成した加減算 0.2ms という速度は，当時としては画期的なもので，米国における全ての計算需要に対処できるとさえ思われたにもかかわらず，その完成と前後して今後の改良点として，

全体としての処理速度の向上の必要性が指摘されている¹²⁾。その後のコンピュ^ータ開発の主目標は高速化，小型化，大容量化であり，それに向かってハ^ードウェア，ソフトウェアの研究が続けられてきている。

2.

処理高速化の段階

1. � � �

● : im : ●

.... imDmJinnIDJ ....

一

I件目-1←―- 2件目-1-3件目＿

-389 (585)-

直列処理

間

図1

峙入力

処理出力

高速処理の要求に対する基本的な対応は，高速論理素子の開発であり，リレ^ー⇒真空管⇒卜ランジスタ⇔IC⇒ LSI^⇒VLSI の流れであり，

また，第1世代，第2^……第5世代として説明されている。このような流れの中においても，

別な角度から高速処理実現のための努力がなされてきている。

ここでいう処理高速化には2つの意味があり， 1つは，デ^ータ処理の要求があってからそ

(2)

42 2·3号 入力

I

圃鯛.層嗣11111111111111111111111•曹-羅；幸罪：

""H'i'i'I

処理

．

^皿｝

^• ^ロ

出力

_．

_l件目

--iIIImIIInIInID--� _．

←

―2件目一；

:—

^{-3件目一：}

: -4件目一―-:

時閏

図2 入出力装置の同時動作による処理

崎間

CPU

I ! l I! I I I

^! ^I ^{且は動作中}

;} . プA111/0:

i ^I

^1:。

^I ⁱ

^1/0'.

^II

^i'10

^I ^I

^1/a'.

^D

^は^CPU^専青中

,. プ'�^二豆^{）。は待ち崎間}

ジ•プe1ii1/oll;/oll;/olll 11011入出力動作中

図3 多重処理におけるCPUの動作

間に次の命令を取り出す fetch cycle を済ませておくという「先回り制御」も実現している。

一般的なデ^ータ処理（特に事務計算の分野において）では，入出力のデ^ータ量が多いのに対して CPU を必要とする計算· 処理が少ないため，周辺装置の同時動作をとりいれても CPU に遊休時間が生じがちであった。次に考えられた手段は．この遊休時間に別のジョプを処理させようということである。すなわち，同一時間帯に複数のプログラム（複数のジョプ）

を実行させようという多重処理の概念である

（図3)。これによるとコンビュ^ータは外見上，

同時に複数のジョプを実行しているように見える。実測においてもいまジョプA, B, C, それぞれの処理時間が20分， 30分, 40分であるとすると，単独処理では3つのジョプの処理に90 分かかるが，多重処理では50分程度になる。

TSS (time Sharing System) もこの概念の延長線上にあると考えられる。これらの実現の背景には．入出カチャネルをはじめ多くのハ^ードウェアの開発・進歩があることは論を待たな

し'o

3. 並列処理の発想

高速処理の実現には複数のプロセッサを結合して並列処理を行えばよい，というアイディアはコンビュ^ータの歴史のごく初期の頃からあったが13), 最近まで本格的に研究されてこなかった。その理由は主に次のように考えられる。

(1) その有効性は予想できるものの，逐次制御方式コンピュ^ータの急速な発達と使い易さに満足していた。プロセッサの速度はこの10年間に1,000^{倍も向上している。}

(2) 実験の結果必ずしも速くならなかった。並列処理はプロセッサ間の結合網といった資源通信を行う手間の代償として高速処理を実現しようとするものである。

(3) ソフトウェア開発が容易でない。逐次アルゴリズムは，たいていの逐次制御方式コンビュ^ータ上で動作するが，並列アルゴリズムはハ^ードウェアヘの依存性が高く，どのような並列コンビュ^ータにも適用できるような並列アルゴリズムを設計することは極めて難しい¹⁴⁾。

(4) 並列コンピュ^ータの利用分野は，莫大な計算量を必要とし逐次処理的要素の少ない自然科学分野と考えられていた。コンビュ^ータの利用分野で，科学技術用の比率は10%前後であるため，メ^ーカ^ーの開発意欲が小さかった。

最近になって並列コンピュ^ータ．特に超並列コンピュ^ータが注目されるようになってきた。

並列コンピュ^ータと超並列コンビュ^ータの明確な区別はない。プロセッサの数が100^個までを並列コンビュ^ータ．それ以上のものを超並列コンビュ^ータとするケ^ース¹⁵'. 1,000^{台規模のプロ} セッサを持つか．あるいは論理的に1,000台規模まで拡張可能であること¹⁶⁾ とするものなどがあるが，ビジネス分野での利用の場合．必ずしも超並列である必要はないと考えられる。

注目されるようになったきっかけは，米国のベンチャ^ー企業「シンキングマシンズ」が約6 -390 (586)-

(3)

万個のプロセッサをつないだコンビュ^ータを開発し， ^一定の成果を上げたことによる。逐次型と超並列型では，コンピュ^ータの構造や取り扱う問題も異なり，プログラムの性質も違うので単純な比較は難しいが，少なくとも処理しようとするジョプによっては超並列型が優れていることが証明された。一方背景として，今後の逐次型の発達について，限界が感じられることである。ス^ーパ^ーコンビュ^ータの速度も，微細加工技術と光速の壁のため， GIPS (Giga In

struction Per Second, giga ⁼10^{りが限界と} 考えられている171が，並列型なら現在の技術を基本として毎秒テラ(tera⁼l0¹²)^{回の実現も可} 能と考えられている。また，並列コンピュ^ータは自然科学分野以外でも有効に利用できる可能性が認識されてきたことにもよる。

複数のプロセッサの接続を考える場合，すべてを同じプロセッサにするか，それぞれが特徴をもつ専用プロセッサにするかの検討が必要になる。人間社会の組織の例では，前者の傾向が見られるのが行政組織，企業組織は後者に近いといえる。専用プロセッサを結合した並列コンピュ^ータの小規模なものは，汎用プロセッサと浮動小数点演算用プロセッサを接続したものなど，すでにいくつか制作されている。専用プロセッサを結合するケ^ースでは，どうしてもそのアプリケ^ーションを意識したハ^ードの設計，すなわちデ^ータベ^ース用，グラフィックス用といった専用機にならざるをえないことから，汎用機としては均質型のプロセッサをもつ並列コンビュ^ータが優勢となり，さらに各プロセッサが従うべき命令の与え方により， MIMD^型と SIMD型に類別される。

並列コンピュータ

<専用プロセッサ結合 MIMD181 均質プロセッサ結合<

SIMD191

4. 並列処理の有効性

図4において並列処理を実施するケ^ースを考えてみる。

デ^ータA, B, Cを入力して，若干の計算の後その結果によって別々の処理をするというものである。並列処理においても，デ^ータ入力が完了するまではプロセッサ2, 3は待ち状態である。ステップ②③④は同時に処理可能であり，それらの完了を待ってステップ⑤が処理可能となる。ステップ②③④とステップ⑤はデ^ー夕依存関係にあり，この段階でプロセッサ2, 3 は待ち状態となる。処理M, Nのどちらを実行

するかは

·x >

100· の判断結果によるが，処理

内容によっては，判断結果が出る前に両方とも実行してしまうことも可能である。処理内容によってはとは，処理M, N^がX^{の値を用いな} い（デ^ータ依存関係がない）処理の場合である。

処理M, N^中でXの値を用いる必要が生じた場合，そこで処理を^一時停止してX^の値が算出されるのを待つという，プロセッサ間の処理進行の同期化を図る必要がある。また処理M,

Nの実行中または実行後，ステップ⑤⑥が完了し，処理M, Nの何れを実行すべきかがわかるので，処理M, Nのどちらかが無駄になるという「投機的処理」を覚悟しなければならない。

図4の縦軸は時間の経過を意味するので，このような投機的処理を含んでいても並列処理が速いことを示している。

しかし，現実のジョプは（特に事務処理においては），前ステップの処理結果を次の処理に用いるというケ^ースが多く（デ^ータ依存度が高く），またプロセッサ間の結合• 制御や通信を行う手間が必要になるため，必ず速くなるとは限らない。このことは，メモリを共有にするか分散メモリにするかという課題が根底にある。

分散メモリ・システムでは，すべてのプロセッサからどのデ^ータ格納領域へもアクセスが可能であるため，他のプロセッサがあるデ^ータを書き換える場合，その処理が終わる前にデ^ータを

(4)

r逐次処!!I---.

— ^―

^並列処糎

―-

プロセッサ1 プロセッサ2 プロセッサ3

図4 逐次処理と並列処理

読み出そうとするプロセッサが生じないようにしなければならない（図4において， ②③④の処理が終了するまで⑤の処理を実行してはならない）。各メモリ単位（メモリセル）にフラグを設けて，デ^ータの書き換えが終了したかどうかを示す工夫が考えられるが，そのような制御は主としてソフトウェアの領域と考えられる。

このような事情で従来，並列コンピュ^ータの適用分野として，莫大な計算量を必要とし逐次処理的要素の少ない自然科学分野，原子物理学，天気予報，構造解析，流体力学，資源探査など⁰� が挙げられてきた理由である。しかし，

事務処理，ビジネス分野においても，必ずしも逐次処理を必要としないデ^ータベース検索，画像処理，オンライントランザクション処理，人工知能などの分野での活用，マルチメディア実現のための基礎技術としても期待できる。

5. 並列処理のプログラミング従来の逐次処理方式のコンピュ^ータであれば，高速化は素子や内部構成の改良によって可能であり，また高速化がプログラミングの分野に及ぼす影響はごく僅かなものであった。しかし長期的に見た主流は並列コンピュ^ータであろう。並列コンピュ^ータは従来のプログラミングのスタイルに深刻な問題を引き起こすことにな

る。

現在のプログラムは1時点では1つの処理をするが，並列プログラムでは1つのタスクを多くの部分に分割し，命令やデ^ータが整然と流れるように各部分を制御するという「ミツバチの並列プログラム四の技法を確立する必要がある。ミツバチは巣を保持するため，並列プログラムを実行している。ミツバチは個々では弱いが協力して働く。並列プログラムも，ミッパチのようにして多数のプロセスもしくは活動場所を作り出し，問題に耐えうるような多大な計算力を作り出すことができる。ミツバチは視覚的や化学的な信号により協力し合う。同様に，並列プログラムのプロセスも^一緒に働くためにコミュ^ニケ^ートし合わなければならない。

並列プログラムに関わる問題点を大別すると，並列化コンパイラの開発，並列型プログラム言語の開発，並列処理向き問題解決法（アルゴリズム）の開発・教育，の3つになり，それぞれ相互補完的関係を有している。すなわち，

理想に近い並列化コンパイラが開発できれば，

他の2つは比較的簡単な問願となる。

(1) 並列化コンパイラの開発

現在，非常に多数の人が COBOL, BASIC, C といった逐次処理型プログラム言語を使用してプログラミングしている。これらの人々に，新たに開発された複数の命令を^一度に実行できるようなプログラム言語を習得してもらうには長期間を要する。また既に多大な費用と期間を費やして開発された逐次処理型プログラム資産は膨大なものである。

これらのことから，既存の逐次処理型プログラム言語で作成されたプログラムから，並列性を抽出して新しい型のプログラムを生成できるような並列化コンパイラが要請されるとともに，低並列コンピュ^ータから超並列コンピュ^ー夕まで，様々なスケ^ールのコンピュ^ータに極力少ない手直しで対応できるOSの開発も不可欠である。

-392 (588)-

(5)

(2) 並列型プログラム言語の開発

逐次処理を前提に作成されたプログラムから並列性を抽出するという考え方そのものに相当な無理がある。長期的視点からすると，並列型プログラム言語の開発が望ましい。この観点から期待されるのが，文部省重点領域研究「超並列原理に基づく情報処理基本体系」における成

果である。

このプロジェクトは応用，言語, OS, ハ^ードウェアの4つの班に分かれて研究し．「応用」班が作成したプログラムは「言語」班が開発した言語で記述し．「OS」班作成の OS の下で制御され．「ハ^ードウェア」班が作成したハ^ードウェア上で稼働する^u� という構想である。ここでは，実用性を重視して C言語をベ^ースとした NCX 言語．既存の言語にとらわれない超並列

v

言語の開発がすすめられている呪

(3) 並列処理向き問題解決法（アルゴリズム）の開発・教育

並列コンビュ^ータのプログラミングにおいて．プログラマは使用するハ^ードウェアのア^ーキテクチャを全く念頭におく必要がないことが理想である。具体的には，個々のプロセッサの機能，プロセッサ台数，プロセッサ間のメッセ^ージ転送機能や同期の方法．プロセッサ間の距離や結合方式といったことがらから，どの程度独立してプログラミングできるかである。これは並列処理の効率や， MIMD/SIMD システムとも関連し，また開発されるであろう並列化コンパイラの機能とも密接に絡んでいる。単一プロセッサ下のアルゴリズムをそのまま用いるのではなく，並列性を活用するためのアルゴリズムの工夫とその教育（特に膨大な数の既存の情報処理技術者への再教育）がある意味では最も大きな課題かもしれない。

並列プログラムのテスト法，デバッグ法は．

処理の再現性がない場合もあることを考えると，逐次プログラムの場合と比べて極めて難しくなると想像される。しかし，デバッグの基本はやはりプログラム実行のトレ^ースと内部状態

の表示0�と考えられる。

6. 並列処理の課題

並列コンピュ^ータ制作のためのハ^ードウェア技術は， VLSI に代表される集積回路技術や高密度実装技術によってすでに十分整っており，

これからの課題は広義のソフトウェア面の環境整備である。プログラミングについては前項の議論と重複するので，ここではそれ以外の課題についてとりあげる。

(1) 設計段階からの並列性 (Paralled by Design)

並列コンピュ^ータが広く利用される条件として，並列度の拡大が可能でバランスのとれたア^ーキテクチャ^ーの開発があげられる。プロセッサの速度，プロセッサとメモリ間のデ^ータ転送速度，プロセッサ間の通信速度などのバランスを考えた設計が必要となる。このことを Cray-XMP の設計者 Steve Chen 氏は "Par

ailed by Design"«� と表現している。

(2) 可視化のためのネットワ^ーク， OS の開発

多くの利用者がアクセスできるためには，高速のデ^ータネットワ^ークの構築が不可欠である。また大規模計算の結果は数値としてではなく，リアルタイムに画像として提示することが好ましい。そのためには並列コンピュ^ータ，

ワ^ークステ^ーション， ^パソコンなどの異機種を接続するためのソフトウェアや， OS も Unix, Max, Windows などの異なるシステムを接続することが欠かせない。

(3) ソフトウェアの開発

低並列から超並列コンピュ^ータまで，さまざまな並列度のコンピュ^ータに対応できるプログラミング言語や OS などの基本ソフトウェアの開発。同ープログラムを異なる並列コンピュ^ータに移植した場合，いかに少ない手直し -393(589)-

(6)

でそのコンビュ^ータの性能を引き出せるか，

ア^ーキテクチャ^ーの違いをソフトウェアでどの程度カバ^ーできるかが課題となる。

従来の逐次処理コンピュ^ータであっても，異なる機種間の客観的性能比較は相当に困難であった。並列コンビュ^ータでは^一層その見極めは困難になることが想像される。今後並列コンピュ^ータが普及し，多くのユ^ーザ^ーが利用を開始していくことを考えると， ^ハードウェア／ソフトウェア／アプリケ^ーションを網羅した総合的性能評価の手法（ベンチマ^ークプログラム）

の開発も欠かせない。

注

(1) Joel N. Shurkin: Engine of The Mind p. 159, 165, WASHINGTON SQUARE PRESS, 1985 プログラム内蔵 (stored program) 型コンピュ^ー

タの構想は，ノイマン (John von Neumann) がプロジェクトに参加する1年前から Moore School で討議されており，彼はENIACには何の関係もなく， EDVAC 計画に携わった1メンバ^ーに過ぎない。

(2) Herman H. Goldstine : The Compute- from Pascal to von Neumann, p. 186, Prince-ton University Press, 1972

(3) 情報システムハンドプック：p, 3-354, 情報システムハンドブック編集委員会編，培風館， 1989

(4) 情報システムハンドプック： p. 3-355, 前掲 (5) 日経サイエンス1993, 8「超並列のパラダイム」：

日経サイエンス社

(6) 馬場敬信稿「超並列マシンヘの道」，情報処理 Vol. 32, No. 4 p. 349, 情報処理学会

(7) 河合敏夫稿「人に優しい超並列コンピュ^ータ」：

日経サイエンス1993, 8 p25, 日経サイエンス社 (8) Multiple-Instruction--stream / Mui tip le-Data

stream, 複数の命令の流れと複数のデ^ータの流れ

を意味する。非同期的実行意味論。

(9) Single-Instruction-stream/Multiple-Data-stream, 単^一の命令の流れと複数のデ^ータの流れを意味する。同期的実行意味論。

(10) 馬場敬信稿，前掲， p. 354

(Jl) DAVID GELERNTER 稿「超並列コンピュ^ータプログラミング」．別冊サイエンス， p. 49, 1988. 8

日経サイエンス社

(rn 「超並列原理に基づく情報処理基本体系」．情報処理Vol. 36, No. 6 p. 500-, 情報処理学会 (13) 雨宮真人稿，「超並列プログラミング言語とその

処理系」，情報処理Vol. 36, No. 6 p. 5 14, 情報処 (14) 馬場敬信稿．前掲，理学会 p. 358

(15) 日経サイエンス1993. 8, p. 31

参考文献

情報処理ハンドブック：情報処理学会論，オ^ーム社，

1972

横山保：コンビュ^ータの歴史，中央経済社， H. 7 情報科学辞典：岩波書店， 1990

-394(590)-

考察 並列処理プログラミ

ングの