Fortran コンパイラの自動並列化性能評価

(1)

技術研究報告(東京大学地震研究所

)No.2

，

1‑7

頁，

1998

年.

Technical Research Report (Earthquake Research Institute， Uni九ersityof Tokyo)， No. 2

，

p. 1‑7

，

1998.

F o r t r a n コンパイラの自動並列化性能評価

桧山澄子・鷹野澄キ・山中佳子

The Performance Evaluation f o r t h e Automatic P a r a l l e l i z a t i o n Option o f Fortran Compilers

Sumiko HIYAMA*， Kiyoshi TAKANO* and Yoshiko YAMANAKA*

Abstract

We carried out a series of benchmark tests to know the ability of automatic parallelization of four Fortran compilers : SP ARC Fortran 77， Cray Fortran 90， Apogee Fortran 77 and Apogee Fortran 90. We aimed to select the best compiler at the time of Operating System version up in the EIC computer.

These tests revealed that the best is Apogee Fortran 77， and the worst is Cray Fortran 90 among them.

Then we installed the Apogee Fortran 77 and Apogee Fortran 90 in the new‑OS instead of Cray Fortran 90.

After the new‑OS was installed

，

we again carried out the same benchmarl

玉

testsfor Apogee Fortran 77， Apogee Fortran 90 and SP ARC Fortran 77 Ver. 4.0 under the new‑OS. The results showed that SPARC Fortran 77 (Ver. 4.0) is generally better than Apogee Fortran 77 and that Apogee Fortran 90 is the best for solving a linear equation.

Key words: benchmark test

，

Fortran comρileκρer

プ

ormance01 autom

似た

ραrallelization

はじめに

地震研究所に

EIC(Earthquake Information Center)

計算機が導入されてから，

2.5

年が経過した.

EIC

計算機とは本研究所ではじめて導入した並列計算機である.導入後時聞が経つにつれて，少しずつその性質がわかり，使用 k

の問題点がはっきりしてきた.

一般にユーザーが並列ジョブを実行する場合でも，ユーザ自身がプログラム中に並列化のためのデレクティブを書くことはほとんどなく，通常はコンパイラの並列化オプションによって，自動的に並列化を行っている. したがって，計算機の運用効率を高めるには，このコンパイラの自動並列化オプションの優劣が大きく影響する. しかし，使用しているコンパイラの中で，

Cray Fortran 90

(以下では

CF90

と省略する)は，自動並列化の性能が低く，コンパイラ自身も巨大であり，その上複素数の倍精度(実数

4

倍精度)が使えないなど問題の多いコンパイラである(桧 1 1 1

・

長谷川，

1996;

桧山

1996).

したがって

Fortran90

レベル

1997

年

9

月

10

日受付，

1997

年

10

月

28

日受理.

本地震予知情報センター， (東京大学地震研究所)

ホEarthquakeInformation Center

，

(Earthquake Research Institute

，

University of Tokyo)

でこれに代わるコンパイラの導入を検討する必要があった.

一方，

EIC

計算機で使用している

OS

は，これまでは

Solaris2.3

であったが，これを

Solaris2.5

にパージョンアップする予定があった.それにしたがって

SPARCFor‑ tran 77

(以ド

F77

と省略)コンパイラも，新しい

OS

に対応したものの導入を検討する必要が生じた.

我々はこの

3

月に，

Apogee Fortran 77

(以ド

apf77

と省略)および

ApogeeFortran 90

(以下

apf90

と省略)の二種のコンパイラを

2

逓間テスト導入して，これまで使用していたコンパイラと共に，以ドに述べるベンチマークテストを行った.ベンチマークテストとは，性能評価テストのことである. コンパイラを

Fortran

に限ったのは，表

l

に示したように，

EIC

計算機利用の

90%

が

Fortran言語

であるからである.新しいコンパイラを導入する際には，

現在情報センタで提供している二種の数値計算ライブラリ

，

LibSci

および

IMSL

とリンクできるかどうかをチェックする必要もある. このテストも併せて実施した.

テスト方法とその結果

従来から

EIC

システムでサポートしているコンパイラ

F 77 (Ve

r .

3.0)

，

CF 90 (Ve

r .

l.0)

と，テストのために導入

(2)

澄・山中佳子桧山澄子・騰野

2

EIC における各コンパイラの利用状況(I 997.1~4 の 4 ヶ月間)

コンノ

f

イフ件数の百分率

CPU

時間の百分率自動並列化機能

SPARC Fortran 77 V

引 .

3.0 70.8 64.6

あり

Cray Fort ran 90 Ve

r . 1 . 0

20.3 25.3

あり

Apogee C Ver. 3.0

1 .

5 3.6

あり

SPARC C Ver. 3.0 7.4 6.6

なし

表 1

AxB(N=1024) 1000

企ー‑‑ーーー・ーー‑‑

s

100

ωι oJ LZ

ロ

10

ユーザプログラム，

LibSci

，

rnatrnul

関数による行列積演算の各コンパイラの並列化性能比較

CF90 apf90

apf77 F77

目的.自動並列化機能の優劣を比較し，また，

For‑ tran 90

，

Fortran 77

のプログラムに対する自動並列化の機能を調べることを目的とした.

。 ^{結果:次数} ⁿ

^ニ¹⁰²⁴

の行列の積を作る演算に対し，

CPU4

台で行った場合の結果を図

1

に示す.縦軸は対数日盛による

Mfiops

の値である

Mfiops

は演算速度の目安

4

砂

図1.

した

apf77

，

apt 90との4コンパイラに対して，

以下の

3

つの場合についてテストを行い，演算速度， M~列化機能の比較を行った.並列化機能を調べるためのベンチマークプログラムは各種あるが(長嶋・妹尾，

1996;

関口・小柳，

1993)

，ここでは，始めから並列計算機を意識してプログラムされたこれらのベンチマークプログラムに頼らず，ユー

ザにとってより身近な行列の積と連立方程式の計算を用いで秒あたりの浮動小数点演算回数を

100

万四単位で表したものであり，ここでは行列積を求めるための積和の演算回数(積の演算がが，和演算が (n~l)がなので総演算回数は

2

n :Jと見なせる)を，時間

time

(秒)

xl0⁶

で割ったものである.つまり，行列の次数

^η

に対し，

Mflopsニ2n³/(timeX106)

である. 同様に図 2 ，図 3 には

nニニ512

，n

ニ1024

の各場合に対して

CPU

の台数を変化させた時の，結果を図示した.

この場合も縦軸は

Mflops

である.

図1.から，以下の1) ~3) が結論付けられる.

1 )

Fortran 77

で作ったプログラムに対しては，

apf77

でコンパイルした場合がもっとも演算速度が速く，

apf90

によるものがその次に速い.

2) apf90

では，

Fortran 77

で書かれたプログラムをコンパイルした場合と

Fortran 90

でプログラムを作 f こ.

[ 1 J テスト1.

倍精度演算で行列の積を求める.

. 方法‑行列の積を求める演算を，各コンパイラの自動並列化オプションを使って並列計算を行い，演算速度の比較をする.並列計算は

CPU

を

l

台，

2

台，

3

台，

4

台，

6

台を使ったそれぞれの場合を調べる.プログラムは次の

2

つのものを使用する. ひとつは

Fortran 77レベルで書かれ

たもの，もう一つは

Fortran90

で書き，行列の積を求めるところは

Fortran90

の組み込み関数

matmul

を使用したものである.計算はすべて倍精度演算で行い，時間は純粋に行列積演算部分のみを計測する.

Fortran 77

のプログラムは

NUMPAC

の

MULMMV(

二宮，

1988)を使用するこ

とにし f

こ.

(3)

Fortran

コンパイラの自動並列化性能評価

3

り，組み込み関数，

matmul

を使用した場合とでは，

速度はほとんど変わらない. 一方，

CF 90

に対して

matmul

を使うと極端に遅くなる.

3) LibSci

ライブラリを使用すると，コンパイラに関係なく

apf90

でも，

CF90

でも非常に速い.

図 2 と図 3 からは以下の 4 ) が L 、える.

4)

次数 n が

512

，1

024

のとき，

CPU

の数をふやしても

F 77

，

CF 90

はどちらも演算速度がほとんど変化しない.

apf77とapf90

は

CPU

を増やすにつれ演算速度が速くなるが，

CPU6

台の場合にはかえって速度が落ちる.

40

35

3 0

2 5

g 。

n

g ω

15

10

' ‑

‑

cpu1

6‑‑

‑ ‑

‑

r

cpu2

[2J

テスト

2.

連立方程式を解く ( 単精度部倍精度 )

. 方法:連立方程式

Ax=b

で，A が

512

次および

1024

次の密行列の場合に

x

を求め，演算速度を比較する.算法は行列 A を上三角と下三角行列に分解し，ガウスの消去法で解くというごくありふれた方法を使用する.プログラムは

SDECOM

( 森，

1988)を」部修正して使った.これは Fortran 77

で書かれており，計算は単精度であるが，一部に倍精度を使っている.

. 目的:純粋に計算部分の速度だけを計測したテスト

I

の場合と異なり，行列の右辺およひ、左辺に数値データを代

AxB N=512

A

6‑

一ーーー圃園浜、

唯一‑ーー←

‑

、 ^‑

且

‑ ; (

ープ‑‑ち

cpu3

̲̲̲F77

・ロー CF90

一也 ‑apf77

ー， ; ( ‑

'apf90

cpu4 cpu6

図 2.n二512

のときの，各コンパイラの自動、;J

E

列化性能比

t

鮫

40

35

3 0

2 5

g 耳

つnιν

1 5 1 0

〆》寸

•

cpu1 cpu2

Ax自信1024

一ー沸ト ‑‑‑.

戸一ー一ーーー‑‑)1(

cpu3

ト一一一一 ‑ ・

‑‑‑+‑‑F77

・口‑CF90

ー古‑apf77 一刻々 apf90

cpu4 cpu6

図 3

，

nニ1024

のときの，各コンパイラの自動並列化性能比較

(4)

澄・山中佳子

特にF77はCPUをふやすと速度の低下が大きく，

スワッピングのためと推定される .apf 77の方は CPU1台のときが最も速く， CPU2台ではいったん遅くなる.さらにCPUを増すと，徐々に速くはなるが，

CPU1台のときにはおよばない.いずれの場合も apf 77の方が優れている.

2) n=1024の場合にはapf77には並列化の効果が表われているが， F 77はCPU3台以上ではほとんと、並列化の効果がない.CPU3台以上では， F77はapf77よ

り常に演算速度が劣る.

桧山澄子・騰聖

j

入したり，条件数を出力したり，解の一部の数個を出力するような，通常ユーザがしばしば行う操作を含めたパフォーマンスを調べることを目的とした.

。

結果 : この場合は演算回数をシ3と見積もり，

Mfiops^二 2n³/(3X time X10⁶⁾としている.

n=512， n^ニ 1024の場合を F77，apf77で行った結果を図4.図5. に示す. ここから

次の結論が得られる.

1) n=512の場合は， F77， apf77ともにCPU1台のときに演算速度が最も速く，並列化の利点がまったくな

4

匹二回

YV

︑

•

¥ ベベ

1 .

8

1 .

6

1 .

4

1 . 2

22

o ...J

量

0.8

一 ←

‑apf77

・

G^幽 F77 0.6

0.4 0.2

cpu6

月二512

のときに，連立方程式を解く場合のド!動枚ダ

IJ

化性能比較 cpu4

cpu3 cpu2

cpul 図

4.

AX=b唱n=1024

̲̲apf77

.口‑

F77 4.5

3.5

ω2.5

8

_J

註

1 .

5

。目

5

cpu6

n

二1024

のときに，連立方程式を解く場合の自動並列化性能比較 cpu4

cpu3 cpu2

c p u l

図

5.

(5)

5

SP ARC Fortran 77

の

3

つの

For^目

そこで我々は，新システム下で，

Ver 4.0

(以ド

f77V 4.0

または

f77

と省略し

Ver.3.0

の

F 77

と医別する)

Apogee Fortran 77/90

(旧システム時代のものは

apf_77~1

，

apf _90~1

と略し，新システムドのものは，

_{apf77~2 ，} apf90‑2

と略し区別する.)

tran

コンノ

f

イラに志すし，旧システムで干?ったと同じテスト

l

から

3

を行った.

[1

J テスト

4.

行列の積を求める計算をテスト

1

と同様に行った. 図

l

に対応して図

6

に次数 n

二二1024

の行列の場合の結果を示す.その結果，ライブラリ

LibSci

を使う場合が，コンパイラと無関係に最も速いことがわかった.

User Prog (For田

tran 77

で書いたプログラム)については，

f 77

が最も速くなっている.数値的には，

n=512

のとき，

F 77

で

19.17 Mflops

だった計算が

f77

では

49.12Mflops

になり，また

η

二 1024

では，

F 77

で

18.05Mflops

だったものが，

47.52 Mflops

と約

2.5

倍の速度向打こなっている.

[2J

テスト

5.

連立方程式を解く場合で，テスト

2

に対応するものを新システムで行った.旧システムの

F77

，

apf7 7~1 と新シス

テムの

f77

，

apf77~2 を比較するために， n

~よ 512，

nニ1024 Fortran

コンパイラの自動並列化性能

J

判出

以ド

[3J

テスト

3.

情報センターで提供している数値計算ライブラリー

(LibSci

，

IMSL)

に対し，

apf90

と

apf77

がリンク可能かどうかをしらべる.

. 結果:テスト1.で結果を得たように

LibSci

とのリンクは問題がなかった. しかし

IMSL

はリンクできなかった.

IMSL

を利用するためには，

F77

を残す必要があると思われた.

以上のテスト結果から，我々は新システムに対し，

の

Fortran

コンパイラを導入する方針をとった.

1) CF90

は提供を止め，代わりに

apf90

を導入する.

2) F 77

に比べ

apf77

の自動並列オプションは非常に優れているので，新たに導入する.

3) F 77

は

Ver.4.0

にパージョンアップしたものを導入する.

それに

f

半いコンパイ新システムにおけるテスト

テストより得た導入策

6

月に

OS

を

Solaris2.5

に変更しラは去

2

のようになった

.

新システムで挺供されたコンパイラ一覧

三ロ三三ロ五口

変更・ハージョンアップ自動並列化機能

SPARC Fortran 77 Ver 3.0

一一

>Ver.4. 0

あり

Apogee Fortran77

新たに導入，

Ver.4.0

あり

Apogee Fortran 90 CF90

の代替新に導入，

Ver.

， 1 . ( ) あり

SPARC C Ver 3.0‑‑>Ver.4.0 Ver.4.0

以降あり

Apogee C Ver 3.0

一一

>Ver.1.0

あり

表

2.

Ax

B N=1024 1 0 0 0

1 0 0

的n

hD JL 2

i‑

・ ^‑UserProg

; 一口一間 t

刷￨企ー

L i b S c i 1 0

apf90

新システム上でのユーザプログラム，

LibSci

，

rnatrnul

関数による行ダ

JI

積演算

apf77

f77

図

6.

(6)

6

桧山澄子・騰野澄・山中作

f

の場合に

CPU

の台数を変化させて計算速度を調べた結果

を，図7，図8に示す.

ここでは

n二 512

の場合は，

CP

U1

台のときがし、ずれのコンパイラについても最も効率がよ

く，それ以上にCPUが増加しでも，効率は変わらない.つ

まり並列化の利点は全く生かされていないしかし演算速

度は， f77

が断然速い

.η=1024

の場合は，新システムのコ

ンパイラの方が，旧システムのコンパイラよりいずれに

ついても速かった.

これは

o s

自身のパフォーマンス向kが

影響しているためと考えられる.

f 77

以外のコンパイラは，

CPU

台数が増加するにつれて，パフォーマンスが向上

するが， f 77

では逆に遅くなる.

しかしこの場合でも他の

2.5

コンパイラと比較すれば， f 77

がもっとも速い.

また，図9にはこの計算を倍精度，

一部

を4倍精度で行った結果を示した.ここでは次の3つのコンパイラ， apf 77‑2， f77

，

apf90‑2

を用いて行っており，次数は

ηニ1024

の場合について示している.この場合は

apf90‑2

が断然速

L

、

同様にn=512

のとき，または単精度計算のテストでも，

apf90‑2の自動並列化の性能は最も優れており，次いでf 77

であった.

apf 90‑2

が

apf77‑2

に比べて非常に良いのは以下のような理由によると考えられる.

apf90‑2

のプリ

プロセッサはいったんFortran90を， Fortran 77のソー

N=512

1.5

的牛O﹂比=

0.5

ー一一一一一一一 → 宇

^F^心 :

"

. ‑‑':. ':":.:".‑週一

‑‑‑

:1:

‑‑+‑177v3. 0

ロ

apl77‑1

‑吋トー177v4.0

‑‑

lI:‑apf77‑2

cpul cpu2 cpu3 cpu4 cpu6

図

7.

新システム・旧システムの

Fortran77コンパイ

ラの自動並列化性能比較

(n=512)

5 4.5

4 3.5

3 5 2 5

2 1.5

0.5

D

cpul

N=1024

‑+‑ー177‑v3

。目

ロ

apl77‑1 ー‑trー177‑v4.0

・味 ‑apl77‑2

cpu2 cpu3 cpu4 cpu6

図

8.

新システム・

IH

システムの

Fortran77

コンパイラの自動並列化性能比較

(n^二 1024)

(7)

Fortranコンパイラの自動並列化性能評価 7

Ax=b唱n=1024，Double Pr配 ISlon

一+ーf77

園口・

apf77

‑ 也‑apf90

的n

LD JL

重

，口 .. .

cpul cpu2 cpu3 C

肌

14 cpu6

図

9. n=1024

のときに，述立方程式を倍精度で解いた場合の性能比較

スコードに変換する.その後，

Fortran 77

のプリプロセッサが働いて，

Fortran 77

の並列化したコードを山すという

2段構えである.従ってたとえプログラムがFortran77レ

ベルで書かれていても，それを

apf90‑2

でコンパイルすればこのプリプロセッサが非常に優れた最適化した

Fortran 77

のソースコードを出したために，

apf90‑2の方がよい結

果を得たわけである.

apf77‑2

，

apf90‑2はCPU

台数が増加するにつれて，パフォーマンスが向上するが， f

77

では

CPUが6台になると逆に遅くなる.

一般的には，次数の大きな行列を取り扱う場合には，倍精度以上の計算が必要になる.そういう意味でも，

apf90‑2

が断然速いということは，重視されるべきことである.

[3J

テス卜

6.

数値計算ライブラリ

LibSciやIMSLにリンクして使え

るか否かを調べる.結果は以下のとおりであった.

1) apf77/apf90とIMSLはリンクできなかった.

2) f 77

で自動並列化のための

‑autpar'

オプションを指定すると，

LibSciとのリンクエラーになる.

1) Apogeeコンパイラ apf77

，

apf90とIMSLとのリン

クのエラーは，テスト

3で述べたように， IMSL

が

F77

を使ってコンパイルしたロードモジュールの形で導入されている事実から，事前に予想は出来た.しかし，

2)

については全く予想外のエラーであった.

結論と今後

今回，一連のコンパイラの自動並列化機能のベンチマークテストを行った結果，現在の新システムでは

f77 (Ver 4.0)

はこのパージョンで改良され，優れた自動並列化の機

能を持っていることがわかった.また，たとえ

Fortran77

レベルで書かれたプログラムでも

apf90

でコンパイルすると，テスト

5

で示したように優れた並列化コードが出ていることも解った.テスト

6

でよ

J

三じた数値計算ライブラリとのリンク・エラーは，

IMSL

では

f77

を使い，

LibSciで

は

apf77

，

apf 90を使えば避けることができる. コンパイ

ラ聞にそれほど大きな性能の聞きがないので，こうした使い分けをしても問題はないと思われる.また，

CPUを何台

に振り分けるかの指定は， f

77については4台程度が望ま

しいことも解った.そして，我々はこれらの結果をマニュアル

IEICシステム利用法

J (情報センター，

1997)

に反映させることができた.今後は更にベンチマークテスト用プログラムを拡充させ，システム更新の際や運用に利用する予定である.

謝辞:この一連のテストでは，日立

SE

の高橋英司氏には大変お世話になった. ここに御礼申し上げる.

文献

桧山澄 f ，1

996

，

IMSLライブラリのコンパイラ環境による並列

化パフォーマンスの比較，第

71

口!日本ビジュアルニューメリックスユーザ会コンファレンス予稿集，

34‑40.

桧山澄子・長谷川秀彦，

1996

，並列計算機

CS6400

における数似計算ライブラリの現状と問題点，技術研究報告，

，1 65‑7

1 . 情報センター，

1997

，

EICシステム利用法.

森

正式，

1988

，数値計算プログラミンク，岩波書庖，

52‑78.

長 II~号雲兵・妹尾義樹，

1996

，科学技術計算のベンチマーク，情報

処理，

37

，

738‑744.

二宮

Ilj:.

，1

988

，ライブラリー・プログラム利用の手引き，数値計算編:

NUMPAC， 1， 213‑214.

関口智嗣・小柳義夫，

1993

，スーパーコンピュータの性能評価の

現状，応用数理，

3

，

27‑38.

Fortran コンパイラの自動並列化性能評価

技術研究報告(東京大学地震研究所

，

頁 ，

年.

，

，

F o r t r a n コンパイラの自動並列化性能評価

桧山澄子*・鷹野 澄キ・山中佳子*

The Performance Evaluation f o r t h e Automatic P a r a l l e l i z a t i o n Option o f Fortran Compilers

，

玉

，

プ

似た

は じ め に

地震研究所に

計算機が導入されてから，

年が経過した.

計算機と は本研究所ではじめて導入した並列計算機である.導入後 時聞が経つにつれて，少しずつその性質がわかり，使用 k

の問題点がはっきりしてきた.

(以下では

と省略する)は，自動並列化の性能が低く，コンパイ ラ自身も巨大であり，その上複素数の倍精度(実数

倍 精 度)が使えないなど問題の多いコンパイラである(桧 1 1 1

長谷川，

桧山

したがって

レベル

年

月

日受付，

年

月

日受理.

本地震予知情報センター， (東京大学地震研究所)

，

，

で こ れ に 代 わ る コ ン パ イ ラ の 導 入 を 検 討 す る 必 要 が あ っ た.

一方，

計 算 機 で 使 用 し て い る

は ， こ れ ま で は

で あ っ た が ， こ れ を

に パ ー ジ ョ ン アップする予定があった.それにしたがって

(以ド

と省略)コンパイラも，新しい

に対 応したものの導入を検討する必要が生じた.

我々はこの

月に，

(以ド

と 省略)および

(以下

と省略)の 二種のコンパイラを

逓間テスト導入して，これまで使用 していたコンパイラと共に，以ドに述べるベンチマークテ ストを行った.ベンチマークテストとは，性能評価テスト のことである. コンパイラを

に限ったのは，表

に示したように，

計算機利用の

が

であるからである.新しいコンパイラを導入する際には，

現 在 情 報 セ ン タ で 提 供 し て い る 二 種 の 数 値 計 算 ラ イ ブ ラ リ

，

お よ び

と リ ン ク で き る か ど う か を チェックする必要もある. このテストも併せて実施した.

テスト方法とその結果

従来から

システムでサポートしているコンパイラ

r .

，

r .

と，テストのために導入

澄・山中佳子 桧山澄子・騰野

EIC における各コンパイラの利用状況(I 997.1~4 の 4 ヶ 月間)

コンノ

イフ 件数の百分率

時間の百分率 自動並列化機能

引 .

あ り

r . 1 . 0

あ り

1 .

あり

頁，

桧山澄子・鷹野澄キ・山中佳子

はじめに

計算機とは本研究所ではじめて導入した並列計算機である.導入後時聞が経つにつれて，少しずつその性質がわかり，使用 k

と省略する)は，自動並列化の性能が低く，コンパイラ自身も巨大であり，その上複素数の倍精度(実数

倍精度)が使えないなど問題の多いコンパイラである(桧 1 1 1

でこれに代わるコンパイラの導入を検討する必要があった.

計算機で使用している

は，これまでは

であったが，これを

にパージョンアップする予定があった.それにしたがって

に対応したものの導入を検討する必要が生じた.

と省略)および

と省略)の二種のコンパイラを

逓間テスト導入して，これまで使用していたコンパイラと共に，以ドに述べるベンチマークテストを行った.ベンチマークテストとは，性能評価テストのことである. コンパイラを

現在情報センタで提供している二種の数値計算ライブラリ

および

とリンクできるかどうかをチェックする必要もある. このテストも併せて実施した.

澄・山中佳子桧山澄子・騰野

EIC における各コンパイラの利用状況(I 997.1~4 の 4 ヶ月間)

イフ件数の百分率

時間の百分率自動並列化機能

あり

あり

のプログラムに対する自動並列化の機能を調べることを目的とした.

。 ^{結果:次数} ⁿ

に示す.縦軸は対数日盛による

つの場合についてテストを行い，演算速度， M~列化機能の比較を行った.並列化機能を調べるためのベンチマークプログラムは各種あるが(長嶋・妹尾，

，ここでは，始めから並列計算機を意識してプログラムされたこれらのベンチマークプログラムに頼らず，ユー

ザにとってより身近な行列の積と連立方程式の計算を用いで秒あたりの浮動小数点演算回数を

万四単位で表したものであり，ここでは行列積を求めるための積和の演算回数(積の演算がが，和演算が (n~l)がなので総演算回数は

で割ったものである.つまり，行列の次数

の各場合に対して

で書かれたプログラムをコンパイルした場合と

. 方法‑行列の積を求める演算を，各コンパイラの自動並列化オプションを使って並列計算を行い，演算速度の比較をする.並列計算は

台，

台，

台，

台，

台を使ったそれぞれの場合を調べる.プログラムは次の

つのものを使用する. ひとつは

で書き，行列の積を求めるところは

を使用したものである.計算はすべて倍精度演算で行い，時間は純粋に行列積演算部分のみを計測する.

のプログラムは

り，組み込み関数，

速度はほとんど変わらない. 一方，

ライブラリを使用すると，コンパイラに関係なく