ランタイム関数 / 環境変数

OpenMP*によるマルチスレッド・プログラミングの実行を行なう場合、環境変数によってプログラムの実行を制御することが可能です。

表.6OpenMP*環境変数

環境変数説明

OMP_NUM_THREADS

OMP_SCHEDULE

OMP_DYNAMIC

OMP_NESTED

スレッド数の動的調整が有効になっている場合、環境変数の値は、使用するスレッドの数の上限として解釈されます。

例：setenv OMP_NUM_THREADS 4（Linux*） set OMP_NUM_THREADS=4（Windows*）

環境変数のデフォルト値は、処理系に依存します。指定では、type[,chunk]の形式で指定し、

typeには、static/dynamic/guidedが指定可能です。chunkの設定は、オプションです。

chunkが設定されていない場合には、staticスケジュールの場合を除き、値1_{が使用されま} す。staticスケジュールでは、デフォルトのchunkは、ループカウントを、そのループに適用されるスレッドの数で割った値に設定されます。

例：setenv OMP_SCHEDULE "DYNAMIC"（Linux*） set OMP_SCHEDULE=DYNAMIC（Windows*）

値がtrueに設定されている場合、並列実行領域の実行に使用されるスレッドの数は、システムのロードなどによって、システムが実行時に調整します。値がfalseに設定されていると、この動的調整は無効になります。

例：setenv OMP_DYNAMIC TRUE（Linux*） set OMP_DYNAMIC=TRUE（Windows*）

値がtrueに設定されていると、ネストされた並列実行は有効になり、値がfalseに設定されていると、ネストされた並列実行は無効になります。デフォルト値はfalseです。

例：setenv OMP_NESTED TRUE（Linux*） set OMP_NESTED=TRUE（Windows*）

6 . OpenMP* _{の適用について}

OpenMP*によるマルチスレッド化は、プログラマーから並列処理を行うための様々な作業を解放します。以下の図に示すのは、簡単なプログラム開発、最適化、並列化の流れです。プログラムを自動並列化し性能評価ツールなどを使い、必要なところにOpenMP*宣言子による並列処理の適用を行うというのが実際の開発の流れになります。

図.21OpenMP*プログラムの開発フロー

プログラムの開発には、多くの試行錯誤とプログラムの実行と検証、デバッグといった作業が必要になります。またプログラムについては、その実行性能の向上を図るためのソースコードの書き換えなどを行う作業を、プログラムの開発中も開発後も行う必要があります。このような作業を効率良く、また短時間で行うには、優れた開発環境が必要です。インテルのソフトウェア製品は、マルチスレッド・プログラミングに対応したインテル^®コンパイラーでのプログラミングを支援する豊富なツール群が用意されています。それらのツールを活用することで、プログラム開発サイクルは、より充実したものになります。

OpenMP*適用のためのステップは次のようになります。

1. インテル^® VTune^TMパフォーマンス・アナライザーを使いプログラムの動作の詳細な解析を行います。ホットスポットを見つけることが並列処理では必要になります。

2. ホットスポットに対してOpenMP*宣言子の適用などを検討します。データの依存関係などのために並列化できない部分などについては、依存関係の解消のために行うプログラムの変更を行います。この時、他のハイレベルの最適化手法（ソフトウエア・パイプラインやベクトル化）などに影響を与えるときがあります。この並列化による他のハイレベルの最適化の阻害は避ける必要があります。そのためには、並列化の適用時と非適用時の性能を比較検討する必要もあります。

3. 計算コアの部分について、もし可能であれば既にマルチスレッド向けに高度に最適化されているインテル^®マス・カーネル・ライブラリー（MKL）などを積極的に利用することが並列処理の効率化を図る有効な手段です。これらのライブラリーのマルチスレッド化にはOpenMP*が使用されているので、容易に自動並列化に組み込むことが可能です。

計算負荷の大きな関数やサブルーチンに対する自動並列処理やOpenMP*の適用の検討

マルチスレッドでの最適化とプログラム性能の評価

自動並列化コンパイルオプション

OpenMP*宣言子の挿入による並列化指示プログラム

プログラム開発者

マルチスレッド実行モジュール

インテル®

パフォーマンスツール

シングルスレッドでの最適化とプログラム性能の評価

インテル®

コンパイラー最適化オプション

性能解析ツールによるパフォーマンスチューニング

OpenMP*

プログラムプログラム関数・サブルーチン

マルチスレッド実行モジュールインテル®

コンパイラー OpenMP*

コンパイルオプション

性能解析ツールによるパフォーマンスチューニング

インテル®

パフォーマンスツール

7 . _おわりに

プログラム開発者や研究者がプログラムを作るのは、そのプログラムの並列化を行う為ではありません。ある処理、

解析を目的にプログラムを書き、そのプログラムをプラットフォームで効率良く、高速に実行できることを目的としています。これらのコンパイルツールは、開発者が本来のプログラムの開発目的である、これらのアルゴリズムの実装やロジックの検証のための作業に専念することを可能とし、並列化という必要ではありますが本質的ではない手間のかかる作業を開発者の代わりに担うものです。

パフォーマンスに対する高度の要求に答える形で、プロセッサーは高速化の一途をたどってきました。しかし、現在プロセッサーとメモリーの性能格差が広がるにつれて、様々なアプリケーションにおいてメモリー・レイテンシーがパフォーマンスの面でのボトルネックになっています。また、プロセッサーの消費電力と発熱量も大きな問題です。このような状況を打破するためにも、デュアルコアとマルチコアといった最新のプロセッサーの実装技術が求められています。OpenMP*での並列化は、このような時代の要求に応えるものです。コンパイラーツールの更なる進化によって、

今後、これらの機能はさらに強化されていきます。

様々なレベルでの並列処理において、それらの並列処理技術を緊密に結合することで、アプリケーションの性能を大幅に向上させることが可能です。

付録 ̶ 自動並列処理と OpenMP*

次の性能データは、OpenMP*ホームページにあるOpenMP*のサンプルプログラムmd.fをOpenMP*で並列化したものと自動で並列化したものを比較したものです。

SGI Altixシステム / インテル^® Itanium^® 2プロセッサー1.60GHzでの計測結果

このケースでは自動並列化の効果は見られません。

実際のコンパイルでは、以下のように自動並列化によって、多くのループは並列化されています。

$ IFORT -O3 -PARALLEL -PAR_THRESHOLD0 md.f

md.f(35) : (COL. 6) REMARK: LOOP WAS AUTO-PARALLELIZED.

md.f(98) : (COL. 8) REMARK: LOOP WAS AUTO-PARALLELIZED.

md.f(161) : (COL. 6) REMARK: LOOP WAS AUTO-PARALLELIZED.

md.f(181) : (COL. 6) REMARK: LOOP WAS AUTO-PARALLELIZED.

md.f(212) : (COL. 6) REMARK: LOOP WAS AUTO-PARALLELIZED.

このコードでもっとも計算時間がかかるのは、以下のループです。このループの自動並列化は、サブルーチンの呼び出しなどもあり阻害されています。実際には、このループから呼び出されるサブルーチンdist内のループなどは自動並列化されています。しかし、多重ループからの並列実行領域の呼び出しとなってしまうため並列効率を上げることは困難であり、逆にオーバーヘッドが増えています。

■ OpenMP*

■自動並列化経過時間

プロセッサー数

1 2 4

0 10 20 30 40 50

96 DO I=1,NP

97 ! COMPUTE POTENTIAL ENERGY AND FORCES 98 F(1:ND,I) = 0.0

99 DO J=1,NP

100 IF (I .NE. J) THEN

101 CALL DIST(ND,BOX,POS(1,I),POS(1,J),RIJ,D)

102 ! ATTRIBUTE HALF OF THE POTENTIAL ENERGY TO PARTICLE 'J' 103 POT = POT + 0.5*V(D)

104 DO K=1,ND

105 F(K,I) = F(K,I) - RIJ(K)*DV(D)/D 106 ENDDO

107 ENDIF 108 ENDDO

109 ! COMPUTE KINETIC ENERGY

110 KIN = KIN + DOTR8(ND,VEL(1,I),VEL(1,I)) 111 ENDDO

148 SUBROUTINE DIST(ND,BOX,R1,R2,DR,D)

160 D = 0.0 161 DO I=1,ND

162 DR(I) = R1(I) - R2(I) 163 D = D + DR(i)**2.

164 ENDDO 165 D = SQRT(D) 166

167 RETURN 168 END

このコードについては、以下のようなOpenMP*宣言子の指定が可能です。この指定によってサブルーチンの呼び出しを含めて、疎粒度での並列処理が可能となります。

!$OMP PARALLEL DO

!$OMP& DEFAULT(SHARED)

!$OMP& PRIVATE(I,J,K,RIJ,D)

!$OMP& REDUCTION(+ : POT, KIN) DO I=1,NP

! COMPUTE POTENTIAL ENERGY AND FORCES F(1:ND,I) = 0.0

DO J=1,NP

IF (I .NE. J) THEN

CALL DIST(ND,BOX,POS(1,I),POS(1,J),RIJ,D)

! ATTRIBUTE HALF OF THE POTENTIAL ENERGY TO PARTICLE 'J' POT = POT + 0.5*V(D)

DO K=1,ND

F(K,I) = F(K,I) - RIJ(K)*DV(D)/D ENDDO

ENDIF ENDDO

! COMPUTE KINETIC ENERGY

KIN = KIN + DOTR8(ND,VEL(1,I),VEL(1,I)) ENDDO

!$OMP END PARALLEL DO KIN = KIN*0.5*MASS

自動並列化は非常に容易なマルチスレッド・プログラミングのツールですが、ループレベルでの並列化の認識には限界があることも事実です。自動並列化の内容を理解し、その上でOpenMP*をコンパイラーに対する並列化指示のためのツールとして使うことで、さらに効率の良い並列処理が可能となります。

付録 ̶ OpenMP* _{サンプルプログラム}

PROGRAM OMP INTEGER NUM_STEPS REAL*8 STEP,X,PI,SUM NUM_STEPS = 10000000

STEP = 1.0D0 / DBLE(NUM_STEPS) SUM = 0.0D0

!$OMP PARALLEL DO REDUCTION(+:SUM) PRIVATE(X)

DO I = 1, NUM_STEPS

X = (DBLE(I)-0.5D0)*STEP SUM = SUM + 4.0D0 / (1.0D0 + X * X)

END DO

PI = STEP * SUM

WRITE (6,*) 'PI = ',PI END PROGRAM OMP

PROGRAM OMP

!$ USE OMP_LIB

PARAMETER (NUM_THREADS=4) INTEGER NUM_STEPS

REAL*8

STEP,X,PI,SUM(0:NUM_THREADS-1) NUM_STEPS = 10000000

STEP = 1.0D0 / DBLE(NUM_STEPS) CALL

OMP_SET_NUM_THREADS(NUM_THREADS)

!$OMP PARALLEL PRIVATE(X) ID = OMP_GET_THREAD_NUM() SUM(ID) = 0.0D0

ISTART = ID * NUM_STEPS / NUM_THREADS + 1

IEND = (ID+1) * NUM_STEPS / NUM_THREADS

DO I = ISTART, IEND

X = (DBLE(I)-0.5D0)*STEP SUM(ID) = SUM(ID) + 4.0D0 / (1.0D0 + X * X)

END DO

!$OMP END PARALLEL PI = 0.0D0

DO I = 0, NUM_THREADS-1 PI = PI + STEP * SUM(I) END DO

WRITE (6,*) 'PI = ',PI END PROGRAM OMP

ドキュメント内 03_Fortran_osx.indd (ページ 32-39)

ランタイム関数 / 環境変数

6 . OpenMP* の適用について

7 . おわりに

付録 ̶ 自動並列処理 と OpenMP*

付録 ̶ OpenMP* サンプルプログラム

6 . OpenMP* _{の適用について}

7 . _おわりに

付録 ̶ 自動並列処理と OpenMP*

付録 ̶ OpenMP* _{サンプルプログラム}