worker#Njob pool (EP)⇒バラつきがある

並列処理の性能メトリック



並列処理の目的は速度、問題規模(メモリ＆ディスク）、精度等様々だが、最も本質的なのは速度向上



並列処理を行った結果、当然総演算処理時間が短縮されることが期待される．．．が、

ばば



実際の速度が思ったほど上がらないことがしばしば起こる



特にシステム規模（プロセッサ数）の増大が性能に結びつかない場合が大きな問題となる

合が大きな問題となる

⇒並列処理のscalability（拡張性）

並列処理による性能向上を正しく測定するメトリックが必要



並列処理による性能向上を正しく測定するメトリックが必要



並列度（degree of parallelism）の定義

問題の持つ並列度：問題の中に並列処理可能部分がどれくらいあるか（並列

 問題の持つ並列度：問題の中に並列処理可能部分がどれくらいあるか（並列性とも呼ぶ）

 システムの持つ並列度：システムの並列リソース数（一般的にはプロセッサ数）

並列処理システムの性能指標（１）



速度向上率



1

プロセッサで実行した時の時間を

T

^とする。



p

プロセッサで実行した時の時間を

T(p)

^とする。



s(p)=T/T(p)

s(p)

^{を「プロセッサ台数}

p

台の速度向上率」と呼ぶ。

s(p)

^が

1

以上であれば速

s(p)

^{をプロセッサ台数}

p

台の速度向上率」と呼ぶ。

s(p)

^が

1

以上であれば速度が上がったことになる。

 理想的には

s(p)=p

^（

p

台のプロセッサを投入した結果、

p

^{倍の速度が得ら} れた）

れた）

s(p)=pが理想

li d これでも十分（性能が単調増加）

s(p)

⇒ linear speed-up

pの増加に従いsaturation する（多くの場合）

これでも十分（性能が単調増加）

する（多くの場合）

並列処理システムの性能指標（２）



並列化効率

 速度向上率

s(p)

^は

p

に依存するので指標として不便

 「

s(p)=p

が理想的」ということに着目し、実際にはそれがどれくらい達

成できたかを「効率」として考える



e(p)=s(p)/p



e(p) s(p)/p

e(p)

^は

p

^{に寄らず、}

1

に近いほど理想的（通常は

1

以下）

e(p)=1が理想 e(p)=1が理想

⇒ linear speed-up これでも十分 1

e(p)

pの増加に従いsaturation これでも十分

（効率が低下しない）

pの増加に従いsaturation する（多くの場合）

プロセッサ台数p

アムダールの法則と並列処理効率

 アムダールの法則

 「処理効率はそれを構成する個々の要素の平均効率で決まるのではなく、一部の非効率部分によって律速される」

非効率部分によって律速される」

 並列処理におけるアムダールの法則

 逐次処理における実行時間T^{が並列処理可能部分}TPと並列処理不可能部分（逐次処理のみ可能）TSから成ると仮定

次処理のみ可能）TSから成ると仮定 T=TP+TS

 TP^{部分について、}p台のプロセッサで理想的な並列化ができるとすると、p^プロセッサ投入時実行時間T( )^は

サ投入時の実行時間T(p)^は T(p)=TS+TP/p

 プロセッサ台数pを無限大にすると T(p, limit p→∞) = TS

この時

e(p) = s(p) / p = TS / p (p→∞) = 0 従て

従って、

プロセッサ台数 p ^{をいくら増大しても、} TS ^{部分が律速が存在す}

る限り並列処理効率の極限値は常に 0 になってしまう

並列処理の問題点：「アムダールの法則」の呪縛



アムダールの法則

 逐次処理での実行時間を

T

₁

,

逐次で実行しなくてはならない部分の比率がである場合プロセサを用いて実行した時の実行時間（の下限）

がαである場合、

p

プロセッサを用いて実行した時の実行時間（の下限）

T

_pは、

T

= α

＊

T

₁

+ (1-α)

＊

T

₁

/p

 つまり、逐次で実行しなくてはならない部分が10%でもあると、何万プロセッサを使っても、高々１０倍にしかならない。

実行実行

時間並列部分 1/p /p

逐次部分

逐次実行 Pプロセッサ並列実行並列実行

並列処理の問題点：「アムダールの法則」の呪縛



「 Gustafson の法則」：では実際のアプリではどうか？

 並列部分は問題規模によることが多い

例えばノド数の場合倍の大きい問題を解けばよい倍の問題は計算量が

 例えば、ノード数nの場合、n倍の大きい問題を解けばよい。n倍の問題は、計算量がn になると、並列処理部分は一定

 Weak scaling – プロセッサあたりの問題を固定←大規模化は可能

 Strong scaling －問題サイズを固定 ←こちらはプロセッサが早くなくてはならない。

実行実行時間

逐次実行 nプロセッサ 41

並列実行

n倍の問題逐次実行

n倍の問題並列実行並列実行逐次実行並列実行

負荷バランスを考慮した問題分割



domain decomposition p では、問題空間をなるべく粗く分割（隣接点を１つのプロセスに閉じ込める）することが理想



問題空間が不均質な場合、この方針では負荷バランスが崩れることがある



問題空間の形状を無視し、並列プロセス間の処理量が均等になるよう分割を変更することも必要

なるよう分割を変更することも必要

⇒ただし通信が近接でなくなることがあるので要注意！

⇒さらに処理粒度が低下する可能性もある

具体例： cut-off 付き MD



MD (Molecular Dynamics)

等の実例

 n次元空間上にP個の粒子があり、粒子間力の相互作用をシミュレーションする

作用をシミュレションする径

 クーロン力のようななだらかなポテンシャルではなく、

距離に応じて急激に縮小するポテンシャル（井戸型

ドキュメント内 Microsoft PowerPoint - AICS-SS-msato.pptx (ページ 36-44)

並列処理の性能メトリック

並列処理の目的は速度、問題規模(メモリ＆ディスク）、精度等様々 だが、最も本質的なのは速度向上

並列処理を行った結果、当然総演算処理時間が短縮されることが 期待される．．．が、

ば ば

実際の速度が思ったほど上がらないことがしばしば起こる

特にシステム規模（プロセッサ数）の増大が性能に結びつかない場 合が大きな問題となる

合が大きな問題となる

⇒並列処理のscalability（拡張性）

並列処理による性能向上を正しく測定するメトリックが必要

並列処理による性能向上を正しく測定するメトリックが必要

並列度（degree of parallelism）の定義

並列処理システムの性能指標（１）

速度向上率

1

T

p

T(p)

s(p)=T/T(p)

s(p)

p

s(p)

1

s(p)

p

s(p)

1

s(p)=p

p

p

並列処理システムの性能指標（２）

並列化効率

s(p)

p

s(p)=p

e(p)=s(p)/p

e(p) s(p)/p

e(p)

p

1

1

アムダールの法則と並列処理効率

プロセッサ台数 p をいくら増大しても、 TS 部分が律速が存在す

る限り並列処理効率の極限値は常に 0 になってしまう

並列処理の問題点：「アムダールの法則」の呪縛

アムダールの法則

T

,

p

T

T

= α

T

+ (1-α)

T

/p

実行 実行

時間 並列部分 1/p /p

逐次部分

並列処理の問題点：「アムダールの法則」の呪縛

「 Gustafson の法則」：では実際のアプリではどうか？

実行 実行 時間

負荷バランスを考慮した問題分割

domain decomposition p では、問題空間をなるべく粗く分割（隣 接点を１つのプロセスに閉じ込める）することが理想

問題空間が不均質な場合、この方針では負荷バランスが崩れ ることがある

問題空間の形状を無視し、並列プロセス間の処理量が均等に なるよう分割を変更することも必要

なるよう分割を変更することも必要

⇒ただし通信が近接でなくなることがあるので要注意！

⇒さらに処理粒度が低下する可能性もある

具体例： cut-off 付き MD

MD (Molecular Dynamics)

並列処理の目的は速度、問題規模(メモリ＆ディスク）、精度等様々だが、最も本質的なのは速度向上

並列処理を行った結果、当然総演算処理時間が短縮されることが期待される．．．が、

ばば

特にシステム規模（プロセッサ数）の増大が性能に結びつかない場合が大きな問題となる

プロセッサ台数 p ^{をいくら増大しても、} TS ^{部分が律速が存在す}

実行実行

時間並列部分 1/p /p

実行実行時間

domain decomposition p では、問題空間をなるべく粗く分割（隣接点を１つのプロセスに閉じ込める）することが理想

問題空間が不均質な場合、この方針では負荷バランスが崩れることがある

問題空間の形状を無視し、並列プロセス間の処理量が均等になるよう分割を変更することも必要