第 4 章 Benchmark 16
4.3 熱伝導問題
4.3.3 結果と考察
計測結果、(1) では、ほとんど 並列の効果が得られず、逆に PEが増えると効率が極端 に下がっていく。(2) では、4 PE 使用時までは、ある程度の並列の効果が得られている がそれ以上の PEを用いた場合、効率は下がっていく。(3) と (4) では、一様に並列化の 効果が見られるが 、(3) では、8 PE 以上(4) では、16 PE 以上で並列の効果が現れてい ない。
まず、計算時間を見た場合に最も注目しなければならないことは、1 PEの場合、(1) と (2) では、計算量が約 4 倍であり、計算時間も約 4 倍になっている。しかし 、(2) と (3) を見た場合、計算量は約 4倍で、計算時間は約20倍へと増大し 、(3)と (4)では、7倍に なる。この原因を考えた時、最も大きな理由であると思われるのは、プライベートキャッ シュの影響である。温度 T を格納する配列のメモリ量を考えると、表4.1のようになる。
表 4.1: Memory size メモリ量(KB) (1) 130× 130 132 (2) 258× 258 520 (3) 514× 514 2064 (4) 1026 × 1026 8224
Starfireの CPU毎に搭載されているプライベートキャッシュは、1MBであり、1 PEで 計算する場合、(3) でキャッシュ容量が飽和している。このため、上記のような現象が起 こったものと考えられる。その他にも原因はあると思われるが 、今計測で得られたデータ からは以上のことが明確に推測できる。
本稿で用いた領域分割法によるSOR 法は、領域内データのみを演算するため、データ 参照に局所性が生まれる。この結果(3)、(4)の場合において、並列加速率および並列化効 率が 、理論値を越える値を引き出している。これは(3)の2, 4, 8 PEと (4)の 2, 4, 8, 16
PEの部分でその部分での 1 PE当たりのメモリ利用量を見た場合、表4.2のようになる。
ただし 、領域の両端の部分は境界条件部分の領域を多く含むため、少し メモリ使用量が多 くなるが 、表は全体の平均値である。
表 4.2: Memory size per 1PE
PE数 2 4 8 16
(3) 514× 514(KB) 1032 516 258 129 (4) 1026 × 1026(KB) 4112 2056 1028 514
(3)では、使用メモリ量が 1024 KBを下回るに連れて、並列加速率、並列化効率ともに 上がっていくが 、8 PEをピークに下がっていく。これは、計算量と通信コストのトレー ド オフがあるものと考えられる。(1) (2) の場合は、計算領域が小さいため、通信が多く なるため、これらの場合では並列化によってほとんど 計算時間が短縮しないか又は逆に増 加している。このベンチマークでは通信が多くなるような場合、良い結果が得られてい ない。
次に (4)では、メモリ使用量は表4.2である。16 PEまで計算領域を分割しないとキャッ シュに収まる容量にはならない。しかし 、4 PE を越えた当たりから、(3)よりも並列加 速率および 効率が良い結果が得られている。ただし 、1 PEの測定時間が(3)の場合と較 べて更に遅くなっているため、数値上(3) よりもそくなっているにすぎない。そして、メ モリからのデータの読み込み量が多いため、使用する PE 数が増えることで、全体のメ モリアクセスバンド 幅が増加していることが 、効率が上がる一因であると推測される。
また、32 PE使用時に、どの場合も計測時間、並列加速率、並列化効率ともに悪くなっ
ている。この原因は幾つか考えられるが 、原因の特定までには至っていない。原因とし て、32 PE搭載の SMPシステムにおいて、32 PE 使用することは、その内の1 PEで動 いていると思われる OS関連プロセスと 1 PEの実行権をとり合う結果となり、32 PE中 の 1 PEの動作の遅延が全体に影響してる。そして、大きな原因として、通信によるメモ リアクセスと計算によるメモリアクセスそして、前述こコンテキストスイッチなどの複合 的な原因があると考えられる。また、分割数が小さな場合では、通信と計算量とのトレー ド オフが問題と考えられる。
内部発熱 Q 温度指定 T0
温度指定 T0
図 4.7: Computation Model
T(i,j)
j
i
図 4.8: Domain decomposition
1 2 4 10 20 0.5
1 5 10
Number of PE
Com put a ti o T im e (s )
130 x 130
1 2 4 10 20
2 3 4 5
Number of PE
Com put a ti on T im e (s )
258 x 258
1 2 4 10 20
5 10 50
Number of PE
Com put a ti on T im e (s )
514 x 514
1 2 4 10 20
10 50 100 500
Number of PE
Com put a ti on T im e (s )
1026 x 1026
10 20 30 0
10 20 30 40
130 x 130 258 x 258 514 x 514 1026 x 1026
Number of PE
Speed-up Ratio
図 4.10: Speedup Ratio
10 20 30
0 1 2 3
130 x 130 258 x 258 514 x 514 1026 x 1026
Number of PE
Efficiency
図 4.11: Efficiency