発表資料 oyanagi 160601

(1)

並列処理歩

神戸大学計算科学教育ン

柳義夫

2016/6/1 1

(2)

内容

• ^ン ^うや ¹⁰

¹⁴

^速く

？

• ^キ ^見 ^並列処理

– ^並列処理 ^制御 ^Flynn ^？

– ^制御

• ^{並列処理技術} ^起源

– ^多く ¹⁹⁶⁰ ^年

• ^見 ^並列処理 ^い ^雑感

(3)

ン前史

• ^{歯車式手回し計算機} ^加減算

• ^ニ ^桁 ^し機構 ^乗算 ^除算

天文学者複雑計算費や

時間忍耐救う

計算人間手煩わ値しい労働

• ^解析機関 ^{自動式計算機}

読取歯車

計算実現

• Richardson ^夢 ⁽¹⁹²²⁾

2016/6/1 3

(4)

高性能化技術

ンうや ₁₀

¹⁴

速く？

• ^演算要素 ^{高速化技術}

• ^{高速化技術}

• ^{並列化技術}

• ^相互接続 ^ワ ^{高速化技術}

• ^ソ ^技術

(5)

2016/6/1

演算要素高速化技術

(1) ^{動作周波数} ^高速化

空管ンＩＣ _LSI ＶＳＩ

線幅 _{10 nm} へ歩留子限界

限界波長遠紫外域

消費電力

最近動向上いほうい

未来新料化合物半体超伝子ン

約 ₁₀

⁷

周波数高速化残並列処理

5

(6)

演算要素高速化技術

(2) ^多数 ^演算器 ^搭載 ^時実行

演算器少し資源作

問題うや制御？ _→

(3) ^処理 ^び多 ^処理

演算ン演算数

毎演算開始

(7)

2016/6/1

(4) ^並列化

ンンキ整合性

保制御複数

並列行

処理広義並列化

7

(8)

(4) ^並列化

a) ^複数 ^行

CDC6600 (1964) ^来 ^技術 RISC i960 (1988) x86 Pentium (2^実行) ^やP6 (3^実行

実効数増や

(9)

2016/6/1

(4) ^並列化

b) ^ン ^ン

併用

IBM 7030 (Stretch, 1961) ^来 MF Microprocessor ^採用

9

(10)

(4) ^並列化

c) VLIW (very long instruction word): ^多

く成複数処理

起動

違い

ン並列実行指定

Josh Fisher (Yale) ^提案 1980 Multiflow^社創立(1984) 富治京大 QA-2 (1983)

Transmeta Crusoe^やIntel P6 (Pentium Pro, Pentium II) ^内部 ^キ Itanium ^キ

(11)

2016/6/1

(4) ^並列化

d) ^ン ^ン ^個

上時複数処理

あ複数う見え

Denelcore HEP (1982), Tera MTA (1997), MTA-2 (2001) NetBurst (Pentium 4 ) ^採用(2000)

e) SIMD ^方式 ^複数 ^対し ^一 ^演算

並列実行

本来_SIMD _{ILLIAC IV} う単独並列化技術あ要素技術

Pentium II MMX (1996) ^整数

AMD K6-2 3D Now! (1998)^やPentium III SSE (1999)

11

(12)

( ) ^実行機能

意味的変わい範囲実行順序

変更し待時間減

Out-of-order buffer ^貯 ^依存関係 ^解析

• CDC6600 (1964) scoreboarding

• IBM S/360 M91 (1967) register renaming Tomasulo

• IBM POWER1 1990

• Intel P6 (Pentium Pro) 1995

(13)

2016/6/1

(6) ^分岐予測

条件分岐行過去履歴予測し

投機的実行

予想し分岐演算入直前実

行外や直

IBM 7030 (Stretch, 1961), ^後3090 (1985) ^し Microprocessor ^多く使わ ^い

A=B+C/D A=B-3*C

13

(14)

並列処理

• ^時 ^時間的 ^複し ^複数 ^処

理行う時分割並行処理違う

– ^当然

– ^演算器 ^並列計算 ^いう

• Babbage Analytical Engine ^複数 ^演算器 ^計画

• ENIAC ^加減算器 ^乗算器 ^設置さ ^並列 ^動

内蔵式改造しし動く

– Von Neumann ^演算器 ^高価 ^並列

処理非現実的

– ^(multics)

(15)

並列処理制御

• SIMD ^全体 Program Counter 1, Decoder 1

– ^ン ^一 ^例 ^APE ^当然 ^DM

– ^通常 ^ン ^変 ^register ⁾

• MIMD ^毎 Program Counter ^各 1

– ^共 ^{排他的制御} ^キ ^ン

期

• Thread programming ^？い ^？

• ^元々 ^process ^？

– ^分散 ^通信 ^期

• ^期 ^通信 ^一種

2016/6/1 22

(16)

並列処理

• ^Flynn ^分類 ^い ^概念

– ^存在形態 ^集中 ^分散

– ^共 ^私 ^私 ^通信 ^必要

• ^表的

– ^集中 ^共 ^いわゆ Symmetric MP

– ^分散 ^私 ^いわゆ multicomputer

– ^分散 ^共 ^ccNuma ^SIMD ^能？

– ^集中 ^私 ^あ ^？ Master-worker?

(17)

共制御

• PRAM ^理論 ^実現困

• ^期 ^排他制御

– SIMD ^心配 ^し

– Atomic instructions (compare and swap, fetch and

add)

• ^キ ^ン

– 1983 Goodman : Bus snooping cache ^論文

– Xbar and directory-base

– ^ン ^無し ^C.mmp , T D/T E, …

– ccNUMA: DASH, KSR, Exe plar, Origi , ….

2016/6/1 24

(18)

分散通信

• ^部分的共

– ^実 ^空間 ^一部 ^共 ^割 ^付

– PAX-32, 128, 32J ^隣接共 ^ン ^計算用

– APE: ^隣接 ^直接書 ^込 ^SIMD!!)

– ^通信用 ^さ ^共 ^Linda ^や ^VPP/F

• OS ^経

– ^ン固 NX/2, NX (Intel), Vertex (nCUBE), CMMD

(CM-5), EUI (SP)

– ^共通 Express (Parasoft), p4 (ANL), PARMACS (ANL),

Zipcode (LLNL), Chimp (Edinburgh), Chameleon (ANL),

PICL(ORNL), Linda (Yale), PVM, MPI

• ^(put/get

(19)

分散型並列計算機

P

$

M

P

$

M

P

$

M

P

$

M

Interconnection Network 場合＄_(cache) わ

2016/6/1 26

(20)

対称型

Ｐ

＄

Ｐ

＄

Ｐ

＄

Ｐ

＄

Crossbar switch/bus

M M M M

(21)

分散共

Ｐ

＄

Ｐ

＄

Ｐ

＄

Ｐ

＄

Crossbar switch

2016/6/1 28

(22)

並列処理

• ^並列処理 ^自然

– Babbage ^ン ^複数 ^演算器

– Turing machine ^い

– ENIAC ^複数 ^演算器

• ^逐 ^処理

– Von Neumann ^演算器 ^個

• ^空管 ^余 ^高速 ^あ ^当時

• ^{当時演算器} ^多く ^資源 ^必要 ^し

(23)

2016/6/1

並列化技術

• ^並列処理

– ^並列化 ⁽³⁾ ^議論

– ^{並列計算機} SMP, DSM, MPP

• ^Flynn ^分類 ^話題

現在 _SIMD

30

(24)

相互接続ワ高速化

• ^昔 ^議論さ hypercube,

torus, mesh, banyan tree, _….

• ^現在 esh/torus, fat tree, …

• ^ン ^ン ^幅 ^距 ^依存性

ソ馬鹿

い

• FIFO ^性 ^集合通信 ….

• Scalability: one-to-one ^通信 ^限界？

• Ether, QsNet, Myrinet, Infiniband, _….

(25)

年

• ^{科学技術用} ^ン ^場

– CDC6600 IBM360/91 ILLIAC IV ^契約 ¹⁹⁶⁴

• ^基本概念 ^確立

– IBM Main Frame (1964)

– Multics ^開始 (1964, MIT, ^完成 1969)

– Moore ^法則 ⁽¹⁹⁶⁵⁾

– Vector ^処理 ^提唱 (1965, Senzig and Smith, IBM)

– Flynn ^分類 ⁽¹⁹⁶⁶⁾

– Amdahl ^法則 (1967, IBM)

– Tomasulo ^{1969, IBM}

2016/6/1 32

(26)

並列処理歩 ₍₁₉₆₀ 年

SIMD: 1958^年 Unger SIMD ^提唱

SIMD: 1962^年 Solomon ^中止

？_{: 1962}年 _Burroughs社軍用ン _D825 表 B5000(1961)

SIMD: 1964^年 Illinois^大学 ILLIAC IV^開 ^契約 DARPA ^結ぶ FP: 1964^年 CDC6600^出荷 10^個 ^並列動作 ^機能 ^ニ

1966^年 M.J.Flynn^教授 Stanford^大学 ^並列 ^ン ^分類 1967^年 Gene M. Amdahl (IBM) Amdahl ^法則 ^表

SM: 1968 ^年 ^富士通FACOM 230-60

SM: 1969^年 Honeywell^社 Multics ^表

V: 1969^年 IBM^社 IBM2938 ^演算器 ^売

FP: 1969^年 CDC7600^出荷

(27)

並列処理歩 ₁₉₇₀ 年前半

scalar: 1970^年 ^日立HITAC 8700 ^表

SM: 1971^年 Carnegie Mellon^大学 C.mmp^開 16 PDP-11 ^連結

共キンし ₁₀並列越え初ン

V: 1971^年 CDC^社 STAR-100 ^表

SIMD: 1972^年 Goodyear Aerospace^社 STARAN^稼動 1 , 4x256 ^{衛星画像解析}

V: 1972^年 TI^社 ^ン ASC^完成 30 MF 11 1^号機出荷計₆機製造

SM: 1972^年 ^日立HITAC 8700/8800^完成 ^東大 4^並列 SIMD: 1972^年 ILLIAC IV ^う ^稼動 ^本格稼働 1975

SM: 1973^年 IBM^社S/370 ^上位 ^方式付加

SIMD: 1973^年頃 Burroughs^{社商用並列} ^ン BSP ^開 ^開始 V: 1974^年 CDC^社STAR-100 ^納入

2016/6/1 34

(28)

並列処理歩 ₁₉₇₀ 年後半

V: 1976^年Cray-1 LANL ^納入

VLIW: 1976^年 FPS^社AP-120B ^出荷

SM: 1977^年春 Carnegie Mellon^大学Cm* LSI-11 14

SIMD^＋scalar: 1977^年 Burroughs^社 BSP ^表 16 AU, 17 memory banks 50 MF 1980^年中止

DM: 1977^年 Siemens^社 ^独 SMS-201 ^表128^個 8080 ^結合

SM/DM?: 1977^年 ^ソ連 Elbrus 2 ^製造 10 ^初 ^ン

V: 1977^年 ^富士通FACOM 230/75 APU SM: 1978^年 ^富士通FACOM M-200 ^表 4

V: 1978^年 ^日立 M-180^用 IAP ^完成 M-200^用 1979^年言語 ₁₉₇₈年 _A.Hoare _CSP 提案

DM: 1979^年 ^星 ^川合 PACS-9 ^製作

(29)

並列処理歩 ₁₉₈₀ 年前半

DM: 1980^年 ^星 PAX-32 ^製作 V: 1980^年 CDC^社Cyber 205 ^表

非対称SM 1981年 BBN Butterfly出荷

全部 ₁₉₈₁年通産省ン大開始 ₁₉₈₉年非対称_SM ₁₉₈₁年 _Pyamid社設立

DM: 1981^年 G.C. Fox Cosmic Cube ^開始 64x8086/87

？ ₁₉₈₂年 _ICOT設立並列推論ン ₁₉₉₂年 PV: 1982年 Cray X-MP/2 表

V: 1982^年 VP-100/200 ^びS-810 ^表

DM: 1982^年 ^大 ^皓一LINKS-1 256 master-worker SIMD: 1983^年 Goodyear Aerospace^社 MPP^製造 128x128 SM: 1983^年 Elxsi 6400 ^売

V: 1983年 SX-1/2 表

DM: 1983^年 ^星 PAC-128 ^製作

SM: 1983^年 Illinois^大学 Cedar ^開始 ^{自動並列化} ^ン ^頃NY^大学 Ultracomputer ^始

V: 1983^年 ^中国 ^銀河1^号完成

SM: 1984^年 Sequent^社Balance 8000/21000 ^表 ^最大20 DM: 1984^年 ^星 PAX-32J ^開

2016/6/1 36

(30)

並列処理歩 ₁₉₈₀ 年後半

DM: 1985^年 Transputer ^売 PV: 1985^年 Cray-2 ^売

DM: 1985^年 nCUBE 10 r

言語 ₁₉₈₅年 D. Gelernter Linda^言語 ^表

DM?: 1985^年 SUPRENUM ^開始

DM: 1985^年 Intel^社 iPSC/1 ^表 SIMD 1986^年 TM^社 CM-1^出荷

DM: 1986^年 FPS^社 T-series ^表 DM: 1986^年 Meiko^社 CS-1 ^表 V: 1987^年 ETA^社ETA-10^出荷

発表資料 oyanagi 160601

並列処理 歩

神戸大学計算科学教育 ン

柳義夫

内容

• ン うや 10

速く

？

• キ 見 並列処理

– 並列処理 制御 Flynn ？

– 制御

• 並列処理技術 起源

– 多く 1960 年

• 見 並列処理 い 雑感

ン 前史

• 歯車式手回し計算機 加減算

• ニ 桁 し機構 乗算 除算

天文学者 複雑 計算 費や

時間 忍耐 救う

計算 人間 手 煩わ 値し い労働

• 解析機関 自動式計算機

読 取 歯車

計算 実現

• Richardson 夢 (1922)

高性能化技術

ン うや 10

速く ？

• 演算要素 高速化技術

• 高速化技術

• 並列化技術

• 相互接続 ワ 高速化技術

• ソ 技術

演算要素 高速化技術

(1) 動作周波数 高速化

空管 ン ＩＣ LSI Ｖ ＳＩ

線幅 10 nm へ 歩留 子限界

限界 波長 遠紫外域

消費電力

最近 動向 上 いほう い

未来 新 料 化合物半 体 超伝 子 ン

約 10

周波数 高速化 残 並列処理

演算要素 高速化技術

(2) 多数 演算器 搭載 時実行

演算器 少し 資源 作

問題 うや 制御 ？ →

(3) 処理 び多 処理

演算 ン 演算 数

毎 演算開始

(4) 並列化

ン ン キ 整合性

保 制御 複数

並列 行

処理 広義 並列化

(4) 並列化

a) 複数 行

実効 数 増や

(4) 並列化

b) ン ン

併用

(4) 並列化

c) VLIW (very long instruction word): 多

く 成 複数 処理

起動

違い

ン 並列実行 指定

(4) 並列化

d) ン ン 個

上 時 複数 処理

あ 複数 う 見え

e) SIMD 方式 複数 対し 一 演算

並列 実行

( ) 実行機能

意味的 変わ い範囲 実行順序

変更し 待 時間 減

Out-of-order buffer 貯 依存関係 解析

• CDC6600 (1964) scoreboarding

• IBM S/360 M91 (1967) register renaming Tomasulo

• IBM POWER1 1990

• Intel P6 (Pentium Pro) 1995

並列処理歩

神戸大学計算科学教育ン

• ^ン ^うや ¹⁰

^速く

• ^キ ^見 ^並列処理

– ^並列処理 ^制御 ^Flynn ^？

– ^制御

• ^{並列処理技術} ^起源

– ^多く ¹⁹⁶⁰ ^年

• ^見 ^並列処理 ^い ^雑感

ン前史

• ^{歯車式手回し計算機} ^加減算

• ^ニ ^桁 ^し機構 ^乗算 ^除算

天文学者複雑計算費や

時間忍耐救う

計算人間手煩わ値しい労働

• ^解析機関 ^{自動式計算機}

読取歯車

計算実現

• Richardson ^夢 ⁽¹⁹²²⁾

ンうや ₁₀

速く？

• ^演算要素 ^{高速化技術}

• ^{高速化技術}

• ^{並列化技術}

• ^相互接続 ^ワ ^{高速化技術}

• ^ソ ^技術

演算要素高速化技術

(1) ^{動作周波数} ^高速化

空管ンＩＣ _LSI ＶＳＩ

線幅 _{10 nm} へ歩留子限界

限界波長遠紫外域

最近動向上いほうい

未来新料化合物半体超伝子ン

約 ₁₀

周波数高速化残並列処理

演算要素高速化技術

(2) ^多数 ^演算器 ^搭載 ^時実行

演算器少し資源作

問題うや制御？ _→

(3) ^処理 ^び多 ^処理

演算ン演算数

毎演算開始

(4) ^並列化

ンンキ整合性

保制御複数

並列行

処理広義並列化

(4) ^並列化

a) ^複数 ^行

実効数増や

(4) ^並列化

b) ^ン ^ン

(4) ^並列化

c) VLIW (very long instruction word): ^多

く成複数処理

ン並列実行指定

(4) ^並列化

d) ^ン ^ン ^個

上時複数処理

あ複数う見え

e) SIMD ^方式 ^複数 ^対し ^一 ^演算

並列実行

( ) ^実行機能

意味的変わい範囲実行順序

変更し待時間減

Out-of-order buffer ^貯 ^依存関係 ^解析

(6) ^分岐予測

条件分岐行過去履歴予測し

投機的実行

予想し分岐演算入直前実

行外や直

• ^時 ^時間的 ^複し ^複数 ^処

理行う時分割並行処理違う

– ^当然

– ^演算器 ^並列計算 ^いう

• Babbage Analytical Engine ^複数 ^演算器 ^計画

• ENIAC ^加減算器 ^乗算器 ^設置さ ^並列 ^動

内蔵式改造しし動く

– Von Neumann ^演算器 ^高価 ^並列