• 検索結果がありません。

発表資料 oyanagi 160601

N/A
N/A
Protected

Academic year: 2018

シェア "発表資料 oyanagi 160601"

Copied!
34
0
0

読み込み中.... (全文を見る)

全文

(1)

並列処理 歩

神戸大学計算科学教育 ン

柳義夫

2016/6/1 1

(2)

内容

うや 10

14

速く

並列処理

並列処理 制御 Flynn

制御

並列処理技術 起源

多く 1960

並列処理 雑感

(3)

ン 前史

歯車式手回し計算機 加減算

し機構 乗算 除算

天文学者 複雑 計算 費や

時間 忍耐 救う

計算 人間 手 煩わ 値し い労働

解析機関 自動式計算機

読 取 歯車

計算 実現

• Richardson (1922)

2016/6/1 3

(4)

高性能化技術

ン うや 10

14

速く ?

演算要素 高速化技術

高速化技術

並列化技術

相互接続 高速化技術

技術

(5)

2016/6/1

演算要素 高速化技術

(1) 動作周波数 高速化

空管 ン IC LSI V SI

線幅 10 nm へ 歩留 子限界

限界 波長 遠紫外域

消費電力

最近 動向 上 いほう い

未来 新 料 化合物半 体 超伝 子 ン

10

7

周波数 高速化 残 並列処理

5

(6)

演算要素 高速化技術

(2) 多数 演算器 搭載 時実行

演算器 少し 資源 作

問題 うや 制御 ?

(3) 処理 び多 処理

演算 ン 演算 数

毎 演算開始

(7)

2016/6/1

(4) 並列化

ン ン キ 整合性

保 制御 複数

並列 行

処理 広義 並列化

7

(8)

(4) 並列化

a) 複数

CDC6600 (1964) 技術 RISC i960 (1988) x86 Pentium (2実行) P6 (3実行

実効 数 増や

(9)

2016/6/1

(4) 並列化

b)

併用

IBM 7030 (Stretch, 1961) MF Microprocessor 採用

9

(10)

(4) 並列化

c) VLIW (very long instruction word):

く 成 複数 処理

起動

違い

ン 並列実行 指定

Josh Fisher (Yale) 提案 1980 Multiflow社創立(1984) 富 治 京大 QA-2 (1983)

Transmeta CrusoeIntel P6 (Pentium Pro, Pentium II) 内部 Itanium

(11)

2016/6/1

(4) 並列化

d)

上 時 複数 処理

あ 複数 う 見え

Denelcore HEP (1982), Tera MTA (1997), MTA-2 (2001) NetBurst (Pentium 4 ) 採用(2000)

e) SIMD 方式 複数 対し 演算

並列 実行

本来SIMD ILLIAC IV う 単独 並列化技術 あ 要素技術

Pentium II MMX (1996) 整数

AMD K6-2 3D Now! (1998)Pentium III SSE (1999)

11

(12)

( ) 実行機能

意味的 変わ い範囲 実行順序

変更し 待 時間 減

Out-of-order buffer 依存関係 解析

• CDC6600 (1964) scoreboarding

• IBM S/360 M91 (1967) register renaming Tomasulo

• IBM POWER1 1990

• Intel P6 (Pentium Pro) 1995

(13)

2016/6/1

(6) 分岐予測

条件分岐 行 過去 履歴 予測し

投機的 実行

予想し 分岐 演算 入 直前 実

行 外 や 直

IBM 7030 (Stretch, 1961), 3090 (1985) Microprocessor 多く使わ

A=B+C/D A=B-3*C

13

(14)

並列処理

時間的 複し 複数

理 行う 時分割 並行処理 違う

当然

演算器 並列計算 いう

• Babbage Analytical Engine 複数 演算器 計画

• ENIAC 加減算器 乗算器 設置さ 並列

内蔵式 改造し し 動 く

– Von Neumann 演算器 高価 並列

処理 非現実的

(multics)

(15)

並列処理 制御

• SIMD 全体 Program Counter 1, Decoder 1

APE 当然 DM

通常 register )

• MIMD Program Counter 1

排他的制御

• Thread programming ?い

元々 process

分散 通信

通信 一種

2016/6/1 22

(16)

並列処理

Flynn 分類 概念

存在形態 集中 分散

通信 必要

表的

集中 いわゆ Symmetric MP

分散 いわゆ multicomputer

分散 ccNuma SIMD 能?

集中 Master-worker?

(17)

共 制御

• PRAM 理論 実現困

排他制御

– SIMD 心配

– Atomic instructions (compare and swap, fetch and

add)

– 1983 Goodman : Bus snooping cache 論文

– Xbar and directory-base

無し C.mmp , T D/T E, …

– ccNUMA: DASH, KSR, Exe plar, Origi , ….

2016/6/1 24

(18)

分散 通信

部分的共

空間 一部

– PAX-32, 128, 32J 隣接共 計算用

– APE: 隣接 直接書 SIMD!!)

通信用 Linda VPP/F

• OS

ン固 NX/2, NX (Intel), Vertex (nCUBE), CMMD

(CM-5), EUI (SP)

共通 Express (Parasoft), p4 (ANL), PARMACS (ANL),

Zipcode (LLNL), Chimp (Edinburgh), Chameleon (ANL),

PICL(ORNL), Linda (Yale), PVM, MPI

(put/get

(19)

分散 型並列計算機

P

$

M

P

$

M

P

$

M

P

$

M

Interconnection Network 場合 (cache)

2016/6/1 26

(20)

対称型

Crossbar switch/bus

M M M M

(21)

分散共

Crossbar switch

2016/6/1 28

(22)

並列処理

並列処理 自然

– Babbage 複数 演算器

– Turing machine

– ENIAC 複数 演算器

処理

– Von Neumann 演算器

空管 高速 当時

当時演算器 多く 資源 必要

(23)

2016/6/1

並列化技術

並列処理

並列化 (3) 議論

並列計算機 SMP, DSM, MPP

Flynn 分類 話題

現在 SIMD

30

(24)

相互接続 ワ 高速化

議論さ hypercube,

torus, mesh, banyan tree, ….

現在 esh/torus, fat tree, …

依存性

ソ 馬鹿

• FIFO 集合通信 ….

• Scalability: one-to-one 通信 限界?

• Ether, QsNet, Myrinet, Infiniband, ….

(25)

科学技術用

– CDC6600 IBM360/91 ILLIAC IV 契約 1964

基本概念 確立

– IBM Main Frame (1964)

– Multics 開始 (1964, MIT, 完成 1969)

– Moore 法則 (1965)

– Vector 処理 提唱 (1965, Senzig and Smith, IBM)

– Flynn 分類 (1966)

– Amdahl 法則 (1967, IBM)

– Tomasulo 1969, IBM

2016/6/1 32

(26)

並列処理 歩 (1960

SIMD: 1958 Unger SIMD 提唱

SIMD: 1962 Solomon 中止

: 1962Burroughs社 軍用 ン D825 表 B5000(1961)

SIMD: 1964 Illinois大学 ILLIAC IV 契約 DARPA 結ぶ FP: 1964 CDC6600出荷 10 並列動作 機能

1966 M.J.Flynn教授 Stanford大学 並列 分類 1967 Gene M. Amdahl (IBM) Amdahl 法則

SM: 1968 富士通FACOM 230-60

SM: 1969 Honeywell Multics

V: 1969 IBM IBM2938 演算器

FP: 1969 CDC7600出荷

(27)

並列処理 歩 1970 年 前半

scalar: 1970 日立HITAC 8700

SM: 1971 Carnegie Mellon大学 C.mmp 16 PDP-11 連結

共 キ ン し 10並列 越え 初 ン

V: 1971 CDC STAR-100

SIMD: 1972 Goodyear Aerospace STARAN稼動 1 , 4x256 衛星画像解析

V: 1972 TI ASC完成 30 MF 11 1号機出荷6機製造

SM: 1972 日立HITAC 8700/8800完成 東大 4並列 SIMD: 1972 ILLIAC IV 稼動 本格稼働 1975

SM: 1973 IBMS/370 上位 方式付加

SIMD: 1973年頃 Burroughs社商用並列 BSP 開始 V: 1974 CDCSTAR-100 納入

2016/6/1 34

(28)

並列処理 歩 1970 年 後半

V: 1976Cray-1 LANL 納入

VLIW: 1976 FPSAP-120B 出荷

SM: 1977年春 Carnegie Mellon大学Cm* LSI-11 14

SIMDscalar: 1977 Burroughs BSP 16 AU, 17 memory banks 50 MF 1980年中止

DM: 1977 Siemens SMS-201 128 8080 結合

SM/DM?: 1977 ソ連 Elbrus 2 製造 10

V: 1977 富士通FACOM 230/75 APU SM: 1978 富士通FACOM M-200 4

V: 1978 日立 M-180 IAP 完成 M-200 1979 言語 1978A.Hoare CSP 提案

DM: 1979 川合 PACS-9 製作

(29)

並列処理 歩 1980 年 前半

DM: 1980 PAX-32 製作 V: 1980 CDCCyber 205

非対称SM 1981年 BBN Butterfly出荷

全部 1981 通産省 ン大 開始 1989 非対称SM 1981 Pyamid社設立

DM: 1981 G.C. Fox Cosmic Cube 開始 64x8086/87

1982 ICOT設立 並列推論 1992 PV: 1982年 Cray X-MP/2

V: 1982 VP-100/200 S-810

DM: 1982 皓一LINKS-1 256 master-worker SIMD: 1983 Goodyear Aerospace MPP製造 128x128 SM: 1983 Elxsi 6400

V: 1983年 SX-1/2

DM: 1983 PAC-128 製作

SM: 1983 Illinois大学 Cedar 開始 自動並列化 NY大学 Ultracomputer

V: 1983 中国 銀河1号完成

SM: 1984 SequentBalance 8000/21000 最大20 DM: 1984 PAX-32J

2016/6/1 36

(30)

並列処理 歩 1980 年 後半

DM: 1985 Transputer PV: 1985 Cray-2

DM: 1985 nCUBE 10 r

言語 1985年 D. Gelernter Linda言語

DM?: 1985 SUPRENUM 開始

DM: 1985 Intel iPSC/1 SIMD 1986 TM CM-1出荷

DM: 1986 FPS T-series DM: 1986 Meiko CS-1 V: 1987 ETAETA-10出荷

DM: 1987 TMCM-2 出荷

SIMD: 1990 MasPar MP-1出荷

(31)

見 並列処理

並列

処理 記述 (global view)

– 1 処理 記述 (local view)

• Global view 問題点

– Von Neumann 並列性記述 抽出

並列 並列 …..

処理分散 (owner-computes rule?)

分散

• Local view 問題点 自己責任

– Stencil 計算 簡単 Pax APE 原点

2016/6/1 38

(32)

ソ 技術

既存 指示文 追加

並列化

– HPF (High Performance Fortran)

– OpenMP

– XcalableMP

明示的並列化

– MPI (Message Passing Interface)

– Thread 並列化

(33)

ソ 技術

並列化

並列化

大規模連立方程式 解法

並列処理向 化 能性

2016/6/1 40

(34)

並列 並列

機能

並列

問題点

– Consistency (Lamport), release consistency

– Reproducibility

– Fault tolerance

多く 課題

参照

関連したドキュメント

フロートの中に電極 と水銀が納められてい る。通常時(上記イメー ジ図の上側のように垂 直に近い状態)では、水

防災課 健康福祉課 障害福祉課

第二の,当該職員の雇用および勤務条件が十分に保障されること,に関わって

Q7 

[r]

また、手話では正確に表現できない「波の音」、 「船の音」、 「市電の音」、 「朝市で騒ぐ 音」、 「ハリストス正教会」、

[r]

添付資料 2.7.1 インターフェイスシステム LOCA 発生時の現場環境について 添付資料 2.7.2 インターフェイスシステム LOCA