Microsoft PowerPoint - GPGPU実践基礎工学（web）.pptx

(1)

シングルコアとマルチコア

(2)

今回の内容



前々回の授業の復習

 _CPUの進化  半導体集積率の向上→CPUの動作周波数の向上  + 複雑な処理を実行する回路を構成（前々回の授業） 

マルチコアCPUへの進化



均一・不均一なプロセッサ



コプロセッサ，アクセラレータ

(3)

コンピュータの歴史



世界初のデジタルコンピュータ

 _{1944年ハーバードMark I}  機械式リレーを採用 

世界初の汎用コンピュータ

 _{1946年 ENIAC}  軍事用に開発（ミサイルの弾道計算など）  _300FLOPS 

金融や株取引にも利用が拡大

(4)

スーパーコンピュータ



様々な用途に利用できるようコンピュータを設計

 設計が複雑化  _{1970年代には性能が停滞} 

科学技術計算に特化して性能を高めたコンピュータ

 _Cray‐1  世界初のスーパーコンピュータ 

日本製スーパーコンピュータ

 日立，富士通，NECが製造  たびたび世界トップの性能を達成

(5)

スーパーコンピュータの性能



_TOP500

 _{http://www.top500.org}  スーパーコンピュータの世界ランキング  _{6月と11月に更新}  次の発表は11月16～21日（New Orleans, LA）の Supercomputing Conferenceで 

日本のスーパーコンピュータもたびたび世界一に

 数値風洞  _{SR2201（東大）}  _{CP‐PACS（筑波大）}  地球シミュレータ  前期トップのコンピュータから5倍の性能向上，2年半にわたって首位

(6)

TOP500 List（2015, Jun.）



_{http://www.top500.org/}

計算機名称（設置国）アクセラレータ 実効性能[PFlop/s] /ピーク性能[PFlop/s] 消費電力[MW] 1 Tianhe‐2 (China) Intel Xeon Phi 33.9/54.9 17.8 2 Titan (U.S.A.) NVIDIA K20x 17.6/27.1 8.20 3 Sequoia (U.S.A.) − 17.2/20.1 7.90 4 K computer (Japan) − 10.5/11.3 12.7 5 Mira (U.S.A.) − 8.59/10.1 3.95

6 Piz Daint (Switzerland) NVIDIA K20x 6.27/7.79 2.33

7 Shaheen II(Saudi Arabia) 5.54/7.24 2.83

8 Stampede (U.S.A.) Intel Xeon Phi 5.17/8.52 4.51

9 JUQUEEN (Germany) − 5.01/5.87 2.30

(7)

理論ピーク性能と実効性能



_{Floating Point Operations Per Second}

 _{1秒あたりに浮動小数演算を何回実行できるか} 

理論ピーク性能

 プロセッサの数（プロセッサ上に実装された演算器の数）や動作周波数から求める理論的な速度  「全ての機能が全て同時に使えれば」という理論的な値 

実効性能（実行性能）

 ある問題に対してプログラムを実行したときに得られた性能  プログラムの中で行っている計算（浮動小数点演算）の回数を数え，プログラムの実行にかかった時間を測定して割り算

(8)

理論ピーク性能と実効性能



_{Floating Point Operations Per Second}

 _{1秒あたりに浮動小数演算を何回実行できるか} 

なぜ浮動小数点演算だけ？

 整数の加算はアドレス計算（プログラムカウンタなど）で頻繁に使うので高速になるよう設計  浮動小数点演算と比較すると整数演算の影響は非常に小さい  影響が小さくないシステムは使い物にならない

(9)

CPUの理論性能



公式

 _FLOPS = _{1コアの演算性能 [？]} × コア数 _[Core] × CPUの動作周波数 [Hz=Clock/sec] 

_{1コアの演算性能}

 ＝1度に発行出来る浮動小数点演算命令  単位は[Floating Point Operations/Clock /Core]  性能の評価には動作周波数だけでなく，1コアが1クロックで発行できる命令数が重要

(10)

代表的な

CPUの理論性能



_Pentium

 _{1コアあたりの演算性能 1}  コア数 ₁  動作周波数（最高） _300M  _{1 Floating Point Operations/clock/core} × 1 core × 300M clock/s = 300M flop/s

(11)

代表的な

CPUの理論性能



_Pentium II

 _{1コアあたりの演算性能 1}  コア数 ₁  動作周波数（最高） _450M  _{1 Floating Point Operations/clock/core} × 1 core × 450M clock/s = 450M flop/s

(12)

代表的な

CPUの理論性能



_Pentium III

 _{1コアあたりの演算性能 1.5}  コア数 ₁  動作周波数（最高） _1.4G  _{1.5 Floating Point Operations/clock/core} × 1 core × 1.4G clock/s = 2.1G flop/s 初のSSE命令搭載

(13)

代表的な

CPUの理論性能



_Pentium 4

 _{1コアあたりの演算性能 2}  コア数 ₁  動作周波数（最高） _3.8G  _{2 Floating Point Operations/clock/core} × 1 core × 3.8G clock/s = 7.6G flop/s

(14)

代表的な

CPUの理論性能



_Core 2 Duo

 _{1コアあたりの演算性能 4}  コア数 ₂  動作周波数（最高） _3.33G  _{4 Floating Point Operations/clock/core} × 2 core × 3.33G clock/s = 26.64G flop/s 

_{Core 2 Quad}

 _{1コアあたりの演算性能 4}  コア数 ₄  動作周波数（最高） _3.2G  _{4 Floating Point Operations/clock/core} × 4 core × 3.2G clock/s = 51.2G flop/s

(15)

代表的な

CPUの理論性能



_{Core i7 (Nehalem)}

 _{1コアあたりの演算性能 4}  コア数 ₄  動作周波数（最高） _3.2G  _{4 Floating Point Operations/clock/core} × 4 core × 3.2G clock/s = 51.2G flop/s 

_{Core i7 (Sandy Bridge)}

 _{1コアあたりの演算性能 8}  コア数 ₆  動作周波数（最高） _3.5G  _{8 Floating Point Operations/clock/core} AVX命令を搭載

(16)

代表的な

CPUの理論性能



_{Core i7 (Haswell)}

 _{1コアあたりの演算性能 16}  コア数 ₄  動作周波数（最高） _3.5G  _{16 Floating Point Operations/clock/core} × 4 core × 3.5G clock/s = 224G flop/s AVX2命令

(17)

CPUの性能向上



_FLOPS =

_{1コアの演算性能}

× コア数

× CPUの動作周波数



_{1コアの演算性能の向上}

 演算器（トランジスタ）の増加 

コア数の増加

 トランジスタの増加 

_{CPUの動作周波数}

動作周波数の向上に注力（ほぼ全ての処理が速くなる）様々な機能を追加 • パイプライン処理 • スーパースカラ実行 • 分岐予測等

(18)

CPUの性能の変化



_{Intelの予告(Intel Developer Forum 2003)}

(19)

CPUの性能の変化

(20)

CPUの性能向上

* 

電子回路の構成部品

 機械式リレー  真空管  トランジスタ  _{IC (Integrated Circuit)}  _{LSI (Large Scale Integrated Circuit)} 

製造技術の進歩による配線の細線化

 _{250nm→180nm→130nm→90nm→65nm→45nm→32nm→22nm}  _{10nmまではなんとかなりそう→3次元構造へ}  集積できるトランジスタ数の増加集積率が上昇 *_{姫野龍太郎，絵でわかるスーパーコンピュータ，講談社 (2012)}

(21)

CPUの性能向上

* 

製造技術の進歩による配線の細線化

1.

集積できるトランジスタ数の増加

 同じ面積に集積できるトランジスタ数が増加  複雑な回路を構成 2.

プロセッサの処理速度の向上

 抵抗が線幅に比例して減少し，消費電力が低下  減少した電力を周波数向上に利用  _{1秒あたりに0と1を切り替える回数（動作周波数）を増加} *_{姫野龍太郎，絵でわかるスーパーコンピュータ，講談社 (2012)}

(22)

ムーアの法則

* 

インテルの共同設立者ムーアによる経験則

 半導体の集積率は1年で倍になる  後に「18ヶ月で2倍」に修正 http://en.wikipedia.org/wiki/Moore%27s_law *Moore, G.E., Electronics, Vol.38,No.8(1965). http://ja.wikipedia.org/wiki/ムーアの法則

(23)

CPUの性能向上の限界



製造技術の進歩による配線の細線化

 抵抗が線幅に比例して減少し，消費電力が低下  減少した電力を周波数向上に利用 

細線化により絶縁部分も狭小化

 漏れ電流が発生し，消費電力が減少できない  駆動する電力を上げると発熱量も増加  空冷の限界に到達 

動作周波数が停滞

(24)

ポラックの法則

* 

_{2倍のトランジスタを使っても，プロセッサの性能はその}

平方根倍（1.4倍）程度にしか伸びない

 消費電力は2倍，性能は1.4倍 

一つのCPUに複数のプロセッサ（コア）を搭載

 消費電力を上げずに“理論的な”性能を倍に  プログラムの作り方に工夫が必要 *http://ja.wikipedia.org/wiki/ポラックの法則 http://en.wikipedia.org/wiki/Pollack%27s_Rule

(25)

CPUの性能向上

半導体回路の細線化消費電力が低下低下分の電力をトランジスタのスイッ動作周波数向上性能向上ムーアの法則

(26)

CPUの性能向上

半導体回路の細線化消費電力が低下低下分の電力をトランジスタのスイッチングに利用動作周波数向上性能向上絶縁部が狭くなり漏れ電流が発生，電力が低下しない消費電力の増加によって発熱量が増加，空冷の限界 2倍のトランジスタを使っても性能は 1.4倍程度にしか伸びないムーアの法則

(27)

CPUの性能向上

半導体回路の細線化消費電力が低下低下分の電力をトランジスタのスイッ動作周波数向上性能向上絶縁部が狭くなり漏れ電流が発生，電力が低下しない消費電力の増加によって発熱量が増 2倍のトランジスタを使っても性能は 1.4倍程度にしか伸びないコア数の増加ムーアの法則

(28)

CPUの性能向上



_FLOPS =

_{1コアの演算性能}

× コア数

× CPUの動作周波数



_{1コアの演算性能の向上}

 演算器（トランジスタ）の増加 

コア数の増加

 トランジスタ数の増加 

_{CPUの動作周波数}

 回路の効率化や印可電圧の向上劇的な性能向上は期待できないコンパイラの最適化を利用複数のコアを使うようにプログラムを書かないと速くならない

(29)

マルチコア化による高速化



処理をN個に分割して各コアが処理を分担

 実行時間が1/Nに高速化されると期待資源1 資源2 資源3 資源4 シングルコアCPU マルチコアCPU 資源1 資源2 資源3 資源4 資源1 資源2

(30)

疑似的なマルチコア



_{Hyper Threading Technology}

 一つの物理CPUを複数のCPUに見せる技術  _{CPU内のレジスタやパイプラインの空きを利用}  _{10～20%程度の高速化} 資源1 資源2 資源3 資源4 シングルコアCPU Hyper Threading Technology 資源1 資源2 資源3 資源4 処理時間

(31)

マルチコア

CPUの種類



均一（ホモジニアス，Homogeneous）なプロセッサ

 一つのCPUの中に，同じ構造を持ったコアを複数持つ  全てのコアが同じ性能を持つ  プログラムの並列化が容易 

不均一（ヘテロジニアス，Heterogeneous）なプロセッサ

 一つのCPUの中に，異なる構造を持った数種類のコアを持つ  複雑な処理が得意なコア（少数）と簡単な処理が得意なコア（多数）を持つ  それぞれのコアを意識したプログラミングが必要

(32)

マルチコア

CPU



均一（Homogeneous）なプロセッサ

 _{Intel Coreシリーズ}

 _{AMD Phenomシリーズ}

(33)

マルチコア

CPUの厳密な呼び方*



現在コアと呼んでいるのは，シングルコアCPUそのもの



厳密な定義に沿えば，マルチコアCPUは一つのチップに

複数のCPUを搭載



× マルチコアCPU



○ マルチコアチップ

(34)

マルチコア

CPU



不均一（Heterogeneous）なCPU

 _{Cell Broadband Engine}  _{1個の汎用プロセッサと8個の演算用プロセッサの組合せ}  _{AMP APU (Accelerated Processing Unit)}  _{CPUとGPUを統合}  _{Intel Core iシリーズ（第2世代以降）}  _GPUを搭載

(35)

コプロセッサ，アクセラレータ



コンピュータの特定の機能や処理能力を向上させるハー

ドウェア

 _{CPUで行っていた処理を専用ハードウェアが担当}  動画像のエンコード・デコード等 

コンピュータシミュレーションではCPUの代わりに計算を

実行するハードウェアを指す

 画像処理装置(Graphics Processing Unit)  メニーコアプロセッサ(Intel Xeon Phi, PEZY‐SC)

(36)

メニーコアプロセッサ



_{Intel Xeon Phi}

 _{OSを搭載しており，接続しているワークステーションとは独立} して動かすことが可能  _{61コアCPU（1GHz）, メモリ8GBのLinuxサーバ}  理論演算性能（単精度）約1 TFLOPS  _{CPUからの制御が必要なアクセラレータとは異なる}  アーキテクチャがIntel CPUと同じであるため，コンパイルし直すだけで動作する  新モデルを投入予定*  _{72コア，メモリ16GB}  理論演算性能3.0 TFLOPS

(37)

メニーコアプロセッサ



_PEZY‐SC

 株式会社PEZY Computingの1,024コアの低消費電力型メニーコアプロセッサ  _{1024コア，動作周波数733MHz}  理論演算性能  単精度 3.0 TFLOPS  倍精度 1.5 TFLOPS  日本の次世代スーパーコンピュータに搭載

(38)

GPU



画像処理を行う専用パーツを数値計算用に利用

 グラフィックス処理に特化した演算器（コア）を搭載  一つのコアは低性能  並列処理で全体の処理を高速化 

_{GPGPU (General Purpose computing on GPU)}

 グラフィックス処理用の専用チップであるGPU（Graphics Processing Unit）を一般的な目的（General Purpose）に利用  _{GPUを科学計算に利用することを特にGPU Computingと呼ぶ}

(39)

コプロセッサ，アクセラレータ



万能的な能力を求められるCPUとは異なり，専用の役割

だけをこなす



性能あたりのパフォーマンスが高い

 消費電力，体積，購入額 System Effective Speed [Gflops] Cost/speed [$/Gflops] Power/speed [Watt/Gflops] Size/speed [liter/Gflops] Xeon E5430 (Dual Quad‐ Core) 115 21.0 3.7 0.39 PLAYSTATION3 157 2.8 1.3 0.06 GeForce 9800GTX 569 2.6 0.5 0.05 best second best