計算機構成論II第8回以降パイプライン＿記憶階層編

(1)

1

計算機構成論II パイプラン,記憶階層編

第8回以降(全15回）

電気情報系学科

横田孝義

2019年11月28日（木）

(2)

(3)

3 10/3 10/10 10/24 10/31 11/7 11/14 11/21 11/28 12/5 12/12 12/19 12/26 1/9 1/23 1/30

授業計画

休講（補講12・4）

(4)

７パイプライン処理

(5)

5

７パイプライン処理

コンピュータの世界でのパイプラインとは？

フォンノイマン型コンピュータの性能向上策

性能：スループットともいう throughput,単位時間あたりの処理能力

パイプライン処理命令パイプライン処理演算パイプライン処理

(6)

７パイプライン処理

処理の流れ盆皿金箸盆皿金箸盆皿金箸盆皿金箸母娘息子父時間の流れ 0 16 カフェテリア：お盆をとる、皿をとる、お金を払う、箸をとるの時間をすべて１と仮定つまり、各ステージの所要時間が

直列処理だと。。

(7)

7

７パイプライン処理

パイプライン処理だと。。（出来るだけ並列化）

処理の流れ盆皿金箸盆皿金箸盆皿金箸盆皿金箸母娘息子父時間の流れ 0 7 カフェテリア：お盆をとる、皿をとる、お金を払う、箸をとるの時間をすべて１と仮定つまり、各ステージの所要時間が等しいと仮定

(8)

７パイプライン処理

客処理能力の向上

直列処理では１６単位時間

パイプライン処理では7単位時間

(9)

9

７パイプライン処理

人数が増えた場合は？

N人の場合

直列処理だと。。

客１盆皿金箸盆皿金箸盆皿金箸盆皿金箸客２客３客N 時間の流れ 0

4N

処理の流れ

(10)

７パイプライン処理

人数が増えた場合は？

N人の場合

パイプライン処理だと。。

客１盆皿金箸盆皿金箸盆皿金箸客２客３時間の流れ 0

N+3

処理の流れ N ₃

(11)

11

７パイプライン処理

客の数がN人の場合の直列処理とパイプライン処理のスループット比は直列処理の処理時間パイプライン処理の処理時間＝ 4N/(N+3) 各ステージの所要時間が等しい場合はスループットの向上率はステージ数に漸近する。

(12)

７パイプライン処理

RISC型CPU

各機械語命令の実行時間に基づきパイプライン処理を説明する。

RISC型CPU は１命令を１クロックサイクルで実行する。

命令実行のステージは以下の５ステージで構成されるとする。

①命令フェッチ(IF: instruction fetch ステージ)

➁命令デコードとレジスタフェッチ(ID:insruction decode ステージ)

③ALUでの演算とアドレス計算(EX:excutionステージ)

④メモリアクセス(MA:memory access ステージ)

⑤レジスタへの書き込み(WB:write backステージ)

(13)

13

７パイプライン処理

RISC型CPU

①命令フェッチ(IF: instruction fetch ステージ)

➁命令デコードとレジスタフェッチ(ID:insruction decode ステージ)

③ALUでの演算とアドレス計算(EX:excutionステージ)

④メモリアクセス(MA:memory access ステージ)

⑤レジスタへの書き込み(WB:write backステージ)

基本的命令と各ステージの実行時間 nsec この時間を基本とする。

(14)

７パイプライン処理

RISC型CPU

直列処理ではこの時間を基本とする。 IF ID EX MA WB IF ID EX MA WB 時間の流れ (ns) 処理の流 0 直列処理 7 14

(15)

15

７パイプライン処理

RISC型CPU

パイプライン処理の場合、各ステージの処理時間は同一でないといけないので各ステージの最大処理時間の2nsecとする必要がある。 15 IF ID EX MA WB 時間の流れ (ns) 処理の流れ 0 10 14 パイプライン処理 IF ID EX MA WB IF ID EX MA WB IF ID EX MA WB 8 6 4 2 12

(16)

７パイプライン処理

RISC型CPU

実効命令数n個の時のスループット向上率は

処理時間 2N+8 ns

処理時間 7N ns

7 ns 2ns

(17)

17

７パイプライン処理

パイプライン処理によるスループット比は

直列処理のクロックサイクル７nsと

パイプライン処理のクロックサイクル２ns

の比率である3.5に漸近する。

(18)

７パイプライン処理

パイプラインの流れを乱すもの

次の命令の実行開始を阻害するもの。

ハザード hazard,競合 conflict などと呼ぶ。

パイプライン処理は停止してしまう。

命令を実行できないステージが発生。 Stall, bubble

(19)

19

構造ハザード….. ハードウエアが競合する場合

19 IF ID EX MA WB 時間の流れ (ns) 処理の流れ 0 10 14 パイプライン処理 IF ID EX MA WB IF ID EX MA WB IF ID EX MA WB 8 6 4 2 12 メモリへの同時アクセスになり競合する

(20)

制御ハザード….. 分岐命令によって予測が外れる場合

IF ID EX MA WB 処理の流れ IF ID EX MA WB 次命令分岐先計算と分岐条件の判定対処法3：次命令アドレスが確定する演算結果を待つ。（ストールする）この分の遅れが生じる。これを分岐遅延と呼ぶ。分岐遅延スロット分岐遅延スロット

(21)

21

データハザード…..演算結果待ちが生じる場合

IF ID EX MA WB 処理の流れ減算 R3-R4->R5 IF ID EX MA WB R1+R2 R3の値が確定するまでストール R1+R2の結果をR3に書込み加算 R1+R2->R3 R3の読み出し R3-R4

(22)

７パイプライン処理

ハザードの種類は３種類

構造ハザード….. ハードウエアが競合する場合

制御ハザード….. 分岐命令によって予測が外れる場合

データハザード…演算結果待ちが生じる場合

(23)

23 データの流れ制御の流れ命令レジスタプログラムカウンタ命令デコーダＡＬＵ算術論理演算ユニットレジスタ群メモリ部入出力部制御部演算部

CPU

基本的演算とその拡張

(24)

R1レジ(32bit) R2 レジ(32bit) ALU（加算） c R3レジ(32bit) ALU（減算） R４レジ(32bit)

データハザード…..演算結果待ちが生じる場合

加算

R1+R2->R3

減算

R3-R4->R5

(25)

25 IF ID EX MA WB 処理の流れ IF ID EX MA WB R1+R2 加算 R1+R2->R3 R3-R4

データハザード…..演算結果待ちが生じる場合の対策

フォワーディング、バイパス演算結果R1+R2を次のサイクルでALUの入力に直接入れてしまう。

(26)

R1レジ(32bit) R2 レジ(32bit) ALU（加算） c R3レジ(32bit) ALU（減算） R４レジ(32bit)

データハザード…..演算結果待ちが生じる場合の対策

加算

R1+R2->R3

減算

R3-R4->R5

バイパス

(27)

27

8. 記憶階層

フォン・ノイマンボトルネック１プロセッサ、１メモリ構造、逐次性ＣＰＵとメモリ間が命令とデータで渋滞してしまう。 CPUとメモリのパイプを太く、かつ遠くまで届くようにするための工夫が記憶階層

(28)

8.1 局所性原理と階層構造

(1) アクセス時間メモリからの読み出し、書き込みにかかる時間 ①ストア命令、ロード命令などのメモリへのアクセス命令（メモリ命令）により、アドレス指定され、データや命令の読み出し、書き込みが開始されるまで（先頭語をアクセスするまで）の時間．通常はこの規定．２つの規定 ②アクセス命令によりアドレスが指定され、そこからの命令やデータの読み出し、あるいは書き込みが完了するまでの時間．この場合はアクセスレイテンシともいわれる．サイクル時間：メモリに対して繰り返しアクセス可能な最少時間

(29)

29

8.1 局所性原理と階層構造

時間的局所性と空間的局所性

時間的局所性：最近アクセスされた命令やデータのほうが再度アクセスされる可能性が高い．空間的局所性：アクセスされた命令やデータに、アドレス空間（メモリ空間）上接近した命令やデータが引き続きアクセスされる可能性が高い．メモリ内の隣接したアドレスの命令が順次実行されていく．繰り返し実行が多い．同一データの読み書きが多い．メモリ内の隣接したデータ（配列要素など）が逐次アクセスされることが多い．プログラムの性質

(30)

8.1 局所性原理と階層構造

アクセスされる可能性のより高いデータや命令を

ＣＰＵにより近く、より高速なメモリに収納すればデータや命令への

アクセス時間を短縮できる．

(31)

31

8.1 局所性原理と階層構造

CPU レジスタ群キャッシュ主記憶二次記憶より高速より小容量より低速より大容量

(32)

8.2 キャッシュ方式

アクセスキャッシュメモリ主記憶（メモリ）命令やデータキャッシュにあるか？無ければ主記憶に取りに行くキャッシュにコピーキャッシュに該当する命令やデータがあった場合をヒット，無かった場合をミスという．ヒット率＋ミス率＝１

(33)

33

8.2 キャッシュ方式

キャッシュへのアクセス時間：1単位時間主記憶へのアクセス時間： 20単位時間ヒット率：90％だったとすると、キャッシュ方式による平均アクセス時間は 1 × 0.9 + 20 + 1 × 0.1 = 3 単位時間すなわち、 20/3＝6.67　倍の高速化となる。ヒット率が95%だと何倍の高速化になるか？

(34)

8.2 .2 セットアソシアティブ方式 (set associative mapping)

キャッシュ容量 65kB(216_B) 主記憶容量:256MB(228_B) 1語32bit (4B)とする．ディレクトリメモリタグタグブロックフレーム（2語） 0 1 12 13 25 タグセット（インデックス）ブロックフレーム（2語） 0 1 i 212_-1 比較一致検出回路比較一致検出回路セット 13bit (block k) 32bit 32bit セレクタセレクタ 32bit セレクタ

(35)

35

(36)

8.2 .2 セットアソシアティブ方式 (set associative mapping) 具体例

(37)

37

例えるならば

鳥取県鳥取市湖山町南4-101 比較一致検出回路セレクタ OFF 鳥取県鳥取市湖山町南出力せずキャッシュミスの場合

(38)

例えるならば

鳥取県鳥取市湖山町南4-101

比較一致検出回路セレクタ

(39)

39

8.3 仮想記憶方式

仮想アドレスと物理アドレス仮想アドレス空間物理アドレス空間主記憶

(40)

8.3 仮想記憶方式

主記憶と2次記憶のデータの入れ替え単位

ページ方式

セグメント方式

(41)

41

8.3 仮想記憶方式

ページ方式

仮想アドレス物理アドレス仮想ページ番号 i ページ内オフセット物理ページ番号 j ページ内オフセット同bit数ページ表 vは有効bit v 物理ページ番号 0 1 i 0 1 1 0 k j ページサイズは4kB～256kB

(42)

8.3 仮想記憶方式

セグメント方式

大きさが可変のブロック（ページ）をセグメントと呼ぶ．物理アドレスセグメント番号 i セグメント内オフセットセグメント内オフセット同bit数セグメント表 vは有効bit v 0 1 i 0 1 1 0 先頭物理アドレス物理先頭アドレスセグメントサイズ仮想アドレス

(43)

43 仮想アドレス仮想ページ番号 i ページ内オフセット TLB tag 物理ページ番号 0 1 i

TLB:translation look-aside buffer

キャッシュとの関係

一致しなければTLBミスセレクタブロックフレーム（2語）タグ 0 1 セットセレクタ比較一致検出回路比較一致検出回路セレクタ TLBタグ _{TLBセット番号} キャッシュセット番号ブロック内オフセット

(44)

仮想記憶の効果

メモリ共用の容易化複数のプログラムで主記憶を共用可能動的再配置(dynamic relocation) 十分なメモリ確保すなわち、実際の主記憶（ＤＲＡＭ）が少なくても 2次記憶（ＨＤＤなど）によってメモリ空間を広くとれるようになり大きなプログラムも動かせるようになる．

計算機構成論II第8回以降パイプライン＿記憶階層編

計算機構成論II パイプラン,記憶階層編

第8回以降(全15回）

電気情報系学科

横田孝義

授業計画

７ パイプライン処理

７ パイプライン処理

コンピュータの世界でのパイプラインとは？

フォンノイマン型コンピュータの性能向上策

性能：スループットともいう throughput,単位時間あたりの処理能力

７ パイプライン処理

直列処理だと。。

７ パイプライン処理

パイプライン処理だと。。（出来るだけ並列化）

７ パイプライン処理

７ パイプライン処理

人数が増えた場合は？

N人の場合

直列処理だと。。

4N

７ パイプライン処理

人数が増えた場合は？

N人の場合

パイプライン処理だと。。

N+3

７ パイプライン処理

７ パイプライン処理

RISC型CPU

各機械語命令の実行時間に基づきパイプライン処理を説明する。

RISC型CPU は１命令を１クロックサイクルで実行する。

命令実行のステージは以下の５ステージで構成されるとする。

①命令フェッチ(IF: instruction fetch ステージ)

➁命令デコードとレジスタフェッチ(ID:insruction decode ステージ)

③ALUでの演算とアドレス計算(EX:excutionステージ)

④メモリアクセス(MA:memory access ステージ)

⑤レジスタへの書き込み(WB:write backステージ)

７ パイプライン処理

RISC型CPU

①命令フェッチ(IF: instruction fetch ステージ)

➁命令デコードとレジスタフェッチ(ID:insruction decode ステージ)

③ALUでの演算とアドレス計算(EX:excutionステージ)

④メモリアクセス(MA:memory access ステージ)

⑤レジスタへの書き込み(WB:write backステージ)

７ パイプライン処理

RISC型CPU

７ パイプライン処理

RISC型CPU

７ パイプライン処理

RISC型CPU

処理時間 2N+8 ns

処理時間 7N ns

７ パイプライン処理

直列処理のクロックサイクル７nsと

パイプライン処理のクロックサイクル２ns

の比率である3.5に漸近する。

７ パイプライン処理

パイプラインの流れを乱すもの

次の命令の実行開始を阻害するもの。

ハザード hazard,競合 conflict などと呼ぶ。

パイプライン処理は停止してしまう。

命令を実行できないステージが発生。 Stall, bubble

構造ハザード….. ハードウエアが競合する場合

制御ハザード….. 分岐命令によって予測が外れる場合

データハザード…..演算結果待ちが生じる場合

７ パイプライン処理

ハザードの種類は３種類

構造ハザード….. ハードウエアが競合する場合

制御ハザード….. 分岐命令によって予測が外れる場合

データハザード…演算結果待ちが生じる場合

CPU

基本的演算とその拡張

データハザード…..演算結果待ちが生じる場合

加算

R1+R2->R3

減算

R3-R4->R5

データハザード…..演算結果待ちが生じる場合の対策

データハザード…..演算結果待ちが生じる場合の対策

加算

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理

７パイプライン処理