• 検索結果がありません。

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx"

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)

3次元DRAM‐プロセッサ積層実装を

対象としたオンチップ・メモリ・

アーキテクチャの提案と評価

ア キテクチャの提案と評価

○橋口慎哉† 小野貴継†(現‡)

井上弘士‡ 村上和彰‡

井上弘士‡ 村上和彰‡

†九州大学大学院 システム情報科学府

‡九州大学大学院 システム情報科学研究院

‡九州大学大学院 システム情報科学研究院

(2)

発表手順

発表手順

究背景

• 研究背景

• 研究目的

研究目的

• ハイブリッド・キャッシュ・アーキテクチャ

• 評価実験

• まとめと今後の課題

まとめと今後の課題

(3)

研究背景

• 3次元実装技術

バル配線長の削減 チ プ面積縮小

– グローバル配線長の削減、チップ面積縮小

– 異なるプロセスを経て製造されたダイ同士の積層

• プロセッサ・ダイとDRAMダイを積層することに

• プロセッサ・ダイとDRAMダイを積層することに

よりオンチップ・メモリの大容量化を実現可能

解決策

→メモリウォール問題の解決策

TSV(Through

Silicon Vias)

3 出典:米インテル社

(4)

3次元実装によるキャッシュメモリの大容量化

• DRAMスタック法[Black MICRO’06]

– 従来の2次元実装プロセッサ(ベースプロセッサ)上に

3次元実装技術により大容量DRAMキャッシュを積載

– DRAMキャッシュのタグRAMとして数MBの容量が必

オフチップメモリアクセス回数削減

下層のSRAMをタグRAMとして使用

L2 Cache (DRAM) Core(s) + L1(s) L2 TagRAM (SRAM) L2 Cache (SRAM) Core(s) + L1(s)

ベースプロセッサ(2次元実装)

DRAMスタック法(3次元実装)

(5)

DRAMスタック法の問題点

タック法の問題点

L1キャッシュの アクセス時間[cc] L1キャッシュ ミスの割合 L2キャッシュの アクセス時間[cc] L2キャッシュ ミスの割合 主記憶の アクセス時間[cc]

MMAT

MR

HT

MR

HT

AMAT

L1

L1

L2

L2

[ ] [ ] [ ] DRAMスタック 法の効果 (?) 3.0 性能向上率 1.5 2.0 2.5

性能向上

Ocean

プ グラムによ ては

100 80 100 50 0 1.0 0 0.5

性能低下

Cholesky

プログラムによっては

性能が低下

20 60 40 100 80 150 200 100 0 L2キャッシュ アクセス時間の増加 L2キャッシュミス率の削減率 [cc] [points] 5

(6)

キャッシュ容量とキャッシュミス率の関係

キャッシュ容量とキャッシュミス率の関係

60 大きく低 50 % ] あまり低下 しない 大きく低 下する FFT LU FMM 30 40 ュ ミス 率 [% 大きく低 下する FFT Ocean 20 30 キ ャッシ ュ 下する あまり低下 しない 大きく低 下する Cholesky Ocean 10 L2 キ あまり低下 しない 下する Cholesky Barnes WaterSpatial 0 2MB 4MB 8MB 16MB 32MB 64MB 128MB Raytrace Barnes L2キャッシュ容量

(7)

プログラム実行中の

適したキ

シ 容量の変化

適したキャッシュ容量の変化

O

300 350 2MB(12cc) 32MB(60cc)

Ocean

200 250 300 ル ティ [cc] 100 150 200 ミ スペナ ル 0 50 100 L 1 ミ 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 区間 (300 )

適したキャッシュ容量:大

L1ミスペナルティ=HTL2+MRL2×MMAT (300cc)

適したキャッシ 容量:大

適したキャッシュ容量:小

(8)

研究のねらい

研究のねらい

• 着眼点

着眼点

– 大容量DRAMキャッシュの活用により必ずしも性

能が向上するとは限らない

能が向上するとは限らない

– 適したキャッシュ容量はプログラム間、ならびにプ

グラム内 変化

ログラム内で変化

• 研究目的

研究目

– DRAMスタック法の問題点を解決したメモリ・アー

キテクチャの提案と評価

キテクチャの提案と評価

– 「大容量かつ低速キャッシュ」ならびに「小容量か

つ高速キャッシュ」を同一アーキテクチャで実現

つ高速キャッシュ」を同一アーキテクチャで実現

(9)

ハイブリッド・キャッシュ搭載プロセッサ

ハイブリッド キャッシュ搭載プロセッサ

• プログラム間(中)の適したキャッシュ容量の変化に応じ

て下層SRAMキャッシュの動作モードを切り替える

未使用 L2 L2 L2 Cache (DRAM) Core(s) Core(s) TagRAM (SRAM) Cache (SRAM) 切り替え キャッシュモード タグモード Core(s) + L1(s) Core(s) + L1(s) (高速かつ小容量L2キャッシュ) (低速かつ大容量L2キャッシュ) L2 Cache Cache L2 Cache (DRAM) Core(s) (SRAM) + L1(s)

ハイブリッド・キャッシュ

(10)

ハイブリッド・キャッシュ実現への課題

ハイブリッド・キャッシュ実現への課題

• タグ情報のマッピング

• タグ情報のマッピング

– DRAMキャッシュのタグ情報はハイブリッド・キャッ

シュのデータアレイに格納

シュのデ タアレイに格納

– ハイブリッドキャッシュのライン数より多いDRAMの

タグ情報をどのようにマッピングするか?

タグ情報をどのようにマッピングするか?

• ハードウェア・サポート

ド キ

タグ情報をど

– ハイブリッド・キャッシュ内のタグ情報をどのように

して読みだすか?

動作

決定

ゴ ズム

• 動作モードの決定アルゴリズム

– いつ、何に基づき動作モードを決定するか?

(11)

タグ情報のマッピング

キャッシュ・モード時 データが格納される領域 デコ ダ タグ タグ デコーダ

1 Way

1 W

キャッシュ・モード時 タグが格納される領域 2ウェイ・セットアソシアティブ SRAMキャッシュ

1 Way

2ウェイ・セットアソシアティブ DRAMキャッシュ L2 Cache (DRAM) 11 L2 TagRAM (SRAM) Core(s) + L1(s)

(12)

ビ ド 物 ド イ デ ク ド

通常のキャッシュ構成

64ビットアドレス(物理アドレス) インデックスフィールド タグフィールド オフセットフィールド IS 下層SARM(容量: ラインサイズ: LS 連想度: ) CS WS デコーダ L lg S I -L lg -64 S S ラインサイズ: LS 連想度:WS ) IS LS LS 64-lgLS-IS

=

=

64-lg LS-IS LS I -L lg -64 S S

.

MUX1

=

=

1 1 LS

.

.

Hit/Miss Data (SRAM) W ・ L C lg I S S S S  1 LS Hit/Miss (SRAM) W L C lg ID D ・ 

(13)

ビ ド 物 ド イ デ ク ド

ハードウェア・サポート

64ビットアドレス(物理アドレス) インデックスフィールド タグフィールド オフセットフィールド IS ID 下層SARM(容量: ラインサイズ: LS 連想度: ) CS WS デコーダ L lg S L lg D I -L lg -64 S S I -L lg -64 D D ラインサイズ: 連想度: ) 上層DARM(容量: ラインサイズ: LD 連想度: ) LS CD WD WS IS LS LS W L ・ C W L ・ C lg D D S S S D ・ ・ I -L lg -64 S S

=

=

64-lg LS-IS ID LS I -L lg -64 S S I L g 6 S S MUX1

=

=

MUX2 I -L lg -64 D D LD LD 1 1 LS I -L lg -64 D D I -L lg -64 D D 追加 HW

.

MUX3

=

Hit/Miss Data (SRAM)

=

W ・ L C lg I S S S S  I L lg 64 D D LD 1 1 1 L LS 追加 追加 追加 追加 HW

. .

Hit/Miss (SRAM) Hit/Miss (DRAM) Data (DRAM) W L C lg I D D D D ・  1 LD 追 HW 追 HW 追 HW 13

(14)

ハイブリッド・キャッシュ搭載

プロセッサの利点・欠点

DRAMスタック法より高性能、もしくは同性能

– 高速小容量のL2キャッシュと低速大容量のL2

高速小容量のL2キャッシ と低速大容量のL2

キャッシュを選択的に活用

消費エネルギーの削減

消費エネルギ の削減

– キャッシュ・モード時、上層DRAMは動作しない

×

下層ダイの面積増加

×

下層ダイの面積増加

– マルチプレクサ等の追加→無視できる程に小さい

– 上層DRAMキャッシュに関するすべてのタグ情報

をハイブリッド・キャッシュに格納できない場合、メ

モリアレイを拡大する必要がある

モリアレイを拡大する必要がある

(15)

動作モードの切り替え

キャッシュ・ モ ド

• 静的切り替え

40 50 ス 率 [%] FFT モード

– プログラム実行前により高性

能な動作モードを決定する

プ グラム実行中に動作

10 20 30 2 キャッシュミ ス FMM Barnes タグ・モード

– プログラム実行中に動作

モードの切り替えは行わな

0 2MB 4MB 8MB 16MB 32MB 64MB 128MB L2 L2キャッシュ容量 Barnes キャッシュ・

• 動的切り替え

Ocean L2キャッシュ容量 モード 2MB(12cc) 32MB(60cc)

– プログラム実行中に動作

モードを切り替える

200 300 400 ルティ [cc] タグ・モード

– 動作モード切り替えタイミン

グの決定はプログラム実行

前・実行中のいずれか

0 100 200 1 9 7 5 3 1 9 7 5 3 1 9 7 L 1 ミスペナ

前 実行中のいずれか

1 9 1 7 25 33 41 49 75 65 73 81 89 97 区間 キャッシュ・ モード

(16)

評価実験~評価対象モデル~

評価実験

評価対象 デル

L2 Data Cache (DRAM) L2 Cache (SRAM) Core(s) + L1(s) Core(s) + L1(s) L2 TagRAM (SRAM) (DRAM)

2D‐BASE

(=ベースプロセッサ)

3D‐CONV

+ L1(s) (SRAM)

( ベ スプロセッサ)

(=DRAMスタック法)

h 未使用 L2 L2 Data Cache (DRAM) L2 L2 TagRAM (SRAM) Core(s) + L1(s) Core(s) + L1(s) L2 Cache (SRAM)

静的切り替え:

3D‐HYBRID‐STATIC

16

(17)

評価実験~実験環境~

プロセ サシミ レ タ

• プロセッサシミュレータ:M5

• ベンチマークプログラム:SPEC CPU 2000 、Splash2から選択

• 評価対象

• 評価対象

– 2D‐BASE

– 3D‐CONV

どちらのモードが高性能となる か実行前に既知であるとする

– 3D‐HYBRID‐STATIC

– 3D‐HYBRID‐DYNAMIC

• 評価指標:AMAT

切り替える適切なタイミングは既 知とし、かつ切り替えによるオー バーヘッドはなしと仮定 オンチップ

• 評価指標:AMAT

オンチップ

2D‐BASE

キャッシュ・モード

3D‐CONV

タグ・モード

L1  コア L1 コア 容量:32KB アクセス時間:1clock cycle L2 キャッシュ L2 キャッシュ 容量:2MB アクセス時間: 12clock cycles 容量:32MB アクセス時間: 60 clock cycles 主記憶 17 アクセス時間:300clock cycles 主記憶 y y

(18)

評価実験~実験結果~

評価実験

実験結果

2D‐BASE 3D‐CONV 3.5 4 3D‐HYBRID‐STATIC 3D‐HYBRID‐DYNAMIC 2 2.5 3 能 向上比 0 0.5 1 1.5 性 能 0 ベンチマークプログラム

(19)

評価実験~実験結果~

評価実験

実験結果

2D‐BASE 3D‐CONV L2 Cache (SRAM) Core(s) + L1(s) Core(s) + L1(s) L2 TagRAM (SRAM) L2 Cache (DRAM) 3.5 4

3D‐HYBRID‐STATIC 3D‐HYBRID‐DYNAMIC 2D‐BASE (SRAM)3D‐CONV

2 2.5 3 能 向上比 0 0.5 1 1.5 性 能 0 ベンチマークプログラム

3D‐CONVで性能が低下するプログラムが複数存在する

(20)

評価実験~実験結果~

2D‐BASE 3D‐CONV 2D‐BASE L2 Cache (SRAM)+ L1(s)Core(s) Core(s) + L1(s) L2 TagRAM (SRAM) L2 Cache (DRAM) L2 TagRAM (SRAM) L2 Cache (DRAM) Core(s) + L1(s) Core(s) + L1(s) 未使用 L2 Cache (SRAM) 3.5 4

3D‐HYBRID‐STATIC 3D‐HYBRID‐DYNAMIC2D BASE 3D‐CONV (SRAM)静的切り替え:3D‐HYBRID‐STATIC(SRAM)

2 2.5 3 能 向上比 0 0.5 1 1.5 性 能 0 ベンチマークプログラム

3D‐CONVで性能が低下するプログラムは3D‐

(21)

評価実験~実験結果~

2D‐BASE 3D‐CONV 2D‐BASE L2 Cache (SRAM)+ L1(s)Core(s) Core(s) + L1(s) L2 TagRAM (SRAM) L2 Cache (DRAM) L2 TagRAM (SRAM) L2 Cache (DRAM) Core(s) + L1(s) Core(s) + L1(s) 未使用 L2 Cache (SRAM) 3.5 4

3D‐HYBRID‐STATIC 3D‐HYBRID‐DYNAMIC2D BASE 3D‐CONV (SRAM)静的切り替え:3D‐HYBRID‐STATIC(SRAM)

2 2.5 3 能 向上比 0 0.5 1 1.5 性 能 0 ベンチマークプログラム 21

2D‐BASEや3D‐CONVと比較して3D‐HYBRID‐DYNAMICの性

能が大きく向上するプログラムがいくつか存在する

(22)

評価実験~実験結果~

L2 Cache 2D‐BASE 3D‐CONV L2 TagRAM (SRAM) L2 Cache (DRAM) Core(s) + L1(s) Core(s) + L1(s) 未使用 L2 Cache (SRAM) L2 TagRAM (SRAM) L2 Cache (DRAM) Core(s) + L1(s) Core(s) + L1(s) 未使用 L2 Cache (SRAM) 静的切り替え:3D HYBRID STATIC 3.5 4

3D‐HYBRID‐STATIC 3D‐HYBRID‐DYNAMIC静的切り替え:3D‐HYBRID‐STATIC (SRAM)静的切り替え:3D‐HYBRID‐STATIC(SRAM)

2 2.5 3 能 向上比 0 0.5 1 1.5 性 能 0 ベンチマークプログラム

3D‐HYBRID‐STATICと」3D‐HYBRID‐DYNAMICの性能

(23)

考察

考察

181.mcfやOcean以外のプログラムの多くは

3D‐HYBRID‐DYNAMICの3D‐HYBRID‐STATICに

対する性能向上が小さい

171.swim キャッシュ・モード タグ・モード 179.art 2MB 32MB 200 300 ナ ルティ 40 60 80 ナ ルティ 0 100 1 3 5 7 9 1 3 5 7 9 1 3 L1 ミスペ ナ 0 20 40 1 1 1 1 1 1 1 1 1 1 1 1 1 L1 ミスペ ナ 1 33 65 97 12 9 16 1 19 3 22 5 25 7 28 9 32 1 35 3 区間

プログラム実行の大部分でキャ シ

モ ドが高

1 41 81 12 1 16 1 20 1 24 1 28 1 32 1 36 1 40 1 44 1 48 1 区間

プログラム実行の大部分でキャッシュ・モードが高

性能となるかタグ・モードが高性能となるため

(24)

まとめと今後の課題

まとめと今後の課題

• まとめ

– 高速かつ大容量なメモリを実現するハイブリッド・

キャッシュを提案

– 静的切り替えはDRAMスタック法に対し平均35%の性

能向上を達成

動的切り替

対 最大

– 動的切り替えはベースプロセッサに対し最大115%の

性能向上を達成

今後の課題

• 今後の課題

– 動作モード決定アルゴリズムの考案(OSサポート等)

何か良

デ あ ま

うか

• 何か良いアイデアありませんでしょうか?

– マルチコア時の性能評価

消費 ネルギ の評価

– 消費エネルギーの評価

(25)

ご清聴ありがとうございました

ご清聴ありがとうございました

参照

関連したドキュメント

現時点で最新の USB 3.0/USB 3.1 Gen 1 仕様では、Super-Speed、Hi-Speed、および Full-Speed の 3 つの速度モードが定義されてい ます。新しい SuperSpeed

READ UNCOMMITTED 発生する 発生する 発生する 発生する 指定してもREAD COMMITEDで動作 READ COMMITTED 発生しない 発生する 発生する 発生する デフォルト.

「系統情報の公開」に関する留意事項

ダウンロードしたファイルを 解凍して自動作成ツール (StartPro2018.exe) を起動します。.

NISSEI RED EXHIBITION in Nagano2022”

予報モデルの種類 予報領域と格子間隔 予報期間 局地モデル 日本周辺 2km 9時間 メソモデル 日本周辺 5km 39時間.. 全球モデル

ERROR  -00002 認証失敗または 圏外   クラウドへの接続設定及びア ンテ ナ 接続を確認して ください。. ERROR  -00044 回線未登録または

・性能評価試験における生活排水の流入パターンでのピーク流入は 250L が 59L/min (お風呂の