1 Hybrid Memory Cube HMC CPU HMC 2. Hybrid Memory Cube HMC 2.1 Hybrid Memory Cube (HMC) Micron HMC DDR DRAM TSV I/O HMC 1 1 (Vault ) 4 4 HMC DDR

(1)

次世代

3 次元実装メモリのメモリネットワーク構成に

関する初期検討

佐々木沢

1

_{近藤正章}

2

_{和田康孝}

3

_{本多弘樹}

1

概要：Micron社が中心となって開発を進めている次世代3次元実装メモリHybrid Memory Cube (HMC) は，シリアル通信を利用した高いデータ転送能力と低い電力消費が評価され，富士通のHPC向けプロセッサSPARC64 XIfxでの採用が予定されている．しかし，従来に比べ性能あたりのメモリ容量が少ないことが課題である． HMCはロジックチップ内のスイッチを利用したメモリネットワークの構築が可能である．一方で，メモリネットワークにおいてCPUから距離が遠いメモリモジュールへのアクセス遅延が性能に及ぼす影響はまだ十分に解析されていない．本稿では，SPARC 64XIfxのメモリ接続構成を例に，HMCによるメモリネットワークの性能を評価する．また，距離の遠いメモリ上のデータをCPU近傍のHMCモジュールにキャッシュすることでアクセス遅延を削減する手法を提案し，その効果を評価する．評価の結果，キャッシュ手法が性能向上に寄与する可能性があることを確認した．

1. はじめに

プロセスルールの微細化によるCPUのマルチコア化と機能の追加によって，プロセッサの性能向上が進む一方で，DRAMメモリへのアクセス速度が相対的に遅く，システムの性能上のボトルネックとなっている問題が深刻化している．これに対し，メモリバンド幅の向上とメモリアクセスレイテンシの削減，さらには消費電力の削減を目的とした新しいメモリアーキテクチャが開発されている．特に近年では，3次元LSI実装技術の進歩により，それを利用した3次元積層型メモリの進展が著しく，Wide I/O[1]

やHybrid Memory Cube (HMC)[2], [3]といった，3次元

積層型メモリ規格の実用化が進められている． 3次元実装では，モジュールあたりのメモリ容量を大きくでき，その分CPUとメモリ間の物理的な距離を短かくすることで，今までのDIMM規格と比較して高いバンド幅を達成できる． HMCはCPUとは異なるモジュールとしてDRAMチップを4枚から8枚程度積層するメモリ規格であり，CPU 1 _{電気通信大学大学院情報システム学研究科}

Graduate School of Information Systems, The University of Electro-Communications

2 _{東京大学大学院情報理工学系研究科}

Graduate School of Information Science and Technology, The University of Tokyo

3 _{早稲田大学基幹理工学研究科}

Graduate School of Fundamental Science and Engineering, Waseda University とメモリモジュール間はシリアル通信でデータの転送を行う．最下層部にはメモリコントローラやCPUとの通信を行うためのロジックチップが実装される．CPUにメモリを直接積層する場合に比べ，CPUの発熱問題を考慮する必要がなく，また，メモリの信頼性向上のための技術をロジックチップに実装できることから，高性能コンピューティングでの利用が有望視されており，例えば，富士通の HMC向けのプロセッサSPARC64 XIfxに採用される予定である[4], [5]．今までのDDR DRAM規格に比べて最高で480GB/secという高いメモリバンド幅を利用できる．現状では，HMCの1モジュールあたりのメモリ容量は 4GB程度であり，CPUの近傍に配置できるモジュール数も限られている．さらにはメモリとのデータ転送に利用できるピン数にも限界があることから，複数のメモリチップから構成されるDIMMをパラレル通信のメモリバスで接続する現状のDDR規格のメモリに比べ，容量が制限されてしまう．HPC分野の，大容量のメモリを必要とするアプリケーションに対しては，HMCの高いメモリバンド幅という特徴を持ちつつ，メモリ容量を増加させることが望まれる．そこで，HMCのロジックチップにあるスイッチ機構を利用し，メモリモジュール同士を接続してメモリネットワークを構築する[3]ことで，高いメモリバンド幅という特徴を失うことなく，メモリ容量のスケーラビリティを確保することができると考えられる．しかし，複数のHMC

(2)

図1 Hybrid Memory Cubeの構造モジュールを経由したデータ転送ではメモリアクセス遅延が増大し，性能に影響を及ぼす可能性がある．これまでに，このメモリネットワークの遅延が性能に与える影響は十分に解析されていない．本稿では，HMCの持つネットワーク機能によりメモリを増設した場合の，メモリアクセス遅延が性能へ与える影響をシミュレーションにより評価する．また，CPUの近接にあるHMCをキャッシュとして利用することで，モジュール数増加による性能への影響を低減するための手法を検討する．

2. Hybrid Memory Cube（HMC）

2.1 アーキテクチャ

Hybrid Memory Cube (HMC)は，Micron社をはじめとする企業や研究機関が提唱し，開発を進めている新しいメモリ規格である．HMCは，DDR等の従来のメモリ規格とは異なり，DRAMとロジックが集積されたチップを， TSVを用いて3次元方向に4枚から8枚積層した構造を持つ．最下層部のロジック部にはメモリへのアクセス制御のためのメモリコントローラやプロセッサとのI/Oインタフェース，ルータ等が実装されている．HMCの構成を図 1に示す．ロジック部には複数のメモリコントローラが搭載され，各コントローラの上に集積されたメモリを合わせて1つのブロック(Vaultと呼ばれる)が構成される．図は4× 4 のブロックを持つHMC構成の例である．これまでの複数チャネルを持つDDR規格のメモリシステムと比較して，メモリアクセスの並列性を大幅に高めることが可能である． 3次元積層技術により1チップに大容量の記憶素子を実装できるため，プロセッサの近傍に少数チップのみを配置してシステムを構築することができる．そのため，プロセッサ・HMCモジュール間で高速な通信路を設けることができ，従来のDDRに比べてメモリバンド幅を大幅に向上することが可能である．プロセッサ・HMCモジュール間通信の単位は，10Gbpsから15Gbpsの速度を持つシリアル通信路を受信および送信の双方で16本束ねたものを 1リンクとして接続される．1HMCモジュールあたり，2 または8本のリンクを持ち，1モジュールあたりのメモリバンド幅は最大で480GB/secにもなる．図2 ネットワークリンク機能を用いたトポロジ例プロセッサとの通信に加えて，HMCモジュール間をリンクで接続し，プロセッサへとの途中経路にあるHMCを中継ルータとして利用してすることで，メモリを増設することもできる．HMCモジュール間の接続に用いるリンクをpass-thru Link，プロセッサなどのホストとの通信に利用するリンクをHost Linkとし，ネットワークが構築される．図2にHMCのネットワークリンク機能を用いたトポロジ例を示す．各HMCに識別IDを割り振り，メモリアドレスからID を決定してアクセスすることで，パケット通信によりプロセッサとデータが存在するHMCとの間で通信を行う．この際に，データやアドレスは16-Byteのフリット毎に分割され，フリットベースの通信プロトコルを利用して通信を行うことで，高い柔軟性を実現している． 2.2 HMCを用いたシステムの実例現在は，Micron社よりHMCモジュールのプロトタイプ版が提供されている段階であり，Xilinx社やAltela社は HMCの評価基盤を公開している[6]．また，富士通株式会社の次期HPCシステム向けプロセッサであるSPARC64 XIfxでは，主記憶メモリとしてHMCを採用することを発表している[4], [5]． SPARC64 XIfxでは，図3に示すように，1つのプロセッサに対して，8つのHMCモジュールが接続される構造が採用されており，1モジュールあたりのVault数が4つ，積層DRAMチップ数が4チップ，モジュールあたりの容量が4GBのプロトタイプ版が採用されると考えられている．また，1モジュールからのリンク数は2リンクであり，メモリバンド幅は，モジュールあたりで60GB/sec，システム全体で最高240GB/secと考えられる． 2.3 課題 HMCは，3次元実装技術によりモジュールあたりの搭載メモリ容量を大きくでき，プロセッサの近傍にモジュールを配置することで高いバンド幅を得ることができる．しかし，プロセッサと直接接続できるモジュール数は，プロ

(3)

図3 SPARC64 XIfxのメモリ接続構成セッサのピン数やモジュールの実装面積の点で限界がある．そのため，プロセッサあたりのメモリ容量を確保することが難しくなる．実際，SPARC64 XIfxプロセッサでは，チップのピーク浮動小数点演算性能が1.1TFLOPSと，京コンピュータで用いられているSPARC64 VIIIfxの8.6倍，後継機種の FX10で用いられているSPARC64 IXfxプロセッサの4.7 倍の性能であるにも関わらず，プロセッサあたりのメモリ容量はSPARC64 VIIIfxプロセッサの2倍，SPARC64 IXfxプロセッサと同程度と演算性能あたりのメモリ容量は大幅に小さくなっている． HPC分野での，大容量のメモリを必要とするアプリケーションに対しては，HMCの高いメモリバンド幅という特徴を持ちつつ，メモリ容量を増加させることが望まれる．上記で述べたように，HMCはモジュール間をリンクで接続し，ネットワークを構築することでHMCモジュールを増設することができる．しかし，アクセス対象のHMC モジュールをアクセスするまでに経由するHMCモジュール数，すなわちHop数が増加する毎にシリアル・パラレルデータ変換やルータでの調停等が必要になり，メモリアクセスにかかる遅延時間が増加してしまう可能性がある．そのため，HMCのネットワーク構成やデータ配置を適切に行う必要があるが，これまでにHMCネットワークを構築した際の性能への影響は十分に評価や検討がなされていない．

3. HMC モジュール間ネットワーク

アーキテクチャの検討

本検討では，先ほど紹介した富士通のSPARC64 XIfxの接続アーキテクチャをベースにして，将来的にメモリ容量スケーリングを行う際に用いられる，HMCを利用したメモリネットワークの接続パターンを分類し評価を行う． 3.1 1CPUの場合のHMCネットワーク接続 (1) 2-link HMC Module 図4 2リンクHMCモジュールの接続構成 2-link HMCモジュールを利用する場合，図3に示す SPARC64 XIfxプロセッサのメモリ接続では，2本のリンクともプロセッサ側に接続されており，メモリモジュールをネットワーク接続することはできない．そこで，1リンクをHost Linkとし，もう1方をPass-thru Linkとすることを考える．この場合，プロセッサ側に接続する合計モジュール数がそのままであれば，トータルメモリバンド幅が減少してしまう．しかしプロセッサチップのピン数には余裕ができるため，プロセッサ側に接続するHMCモジュール数を倍にすることができれば，メモリバンド幅を確保することができる*1_．メモリネットワーク構成例を図4に示す．なお，図では 4リンク分の接続のみを示しており，実際にはこの構成が，プロセッサへの接続リンク数分だけ複製されることになる．図中の1x4x2chainのように表記されている接続パターン名は「1モジュールあたりのHost Link数×CPUに接続す

るモジュール数_×CPUから数えた最遠モジュールまでのモジュール数(距離)+トポロジ名」を表している．例えば，

1x4x2chainは各HMCモジュールからCPUに接続される Host Link数は1本であり，4モジュールがCPUに接続され，さらにCPUからの最大モジュール距離が2であることを示している．トポロジとしては，以下が考えられる． • single: HMCモジュール間のネットワークを用いずに，全モジュールがCPUに直結 • chain: HMCモジュールをdaisy-chain型で接続 • ring: chainネットワークの終端をお互いに接続しリング型ネットワークを構成 • mesh: メッシュ型にHMCを接続 2リンクHMCモジュールでは，1方のリンクをPass-thru Linkとすることで，chain型，あるいはring型のメモリネットワークを構築することができる．これにより，モジュールIDの上限など，制御上の制限に達するまでは，メモリ容量を増加させることが可能となる．chain型とring 型は，CPUから見て直結するHMC数，および直結された *1 基板上への実装の点からの検討が必要であるが，本稿では倍に実装できるものとして議論を進める

(4)

図5 4リンクHMCモジュールの接続構成 HMCに接続するHMC群の数が同数であれば，最大Hop 数やメモリバンド幅などの基本的なパラメータは一致する． chain型と比較したring型の利点としては，一部のHMC モジュール，あるいはリンクに故障が発生した場合や，一部が混雑して性能のボトルネックとなるような場合に代替ルートを利用してメモリアクセスを行うこともできることにある．なお，2リンクHMCモジュールではmesh型はリンク数が不足することから採用することができない． (2) 4-link HMC Module 図5に4リンクHMCモジュールのメモリネットワーク構成例を示す．リンク数が4本のHMCモジュールの場合には，モジュールあたりでCPUとの接続に利用するリンク数を増加させることもでき，構成の柔軟性が増加する．ただし，1つの HMCモジュールに対してCPU側で必要なピン数が増加するため，近接のHMCモジュール数が減少することが欠点として考えられる．また，4リンクHMCモジュールでは，1x4x4mesh構成のように，メッシュ型ネットワークを採用することも可能となり，より複雑な経路を選択してメモリアクセスを行うことも可能になる．これらの構成のまとめとして，各構成の比較を表1に示す．構成ごとに最大Hop数はもとより，経路の拡張性・冗長性等の性質が異なることが分かる． 3.2 アクセスレイテンシ削減手法前述のように，HMCモジュールの増加によるレイテンシ増加の影響を削減するためには，利用頻度の高いデータをよりCPU近傍のHMCモジュールに配置したい．そこで，CPUと直結したHMCモジュール上にキャッシュ領表2 評価環境パラメータ値 CPU Clock 3GHz L1 Cache size 64KB L2 Cache size 256KB Cache coherence Directory-based MOESI

域を設け，他のHMCモジュールから中継のために送られるフリットから，データ取得に一時的にキャッシュすることを考える．CPUから再度同じアドレスに対するデータがリクエストされた場合は，キャッシュ領域からデータを取得可能なので，HMCをHopする回数を大きく減らすことができると考えられる． 3.3 複数CPUのメモリネットワーク接続 3.1節で述べたメモリネットワークは，1ノードに1CPU (ソケット)の構成を前提にしていた．しかし，HPCシステムでは複数CPUソケットを搭載するシステムも多い． HMCではメモリネットワークに対して複数のCPUを接続することが可能であり，実際，複数CPUを接続する場合のメモリネットワーク構成に関する研究も進められている[19]．HMCネットワークをより活用するためには， CPU間のインターコネクトも含めた構造は，今後有力なアーキテクチャになると予想される． CPU間の接続を含めたメモリネットワークにおいても， CPUからの距離が遠いモジュールへのアクセス遅延増加は大きな問題になると考えられるため，本稿の検討結果は複数CPUのメモリネットワーク接続においても有用になると考えられる．複数CPUのメモリネットワーク接続の場合におけるレイテンシ削減手法の評価などは今後の課題とする．

4. 評価

4.1 評価方法本稿では，HMCモジュールをネットワーク接続した際の，複数モジュールを経由したメモリアクセスが性能に及ぼす影響と，3.2節で述べたキャッシュ機構の効果をサイクルレベルシミュレーションにより評価する．シミュレータはgem5+Rubyを利用したNoCのシミュレーション環境をHMC向けに拡張したものを利用した．HMC自体のサイズ，アクセスレイテンシは表3のようにした．使用した評価環境を表2に示す．利用したベンチマークプログラムはNAS Parallel Benchmarks（NPB）のプログラムからいくつかを選択して用いた．使用したのはCLASS=Wをもとに，シミュレーション時間の削減の目的で，問題サイズ，カーネルループのイテレーション数を変更したものを利用した(表4)．

(5)

表1 各構成の比較構成最大Hop数最大Hop数 (w/alt.pass) 拡張性経路冗長性複雑性 2linkHMC 2x2x1single 1 1 no no low 1x4x1chain 1 1 high no low 1x4x2chain 2 2 high no middle 1x4x4chain 4 4 high no middle

1x4x4ring 4 8 high high high

4linkHMC

4x1x1single 1 1 no low low 2x2x1chain 1 1 high low low 2x2x2chain 2 2 high low middle 2x2x4chain 4 4 high low middle

2x4x2ring 4 8 high high high 1x4x4mesh 4 11 very high very high very high

表3 HMCパラメータ

パラメータ値

HMC 128MB DRAM Timing tRAS=22, tRP=11

Hop Latency 5ns 表4 NPBパラメータ名称問題サイズイテレーション数 CG 1400 15 EP 2097152 1 FT 64× 64 × 64 8 IS 1048576 10 LU 33× 33 × 33 300 MG 64× 64 × 64 8 図6 Hop数増加によるIPC低下率 4.2 Hop数とIPCの関係メモリネットワーク構成において，メモリアクセス時に中継するHMCモジュールの数，すなわちHop回数が多いほど，スイッチングやシリアル・デシリアライズなどによる遅延のためにメモリアクセス時間が増加し，IPCが低下することが予測される．その影響を評価するために，データが置かれているHMCまでのHop数を変化させ，IPCに与える影響を評価した．本実験ではCPUコア数を2つと設定した．実際のHop数はデータの配置に依存するが，ここでは全てのデータが，該当Hop数でアクセスされるHMCモ図7 2リンクHMCモジュール（2スレッド）の結果図8 2リンクHMCモジュール（4スレッド）の結果ジュールにあった場合を想定し評価を行った．CPUと直接接続されるHMCモジュールから全データを取得する場合と比較して，Hop数が1から5の場合のIPC低下率を図7に示す．図より，全ベンチマークでHop数の増加と比例してIPC が低下していることが確認できる．影響の大きさはプログラム毎に異なり，CGでHop数が5と設定した場合のIPC 低下率が29%で最も大きく，最も影響が小さなFTでも 7%弱のIPC低下が見られる．このことから，Hop数の大きなモジュールへのアクセスを減らすための適切なデータ配置やキャッシュ機構の導入が重要であることがわかる． 4.3 ネットワーク構成とIPCの関係次に，種々のネットワーク構成の場合のIPCを評価す

(6)

図9 4リンクHMCモジュール（2スレッド）の結果図10 4リンクHMCモジュール（4スレッド）の結果る．2リンクHMCモジュールを利用した場合において，スレッド数が2と4の場合を評価した．本評価では，接続される全てのHMCモジュールに対して8KB毎にデータをインターリーブして配置した．それぞれの評価結果を図 7，図8に示す．全てのHMCが直接CPUに接続される2x2x1single，および1x4x1chainのIPCが高く，Hop数が多いHMCモ

ジュール数が多いほどIPCが低下していく傾向があることがわかる．また，2スレッドの場合ではほとんどのベンチマークで2x2x1singleが最もIPCが高いが，4コアの場合では1x4x1chainのIPCが高いアプリケーションが見られる．特にCGの4スレッドの場合では，1x4x2chainのIPC が最も高くなっている．これは，スレッド数が増え，同時メモリアクセス数が増加すると，メモリコントローラ数やバンク数がモジュール数に比例して増加することから，メモリレベル並列性をより活用できるためと考えられる．当然ながら1x4x4chainと1x4x4ringはデータ配置やHop数に違いがないため，同じIPCになっている．なお，ISやLUでは，スレッド数によらず，Hop数増加によるIPC低下が確認できる．例えばISの場合では， 2x2x1singleに比べ，1x4x4の構成では2スレッドで5.5%， 4スレッドで9.1%のIPC低下が見られる．これらのベンチマークに対して，アクセス回数が多いデータの配置場所をCPU近接HMCへ移動することでIPCの向上が期待できる．次に，4リンクHMCモジュールを利用した場合の2スレッドの評価結果を図9に4スレッドの評価結果を図10 に示す． 4リンクモジュールでは，ほとんどの場合で，アクセスの際のHop数が多いHMCモジュール追加に応じてIPC低下が確認できる．特に，2リンクモジュールではIPCに差があまりなかったCGでもネットワーク構成ごとのIPC差が大きくなっている．また，2リンクと4リンクモジュールの結果を比較すると，多くのベンチマークプログラムでは，最大Hop数が大きくない構成ではほとんど差がないものの，最大Hop数が増加するにつれ，2リンクモジュールを利用した場合と比較して4リンクモジュールのIPCが低下している．この理由の解析は今後の課題である． 4.4 キャッシュ手法の評価 CPUからの最大HMCモジュール距離が2以上のトポロジに対して，HMC上に簡易なキャッシュ機構を実装した場合のメモリアクセスレイテンシの削減の効果を評価した．本評価では，キャッシュサイズは，1つのHMCモジュールの4分の1とした．通常のメモリネットワークに対し，本手法を適用した場合のIPC向上比のグラフを図 11に示す．図より，ほとんどの場合でキャッシュ手法を利用することでIPC向上が確認できる．ただし，図7の結果にあるように，EPやFTはHop数増加による影響をあまり受けておらず，キャッシュ手法による効果が非常に小さい．一方で，CG，LU，MGでは，Hop数が最大で4になる

1x4x4chain，2x2x4chainにおいて，1%∼2%程度のIPC向上効果があることがわかる．今回用いたベンチマークプログラムは，データセットがそれほど大きくなく，再利用性の高いデータはチップ上の L2キャッシュヒットとなることが多いため，大きな効果が見られなかった．しかし，HPCアプリケーションのように，データセットが大きい場合はキャッシュ手法の有用性はより高くなると考えられる．

5.

6. おわりに

本稿では，3次元実装メモリの容量のスケーラビリティを向上させるための1手法として，HMC同士のネットワーク接続を検討し，その性能評価を行った．シミュレーション評価より，データが存在するメモリモジュールまでの Hop数が大きい場合には，IPC低下を引き起こすことが分かった．例えば，最大Hop数が1から4に増加するとIPC が9.1%低下するアプリケーションが確認できた．さらに，メモリネットワーク利用の際に，HMCモジュールにキャッシュ機能を搭載することで，Hop数増加による IPC低下を緩和する手法を提案し，評価を行った．Hop数が大きい場合にIPC低下の影響が大きいプログラムでは，最大2%のIPC向上が期待できることがわかった．今後，さらにキャッシュ機構のアーキテクチャを詳細に検討する他，複数CPUを持つ場合のメモリネットワーク構成での評価を行う予定である．また，あるメモリモジュールが故障した際の迂回ルートを利用した信頼性向上に関する検討も今後の課題である．謝辞本研究の一部は，JSPS科研費24680004，ならびに科学技術振興機構・戦略的創造研究推進事業(CREST) の研究プロジェクト「ポストペタスケールシステムのための電力マネージメントフレームワークの開発」の助成により行われたものである．参考文献

[1] S. Dumas, “Mobile Memory Forum: LPDDR3 and WideIO”, JEDEC Mobile Forum, 2011.

[2] J.T. Pawlowski, “Hybrid memory cube (HMC)” HotChips 23, 2011.

[3] Hybrid Memory Cube Consortium, “Hy-brid Memory Cube Specification 1.0”, http://www.hybridmemorycube.org/, 2013.

[4] FUJITSU LIMITED, “Next-Generation PRIMEHPC”, 2014.

[5] T. Shimizu, “Fujitsu HPC Roadmap Beyond Petascale Computing”, 2013.

[6] ALTERAホワイトペーパー, “次世代メモリ要件に適合するアルテラFPGAとHMCテクノロジ”, WP-01214-1.0, 2014.

[7] F. Carson, “B3D SiP developments and trends in 3D Packag”, International Conference and Exhibition on De-vice Packaging, 2007.

(8)

“High Density PoP (Package-on-Package) and Package Stacking Development”, Proc. 57th Electronic Com-ponents and Technology Conference (ECTC 2007), pp.1379–1402, 2007.

[9] R. Islam, C. Brubaker, P. Lindner and C. Schaefer, “Wafer Level Packaging and 3D Interconnect for IC Technology”, Proc. 13th Advanced Semiconductor Man-ufacturing Conference, pp.212–217, 2002.

[10] N. Tanaka, T. Sato, Y. Yamaji, T. Morifuji, M. Umem-oto, and K. Takahashi, “Mechanical eﬀects of copper through-vias in a 3D die-stacked module”, Proc. Elec-tronic Components and Technology Conference, pp.473– 479, 2002.

[11] W.R. Davis, J. Wilson, S. Mick, J. Xu, H. Hua, C. Mineo, A.M. Sule, M. Steer, and P.D. Franzon, “Demystifying 3D ICs: The Pros and Cons of Going Vertical”, IEEE Design and Test of Computers, vol.22, no.6, pp.498–510, 2005.

[12] K. Kanda, D.D. Antono, K. Ishida, H. Kawaguchi, T. Kuroda, and T. Sakurai, “1.27-Gbps/pin, 3mW/pin Wireless Superconnect (WSC) Interface Scheme”, Proc. Int’l Solid-State Circuits Conf. (ISSCC’03), pp.186–187, 2003.

[13] N. Miura, H. Ishikuro, T. Sakurai, and T. Kuroda, “A 0.14pJ/b Inductive-Coupling interChip Data Transceiver with Digitally- Controlled Precise Pulse Shaping”, Proc. Int’l Solid-State Circuits Conf.(ISSCC’07), pp.358–359, 2007.

[14] B. Black M. Annavaram, N. Brekelbaum, and J. DeVale, “Die Stacking (3D) Microarchitecture”, Proc. 39th Inter-national Symposium on Microarchitecture (MICRO’06), pp.469–479. 2006.

[15] G. H. Loh, “3D-Stacked Memory Architectures for Multi-Core Processors”, Porc. 35th International Sym-posium on Computer Architecture (ISCA’08), pp453– 464, 2008.

[16] D.H. Woo, N.H. Seong, D.L. Lewis, and H-H.S. Lee, “An Optimized 3D-Stacked Memory Architecture by Exploiting Excessive, High-Density TSV Bandwidth”, Proc. 16th International Symposium on High Perfor-mance Computer Architecture, (HPCA 2010). pp.1–12, 2010.

[17] G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs”, Proc. 15th International Symposium on High Performance Computer Architecture, (HPCA 2009). pp.239–249, 2009.

[18] JEDEC SOLID STATE TECHNOLOGY ASSOCIATION, “JEDEC STANDARD High Bandwidth Memory (HBM) DRAM”, JESD235, http://www.jedec.org/standards-documents/results/jesd235, 2013.

[19] G. Kim, J. Kim, J.H. Ahn, and J. Kim, “Memory-centric System Interconnect Design with Hybrid Memo ry Cubes”, Proc. PACT2014, pp.145–155, 2014.