次世代
3
次元実装メモリのメモリネットワーク構成に
関する初期検討
佐々木 沢
1近藤 正章
2和田 康孝
3本多 弘樹
1概要:Micron社が中心となって開発を進めている次世代3次元実装メモリHybrid Memory Cube (HMC) は,シリアル通信を利用した高いデータ転送能力と低い電力消費が評価され,富士通のHPC向けプロセッ サSPARC64 XIfxでの採用が予定されている.しかし,従来に比べ性能あたりのメモリ容量が少ないこと が課題である. HMCはロジックチップ内のスイッチを利用したメモリネットワークの構築が可能である.一方で,メモ リネットワークにおいてCPUから距離が遠いメモリモジュールへのアクセス遅延が性能に及ぼす影響は まだ十分に解析されていない.本稿では,SPARC 64XIfxのメモリ接続構成を例に,HMCによるメモリ ネットワークの性能を評価する.また,距離の遠いメモリ上のデータをCPU近傍のHMCモジュールに キャッシュすることでアクセス遅延を削減する手法を提案し,その効果を評価する.評価の結果,キャッ シュ手法が性能向上に寄与する可能性があることを確認した.
1.
はじめに
プロセスルールの微細化によるCPUのマルチコア化と 機能の追加によって,プロセッサの性能向上が進む一方 で,DRAMメモリへのアクセス速度が相対的に遅く,シ ステムの性能上のボトルネックとなっている問題が深刻化 している.これに対し,メモリバンド幅の向上とメモリア クセスレイテンシの削減,さらには消費電力の削減を目的 とした新しいメモリアーキテクチャが開発されている.特 に近年では,3次元LSI実装技術の進歩により,それを利 用した3次元積層型メモリの進展が著しく,Wide I/O[1]やHybrid Memory Cube (HMC)[2], [3]といった,3次元
積層型メモリ規格の実用化が進められている. 3次元実装では,モジュールあたりのメモリ容量を大き くでき,その分CPUとメモリ間の物理的な距離を短かく することで,今までのDIMM規格と比較して高いバンド 幅を達成できる. HMCはCPUとは異なるモジュールとしてDRAMチッ プを4枚から8枚程度積層するメモリ規格であり,CPU 1 電気通信大学大学院情報システム学研究科
Graduate School of Information Systems, The University of Electro-Communications
2 東京大学 大学院情報理工学系研究科
Graduate School of Information Science and Technology, The University of Tokyo
3 早稲田大学 基幹理工学研究科
Graduate School of Fundamental Science and Engineering, Waseda University とメモリモジュール間はシリアル通信でデータの転送を 行う.最下層部にはメモリコントローラやCPUとの通信 を行うためのロジックチップが実装される.CPUにメモ リを直接積層する場合に比べ,CPUの発熱問題を考慮す る必要がなく,また,メモリの信頼性向上のための技術を ロジックチップに実装できることから,高性能コンピュー ティングでの利用が有望視されており,例えば,富士通の HMC向けのプロセッサSPARC64 XIfxに採用される予定 である[4], [5].今までのDDR DRAM規格に比べて最高 で480GB/secという高いメモリバンド幅を利用できる. 現状では,HMCの1モジュールあたりのメモリ容量は 4GB程度であり,CPUの近傍に配置できるモジュール数 も限られている.さらにはメモリとのデータ転送に利用で きるピン数にも限界があることから,複数のメモリチップ から構成されるDIMMをパラレル通信のメモリバスで接 続する現状のDDR規格のメモリに比べ,容量が制限され てしまう.HPC分野の,大容量のメモリを必要とするア プリケーションに対しては,HMCの高いメモリバンド幅 という特徴を持ちつつ,メモリ容量を増加させることが望 まれる. そこで,HMCのロジックチップにあるスイッチ機構を 利用し,メモリモジュール同士を接続してメモリネット ワークを構築する[3]ことで,高いメモリバンド幅という 特徴を失うことなく,メモリ容量のスケーラビリティを確 保することができると考えられる.しかし,複数のHMC
図1 Hybrid Memory Cubeの構造 モジュールを経由したデータ転送ではメモリアクセス遅延 が増大し,性能に影響を及ぼす可能性がある.これまでに, このメモリネットワークの遅延が性能に与える影響は十分 に解析されていない. 本稿では,HMCの持つネットワーク機能によりメモリ を増設した場合の,メモリアクセス遅延が性能へ与える 影響をシミュレーションにより評価する.また,CPUの 近接にあるHMCをキャッシュとして利用することで,モ ジュール数増加による性能への影響を低減するための手法 を検討する.
2.
Hybrid Memory Cube(HMC)
2.1 アーキテクチャ
Hybrid Memory Cube (HMC)は,Micron社をはじめと する企業や研究機関が提唱し,開発を進めている新しい メモリ規格である.HMCは,DDR等の従来のメモリ規 格とは異なり,DRAMとロジックが集積されたチップを, TSVを用いて3次元方向に4枚から8枚積層した構造を 持つ.最下層部のロジック部にはメモリへのアクセス制御 のためのメモリコントローラやプロセッサとのI/Oインタ フェース,ルータ等が実装されている.HMCの構成を図 1に示す. ロジック部には複数のメモリコントローラが搭載され, 各コントローラの上に集積されたメモリを合わせて1つ のブロック(Vaultと呼ばれる)が構成される.図は4× 4 のブロックを持つHMC構成の例である.これまでの複数 チャネルを持つDDR規格のメモリシステムと比較して, メモリアクセスの並列性を大幅に高めることが可能である. 3次元積層技術により1チップに大容量の記憶素子を実 装できるため,プロセッサの近傍に少数チップのみを配 置してシステムを構築することができる.そのため,プロ セッサ・HMCモジュール間で高速な通信路を設けること ができ,従来のDDRに比べてメモリバンド幅を大幅に向 上することが可能である.プロセッサ・HMCモジュール 間通信の単位は,10Gbpsから15Gbpsの速度を持つシリ アル通信路を受信および送信の双方で16本束ねたものを 1リンクとして接続される.1HMCモジュールあたり,2 または8本のリンクを持ち,1モジュールあたりのメモリ バンド幅は最大で480GB/secにもなる. 図2 ネットワークリンク機能を用いたトポロジ例 プロセッサとの通信に加えて,HMCモジュール間をリ ンクで接続し,プロセッサへとの途中経路にあるHMCを 中継ルータとして利用してすることで,メモリを増設する こともできる.HMCモジュール間の接続に用いるリンク をpass-thru Link,プロセッサなどのホストとの通信に利 用するリンクをHost Linkとし,ネットワークが構築され る.図2にHMCのネットワークリンク機能を用いたトポ ロジ例を示す. 各HMCに識別IDを割り振り,メモリアドレスからID を決定してアクセスすることで,パケット通信によりプロ セッサとデータが存在するHMCとの間で通信を行う.こ の際に,データやアドレスは16-Byteのフリット毎に分割 され,フリットベースの通信プロトコルを利用して通信を 行うことで,高い柔軟性を実現している. 2.2 HMCを用いたシステムの実例 現在は,Micron社よりHMCモジュールのプロトタイ プ版が提供されている段階であり,Xilinx社やAltela社は HMCの評価基盤を公開している[6].また,富士通株式会 社の次期HPCシステム向けプロセッサであるSPARC64 XIfxでは,主記憶メモリとしてHMCを採用することを発 表している[4], [5]. SPARC64 XIfxでは,図3に示すように,1つのプロセッ サに対して,8つのHMCモジュールが接続される構造が 採用されており,1モジュールあたりのVault数が4つ, 積層DRAMチップ数が4チップ,モジュールあたりの容 量が4GBのプロトタイプ版が採用されると考えられてい る.また,1モジュールからのリンク数は2リンクであり, メモリバンド幅は,モジュールあたりで60GB/sec,シス テム全体で最高240GB/secと考えられる. 2.3 課題 HMCは,3次元実装技術によりモジュールあたりの搭 載メモリ容量を大きくでき,プロセッサの近傍にモジュー ルを配置することで高いバンド幅を得ることができる.し かし,プロセッサと直接接続できるモジュール数は,プロ
図3 SPARC64 XIfxのメモリ接続構成 セッサのピン数やモジュールの実装面積の点で限界があ る.そのため,プロセッサあたりのメモリ容量を確保する ことが難しくなる. 実際,SPARC64 XIfxプロセッサでは,チップのピー ク浮動小数点演算性能が1.1TFLOPSと,京コンピュータ で用いられているSPARC64 VIIIfxの8.6倍,後継機種の FX10で用いられているSPARC64 IXfxプロセッサの4.7 倍の性能であるにも関わらず,プロセッサあたりのメモ リ容量はSPARC64 VIIIfxプロセッサの2倍,SPARC64 IXfxプロセッサと同程度と演算性能あたりのメモリ容量は 大幅に小さくなっている. HPC分野での,大容量のメモリを必要とするアプリケー ションに対しては,HMCの高いメモリバンド幅という特 徴を持ちつつ,メモリ容量を増加させることが望まれる. 上記で述べたように,HMCはモジュール間をリンクで 接続し,ネットワークを構築することでHMCモジュール を増設することができる.しかし,アクセス対象のHMC モジュールをアクセスするまでに経由するHMCモジュー ル数,すなわちHop数が増加する毎にシリアル・パラレ ルデータ変換やルータでの調停等が必要になり,メモリア クセスにかかる遅延時間が増加してしまう可能性がある. そのため,HMCのネットワーク構成やデータ配置を適切 に行う必要があるが,これまでにHMCネットワークを構 築した際の性能への影響は十分に評価や検討がなされてい ない.
3.
HMC モジュール間ネットワーク
アーキテクチャの検討
本検討では,先ほど紹介した富士通のSPARC64 XIfxの 接続アーキテクチャをベースにして,将来的にメモリ容量 スケーリングを行う際に用いられる,HMCを利用したメ モリネットワークの接続パターンを分類し評価を行う. 3.1 1CPUの場合のHMCネットワーク接続 (1) 2-link HMC Module 図4 2リンクHMCモジュールの接続構成 2-link HMCモジュールを利用する場合,図3に示す SPARC64 XIfxプロセッサのメモリ接続では,2本のリン クともプロセッサ側に接続されており,メモリモジュール をネットワーク接続することはできない.そこで,1リン クをHost Linkとし,もう1方をPass-thru Linkとする ことを考える.この場合,プロセッサ側に接続する合計モ ジュール数がそのままであれば,トータルメモリバンド 幅が減少してしまう.しかしプロセッサチップのピン数 には余裕ができるため,プロセッサ側に接続するHMCモ ジュール数を倍にすることができれば,メモリバンド幅を 確保することができる*1. メモリネットワーク構成例を図4に示す.なお,図では 4リンク分の接続のみを示しており,実際にはこの構成が, プロセッサへの接続リンク数分だけ複製されることになる. 図中の1x4x2chainのように表記されている接続パターン 名は「1モジュールあたりのHost Link数×CPUに接続するモジュール数×CPUから数えた最遠モジュールまでの モジュール数(距離)+トポロジ名」を表している.例えば,
1x4x2chainは各HMCモジュールからCPUに接続される Host Link数は1本であり,4モジュールがCPUに接続さ れ,さらにCPUからの最大モジュール距離が2であるこ とを示している.トポロジとしては,以下が考えられる. • single: HMCモジュール間のネットワークを用いず に,全モジュールがCPUに直結 • chain: HMCモジュールをdaisy-chain型で接続 • ring: chainネットワークの終端をお互いに接続しリ ング型ネットワークを構成 • mesh: メッシュ型にHMCを接続 2リンクHMCモジュールでは,1方のリンクをPass-thru Linkとすることで,chain型,あるいはring型のメモリ ネットワークを構築することができる.これにより,モ ジュールIDの上限など,制御上の制限に達するまでは,メ モリ容量を増加させることが可能となる.chain型とring 型は,CPUから見て直結するHMC数,および直結された *1 基板上への実装の点からの検討が必要であるが,本稿では倍に実 装できるものとして議論を進める
図5 4リンクHMCモジュールの接続構成 HMCに接続するHMC群の数が同数であれば,最大Hop 数やメモリバンド幅などの基本的なパラメータは一致する. chain型と比較したring型の利点としては,一部のHMC モジュール,あるいはリンクに故障が発生した場合や,一 部が混雑して性能のボトルネックとなるような場合に代替 ルートを利用してメモリアクセスを行うこともできること にある.なお,2リンクHMCモジュールではmesh型は リンク数が不足することから採用することができない. (2) 4-link HMC Module 図5に4リンクHMCモジュールのメモリネットワーク 構成例を示す. リンク数が4本のHMCモジュールの場合には,モジュー ルあたりでCPUとの接続に利用するリンク数を増加させ ることもでき,構成の柔軟性が増加する.ただし,1つの HMCモジュールに対してCPU側で必要なピン数が増加 するため,近接のHMCモジュール数が減少することが欠 点として考えられる.また,4リンクHMCモジュールで は,1x4x4mesh構成のように,メッシュ型ネットワークを 採用することも可能となり,より複雑な経路を選択してメ モリアクセスを行うことも可能になる. これらの構成のまとめとして,各構成の比較を表1に示 す.構成ごとに最大Hop数はもとより,経路の拡張性・冗 長性等の性質が異なることが分かる. 3.2 アクセスレイテンシ削減手法 前述のように,HMCモジュールの増加によるレイテン シ増加の影響を削減するためには,利用頻度の高いデータ をよりCPU近傍のHMCモジュールに配置したい.そこ で,CPUと直結したHMCモジュール上にキャッシュ領 表2 評価環境 パラメータ 値 CPU Clock 3GHz L1 Cache size 64KB L2 Cache size 256KB Cache coherence Directory-based MOESI
域を設け,他のHMCモジュールから中継のために送られ るフリットから,データ取得に一時的にキャッシュするこ とを考える.CPUから再度同じアドレスに対するデータ がリクエストされた場合は,キャッシュ領域からデータを 取得可能なので,HMCをHopする回数を大きく減らすこ とができると考えられる. 3.3 複数CPUのメモリネットワーク接続 3.1節で述べたメモリネットワークは,1ノードに1CPU (ソケット)の構成を前提にしていた.しかし,HPCシス テムでは複数CPUソケットを搭載するシステムも多い. HMCではメモリネットワークに対して複数のCPUを接 続することが可能であり,実際,複数CPUを接続する場 合のメモリネットワーク構成に関する研究も進められて いる[19].HMCネットワークをより活用するためには, CPU間のインターコネクトも含めた構造は,今後有力な アーキテクチャになると予想される. CPU間の接続を含めたメモリネットワークにおいても, CPUからの距離が遠いモジュールへのアクセス遅延増加 は大きな問題になると考えられるため,本稿の検討結果は 複数CPUのメモリネットワーク接続においても有用にな ると考えられる.複数CPUのメモリネットワーク接続の 場合におけるレイテンシ削減手法の評価などは今後の課題 とする.
4.
評価
4.1 評価方法 本稿では,HMCモジュールをネットワーク接続した際 の,複数モジュールを経由したメモリアクセスが性能に及 ぼす影響と,3.2節で述べたキャッシュ機構の効果をサイ クルレベルシミュレーションにより評価する.シミュレー タはgem5+Rubyを利用したNoCのシミュレーション環 境をHMC向けに拡張したものを利用した.HMC自体の サイズ,アクセスレイテンシは表3のようにした.使用し た評価環境を表2に示す.利用したベンチマークプログラ ムはNAS Parallel Benchmarks(NPB)のプログラムから いくつかを選択して用いた.使用したのはCLASS=Wを もとに,シミュレーション時間の削減の目的で,問題サイ ズ,カーネルループのイテレーション数を変更したものを 利用した(表4).表1 各構成の比較 構成 最大Hop数 最大Hop数 (w/alt.pass) 拡張性 経路冗長性 複雑性 2linkHMC 2x2x1single 1 1 no no low 1x4x1chain 1 1 high no low 1x4x2chain 2 2 high no middle 1x4x4chain 4 4 high no middle
1x4x4ring 4 8 high high high
4linkHMC
4x1x1single 1 1 no low low 2x2x1chain 1 1 high low low 2x2x2chain 2 2 high low middle 2x2x4chain 4 4 high low middle
2x4x2ring 4 8 high high high 1x4x4mesh 4 11 very high very high very high
表3 HMCパラメータ
パラメータ 値
HMC 128MB DRAM Timing tRAS=22, tRP=11
Hop Latency 5ns 表4 NPBパラメータ 名称 問題サイズ イテレーション数 CG 1400 15 EP 2097152 1 FT 64× 64 × 64 8 IS 1048576 10 LU 33× 33 × 33 300 MG 64× 64 × 64 8 図6 Hop数増加によるIPC低下率 4.2 Hop数とIPCの関係 メモリネットワーク構成において,メモリアクセス時に 中継するHMCモジュールの数,すなわちHop回数が多い ほど,スイッチングやシリアル・デシリアライズなどによ る遅延のためにメモリアクセス時間が増加し,IPCが低下 することが予測される.その影響を評価するために,デー タが置かれているHMCまでのHop数を変化させ,IPCに 与える影響を評価した.本実験ではCPUコア数を2つと 設定した. 実際のHop数はデータの配置に依存するが,ここでは 全てのデータが,該当Hop数でアクセスされるHMCモ 図7 2リンクHMCモジュール(2スレッド)の結果 図8 2リンクHMCモジュール(4スレッド)の結果 ジュールにあった場合を想定し評価を行った.CPUと直 接接続されるHMCモジュールから全データを取得する場 合と比較して,Hop数が1から5の場合のIPC低下率を 図7に示す. 図より,全ベンチマークでHop数の増加と比例してIPC が低下していることが確認できる.影響の大きさはプログ ラム毎に異なり,CGでHop数が5と設定した場合のIPC 低下率が29%で最も大きく,最も影響が小さなFTでも 7%弱のIPC低下が見られる.このことから,Hop数の大 きなモジュールへのアクセスを減らすための適切なデータ 配置やキャッシュ機構の導入が重要であることがわかる. 4.3 ネットワーク構成とIPCの関係 次に,種々のネットワーク構成の場合のIPCを評価す
図9 4リンクHMCモジュール(2スレッド)の結果 図10 4リンクHMCモジュール(4スレッド)の結果 る.2リンクHMCモジュールを利用した場合において, スレッド数が2と4の場合を評価した.本評価では,接続 される全てのHMCモジュールに対して8KB毎にデータ をインターリーブして配置した.それぞれの評価結果を図 7,図8に示す. 全てのHMCが直接CPUに接続される2x2x1single,お よび1x4x1chainのIPCが高く,Hop数が多いHMCモ
ジュール数が多いほどIPCが低下していく傾向があること がわかる.また,2スレッドの場合ではほとんどのベンチ マークで2x2x1singleが最もIPCが高いが,4コアの場合 では1x4x1chainのIPCが高いアプリケーションが見られ る.特にCGの4スレッドの場合では,1x4x2chainのIPC が最も高くなっている.これは,スレッド数が増え,同時 メモリアクセス数が増加すると,メモリコントローラ数や バンク数がモジュール数に比例して増加することから,メ モリレベル並列性をより活用できるためと考えられる.当 然ながら1x4x4chainと1x4x4ringはデータ配置やHop数 に違いがないため,同じIPCになっている. なお,ISやLUでは,スレッド数によらず,Hop数増 加によるIPC低下が確認できる.例えばISの場合では, 2x2x1singleに比べ,1x4x4の構成では2スレッドで5.5%, 4スレッドで9.1%のIPC低下が見られる.これらのベン チマークに対して,アクセス回数が多いデータの配置場所 をCPU近接HMCへ移動することでIPCの向上が期待で きる. 次に,4リンクHMCモジュールを利用した場合の2ス レッドの評価結果を図9に4スレッドの評価結果を図10 に示す. 4リンクモジュールでは,ほとんどの場合で,アクセスの 際のHop数が多いHMCモジュール追加に応じてIPC低 下が確認できる.特に,2リンクモジュールではIPCに差 があまりなかったCGでもネットワーク構成ごとのIPC差 が大きくなっている.また,2リンクと4リンクモジュー ルの結果を比較すると,多くのベンチマークプログラムで は,最大Hop数が大きくない構成ではほとんど差がないも のの,最大Hop数が増加するにつれ,2リンクモジュール を利用した場合と比較して4リンクモジュールのIPCが 低下している.この理由の解析は今後の課題である. 4.4 キャッシュ手法の評価 CPUからの最大HMCモジュール距離が2以上のトポ ロジに対して,HMC上に簡易なキャッシュ機構を実装し た場合のメモリアクセスレイテンシの削減の効果を評価 した.本評価では,キャッシュサイズは,1つのHMCモ ジュールの4分の1とした.通常のメモリネットワークに 対し,本手法を適用した場合のIPC向上比のグラフを図 11に示す. 図より,ほとんどの場合でキャッシュ手法を利用する ことでIPC向上が確認できる.ただし,図7の結果にあ るように,EPやFTはHop数増加による影響をあまり受 けておらず,キャッシュ手法による効果が非常に小さい. 一方で,CG,LU,MGでは,Hop数が最大で4になる
1x4x4chain,2x2x4chainにおいて,1%∼2%程度のIPC向 上効果があることがわかる. 今回用いたベンチマークプログラムは,データセットが それほど大きくなく,再利用性の高いデータはチップ上の L2キャッシュヒットとなることが多いため,大きな効果 が見られなかった.しかし,HPCアプリケーションのよ うに,データセットが大きい場合はキャッシュ手法の有用 性はより高くなると考えられる.
5.
関連研究
半導体回路の微細化による製造コストの増加,配線遅 延やデータ移動の電力増加といった問題への対処,また 異なるプロセスで製造された種々の機能を持つチップを 集積できるという利点から,近年では3次元積層LSIが 注目されており,種々の研究が進んでいる.従来から基 板上に複数のチップを並べて集積するMCM(Multi-Chip Module)や,パッケージ化されたチップを積層する技術 は実用化されていたが[7], [8],特に最近では,チップ同士 をThroughSilicon Via (TSV) [9], [10], [11]や誘導結合に よる無線リンク[12], [13]により接続し,より緊密にチップ を積層する3次元実装技術が注目されている. 従来から,プロセッサコアにSRAMやDRAMをキャッ シュとして積層する研究が多く行われている.Blackらは, プロセッサコアとSRAMやDRAMを積層した際のIPC図11 キャッシュ手法適用によるIPCの変化 と発熱への影響を検討し,積層アーキテクチャによりIPC を15%向上させることができるが,コア上でピークの発 熱が上昇することを明らかにしている[14].また,DRAM キャッシュを積層する際のアーキテクチャの検討も多く行 われている[15], [16].プロセッサコアとともに,MRAM やPRAMといった異なるプロセスで製造されたチップを 積層する際のハードウェア構成やアーキテクチャの検討に 関する研究も行われている[17]. 一方で,HMCと同様に主記憶DRAMを3次元で実装 し,プロセッサと接続するための技術や規格もいくつか開 発されており,実用化されつつある.Wide I/O[1]はプロ セッサやSoCに直接メモリを集積するもので,特に,モバ イル分野において,DRAMアクセスの消費電力削減と性 能ボトルネックとなりやすいDRAMアクセスの高速化が 期待されている. JEDEC で次世代のメモリとして規格策定中のHBM (High Bandwidth Memory)[18]は,Wide I/Oと同じく,
3次元実装をベースとしたメモリアーキテクチャである. TSVインターポーザ上にCPUと3次元に積層メモリを積 層する2.5次元LSI構造をとり,ピンあたりの転送レート が1Tbps以上と広帯域のメモリバンド幅を目指して設計 されている. HMCを前提としたメモリネットワークに関する研究も なされている.Kimらの研究[19]では,HMCのネット ワークリンク機能を用いて,プロセッサの帯域幅を有効活 用するアーキテクチャやネットワークトポロジーを提案し ている.
6.
おわりに
本稿では,3次元実装メモリの容量のスケーラビリティ を向上させるための1手法として,HMC同士のネットワー ク接続を検討し,その性能評価を行った.シミュレーショ ン評価より,データが存在するメモリモジュールまでの Hop数が大きい場合には,IPC低下を引き起こすことが分 かった.例えば,最大Hop数が1から4に増加するとIPC が9.1%低下するアプリケーションが確認できた. さらに,メモリネットワーク利用の際に,HMCモジュー ルにキャッシュ機能を搭載することで,Hop数増加による IPC低下を緩和する手法を提案し,評価を行った.Hop数 が大きい場合にIPC低下の影響が大きいプログラムでは, 最大2%のIPC向上が期待できることがわかった. 今後,さらにキャッシュ機構のアーキテクチャを詳細に 検討する他,複数CPUを持つ場合のメモリネットワーク構 成での評価を行う予定である.また,あるメモリモジュー ルが故障した際の迂回ルートを利用した信頼性向上に関す る検討も今後の課題である. 謝辞 本研究の一部は,JSPS科研費24680004,ならび に科学技術振興機構・戦略的創造研究推進事業(CREST) の研究プロジェクト「ポストペタスケールシステムのため の電力マネージメントフレームワークの開発」の助成によ り行われたものである. 参考文献[1] S. Dumas, “Mobile Memory Forum: LPDDR3 and WideIO”, JEDEC Mobile Forum, 2011.
[2] J.T. Pawlowski, “Hybrid memory cube (HMC)” HotChips 23, 2011.
[3] Hybrid Memory Cube Consortium, “Hy-brid Memory Cube Specification 1.0”, http://www.hybridmemorycube.org/, 2013.
[4] FUJITSU LIMITED, “Next-Generation PRIMEHPC”, 2014.
[5] T. Shimizu, “Fujitsu HPC Roadmap Beyond Petascale Computing”, 2013.
[6] ALTERAホワイトペーパー, “次世代メモリ要件に適合す るアルテラFPGAとHMCテクノロジ”, WP-01214-1.0, 2014.
[7] F. Carson, “B3D SiP developments and trends in 3D Packag”, International Conference and Exhibition on De-vice Packaging, 2007.
“High Density PoP (Package-on-Package) and Package Stacking Development”, Proc. 57th Electronic Com-ponents and Technology Conference (ECTC 2007), pp.1379–1402, 2007.
[9] R. Islam, C. Brubaker, P. Lindner and C. Schaefer, “Wafer Level Packaging and 3D Interconnect for IC Technology”, Proc. 13th Advanced Semiconductor Man-ufacturing Conference, pp.212–217, 2002.
[10] N. Tanaka, T. Sato, Y. Yamaji, T. Morifuji, M. Umem-oto, and K. Takahashi, “Mechanical effects of copper through-vias in a 3D die-stacked module”, Proc. Elec-tronic Components and Technology Conference, pp.473– 479, 2002.
[11] W.R. Davis, J. Wilson, S. Mick, J. Xu, H. Hua, C. Mineo, A.M. Sule, M. Steer, and P.D. Franzon, “Demystifying 3D ICs: The Pros and Cons of Going Vertical”, IEEE Design and Test of Computers, vol.22, no.6, pp.498–510, 2005.
[12] K. Kanda, D.D. Antono, K. Ishida, H. Kawaguchi, T. Kuroda, and T. Sakurai, “1.27-Gbps/pin, 3mW/pin Wireless Superconnect (WSC) Interface Scheme”, Proc. Int’l Solid-State Circuits Conf. (ISSCC’03), pp.186–187, 2003.
[13] N. Miura, H. Ishikuro, T. Sakurai, and T. Kuroda, “A 0.14pJ/b Inductive-Coupling interChip Data Transceiver with Digitally- Controlled Precise Pulse Shaping”, Proc. Int’l Solid-State Circuits Conf.(ISSCC’07), pp.358–359, 2007.
[14] B. Black M. Annavaram, N. Brekelbaum, and J. DeVale, “Die Stacking (3D) Microarchitecture”, Proc. 39th Inter-national Symposium on Microarchitecture (MICRO’06), pp.469–479. 2006.
[15] G. H. Loh, “3D-Stacked Memory Architectures for Multi-Core Processors”, Porc. 35th International Sym-posium on Computer Architecture (ISCA’08), pp453– 464, 2008.
[16] D.H. Woo, N.H. Seong, D.L. Lewis, and H-H.S. Lee, “An Optimized 3D-Stacked Memory Architecture by Exploiting Excessive, High-Density TSV Bandwidth”, Proc. 16th International Symposium on High Perfor-mance Computer Architecture, (HPCA 2010). pp.1–12, 2010.
[17] G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs”, Proc. 15th International Symposium on High Performance Computer Architecture, (HPCA 2009). pp.239–249, 2009.
[18] JEDEC SOLID STATE TECHNOLOGY ASSOCIATION, “JEDEC STANDARD High Bandwidth Memory (HBM) DRAM”, JESD235, http://www.jedec.org/standards-documents/results/jesd235, 2013.
[19] G. Kim, J. Kim, J.H. Ahn, and J. Kim, “Memory-centric System Interconnect Design with Hybrid Memo ry Cubes”, Proc. PACT2014, pp.145–155, 2014.