Stratix 10 MX Devices Solve the Memory Bandwidth Challenge

(1)

WP-01264-1.0 ホワイトペーパー

メモリ帯域幅の課題を解決する

Stratix 10 MX デバイスの実力

Manish Deo, Senior Product Marketing Manager, Altera, now part of Intel Jeffrey Schulz, In-Package I/O Implementation Lead, Altera, now part of Intel Lance Brown, Senior Strategic and Technical Marketing Manager, Altera, now part of Intel

従来のメモリ・ソリューションには技術的な制限があり、次世代のメモリ帯域幅要件への対応が困難になってきています。このホワイトペーパーでは、こうした制限に対

処する新たなメモリの展望について解説します。Stratix®_{10 MX DRAM SiP}

(System-in-Package) ファミリは、1 GHz 動作が可能な高性能モノリシック FPGA ファブリック、インテルの最先端 EMIB (Embedded Multi-die Interconnect Bridge) テクノロジ、および HBM2 (High Bandwidth Memory 2) DRAM をすべて 1 つのパッケージに統合しています。Stratix 10 MX ファミリは、従来のメモリ・ソリューションでは対応できなかった最も厳しいメモリ帯域幅要件に効率的に対応するのに最適です。このホワイトペーパーでは、Stratix 10 MX デバイスが多くのマーケットやアプリケーションにおけるメモリ帯域幅の課題をどのように解決するのかを紹介します。

メモリ帯域幅の課題

メモリ帯域幅は、次世代プラットフォームにとっての大きなボトルネックです。どのシステムも、パフォーマンス上のクリティカル・パスは、大量のデータを素早く処理する能力です。演算装置 (FPGA や CPU など) は、メモリとの間で膨大なデータの読み出し／書き込みを効率的に行わなければなりません。多くのエンド・マーケットやアプリケーション (データ・センター、高性能コンピューティング・システム、放送 (8K)、ワイヤライン・ネットワーキング、データ解析、および IoT) がメモリ帯域幅要件の増大要因となっており、そのデータ処理量は増加の一途をたどっています。データ・センターやネットワーキング・プラットフォームはこうしたデータの経路であり、帯域幅の急増に対応するために、作業効率の向上と作業量の高速化を同時に実現することを目指しています。データ・センター・トラフィックの総量は、2019 年には 10.4 ゼタバイト (ZB) に達すると予測されています。図 1：2019 年までのデータ・センター・トラフィック予測システム設計者は、現在利用できる従来技術を駆使してメモリ帯域幅要件の爆発的増大に対応してきましたが、そうした従来技術には多くの課題があります。

出典：Cisco VNI Global IP Traﬃc Forecast, 2014 - 2019 3.4 ZB データ・センター・トラフィックの総量 10.4 ZB データ・センター・トラフィックの総量 2014 2019 1 ゼタバイト (ZB) は、10 の 21 乗バイト、すなわち 1 兆ギガバイトに相当

(2)

ページ 2 メモリ帯域幅の課題

課題

1：I/O 帯域幅の制限

I/O 帯域幅の拡大は、市場で求められるペースに追いついていません。必要な帯域幅を提供するのに十分なメモリ・バス幅をサポートするために、十分な I/O ピンを実装することは物理的に不可能です。コンポーネントを追加しても、消費電力の増加や実装面積への影響を伴うため、問題の解決にはなりません。ワイヤライン・ネットワーキング市場が、この具体的な課題を示しています。パケットの格納と検索に必要な全二重帯域幅の合計は、トラフィック負荷の関数として決まります。システム設計者は、持続的なライン・レート性能 (100G、200G など) を保証するのに十分なマージンを適切に確保しなければなりません。図 2 は、ワイヤライン・ネットワーキング分野における 200G トラフィック負荷の変曲点を示しています。このアプリケーションの例では、基本的なデータ・プレーン・メモリ機能に対応するために、700 本以上の I/O ピンと 5 枚の DDR4 (x72、3,200 Mbps) DIMM が必要です。図 2 が示すように、400G システムでは 1,100 本以上の I/O ピンと 8 枚のDDR4 (x72、 3,200 Mbps) DIMM が必要になります。こうした帯域幅要件に対応してパッケージの I/O 数を増やすことは、いずれ実現が困難になります。図 2：I/O 帯域幅の制限

課題

2：消費電力バジェット

消費電力バジェットは重要な課題分野です。システム設計者は、メモリ帯域幅要件に対応するために、ますます多くのディスクリート・メモリ (コンポーネント、DIMM など) を、標準の PCB トレースを使用して演算装置に接続しなければなりません。標準の DDR4 x72 ビット・インタフェースは、約 130 本の並列 PCB トレースを消費します。大型 I/O バッファでこれらの長い PCB トレースをドライブし、その結果、ビットあたりの消費エネルギーが大幅に増加します。さらに、256 GB/s のメモリ帯域幅を必要とするアプリケーションの場合、約 10 枚の DDR4 3,200 Mbps DIMM が必要であり、推定総消費電力は 40 W に及びます。(1)_{最高レベルの帯域幅を必要とするアプリケー} ションの場合、すぐに消費電力の限界に達します。逆に、システム・レベルの消費電力バジェットは横ばいか、あるいはさらに低く抑えられています。システム設計者は、システム・レベルで最高のワットあたりの帯域幅を引き出すことをますます要求されています。 (1)* 30 % の読み出し／書き込み、シングル・ランク構成と仮定。I/O およびコントローラの消費電力を含む。 100 200 400 得られるトラフィック負荷 (Gbps) 1,200 1,000 800 600 400 200 0 426 710 1,136 必要な DDR I/O 数

(3)

メモリ帯域幅の課題ページ 3

課題

3：フォーム・ファクタの縮小

従来技術を使用してメモリ帯域幅要件の増大に対応しようとすることは、多くの場合、PCB に実装するディスクリート・メモリ・デバイスの数を増やすことを意味します。設計者は、適切なシステム・レベルのマージンを確保するために、特定のボード・レイアウト・ガイドラインに基づいてトレース長、終端抵抗、および配線レイヤを決定します。それらのルールは、デザインの大きさやデバイスの配置間隔を制限しています。メモリ帯域幅要件の増大に伴い、DDR などの従来のソリューションを用いて実装面積の制約を満たしながら、メモリ帯域幅目標を達成することはますます困難になるでしょう。図 3 に、メモリ帯域幅要件を 80 GB/s から 256 GB/s に引き上げた場合の実装面積への影響を示します。図 3：従来のソリューションによる実装面積の制約

課題

4：JEDEC DDR 帯域幅の持続性

DDR などの従来技術は、将来のメモリ帯域幅要件を満たせるようにスケーリング（拡張）することがますます難しくなっています。DDR テクノロジは、この 10 年間、世代ごとにスケーリングを達成してきましたが、このスケーリングは終わりを迎えようとしています。仮に DDR4 の次の世代でも 2 倍の増加率が続くとすると、(DIMM 1 枚あたりの) 帯域幅は、40 GB/s の範囲と推定できますが、次世代アプリケーションのメモリ帯域幅要件は、過去 10 年間の動向をはるかに超えることが予想されています。図 4 を参照してください。 1 FPGA ( 42.5 mm2₎ 3 DDR4 3200 Mbps DIMM ( 133 x 30 mm2₎ 80 GB/s のメモリ帯域幅 3 FPGA 3 x ( 42.5 mm2₎ 10 DDR4 3200 Mbps DIMM 10 x ( 133 x 30 mm2₎ 256 GB/s のメモリ帯域幅 縮尺不同 PCB PCB

(4)

ページ 4 DRAM メモリの展望図 4：DDR (DIMM) の帯域幅の予測

DRAM メモリの展望

メモリ業界は、従来技術では将来のメモリ帯域幅要件に対応できないことを認識しています。そのため、課題への対処を試みる複数の競合ソリューションが出現し、メモリの展望は変化しつつあります。図 5 に示すように、基本要件はコントロール・プレーン・メモリとデータ・プレーン・メモリの両方にわたります。コントロール・プレーンまたは高速パス・メモリ (SRAM など) は通常、高いランダム・トランザクション・レートと低レイテンシを備えています。データ・プレーン・メモリ (DRAM など) は大容量で広帯域幅です。レガシー製品としては、標準の DDR ベースのメモリ・ソリューションが挙げられます。広帯域幅、低消費電力、および実装面積削減の課題に対応するために進化したのが、3D ベースのメモリ・ソリューションです。これらのソリューションは、TSV (シリコン貫通電極) テクノロジを使用して複数の DRAM を積層します。3D メモリ・ソリューションは、メモリが垂直に積層されているため、小さい実装面積で最大限の容量を実現できます。 3D メモリは、高速シリアル・トランシーバまたは高密度パラレル GPIO を使用して演算装置と通信します。

 Hybrid Memory Cube (HMC) は、シリアル・インタフェースを備えた 3D DRAM メ

モリです。

 MoSys 社の Bandwidth Engine (BE) は、シリアル・インタフェースを備えた

DRAM メモリです。  HBM は、パラレル I/O インタフェースを備えた 3D DRAM メモリです。 2002 DDR 2004 DDR2 2007 DDR3 2013 DDR4 2018-2019 DDR5? 帯域幅 (GB/s) 20 18 16 14 12 10 8 6 4 2 3 6 12 20 40 30 従来の増加率の約 2 倍

(5)

Stratix 10 MX (DRAM SiP) デバイスページ 5 図 5：新たなメモリの展望図 6 に、各種メモリの帯域幅に応じた電力効率を示します。  狭帯域幅／最も高電力効率 - LPDDR (Low-power DDR) は、電力効率が最も高く、モバイル・エンド・マーケットに最適です。  中帯域幅／中電力効率 - DDR3/DDR4 は 10 年以上にわたってメモリ分野の主力を

占めています。WIO2 (Wide I/O 2) は、3D スタッキングを使用して演算装置の上

にメモリを積層するもので、優れた電力効率で広帯域幅化を実現します。

 広帯域幅／中～高電力効率 - HBM と HMC は競合する最新テクノロジです。

図 6：電力効率および帯域幅の比較

Stratix 10 MX (DRAM SiP) デバイス

Stratix 10 MX デバイスは、高性能 FPGA と HBM2 タイルを統合した新しいタイプの製品です。Stratix 10 MX デバイスは、帯域幅が最も重要な高性能システムの要求を満たすために設計されたもので、DDR などの従来のソリューションと比較して 10 倍のメモリ帯域幅に加え、最高のワットあたり性能を実現します。図 7 に、この新製品の基本構造を示します。コントロール／データ・プレーン・メモリ (QDR、RLDRAM、DDR) 2.5D/3D 対応メモリレガシー製品シリアル I/O インタフェースパラレル (Wide I/O) インタフェース Micron 社 Renesas 社 Renesas 社 SK Hynix 社 GSI Technology 社 Samsung 社 HBM2 LPDDR3 WIO2 DDR3/DDR4 HMC 電力効率 帯域幅 狭帯域幅／最も高電力効率 中帯域幅／中∼高電力効率 最も広帯域幅／中∼高電力効率 LPDDR WIO2 HMC Low-Power DDR Wide I/O 2 ハイブリッド・メモリ・キューブ LPDDR4 縮尺不同

(6)

ページ 6 Stratix 10 MX (DRAM SiP) デバイス図 7：Stratix 10 MX デバイス図 7 (A)：パッケージ内に統合された DRAM は、HBM2 メモリ・タイルです (パッケージあたり最大 4 タイルを統合)。各 HBM2 メモリ・タイルは 4 層または 8 層 (メモリ・レイヤ) で、最大 16 の独立したチャネル (各 64 ビット) をサポートしています。各チャネルは最大 2 Gbps のデータ・レートで動作可能で、チャネルあたり最大 16 GB/s の合計帯域幅を提供します。図 8 に、メモリ・チャネルおよびベース・ダイの論理的表現を示します。図 8：16 チャネルを備えた 4 層 HBM デバイスの論理的イメージ図 7 (B)：緑色の部分は、高性能モノリシック・コア・ファブリックとともに異なるタイルの効果的なインパッケージ統合を可能にする、インテルの EMIB テクノロジです。EMIB インタフェースは、コア・ファブリックと HBM2 メモリ・タイル間で必要となるデータ・レートをサポートします。このインタフェースは、標準 JEDEC および IEEE 1500 の仕様と互換性があります。インテルの EMIB は、複数のタイルを 1 つのパッケージに簡潔に統合する方法を提供します。図 7 (C)：オレンジ色の部分は、インテルの EMIB テクノロジを使用してモノリシック・コア・ファブリックに接続される高性能トランシーバ・タイルを示しています。図 7 (D) は、HyperFlex アーキテクチャを使用して構築された高性能モノリシック・コア・ファブリックです。このコア・ファブリックは最大 1 GHz で動作可能で、従来世代のハイエンド FPGA の最大 2 倍の性能を提供します。この高性能モノリシック・コア・ファブリックにより、インパッケージ・メモリ帯域幅の効率的な処理が保証され、高性能なシステム・レベル・ソリューションが実現します。 EMIB サブストレート Stratix 10 コア・ファブリックヒート・スプレッダ HBM2 スタック (4 層または 8 層) エンベデッド・クアッドコア ARM® Cortex®-A53 1.5 GHz プロセッサ A B C D CH6 CH7 CH4 CH5 CH2 CH3 B0 3 B0 7 64 I/O B0 11 B0 15 PS-CH0 B0 3 B0 7 64 I/O B0 11 B0 15 PS-CH0 ADD CMD CH0 B0 3 B0 7 64 I/O B0 11 B0 15 PS-CH0 B0 3 B0 7 64 I/O B0 11 B0 15 PS-CH0 ADD CMD CH1 CH0 128 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O 64 I/O CH1 128 CH2 128 CH3 128 CH4 128 CH5 128 CH6 128 CH7 128 3D DRAM ベース・ダイ

(7)

Stratix 10 MX の主な特長ページ 7

Stratix 10 MX の主な特長

Stratix 10 MX デバイスは、次世代のシステム設計者が直面する課題に対処するための重要な特長を備えています。

広いメモリ帯域幅

最大 4 個の HBM2 タイルと高性能 FPGA ファブリックを 1 つのパッケージに統合した Stratix 10 MX デバイスは、メモリ帯域幅の課題に効果的に対処します。各 HBM2 タイルは、最大 256 GB/s の合計帯域幅を提供します。したがって、Stratix 10 MX デバイスは 1 個のパッケージで最大 1 TB/s (1,024 GB/s) の合計帯域幅を提供します。この前例のない帯域幅により、機械学習、データ解析、画像認識、ワークロード・アクセラレーション、8K ビデオ処理、高性能コンピューティングなどのさまざまなアプリケーションが可能になります。Stratix 10 MX デバイスは、DDR などの従来のメモリ・ソリューションでは実現が不可能であったソリューションを可能にします。図 9 は、400 GB/s のメモリ帯域幅をターゲットとするアプリケーションの実装を比較したものです。ご覧のように、DDR テクノロジを使用した従来のメモリ・ソリューションでは実現が困難です。それに対し、Stratix 10 MX デバイスは効果的な実装と最大 1 TB/s の最高帯域幅を実現します。図 9：400 GB/s メモリ帯域幅の実装の比較 5 個の FPGA と 16 枚の DDR4-3200 DIMM Stratix 10 MX 縮尺不同 PCB PCB 実現が困難

(8)

ページ 8 Stratix 10 MX の主な特長

低消費電力

Stratix 10 MX デバイスは、従来の DDR ソリューションに比べて低消費電力です。例

えば、128 GB/s のメモリ帯域幅を達成するには、約 5 枚の DDR4 (3,200 Mbps、4 GB)

DIMM デバイスが必要で、それぞれ約 4 W (I/O + PHY + コントローラ + メモリ) を消費するため、合計推定消費電力は 22 W となります (30 % の読み出し、30 % の書き込み、シングル・ランク構成を想定)。Stratix 10 MX は、1 個のデバイスで同等のメモリ帯域幅を約半分の消費電力で提供します。これは、I/O 消費電力の削減 (長い PCB トレースに対し、EMIB までのトレースが短い)、データ・レートの低減、および 3D DRAM スタッキングの効率性によるものです。また、終端がないため、I/O バッファ全体のキャパシタンスが低く、I/O 消費電流が低減します。図 10：消費電力の削減と実装面積の縮小を示す例 ( 帯域幅 128 GB/s のアプリケーション )

実装面積の縮小、ボードの簡素化、使いやすさ

すでに述べたように、Stratix 10 MX デバイスは 1 個のパッケージで最大 1 TB/s の帯域幅を提供するため、実装面積の大幅な縮小につながります。図 11 に、一連のメモリ帯域幅要件における、DDR4 3,200 Mbps DIMM (133 mm x 30 mm) に対する実装面積の推定縮小率を示します。Stratix 10 MX デバイスは、小さな実装面積で同等の帯域幅を提供するため、平均で 1/15 の実装面積の縮小が可能です。図 11：各種メモリ帯域幅要件における実装面積の推定縮小率

1 個の FPGA と 5 枚の DDR4 DIMM 1 個の Stratix 10 MX デバイス

縮尺不同 PCB PCB

最大約 50% の消費電力削減

実装面積の 縮小 (mm2₎ 30 25 20 15 10 5 0 128 256 64 6X 9X 18X 400 24X アプリケーション帯域幅 (GB/s)

(9)

データ・センター・アプリケーションページ 9 この実装面積の縮小により、貴重なボード・スペースを開放します。その結果、設計者は、より多くの機能を追加したり、システム・レベルでの性能と消費電力のトレードオフに関するより良い決定を行う柔軟性が得られます。DDR4 PCB 配線をなくすことにより、ボードの簡素化 (配線および層数の削減)、シグナル・インテグリティ／パワー・インテグリティの改善、および BOM／組み立てコストの削減につながります。さらに、Stratix 10 MX ソリューションは、非常に使いやすいという特長もあります。広帯域幅、低消費電力、およびより小さい実装面積を実現する Stratix 10 MX デバイスは、幅広いエンド・アプリケーションやエンド・マーケットに最適です。

データ・センター・アプリケーション

FPGA は、新たなデータ・タッチ／分析アプリケーションを可能にすることにより、データ・センターに付加価値を提供します。HBM2 と高性能モノリシック FPGA ファブリックを組み合わせることにより、従来の DDR ソリューションと比較して、FPGA に対する DRAM 帯域幅が桁違いに拡大することに加え、消費電力も低減します。この組み合わせは潜在用途の拡大につながります。

メモリ階層内の新たな層

専用ローカル・メモリを備えたオフロード・エンジンは、固有のワークロードを処理することができます。ローカル・メモリにより、オフロード・エンジンは CPU の RAM アクセスに影響を与えることなく、メモリを多用するタスクを実行することが可能になります。HBM2 DRAM は、速度と容量の観点からオフロード・エンジンに新たな能力をもたらします。メモリ・アクセスは、容量と速度 (帯域幅またはレイテンシ) とのトレードオフです。

従来の FPGA は 2 階層のメモリを搭載しています。FPGA ファブリックには RAM ブ

ロックを搭載しており、小容量ながら広い帯域幅と高い同時並行性を提供します。 FPGA は外部 DRAM に接続でき、それによって大幅な大容量化が可能ですが、その引き換えに帯域幅が狭くなることに加え、レイテンシも増加します。図 12 に、HBM2 以前のデータ・センター内の FPGA を示します。図 12：従来の FPGA データ・センター・アプリケーション Stratix 10 MX ソリューションは、帯域幅／容量のカーブに新たなポイントを実現します。ソリューションに HBM メモリを追加すると、FPGA メモリ階層におけるギャップが埋まります。図 13：Stratix 10 MX のデータ・センター・アプリケーション CPU DRAM CPU FPGA DDR4 PCI Express メモリ容量 メモリ 帯域幅 エンベデッド RAM (オンチップ) 外部 RAM CPU DRAM Stratix 10 MX リ 帯域幅 エンベデッド RAM (オンチップ) 外部 RAM HBM DRAM HBM DRAM (インパッケージ)

(10)

ページ 10 データ・センター・アプリケーション

アプリケーションへの影響

この FPGA メモリのギャップに対処することで、新たなアプリケーションの可能性が生まれます。例えば、辞書検索や、事前計算された中間フィールド検索結果の比較は、性能レベルが格段に向上します。FPGA は、ディープ・パケット・インスペクション、検索アクセラレーション、セキュリティなどのさまざまな分野におけるハイタッチ・データ処理オフロード機能の構築に優れています。 HBM2 は、Stratix 10 MX デバイスの DRAM アクセス同時並行性の飛躍的向上も可能にします。各 HBM2 インタフェースにおいて 16 チャネルをサポートしているため、1 個のパッケージで最大 64 DRAM チャネルまで拡張が可能です。これは、外部 DRAM の 4 ～ 6 チャネルに比べて大幅な増加です。アクセスの同時並行性が向上することにより、データ・センター・ソリューション (テーブル・ルックアップ・アクセラレータなど) のスレッド数を大幅に増やすことが可能になります。 FPGA オフロードの重要な機能の 1 つとして、インメモリ・データ構造におけるデータ抽出と比較があります。これらのアクセス・パターンの場合、帯域幅の拡大、チャネル数の増加 (インタフェースあたり 16 チャネル、最大 64 チャネル)、およびオープン・バンク数の増加 (64 バンクから 512 バンク) は、メモリ・サブシステム性能にプラスの影響を与えます。追加のチャネル数やバンク・プール数があれば、オープン DRAM バンク上でヒットするアクセスの数を増やすことができます。この実装では、バンク活性化のペナルティを回避できるため、性能が向上します。データ・センター・アプリケーションは大量のスレッドを並列処理します。そのため、この実装は非常に有利です。さらに、オープン・バンク・アクセスにより、消費電力の多いバンク活性化とプリチャージが必要最小限に抑えられるため、メモリ消費電力の削減も可能です。キー・テーブルの場合、その重複によって有効なアクセス時間が減少するほど、 DRAM バンク数とポート数が多くなります。全体的な FPGA メモリ構造では、アプリケーションをメモリ・サブシステムの固定ハードウェアに合わせるのではなく、アプリケーションを中心にメモリ・サブシステムを構築できるため、固有の柔軟性が得られます。また、FPGA システム内のメモリ・コントローラのポリシーも簡単にカスタマイズできます。しかも、Stratix 10 MX ソリューションでは、中規模のデータ構造は HBM2 に格納し、大規模なデータ構造は DDR DRAM に格納することも可能です。これは、Stratix 10 MX デバイスで構築できるスケーラブルなメモリ・サブシステムならではの能力です。

アプリケーションのまとめ

Statix 10 MX デバイスは、従来の DRAM ソリューションに比べて広い帯域幅、高いアクセス同時並行性、およびより多くのオープン・バンク・アクセスを実現します。これらの特長により、アクセラレータ・ソリューションにおける中規模テーブル用 DRAM メモリ・サブシステムの構築に最適です。さらに、設計者は統合 HBM DRAM とブロック RAM および DDR DRAM と組み合わせて、包括的なメモリ・ソリューションを構築することが可能です。

(11)

ストリーミング・サイバー・セキュリティ解析のアルゴリズム・アクセラレーションページ 11

ストリーミング・サイバー・セキュリティ解析のアルゴリズム・

アクセラレーション

高いデータ・レート (10 GbE 超) のストリーミング・サイバー・セキュリティ解析アプリケーションの場合、FPGA を使用してアルゴリズムを高速化することは、高スループットのローカル・メモリが十分にないため困難です。現在のアーキテクチャでは、大容量 DDR3/4 メモリを使用して疑わしいデータをストアします。DDR3/4 メモリへの高コストの読み出し／書き込み、限られたメモリ・サイズおよびメモリ帯域幅のため、オンチップのデータとの協調は容易ではなく、しかもオフチップのデータに効率よくアクセスすることは極めて困難です。 Stratix 10 MX デバイスは、広いオンチップ帯域幅による複数の高データ・レート・ストリーム間の調整に加え、比較的大容量のオンチップ・ストレージが可能なため、ストリーミング・サイバー・セキュリティ解析に不可欠なニーズに応えます。レイテンシの短縮により、複数の 100/400/1,000 GbE ストリームを検索し、比較的小型の計算ノード内でそれらを調整することが可能です。Stratix 10 MX デバイスは、各 FPGA が優れたストレージとオンチップ帯域幅を備えているため、各計算ノードの FPGA 数を削減します。多くの高データ・レート・ストリーミング・アプリケーションでは、データ移動の維持がますます大きな問題となっています。例えば、現在のアプリケーションはセキュリティ解析を実行する際、データ・ストリームを複数の CPU または FPGA にファンアウトしなければならず、複雑な外部ファブリックやチップ間タイミングからレイテンシが生じます。この複雑なアーキテクチャで少量のデータをオフチップにストアしなければならない場合、このオフチップ・メモリへのアクセスは、レイテンシの増加、追加 DRAM による消費電力増加、演算装置の追加、および単位面積あたりの性能低下という理由から高コストです。このデータ移動レートの低下は、システム・アーキテクチャに全体的なデータ帯域幅の減少をもたらし、低速なメモリの補償を強いることになります。図 14 に、336 GB/s の推定メモリ帯域幅を持つ 128 GB の DDR4-2666 メモリを備えた 4 個の FPGA を示します。図 15 は、1,024 GB/s の帯域幅を持ち、図 14 に比べて消費電力が約 20 % 低く、PCB の面積が 20 % 小さい Stratix 10 MX デバイスです。消費電力バジェットおよび PCB フロアプランが同じ場合、Stratix 10 MX デバイスであれば同じサブシステムに 4 個を実装できることになります。完全なメッシュ型のサブシステムは、搭載されたトランシーバを利用して、従来は多数のラックを必要としたはずである多くの 1 TB/s イーサネットまたは Infiniband ストリームを処理することが可能です。メッシュの大規模化は演算装置間のレイテンシ短縮につながり、より大規模なデータベースの構築が可能になります。図 14 の場合、完全なメッシュ型の FPGA に伴う、異なる DDR4 DIMM 間の相関データ・レイテンシは、たとえ適切に設計されたシステムでも無視できないレベルに達します。紫色の線はシステム・アーキテクトのワースト・ケース・レイテンシで、数ミリ秒の遅延が発生します。さらに、図 14 では、アプリケーションがデータベースのアップストリーム・フィードバックまたはダウンストリーム転送を実行する必要がある場合、16 枚の DDR4 DIMM をコヒーレントに組み合わせることは、Stratix 10 MX の例に比べてはるかに困難です。従来の手法では、データベースのコピーを複数維持してレイテンシを短縮しますが、アップストリームまたはダウンストリーム・データの送信前にコヒーレンシを維持するためのデータベース管理が必要です。Stratix 10 MX によるデザインはコ

(12)

ページ 12 まとめ図 14：ストリーミング・サイバー・セキュリティ解析における従来の FPGA パーティショニング図 15：Stratix 10 MX デバイスによる改善されたアーキテクチャ

まとめ

メモリ帯域幅は、次世代システムの要件に対応するために、急増することが予測されています。さまざまなエンド・マーケットやアプリケーション (データ・センター、高性能コンピューティング (HPC)、放送、データ解析、ワイヤライン・ネットワーキング) がメモリ帯域幅要件の増大要因となります。これらの次世代システムは、最高レベルのメモリ帯域幅、低消費電力、より小さい実装面積を必要とします。 DDR3、DDR4、QDR、RLDRAM などの従来のメモリ・システムは、こうしたメモリ帯域幅の急激な増加傾向への対応に苦しんでいます。これらの従来のソリューションでは、さらなる広帯域幅、低消費電力、および実装面積の縮小という重要な要件を同時に満たすことはできません。それに対し、3D スタッキング技術を利用した新たなメモリ・テクノロジは、この帯域幅要件を満たすことが可能です。アルテラが完全にサポートするそうしたテクノロジには、シリアル・メモリ・ソリューション (HMC) とパラレル・メモリ・ソリューション (HBM2) があります。 Stratix 10 MX デバイスは、インテルの特許済み EMIB テクノロジを使用して、HBM2 と高性能モノリシック FPGA ファブリックを 1 つのパッケージに効率よく統合した新しいタイプの製品です。Stratix 10 MX デバイスは、1 つのパッケージで最大 1 TB/s の合計メモリ帯域幅を提供します。Stratix 10 MX ソリューションは、帯域幅が極めて重要である高性能システムの要求を満たすために設計されており、従来のソリューションと比較して約 10 倍のメモリ帯域幅を可能にしつつ、消費電力と実装面積の削減を同時に実現します。 FPGA FPGA FPGA FPGA 4 DDR4 DIMM 4 DDR4 DIMM 4 DDR4 DIMM 4 DDR4 DIMM 4 (21 GB/s) 4 (21 GB/s) 4 (21 GB/s) 4 (21 GB/s) 複数の 10、40、100 GbE 追加の処理 現在のストリーミング・アプリケーション ■ 総メモリ帯域幅 = 16 x 21 GB/s = 336 GB/s ■ 複雑な SERDES (Serializer/Deserializer) メッシュ・デザイン ■ 16 枚の DIMM にわたる複雑なデータベース分割 ■ 強制的なデータ・パーティショニング GA FPG 複数の 10、40、100 GbE 追加の処理 新たなストリーミング・アプリケーション ■ 総メモリ帯域幅 = 1 TB/s ■ 3 倍のメモリ帯域幅 ■ デザインの簡素化 ■ 統一されたデータベース ■ データ移動を維持 従来の手法に比べて大幅に広帯域幅、 低消費電力、および少ない実装面積を実現

(13)

参考文献ページ 13

参考文献

 インテル EMIB テクノロジ： www.intel.com/content/www/us/en/foundry/emib.html?wapkw=emib  ホワイトペーパー：アルテラの 3D SiP (System-in-Package) テクノロジを活用した次世代プラットフォームの実現 www.altera.co.jp/content/dam/altera-www/global/ja_JP/pdfs/literature/wp/wp-01251-enabling-nextgen-with-3d-system-in-package_j.pdf  ホワイトペーパー：最高レベルの集積化を実現するプログラマブル・ロジックの実力: www.altera.co.jp/content/dam/altera-www/global/ja_JP/pdfs/literature/wp/wp-01258-achieving-highest-levels-of-integration-in-programmable-logic_j.pdf

文書改訂履歴

表 1 に、本資料の改訂履歴を示します。表 1. 文書改訂履歴日付版変更内容 2016 年 5 月 1.0 初版