メモリ一体型プロセッサの総括

第 4 章集合演算プロセッサ 41

5.1 メモリ一体型プロセッサの総括

第 5 ^{章結論}

表5.1は従来型プロセッサであるCPUやGPUと，これまで説明の3つのメモリ一体型プロセッサの相違点をまとめたものである．

現在我々が日常利用するコンピュータはノイマン型コンピュータである．ノイマン型コンピューティングの基本は，演算装置（CPU）と記憶装置（メモリ）による逐次処理コンピューティングである．このタイプ以外の演算体系のコンピューティングを，一律に非ノイマン型コンピューティングと呼ぶ傾向がある．メモリ一体型プロセッサは，演算装置と記憶装置が分離されている事に起因する弊害を解決するためにそれらを同一の半導体チップ上に実装し，ノイマン型演算装置であるCPUやGPUの苦手な処理である情報の検出処理を代行するものである．従ってメモリ一体型プロセッサは補ノイマン型プロセッサと考えるのが相応しい．

CPUGPUメモリ一体型プロセッサタイプノイマン型プロセッサノイマン型プロセッサ補ノイマン型プロセッサデータ（メモリ）の位置チップ外部※チップ外部※チップ内部演算の主目的汎用演算＋算術演算算術演算検索・照合・認識・分類など情報の検出演算器ALU＋FPU（高価）FPU＋ALU（高価）GroupArrayProcesor（GAP）（安価）並列度1〜72Core／チップ1K〜5KCore／チップ数十万〜数千万／チップ演算能力クロック速度×コア数（逐次処理能力×コア数）クロック速度×コア数（逐次処理能力×コア数）クロック速度×GAP数／繰返し演算回数（一括データ処理能力／繰返し演算回数）電力例1W〜200W／チップ100W〜400W／チップ10W以下／チップ情報検出時の演算効率

メモリの中から特定の情報を見つけ出すような単純処理に高価な演算器を用いるので演算効率が悪く勿体ない使い方になるメモリの中から特定の情報を見つけ出すような単純処理に高価な演算器を用いるので演算効率が悪く勿体ない使い方になる

検出する情報に最適で安価な３種類の GAPを大量に利用し超並列演算を行う、データのチップ外部への移動がないので電力性能が高い、インデックス等のメタデータを必要としないので利用上の演算効率も向上するキャッシュメモリ

チップ外部のメモリ（DRAM）の遅延を補完するためにチップ内部に実装され利用される（キャッシュは高速であるが演算機能なし）

演算用のメモリ以外のメモリをチップに搭載させることも可総合

何でも出来ることが最大の特徴であるが、情報検出など苦手な（効率の悪い）処理は少なくない高速な積和演算を必要とするDLなどに最適であるが、電力消費などが課題

算術演算などの処理は対象外、情報の検出を伴う検索・照合・認識・分類など、DB やAI・IoT分野で多用される処理に特化して超高速・超省電力化を実現する表5.1:プロセッサの相違点．

メモリ一体型プロセッサ画像集合演算プロセッサデータベースプロセッサデータクラス分け演算プロセッサプロセッサ利用の目的画像のパターンマッチング処理汎用データベースの検索・照合処理データのクラス分け処理メモリに記憶されるデータ画像（2次元配列データ）汎用データテーブル比較用データテーブル演算内容

チップ内の画像1ピクセル毎の「データの値、データの位置、演算子」の3つを並列演算する演算器（GAP）を設け、並列演算を所定回実施することによりパータンマッチングを実行する.

チップ内の1アドレスのメモリセル数を大幅に拡大し、拡大されたメモリセルの列に対応し演算器（GAP）を設け1アドレスのメモリセルのデータを演算器に代入し並列演算を実施する.

チップ内のX方向のメモリ（データ）とY方向のメモリ（データ）のデータ線の交点に演算器（GAP）を設け並列に演算する. 処理内容完全一致パターンマッチング曖昧パターンマッチング領域検出・エッジ検出

ビットシリアル完全一致検索・照合ビットシリアル範囲検索ビットマップ検索

クラス分けヒストグラムソーティング ASIC化構成

SRAMメモリを採用 680×480ピクセル（VGA）メモリ容量≈921KByte 演算器の個数≈30K個 DRAMメモリを採用 1Mレコード×1Kアドレスメモリ容量≈1Gbit 演算器の個数≈1M個

SRAMメモリを採用 4Kデータ×4Kデータメモリ容量≈4MByte×2 演算器の個数≈16M個 ASIC化演算性能演算クロック5n秒の場合、VGA画像の5ポイントパターンマッチング時間が1µ秒以内

DRAMメモリセルのアナログ特性を利用した演算によりAND演算と OR演算が437n秒で実現

演算クロック5n秒の場合、64ビット16M並列のデータ比較演算が 320n秒程度 ASIC化チップ電力演算時消費電力3W以下演算時消費電力DDR3メモリ程度演算時消費電力10W以下 ASIC化メリット（バスボトルネック解消並びにメモリとプロセッサの一体化効果）

CPUとメモリで実行する画像のパターンマッチングに比較して、電力性能で換算すると数万倍程度高速化が期待できる. パターン認識のための前処理や学習などが不要になる.

CPUとメモリで実行する汎用データの検索や照合に比較して、電力性能が優れた検索や照合が期待できる. 検索・照合のためのインデックス作成の前処理や更新処理が不要になる.

CPUとメモリで実行する汎用データのクラス分けやソーティングに比較して、電力性能で換算すると数万倍程度高速化が期待できる. クラス分けやソーティングのためのアルゴリズムが不要になる. 表5.2:メモリ一体型プロセッサのまとめ．

以上のような背景から，DRAM内部に新しく演算器を組み込む事を避け，DRAMメモリセルのアナログ特性を利用して論理演算を行う研究が多数提案されている．つまりDRAMのメモリセルやセンサーアンプの構成を変更する事なく，DRAM内部にメモリセルの読み出し方法を変える機能を追加する事によってコンピューティングを実現する提案が一般的である．

これまで一般のDRAMではインメモリコンピューティングを実現する事は出来ないものと考えられていた．

文献[111]は，汎用DRAMでAND演算とOR演算を実現させるものである．すなわち汎用の

DRAMチップに一切手を加える事なく，汎用のDRAMの使い方，つまりDRAMの制御を通常の方法から変更する事で，DRAMメモリ内でインメモリコンピューティングを実現するものである．

まだ理論の検証段階であり実用化するまでには多少の時間がかかると思われるものの汎用品を利用出来るので実用化の可能性が高い．本文献による方式でデータベースプロセッサを構成した場合の例を紹介する．汎用DDR3の2Gビット，4GビットのDRAMでの演算手法と演算結果が示されている．このチップの演算サイクルを400MHzで制御した場合，8ビットのAND演算とOR 演算が1,376サイクルで実現出来る事が示されており，8ビットのAND/OR演算が2.5n秒×1,376

サイクル=3.440μ秒で実現され，1ビット（1アドレス演算）に換算すれば430n秒になる．この

演算速度は，これまでFPGAで研究してきた演算スピード，例えば5n秒や10n秒に比較して著しく低速であるものの，FPGA方式の容量不足を解消するための外部メモリのデータバッチ処理の必要がなく，しかも消費電力が一般的なDDR3のチップの消費電力0.5Ｗ程度であるので，電力性能が大幅に改善される事になる．この演算方式ではAND演算，OR演算のみしか実現出来ないが，正理論データと不理論データを一対にしてDRAM内のメモリセルに記憶する事により，疑似的にNOT演算やXOR演算を実現する事が示されている．このようなコンピューティングの有効性が示される事により，DRAM型式のインメモリコンピューティングの需要が見込まれるものと考えられる．

データクラス分け演算プロセッサのASIC化について説明をする．半導体は2020年現在数十億トランジスタが1チップに搭載出来る．もう間もなく100億トランジスタが実装出来る見通しである．データクラス分け演算プロセッサの1つのAPは500トランジスタ（100ゲート）程度で実現する事が可能であり，16M個のGAPの場合8G個（80億個）トランジスタ数になり，残り20 億のスペースをメモリ並びに周辺回路に利用する事が出来る．ちなみに4MBのメモリを1セル当たり6トランジスタのSRAMで構成する場合，4M×8×6≈2億トランジスタ程度である．10億個のトランジスタを使えば40MBのメモリを搭載する事が出来る．必要に応じ更にメモリを増設する事により，高度な演算効果を得る事が出来る．

以上のような構成のASICを5n秒クロックで64アドレス演算を行った場合，320n秒で実現出来る事になる．16M個の演算器が並列に演算を行い演算結果を出力する事になるので，ラッシュ電流を考慮した設計をする必要がある．また演算器（AP）の集積度が特に高いので，マッチアドレス出力の構成と出力インターフェースを充分に考慮する必要がある．

ドキュメント内電気通信大学大学院情報理工学研究科 (ページ 103-106)

第 4 章 集合演算プロセッサ 41

5.1 メモリ一体型プロセッサの総括

第 5 章 結論

第 4 章集合演算プロセッサ 41

第 5 ^{章結論}