• 検索結果がありません。

メモリ一体型プロセッサの総括

ドキュメント内 電気通信大学大学院 情報理工学研究科 (ページ 103-106)

第 4 章 集合演算プロセッサ 41

5.1 メモリ一体型プロセッサの総括

5 章 結論

表5.1は従来型プロセッサであるCPUやGPUと,これまで説明の3つのメモリ一体型プロセッ サの相違点をまとめたものである.

現在我々が日常利用するコンピュータはノイマン型コンピュータである.ノイマン型コンピュー ティングの基本は,演算装置(CPU)と記憶装置(メモリ)による逐次処理コンピューティング である.このタイプ以外の演算体系のコンピューティングを,一律に非ノイマン型コンピューティ ングと呼ぶ傾向がある.メモリ一体型プロセッサは,演算装置と記憶装置が分離されている事に 起因する弊害を解決するためにそれらを同一の半導体チップ上に実装し,ノイマン型演算装置で あるCPUやGPUの苦手な処理である情報の検出処理を代行するものである.従ってメモリ一体 型プロセッサは補ノイマン型プロセッサと考えるのが相応しい.

CPUGPUメモリ一体型プロセッサ タイプノイマン型プロセッサノイマン型プロセッサ補ノイマン型プロセッサ データ(メモリ)の位置チップ外部※チップ外部※チップ内部 演算の主目的汎用演算+算術演算算術演算検索・照合・認識・分類など情報の検出 演算器ALU+FPU(高価)FPU+ALU(高価)GroupArrayProcesor(GAP)(安価) 並列度1〜72Core/チップ1K〜5KCore/チップ数十万〜数千万/チップ 演算能力クロック速度×コア数 (逐次処理能力×コア数)クロック速度×コア数 (逐次処理能力×コア数)クロック速度×GAP数/繰返し演算回数 (一括データ処理能力/繰返し演算回数) 電力例1W〜200W/チップ100W〜400W/チップ10W以下/チップ 情報検出時の演算効率

メモリの中から特定の情報 を見つけ出すような単純処 理に高価な演算器を用いる ので演算効率が悪く勿体な い使い方になる メモリの中から特定の情報 を見つけ出すような単純処 理に高価な演算器を用いる ので演算効率が悪く勿体な い使い方になる

検出する情報に最適で安価な3種類の GAPを大量に利用し超並列演算を行う、 データのチップ外部への移動がないので 電力性能が高い、インデックス等のメタ データを必要としないので利用上の演算 効率も向上する キャッシュメモリ

チップ外部のメモリ (DRAM)の遅延を補完す るためにチップ内部に実 装され利用される(キャッ シュは高速であるが演算機 能なし)

チップ外部のメモリ (DRAM)の遅延を補完す るためにチップ内部に実 装され利用される(キャッ シュは高速であるが演算機 能なし)

演算用のメモリ以外のメモリをチップに 搭載させることも可 総合

何でも出来ることが最大の 特徴であるが、情報検出な ど苦手な(効率の悪い)処 理は少なくない 高速な積和演算を必要とす るDLなどに最適であるが、 電力消費などが課題

算術演算などの処理は対象外、情報の検 出を伴う検索・照合・認識・分類など、DB やAI・IoT分野で多用される処理に特化 して超高速・超省電力化を実現する 表5.1:プロセッサの相違点.

メモリ一体型プロセッサ画像集合演算プロセッサデータベースプロセッサデータクラス分け演算プロセッサ プロセッサ利用の目的画像のパターンマッチング処理汎用データベースの検索・照合処理データのクラス分け処理 メモリに記憶されるデータ画像(2次元配列データ)汎用データテーブル比較用データテーブル 演算内容

チップ内の画像1ピクセル毎の 「データの値、データの位置、演算 子」の3つを並列演算する演算器 (GAP)を設け、並列演算を所定回 実施することによりパータンマッチ ングを実行する.

チップ内の1アドレスのメモリセル 数を大幅に拡大し、拡大されたメモ リセルの列に対応し演算器(GAP) を設け1アドレスのメモリセルの データを演算器に代入し並列演算 を実施する.

チップ内のX方向のメモリ(デー タ)とY方向のメモリ(データ) のデータ線の交点に演算器(GAP) を設け並列に演算する. 処理内容完全一致パターンマッチング 曖昧パターンマッチング 領域検出・エッジ検出

ビットシリアル完全一致検索・照合 ビットシリアル範囲検索 ビットマップ検索

クラス分け ヒストグラム ソーティング ASIC化構成

SRAMメモリを採用 680×480ピクセル(VGA) メモリ容量921KByte 演算器の個数30K個 DRAMメモリを採用 1Mレコード×1Kアドレス メモリ容量1Gbit 演算器の個数1M個

SRAMメモリを採用 4Kデータ×4Kデータ メモリ容量4MByte×2 演算器の個数16M個 ASIC化演算性能演算クロック5n秒の場合、VGA画 像の5ポイントパターンマッチング 時間が1µ秒以内

DRAMメモリセルのアナログ特性 を利用した演算によりAND演算と OR演算が437n秒で実現

演算クロック5n秒の場合、64ビ ット16M並列のデータ比較演算が 320n秒程度 ASIC化チップ電力演算時消費電力3W以下演算時消費電力DDR3メモリ程度演算時消費電力10W以下 ASIC化メリット (バスボトルネック解消並 びにメモリとプロセッサの 一体化効果)

CPUとメモリで実行する画像のパ ターンマッチングに比較して、電 力性能で換算すると数万倍程度高 速化が期待できる. パターン認識のための前処理や学 習などが不要になる.

CPUとメモリで実行する汎用デー タの検索や照合に比較して、電力 性能が優れた検索や照合が期待で きる. 検索・照合のためのインデックス 作成の前処理や更新処理が不要に なる.

CPUとメモリで実行する汎用デー タのクラス分けやソーティングに 比較して、電力性能で換算すると 数万倍程度高速化が期待できる. クラス分けやソーティングのため のアルゴリズムが不要になる. 表5.2:メモリ一体型プロセッサのまとめ.

以上のような背景から,DRAM内部に新しく演算器を組み込む事を避け,DRAMメモリセル のアナログ特性を利用して論理演算を行う研究が多数提案されている.つまりDRAMのメモリセ ルやセンサーアンプの構成を変更する事なく,DRAM内部にメモリセルの読み出し方法を変える 機能を追加する事によってコンピューティングを実現する提案が一般的である.

これまで一般のDRAMではインメモリコンピューティングを実現する事は出来ないものと考え られていた.

文献[111]は,汎用DRAMでAND演算とOR演算を実現させるものである.すなわち汎用の

DRAMチップに一切手を加える事なく,汎用のDRAMの使い方,つまりDRAMの制御を通常の 方法から変更する事で,DRAMメモリ内でインメモリコンピューティングを実現するものである.

まだ理論の検証段階であり実用化するまでには多少の時間がかかると思われるものの汎用品を利 用出来るので実用化の可能性が高い.本文献による方式でデータベースプロセッサを構成した場 合の例を紹介する.汎用DDR3の2Gビット,4GビットのDRAMでの演算手法と演算結果が示 されている.このチップの演算サイクルを400MHzで制御した場合,8ビットのAND演算とOR 演算が1,376サイクルで実現出来る事が示されており,8ビットのAND/OR演算が2.5n秒×1,376

サイクル=3.440μ秒で実現され,1ビット(1アドレス演算)に換算すれば430n秒になる.この

演算速度は,これまでFPGAで研究してきた演算スピード,例えば5n秒や10n秒に比較して著し く低速であるものの,FPGA方式の容量不足を解消するための外部メモリのデータバッチ処理の 必要がなく,しかも消費電力が一般的なDDR3のチップの消費電力0.5W程度であるので,電力 性能が大幅に改善される事になる.この演算方式ではAND演算,OR演算のみしか実現出来ない が,正理論データと不理論データを一対にしてDRAM内のメモリセルに記憶する事により,疑似 的にNOT演算やXOR演算を実現する事が示されている.このようなコンピューティングの有効 性が示される事により,DRAM型式のインメモリコンピューティングの需要が見込まれるものと 考えられる.

データクラス分け演算プロセッサのASIC化について説明をする.半導体は2020年現在数十億 トランジスタが1チップに搭載出来る.もう間もなく100億トランジスタが実装出来る見通しで ある.データクラス分け演算プロセッサの1つのAPは500トランジスタ(100ゲート)程度で実 現する事が可能であり,16M個のGAPの場合8G個(80億個)トランジスタ数になり,残り20 億のスペースをメモリ並びに周辺回路に利用する事が出来る.ちなみに4MBのメモリを1セル当 たり6トランジスタのSRAMで構成する場合,4M×8×62億トランジスタ程度である.10億個 のトランジスタを使えば40MBのメモリを搭載する事が出来る.必要に応じ更にメモリを増設す る事により,高度な演算効果を得る事が出来る.

以上のような構成のASICを5n秒クロックで64アドレス演算を行った場合,320n秒で実現出 来る事になる.16M個の演算器が並列に演算を行い演算結果を出力する事になるので,ラッシュ 電流を考慮した設計をする必要がある.また演算器(AP)の集積度が特に高いので,マッチアド レス出力の構成と出力インターフェースを充分に考慮する必要がある.

ドキュメント内 電気通信大学大学院 情報理工学研究科 (ページ 103-106)