ソフトコアプロセッサ向けSIMD演算のための高帯域オンチップメモリの検討

全文

(1)Vol.2015-ARC-216 No.9 2015/8/4. 情報処理学会研究報告 IPSJ SIG Technical Report. ソフトコアプロセッサ向け SIMD 演算のための高帯域オンチップメモリの検討平石康祐1,a). 橋本瑛大1. 大津金光1. 横田隆史1. 大川猛1. 概要：SIMD 演算により演算のピーク性能を向上させたソフトコアプロセッサを中心に構成した組込みシステムである MIQS システムを我々は開発している．MIQS システムは 4 ワードの SIMD 演算機能を持つソフトコアプロセッサを搭載した組込みシステムである．FPGA を用いた組込みシステムのオフチップメモリと FPGA チップ間のデータバス幅は一般的に狭くメモリ性能が低いため，演算性能が高くとも，プログラムの実行性能を低下させる一因となる．そのため，MIQS システムに高帯域オンチップメモリ実装し，可能な限りオフチップメモリへのアクセス回数を削減することで，メモリアクセスの効率化を図り，プログラムの実行性能向上を目指す．本稿では，MIQS システム上に実現するオンチップメモリとその高帯域化，オンチップメモリを制御する拡張命令について検討した．また，予備評価として FPGA を用いた組込みシステムで頻繁に用いられるオンチップメモリの 1 つである SPM を MIQS システムに搭載した場合の実行性能について評価した．その結果，SPM を搭載した MIQS システムがオンチップメモリを持たない MIQS システムに比べ，4 つのプログラムのうち 2 つのプログラムで実行性能が大幅に向上した．. 1. はじめに. 可能なチップを用いた組込みシステムの開発コストの低減と高性能化の両立を目的としたアーキテクチャの例とし. FPGA (Field Programmable Gate Array) の性能向上に. て Microsoft 社の eMIPS[3] がある．eMIPS は実行するプ. より大規模な回路を FPGA 上に実装することが出来るよう. ログラム毎に専用の演算ユニット・拡張命令を使用して処. になったことで，FPGA を用いた組込みシステムが開発さ. 理するのに対して，MIQS システムは汎用的な SIMD 演算. れることが増えてきている．組込みシステムにおいて，カ. を用いることで高速化を図っている点が異なる．専用の演. メラから入力された画像に対して処理を行う機会も増え，. 算ユニット・拡張命令を用いる場合，新たに専用の演算ユ. FPGA を用いた組込みシステムにおいてもデータ並列性の. ニット・拡張命令の有効な活用法を検討する必要がある．. あるプログラムを処理する機会も多いと考えられる．デー. 対して SIMD 演算は，既存の技術が成熟しているため，こ. タ並列性のあるプログラムにおいて，SIMD 演算は非常に. れを活用することで，専用の演算ユニット・拡張命令を用. 有効的であり，既存の確立した SIMD 演算を活用した高. いる場合に比べて開発期間の短縮が期待できる．. 速化手法を用いることで，高速化を果たしつつも開発期間. プログラムの実行性能は，システムのピーク演算性能と. の短縮が期待できる．そこで我々は，FPGA 上でデータ並. メモリ性能に依存する．この実行性能の見積もりは，ルー. 列性の高い処理を行う場面での開発期間短縮と高性能化の. フラインモデル [2](図 1) で表現可能である．ルーフライン. 両立を目指して，4 並列 SIMD 演算機能を持つ MIPS 命令. モデルは，縦軸にプログラムの実行性能，横軸に 1 参照あ. 互換ソフトコアプロセッサ [1] を搭載した組込みシステム. 1 の領域の傾きはメモリ性たりの演算回数をとる．図 1 の⃝. である MIQS(MIPS Instruction processor with Quadword. 2 の領域の水平直線はシステムのピーク性能を示し能を，⃝. SIMD extension) システムを開発している．. ている．システムのメモリ性能を向上すると横軸の 1 の時. FPGA を用いた組込みシステム開発において，FPGA. の縦軸の値が向上する．つまり図 1 が全体的に左方向にシ. 上に実現する回路の開発コストが高いことが問題点として. 2 の領域のフトする．システムのピーク性能が向上すると⃝. 存在する．MIQS システムと同様に，FPGA などの再構成. 水平直線が上方向にシフトする．プログラムはカーネルの. 1 参照あたりの演算回数により，横軸上の 1 点をとり，こ 1. a). 宇都宮大学大学院工学研究科 Graduate School of Engineering, Utsunomiya University [email protected]. c 2015 Information Processing Society of Japan ⃝. 1 の領域に属する場合は，ピーク性能プログの点が図 1 の⃝. 1.

(2) Vol.2015-ARC-216 No.9 2015/8/4. 情報処理学会研究報告 IPSJ SIG Technical Report. のフェッチ，命令の実行，メモリアクセス，ライトバックは SIMD side，MIPS side で独立している． Peak performance of the system. SIMD 演算を行う際には，図 2 中の SIMD RF で表す. Execution Performance. SIMD レジスタにデータをロードすることで，ベクトル・ Memory performance. ベクトル演算を行うことが可能である．また，SIMD レジスタに格納された値と，図 2 中の RF で表す汎用レジスタの値を用いてスカラ・ベクトル演算も行うことが可能である．SIMD レジスタと汎用レジスタのデータは，拡張命令を用いることで相互に転送することが可能である．. 図 1. 演算は図 2 中の MUL4，ALU4，SH，INS/EXT，で表. 䐠䐟 operation / reference of memory. される演算器を用いる．それぞれ SIMD 乗算ユニット，. ルーフラインモデル. SIMD 算術論理演算ユニット，SIMD レジスタのシフタ， SIMD レジスタ汎用レジスタ間データ転送ユニットである．. 2 の領域に属するラムの実行性能がメモリ性能に依存し，⃝. SIMD 乗算ユニットは，4 段パイプラインの乗算器となっ. 場合はシステムのピーク性能に依存する．. ている．演算結果は SIMD 乗算専用の hi レジスタ，lo レ. MIQS システムは SIMD 演算によって，ピーク演算性能. ジスタに格納する．. 1 の領域にあたるプロを向上させている．しかし，図 1 の⃝. メモリアクセスは，オンチップメモリ，オフチップメモ. グラムの場合は，ピーク演算性能がいくら向上しても，プ. リを含むデータ格納用のメモリ領域とは 4 ワード単位で行. ログラムはメモリ性能に依存するため実行性能は向上しな. う．図 2 中の imem は，命令格納用のメモリ領域であり 1. い．そのため，全てのプログラムにおいて実行性能を向上. ワード単位でアクセスする．. させるには SIMD 演算によるピーク演算性能向上に加え，メモリ性能向上を果たす必要がある．これは組込みシステムでも同様である．. 2.2 オンチップメモリへの要求 MIQS システムのプロセッサは 4 ワードの SIMD 演算. プログラムの実行性能は，使用するシステムのピーク演. を行う．SIMD 演算を行う場合，オンチップメモリとプロ. 算性能と，メモリ性能に依存するため，専用ハードウェア. セッサ間のデータバス幅が狭い場合，演算に必要なデータ. などを用いて演算性能を向上させても，メモリ性能がボト. を転送するのに必要なサイクル数が増加する．そこで，オ. ルネックとなりプログラムの実行性能があまり上がらない. ンチップメモリとプロセッサ間のデータバス幅を広げるこ. 場合がある．. とで，高帯域化する．その上で，オンチップメモリのバス. 一方，FPGA を用いた組込みシステムは，コスト削減の. 幅を広げる．4 ワードの SIMD 演算を効率的に行うために. ためにオフチップメモリの数を可能な限り削減することが. は，1 度のメモリアクセスで演算に必要な 4 ワードのデータ. 多い．そのため，FPGA チップとオフチップメモリ間のバ. をロード可能であること，1 度のメモリアクセスで 4 ワー. ス幅は広くない場合が多く，一般的にメモリの性能が低い．. ドの演算結果をストア可能であることが望ましい．そのた. この問題に対してを避けるために，オフチップメモリへ. め，オンチップメモリとプロセッサ間のデータバス幅は 4. のアクセスを可能な限り削減する必要があり，その有効な. ワード以上にする必要がある．. 手段の一つとしてオンチップメモリを使用する手法があ. また，オフチップメモリは非常に帯域が低いため，頻繁. る．本稿では，MIQS システムに適用する高帯域オンチッ. なオフチップメモリへのアクセスはメモリ性能の低下につ. プメモリの要件と実現方法，仕様の検討を行う．. ながる．これを防ぐために，演算に必要なデータを可能な. 2. MIQS システム 2.1 概要 MIQS システムのプロセッサのブロック図を図 2 に示す．. 限りオンチップメモリ上に存在するようにし，オフチップメモリへのアクセスは最小限にする必要がある．. 3. 組込みシステム向けオンチップメモリ. 本プロセッサは MIPS 命令互換プロセッサである MIPS. FPGA を用いた組込みシステムで主に使用されるオン. side と，SIMD 演算を行う SIMD side に分けられる．SIMD. チップメモリとして，スクラッチパッドメモリ (SPM) と，. side は 1 度に 4 ワードの SIMD 演算を行う SIMD 演算ユ. キャッシュがある．SPM は，プログラマがデータの配置. ニットである．MIPS side は MIPS 命令互換プロセッサと. などを明示的に管理することができる高速なメモリであ. して動作する．SIMD side と MIPS side は可能な限り同. る．SPM 上のデータはプログラマが明示的に入れ替える. 一のパイプライン構成とし，命令のフェッチ，命令のデ. ため，メモリへのアクセスパターンが明確なプログラムの. コードは MIPS side，SIMD side 共通で行い，オペランド. 場合に，キャッシュよりもメモリアクセスの効率化を図る. c 2015 Information Processing Society of Japan ⃝. 2.

(3) Vol.2015-ARC-216 No.9 2015/8/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 4Words. SIMD RF (HL). 4W rdB. SIMD hi/lo. 4W rdA. …. MUL 4. SIMD RF (HH). Pipelined multiplier. ALU 4 SH. SIMD RF (LH). INS/ EXT. SIMD RF (LL). SIMD side. 4bit merge template. 4to1. MIPS side +. align/ extend. hi/lo. RF. 1to4. 4to1. deco der. P C. ALU. Operand gen. branch. Operand gen. +. 4. Ad. Di. Ad. Do. imem (OCM). Do. dmem (OCM+DRAM). 図 2. MUX. MIQS システムのプロセッサブロック図. ことができる．また，キャッシュと比べ省電力である，と. Way-7. いう利点もある．しかし，明示的にメモリの管理が必要で. Way-2. あるためプログラムが複雑になり，プログラマへの負担が大きくなるという問題がある．. Way-1 Way-0 Lock. Valid. Dirty. Tag. Data. 0. 0. 0. 0000. 00000000 00000000 00000000. 速なメモリである．オンチップメモリと主記憶間のデータ. 1. 1. 1. 0210. 00001000 a0000002 14001400. 転送をハードウェアで実装することで，データの入れ替え. 0. 1. 0. 1000. 11110000 07fffabc4 33332222. を自動的に行う．そのため，プログラマはオンチップメモ. 0. 1. 1. 3fff. 00000061 7892c002 aabbccdd. 呍呍呍. 呍呍呍. 呍呍呍. 呍呍呍. 呍呍呍. 1. 1. 0. 0ecc. 11111111 22222222 33333333. プログラムにおいては，キャッシュミスが多くなり性能が. 1. 1. 1. 78ac. 8000000e 00000000 10000001. 上がらない可能性がある．MIQS システムででは，ストア. 0. 0. 0. 0000. 00000000 00000000 00000000. キャッシュは時間的局所性，空間的局所性を活かした高. リの管理が原則として不要になる．しかし，局所性の低い. 命令実行時のメモリアクセス回数を削減のためにライトバック方式のキャッシュを前提とする．. SPM のメモリへのアクセスパターンが明確なプログラムの場合にメモリアクセスを効率化できるという利点を取り込んだキャッシュとしてロックドキャッシュがある．ロックドキャッシュは，プログラマが指定したメモリ領域をブロック単位でロックし，データが自動的にリプレースされるのを防ぐ機能を持つキャッシュである．ロックドキャッシュの構成を図 3 に示す．ロックドキャッシュは，データとアドレスタグ以外に，ブロックの状態を表すビット情報として Lock(Unlock)，Valid(Invalid)，Dirty(Clean) を持つ．任意のブロックの Lock ビットを立てることで，ブロックをロックし，そのブロックが他のデータにリプレースされるのを防ぐことができる (図 3 の網掛け部)．これにより，任意のデータをオンチップメモリ上に固定できるため，アクセスパターンが明確な場合はオンチップメモリ上に必要なデータが存在する可能性を上げることが. c 2015 Information Processing Society of Japan ⃝. 図 3. ロックドキャッシュの構成. でき，メモリアクセス効率化につながる．そこで我々は，SPM とキャッシュの利点を併せ持つロックドキャッシュを用いて，メモリアクセス効率化を図る．. 4. 高帯域オンチップメモリ 4.1 高帯域オンチップメモリの要件オンチップメモリを高効率に使用するには，可能な限りプログラムに必要なデータをオンチップメモリ上に配置する必要がある．一般的にプログラムは局所性が高いことが多いため，基本的にはキャッシュを用いることでアクセス性能を高めることができる．メモリアクセスパターンが明確な場合や，無駄な主記憶への書き戻しが起こることが予想される場合に，キャッシュ上に必要なデータをロックし，他のデータによるリプレースを防ぎ，メモリアクセスの効率化を図る．. 3.

(4) Vol.2015-ARC-216 No.9 2015/8/4. 情報処理学会研究報告 IPSJ SIG Technical Report. ロックドキャッシュを用いて，メモリアクセス効率化が. MULT & ADD. 見込める場合として，. MULT & ADD. • データの再利用が可能な場合 • 主記憶への無駄な書き戻しを削減する場合 • 一時的な作業用領域として使用する場合の 3 つが考えられる．. 4.1.1 データの再利用が可能な場合データの再利用が可能な場合について，行列積を例に示す．図 4 において，行列 A の 1 行目のデータは計算結果で. A. B. C. 図 4 連続でオンチップメモリ上のデータを使う例. ある行列 C の 1 行目の結果全て出るまではくり返し使用する．このように，特定のデータを繰返し使用する (再利用. 4.2 高帯域オンチップメモリの実現方法. する) 場合，繰返し使用するデータを演算するたびに主記. 前述の要求を満たすために，高帯域なロックドキャッ. 憶から読み出すことは非効率的である．そのためこの例で. シュおよびそれを制御するための命令を MIQS システムに. は，行列 A の 1 行目のデータをロックしキャッシュ上に不. 拡張する．. 要になるまで留めておくことで，行列 A の 1 行目が他の. MIQS システムは 4 ワード (128 ビット) SIMD 演算機能. データアクセスによってリプレースされ，キャッシュミス. を備えている．また，FPGA を用いた組込みシステムで頻. が起こることを防ぐことができる．. 繁に使用されるオフチップメモリである DDR2 SDRAM，. これを実現するには，指定したアドレスのデータをキャッ. DDR3 SDRAM はデータバス幅が 16 ビットで最大バース. シュ上にブロックフィルし，そのブロックを Lock 状態に. ト長が 8 であるため，1 度のメモリアクセスリクエストで. する機能，使用後にブロックの状態を Unlock にする機能. 転送できる最大データサイズは 128 ビットである．そこ. が必要となる．. で，ロックドキャッシュとプロセッサのバス幅を 128 ビッ. 4.1.2 主記憶への無駄な書き戻しを削減する場合. トとする．. 主記憶にデータを書き戻す場合，同一ブロック内で書き込みデータが揃った後にひとまとめに主記憶に書き戻す方. 高帯域ロックドキャッシュは，既存の MIPS 命令セット [4] をベースに，命令を追加する．. が主記憶へのアクセス回数を削減することができ，メモリアクセスの効率化につながる．そのため，演算の最終結果が揃うまで当該ブロックがリプレースで追い出されないよ. 4.3 高帯域オンチップメモリの仕様高帯域ロックドキャッシュを制御するために以下の 4 つ. うにキャッシュ上でロックしておき，演算結果が揃ったら. の制御命令を MIQS システムに実装する．. ロックを解除し，書き戻されるようにすることで，メモリ. Fetch and Lock (既存 MIPS 命令). への書き込みアクセス回数を最小限に留める．またキャッ. 指定したアドレスのデータをキャッシュ上にブロッ. シュブロック内が演算結果の格納だけに使われるなどのラ. クフィルし，ブロックを Lock 状態にする． (Valid &. イトオンリーなデータのみである場合は主記憶からデー. Clean & Lock 状態). タをフィルすることは無駄なメモリアクセスとなるため，データのフィルを行わないようにする．. Hit Unlock (MIQS 独自命令) 指定したアドレスがヒットした場合に，キャッシュブ. これを実現するには，指定したアドレスを主記憶からブ. ロックを，Unlock 状態に変更する．. ロックフィルせずに Lock 状態で確保する機能，Unlock 状. Create Dirty Lock (MIQS 独自命令). 態にする機能が必要となる．. 指定したアドレスに対してメモリからのブロックフィ. 4.1.3 一時的な作業用領域として使用する場合. ルを行わず，ブロックを Valid かつ Dirty かつ Lock 状. 計算途中の一時変数格納用など，一時的な使い捨ての作業領域をオンチップメモリ上に確保したい場合がある．使い捨てであるため，主記憶からのブロックフィルと，作業. 態に変更する．指定アドレスのブロックが既にキャッシュ上に存在する場合は状態のみ変更する．. Hit Invalid (既存 MIPS 命令). 完了後に主記憶へ書き戻しをせずにブロックを無効化する. 指定したアドレスがヒットした場合，キャッシュブ. ことで無駄なメモリアクセスを削減する．. ロックを Invalid 状態に変更する．指定したアドレス. この場合，指定したアドレスを主記憶からブロックフィルせずにキャッシュ上に Lock 状態の領域を確保する機能，主記憶へのライトバックをすることなく Invalid 状態にする機能が必要となる．. のブロックが Dirty の場合でも書き戻さず，状態を変更する．繰り返して同じデータを使用する場合には，高帯域ロックドキャッシュに Fetch and Lock と Hit Unlock の制御命令を，ブロック内すべてのライトオンリーデータである演. c 2015 Information Processing Society of Japan ⃝. 4.

(5) Vol.2015-ARC-216 No.9 2015/8/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 算結果が揃うまで書き戻されないようにロックする場合. 表 1 データ転送性能. は，Create Dirty Lock と Hit Unlock の制御命令を，オンチップメモリ上に使い捨ての一時的な作業領域の確保する場合には，Create Dirty Lock と Hit Invalid の制御命令を. 総サイクル数. サイクル数 / 1 アクセス. 転送速度. Write. 1,060,844. 8.09. 131.97(MB/s). Read. 1,329,209. 10.1. 105.33(MB/s). 用いることで，機能を実現することができる．これらのキャッシュ制御用の拡張命令を用いて，演算に. 士の計算は，読み出しに 2N 3 回，書き込みに N 2 回の. 必要なデータをオンチップメモリ上に配置する，無駄なブ. 合計 2N 3 + N 2 回のメモリアクセスが必要となる．1 要. ロックフィルおよび書き戻しを削減することでメモリアク. 素が 4 バイトとしバイト数に直すと，読み出しに 128N 3. セスの効率化を図る．. バイト，書き込みに 16N 2 バイト，合計 128N 3 + 16N 2 バイトのデータ転送が必要となる．書き込み時のデータ. 5. 予備評価. 転送速度を Vw (MB/s)，読み出し時のデータ転送速度を. タ転送性能と，オンチップメモリとして SPM またはキャッ. Vr (MB/s) とすると，メモリアクセスにかかる時間の合計は 128N 3 16N 2 + (s) と表すことができる．また演算は，乗算 Vw Vr 3 3 N 回，加算 N 回の計算が必要である．1 度の乗算に 4 サ. シュを持つ MIQS システム，オンチップメモリを持たない. イクルかかるとすると 4N 3 サイクル，1 度の加算に 1 サイ. MIQS システムについてプログラムの実行性能と，ハード. クルかかるとすると N 3 サイクルかかり，計 5N 3 サイクル. ウェアリソース使用量について評価した．. かかる．プロセッサのサイクル時間を Ck (s) とすると，演. 今回の検討に際し，予備評価として，開発に使用する. FPGA ボードの FPGA チップとオフチップメモリのデー. 開発には，Xilinx 社の FPGA/CPLD 開発統合環境である. 算にかかる時間の合計は 2N 3 × Ck (s) と表すことができる．. ISE14.6[5] を用いた．キャッシュのメモリ部は Xilinx 社の. MIQS システムを Atlys ボード上に実装した場合，表 1 の. IP コアである Block Memory Generator[6] を，DRAM コ. 結果を Vw ，Vr に，プロセッサを 70MHz で動作させた時の. ントローラは Xilinx 社の Memory Interface Genarator[7]. サイクル時間 14 × 10−9 を Ck に当てはめると，メモリアク. を使って生成したもの使用し，それ以外は Verilog-HDL を. セスにかかる時間は 924 × 10−9 × N 3 + 145 × 10−9 N 2 (s)，. 用いてコードを記述した．FPGA ボードは，Xilinx 社の. 演算にかかる時間は 28 × 10−9 N 3 (s) で表すことができる．. FPGA である Spartan-6 LX45[8] と，オフチップメモリと. N ≥ 1 の時，演算にかかる時間よりもメモリアクセスにか. して DDR2 SDRAM を 1 個搭載した Digilent 社の Atlys. かる時間は大きくなるので，. Spartan-6 Development Board[9](以下，Atlys ボード) を使用した．. 16N 2 128N 3 + > 2N 3 × Ck Vw Vr. (1). 特記しない限り，MIQS システムのプロセッサ，オンチッ. と表すことができ，プログラムの実行時間の割合はメモリ. プメモリ，DRAM コントローラの動作周波数を 60MHz，. アクセスにかかる時間の方が多い．そのため，プログラム. オフチップメモリの動作周波数を 360MHz とした．また，. の高速化にはオンチップメモリを用いたメモリ性能の向上. SPM のメモリ容量は 64K バイト，キャッシュはメモリ容. が必要である．. 量 64K バイトの 8-way セットアソシアティブ方式，ブロックサイズは 16 バイト，セット数は 512 セット，置換方式はランダム，書き込み方式はライトバックとした．. 5.2 性能評価評価には，整数ソート，行列積計算，ステンシル計算，最短経路問題の 4 つのプログラムを用いた．整数ソートは. 5.1 FPGA ボードのオフチップメモリ転送性能. 要素数 409600，ソーティングアルゴリズムはラディック. Atlys ボードにはオフチップメモリとして DDR2 SDRAM. スソート，行列積計算は要素数 256，ステンシル計算は配. が搭載されている．このオフチップメモリと，MIQS シス. 列サイズ 256，イテレーション回数 1000，最短経路問題は. テム上に Memory Interface Genarator を用いて生成した. ノード数 2048，エッジ数 8192，アルゴリズムはダイクス. DRAM コントローラを接続した場合のデータ転送性能に. トラ法とした．. ついて評価した．. 図 5 にオンチップメモリを搭載しない MIQS システムの. 評価は，2M バイトのデータを連続したアドレス領域に. プログラムの実行時間を 1 とし，オンチップメモリとして. 16 バイト毎にオフチップメモリに書き込み，書き込み終. SPM を搭載した MIQS システムの速度向上比を示す．w/o. 了後に書き込みを行ったデータを読み込むモジュールを. OCP はオンチップメモリを搭載しない MIQS システムを，. FPGA 上に作成しそのサイクル数を計測した (表 1)．オフ. w/ SPM はスクラッチパッドメモリを搭載した MIQS シス. チップメモリの動作周波数は 400MHz，計測用のメモリコ. テムを示す．. ントローラ制御モジュールの動作周波数は 70MHz とした．行列積を例として考えた時，要素数 N 2 の正方行列同. c 2015 Information Processing Society of Japan ⃝. SPM を搭載した MIQS システムは整数ソート，最短経路問題において性能向上したが，行列積，ステンシル計算. 5.

(6) Vol.2015-ARC-216 No.9 2015/8/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 表 2 HW リソース使用量. 2. 1.8. Slice Register LUT Block RAM. 1.6. ㏿ᗘྥୖẚ. 1.4. MIQS w/ SPM 4,443 3,448 12,176 74. SPM 3 0 3 32. MIQS w/ Cache 4,986 4,087 12,850 98. Cache 799 1,220 1,280 56. 1.2. 1 0.8. 6. おわりに. 0.6. 0.4 0.2. 本稿では，SIMD 演算機能を持つ MIPS 命令互換ソフト. 0. ᩚᩘ䝋䞊䝖. ⾜ิ✚ w/o OCM. 図 5. 䝇䝔䞁䝅䝹ィ⟬. ᭱▷⤒㊰ၥ㢟. w/ SPM. オンチップメモリによる速度向上比. コアプロセッサを搭載した組込みシステムである MIQS システム向けの高帯域オンチップメモリについて検討を行った．既存の組込みシステム向けオンチップメモリであるスクラッチパッドメモリとキャッシュの特徴を併せ持つロックドキャッシュのデータバス幅を広げ高帯域化し，この. においてはほとんど実行性能は向上しなかった．前述のとおり，行列積を求めるプログラムにおいては大. ロックドキャッシュを制御する命令を追加することで，効率的にメモリアクセスを実現できる方法を示した．. 半の実行時間をメモリアクセスが占める．しかし，SPM を. 予備評価として，スクラッチパッドメモリを MIQS シス. 持つ場合でも速度向上がほとんど見られないのは SPM が. テム上に実装し，4 つのプログラムで評価した．その結果，. 有効に活用できていないためであると考えられる．ステン. 2 つのプログラムでは高速化を確認した．また，スクラッ. シル計算も同様に速度向上がほとんど見られないのは SPM. チパッドメモリと比べてキャッシュはハードウェアリソー. が有効に活用できていないためであると考えられる．SPM. スの使用量が多いことが分かったが，これは実現方法に問. を使用する場合，プログラマが明示的に指示するため，メ. 題があることがわかっており今後改善が必要である．. モリアクセスが実行時間の大半を占めるようなプログラム. 今後の予定として，既存のオンチップメモリの 1 つであ. であっても速度向上を果たすのは難しい場合もあることが. るキャッシュを MIQS システム上に実装する，キャッシュ. わかる．この場合，行列積とステンシル計算のプログラム. の使用ハードウェア量の最適化，検討したオンチップメモ. はハードウェアによって自動的に局所性の高いデータをオ. リおよび制御命令の実装が上げられる．. ンチップ上に配置するキャッシュの方が高速化を果たせる可能性がある．. 謝辞. 本研究は，一部日本学術振興会科学研究費補助金. (基盤研究 (C)24500055，同 (C)25330055，同 (C)15K00068) の援助による．. 5.3 HW リソース使用量評価 SPM を搭載した MIQS システムと SPM 単体，キャッシュを搭載した MIQS システムとキャッシュ単体のハード. 参考文献 [1]. ウェアリソースの使用量についての評価を表 2 に示す．ただし，キャッシュを搭載した MIQS システムは現在開発中であるため参考値である．. [2]. 表 2 より，SPM に比べて，キャッシュの方が Slice，Reg-. ister，LUT に関して非常に多く使用している．これは， SPM はソフトウェアでデータの出し入れを制御するため. [3]. 制御用の回路がほとんど必要ないためである．また Block RAM に関しても，キャッシュは SPM の 1.75. [4]. 倍も使用していることがわかる．これは，キャッシュは状態ビットやタグを保存する必要があるのに加え，メモリ部. [5]. 分の最適化が不十分であるためであると考えられる．理論. [6]. 上，データ本体を格納するメモリ量 64K バイト，512 セット，8-way セットアソシアティブ方式のキャッシュでは，. [7]. 各セットに状態ビットが 2 ビット，タグに 14 ビット必要. [8]. であるため，キャッシュ全体で必要メモリ量は 8K バイト増加するので，キャッシュは SPM に比べて 1.13 倍のメモ. [9]. 平石康祐，橋本瑛大，大津金光，大川猛，横田隆史：“SIMD 命令拡張による高速化の検討 —プロセッサ設計コンテストを題材として—”，信学技報，Vol.114，No.345，pp.1-6 (CPSY2014-85)，2014．ジョン・L・ヘネシー，デイビッド・A・パターソン著，中條拓伯，天野英晴，鈴木貢監訳，吉瀬謙二，佐藤寿倫翻訳：“ヘネシー&パターソンコンピュータアーキテクチャ定量的アプローチ第 5 版”，翔泳社，2014． Pittman，R. N.，Lynch，N. L.，Forin，A.:“eMIPS，A Dynamically Extensible Processor”，Microsoft Research， MSR-TR-2006-143，2006. NEC Electronics Inc.：“VR5432 64-Bit MIPS RISC Microprocessor User’s Manual (Vol. 2)”，2000． XILINX：“ISE Design Suite 14 : リリースノート，インストールおよびライセンス”，UG631 (v14.6)，2013． XILINX：“LogiCORE IP Block Memory Generator v7.3 Product Guide”，PG058 (v2.1)，2012． XILINX：“Spartan-6 FPGA Memory Interface Solutions User Guide”，UG416 (v1.7)，2012． XILINX：“Spartan-6 Family Overview”，DS160 (v2.0)， 2011． Digilent：“Atlys Board Reference Manual”，2013．. リ量増加に抑えることが出来る．. c 2015 Information Processing Society of Japan ⃝. 6.

(7)