第 4 章 集合演算プロセッサ 41
4.6 ハードウェアパターンマッチングの性能評価
図 4.25: SOPの回路レイアウト.
図 4.26: 演算速度検証用パターン.
表4.3は集合演算プロセッサを想定した場合の上記2つのパターンの集合演算を実行するのに必 要なクロック数をシミュレーション結果を基にまとめたものである.
表 4.3: 集合演算に必要なクロック数.
演算速度検証用パターン1 演算速度検証用パターン2
色検出 拡大 シフト その他 色検出 拡大 シフト その他 共通処理 0 0 0 13 共通処理 0 0 0 13
E0マッチ 6 0 0 2 E0マッチ 6 0 0 2
E1マッチ 6 0 4 2 E1マッチ 6 10 2 2
E2マッチ 6 0 4 2 E2マッチ 6 10 2 2
E3マッチ 6 0 4 2 E3マッチ 6 10 2 2
E4マッチ 6 0 4 2 E4マッチ 6 10 2 2
出力命令 0 0 0 1 出力命令 0 0 0 1
領域なし合計クロック数 70 領域あり合計クロック数 102
集合演算プロセッサで集合演算を行うための共通処理から,E0〜E4までのマッチング演算と結 果出力のためのクロック数が,色検出(データの値検出),領域拡大,位置演算のためのシフト,
その他の4つに区分され示されている.
表4.4は上記クロック数を基にして,ソフトウェアによる検出時間と集合演算プロセッサによる 検出時間の比較を行ったものである.
表 4.4: 演算時間比較結果.
集合演算プロセッサによる検出時間 検証パターン (※)ソフトウエア (ソフトによる検索時間との比較)
(画像サイズ) による検出時間 クロック 数
周波数100MHz 場合の処理時間
周波数33MHz 場合の処理時間 1 (320×240) 21m秒〜23m秒
平均22m秒(実測値) 70 0.70µ秒 (31,248倍高速)
2.10µ秒 (10,476倍高速) 1 (320×240) 41m秒〜49m秒
平均45m秒(実測値) 102 1.02µ秒 (44,118倍高速)
3.06µ秒 (14,706倍高速) 2 (640×480)
平均22m秒×4
=88m秒(推定値) 70 0.70µ秒 (125,714倍高速)
2.10µ秒 (41,904倍高速) 2 (640×480)
平均45m秒×4
=180m秒(推定値) 102 1.02µ秒 (176,471倍高速)
3.06µ秒 (58,824倍高速)
(※)Surface PRO(INTEL Core i5 7300U TDP17W 8GB RAM)による集合演算 エミュレータの検出時間(ソフトウエア)及びハードウエア両方ともパターン有り無し 判定による検出時間とする
ソフトウェアによる検出時間は,表に示す環境で実測したものである.画像サイズのVGAの場合 も含め比較している.また集合演算のクロックスピードに関して実用段階として10n秒(100Mhz) の場合一般的なCPUによる集合演算に対し,集合演算プロセッサが実用化された場合,画像サイ ズがVGAであれば,10万倍以上のパターンマッチングが期待出来る.重要なのはCPUやGPUと の倍率ではなく,画像の大きさに関係なく1µ秒程度でパターンマッチングが実現出来る事である.
4.6.2 他の画像マッチング技術との比較
表4.5は類似する先行研究の画像のハードウェアによるパターンマッチング[104], [105]の性能 とASICによる集合演算プロセッサの性能の比較を示す.それぞれの対象画像や使用機器などの 条件が異なるため直接的に性能を比較する事は出来ないものの,それぞれの提案がCPUによるソ フトウェア処理時間とハードウェア処理時間の倍率を示しているので,この倍率をもとに間接的 な性能評価を行う事が出来る.
文献[104]は,FPGAのDSPを用いてパターンマッチングの高速化を目指したものである.比
較対象のCPUによるソフトウェア処理に比較して約349倍の高速化がなされている.文献[105]
は,FPGAの論理回路を用いてパターンマッチングの高速化を目指したものである.FPGAに実 装されているARM単体でのソフトウェア処理に比較して約5倍の高速化がなされている.システ ムクロックを高速にする事により10倍程度の性能向上が見込まれるものと推定出来る.集合演算
プロセッサがASIC化された場合,システムクロックが33MHzと低速であっても,前述した通り 約1万倍もの高速化が見込まれる.比較するCPUが10倍の演算速度であっても約千倍の性能と なり,システムの最適化を図る事によりシステムクロックに比例して性能向上が見込まれる.従っ てこの手法は2次元データのパターンマッチングを高速化するハードウェアとして最適な手段と 考えられる.
表 4.5: ASIC実装による画像パターンマッチング演算性能評価.
方法 文献[104] 文献[105] 本研究
比較対象CPU Intel Core i7 860 ARM Cortex-A9 Intel Core i5-3317U コア 4コア8スレッド 2コア 2コア4スレッド
TDP(参考) 95 W 1.9 W 17 W
最大動作クロック 2.8 GHz 2.0 GHz 1.76 GHz
処理時間 81.676 m秒 2.01 秒 22 m秒
提案ハードウエア Xilinx Virtex-6 FPGA Xilinx Zynq-7000 FPGA ASIC システムクロック 280.004 MHz 25 MHz 33 MHz
処理時間 0.234 m秒 約 0.43 秒 2.10 µ秒
速度倍率 約349倍 約5倍 約10,476倍