• 検索結果がありません。

センサ端末上でのニューラルネットワーク処理ハードウェア構成

N/A
N/A
Protected

Academic year: 2021

シェア "センサ端末上でのニューラルネットワーク処理ハードウェア構成"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 82 回全国大会. 2A-03. センサ端末上でのニューラルネットワーク処理ハードウェア構成 有川 勇輝†. Huy Cu Ngo†. 岸野 泰恵‡. 坂本 健†. 日本電信電話株式会社 NTT 先端集積デバイス研究所† 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所‡. 2. 提案ハードウェア構成 本検討では、時系列センサデータに対して、 内部状態を考慮に入れる再帰型ニューラルネッ Hardware Architecture for On-sensor Neural Network Computing †NTT Device Technology Labs, NTT Corporation ‡NTT Communication Science Labs, NTT Corporation. トワーク(RNN)を用いた処理を行い、その時刻 に発生したイベントを分類する。 図 2 に RNN の基本構成と LSTM(Long shortterm memory)[6]構成を、図 3 に RNN 処理ハー ドウェア構成を示す。システム全体は、 Processing System(PS)と Programmable Logic (PL)から構成される。PS はシステム全体の制 御を行い、行列演算は PL に構成した専用回路に て行う。図 3(a)に示す積和演算のみを PL で実 行する構成では、演算過程で PS から PL へのデ ータ移動が生じる。そのため、データ移動が高 頻度に生じ、処理時間のオーバヘッドとなる。 それに対し、図 3(b)に示す提案構成は、PS と. 図. 1 システム構成 Input Layer. ht-1. xt. Whi. Whc Hidden Layer. bc. Wxc. Block. it. tanh. ft ct-1. Who Wxo. (a) RNN. s. bf. Wxf. yt. gt. tanh. ct-1. Whf. Output Layer. s. bi. Wxi. xt. bo. s. ht. (b) LSTMLSTM 図 2. RNN の基本構成と. Programmable Logic. Processing system Memory. MM2S. AXI4. Memory Cntlr.. AXI DMA. CPU. Processor I/O. S2MM. (activation function). Computation circuit (matrix multiplication). (a)積和演算をPLで処理する構成(従来) Programmable Logic. Processing system. Memory. Processor I/O. Memory Cntlr.. CPU. MM2S. AXI4. 1. 研究背景 Internet of Things(IoT)技術の進展ととも に、様々なセンサデータの収集と利用が可能と なった。特に、時系列センサデータをニューラ ルネットワーク(NN)処理することで、有益な 情報が抽出できることが知られている[1, 2]。 実ユースケースとして、ゴミ収集車に搭載した 加速度センサとジャイロスコープのデータを NN 処理することで、ゴミ量を推定する基本フレー ムワークが考案されている[3, 4]。 このような NN を用いたセンサデータの解析で は、大量の演算が必要になるため、計算リソー スが十分確保できるクラウドサーバにて行われ る。この場合、通信ネットワークを介して大量 の時系列センサデータを送信する必要があり、 通信コストが増加する。これに対し、上記フレ ームワークはセンサ端末上で NN 処理する手法を 採用している。図 1 に示すように、本アプロー チは、センサ端末上でセンサデータを NN 処理し、 データ量の小さな出力を得た後、クラウドサー バへ送信する。 このように、センサ端末上で行列積和演算を 大量に行う NN 処理を行うために、センサ端末に は高性能な演算処理が求められる。しかしなが ら、センサ端末上に搭載される汎用プロセッサ はシステム制御には適しているものの、NN 処理 のような大量の演算には向かない。そのため、 本 研 究 で は 、 セ ン サ 端 末 に 小 型 FPGA ( Field Programmable Gate Arrays)[5]を搭載し、NN 処 理を FPGA 上に構成した専用回路で実行する。本 稿では、センサ端末で NN 処理を行うためのハー ドウェア構成を提案するとともに、その性能評 価結果を議論する。. AXI DMA S2MM. Computation circuit (LSTM processing). Memory (weight). (b)データ移動の頻度を低減した構成(提案). 図 3. RNN 処理ハードウェア構成. 1-5. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 82 回全国大会. 表 1. 評価条件、実装結果および性能評価結果 FPGA ボード 搭載の CPU FPGA ボード デバイス. 処理時間. FPGA. クロック クロック 周波数 周波数. FPGA リソース使用率 BRAM. FF. LUT. 見積り ソフト ハード 消費電力 ウェアベ ウェアベー ース処理 ス処理*1 (Baseline). ZCU104. Arm Cortex-A53. 1.2 GHz. 400 MHz. 124 (19 %). 73174 (15 %). 147782 (64 %). 322 ms. 0.710 ms (x 454). 5.4 W. ZC706. Arm Cortex-A9. 1.0 GHz. 200 MHz. 124 (11 %). 74039 (16 %). 146492 (67 %). 455 ms. 1.03 ms (x 441). 3.5 W. Zynq7010. Arm Cortex-A9. 866 MHz. 200 MHz. Approx. 4000 ms. Approx. 500 ms (x 8). 1.8 W. 120 35200 17600 (Available) (Available) (Available). *1: 8 bit 固定小数点(整数部:2 bit、小数部:6 bit). PL 間のデータ移動頻度を低減することに着目し ており、NN の重みパラメータを PL で保持するこ とで、PS から PL への重みパラメータのデータ移 動頻度を低減した。提案構成は、PL のメモリリ ソースを消費するが、データ移動頻度を低減で きるため、処理を高速化できる。 3. 評価 提 案 ハ ー ド ウ ェ ア 構 成 を 市 販 FPGA ボ ー ド (Xilinx ZCU104、ZC706)と、Xilinx Zynq7010 を 搭載したカスタム FPGA ボードに実装し、処理性 能を評価した。表 1 に評価条件、実装結果およ び性能評価結果を示す。ハードウェアベース処 理で用いる演算精度は、8bit 固定小数点とした。 [3,4]に示す実ユースケースを用いた評価では、 32bit 浮動小数点と比較し、推論精度の劣化は 2%程度であった。比較として、FPGA に搭載され ている CPU を用いてソフトウェアベース処理を 行った場合の処理時間を測定した。消費電力は 設計ツール(Xilinx SDSoC)を用いて見積った。 表 1 に示すように、推論精度の劣化を 2%程度 に抑えつつも、提案ハードウェア構成はソフト ウェアベースの処理に対して、最大 454 倍程度 の高速化を確認した。消費電力の観点では、よ り小型な FPGA の利用やクロック周波数を 200 MHz に抑えることが望ましい。消費電力の増加が 許容できるのであれば、クロック周波数を 400 MHz に上げることで、NN 処理を 1 ミリ秒以下に 抑えられる。以上より、提案ハードウェア構成 を用いることで、数ワット程度の消費電力で 1 ミリ秒以下の処理時間で時系列センサデータを 処理できることを示した。今後、PL に構成する 専用回路の並列度やデータ再利用などデータ移 動の更なる効率化を図ることで、低電力化・高. 1-6. 性能化を目指す。 4. まとめ 本稿では、センサ端末上で NN 処理を行うため のハードウェア構成を議論した。PS と PL 間のデ ータ移動を低減するハードウェア構成を提案し、 数ワット程度の消費電力および 1 ミリ秒以下の 処理時間で時系列センサデータを処理できるこ とを示した。 参考文献 [1] M. Mohammadi, A. Al-Fuqaha, S. Sorour and M. Guizani. 2018. Deep Learning for IoT Big Data and Streaming Analytics: A Survey. IEEE Communications Surveys & Tutorials 20, 4 (Fourthquarter 2018), 2923-2960. [2] Jindong Wang, Yiqiang Chen, Shuji Hao, Xiaohui Peng, Lisha Hu. 2019. Deep learning for sensor-based activity recognition: A survey. Pattern Recognition Letters 119, (February 2018), 3-11. [3] Yasue Kishino, Yoshinari Shirai, Koh Takeuchi, Futoshi Naya, Naonori Ueda, Yin Chen, Takuro Yonezawa, Jin Nakazawa. 2017. Detecting Garbage Collection Duration Using Motion Sensors Mounted on Garbage Trucks Toward SmartWaste Management. In Proceedings of the Third International Conference on Smart Portable, Wearable, Implantable and Disability-oriented Devices and Systems (SPWID 2017). Venice, Italy, 1-4. [4] Yasue Kishino, Koh Takeuchi, Yoshinari Shirai, Futoshi Naya and Naonori Ueda. 2017. Datafying city: Detecting and accumulating spatio-temporal events by vehicle-mounted sensors. In Proceedings of IEEE International Conference on Big Data (Big Data 2017). Boston, MA, 4098-4104. [5] Xilinx. 2016. Zynq UltraScale+ MPSoC Product Brief. https://www.xilinx.com/support/documentation/produc t-briefs/zynq-ultrascale-plus-product-brief.pdf [6] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long short-term memory. Neural Computation 9, 8, 17351780.. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(3)

表 1. 評価条件、実装結果および性能評価結果  FPGA  ボード  FPGA ボード 搭載のCPU  FPGA  処理時間  見積り  消費電力  デバイス  クロック  周波数  クロック 周波数  FPGA リソース使用率  ソフト  ウ ェ ア ベ ース処理  (Baseline)  ハード  ウェアベース処理*1BRAM FF LUT  ZCU104  Arm  Cortex-A53  1.2 GHz  400 MHz  124  (19 %)  73174  (15 %)  147782 (6

参照

関連したドキュメント

退院時 初回訪問 訪問 訪問… 月末処理 月末 月初 請求業務.

SUSE® Linux Enterprise Server 15 for AMD64 & Intel64 15S SLES SUSE® Linux Enterprise Server 12 for AMD64 & Intel64 12S. VMware vSphere® 7

 ESET PROTECT から iOS 端末にポリシーを配布しても Safari の Cookie の設定 を正しく変更できない現象について. 本製品で iOS

ソリューション事業は、法人向けの携帯電話の販売や端末・回線管理サービス等のソリューションサービスの提

(1)高圧ケーブル及び公称断面積 60mm 2 以上の低圧ケーブルの端末処理は、JCAA 規格の材料を用いること。. ただし、 60mm 2

[No.20 優良処理業者が市場で正当 に評価され、優位に立つことができる環 境の醸成].

出力 ERRF 端子「DIRERRP=0」 MUTEB 端子「DIRMUTP=0」 NPCMF 端子「DIRPCMP=0」. L PLL ロックエラー解除 出力データミュート処理

・コンクリート :破砕 処理容量 ・金属 :約 60m 3 /日. ・コンクリート :約 40m