• 検索結果がありません。

分散深層学習を高速化させるFPGA Ring-Allreduceの検討

N/A
N/A
Protected

Academic year: 2021

シェア "分散深層学習を高速化させるFPGA Ring-Allreduceの検討"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 82 回全国大会. 7A-01. 分散深層学習を高速化させる FPGA Ring-Allreduce の検討 田仲 顕至† 森田 和孝‡. 有川 勇輝† 三浦 史光‡. 伊藤 猛† 寺本 純司‡. 寺田 和彦† 坂本 健†. 日本電信電話株式会社 NTT 先端集積デバイス研究所† 日本電信電話株式会社 NTT ソフトウェアイノベーションセンタ‡. 1. はじめに ディープラーニング(DL)は様々なアプリケ ーションが開発されているが、DL モデルの学習 には膨大な計算リソースが必要となり、アプリ 開発のボトルネックとなっている。そこで、DL モデルの学習を並列処理する分散深層学習が注 目を集めており、中でも、データ並列同期更新 型が良好な性能を示している[1, 2]。このアプ ローチでは、ミニバッチ毎に各ワーカーノード で計算された勾配を毎ステップ集団通信 (Allreduce)により共有する必要があり、ボト ルネックとなっている。そのため、様々な通信 ボトルネックの解消手法が提案されている. 待ち時間の多い手法である。これらの要因から 従来の Ring-Allreduce を用いた分散深層学習で は、通信の高速化のために通信精度を落とすな ど、アルゴリズムの可変を余儀なくされていた。. 3. 提案手法. 我々は Ring-Allreduce を FPGA NIC にオフロ ードすることを提案する。各 GPU は勾配データ を FPGA に送信し、その後の、勾配データの計算 処理(Reduce)と通信処理を FPGA NIC で行う。 このような形態をとることで、データ移動のコ ストは低減し、また、GPU を DL 計算処理に集中 させることでオーバーヘッドも低減できる。提 案する FPGA 内部アーキテクチャを図 1 に示す。 更に、Ring-Allreduce を FPGA NIC にオフロー 2. 既存手法 ドすることによって、勾配計算と Allreduce を ボトルネック解消法として、Ring-Allreduce、 非同期に実行することが可能となる。提案手法 もしくは、Ring-Allreduce を 2 次元に拡張した では、GPU が誤差逆伝播を各パラメータの勾配が 2D-Torus Allreduce が採用する事例が複数報告 出力され次第、順次 FPGA NIC への転送を開始す さ れ て い る [3, 4] 。 Ring-Allreduce で は 、 る。ここで、転送は FPGA NIC の Direct Memory Reduce 処理が行われるノードがネットワークで Access Controller(DMAC)によって実行される 数珠つなぎに接続される。各ノード内の GPU で ため、GPU は勾配計算を止めること無く DMA を実 計算された勾配情報はネットワークを介して隣 行でき、また、Allreduce を開始することもでき 接するノードの GPU へ送信され Reduce 処理が施 る。加えて、Allreduce 終了後のデータにおいて さ れ 、 さ ら に 隣 接 す る ノ ー ドへ送信される。 も FPGA NIC の DMAC が GPU 内部メモリにデータ Ring-Allreduce の 場 合 、 す べ て の ノ ー ド で の を書き込むため、GPU と FPGA-NIC は非同期に計 Reduce 処理後には Ring-Allreduce 開始ノードに 算と Allreduce を実行することができる。我々 合計された勾配データが到着する。開始ノード の提案するパラメータ毎の計算と通信のオーバ はこの合計勾配データを Ring ネットワークにて ー ラ ッ プ ( PCCO, Parameter based Computing Broadcat することで、全ノードで勾配データを /Communication Overlap)の実行手順を図 2 に 共有する。2D-Torus Allreduce も同様の手順に 示す。 て実行されるが、多くの実装方法が提案されて 4. 評価 いるため、ここでは説明を割愛する。 この方法では、各ノード内の GPU の内部メモ 提案手法の評価のために、我々はCPU (Intel, リまでデータが送られてしまいデータ移動のコ Core i7 5930K)、memory (32 GB)、GPU (Nvidia, ストが多分に生じる。また、各 GPU は計算処理 Tesla P100)、HCA (Mellanox, ConnectX-4 HCA)、 (Reduce)と通信処理を交互に実行する必要が IB Switch (Mellanox, Switch IB-2) 、 あり、大きなオーバーヘッドが発生する。加え InfinibandEDR (MCP1600) 、 FPGA (Xilinx: て、計算処理と通信処理が交互に行われるので、 VCU118) 、 DMA Controller (Xilinx, XDMA) 、 EhternetMAC (Xilinx, CMAC) 、 100G Ethernet Distributed deep Learning acceleration with FPGA Ring(100GBASE-SR4) を 用 い て 、 4 ノ ー ド 各 1GPU 、 Allreduce † NTT Device Technology Laboratories, NTT Corporation 1FPGA、1HCAの分散深層学習システムを構築した。 ‡ NTT Software Innovation Center, NTT Corporation. 1-31. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 82 回全国大会. 図 1: 作成した FPGA Ring-Allreduce の回路とデータ移動の模式図。図 2: 勾配計算と集団通信を極力 オーバーラップさせた提案手法(PCCO)のタイムチャート。図 3: 今回の性能評価に用いた 1 ノー ドの構成とソフトウェアの役割。図 4:Infiniband を用いたシステム、FPGA Ring-Allreduce を採用 したシステム、FPGA Ring-Allreduce と PCCO を採用したシステムの集団通信オーバーヘッドを 様々なバッチサイズで比較した。 システムの構成を図3に示す。このシステムを用 参考文献 [1] Tal Ben-Num, and Torsten Hoefler: Demystifying いて、従来のInfiniband、GPU Direct RDMAを用 Parallel and Distributed Deep Learning: An Inいた分散深層学習と、提案するシステムを用い Depth Concurrency Analysis, た分散深層学習で、学習精度、Allreduce時間、 arXiv:cs.LG/1802.09941, (2018). 学習全体の時間で比較した。 [2] Takuya Akiba, Shuji Suzuki, and Keisuke 学習精度に関わるアルゴリズムの変更は施し Fukuda: Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes, ていないので、同程度の学習精度が確認された。 Deep Learning at Supercomputer Scale (NIPS’17 集団通信のオーバーヘッドは分散深層学習でよ Workshop), arXiv:cs.DC/1711.04325, (2017). く使用される 32 bach/node で 84.27 %削減でき [3] Xianyan Jia, Shutao Song, Wei He, Yangzihao た。その他のバッチサイズであっても大幅に削 Wang, Haidong Rong, Feihu Zhou, Liqiang Xie, 減できることが示された(図 4)。全体の学習時 Zhenyu Guo, Yuanzhou Yang, Liwei Yu, Tiegang 間としては 7 %の高速化が実現できた。 Chen, Guangxiao Hu, Shaohuai Shi, Xiaowen Chu:. 5. まとめと今後の課題 本研究は分散深層学習のボトルネックである 集 団 通 信 時 の デ ー タ 移 動 が 最小となるような FPGA Allreduce を提案し、また、そのアーキテ クチャに適した分散深層学習スケジューリング に関しても提案した。その結果、学習精度の劣 化無く、大幅な高速化に成功した。今後は、ノ ード内の計算リソース・ノード数を増大させた 場合のスケーラビリティに関して調査する。. 1-32. Highly Scalable Deep Learning Training System with Mixed-Precision: Training ImageNet in Four Minutes, Workshop on Systems for ML and Open Source Software at NeurIPS 2018, arXiv:cs.CV/1807.11205, (2018). [4] Chris Ying, Sameer Kumar, Dehao Chen, Tao Wang, Youlong Cheng: Image Classification at Supercomputer Scale, , Workshop on Systems for ML and Open Source Software at NeurIPS 2018, arXiv:cs.CV/1811.06992, (2018).. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(3)

図  1:  作成した FPGA  Ring-Allreduce の回路とデータ移動の模式図。図 2:  勾配計算と集団通信を極力 オーバーラップさせた提案手法(PCCO)のタイムチャート。図 3:  今回の性能評価に用いた 1 ノー ドの構成とソフトウェアの役割。図 4:Infiniband を用いたシステム、FPGA  Ring-Allreduce を採用 したシステム、FPGA  Ring-Allreduce と PCCO を採用したシステムの集団通信オーバーヘッドを 様々なバッチサイズで比較した。

参照

関連したドキュメント

平成 27 年 2 月 17 日に開催した第 4 回では,図-3 の基 本計画案を提案し了承を得た上で,敷地 1 の整備計画に

試験体は図 図 図 図- -- -1 11 1 に示す疲労試験と同型のものを使用し、高 力ボルトで締め付けを行った試験体とストップホールの

計算で求めた理論値と比較検討した。その結果をFig・3‑12に示す。図中の実線は

腐植含量と土壌図や地形図を組み合わせた大縮尺土壌 図の作成 8) も試みられている。また,作土の情報に限 らず,ランドサット TM

絡み目を平面に射影し,線が交差しているところに上下 の情報をつけたものを絡み目の 図式 という..

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

高(法 のり 肩と法 のり 尻との高低差をいい、擁壁を設置する場合は、法 のり 高と擁壁の高さとを合

問題解決を図るため荷役作業の遠隔操作システムを開発する。これは荷役ポンプと荷役 弁を遠隔で操作しバラストポンプ・喫水計・液面計・積付計算機などを連動させ通常