• 検索結果がありません。

大規模計算クラスタにおけるArmプロセッサ利用のための性能評価

N/A
N/A
Protected

Academic year: 2021

シェア "大規模計算クラスタにおけるArmプロセッサ利用のための性能評価"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 82 回全国大会. 7A-03. 大規模計算クラスタにおける Arm プロセッサ利用のための性能評価 金子. 紗梨†. 高瀬 亘†. 村上. 晃一†. 佐々木. 節†. 高エネルギー加速器研究機構† 1. はじめに. 2.2. 測定方法. 高エネルギー加速器研究機構(KEK)計算科学セ ンターでは、大規模 Linux クラスタによる計算機シ ステムを運用している。本システムは、高エネルギ ー物理学実験で得られる大規模データの蓄積や処理、 シミュレーションに利用されている。10,024 コア を有する計算サーバ、13PB のディスクシステムと 最大容量 70PB のテープシステムから構成され、KEK の研究を支えている。 本システムの課題の一つとして、電気代を含むト ータルコストの最適化がある。安価で電力効率のい い計算サーバの導入を検討している。Arm は、スマ ートフォンなどのモバイル機器やデジタル家電など に広く利用されているプロセッサで、省電力かつ安 価であることが特徴である。近年、科学技術計算向 け の Arm プ ロ セ ッ サ が 登 場 し て い る 。 SMT (Simultaneous Multithreading)機能により、1 コ アあたり最大 4 スレッドを同時実行できることも特 徴であり、HPC の業界でも注目が集まっている。 今回、大規模クラスタにおける Arm プロセッサの 適応性評価を実施した。Arm プロセッサ搭載サーバ (Arm サーバ)と Intel プロセッサ搭載サーバ(Intel サーバ)とで計算性能および電力効率を測定し、比 較を行う。. 計算性能を評価するためのベンチマークテストと して、Geant4[1]放射線シミュレーションを利用し たベンチマークプログラム G4Bench[2]を⽤いた。 このベンチマークは、電子や陽子等を測定器に照射 し、測定器の応答をシミュレーションする。計算性 能の評価として、単位時間あたりに処理するイベン ト数(スループット)を測定する。今回は、1GeV の 電子による電磁カロリメータのシャワーシミュレー ションを用いて、スループットの測定を行った。ま た本ベンチマークはマルチスレッドで実行可能であ り、実行スレッド数に応じて計算性能が向上する。. 2. 評価方法 2.1. 測定環境 Arm プロセッサを持つサーバとして HPE Apollo 70 System を用いた。サーバ構成を表 1 に示す。. 表 1 HPE Apollo70 の構成 ハードウェア CPU. Cavium ThunderX2 CN9980-2200L 2 基 (2.2GHz, 32 cores/CPU) 256GB (DDR4, 2666 MT/s). メモリ ソフトウェア カーネル 4.14.0-115.el7a.0.1.aarch64 CentOS Linux release 7.7.1908 OS (AltArch). 2.3. 測定条件 ⑴ Arm サーバの SMT 性能の比較 Arm サーバ上で、SMT の値を 1, 2, 4 とした時 のマルチスレッド性能を比較した。スレッド数 は G4Bench の設定で 1, 32, 64, 96, 128, 256, 512 にして測定した。 ⑵ Arm サーバ、Intel サーバの計算性能の比較 Arm サーバと Intel サーバの計算性能を比較し た。Intel サーバとして、現行の Linux クラスタ と同世代の Intel Xeon E5-2630 (8 cores)を 2 基 搭 載 し た サ ー バ と 、 Intel Xeon Gold 6148 (20cores)を 2 基搭載したサーバの 2 種類を用意 した。Arm サーバでは SMT の値を 4 とし、Intel サーバではハイパースレッティングをオンに設 定した。スレッド数は G4Bench で 1, 16, 32, 64, 96, 128, 256, 512 にして測定した。 ⑶ Arm サーバ、Intel サーバの電力効率の比較 Arm サーバと(2) で用いた 2 種類の Intel サー バの消費電力あたりの計算性能を比較した。消 費電力の測定にはクランプメータを用いて、毎 秒ごとの電力を測定した。Arm サーバでは SMT の 値を 4 とし、Intel サーバではハイパースレッテ ィングをオンに設定した。スレッド数は 256 に して測定した。. 3. 測定結果 2.3(1)〜(2)の測定結果をそれぞれ図 1, 2 に示す。 各サーバのスレッド数を増やしたときの G4Bench の スループットを示している。これらの結果から以下 のことが判明した。. Performance evaluation of Arm processor for large-scale computer cluster Kaneko Sari, Takase Wataru, Murakami Koichi, Sasaki Takashi †High Energy Accelerator Research Organization(KEK). 3.1. Arm サーバの SMT 性能の比較(図 1) 論理コア数まで、スレッド数が増えるにしたがっ てパフォーマンスが向上していることが分かる。特. 1-35. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 82 回全国大会. 3.2. Arm サーバ・Intel サーバの計算性能の比較 (図 2) 1 スレッドの場合、Arm サーバのスループットは Intel Xeon Gold サーバの約 3 分の 1 である。しか し 512 スレッドの時、約 1.2 倍になるという結果が 得られた。. 6000. 5000. 4000. event/sec. に SMT が 2, 4 の場合に比べて、1 に設定した時は 物理コア数までリニアに性能が向上する。また、 SMT を 4 に設定した時は 128 スレッドでスループッ トが落ちることを確認した。. 3000. 2000. 1000. Intel Xeon Gold. ThunderX2. Intel Xeon E5. 0 0. 32. 64. 96. 128. 160. 192. 224. 256. 288. 320. 352. 384. 416. 448. 480. 512. # threads. 3.3. Arm サーバ・Intel サーバの電力効率の比較 図 2 測定結果. 各サーバの 1kWh あたりの処理イベント数の比較 を表 2 に示す。. 計算性能の比較. 4. まとめと今後の展望 表 2 各サーバの 1kWh あたりのイベント数 Xeon E5 7. 1.761×10. Xeon Gold. ThunderX2. 7. 3.591×107. 4.500×10. 本稿では、KEK の大規模 Linux クラスタへの Arm プロセッサの適応性評価として、Arm サーバと Intel サーバとでベンチマークテストを行い、計算 性能と電力効率を比較した。. Arm サーバと比較して、Intel Xeon Gold は約 1.25 倍の電力効率という結果が得られた。測定し た 256 スレッドでは 3.2 の結果よりスループットは Arm サーバが最も良い。Arm サーバの電力効率を悪 くしている原因として、待機電力が大きいことが分 かった(表 3)。. 3.4. 測定結果まとめ 各サーバの特徴と、Intel Xeon Gold を基準とし た測定結果を表 3 にまとめた。. 表 3 各サーバの特徴・測定結果 26. ,. 26. 95 $. E W. $ 3 4. .0 E. $ 3 4. 07 56 2$ $ $ 3 4. $ 817. W. $. X. T S. GM. 5. 参考文献. 7000. [1] Geant4 http://geant4.web.cern.ch/ [2] G4bench https://github.com/koichimurakami/g4bench [3] Recommended Customer Price on https://ark.intel.com/ [4] https://www.cavium.com/news/caviumannounces-thunderx2-general-availability. 6000 5000. event/sec. ・計算性能の面では、Arm プロセッサはスレッド数 を上げた時、ピーク計算性能については有利である ことが分かった。これはコア数が多いことと、SMT 機能で 1 コアあたり 4 スレッド実行可能のためであ ると考えられる。 ・消費電力あたりの計算性能の面では、Intel Xeon Gold サーバの消費電力は Intel Xeon E5 より大幅 に改善されている。Arm サーバは Intel Xeon Gold より劣っている結果となった。原因の 1 つとして、 Arm サーバのファンの消費電力が高いことが考えら れる。 今回用いた G4Bench は高エネルギー実験のシミュ レーションで使われるものであり、本システムにお いても多く利用されるため、測定に用いた。今後は、 他の計算プログラムやメモリ負荷がかかるプログラ ムにおいても性能測定を行う必要があると考える。 また、128 スレッドでスループットが落ちる原因に ついても調査する予定である。. 4000 3000 2000 1000. 4SMT. 2SMT. 1SMT. 1SMT ideal. 0 0. 32. 64. 96. 128. 160. 192. 224. 256. 288. 320. 352. 384. 416. 448. 480. 512. # threads. 図 1 測定結果. SMT 性能の比較. 1-36. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(3)

表 1 HPE Apollo70 の構成  ハードウェア
図 1 測定結果  SMT 性能の比較

参照

関連したドキュメント

そればかりか,チューリング機械の能力を超える現実的な計算の仕組は,今日に至るま

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

チューリング機械の原論文 [14]

(問5-3)検体検査管理加算に係る機能評価係数Ⅰは検体検査を実施していない月も医療機関別係数に合算することができる か。

および皮膚性状の変化がみられる患者においては,コ.. 動性クリーゼ補助診断に利用できると述べている。本 症 例 に お け る ChE/Alb 比 は 入 院 時 に 2.4 と 低 値

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

定可能性は大前提とした上で、どの程度の時間で、どの程度のメモリを用いれば計