電力性能最適化フレームワークの評価
稲富雄一、井上弘士
九州大学UIプロジェクト Kyudai Taro,2007
謝辞
• 九大情報基盤研究開発センターならびに日立SEの皆様
には大変お世話になりました
•
色々ご迷惑もおかけして、すいませんでした・・・
一部管理者権限が必要な実験を大規模計算機を用いて行うことは、九大センターを
除く他大学計算機センターのシステムではできないこと
本研究は、本センターの「先端的計算科学研究プロジェクト
(ベンチマーク課題)」ならではの成果
おかげさまでSC 15のtechnical paperに採択されました!
Y.Inadomi, T. Patki, K. Inoue, M. Aoyagi, B. Rountree, M. Schulz, D.Lowenthal, Y. Wada, K. Fukazawa, M. Ueda, M. Kondo, I. Miyoshi,
Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing
研究概要
p プロセッサ製造ばらつき
は電力制約型スパコンにおい
て重大な問題である
ü 4つのスパコンに対して製造ばらつきを解析
ü 製造ばらつきが電力制約下で最大64%の性能ばらつきに
p 適切な電力配分
により製造ばらつき問題が解決出来る
ü 電力制約下での性能ばらつきを解消するために、低コスト、ス
ケーラブルなばらつきを考慮した電力配分手法を提案
ü 提案手法により最大
5.4倍
、平均
1.8倍
の性能向上を達成
九州大学UIプロジェクト Kyudai Taro,2007
もくじ
1. 研究背景
2. 実験環境
3. 電力消費特性のばらつき解析
4. 電力ばらつきを考慮した電力配分
5. 性能評価
6. まとめ
研究背景=「スパコンの消費電力問題」
• Exa-scaleスパコンでは京コンピュータの2倍程度の消
費電力(20-30MW)で100倍の性能向上が必要
電力性能比(FLOPS/W)は「京」の50倍!
• 現状のスパコンシステム設計では与えられた電力バ
ジェットをうまく使えない
計算機へ要求する資源がアプリ依存であることを反映しにく
い・・・
九州大学UIプロジェクト Kyudai Taro,2007
ポストペタスケールシステムのあるべき姿
}最大負荷時電力が電力制約を超過することを積極的に許容
}電力性能ノブを自動制御することで実効電力を制約以下に抑制
}電力資源を計算・記憶・通信へ適応的に配分することで実効性能向上へ
電力制約適応型システム
}ハードウェア資源の有効利用から電力資源の有効利用へのパラダイムシフト
・ヘテロ化 ・局所性利用 ・省電力技術 最大負荷 アプリA アプリB ポストペタスケール (従来型) GPU 最大許容電力 最大負荷 アプリA CPU Mem. NW ペタスケール Base 差の拡大 ポストペタスケール (電力制約適応型) 最大負荷 アプリA アプリB 電力制約 適応型 Powe rノード数などのハードウェアではなく消費電力こそが最重要資源!
与えられた電力バジェットを効 率的に利用してアプリの性能を 最適化(=電力最適化)する必 要がある!電力制約を適用してアプリ
を動かすと、面倒な問題が
生じる・・・
実験環境
p HPC Challenge:
star DGEMM
,
star STREAM(Triad)
p NPB:
BT
,
SP
,
EP
p Magneto Hydro-Dynamics(
MHD
) simulation
• Typical stencil app. to simulate space plasma • Calculations and communications appear in turn
p Fiber benchmark suite: mVMC-mini (
mVMC
)
• Variational Monte-Carlo simulation for strongly correlated electron system
Site Node Micro-Architecture Total nodes Procs. Per Node Cores Per Procs. Power Msrmt.
Cab(LLNL) Intel E5-2670 Sandy Bridge 1,296 2 8 RAPL
BG/Q Vulcan (LLNL) IBM PowerPC A2 24,576 1 16(compute) EMON
Teller (SNL) AMD A10-5800K Piledriver 104 1 4 PI
HA8K(Kyushu Univ.) Intel E5-2697v2 Ivy Bridge 965 2 12 RAPL
Blue=EP type
Red=With Comm. & Sync.
対象アプリ
九州大学UIプロジェクト Kyudai Taro,2007
制御対象
CPU
=
プロセッサ(チップ)
モジュール
= CPU+「CPUに直接繋がっているDRAM」
• 本発表での用語の定義
• 本来の電力制約対象はモジュール
• 実際に電力制約を適用しているのはCPUのみ
• DRAM消費電力は間接的に制約
DRAM消費電力はCPU電力制約値から推定
CPU
cor e cor e cor e cor e cache MC m em or y m od ul e m em or y m od ul e m em or y m od ul e m em or y m od ul e cor e cor e cor e cor e cache MC m em or y m od ul e m em or y m od ul e m em or y m od ul e m em or y m od ul eCPU
モジュール モジュール50# 60# 70# 80# 90# 100# 110# 120# 1.0## 1.5## 2.0## 2.5## CP U #P owe r#[ W ] CPU#clock#frequency#[GHz]
No#power#constraint
CPU#power#cap電力制約時のCPU動作周波数ばらつき
非電力制約時の消費電力ばらつきが一律電力制約時の周波数ばらつきに
置き換わる
50# 60# 70# 80# 90# 100# 110# 120# 1.0## 1.5## 2.0## 2.5## CP U #P owe r#[ W ] CPU#clock#frequency#[GHz]No#power#constraint
CPU$power$cap 0"" 20"" 40"" 60"" 80"" 100"" 120"" 140"" 0" 300" 600" 900" 1200" 1500" 1800" Po wer" "[W] Module"IDsModule"(CPU+DRAM)"power"
CPU$power$
DRAM%power%
30%
一律電力制約時のCPU消費電力と平均動作周波数
(HA8K, *DGEMM実行時)
出典:Y.Inadomi et al., Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing , SC 15 (2015), Austin
九州大学UIプロジェクト Kyudai Taro,2007
電力制約時の処理性能ばらつき
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8##
1.2##
1.6##
2.0##
2.4##
2.8##
3.2##
Mo d u le #( C P U +D RA M) #P o w e r# [W ]Normalized#ExecuIon#Time
No#power#constraint
Cm=110W
1.0
Cm=Target#Average#Power#
Constraint#for#Module
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8##
1.2##
1.6##
2.0##
2.4##
2.8##
3.2##
Mo d u le #( C P U +D RA M) #P o w e r# [W ]Normalized#ExecuIon#Time
No#power#constraint
Cm=110W
Cm=100W
1.0
Cm=Target#Average#Power#
Constraint#for#Module
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8##
1.2##
1.6##
2.0##
2.4##
2.8##
3.2##
Mo d u le #( C P U +D RA M) #P o w e r# [W ]Normalized#ExecuIon#Time
No#power#constraint
Cm=110W
Cm=100W
Cm=90W
1.0
Cm=Target#Average#Power#
Constraint#for#Module
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8##
1.2##
1.6##
2.0##
2.4##
2.8##
3.2##
Mo d u le #( C P U +D RA M) #P o w e r# [W ]Normalized#ExecuIon#Time
No#power#constraint
Cm=110W
Cm=100W
Cm=90W
Cm=80W
1.0
Cm=Target#Average#Power#
Constraint#for#Module
40#
50#
60#
70#
80#
90#
100#
110#
120#
130#
140#
0.8##
1.2##
1.6##
2.0##
2.4##
2.8##
3.2##
Mo d u le #( C P U +D RA M) #P o w e r# [W ]Normalized#ExecuIon#Time
No#power#constraint
Cm=110W
Cm=100W
Cm=90W
Cm=80W
Cm=70W
1.0
Cm=Target#Average#Power#
Constraint#for#Module
64%実行性能とモジュール消費電力(HA8K, *DGEMM実行時)
問題点と目標
p 電力制約型スーパーコンピューティング
ü 将来のスパコンは電力制約のもとで運用される可能性あり
p 製造ばらつき
ü 製造ばらつきが電力制約時の性能ばらつきを引き起こす
将来の電力制約型スパーコンピュータ利用時のHPCアプリの性能が低下する・・・
目標
電力制約型スパコンでのHPCアプリ性能に対する製造ばらつきの影響を小さく
する=電力制約下でのアプリ性能最適化(電力性能最適化)
九州大学UIプロジェクト Kyudai Taro,2007
提案手法の概念
Performance (=CPU Frequency)
Po w e r
W/ power-constraint
(Conventional)
W/O power-constraint
Power variation
W/ power-constraint
(Proposed)
Mitigate Variability
Same total power budget
九州大学UIプロジェクト Kyudai Taro,2007
周波数と電力の関係(電力モデル)
f =
α
( fmax− fmin)+ fmin Pcpu =α
(Pmaxcpu− Pmincpu)+ Pmincpu Pdram =α
(Pmaxdram − Pmindram)+ Pmindram (0≤
α
≤ 1) 31 *DGEMM MHDImported
6"" 7"" 8"" 9"" 10"" 11"" 12"" 13"" 14"" 40"" 50"" 60"" 70"" 80"" 90"" 100"" 110"" 120"" 1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6"" "Mo du le "an d" CP U "P ow er "[W ] CPU"clock"frequency "D RA M" Po w er "[W ] Module" R²"="0.999" R²"="0.999"CPU" R²"="0.996"DRAM" 8"" 9"" 10"" 11"" 12"" 13"" 14"" 15"" 16"" 20"" 30"" 40"" 50"" 60"" 70"" 80"" 90"" 100"" 1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6"" "Mo du le "an d" CP U "P ow er "[W ] CPU"clock"frequency "D RA M" Po w er "[W ] R²"="0.999"Module" R²"="0.999"CPU" R²"="0.991"DRAM"仮定
• CPU消費電力、DRAM消費
電力は動作周波数に比例
• 動作周波数が同じであれば処
理性能も同じ
f =動作周波数Pcpu, Pdram=CPU, DRAM消費電力
fmax, fmin=最高動作周波数、最低動作周波数
Pmaxcpu, Pmaxdram=非電力制約時のCPU, DRAM消費電力
Pmincpu, P
mindram=最低動作周波数時のCPU, DRAM消費電力
α
1 0 Power fmax fmin Pmaxcpu Pmaxdram Pmincpu Pmindram CPU Frequency f Pcpu Pdramこの4点の情報は何らかの方法で推定
出典:Y.Inadomi et al., Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing , SC 15 (2015), Austin
九州大学UIプロジェクト Kyudai Taro,2007
Module
ID
Normalized
Power
1
1.0
k
1.2
N
0.8
電力モデル補正
Module ID
Consumption
Power
k
120
Pw r Perf. Module 1 Pw r Perf. Module 2 Pw r Perf. Module 3 Pw r Perf. Module NModule
ID
Consumption
Power
1
100
k
120
N
80
..
..
..
..
..
..
..
..
アプリ非依存Power Variation Table (PVT)
モジュール k で得られた消費電力情報
電力制御ノブの選択肢
2種類の電力制御ノブを検証
• Power Capping
(Pc) using RAPL
• Frequency Selection
(Fs) using CPUFreqlibs
Power Capping (Pc)
Frequency Selection (Fs)
Power Constraint
◎
Guaranteed
△
Not guaranteed
Performance
九州大学UIプロジェクト Kyudai Taro,2007
適用した電力配分手法
手法名
アプリ依存?
モジュール依存? 電力モデル補正
制約手法
Naive
No
No
No
Power Cap
Pc
Yes
No
Yes
Power Cap
VaPc
Yes
Yes
Yes
Power Cap
VaFs
Yes
Yes
Yes
Freq. Sel.
VaPcOr
Yes
Yes
No
Power Cap
VaFsOr
Yes
Yes
No
Freq. Sel.
Va=Variation-Aware, Pc=Power Capping, Fs=Frequency Selection
Or=Observed power data are used
0.0## 0.5## 1.0## 1.5## 2.0## 0.0## 1.0## 2.0## 3.0## 4.0## 5.0## 6.0## 0.0## 0.5## 1.0## 1.5## 2.0## 0.0## 1.0## 2.0## 3.0## 4.0## 5.0## 0.0## 0.5## 1.0## 1.5## 2.0## 2.5## 3.0## 0.0## 0.5## 1.0## 1.5## 2.0## 2.5## 3.0## 3.5##
速度向上比 (1920モジュール実行時)
5.4x
• 6アプリ平均で1.8倍の速度向上
• NPB-BTだと最大5.4倍の速度向上
様々な電力制約下での各配分手法適用時における性能向上比(対
naïve手法、HA8K)
九州大学UIプロジェクト Kyudai Taro,2007
性能が向上した理由
ばらつきを考慮した電力配分適用前後の実行性能とモジュール消費電力
(HA8K, *DGEMM実行時)
• ばらつき考慮電力配分により性能ばらつきが改善
before
after
40# 50# 60# 70# 80# 90# 100# 110# 120# 130# 140# 0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2## Mo d u le #( C P U +D RA M) #P o w e r# [W ] Normalized#ExecuIon#Time No#power#constraint Cs=211.2KW Cs=192.0kW Cs=172.8kW Cs=153.6kW Cs=134.4kW 1.064%
Cs=ApplicaIon#level#power#constraint 40# 50# 60# 70# 80# 90# 100# 110# 120# 130# 140# 0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2## Mo d u le #( C P U +D RA M) #p o w e r# [W ] Normalized#ExecuIon#Time No#power#constraint Cs=211.2KW Cs=192.0kW# Cs=172.8kW Cs=153.6kW Cs=134.4kW 1.012%
Cs=ApplicaIon#level#power#constraintまとめ
• 現代のHPCシステムでは製造ばらつきが原因のモジュール間消費電力ば
らつきが見られ、それが電力制約時の処理性能ばらつきを生じることが
分かった
• 提案した低コスト、スケーラブルなばらつきを考慮した電力配分によっ
て電力制約下でのHPCアプリ性能が最大で5.4倍、平均でも1.8倍向上し
た
九州大学UIプロジェクト Kyudai Taro,2007