• 検索結果がありません。

RIITフォーラム2016-inoue提出用

N/A
N/A
Protected

Academic year: 2021

シェア "RIITフォーラム2016-inoue提出用"

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

電力性能最適化フレームワークの評価

稲富雄一、井上弘士

(2)

九州大学UIプロジェクト Kyudai Taro,2007

謝辞

• 九大情報基盤研究開発センターならびに日立SEの皆様

には大変お世話になりました

色々ご迷惑もおかけして、すいませんでした・・・

一部管理者権限が必要な実験を大規模計算機を用いて行うことは、九大センターを

除く他大学計算機センターのシステムではできないこと

本研究は、本センターの「先端的計算科学研究プロジェクト

(ベンチマーク課題)」ならではの成果

おかげさまでSC 15のtechnical paperに採択されました!

Y.Inadomi, T. Patki, K. Inoue, M. Aoyagi, B. Rountree, M. Schulz, D.Lowenthal, Y. Wada, K. Fukazawa, M. Ueda, M. Kondo, I. Miyoshi,

Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing

(3)

研究概要

p プロセッサ製造ばらつき

は電力制約型スパコンにおい

て重大な問題である

ü 4つのスパコンに対して製造ばらつきを解析

ü 製造ばらつきが電力制約下で最大64%の性能ばらつきに

p 適切な電力配分

により製造ばらつき問題が解決出来る

ü 電力制約下での性能ばらつきを解消するために、低コスト、ス

ケーラブルなばらつきを考慮した電力配分手法を提案

ü 提案手法により最大

5.4倍

、平均

1.8倍

の性能向上を達成

(4)

九州大学UIプロジェクト Kyudai Taro,2007

もくじ

1. 研究背景

2. 実験環境

3. 電力消費特性のばらつき解析

4. 電力ばらつきを考慮した電力配分

5. 性能評価

6. まとめ

(5)

研究背景=「スパコンの消費電力問題」

• Exa-scaleスパコンでは京コンピュータの2倍程度の消

費電力(20-30MW)で100倍の性能向上が必要

­ 電力性能比(FLOPS/W)は「京」の50倍!

• 現状のスパコンシステム設計では与えられた電力バ

ジェットをうまく使えない

­ 計算機へ要求する資源がアプリ依存であることを反映しにく

い・・・

(6)

九州大学UIプロジェクト Kyudai Taro,2007

ポストペタスケールシステムのあるべき姿

}

最大負荷時電力が電力制約を超過することを積極的に許容

}

電力性能ノブを自動制御することで実効電力を制約以下に抑制

}

電力資源を計算・記憶・通信へ適応的に配分することで実効性能向上へ

電力制約適応型システム

}

ハードウェア資源の有効利用から電力資源の有効利用へのパラダイムシフト

・ヘテロ化 ・局所性利用 ・省電力技術 最大負荷 アプリA アプリB ポストペタスケール (従来型) GPU 最大許容電力 最大負荷 アプリA CPU Mem. NW ペタスケール Base 差の拡大 ポストペタスケール (電力制約適応型) 最大負荷 アプリA アプリB 電力制約 適応型 Powe r

ノード数などのハードウェアではなく消費電力こそが最重要資源!

与えられた電力バジェットを効 率的に利用してアプリの性能を 最適化(=電力最適化)する必 要がある!

電力制約を適用してアプリ

を動かすと、面倒な問題が

生じる・・・

(7)

実験環境

p HPC Challenge:

star DGEMM

,

star STREAM(Triad)

p NPB:

BT

,

SP

,

EP

p Magneto Hydro-Dynamics(

MHD

) simulation

• Typical stencil app. to simulate space plasma • Calculations and communications appear in turn

p Fiber benchmark suite: mVMC-mini (

mVMC

)

• Variational Monte-Carlo simulation for strongly correlated electron system

Site Node Micro-Architecture Total nodes Procs. Per Node Cores Per Procs. Power Msrmt.

Cab(LLNL) Intel E5-2670 Sandy Bridge 1,296 2 8 RAPL

BG/Q Vulcan (LLNL) IBM PowerPC A2 24,576 1 16(compute) EMON

Teller (SNL) AMD A10-5800K Piledriver 104 1 4 PI

HA8K(Kyushu Univ.) Intel E5-2697v2 Ivy Bridge 965 2 12 RAPL

Blue=EP type

Red=With Comm. & Sync.

対象アプリ

(8)

九州大学UIプロジェクト Kyudai Taro,2007

制御対象

CPU

プロセッサ(チップ)

モジュール

= CPU+「CPUに直接繋がっているDRAM」

• 本発表での用語の定義

• 本来の電力制約対象はモジュール

• 実際に電力制約を適用しているのはCPUのみ

• DRAM消費電力は間接的に制約

DRAM消費電力はCPU電力制約値から推定

CPU

cor e cor e cor e cor e cache MC m em or y m od ul e m em or y m od ul e m em or y m od ul e m em or y m od ul e cor e cor e cor e cor e cache MC m em or y m od ul e m em or y m od ul e m em or y m od ul e m em or y m od ul e

CPU

モジュール モジュール

(9)

50# 60# 70# 80# 90# 100# 110# 120# 1.0## 1.5## 2.0## 2.5## CP U #P owe r#[ W ] CPU#clock#frequency#[GHz]

No#power#constraint

CPU#power#cap

電力制約時のCPU動作周波数ばらつき

非電力制約時の消費電力ばらつきが一律電力制約時の周波数ばらつきに

置き換わる

50# 60# 70# 80# 90# 100# 110# 120# 1.0## 1.5## 2.0## 2.5## CP U #P owe r#[ W ] CPU#clock#frequency#[GHz]

No#power#constraint

CPU$power$cap 0"" 20"" 40"" 60"" 80"" 100"" 120"" 140"" 0" 300" 600" 900" 1200" 1500" 1800" Po wer" "[W] Module"IDs

Module"(CPU+DRAM)"power"

CPU$power$

DRAM%power%

30%

一律電力制約時のCPU消費電力と平均動作周波数

(HA8K, *DGEMM実行時)

出典:Y.Inadomi et al., Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing , SC 15 (2015), Austin

(10)

九州大学UIプロジェクト Kyudai Taro,2007

電力制約時の処理性能ばらつき

40#

50#

60#

70#

80#

90#

100#

110#

120#

130#

140#

0.8##

1.2##

1.6##

2.0##

2.4##

2.8##

3.2##

Mo d u le #( C P U +D RA M) #P o w e r# [W ]

Normalized#ExecuIon#Time

No#power#constraint

Cm=110W

1.0

Cm=Target#Average#Power#

Constraint#for#Module

40#

50#

60#

70#

80#

90#

100#

110#

120#

130#

140#

0.8##

1.2##

1.6##

2.0##

2.4##

2.8##

3.2##

Mo d u le #( C P U +D RA M) #P o w e r# [W ]

Normalized#ExecuIon#Time

No#power#constraint

Cm=110W

Cm=100W

1.0

Cm=Target#Average#Power#

Constraint#for#Module

40#

50#

60#

70#

80#

90#

100#

110#

120#

130#

140#

0.8##

1.2##

1.6##

2.0##

2.4##

2.8##

3.2##

Mo d u le #( C P U +D RA M) #P o w e r# [W ]

Normalized#ExecuIon#Time

No#power#constraint

Cm=110W

Cm=100W

Cm=90W

1.0

Cm=Target#Average#Power#

Constraint#for#Module

40#

50#

60#

70#

80#

90#

100#

110#

120#

130#

140#

0.8##

1.2##

1.6##

2.0##

2.4##

2.8##

3.2##

Mo d u le #( C P U +D RA M) #P o w e r# [W ]

Normalized#ExecuIon#Time

No#power#constraint

Cm=110W

Cm=100W

Cm=90W

Cm=80W

1.0

Cm=Target#Average#Power#

Constraint#for#Module

40#

50#

60#

70#

80#

90#

100#

110#

120#

130#

140#

0.8##

1.2##

1.6##

2.0##

2.4##

2.8##

3.2##

Mo d u le #( C P U +D RA M) #P o w e r# [W ]

Normalized#ExecuIon#Time

No#power#constraint

Cm=110W

Cm=100W

Cm=90W

Cm=80W

Cm=70W

1.0

Cm=Target#Average#Power#

Constraint#for#Module

64%

実行性能とモジュール消費電力(HA8K, *DGEMM実行時)

(11)

問題点と目標

p 電力制約型スーパーコンピューティング

ü 将来のスパコンは電力制約のもとで運用される可能性あり

p 製造ばらつき

ü 製造ばらつきが電力制約時の性能ばらつきを引き起こす

将来の電力制約型スパーコンピュータ利用時のHPCアプリの性能が低下する・・・

目標

電力制約型スパコンでのHPCアプリ性能に対する製造ばらつきの影響を小さく

する=電力制約下でのアプリ性能最適化(電力性能最適化)

(12)

九州大学UIプロジェクト Kyudai Taro,2007

提案手法の概念

Performance (=CPU Frequency)

Po w e r

W/ power-constraint

(Conventional)

W/O power-constraint

Power variation

W/ power-constraint

(Proposed)

Mitigate Variability

Same total power budget

(13)

九州大学UIプロジェクト Kyudai Taro,2007

周波数と電力の関係(電力モデル)

f =

α

( fmax− fmin)+ fmin Pcpu =

α

(Pmaxcpu− Pmincpu)+ Pmincpu Pdram =

α

(Pmaxdram − Pmindram)+ P

mindram (0≤

α

≤ 1) 31 *DGEMM MHD

Imported

6"" 7"" 8"" 9"" 10"" 11"" 12"" 13"" 14"" 40"" 50"" 60"" 70"" 80"" 90"" 100"" 110"" 120"" 1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6"" "Mo du le "an d" CP U "P ow er "[W ] CPU"clock"frequency "D RA M" Po w er "[W ] Module" R²"="0.999" R²"="0.999"CPU" R²"="0.996"DRAM" 8"" 9"" 10"" 11"" 12"" 13"" 14"" 15"" 16"" 20"" 30"" 40"" 50"" 60"" 70"" 80"" 90"" 100"" 1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6"" "Mo du le "an d" CP U "P ow er "[W ] CPU"clock"frequency "D RA M" Po w er "[W ] R²"="0.999"Module" R²"="0.999"CPU" R²"="0.991"DRAM"

仮定

• CPU消費電力、DRAM消費

電力は動作周波数に比例

• 動作周波数が同じであれば処

理性能も同じ

f =動作周波数

Pcpu, Pdram=CPU, DRAM消費電力

fmax, fmin=最高動作周波数、最低動作周波数

Pmaxcpu, Pmaxdram=非電力制約時のCPU, DRAM消費電力

Pmincpu, P

mindram=最低動作周波数時のCPU, DRAM消費電力

α

1 0 Power fmax fmin Pmaxcpu Pmaxdram Pmincpu Pmindram CPU Frequency f Pcpu Pdram

この4点の情報は何らかの方法で推定

出典:Y.Inadomi et al., Analyzing and Mitigating the Impact of Manufacturing Variability in Power-Constrained Supercomputing , SC 15 (2015), Austin

(14)

九州大学UIプロジェクト Kyudai Taro,2007

Module

ID

Normalized

Power

1

1.0

k

1.2

N

0.8

電力モデル補正

Module ID

Consumption

Power

k

120

Pw r Perf. Module 1 Pw r Perf. Module 2 Pw r Perf. Module 3 Pw r Perf. Module N

Module

ID

Consumption

Power

1

100

k

120

N

80

..

..

..

..

..

..

..

..

アプリ非依存

Power Variation Table (PVT)

モジュール k で得られた消費電力情報

(15)

電力制御ノブの選択肢

2種類の電力制御ノブを検証

• Power Capping

(Pc) using RAPL

• Frequency Selection

(Fs) using CPUFreqlibs

Power Capping (Pc)

Frequency Selection (Fs)

Power Constraint

Guaranteed

Not guaranteed

Performance

(16)

九州大学UIプロジェクト Kyudai Taro,2007

適用した電力配分手法

手法名

アプリ依存?

モジュール依存? 電力モデル補正

制約手法

Naive

No

No

No

Power Cap

Pc

Yes

No

Yes

Power Cap

VaPc

Yes

Yes

Yes

Power Cap

VaFs

Yes

Yes

Yes

Freq. Sel.

VaPcOr

Yes

Yes

No

Power Cap

VaFsOr

Yes

Yes

No

Freq. Sel.

Va=Variation-Aware, Pc=Power Capping, Fs=Frequency Selection

Or=Observed power data are used

(17)

0.0## 0.5## 1.0## 1.5## 2.0## 0.0## 1.0## 2.0## 3.0## 4.0## 5.0## 6.0## 0.0## 0.5## 1.0## 1.5## 2.0## 0.0## 1.0## 2.0## 3.0## 4.0## 5.0## 0.0## 0.5## 1.0## 1.5## 2.0## 2.5## 3.0## 0.0## 0.5## 1.0## 1.5## 2.0## 2.5## 3.0## 3.5##

速度向上比 (1920モジュール実行時)

5.4x

• 6アプリ平均で1.8倍の速度向上

• NPB-BTだと最大5.4倍の速度向上

様々な電力制約下での各配分手法適用時における性能向上比(対

naïve手法、HA8K)

(18)

九州大学UIプロジェクト Kyudai Taro,2007

性能が向上した理由

ばらつきを考慮した電力配分適用前後の実行性能とモジュール消費電力

(HA8K, *DGEMM実行時)

• ばらつき考慮電力配分により性能ばらつきが改善

before

after

40# 50# 60# 70# 80# 90# 100# 110# 120# 130# 140# 0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2## Mo d u le #( C P U +D RA M) #P o w e r# [W ] Normalized#ExecuIon#Time No#power#constraint Cs=211.2KW Cs=192.0kW Cs=172.8kW Cs=153.6kW Cs=134.4kW 1.0

64%

Cs=ApplicaIon#level#power#constraint 40# 50# 60# 70# 80# 90# 100# 110# 120# 130# 140# 0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2## Mo d u le #( C P U +D RA M) #p o w e r# [W ] Normalized#ExecuIon#Time No#power#constraint Cs=211.2KW Cs=192.0kW# Cs=172.8kW Cs=153.6kW Cs=134.4kW 1.0

12%

Cs=ApplicaIon#level#power#constraint

(19)

まとめ

• 現代のHPCシステムでは製造ばらつきが原因のモジュール間消費電力ば

らつきが見られ、それが電力制約時の処理性能ばらつきを生じることが

分かった

• 提案した低コスト、スケーラブルなばらつきを考慮した電力配分によっ

て電力制約下でのHPCアプリ性能が最大で5.4倍、平均でも1.8倍向上し

(20)

九州大学UIプロジェクト Kyudai Taro,2007

謝辞

本研究は、JST,CREST の研究領域「ポストペタスケー

ル高性能計算に資するシステムソフトウェア技術の創

出」の研究課題「ポストペタスケールシステムのための

電力マネージメントフレームワークの開発」の支援を受

けています

参照

関連したドキュメント

機器名称 相 銘板容量(kW) 入力換算 入力容量(kW) 台数 現在の契約電力.

c 契約受電設備を減少される場合等で,1年を通じての最大需要電

c 契約受電設備を減少される場合等で,1年を通じての最大需要電

受電電力の最大値・発電機容量・契約電力 公称電圧 2,000kW 未満 6.6kV 2,000kW 以上 10,000kW 未満 22kV 10,000kW 以上 50,000kW 未満 66kV 50,000kW 以上

理由:ボイラー MCR範囲内の 定格出力超過出 力は技術評価に て問題なしと確 認 済 み で あ る が、複数の火力

[夜間 10 時間型]、季節別時間帯別電灯、ピーク制御型季節別時間帯別電灯、低圧高負荷、深夜 電力、第2深夜電力、au でんき M プラン

消費電力の大きい家電製品は、冬は平日午後 5~6 時前後での同時使用は控える

Should Buyer purchase or use SCILLC products for any such unintended or unauthorized application, Buyer shall indemnify and hold SCILLC and its officers, employees,