Second-semi.PDF

(1)

PC クラスタ潜在性能を

引き出すためには？

2000年2月18日（金）

第2回ソフテッククラスタセミナー

(2)

Agenda

• ソフテックPC クラスタの紹介 • クラスタシステムの性能 • 最適な線形計算ライブラリの利用 • 最適なクラスタ間通信ソフトウェアの利用 • ベンチマークによる最適化クラスタシステムの性能評価 • まとめ

(3)

(4)

今が｢旬｣な

Linux OS

• ライセンス費用の負担がほとんどない • UNIX互換のOSである • ソースが公開され､カーネルのカスタマイズが可能 • フリーソフトウェアが充実 • 商用ソフトウェアもLinux対応版が増えてきた • 主要ハードウェアベンダがLinuxを正式サポート今がまさに｢旬｣なOSであり､皆が興味を持っている

(5)

HPC分野における計算機事情

• 1世代前は､高性能プロセッサを搭載していたベクトル型スーパーコンピュータが主流｡

l 高性能化した汎用プロセッサを多数搭載した超

(6)

Beowulf タイプのPCクラスタ

• 一般的に入手可能な部品で構成できる(PC) • PCのCPU(PentiumⅢ)でもその性能は型落ちスパコンレベル • 安価でクラスタを構成することが可能かつ、価格性能比が非常に高いシステムを容易に構築できる Beowulf: ベオウルフと読みます。カリフォルニア工科大学の研究者で、NASAのゴダート宇宙センターの研究者であるTomas Sterling氏とDonald Becker氏の2名が提唱したプロジェクト名で、一般に入手可能な製品を組み合わせて、コストパフォーマンスの高い複数台のコンピュータ(PCクラスタなど)を形成し、スーパーコンピュータ並の計算性能を出せるように、最適化したシステムを総称する言葉として使われています。さらに並列対応の開発環境、通信ライブラリ、並列対応数値計算ライブ

(7)

PCクラスタへの疑問･不安

• 本当に実用的な並列処理ができるのか？ • 既存のアプリケーションが正しく動作するのか？ • 本当に性能が出るのか？ • ハードウェアの組み立て・OS設定が面倒では？ユーザーの希望していることは単純明快

｢本当に使えるクラスタシステムが欲しい

!!｣

(8)

ソフテックの提供する

Linux Cluster システム(1)

l l Level 1: Level 1: ソリューションのご提供（フルセット）ソリューションのご提供（フルセット） – ハード･OS･通信ミドルウェア･開発ツール – 導入､運用支援 – 基本的な並列計算に関わるテクニカルサポート l l Level 2: Level 2: ソフトウェア･技術提供サービスのご提供ソフトウェア･技術提供サービスのご提供 – ハードはユーザーが選択 – 通信ミドルウェア･開発ツールを提供 – 並列計算に関わるテクニカルサポート

(9)

ユーザーの使用用途､アプリケーションの特性をヒアリングし､最適なシステム＆ソリューションをご提案しますユーザーの使用用途､アプリケーションの特性をヒアリングし､最適なシステム＆ソリューションをご提案します

ソフテックの提供する

Linux Cluster システム(2)

l l Level 3: Level 3: 高効率な並列計算高効率な並列計算((処理処理))を実現する技術を実現する技術のご提供のご提供 – ユーザーは､既存のマシンを利用 – 通信ミドルウェア･開発ツールも既存品を利用 – 並列計算（処理）に関わる最適化実現のためのコンサルテーション

(10)

導入事例

(国立大学大学院研究室 ) SofTek PC Cluster 1350 SofTek PC Cluster 1350--324324 (24 node) (24 node) Spec Spec CPU: Pentiumlll 500MHz * 24 RAM:12GB

Network: Fast Ethernet(100BaseTX) Peak Performance: 13.6GFlops OS: LASER5 Linux6.0 (kernel 2.2.5) Compiler: PGI CDK

Programming Model: C/C++, F77,f90,HPF

(11)

(12)

クラスタシステムの性能

• Beowulf type クラスタシステムの導入は確かに簡単であり、それなりの性能も得ることが可能 • 更に性能向上を図ることが可能であるか？ • 性能向上の妨げとなる要因を特定し、改良を加えることが性能向上のために不可欠 1. メモリアーキテクチャ、特にキャッシュメモリの活用 2. クラスタ間通信のオーバヘッドの低減

(13)

メモリアーキテクチャの重要性

Memory Cache Processor Onchip Cache Processor Memory フォン・ノイマン・ボトルネック＝メモリからのデータ供給データ授受のbottleneck 16K-32KB 128K∼4MB キャッシュの活用演算能力に見合うだけのデータ供給ができない

(14)

キャッシュの効果（

一時キャッシュ）

0 20 40 60 80 100 120 140 160 0 4 8 12 16 20 24 28 32 データサイズ (KB) Mflop/s 1st Cache=16KBの時急激に性能低下 Pentium II 300MHz

(15)

キャッシュの効果（

二次キャッシュ）

0 10 20 30 40 50 60 70 80 90 100 0 128 256 384 512 640 768 896 1024 1152 データサイズ（KB） Mflop/s 急激に性能低下 2nd Cache=512KB Pentium II 300MHz キャッシュ外

(16)

• キャッシュミスが増加するようなメモリ参照パターンの排除 • キャッシュに収まり切れないデータサイズの参照の排除 • 科学技術計算などでは、性能に大きな影響を及ぼす、計算ライブラリ等がキャッシュを考慮する必要がある

キャッシュを生かすシステム

(17)

Linpack LAPACK ScaLAPACK PBLAS BLACS PVM/MPI.. BLAS BLAS Opt. BLAS 1CPU 1CPU/SMP 分散メモリ型 ATLAS

ASCI-Red _{Parallel BLAS}

Basic Linear Algebra Communication Subprogram 分散メモリ並列対応機能の標準化共通のI/Fの提供性能は？サブルーチン群の性能最適化を考慮 Block Algorithm 性能最適化

Basic Linear Algebra Subprogram

通信系のI/F

Cache最適化

(18)

V V V + _* M V _* V M M M M * + Level 1 BLAS Vector-Vector Operations Level 2 BLAS Matrix-Vector Operations Level 3 BLAS Matrix-Matrix Operations S

BLAS Level毎の特性

(19)

Level 1 BLAS y = y + s * x Operation Level 2 BLAS y = y + A* x Operation Level 3 BLAS C = C + A*B Operation Memory

参照回数演算回数(FLOP) FLOPs/MemRatio

3n 2n 2/3

n

2

2n

2

2 4n

2

2n

3

n/2

メモリ参照の回数を減らすことが重要大きいほど性能最適化が可能キャッシュ内での演算の可能性が高くなる

BLASの計算、性能特性の関係

(20)

50 100 150 200 250 100 200 300 400 500 MFLOPS Level 3 BLAS Level 2 BLAS Level 1 BLAS

BLASの性能（予測値）

PentiumIII 500MHz を仮定

(21)

Matrix Size (N x N)

Source+ATLAS(BLAS) Source coding Source+BLAS

1CPU性能：PentiumIII (500MHz) 0 50 100 150 200 250 300 350 0 100 200 300 400 500 600 700 800 900 ₁₀₀₀ ₁₁₀₀ ₁₂₀₀ ₁₃₀₀ ₁₄₀₀ ₁₅₀₀ ₁₆₀₀ ₁₇₀₀ ₁₈₀₀ ₁₉₀₀ ₂₀₀₀ Mflop /s LAPACK (BLAS 3) Linpack (BLAS1) ATLAS BLAS Normal BLAS ASCI-Red BLAS

LU分解の性能（Linpack &LAPACK)

PGI compiler使用

(22)

まとめ（

線形計算ライブラリ）

• Linpack : Level 1 BLASを使用

: ユーザのCoding Styleに近い : Cache外アクセスで性能劣化

• LAPACK : Level 3 BLASを使用

: Block algorithmによりCache内

アクセスの確率が増すが、限界あり

BLASのCache最適化の必要性

• ATLAS (Automatically Tuned Linear Algebra Software) [1] • ASCI-Red BLAS[2]

BLASのCache最適化の必要性

• ATLAS (Automatically Tuned Linear Algebra Software) [1]

(23)

通信の重要性

• クラスタシステムにおける通信は、クラスタの性能に多くの影響を及ぼす

• 通信において必要な性能指標

– latency small messagesの通信に係る

– throughput large messagesの通信に係る

– scalability compute nodeの数に係る

• コストをかければGigabit級の通信デバイスも利用可能だが、コストに見合う性能が出せるのか？

(24)

TCP/IPベースの通信の現状(1)

• Socket I/F及びTCP/IP プロトコルは、プロトコル処理とインタフェース処理がマルチレイヤレベルで行われ、プロトコル処理においてはwindowに基づくフロー制御を行っているため、パケットの ack及びcheck sum処理に多くのCPUを消費する • TCP/IPスタック上の一連の処理を効率的に行うため、カーネルバッファ領域を使用したデータチェインニングを絶えず行うため、メモリ管理（mbuf）が複雑であり、特にスモールTCPパケットの処理は、多くのCPUリソースを使用する

(25)

• パケットのMTU(Ethernet:1500byte)が小さい

ためにlarge packetに対しては、OS interrupt

のオーバヘッドが生じる

• ユーザ領域とカーネル領域間のデータコピー処

理に多くの時間を消費する

(26)

IP処理 Program USER Space Kernel Space NIC Data Link処理ユーザメモリ領域カーネルメモリ領域Ｍｅｍｏｒｙ Copy Packet Xfer TCP/UDP _{+header+Descripter} 作成 system call NICメモリ領域割込みオーバヘッド Program 通信処理ユーザメモリ領域カーネルメモリ領域 Packet Xfer system call NICメモリ領域専用ドライバポーリング TCP/IP 専用通信

通信オーバヘッドの低減

カーネルを経由しないユーザレベル通信によって通信オーバヘッドを回避できる！

(27)

提案されている通信ソフトウェア

• 低遅延通信ソフトウェアの実装必要要件 – 複数の処理に対して物理的なネットワーク(NIC)を共有できること – 同時に複数のプロセスでネットワークを使用する状況において、それぞれをプロテクトできること – カーネルオーバヘッドを削減すること – ユーザ標準APIを提供できること

• M-VIA (Linux用VI Architectureの実装） • GAMMA (Linux用Active Messageの実装）

M-VIA, GAMMA共に上位ソフトウェアとしてMPIを提供

(28)

M-VIA

(A High Performance Modular VIA for Linux)[3]

• VI Architecture に完全準拠

• 独自APIによる低通信レイテンシ、高スループットを実現

• 対応NIC：DEC Tulip (DC21*4*, 21143含む) chip, Intel i8255x (for x=7, 8 or 9) chip,

Packet Engines GNIC-I, GNIC-II Gigabit Ethernet

(29)

MVICH

[4] • VI Architecture上で動作可能なMPI • 現在MPICH 1.1.2に対応 • 現在初期バージョン(0.0.3）のリリースのため、 bsend, pack/unpack等が使えない制限あり • M-VIAと同様に低通信レイテンシ、高スループットを実現

(30)

性能比較（

通信レイテンシ）

0 50 100 150 200 250 300 0 128 256 384 512 640 768 896 1024

latency (1/2 Round Trip Time) (μs)

MPICH socket(TCP) MVICH M-VIA

128byteでMPICH と比べMVICHは 1.9倍の高速化

評価環境：Pentium III 500MHz×2, Memory 384MB, Intel EtherExpress Pro/100 NIC, 100Base Switching Hub, Linux 2.2.13

(31)

性能比較（

通信スループット）

0 2 4 6 8 10 12 32 64 128 256 512 1K 2K 4K 8K 16K 32K 64K 128K 256K

message size (byte)

Througput (Band width) (Mbyte/s)

MPICH socket(TCP) MVICH(M-VIA) M-VIA 4KbyteまでMPICHと比べMVICHは平均34%、最大139%(32byte)のスループット向上

(32)

GAMMA

(Genoa Active Message Machine) [5] • “communication handlers” という低レベルのネットワークデバイスへのアクセス機能を、ユーザプログラムで扱える Active Messages [7]ライブラリを提供 • 独自APIによる低通信レイテンシ、高スループットを実現 • 対応NIC：DEC Tulip (DC21*4*, 21143含む) chipsets, Intel i8255x (for x=7, 8 or 9)

(33)

MPI/GAMMA

[6]

• GAMMA上で動作可能なMPI • 現在MPICH 1.1.2に対応

• Fast Ethernetを用いたMPIの中で現在最良の性能（低通信レイテンシ、高スループット）を発揮

(34)

0 50 100 150 200 250 300

MPICH socket(TCP) MPI/GAMMA GAMMA

評価環境：Pentium III 500MHz×2, Memory 384MB, DEC DC21143 NIC, 100Base Switching Hub, Linux 2.2.13

128byteでMPICH と比べMPI/GAMMA は3.1倍の高速化

(35)

0 2 4 6 8 10 12 32 64 128 256 512 1K 2K 4K 8K 16K 32K 64K 128K 256K

message size (byte)

MPICH socket(TCP) MPI/GAMMA GAMMA 8KbyteまでMPICHと比べMPI/GAMMAは平均49%、最大404% (32byte)のスループット向上

性能差（

通信スループット）

(36)

0 50 100 150 200 250 300 0 128 256 384 512 640 768 896 1024

message size (byte)

MPICH socket(TCP) MVICH M-VIA MPI/GAMMA GAMMA

総合性能比較（

通信レイテンシ）

IPレイヤを介さない通信ソフトウェアで低レイテンシを実現 IPレイヤを介さない通信ソフトウェアで低レイテンシを実現

(37)

0 2 4 6 8 1 0 1 2 32 64 ₁₂₈ ₂₅₆ ₅₁₂ 1K 2K 4K 8K _16K _32K _64K 128K 256K m e s s a g e s i z e ( b y t e )

M P I C H socket(TCP) M V I C H ( M - V I A ) M - V I A M P I / G A M M A G A M M A IPレイヤを介さない通信ソフトウェアで高スループットを実現 IPレイヤを介さない通信ソフトウェアで高スループットを実現

総合性能比較（

通信スループット）

(38)

まとめ

(通信)

• Fast Ethernetベースの通信においても、適切な通信ソフトウェアの利用で、通信性能向上が可能 • 通信のAPIとしてMPIが汎用的に使用可能 • GAMMA、MPI/GAMMAを用いるとFast Ethernet の持つ最大性能近くまで、性能を発揮できる • 特にメッセージサイズが小さい時に、通信レイテンシを大幅に減少可能（Gigabit級の通信デバイスに匹敵）コモディティなFast Ethernet ベースの通信はコモディティなFast Ethernet ベースの通信は

(39)

• ScaLAPACK(ScalLable Linear Algebra PACKage) は、線形計算ライブラリLAPACK の並列版 • PGI CDKで提供されるScaLAPCKを用いた並列計算機向けLU分解プログラムxdlutime [8]を利用 • Pentium III用にATLASを用いて最適化された BLAS及び、ASCI-Red BLASを適用 • ScaLAPACKの下位で呼び出されるMPIとして、 MPICH（p4）及び、MPI/GAMMAを適用 • 台数効果及び、BLASの違い、MPIの違いによるクラスタ性能を測定

ScaLAPACKを用いたクラスタ性能測定

(40)

評価環境

• Pentium III 500MHz×4, Memory 256MB, DEC

DC21143 NIC, 100Base Switching Hub, Linux 2.2.13 • 各ノード（CPU）への行列の割り当て：2×2 • 1回当たりの計算単位：64×64のブロック N N cpu1 cpu2 cpu3 cpu4 64 64

(41)

ScaLAPACK 性能比較（台数効果）

0 100 200 300 400 500 600 700 800 900 0 500 1000 1500 2000 2500 3000 3500 4000 4500 matrix size Mflop/s 1cpu- Normal-BLAS 1cpu-Atlas 1cpu-ASCI 2cpu-Atlas-p4 2cpu-ASCI-p4 4cpu-Atlas-p4 4cpu-ASCI-p4 Matrix size 2000 ASCI-red, MPI/GAMMA

cpu Mflop/s scalability

1 284 1

2 448.65 1.6

(42)

ScaLAPACK 性能比較（通信による差異）

0 100 200 300 400 500 600 700 800 900 Mflop/s 1cpu-ASCI 2cpu-ASCI-p4 2cpu-ASCI-gm 4cpu-ASCI-p4 4cpu-ASCI-gm ASCI-MPICHと比べ ASCI-MPI/GAMMAは平均4%、最大79% (size 100)の性能向上

(43)

性能差の同定

1（性能デバッガ利用例）

VAMPIR＆VAMPIRtraceによる性能デバッグ

MPICH

(44)

(45)

性能差の同定

3（タイムライン分析）

(46)

総合性能比較

4台で850Mflop/s達成 0 100 200 300 400 500 600 700 800 900 Mflop/s 1cpu-Normal BLAS 1cpu-Atlas 1cpu-ASCI 2cpu-Atlas-p4 2cpu-ASCI-p4 2cpu-Atlas-gm 2cpu-ASCI-gm 4cpu-Atlas-p4 4cpu-ASCI-p4 4cpu-Atlas-gm 4cpu-ASCI-gm

(47)

まとめ

• 適切な線形計算ライブラリを利用することで、スケーラブルな性能を得ることが可能 • 適切な通信ソフトウェアを利用することで、更に性能向上を図ることが可能 • ユーザプログラムの性能を最大限引き出すためには、性能ボトルネックを見極め、それに適切に対処することが必要である高価なシステムの導入よりもユーザプログラムへの適切な対処で高性能を図れる！高価なシステムの導入よりもユーザプログラムへの適切な対処で高性能を図れる！ソフテックは本当に使えるクラスタシステムを提供します

(48)

参考

[1] http://www.netlib.org/atlas/ [2] http://www.cs.utk.edu/~ghenry/distrib/archive.htm [3] http://www.nersc.gov/research/FTG/via/ [4] http://www.nersc.gov/research/FTG/mvich/index.html [5] http://www.disi.unige.it/project/gamma/ [6] http://www.disi.unige.it/project/gamma/mpigamma/ [7] http://now.cs.berkeley.edu/AM/active_messages.html [8] http://ie.korea.ac.kr/~supercom/software/

Second-semi.PDF

PC クラスタ潜在性能を

引き出すためには？

Agenda

今が｢旬｣な

Linux OS

HPC分野における計算機事情

Beowulf タイプのPCクラスタ

PCクラスタへの疑問･不安

｢本当に使えるクラスタシステムが欲しい

!!｣

ソフテックの提供する

Linux Cluster システム(1)

ソフテックの提供する

Linux Cluster システム(2)

導入事例

クラスタシステムの性能

メモリアーキテクチャの重要性

キャッシュの効果（

一時キャッシュ）

キャッシュの効果（

二次キャッシュ）

キャッシュを生かすシステム

BLAS Level毎の特性

3n 2n 2/3

n

2n

2

4n

2n

n/2

BLASの計算、性能特性の関係

BLASの性能（予測値）

LU分解の性能（Linpack &LAPACK)

まとめ（

線形計算ライブラリ）

通信の重要性

TCP/IPベースの通信の現状(1)

通信オーバヘッドの低減

提案されている通信ソフトウェア

M-VIA

MVICH

性能比較 （

通信レイテンシ）

性能比較 （

通信スループット）

GAMMA

MPI/GAMMA

性能差 （

通信スループット）

総合性能比較 （

通信レイテンシ）

総合性能比較 （

通信スループット）

まとめ

(通信)

ScaLAPACKを用いたクラスタ性能測定

評価環境

ScaLAPACK 性能比較（台数効果）

ScaLAPACK 性能比較（通信による差異）

性能差の同定

1（性能デバッガ利用例）

性能差の同定

3（タイムライン分析）

総合性能比較

まとめ

参考

性能比較（

性能比較（

性能差（

総合性能比較（

総合性能比較（