第58回 月例発表会(2003年05月) 知的システムデザイン研究室
100
万円で購入可能なシステムは
いつ
Linpack
実行性能で
100GFlops
を超えるか?
∼近未来PC クラスタ量産化計画∼
真武信和,下坂久司
Nobukazu MATAKE,Hisasi SIMOSAKA
1
はじめに
計算機の性能は,1990 年代に入り,急速に向上した. 世界中の計算機の性能をランク付けしているTop 500 Computer Sites1)では,1993 年 11 月に最も性能のよい 計算機が100GFlops であったのに対し,2002 年 11 月 には35TFlops となった.また 2001 年 11 月の 500 位が 100GFlops を超える性能を記録した.このことは,一定 の性能を持つ計算機の価格が,急速に下がったことを意 味する.本発表では,「100GFlops のシステムは,いつ 頃100 万円を切るか」について考察する.2
Linpack とは
Linpack とは,米国のテネシー大学の J.Dongarra 博 士によって開発されたLU 分解による連立一次方程式 の解法プログラムであり,現在Top500 のベンチマーク として用いられている.Linpack は並列計算に向いたベ ンチマークであり,並列計算機を含め様々なアーキテク チャの計測が出来る. 以下にLinpack ベンチマークの 特徴を挙げる. • 問題サイズを大きくすればよい結果が得られる.問 題サイズは総メモリ容量に依存する. • パラメータを変えることで,計算機のアーキテク チャにあった性能が引き出せる. • 並列化効率はプロセス・ノード間の通信性能に依存 する.Linpack 値には Rmax と Rpeak という 2 つの値があ る.これはそれぞれ「実効性能値」,「理論ピーク値」とい うものである.実行性能値とは,Linpack を実際に計測し たときの性能値であり,理論ピーク値とは理論上の限界 性能値である.並列化効率はRmax/Rpeak で表される. 例えば並列化効率=0.5 の場合,実行性能値 100GFlops を達成するには,理論ピーク値で200GFlops 以上が必 要になる.
3
基本戦略
近年Top500 にランキングされる計算機として,PC クラスタがその数を伸ばしている1).一般的にPC クラ スタはベクトル計算機や専用スイッチをもつスーパーコ ンピュータに比べ並列化効率が低い.しかしながらPC クラスタはコモディティな製品で構築できるためコスト パフォーマンスがよく,近年スーパーコンピュータに近 い性能を持つPC クラスタも増えている.本発表におい ても,コストパフォーマンスの面からPC クラスタに注 目し,100 万円以内で 100GFlops を超えるシステムの 構築を目指す.4
PC クラスタ性能向上の 3 大要因
PC クラスタでは,性能を向上させる大きな要因とし て次の3つが挙げられる. • CPU の性能向上 • ノード間の通信性能向上 • 総メモリ容量 PC クラスタの構築に際しては,コストパフォーマン スのよいコモディティな製品を用いる必要がある. 4.1 CPU の性能向上 現在コモディティなCPU,及び次世代 CPU として注 目されるItanium2/Opteron の性能とコストパフォーマ ンスを調べた.結果をTable.1 に示す2) 3) .Table 1 Cost-performance of CPU
CPU Rmax [Mflops] cost[¥] 価 格 性 能 比 [¥/Mflops] Pentium3 1.26GHz 830 20,560 24.77 Pentium4 2.53GHz 2355 22,500 9.55 AthlonXP 1.53GHz 1623 7,000 4.31 AthlonMP 1.53GHz 1705 9,980 5.85 Itanium2 1.0GHz 3533 525,080 148.62 Opteron 1.8GHz 不明 99,250 不明
Table.1 を見ると,Athlon MP の Dual CPU が最もコ ストパフォーマンスが高い.よって現状ではAthlonMP でPC クラスタを構築するのがよい.
また,近年Intel や AMD など CPU 大手はそろって 64bit プロセッサを発売した.さらに Intel はゲート長
0.03µm という世界最小のトランジスタも開発しており, これにより理論的には10GHz までの CPU が開発可能 となっている.また,Intel は 2005 年に 5GHz の CPU を発売する予定である4) .よってCPU の性能向上は, 5∼10 年の間はムーアの法則1に従うと思われる.
Intel の 64bit プロセッサ“ Itanium2 ”は,Table.1 の ように高いLinpack 性能を計測している.2003 年 9 月 にはItanium2 1.5GHz が発売予定であるので,来年春 には1.7∼1.8GHz 程度の製品が発売されるであろう.ま たAMD の 64bit プロセッサ“ Opteron ”は現時点ではま だLinpack ベンチマーク結果は出ていない.しかしなが らの浮動小数点演算の速度はItanium2 と同程度と言わ れている5) .これら64bit プロセッサの性能は非常に高 いが,Itanium2 1GHz では 52 万円,Opteron 1.8GHz でも10 万円と,コストパフォーマンスでは 32bit プロ セッサには劣る.2003 年 9 月には AMD から Athlon64 というPC 向けの CPU も発売される.64bit プロセッ サの中ではAthlon64 が一番コストパフォーマンスが良 くなると思われる.しかし64bit プロセッサは,3∼5 年 かかり,PC 分野に浸透していくと思われるので,32bit プロセッサの性能向上は当分の間続くであろう.以上の ことから,最も早く100 万円で 100GFlops を実現する には,CPU は AthlonMP であると考えられる. 4.2 ノード間の通信速度向上 Linpack ベンチマークでは,通信回線の性能が並列 化効率に大きく影響する.現在のPC クラスタのイン ターコネクトは,Myrinet,Myrinet2000,100Base-T, 1000Base-T の 4 つが主流である.各インターコネクト でLinpack による並列化効率の調査,計測を行ったとこ ろTable.2 の結果を得た. Table 2 Network の調査・計測結果 CPU Processor / Node Network Rpeak [GFlops] Rmax [GFlops] Xeon 2.4GHz 128/64 Myrinet 614.4 323.4 Xeon 2.4GHz 128/64 100Base-T 614.4 52 AthlonMP 1.66GHz 8/4 1000Base-T 26.56 12 Pentium4 2.0GHz 64/64 1000Base-T 256 117 この結果から,Myrinet,100Base-T,1000Base-T で は並列化効率はそれぞれ0.5,0.1,0.45 程度になると考 えられる.性能とコストパフォーマンスを考え,本発表 では1000Base-T を使用することにする. 4.3 総メモリ容量 Linpack では問題サイズが性能に大きく影響する.ま た適切な問題サイズは,総メモリ容量に依存する.そこ 1「CPU の性能は,18ヶ月で 2 倍になる」というもの. で,現在100GFlops を記録している PC クラスタを調 べたところ,総メモリ容量が16GB 必要なことが分かっ た1) .よって本発表では,総メモリ容量16GB を最低 値として考える.
5
現在の
100GFlops の価格
現在100GFlops を達成する最も安価な構成は,Athlon MP 2GHz dual Processor 28 ノードである.これなら 理論ピーク値224GFlops となり,インターコネクトが 1000Base-T でも Linpack 性能値 100GFlops を超えると 考えられる. Table 3 PC クラスタ構成案(現状) 構成要素 数量 単体価格[¥] 合計[¥] AthlonMP 2.0GHz 56 20,000 1,120,000 1000Base-T LAN カード 28 5,000 140,000 8 ポート 1000Base-T スイッチングハブ 4 25,000 100,000 640MB Memory 28 10,000 280,000 Table.3 のような構成から,現在でも計¥1,640,000 で 100GFlops を達成出来る.6
今後の予測
ここまでで,性能向上のため,インターコネクト は 1000Base-T,メモリは総容量 16GB に決定した. 100GFlops を達成する CPU の価格は,ムーアの法則 から逆算すると,3 年で 0.25 倍になる.ネットワーク, メモリの価格が1 年で 0. 9倍になると仮定する.仮定よ り,n 年後のシステム全体の価格は以下の式で示される. T otalCost[万円] = 112 × 0.25n/3+(14+10+28) × 0.9n 上式から,T otalCost が 100 万円以下になる次期を計 算したところ,n = 1.52 という結果を得た.よって,100 万円で購入可能なシステムは1.52 年後(2004 年 10 月 第5 週頃)に 100GFlops を超える!!参考文献
1) Top500 Computer Sites http://www.top500.org 2) Linpack Benchmark http://performance.netlib.org/performance/html/ linpack.data.col0.html 3) 「32ビット互換が成功をもたらす」,AMDが64ビット 新プロセッサ http://www.atmarkit.co.jp/news/200304/24/amd. html 4) Intel,矢継ぎ早の新技術投入でサーバの技術革新を加速 http://www.zdnet.co.jp/news/0302/21/nj00_ fister.html 5) AMD,Opteronのベンチマークデータを公開 http://pcweb.mycom.co.jp/news/2003/04/23/31. html 34