• 検索結果がありません。

100万円で購入可能なシステムはいつLinpack実行性能で100GFlopsを超えるか?

N/A
N/A
Protected

Academic year: 2021

シェア "100万円で購入可能なシステムはいつLinpack実行性能で100GFlopsを超えるか?"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

58回 月例発表会(200305月) 知的システムデザイン研究室

100

万円で購入可能なシステムは

いつ

Linpack

実行性能で

100GFlops

を超えるか?

∼近未来PC クラスタ量産化計画∼

真武信和,下坂久司

Nobukazu MATAKE,Hisasi SIMOSAKA

1

はじめに

計算機の性能は,1990 年代に入り,急速に向上した. 世界中の計算機の性能をランク付けしているTop 500 Computer Sites1)では,1993 年 11 月に最も性能のよい 計算機が100GFlops であったのに対し,2002 年 11 月 には35TFlops となった.また 2001 年 11 月の 500 位が 100GFlops を超える性能を記録した.このことは,一定 の性能を持つ計算機の価格が,急速に下がったことを意 味する.本発表では,「100GFlops のシステムは,いつ 頃100 万円を切るか」について考察する.

2

Linpack とは

Linpack とは,米国のテネシー大学の J.Dongarra 博 士によって開発されたLU 分解による連立一次方程式 の解法プログラムであり,現在Top500 のベンチマーク として用いられている.Linpack は並列計算に向いたベ ンチマークであり,並列計算機を含め様々なアーキテク チャの計測が出来る. 以下にLinpack ベンチマークの 特徴を挙げる. • 問題サイズを大きくすればよい結果が得られる.問 題サイズは総メモリ容量に依存する. • パラメータを変えることで,計算機のアーキテク チャにあった性能が引き出せる. • 並列化効率はプロセス・ノード間の通信性能に依存 する.

Linpack 値には Rmax と Rpeak という 2 つの値があ る.これはそれぞれ「実効性能値」,「理論ピーク値」とい うものである.実行性能値とは,Linpack を実際に計測し たときの性能値であり,理論ピーク値とは理論上の限界 性能値である.並列化効率はRmax/Rpeak で表される. 例えば並列化効率=0.5 の場合,実行性能値 100GFlops を達成するには,理論ピーク値で200GFlops 以上が必 要になる.

3

基本戦略

近年Top500 にランキングされる計算機として,PC クラスタがその数を伸ばしている1).一般的にPC クラ スタはベクトル計算機や専用スイッチをもつスーパーコ ンピュータに比べ並列化効率が低い.しかしながらPC クラスタはコモディティな製品で構築できるためコスト パフォーマンスがよく,近年スーパーコンピュータに近 い性能を持つPC クラスタも増えている.本発表におい ても,コストパフォーマンスの面からPC クラスタに注 目し,100 万円以内で 100GFlops を超えるシステムの 構築を目指す.

4

PC クラスタ性能向上の 3 大要因

PC クラスタでは,性能を向上させる大きな要因とし て次の3つが挙げられる. • CPU の性能向上 • ノード間の通信性能向上 • 総メモリ容量 PC クラスタの構築に際しては,コストパフォーマン スのよいコモディティな製品を用いる必要がある. 4.1 CPU の性能向上 現在コモディティなCPU,及び次世代 CPU として注 目されるItanium2/Opteron の性能とコストパフォーマ ンスを調べた.結果をTable.1 に示す2) 3)

Table 1 Cost-performance of CPU

CPU Rmax [Mflops] cost[¥] 価 格 性 能 比 [¥/Mflops] Pentium3 1.26GHz 830 20,560 24.77 Pentium4 2.53GHz 2355 22,500 9.55 AthlonXP 1.53GHz 1623 7,000 4.31 AthlonMP 1.53GHz 1705 9,980 5.85 Itanium2 1.0GHz 3533 525,080 148.62 Opteron 1.8GHz 不明 99,250 不明

Table.1 を見ると,Athlon MP の Dual CPU が最もコ ストパフォーマンスが高い.よって現状ではAthlonMP でPC クラスタを構築するのがよい.

また,近年Intel や AMD など CPU 大手はそろって 64bit プロセッサを発売した.さらに Intel はゲート長

(2)

0.03µm という世界最小のトランジスタも開発しており, これにより理論的には10GHz までの CPU が開発可能 となっている.また,Intel は 2005 年に 5GHz の CPU を発売する予定である4) .よってCPU の性能向上は, 5∼10 年の間はムーアの法則1に従うと思われる.

Intel の 64bit プロセッサ“ Itanium2 ”は,Table.1 の ように高いLinpack 性能を計測している.2003 年 9 月 にはItanium2 1.5GHz が発売予定であるので,来年春 には1.7∼1.8GHz 程度の製品が発売されるであろう.ま たAMD の 64bit プロセッサ“ Opteron ”は現時点ではま だLinpack ベンチマーク結果は出ていない.しかしなが らの浮動小数点演算の速度はItanium2 と同程度と言わ れている5) .これら64bit プロセッサの性能は非常に高 いが,Itanium2 1GHz では 52 万円,Opteron 1.8GHz でも10 万円と,コストパフォーマンスでは 32bit プロ セッサには劣る.2003 年 9 月には AMD から Athlon64 というPC 向けの CPU も発売される.64bit プロセッ サの中ではAthlon64 が一番コストパフォーマンスが良 くなると思われる.しかし64bit プロセッサは,3∼5 年 かかり,PC 分野に浸透していくと思われるので,32bit プロセッサの性能向上は当分の間続くであろう.以上の ことから,最も早く100 万円で 100GFlops を実現する には,CPU は AthlonMP であると考えられる. 4.2 ノード間の通信速度向上 Linpack ベンチマークでは,通信回線の性能が並列 化効率に大きく影響する.現在のPC クラスタのイン ターコネクトは,Myrinet,Myrinet2000,100Base-T, 1000Base-T の 4 つが主流である.各インターコネクト でLinpack による並列化効率の調査,計測を行ったとこ ろTable.2 の結果を得た. Table 2 Network の調査・計測結果 CPU Processor / Node Network Rpeak [GFlops] Rmax [GFlops] Xeon 2.4GHz 128/64 Myrinet 614.4 323.4 Xeon 2.4GHz 128/64 100Base-T 614.4 52 AthlonMP 1.66GHz 8/4 1000Base-T 26.56 12 Pentium4 2.0GHz 64/64 1000Base-T 256 117 この結果から,Myrinet,100Base-T,1000Base-T で は並列化効率はそれぞれ0.5,0.1,0.45 程度になると考 えられる.性能とコストパフォーマンスを考え,本発表 では1000Base-T を使用することにする. 4.3 総メモリ容量 Linpack では問題サイズが性能に大きく影響する.ま た適切な問題サイズは,総メモリ容量に依存する.そこ 1「CPU の性能は,18ヶ月で 2 倍になる」というもの. で,現在100GFlops を記録している PC クラスタを調 べたところ,総メモリ容量が16GB 必要なことが分かっ た1) .よって本発表では,総メモリ容量16GB を最低 値として考える.

5

現在の

100GFlops の価格

現在100GFlops を達成する最も安価な構成は,Athlon MP 2GHz dual Processor 28 ノードである.これなら 理論ピーク値224GFlops となり,インターコネクトが 1000Base-T でも Linpack 性能値 100GFlops を超えると 考えられる. Table 3 PC クラスタ構成案(現状) 構成要素 数量 単体価格[¥] 合計[¥] AthlonMP 2.0GHz 56 20,000 1,120,000 1000Base-T LAN カード 28 5,000 140,000 8 ポート     1000Base-T    スイッチングハブ 4 25,000 100,000 640MB Memory 28 10,000 280,000 Table.3 のような構成から,現在でも計¥1,640,000 で 100GFlops を達成出来る.

6

今後の予測

ここまでで,性能向上のため,インターコネクト は 1000Base-T,メモリは総容量 16GB に決定した. 100GFlops を達成する CPU の価格は,ムーアの法則 から逆算すると,3 年で 0.25 倍になる.ネットワーク, メモリの価格が1 年で 0. 9倍になると仮定する.仮定よ り,n 年後のシステム全体の価格は以下の式で示される. T otalCost[万円] = 112 × 0.25n/3+(14+10+28) × 0.9n 上式から,T otalCost が 100 万円以下になる次期を計 算したところ,n = 1.52 という結果を得た.よって,100 万円で購入可能なシステムは1.52 年後(2004 年 10 月 第5 週頃)に 100GFlops を超える!!

参考文献

1) Top500 Computer Sites http://www.top500.org 2) Linpack Benchmark http://performance.netlib.org/performance/html/ linpack.data.col0.html 3) 「32ビット互換が成功をもたらす」,AMDが64ビット 新プロセッサ http://www.atmarkit.co.jp/news/200304/24/amd. html 4) Intel,矢継ぎ早の新技術投入でサーバの技術革新を加速 http://www.zdnet.co.jp/news/0302/21/nj00_ fister.html 5) AMD,Opteronのベンチマークデータを公開 http://pcweb.mycom.co.jp/news/2003/04/23/31. html 34

Table 1 Cost-performance of CPU

参照

関連したドキュメント

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

妊婦又は妊娠している可能性のある女性には投与しない こと。動物実験(ウサギ)で催奇形性及び胚・胎児死亡 が報告されている 1) 。また、動物実験(ウサギ

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

とディグナーガが考えていると Pind は言うのである(このような見解はダルマキールティなら十分に 可能である). Pind [1999:327]: “The underlying argument seems to be

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と

⼝部における線量率の実測値は11 mSv/h程度であることから、25 mSv/h 程度まで上昇する可能性

また、 NO 2 の環境基準は、 「1時間値の1 日平均値が 0.04ppm から 0.06ppm までの ゾーン内又はそれ以下であること。」です

発するか,あるいは金属が残存しても酸性あるいは塩