アクセラレータ,再び-スパコン化の切り札-:1.アクセラレータ技術の影と光---ペタ-エクサの次世代HPCの中心的な躍進技術へ
5
0
0
全文
(2) 特 集 アクセラレータ,再び ースパコン化の切り札ー れているのも事実であり,日米において後継機種の研究. から 2019 年ごろのエクサ(10 の 18 乗)へのトップエン. 開発が続いている.コモディティのコストパフォーマン. ドスパコンの性能向上から,ボトムエンドの PC レベ. スからすれば,それら 「恐竜」 はとっくに絶滅しても良い. ルでの通常の CPU では効率の悪いビデオ編集などのア. はずだが,専用スパコンが存在し得るのは,それらが以. プリケーションの加速まで,多くの期待がなされてお. 下のような PC-HPC 技術の欠点のニッチを埋めている. り,研究開発が盛んに行われている.ちなみに,前述の. からである.. TSUBAME, Roadrunner とも,Top500 においてはじめ てアクセラレータを搭載した 2 台であることは,今後の. (1)高性能・高効率なベクトル処理:x86 プロセッサの. HPC のトレンドを占う上で重要である.しかし,先にも. 性能向上は著しく,SSE や AltiVec, AVX など SIMD. 述べたように,HPC においても汎用処理用のアクセラレ. ベクトル命令も備わっているが,単一スレッドの処理能. ータは過去より存在し,必ずしも成功したとは言い難い.. 力では,多くの場合これらの専用設計のプロセッサには. それらと比較して,現代のアクセラレータはどのように. かなわない.これはベクトル並列性が専用プロセッサの. 違い,なぜ成功を期待されているのか,次に論じること. 8 ∼ 16 に比べてたかだか 2 ∼ 4 程度しかないこと,メ. にしよう.. モリアクセスのバンド幅やランダムアクセス性が弱いこ と,などに起因する.過去には CPU クロックの持続的 な上昇で単一スレッドの性能が高まり,専用設計に急速. HPC におけるアクセラレータの影と光. に追いついたが,消費電力や発熱の問題で 2005 年あた. HPC 向けのアクセラレータ技術は古くから存在し,. りを境に急速に止まり,今ではそれが困難になった.無. 古くはメインフレームやミニコンの「科学技術演算用オ. 論,通常は OpenMP や MPI などで中∼粗粒度の並列性. プション」としても売られていた.近代スパコンでも. を高めることによって専用プロセッサの性能を大幅に上. Thinking Machine 社の CM-5 や富士通 AP1000 などに. 回ることが多々あるが,それにも限界がある.たとえば. 採用されていた Weitek 社製のベクトルアクセラレータ. 計算中の主要アルゴリズムなどで,中∼粗粒度レベルの. など,いくつもの試みがあった.しかしながら,それら. 逐次計算の必要性や,あるいはグローバルメモリアクセ. は広く受け入れられることなく,場合によってはメーカ. スのレーテンシに起因するボトルネックが発生すると,. 自身を含み消滅してしまった.これにより,HPC 業界. アムダールの法則によって性能が上げられず,数倍の性. 全体で,CPU 自身の高速化がメインストリームになり,. 能差が本質的に生じてしまう.. アクセラレータはかなり穿った目で見られてきたことも 事実である.. (2)電力・設置・メンテナンス効率の問題:PC クラス. しかしながら,現在は HPC においてアクセラレータ. タによっては効率が出にくいアプリケーションの性能を. が注目技術として脚光を浴びており,同じような理由. 並列性でカバーしても,それによる電力・スペース・メ. で通常の PC や携帯などにおけるコンピューティングで. ンテナンス,最終的にはコストの大幅な増加が問題と. も,グラフィクスなど特定用途以外の一般アプリへの適. なってくる.多くの大規模スパコンの電力消費量は数. 用が着目されている.これはなぜなのであろうか;つまり,. 百 KW から数 MW に達し,次世代ではさらに最大で数. 過去の暗黒時代とどのように違うのであろうか.これら. 十 MW に達すると目されている.小規模なマシンでも,. の技術的な点のみならず,HPC やアクセラレータを取り. 電力は言うにおよばず,冷却・騒音・重量などの設置性. 巻く社会環境までつまびらかにすることにより,今後の. や,サイズと反比例して低下するシステムの故障率が大. アクセラレータの成功を強く確信することが可能となる.. きな問題となる.つまり,あるアプリケーションの実行. まずは,過去と異なりアクセラレータが PC ベースの. に際して,同じ性能が得られるのならば,なるべく計算. コモディティのエコシステムの一部として開発・設計が. 機としてはコンポーネンツの数や物理的なサイズの面で. なされていることにある.MDGRAPE, ClearSpeed な. 小さく,かつ効率が良いことが好ましい.それらの点で,. ども,そのホストとなるプラットフォームは PC であり,. 専用設計のスパコンが有利になる場合においてはニッチ. PCI-Express などの高速 I/O に接続し,主に PC 上でプ. として存在し得る.. ログラムを開発しその HPC アプリケーションを加速す るようになっている.Cell や GPU はさらにそもそもの. 上記のような汎用コモディティプロセッサの欠点を. 生い立ちが PC や組込み系のコモディティ環境のグラフ. 大幅に是正し,専用設計のスパコン並み,あるいはそ. ィクスやマルチメディアの加速が目的であり,当然 PC. れを上回る性能を発揮するのが汎用技術をベースとし. やゲーム機器を中心としたハードウェアや開発環境が安. た現代のアクセラレータである.今後のペタスケール. 価に存在する.このように PC エコシステムの一部とな. 96. 情報処理 Vol.50 No.2 Feb. 2009.
(3) 1. アクセラレータ技術の影と光. — ペタ〜エクサの次世代 HPC の中心的な躍進技術へ. ることにより,その低価格により容易に一般利用が可能 ション開発や利用技術の発展が加速し,普及につながる という,自らのエコシステム維持が今回は可能でありそ うなことがアクセラレータが再び脚光を浴びている大き な理由である. 次に,過去には通常の CPU がすぐにアクセラレータ. 計算頻度. となり,結果としてアクセラレータの HPC アプリケー. 密問題 N-Body MatMul 通常の CPU. に性能的に追いついてしまい,その存在理由を希薄に していたが,現在では前章の(1)で述べた通り,現代の. FFT. CPU はクロック上昇による性能向上が 2005 年ごろに終. 疎問題. 焉し,その後マルチコア化により性能向上を維持してい. CFD. るが out-of-order 実行などのために多くのトランジスタ を演算以外の部分に費やしており,また過去との命令体 系の互換性の維持のために,そのトランジスタ数の増加 に比例した性能向上を得られなくなっている.また,多. メモリアクセス頻度 図 -1 CPU とアクセラレータにおける計算頻度とメモリアクセス 頻度の関係. くの HPC アプリで重要なメモリバンド幅の不足もさま ざまな理由で深刻となっているが,レガシーを多く含む. り,その性能は 100GB/s を超え,NEC SX-9 などの最. 一般的なアプリの万遍ない速度向上にはキャッシュの増. 新の専用ベクトル計算機に匹敵する.. 量以外の決定打がなく,さらに演算回路が利用できるチ. 以上をまとめると,図 -1 のようになる.ここでは X. ップ面積を圧迫している.現状で,250mm ∼ 300mm. 軸は要求される単位時間あたりの計算回数,Y 軸は要. 程度のチップ面積において線幅 45nm で作られるメイン. 求される単位時間あたりのメモリアクセスの回数を示. ストリームの x86 系の CPU の場合,SIMD 演算をフル. す.この中でそれぞれのアプリケーションはこのグラ. に駆使しても,倍精度では 50GFlops 程度以下,単精度. フのどこかにプロットされる.HPC アプリケーション. では 100GFlops 程度以下である.. は当然高性能であることが求められるので,グラフ上. これらに対し,現代のアクセラレータはアプリケー. で右方向・上方向に位置するが,その中でも N-Body. ションの適用範囲を絞り,かつレガシーに縛られない. や BLAS に代表される密結合系の問題の計算カーネル. ことによって,ベクトル・SIMD・マルチスレッド演. と,流体力学(CFD)や FFT に代表される,高いメモリ. 算処理よりはるかに高い演算密度を得ている.Cell/. バンド幅を要求するものに大別され,前者は左上に,後. B.E. は 単 精 度 で 256GFlops, 倍 精 度 演 算 が 改 良 さ れ. 者は右下に位置する.この中で,特に右下は旧来型のベ. た PowerXCell 8i で は 102.8GFlops の ピ ー ク 性 能 で. クトル計算機が得意とするものであった.一方,通常の. ある.ClearSpeed も初期よりボードあたり倍精度 80. CPU が得意とする通常の汎用アプリケーションは,左. ∼ 96GFlops に 達 し て い る.MDGRAPE は 単 精 度. 下から右上の (加速が必要ない) エリアに位置する.今回. 200GFlops の性能によって,理研の初の分子動力学用. 取り上げるアクセラレータは,多くの並列演算ユニット. ペタフロップスシステム「MDGRAPE-3」の中心的な演. を密にチップに内包し,すべて左上の密結合系の問題の. 算装置となった.GPU のピーク演算性能はさらに高く,. 計算カーネルを得意とする.さらに,Cell, GPU は,右. 2008 年末の最新の NVIDIA の Tesla T10 GPU, AMD. 下の高メモリバンド幅系の HPC アプリケーションも同. の FireStream GPU とも単精度では 1 TFlop 以上を可. 時に得意とする.一方 MDGRAPE, ClearSpeed はこの. 能としており,倍精度の性能も急速に向上しつつある.. 領域は不得意だが,その代わり性能に対する消費電力が. また,メモリバンド幅も Cell, GPU は CPU と比較. 相対的に低い,などの有利さがある.全体的に HPC で. して高い.Cell/B.E. は 2006 年に XDR メモリを用い. 重要な領域がカバーされ,先の(1) ,(2)の専用スパコ. 25.6GB/s を実現し,当時の PC と比較して約 4 倍のメ. ンの存在を意味あるものにたらしめていた領域までも汎. モリバンド幅を可能とした.PC がこのレベルまで追. 用技術でカバーするのが,現代のアクセラレータの過去. いついたのは 2 年以上後の 2008 年末の Intel Nehalem. との大きな違いなのである.. においてであり,しかもトップエンドの高性能モデ. このように,汎用技術に基づき,PC やゲームなどの. ルに限られる.GPU はさらにメモリバンド幅が高く,. エコシステムを活用して大幅なコストダウンを果たし,. Graphics 用の GDDR メモリの point-to-point 接続を利. 広い普及を可能にしただけでなく,その性能面において. 用して,少ないチャネル数で高いバンド幅を実現してお. CPU が不得意であった多くの HPC のアプリケーショ 情報処理 Vol.50 No.2 Feb. 2009. 97.
(4) 特 集 アクセラレータ,再び ースパコン化の切り札ー. 東工大 TSUBAME 1.2 の複数アクセラレータによる 異機種混合アーキテクチャ Voltaire ISR9288 Infiniband x8 10Gbps x2 ∼1310+50 Ports ∼13.5Tbits/s (3Tbits bisection). Storage 1.5 PB (Sun Fire X4500 x 60) 0.1 PB (NEC iStore ) Lustre FS, NFS, CIF, WebDAV (over IP) 60GB/s 合算I/O バンド幅 . NEC SX-8i 500GB 48disks. 10Gbps. Sun Fire X4600 (16 Opteron Cores) 32∼128 GB /Node 10,480core/655Nodes 21.4TB 50.4TFlops OS Linux ( SuSE 9, 10) NAREGI グリッドミドル. Unified Infiniband network. PCI-e. NVIDIA Tesla S1070 : 170 700TFlops ,. ,. ClearSpeed CSX600 SIMD accelerator 648カード, 52.2TFlops. 680 カード 70TFlops. 図 -2 TSUBAME1.2 にお けるアクセラレータの追加. ン領域をカバーし,HPC の将来に対して大いなる可能. て我々の過去の異機種分散環境における高性能 Linpack. 性を示している.しかし,真の普及のためには,越えな. の研究 6)をさらに発展させた緻密なアルゴリズム設計を. ければいけない大きなハードルがある.それがアクセラ. 必要とした.高メモリバンド幅の 3 次元 FFT カーネル. レータに適したアルゴリズムと,その開発を支えるソフ. に お い て も,Tesla GPU は TSUBAME の 1 ノ ー ド・. トウェア技術や環境の進歩である.. 16CPU(Opteron 2.4Ghz)における最適化ライブラリ の性能(20GFlops)の 7 倍の 140GFlops の性能を示す 7).. アクセラレータ技術の問題点と今後の展 望:アルゴリズムとソフトウェア. しかしながら,この性能もベクトル計算機用の FFT の. 2008 年 10 月 に, 東 工 大 に お い て TSUBAME を. など,細心の注意を払って得られた結果である.このよ. ホ ス ト マ シ ン と し て, 「高速フーリエ変換演算加速. うに,アクセラレータはその性質上性能がピーキーで. 装置」と銘打って図 -2, 3 のように 170 台の NVIDIA. あり,最高性能を得るためのアルゴリズムの開発負荷が. Tesla S1070 が配備された.従来のスパコンとしての. 大きい.その負荷をなるべく減らすには,並列記述を容. TSUBAME の 10,480 コアの AMD Opteron CPU, 従. 易にするプログラム言語,性能プロファイリングおよび. 来からの合計 648 枚の ClearSpeed アクセラレータに. モデリング技術,並列化をサポートするコンパイラ技術,. 加え,合算した性能は倍精度演算は約 170TFlops, 単精. ランタイム時の自動チューニングを伴う自動最適化技術,. 度性能は約 900TFlops 近くに達し,その Linpack 性能. 並列デバッグ技術,さらにはアクセラレータにチューニ. は 77.48TFlops に達した.これは,Opteron のみの性. ングされた種々のライブラリ群など,種々の研究と,実. 能である,倍精度のピーク性能約 50TFlops, Linpack. 用的なシステムを構築するための開発が必要である.. 38.18TFlops を 大 き く 上 回 る. し か も, そ れ ら の 設. 近年では,これらの課題を解決するために,すでに. 置面積は大変少ないもので(図 -3) ,かつ消費電力も. いくつかの研究開発が行われている.GPU においては,. TSUBAME 全体の 1/8 ∼ 1/10 程度である.. プログラム言語は初期は Brook や PeakStream などス. しかしながら,アクセラレータで性能を達成するのは. トリーム型の言語が中心であったが,NVIDIA 社のマ. 容易ではなく,x86 の通常の CPU(Opteron + 一部 Intel. ルチスレッド型の言語の CUDA の成功に伴い,アルゴ. Xeon) ,ClearSpeed, Tesla を複合した異機種環境におい. リズムやアプリケーションの開発が大幅に進みつつある.. て Linpack を効率よく動作させるには,負荷分散におい. さらに,CUDA をベースに,AMD Firestream や Intel. 98. 情報処理 Vol.50 No.2 Feb. 2009. アルゴリズムである Multi-Row FFT をベースとしなが ら,並列化や転置の際のメモリレイアウトや順番の工夫.
(5) 1. アクセラレータ技術の影と光. — ペタ〜エクサの次世代 HPC の中心的な躍進技術へ. 図 -3 TSUBAME へ の NVIDIA Tesla S1070 の 追 加. そ れ ぞ れ の S1070 に は Tesla 10p プ ロ セ ッサカードが 4 枚内蔵されてい る.TSUBAME の計算ノード間に S1070 を挿入し,PCI-Express の 拡張ケーブルで計算ノードに接続 する.挿入後もほとんど目立たず, アクセラレータの高い計算密度を 示している(写真は筆者).. Larrabee など,他のアクセラレータでもポータビリテ ィが確保されるために,OpenGL の標準化を行っている Khoros グループが中心となって標準言語 OpenCL の規 格制定と処理系開発が進んでいる. 我々も,東工大・学術国際情報センターを中心とし て,他の大学や企業と HPC における研究開発プロジ ェクトを進めている.JST の戦略的創造研究推進事業 (CREST)における「ULP-HPC:次世代テクノロジのモ デル化・最適化による超低消費電力ハイパフォーマンス コンピューティング」 では,今後 10 年間で電力性能比を. 1000 倍向上させることを目標に,複数の大学の研究グ ループが合同で研究を行っているが,アクセラレータに よる電力性能比の向上が目標達成に大いに寄与する.こ こでは割愛するが,その中でさまざまなソフトウェア研 究が行われており,また流体アプリケーションにおける 加速と省電力化は,本特集の青木氏らの稿に詳しい.ま た,Microsoft Research との共同研究では,東工大の秋 山泰教授と合同で,全対全のたんぱく質間のドッキング を GPU で大幅に加速する研究を行っているが,長時間 の大規模計算を実現するために,GPU 計算の高信頼化 アルゴリズムの開発を進めている. しかしながら,汎用アクセラレータの HPC,さらに は一般アプリケーションにおけるメインストリーム化の ための研究開発は緒についたばかりである.本特集が参 考になって,HPC のメインストリーム化,それにより さらに一般のアプリケーションに今までなかった質的な. 違いがもたらされれば大変に幸いである. 参考文献 1)Cell Broadband Engine Technology and Systems, IBM Systems Journal, 51-5 (May 2007). 2)Owens, J. D., Houston, M., Luebke, D., Green, S., Stone, J. E. and Phillips, J. C. : GPU Computing, Proc. IEEE, 96-5, pp.879-899 (May 2008). 3)ClearSpeed Technology Inc. : ClearSpeed Whitepaper : CSX Processor Architecture, http://www.clearspeed.com/docs/ resources/ClearSpeed_Architecture_Whitepaper_Feb07v2.pdf (Feb. 2007). 4)Taiji, M. : MDGRAPE-3 chip : A 165 Gflops Application Specific LSI for Molecular Dynamics Simulations, Proc. Hot Chips 16, IEEE Computer Society Press(CD-ROM)(2004). 5)Matsuoka, S. : Petascale Computing Algorithms and Applications --Chapter 14 The Road to TSUBAME and Beyond, Chapman & Hall CRC Computational Science Series, pp.289-310 (2008). 6)Endo, T. and Matsuoka, S. : Massive Supercomputing Coping with Heterogeneity of Modern Accelerators, IEEE International Parallel & Distributed Processing Symposium (IPDPS 2008), the IEEE Press (Apr. 2008). 7)Nukada, A., Ogata, Y., Endo, T. and Matsuoka, S. : Bandwidth Intensive 3-D FFT kernel for GPUs using CUDA, Proc. ACM/IEEE Supercomputing 2008 ( SC2008) , Austin, Texas, the IEEE Press (Nov. 2008). (平成 21 年 1 月 16 日受付). 松岡 聡(正会員) [email protected]. 1986 年東京大学理学部情報科学科卒業.東大・東工大教員を経て 2001 年東京工業大学学術国際情報センター教授.博士(理学,東京 大学大学院).高性能システム,並列処理,グリッド,クラスタ計 算機,HPC の省電力化や加速,大規模データ処理,等の研究に従事. NAREGI プロジェクト・情報爆発特定科研のサブリーダー,2006 年 我が国最高性能のスパコン TSUBAME を構築.1999 年本会坂井記念 賞,2006 年学術振興会賞受賞.2009 年 ACM/IEEE Supercomputing '09 の論文委員長.. 情報処理 Vol.50 No.2 Feb. 2009. 99.
(6)
関連したドキュメント
少子高齢化,地球温暖化,医療技術の進歩,AI
近年の食品産業の発展に伴い、食品の製造加工技術の多様化、流通の広域化が進む中、乳製品等に
人間は科学技術を発達させ、より大きな力を獲得してきました。しかし、現代の科学技術によっても、自然の世界は人間にとって未知なことが
絶えざる技術革新と急激に進んだ流通革命は、私たちの生活の利便性
2008 年、 Caterpillar 社の MaK 低排出ガスエンジン( Low Emissions Engine : LEE) 技 術は、同社の M32 中速ディーゼル・エンジン・シリーズに採用が拡大された。 LEE 技術
①技術者の行動が社会的に大き な影響を及ぼすことについて の理解度. ②「安全性確保」および「社会
機関室監視強化の技術開発,および⾼度なセ キュリティー技術を適用した陸上監視システム の開発を⾏う...
目的の温度測定は達成できたが、水蒸気量が多く、水滴や放射線によるノイズの影