• 検索結果がありません。

ペタスケール時代に向けたハイパフォーマンスコンピュータの動向

N/A
N/A
Protected

Academic year: 2021

シェア "ペタスケール時代に向けたハイパフォーマンスコンピュータの動向"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)解説. ペタスケール時代 に向けた ハイパフォーマンス コンピュータの動向 中川八穂子 (株)日立製作所 エンタープライズサーバ事業部. ●はじめに. 開始.   「スーパーコンピュータ」 (以下スパコン)とはその時 代の一般のコンピュータに比べ格段に高い性能を持つコ ンピュータのことで,従来は流体力学や材料科学など科 学技術計算分野に特化したものであったが,最近は汎用 プロセッサを多数並べたものでも高い性能が発揮できる. 前処理. DO i=1,l. ☆1. によると,PC に. 使用されているプロセッサが 73%(うち,Intel が 52%,.    最内側の行が. DO j=1,m.   l x m x n 回. 繰り返し実行 DO k=1,n        . (HPC)ともいわれる. 500 スーパーコンピュータサイト」. 本計算の準備処理等. ベ 本計算 (ベクトル,並列計算で短縮). ようになったため, 「ハイパフォーマンス・コンピュータ」  たとえば,2007 年 6 月 27 日に発表された「トップ. データ入力,解析領域分割,. 後処理. 結果出力,画像への変換等. 終了. AMD が 21%)を占めている.このサイトでは,キャッシ ュが大きい汎用プロセッサを並べた装置でも比較的高い. ●図 -1 科学技術計算プログラムの流れ. 性能が出せる LINPACK というプログラム性能が指標とし て使われているために,よく「パソコンを並べれば,安.  本稿では,従来型 「スパコン」 の仕組みと,ペタスケー. くスパコンができるので,従来型スパコンは不要」とい. ル性能を出すための課題,解決に向けた展望について解. う見方がされる.. 説する..  一方で,計算機を使用したシミュレーションは,科学 技術研究の理論・実験に次ぐ第 3 の手法として確立され ており,ペタフロップス. ☆2. クラスの性能が計算機メー. ●スパコンの仕組み. カに要求されている.この用途に PC を多数並べてシス.  スーパーコンピュータは 1972 年の TI 社 ASC や 1973. テムを構成し,巨大シミュレーションを実行するのには. 年の CDC 社の STAR-100 から始まったとされる.当時の. 限界があることが分かっている.. 性能は 40 メガフロップス. ☆3. 程度であった.現在の世. 界最高速システムは,IBM 社の BlueGene/L で.このピ ☆1. ☆2. ☆3. ☆4. TOP500 スーパーコンピュータサイト:1 年に 2 回発表されるスパ コンの性能に関する世界最大級の統計情報で,LINPACK という行 列計算プログラム性能の指標を使って,世界中のスパコンの順位 をつけるもの (http://www.top500.org/). ペタフロップス:1 秒間に 10 の +15 乗(1 千兆)回の浮動小数点演 算が実行可能な性能のこと. メガフロップス:1 秒間に 10 の +6 乗(百万)回の浮動小数点演算 が実行可能な性能のこと. テラフロップス:1 秒間に 10 の +12 乗(1 兆)回の浮動小数点演算 が実行可能な性能のこと.. ーク性能は 367 テラフロップス. ☆4. なので,35 年間で. 約 9 百万倍(年率 1.6 倍程度)の性能向上を達成したこと になる.  この性能向上は,主にコンピュータを構成する素子の 性能向上によるが,プロセッサやメモリの方式による貢 献も大きい.方式でなぜ高速化できるかを,一般的なシ ミュレーションプログラム構造 (図 -1) を例に示す. IPSJ Magazine Vol.48 No.11 Nov. 2007. 1225.

(2) システム内高速ネットワーク. SIMD演算器. スカラ プロセッサ. 主記憶. スカラor ベクトル NW アダプタ プロセッサ. ・・・・. スカラor ベクトル NW アダプタ プロセッサ. 主記憶. ●図 -2 SIMD 演算拡張計算機概略図. 主記憶. ●図 -4 分散メモリ型マルチプロセッサ計算機概略図. が最初で当時の汎用機に比べ 2 桁高速だった. ベクトル プロセッサ. スカラ プロセッサ.  以下,ベクトルプロセッサがなぜ一般の計算機より 2 桁速い性能を達成できたのか,その仕組みについて説 明する.. 主記憶. ●図 -3 ベクトル型計算機概略図. 仕組み 1  ベクトル計算機ではベクトル命令により命令制御を単 純化し,毎サイクル演算できるパイプライン型演算器 を複数本採用することにより,汎用機より数十倍は高 速に演算することができた..  シミュレーションプログラムは前処理,本計算,後処. 仕組み 2. 理からなる.本計算の部分は,大規模配列に対する繰り.  毎サイクル演算器にデータを供給することができるワ. 返し処理が実行時間の大部分を占めるので,繰り返し処. ード単位にアクセス可能な高速メモリを備えていた.. 理を早くする方式上の工夫により,実行時間短縮が可能. 仕組み 3. となる..  ループ内で再利用される演算結果をベクトルレジスタ.  方式上の工夫には 3 段階ある.. に残すことにより,メモリにアクセスすることなく後.   段階 1:単一プロセッサの高速化方式. 続の演算で使用できた..   段階 2:メモリ分散プロセッサ並列による高速化方式   段階 3:メモリ共有プロセッサ並列による高速化方式.  単一プロセッサ高速化は,C や Fortran のコンパイラ.  以下,各段階での高速化方式について解説する.. が SIMD 命令やベクトル命令を生成してくれるので,ユ ーザは意識しなくても恩恵を得ることができるが,最高. ●単一プロセッサ高速化. 性能を得るためには,最内側のループ長を長くするなど, ソースレベルのチューニングが一般的に必要である..  図 -2 にスカラプロセッサ高速化方式の代表である 「SIMD(Single Instruction Multiple Data)演算器」演算拡 張計算機の概略を示す.SIMD とは,1 命令で複数の演. ●分散メモリ型マルチプロセッサ. 算を処理するというもので,Intel 社の SSE(Streaming.  単一プロセッサの高速化の限界が見えてきた 80 年代. SIMD Extension)命令が該当する.SSE 命令では 1 命令で. 半ばから 「分散メモリ型マルチプロセッサ」 式計算機が出. 4 個の演算を同時に処理し,効率的に繰り返し処理が可. 現した.図 -4 に「分散メモリ型マルチプロセッサ」式計. 能である.本方式の課題はメモリアクセスが多いプログ. 算機の概略を示す.. ラムだと演算器にデータが来ず,演算器がない場合と同.  分散メモリ型マルチプロセッサ計算機の特長は,演算. 等性能しか得られないことである.本課題を解決するた. を各プロセッサに分担させそのプロセッサだけからアク. めに SIMD 演算器が直接メモリをアクセスするメモリア. セスできるメモリに配列データも分散させて配置すると. クセス回路を持つ方式もある.図 -3 に本方式の代表で. いうものである.. あるベクトル型計算機を示す..  この場合は,ユーザは MPI(Message Passing Interface).  ベクトルプロセッサは天才科学者 Seymour Cray によ. ライブラリなどを使ってプロセス間でのデータ通信を. り発明された.CRAY-1(1976 年 , 160 メガフロップス). 明示的に指定する必要がある.HPF(High Performance. 1226. 48 巻 11 号 情報処理 2007 年 11 月.

(3) 解説. ペタスケール時代に向けた ハイパフォーマンスコンピュータの動向 共有する複数のプロセッサ間同期を高速化 する専用ハードウェアを実装し,コンパイ. システム内高速ネットワーク. ラの自動並列化機能と合わせ,ユーザが複 数のスカラプロセッサをあたかも 1 つのベ. スカラ プロセッサ. NW アダプタ. ・・・. スカラ プロセッサ. NW アダプタ. ・・・. ・・・ 主記憶. スカラ プロセッサ. NW アダプタ アダプタ. ・・・. 主記憶. クトルプロセッサのように扱えるようにし た (図 -6) .. 主記憶. ●ペタスケール実現に向けた課題. ●図 -5 SMP クラスタ型計算機概略図.  本章では,近い将来にシステム性能がペ タフロップスクラスに到達することを前提 に,ペタスケールシステムに向け解決すべ きアーキテクチャ上の課題を 3 点挙げる.. 【メモリウォール問題】  一般にプロセッサの急峻な性能向上に対 し,メモリの性能向上が追随できていない ことから,中長期的にメモリアクセス性能 がボトルネックとなりやすい傾向を,メモ リウォール問題と呼ぶ.  図 -7 に一般の PC 向けプロセッサおよび 2). メモリの性能向上トレンドを示す .'97 ∼ '07 の 10 年間で,プロセッサは周波数. ●図 -6 DO ループの自動並列化動作例. 10 倍,方式向上 3 倍あわせて約 30 倍の性 能向上を果たしたのに対し,メモリ性能は. Fortran)のように通信を明示的に指示しなくてもデータ. 周波数向上にバス幅拡大を考慮しても約 10 倍にしかな. 分散の仕方の指示文だけで通信を生成する言語もあるが,. っていない.. ユーザが並列化を意識しなくてはならない..  科学技術計算プログラムの本体は図 -1 に示したよう.  ユーザに並列化を意識させる問題はあるが,下記に示. なネストした複数のコアからなるが,このコアループに. す利点がある.. 含まれる. 利点 1.  浮動小数点演算数を P 個.  メモリ共有範囲が小さいのでハードウェア量が少ない.  演算を行うために必要なオペランドの量を M バイト. ため,性能あたりのコストや電力が低く抑えられる.. とし,M を P で除した数字を「Byte/FLOP」と定義すると,. 利点 2. 一般的な科学技術計算プログラムでは 2Byte/FLOP 程度.  並列化されたプログラムでは,問題規模に比例した性. が要求されることが分かっている.. 能向上が得られる..  これを計算する HW として,一般的な 2.5GHz クワッ ドコアプロセッサで図 -4 の分散メモリ型マルチプロセ. ●共有メモリ型マルチプロセッサ. ッサ構成の場合,  演算性能は 2.5GHz*4Flop*4Core=40GFlops.  さらに 90 年代前半に入ると,SMP(対称型マルチプ.  メモリ性能は 800Mhz*8B*2Channel=12.8GB/sec. ロセッサ)を構成するハードウェア技術,使いこなすソ. とすると,Byte/FLOP は 12.8/40=0.3 となり,プログラム. フトウェア技術がともに発達したため,SMP クラスタ. 要求の 2 より低くなってしまう.今後プロセッサ LSI 上. 型計算機(図 -5) が登場した.. のコア数が増加していくことを考えると,HW が実現で.  コンパイラによって SMP 並列化が自動で行われるが,. きる Byte/FLOP はさらに低下していくことが予想される.. 並列化範囲を広げるために,ユーザが OpenMP などの.  ペタスケールシステムでは,メモリ性能の相対的低下. 指示文を追加することが一般的に行われている.. を補うアーキテクチャの改善が課題となる.. 1).  日立製作所のスパコン(SR8000 など) では,メモリを IPSJ Magazine Vol.48 No.11 Nov. 2007. 1227.

(4) 最大性能(Million Operations Per Second) 10,000. ■. ■. 短ピッチパイプ ラインと多重演算器. ■. L2キャッシュ. 1,000. ■ 投機的実行 out-of-order. 100 ■ スーパー スカラ. ■. 10. 1. ■ キャッシュ パイプ ライン. ■ 50MHz. 66MHz ■ ■. ■ 200MHz. 1988. 1990. 1992. プロセッサ方式性能 向上による効果. ■ 2,000MHz ■ 733MHz. ■ 3,060MHz プロセッサ周波数 向上による効果. ■ ■ 4,266MB/s 3,200MB/s. ■ 1,066MB/s. / 800MB/s ■. 533MB/s ■. ■ ■ バス幅4B→8B 幅4B→8B 25MHz 33MHz ■ ■ 200MB/s ■ 16MHz 100MB/s 132MB/s ■. ■ MMX. ■ 300MHz. ハイパー スレッド. DDR. メモリ周波数向上 メ およびバス幅拡大 による効果. EDO→SDRAM EDO→SDRAM →. 1994. 1996. 1998. 2002. 2000. 2004. 年. ●図 -7 プロセッサおよびメモリ性能向上トレンド. 次のパラダイムシフト?. 【ネットワークウォール問題】 高速ネットワークの性能向上も追随できていない.  ネットワーク技術そのものはプロセッサを上回るピ ッチで発展を続けており,たとえば Ethernet® の規格は,. 電力あたり性能.  プロセッサの急峻な性能向上に対しては,システム内. 1PF/MW CMOS CMOS 年率1.3倍. 1TF/MW. バイポーラ 年率1.2倍. この 10 年で 100Mb/s から 10Gb/s へと 100 倍高速化さ れた.これは,先述のプロセッサの 30 倍の性能向上を 上回る.しかし,スパコンのシステム内高速ネットワー. 1GF/MW. 1980. パラダイムシフト CMOS バイポーラ → CMOS. 平均 年率1.6倍 1985. 1990. 1995. 2000. 2005. 2010. クについて分析すると,プロセッサ性能あたりのネット ワーク性能はむしろ低下傾向にある.これは,スパコン. ●図 -8 電力あたり性能のトレンド. のシステム巨大化とともに太いネットワークを全体に張 り巡らせることが難しくなっていることと,スパコンシ. 性能の拡大と同程度のスピードで改善している.この電. ステム内でネットワークあたりのプロセッサ数が増大し. 力あたり性能の改善は,毎年コンスタントに進歩する. ていることに因る.この傾向を,メモリウォール問題に. デバイス微細化や,アーキテクチャの進歩だけでは達. 倣い,ここではネットワークウォールと呼ぶ.スパコン. 成できず,図 -8 に示す通り,1995 年頃の電力のパラダ. を使ったグランドチャレンジ計算は,システムの巨大化. イムシフト(バイポーラ LSI から CMOS LSI,SRAM から. に合わせて規模が拡大しており,FFT 計算などネットワ. DRAM)による約 10 倍の飛躍的改善があって,はじめて. ーク負荷が大きいループも多く,本件もきわめて深刻な. 達成できている.. 問題である..  しかしながら大変革から 10 年以上が過ぎ,デバイス微. 【パワーウォール問題】. 細化やアーキテクチャのコンスタントな改善だけではシ ステム性能の拡大に追従できないことから,電力の巨大.  現状のスパコンの電力あたり性能は,この 20 年程度. 化が深刻な問題になりつつある.国内の主要計算機セン. で平均すると毎年 1.5 ∼ 1.6 倍程度,すなわちシステム. タでは,給電設備制限により,電力制限が 1MW 程度から. 1228. 48 巻 11 号 情報処理 2007 年 11 月.

(5) 解説. ペタスケール時代に向けた ハイパフォーマンスコンピュータの動向. レジスタ・演算器. 0.30. ローカル メモリ. 0.25. ダイレクト ロード. ロード. 0.20 実行効率. キャッシュ メモリ. コピー 0.15. 主記憶. 0.10. ●図 -10 LSI 内メモリの最適活用アーキテクチャ. 0.05. 継機の SR11000 は 1.5Byte/FLOP の計算機である.しかし, 0.00 SR8000. SR11000. LSI 内キャッシュ容量を 128KB から 1.4MB に拡大し,コ ンパイラが自動でプリフェッチを出すことにより演算開 始以前にデータを LSI 内メモリにロードすること,コン パイラディレクティブ挿入によりデータを LSI 内メモリ. ●図 -9 Byte/FLOP の異なる計算機のプログラム実行効率. にブロッキングすることにより,実行性能はほとんど低 下しなかった.. 拡大していない.ペタスケールのシステムが国内に複数.  他方,LSI 内のメモリの巨大化は LSI コストに直結す. 現れる 2010 年頃に向けて,再び電力あたり性能の 10 倍. る.よって,LSI 内のメモリ量を抑えつつ,これを有効. 程度の飛躍的な改善がないと,国内の主要計算機センタ. に活用するアーキテクチャが重要になる.このような. クラスが性能トレンドに合わせてシステムを導入した場. アーキテクチャとしては,LSI 内メモリとしてキャッシ. 合,電力が 3 ∼ 5MW 程度まで膨らむ危険がある.この. ュメモリだけではなくローカルメモリも用意し,完全に. 場合には,システム性能の上限を給電設備制限から決定. ソフトウェア制御で積極的に活用する技術 がある.ま. せざるを得ないケースが多発するものと考えられている.. た,キャッシュメモリをバイパスする機能を用意し,キ. この問題は一般にパワーウォール問題と呼ばれている.. ャッシュメモリに登録しても効果のないデータについて,. 3). キャッシュ登録のオーバヘッドを削減する技術がある. ●課題解決に向けたアーキテクチャによる アプローチ. 【メモリウォール問題に対するアプローチ】. (図 -10) .  これらの技術を片方あるいは両方採用することにより, LSI 内のメモリに登録することが性能向上につながるデ ータのみを効率良く登録でき,LSI 内メモリの効果を最.  メモリ性能の不足の解消には,LSI 内のキャッシュメ. 大化できる.. モリやローカルメモリを巨大化し,大量のデータを一時.  このほか,直接的にメモリウォール問題を軽減する技. 的にプロセッサ LSI 内に押し込め,演算に必要となるプ. 術として,3 次元実装などの新しい実装技術により,メ. ロセッサ LSI と主記憶との間のデータ転送量を抑える方. モリ性能を飛躍的に向上する研究が進められている.メ. 法が有効である.たとえば,N × N の行列積ループでは,. モリウォール問題に向けては,多様なアプローチが将来. 3. 2N 回の演算が発生する.よって,部分行列積を LSI 内の メモリへ閉じ込めて実行する場合,LSI 内のメモリ容量を 4 倍に拡大すれば,8 倍の演算量の部分行列積を LSI 内で. に向けて盛んに研究されている.. 【ネットワークウォール問題に対するアプローチ】. 実行でき, Byte/FLOP を 4 倍 /8 倍 =1/2 化できることになる..  ネットワークウォール問題の解消に向けては,プロセ.  HW の Byte/FLOP が下がっても,LSI 内のメモリ容量を. ッサの性能向上に見合うだけの汎用的なネットワークを. 増加することにより実行効率を確保した例として,日立 の最近のテクニカルサーバ 2 機種で,第一原理計算を行. 多数本束ねて使う方法が考えられる.たとえば現在でも 10Gb/s Ethernet® を何 10 本も束ねて,これを構成単位. った場合の比較を図 -9 に示す.. として大規模ネットワークを構築できれば,十分な太さ.  日立 SR8000 は 2.7Byte/FLOP の計算機であり,その後. のシステム内ネットワークは実現できる.しかし,この IPSJ Magazine Vol.48 No.11 Nov. 2007. 1229.

(6) 電気. 光. ∼ 2010. 10Gb/s. 10 ∼ 25Gb/s. ∼ 2015. 20Gb/s 程度. 40Gb/s × N (波長多重). ●表 -1 中距離伝送の信号線 1 本あたりの性能推定. 電源ロス 他LSI など 配線ロスなど. 系 プロセッサ系 プロセッサ. 系 メモリ系 メモリ. ●図 -11 サーバの電力内訳(例). ようなネットワークは,コストのみならずシステム体積. ど,まったく新しいデバイスについては,将来の実現可. や筐体構造に対するインパクトが大きく,システム巨大. 能性は期待されるものの,2010 年頃までの普及は困難. 化に追随しながら実現することは困難である.. である.このような状況から,次の電力の大革命はデバ.  この状況に対し,近年,システム内高速ネットワーク. イスだけに頼ることはできず,デバイスとアーキテクチ. への光接続技術の適用によるネットワークウォール問題. ャの連携による,トータルな低電力化技術が必要と考え. の軽減という技術方向が見えてきている.電気による信. られている.. 号線 1 本あたりの伝達速度は,伝送路での信号減衰と電.  アーキテクチャのレベルでシステムの電力性能比を改. 力の問題で,1m 程度の中距離伝送以上は信号線 1 本あ. 善する基本的なアプローチとして,以下の 5 つが挙げら. たり 10Gb/s 程度が限界と考えられている.現在,中距. れる.. 離伝送は 10Gb/s までは UXPi,10GBASE-KR といった規. (1)並列処理. 格化が図られているが,さらに上の高速伝送には規格化.  多数の演算器を搭載し,並列処理を行う.並列処理に. の動きはない.これに対し,光接続は,信号減衰の問題. よる性能向上を前提に動作周波数を抑えることで,低. が電気に比べて大幅に軽減されることから,20Gb/s を 超え,すでに 40Gb/s 程度まではシステム内ネットワー クとしての実現性に技術的な目処が立っている.さらに,. 電力に最適化したトランジスタが利用可能になる. (2)必要最低限のハードウェア資源の搭載  実行が想定される各種のアプリケーションプログラム. 光接続は信号の同一ファイバ上の波長多重化による大容. に対し,高性能を実現する上で必要最低限のハードウ. 量化技術が確立していることから,将来の発展性も期待. ェア資源のみを搭載する構成とする.. できる(表 -1).  すでに IBM 社や Cray 社,富士通 (株) らのシステムでは,. (3)制御方式の簡素化  搭載するハードウェア資源の制御方式についても,で. 限定的に光接続をシステム内ネットワークとして活用し. きるだけ簡素化を図る.ただし,実行が想定される各. ており,今後この動きは加速するものと考えられる.公. 種のアプリケーションプログラムにおいて,搭載する. 衆通信網の光接続とは違い,システム内高速ネットワー. ハードウェア資源を有効に利用できる方式でなければ. クでは伝達速度とともに信号の伝達時間(ネットワーク. ならない.. レイテンシ)の短縮が重要になることから,独自のネッ. (4)処理の局所化. トワーク技術を各社とも開発していくものと予想する.. 【パワーウォール問題に対するアプローチ】  IT システムの電力性能比に対してこれまで最も大きく 貢献してきた技術は,LSI デバイス技術である.現在も.  処理を行う部位を局所化し,データおよび制御の伝播 範囲を最小限にとどめる.これにより,信号伝送距離 の短縮による消費電力の削減や,複数部位間の調停と いう大域的な処理の削減が実現できる. (5)必要なハードウェア資源のみ活性化. シリコン LSI の微細化とともに,新材料(High-K ゲート. 搭載されたハードウェア資源のうち,その時点で必要. 絶縁膜など)や新 LSI 構造 (FD-SOI,Fin-FET など) について,. な部位のみを活性化し,不要な部位は不活性状態にす. 多彩な研究が進められている.. る.これにより,処理に不要な部位における電力消費.  しかし,これらの技術は,いずれも LSI の極度の微細. を抑える.. 化に伴って深刻化している問題(ばらつき拡大,リーク.  ここで,図 -11 にサーバ本体の電力内訳の例を示すが,. 電流の増大など)を軽減・解消することを主目的として. 図の通りプロセッサ系は約 1/2 を占める.電源ロスのう. おり,2010 年頃に期待される次の電力の大変革を単独. ちプロセッサの電力に起因する部分があるので,図の例. で支えることは難しい.他方,カーボンナノチューブな. では全体としてプロセッサ系が約 6 割程度を占めるとい. 1230. 48 巻 11 号 情報処理 2007 年 11 月.

(7) 解説. ペタスケール時代に向けた ハイパフォーマンスコンピュータの動向. で 10 倍程度の電力あたり性能の改善が見込めるが,ア プリケーションの特性より,高並列化が最適なケースと,. 相対性能/電力. 100. 次世代ターゲット. の組合せが最適なケースとに分かれてくる.将来のスパ. 高並列化 10. 1. 0.1. 高性能化 ) (アクセラレータ (アクセラレータ 向け 組込み向け 組み込み 組み込み向け プロセッサ 長年蓄積された 低消費電力技術. 0.1. コンでは,特に設備許容値の壁にぶつかり,現在以上に アプリケーション特性も考慮した電力あたり性能の改善 技術が重要視されてくるものと考える.. サーバ向け プロセッサ 長年蓄積された 高性能化技術. 1 10 プロセッサ消費電力 (W). 演算特化型による高性能化が最適なケース,あるいはそ. 100. ●まとめ  ペタスケールに向けた課題は,PC を並べただけでは 解決しないため,根本的に問題解決を図るには,要素レ. ●図 -12 プロセッサの進化方向. ベルからの技術開発が必要である.  現在,10 ペタフロップスを目指して,文部科学省の. える.もし,プロセッサの性能を変えずに電力を 0 にで. 「最先端・高性能汎用スーパーコンピュータの開発利用」. きたとして,全体の電力は 1/2 ∼ 1/3,電力あたり性能. プロジェクトの一環として,理化学研究所が中心となっ. は 2 ∼ 3 倍にしかならない.実際にはプロセッサの電力. て,次世代スーパーコンピュータの開発が進められてい. は 0 にはできないので,単にプロセッサの低電力化を図. る.本稿では,主にハードウェアから見た課題を解説し. っても電力あたり性能の飛躍的改善は難しいことを示し. たが,電力を抑えたペタスケール HPC コンピュータで. ている.すなわち,電力あたり性能を 10 倍程度改善す. はプロセッサコアが数十万になると予測され,これを使. るには,同じ電力の中でプロセッサの性能を 10 倍にす. いこなすためのアプリケーションプログラムとその開発. るなど,プロセッサ系の性能を上げる工夫が必須になる.. 環境 (言語,デバッガなど) などソフトウェアの課題も多.  前記の 5 つのアプローチを組み合わせる中で,ハイパ. く解決していく必要がある.本プロジェクトを通じてハ. フォーマンス・コンピュータのプロセッサのアーキテク. ードウェアだけでなくソフトウェアの課題も解決されて. チャ面での電力性能比改善技術には,図 -12 に示す 2 つ. いくことが期待されている.. の潮流が見られる.1 つは前記のうち,特に(2) (3)を 重視し,プロセッサあたりの性能は低いが電力あたり性 能が高い組み込み系のプロセッサ技術を導入し,プロセ ッサの数を増やすことでプロセッサ系全体としての性能 を上げ,電力あたり性能を向上させるアプローチである. IBM 社の Blue Gene が,組み込みプロセッサをベースと した専用 LSI を採用した例として挙げられる.  もう 1 つは特に(1) (2)を重視し,演算器を中心と した簡易な論理を LSI に詰め込むことでチップを高性. 参考文献 1)Tamaki, Y., Sukegawa, N., Ito, M. et al. : Node Architecture and Performance Evaluation of the Hitachi Super Technical Server SR8000, Proceedings of 12th International Conference on Parallel and Distributed Computing Systems, pp.487-493(1999). 2)Gibbs, W. W.:A Split at the Core, Scientific American November2004, pp. 96-101(2004). 3)中村 宏 , 大河原英喜 , 近藤正章 , 朴 泰祐:ハイパフォーマンスコ ンピューティング向けアーキテクチャ SCIMA, 情報処理学会論文誌ハ イパフォーマンスコンピューティングシステム , Vol.41, No.SIG5(HPS1), pp.15-27 (2000). (平成 19 年 10 月 5 日受付). 能化しつつ電力増加を抑えることで,全体で電力あた り性能を改善するアプローチである.同じく IBM 社の Roadrunner が,拡張した Cell Broadband Engine(1LSI 内 に少数の従来型プロセッサと多数の演算特化型簡易プロ セッサを実装)を採用した例がある.  どちらのアプローチであっても,今後突き詰めること. 中川八穂子 [email protected] 日立製作所エンタープライズサーバ事業部.1981 年東京大学理学部情 報科学科卒業.同年(株)日立製作所入社.以来,一貫してスーパーコ ンピュータの開発に従事.. IPSJ Magazine Vol.48 No.11 Nov. 2007. 1231.

(8)

参照

関連したドキュメント

[r]

肝細胞癌は我が国における癌死亡のうち,男 性の第 3 位,女性の第 5 位を占め,2008 年の国 民衛生の動向によれば年に 33,662 名が死亡して

以上のことから,心情の発現の機能を「創造的感性」による宗獅勺感情の表現であると

『マイスター』が今世紀の最大の傾向である」(KAI1,198)3)と主張したシュレーゲル

つの表が報告されているが︑その表題を示すと次のとおりである︒ 森秀雄 ︵北海道大学 ・当時︶によって発表されている ︒そこでは ︑五

データベースには,1900 年以降に発生した 2 万 2 千件以上の世界中の大規模災 害の情報がある

「系統情報の公開」に関する留意事項

の中に潜む脆弱性 ︵ Vulnerability ︶の解明に向けられているのであ る ︒また ︑脆弱性 ︵ Vulnerability ︶について ︑体系的に整理したワ.