ペタスケール時代に向けたハイパフォーマンスコンピュータの動向

全文

(1)解説. ペタスケール時代に向けたハイパフォーマンスコンピュータの動向中川八穂子（株）日立製作所エンタープライズサーバ事業部. ●はじめに. 開始. 「スーパーコンピュータ」（以下スパコン）とはその時代の一般のコンピュータに比べ格段に高い性能を持つコンピュータのことで，従来は流体力学や材料科学など科学技術計算分野に特化したものであったが，最近は汎用プロセッサを多数並べたものでも高い性能が発揮できる. 前処理. DO i=1,l. ☆1. によると，PC に. 使用されているプロセッサが 73%（うち，Intel が 52%，. 最内側の行が. DO j=1,m. l x m x n 回. 繰り返し実行 DO k=1,n . （HPC）ともいわれる． 500 スーパーコンピュータサイト」. 本計算の準備処理等. ベ本計算（ベクトル，並列計算で短縮）. ようになったため，「ハイパフォーマンス・コンピュータ」たとえば，2007 年 6 月 27 日に発表された「トップ. データ入力，解析領域分割，. 後処理. 結果出力，画像への変換等. 終了. AMD が 21%）を占めている．このサイトでは，キャッシュが大きい汎用プロセッサを並べた装置でも比較的高い. ●図 -1 科学技術計算プログラムの流れ. 性能が出せる LINPACK というプログラム性能が指標として使われているために，よく「パソコンを並べれば，安. 本稿では，従来型「スパコン」の仕組みと，ペタスケー. くスパコンができるので，従来型スパコンは不要」とい. ル性能を出すための課題，解決に向けた展望について解. う見方がされる．. 説する．. 一方で，計算機を使用したシミュレーションは，科学技術研究の理論・実験に次ぐ第 3 の手法として確立されており，ペタフロップス. ☆2. クラスの性能が計算機メー. ●スパコンの仕組み. カに要求されている．この用途に PC を多数並べてシス. スーパーコンピュータは 1972 年の TI 社 ASC や 1973. テムを構成し，巨大シミュレーションを実行するのには. 年の CDC 社の STAR-100 から始まったとされる．当時の. 限界があることが分かっている．. 性能は 40 メガフロップス. ☆3. 程度であった．現在の世. 界最高速システムは，IBM 社の BlueGene/L で．このピ ☆1. ☆2. ☆3. ☆4. TOP500 スーパーコンピュータサイト：1 年に 2 回発表されるスパコンの性能に関する世界最大級の統計情報で，LINPACK という行列計算プログラム性能の指標を使って，世界中のスパコンの順位をつけるもの（http://www.top500.org/）．ペタフロップス：1 秒間に 10 の +15 乗（1 千兆）回の浮動小数点演算が実行可能な性能のこと．メガフロップス：1 秒間に 10 の +6 乗（百万）回の浮動小数点演算が実行可能な性能のこと．テラフロップス：1 秒間に 10 の +12 乗（1 兆）回の浮動小数点演算が実行可能な性能のこと．. ーク性能は 367 テラフロップス. ☆4. なので，35 年間で. 約 9 百万倍（年率 1.6 倍程度）の性能向上を達成したことになる．この性能向上は，主にコンピュータを構成する素子の性能向上によるが，プロセッサやメモリの方式による貢献も大きい．方式でなぜ高速化できるかを，一般的なシミュレーションプログラム構造（図 -1）を例に示す． IPSJ Magazine Vol.48 No.11 Nov. 2007. 1225.

(2) システム内高速ネットワーク. SIMD演算器. スカラプロセッサ. 主記憶. スカラor ベクトル NW アダプタプロセッサ. ・・・・. スカラor ベクトル NW アダプタプロセッサ. 主記憶. ●図 -2 SIMD 演算拡張計算機概略図. 主記憶. ●図 -4 分散メモリ型マルチプロセッサ計算機概略図. が最初で当時の汎用機に比べ 2 桁高速だった．ベクトルプロセッサ. スカラプロセッサ. 以下，ベクトルプロセッサがなぜ一般の計算機より 2 桁速い性能を達成できたのか，その仕組みについて説明する．. 主記憶. ●図 -3 ベクトル型計算機概略図. 仕組み 1 ベクトル計算機ではベクトル命令により命令制御を単純化し，毎サイクル演算できるパイプライン型演算器を複数本採用することにより，汎用機より数十倍は高速に演算することができた．. シミュレーションプログラムは前処理，本計算，後処. 仕組み 2. 理からなる．本計算の部分は，大規模配列に対する繰り. 毎サイクル演算器にデータを供給することができるワ. 返し処理が実行時間の大部分を占めるので，繰り返し処. ード単位にアクセス可能な高速メモリを備えていた．. 理を早くする方式上の工夫により，実行時間短縮が可能. 仕組み 3. となる．. ループ内で再利用される演算結果をベクトルレジスタ. 方式上の工夫には 3 段階ある．. に残すことにより，メモリにアクセスすることなく後. 段階 1：単一プロセッサの高速化方式. 続の演算で使用できた．. 段階 2：メモリ分散プロセッサ並列による高速化方式段階 3：メモリ共有プロセッサ並列による高速化方式. 単一プロセッサ高速化は，C や Fortran のコンパイラ. 以下，各段階での高速化方式について解説する．. が SIMD 命令やベクトル命令を生成してくれるので，ユーザは意識しなくても恩恵を得ることができるが，最高. ●単一プロセッサ高速化. 性能を得るためには，最内側のループ長を長くするなど，ソースレベルのチューニングが一般的に必要である．. 図 -2 にスカラプロセッサ高速化方式の代表である「SIMD（Single Instruction Multiple Data）演算器」演算拡張計算機の概略を示す．SIMD とは，1 命令で複数の演. ●分散メモリ型マルチプロセッサ. 算を処理するというもので，Intel 社の SSE（Streaming. 単一プロセッサの高速化の限界が見えてきた 80 年代. SIMD Extension）命令が該当する．SSE 命令では 1 命令で. 半ばから「分散メモリ型マルチプロセッサ」式計算機が出. 4 個の演算を同時に処理し，効率的に繰り返し処理が可. 現した．図 -4 に「分散メモリ型マルチプロセッサ」式計. 能である．本方式の課題はメモリアクセスが多いプログ. 算機の概略を示す．. ラムだと演算器にデータが来ず，演算器がない場合と同. 分散メモリ型マルチプロセッサ計算機の特長は，演算. 等性能しか得られないことである．本課題を解決するた. を各プロセッサに分担させそのプロセッサだけからアク. めに SIMD 演算器が直接メモリをアクセスするメモリア. セスできるメモリに配列データも分散させて配置すると. クセス回路を持つ方式もある．図 -3 に本方式の代表で. いうものである．. あるベクトル型計算機を示す．. この場合は，ユーザは MPI（Message Passing Interface）. ベクトルプロセッサは天才科学者 Seymour Cray によ. ライブラリなどを使ってプロセス間でのデータ通信を. り発明された．CRAY-1（1976 年 , 160 メガフロップス）. 明示的に指定する必要がある．HPF（High Performance. 1226. 48 巻 11 号情報処理 2007 年 11 月.

(3) 解説. ペタスケール時代に向けたハイパフォーマンスコンピュータの動向共有する複数のプロセッサ間同期を高速化する専用ハードウェアを実装し，コンパイ. システム内高速ネットワーク. ラの自動並列化機能と合わせ，ユーザが複数のスカラプロセッサをあたかも 1 つのベ. スカラプロセッサ. NW アダプタ. ・・・. スカラプロセッサ. NW アダプタ. ・・・. ・・・主記憶. スカラプロセッサ. NW アダプタｱﾀﾞﾌﾟﾀ. ・・・. 主記憶. クトルプロセッサのように扱えるようにした（図 -6）．. 主記憶. ●ペタスケール実現に向けた課題. ●図 -5 SMP クラスタ型計算機概略図. 本章では，近い将来にシステム性能がペタフロップスクラスに到達することを前提に，ペタスケールシステムに向け解決すべきアーキテクチャ上の課題を 3 点挙げる．. 【メモリウォール問題】一般にプロセッサの急峻な性能向上に対し，メモリの性能向上が追随できていないことから，中長期的にメモリアクセス性能がボトルネックとなりやすい傾向を，メモリウォール問題と呼ぶ．図 -7 に一般の PC 向けプロセッサおよび 2）. メモリの性能向上トレンドを示す．'97 ∼ '07 の 10 年間で，プロセッサは周波数. ●図 -6 DO ループの自動並列化動作例. 10 倍，方式向上 3 倍あわせて約 30 倍の性能向上を果たしたのに対し，メモリ性能は. Fortran）のように通信を明示的に指示しなくてもデータ. 周波数向上にバス幅拡大を考慮しても約 10 倍にしかな. 分散の仕方の指示文だけで通信を生成する言語もあるが，. っていない．. ユーザが並列化を意識しなくてはならない．. 科学技術計算プログラムの本体は図 -1 に示したよう. ユーザに並列化を意識させる問題はあるが，下記に示. なネストした複数のコアからなるが，このコアループに. す利点がある．. 含まれる. 利点 1. 浮動小数点演算数を P 個. メモリ共有範囲が小さいのでハードウェア量が少ない. 演算を行うために必要なオペランドの量を M バイト. ため，性能あたりのコストや電力が低く抑えられる．. とし，M を P で除した数字を「Byte/FLOP」と定義すると，. 利点 2. 一般的な科学技術計算プログラムでは 2Byte/FLOP 程度. 並列化されたプログラムでは，問題規模に比例した性. が要求されることが分かっている．. 能向上が得られる．. これを計算する HW として，一般的な 2.5GHz クワッドコアプロセッサで図 -4 の分散メモリ型マルチプロセ. ●共有メモリ型マルチプロセッサ. ッサ構成の場合，演算性能は 2.5GHz*4Flop*4Core=40GFlops. さらに 90 年代前半に入ると，SMP（対称型マルチプ. メモリ性能は 800Mhz*8B*2Channel=12.8GB/sec. ロセッサ）を構成するハードウェア技術，使いこなすソ. とすると，Byte/FLOP は 12.8/40=0.3 となり，プログラム. フトウェア技術がともに発達したため，SMP クラスタ. 要求の 2 より低くなってしまう．今後プロセッサ LSI 上. 型計算機（図 -5）が登場した．. のコア数が増加していくことを考えると，HW が実現で. コンパイラによって SMP 並列化が自動で行われるが，. きる Byte/FLOP はさらに低下していくことが予想される．. 並列化範囲を広げるために，ユーザが OpenMP などの. ペタスケールシステムでは，メモリ性能の相対的低下. 指示文を追加することが一般的に行われている．. を補うアーキテクチャの改善が課題となる．. 1）. 日立製作所のスパコン（SR8000 など）では，メモリを IPSJ Magazine Vol.48 No.11 Nov. 2007. 1227.

(4) 最大性能（Million Operations Per Second） 10,000. ■. ■. 短ピッチパイプラインと多重演算器. ■. L2キャッシュ. 1,000. ■ 投機的実行 out-of-order. 100 ■ スーパースカラ. ■. 10. 1. ■ キャッシュパイプライン. ■ 50MHz. 66MHz ■ ■. ■ 200MHz. 1988. 1990. 1992. プロセッサ方式性能向上による効果. ■ 2,000MHz ■ 733MHz. ■ 3,060MHz プロセッサ周波数向上による効果. ■ ■ 4,266MB/s 3,200MB/s. ■ 1,066MB/s. / 800MB/s ■. 533MB/s ■. ■ ■ バス幅4B→8B 幅4B→8B 25MHz 33MHz ■ ■ 200MB/s ■ 16MHz 100MB/s 132MB/s ■. ■ MMX. ■ 300MHz. ハイパースレッド. DDR. メモリ周波数向上メおよびバス幅拡大による効果. EDO→SDRAM EDO→SDRAM →. 1994. 1996. 1998. 2002. 2000. 2004. 年. ●図 -7 プロセッサおよびメモリ性能向上トレンド. 次のパラダイムシフト？. 【ネットワークウォール問題】高速ネットワークの性能向上も追随できていない．ネットワーク技術そのものはプロセッサを上回るピッチで発展を続けており，たとえば Ethernet® の規格は，. 電力あたり性能. プロセッサの急峻な性能向上に対しては，システム内. 1PF/MW ＣＭＯＳ CMOS 年率1.3倍. 1TF/MW. バイポーラ年率1.2倍. この 10 年で 100Mb/s から 10Gb/s へと 100 倍高速化された．これは，先述のプロセッサの 30 倍の性能向上を上回る．しかし，スパコンのシステム内高速ネットワー. 1GF/MW. 1980. パラダイムシフトＣＭＯＳバイポーラ → CMOS. 平均年率1.6倍 1985. 1990. 1995. 2000. 2005. 2010. クについて分析すると，プロセッサ性能あたりのネットワーク性能はむしろ低下傾向にある．これは，スパコン. ●図 -8 電力あたり性能のトレンド. のシステム巨大化とともに太いネットワークを全体に張り巡らせることが難しくなっていることと，スパコンシ. 性能の拡大と同程度のスピードで改善している．この電. ステム内でネットワークあたりのプロセッサ数が増大し. 力あたり性能の改善は，毎年コンスタントに進歩する. ていることに因る．この傾向を，メモリウォール問題に. デバイス微細化や，アーキテクチャの進歩だけでは達. 倣い，ここではネットワークウォールと呼ぶ．スパコン. 成できず，図 -8 に示す通り，1995 年頃の電力のパラダ. を使ったグランドチャレンジ計算は，システムの巨大化. イムシフト（バイポーラ LSI から CMOS LSI，SRAM から. に合わせて規模が拡大しており，FFT 計算などネットワ. DRAM）による約 10 倍の飛躍的改善があって，はじめて. ーク負荷が大きいループも多く，本件もきわめて深刻な. 達成できている．. 問題である．. しかしながら大変革から 10 年以上が過ぎ，デバイス微. 【パワーウォール問題】. 細化やアーキテクチャのコンスタントな改善だけではシステム性能の拡大に追従できないことから，電力の巨大. 現状のスパコンの電力あたり性能は，この 20 年程度. 化が深刻な問題になりつつある．国内の主要計算機セン. で平均すると毎年 1.5 ∼ 1.6 倍程度，すなわちシステム. タでは，給電設備制限により，電力制限が 1MW 程度から. 1228. 48 巻 11 号情報処理 2007 年 11 月.

(5) 解説. ペタスケール時代に向けたハイパフォーマンスコンピュータの動向. レジスタ・演算器. 0.30. ローカルメモリ. 0.25. ダイレクトロード. ロード. 0.20 実行効率. キャッシュメモリ. コピー 0.15. 主記憶. 0.10. ●図 -10 LSI 内メモリの最適活用アーキテクチャ. 0.05. 継機の SR11000 は 1.5Byte/FLOP の計算機である．しかし， 0.00 SR8000. SR11000. LSI 内キャッシュ容量を 128KB から 1.4MB に拡大し，コンパイラが自動でプリフェッチを出すことにより演算開始以前にデータを LSI 内メモリにロードすること，コンパイラディレクティブ挿入によりデータを LSI 内メモリ. ●図 -9 Byte/FLOP の異なる計算機のプログラム実行効率. にブロッキングすることにより，実行性能はほとんど低下しなかった．. 拡大していない．ペタスケールのシステムが国内に複数. 他方，LSI 内のメモリの巨大化は LSI コストに直結す. 現れる 2010 年頃に向けて，再び電力あたり性能の 10 倍. る．よって，LSI 内のメモリ量を抑えつつ，これを有効. 程度の飛躍的な改善がないと，国内の主要計算機センタ. に活用するアーキテクチャが重要になる．このような. クラスが性能トレンドに合わせてシステムを導入した場. アーキテクチャとしては，LSI 内メモリとしてキャッシ. 合，電力が 3 ∼ 5MW 程度まで膨らむ危険がある．この. ュメモリだけではなくローカルメモリも用意し，完全に. 場合には，システム性能の上限を給電設備制限から決定. ソフトウェア制御で積極的に活用する技術がある．ま. せざるを得ないケースが多発するものと考えられている．. た，キャッシュメモリをバイパスする機能を用意し，キ. この問題は一般にパワーウォール問題と呼ばれている．. ャッシュメモリに登録しても効果のないデータについて，. 3）. キャッシュ登録のオーバヘッドを削減する技術がある. ●課題解決に向けたアーキテクチャによるアプローチ. 【メモリウォール問題に対するアプローチ】. （図 -10）．これらの技術を片方あるいは両方採用することにより， LSI 内のメモリに登録することが性能向上につながるデータのみを効率良く登録でき，LSI 内メモリの効果を最. メモリ性能の不足の解消には，LSI 内のキャッシュメ. 大化できる．. モリやローカルメモリを巨大化し，大量のデータを一時. このほか，直接的にメモリウォール問題を軽減する技. 的にプロセッサ LSI 内に押し込め，演算に必要となるプ. 術として，3 次元実装などの新しい実装技術により，メ. ロセッサ LSI と主記憶との間のデータ転送量を抑える方. モリ性能を飛躍的に向上する研究が進められている．メ. 法が有効である．たとえば，N × N の行列積ループでは，. モリウォール問題に向けては，多様なアプローチが将来. 3. 2N 回の演算が発生する．よって，部分行列積を LSI 内のメモリへ閉じ込めて実行する場合，LSI 内のメモリ容量を 4 倍に拡大すれば，8 倍の演算量の部分行列積を LSI 内で. に向けて盛んに研究されている．. 【ネットワークウォール問題に対するアプローチ】. 実行でき， Byte/FLOP を 4 倍 /8 倍 =1/2 化できることになる．. ネットワークウォール問題の解消に向けては，プロセ. HW の Byte/FLOP が下がっても，LSI 内のメモリ容量を. ッサの性能向上に見合うだけの汎用的なネットワークを. 増加することにより実行効率を確保した例として，日立の最近のテクニカルサーバ 2 機種で，第一原理計算を行. 多数本束ねて使う方法が考えられる．たとえば現在でも 10Gb/s Ethernet® を何 10 本も束ねて，これを構成単位. った場合の比較を図 -9 に示す．. として大規模ネットワークを構築できれば，十分な太さ. 日立 SR8000 は 2.7Byte/FLOP の計算機であり，その後. のシステム内ネットワークは実現できる．しかし，この IPSJ Magazine Vol.48 No.11 Nov. 2007. 1229.

(6) 電気. 光. ∼ 2010. 10Gb/s. 10 ∼ 25Gb/s. ∼ 2015. 20Gb/s 程度. 40Gb/s × N （波長多重）. ●表 -1 中距離伝送の信号線 1 本あたりの性能推定. 電源ロス他LSI など配線ロスなど. 系プロセッサ系プロセッサ. 系メモリ系メモリ. ●図 -11 サーバの電力内訳（例）. ようなネットワークは，コストのみならずシステム体積. ど，まったく新しいデバイスについては，将来の実現可. や筐体構造に対するインパクトが大きく，システム巨大. 能性は期待されるものの，2010 年頃までの普及は困難. 化に追随しながら実現することは困難である．. である．このような状況から，次の電力の大革命はデバ. この状況に対し，近年，システム内高速ネットワーク. イスだけに頼ることはできず，デバイスとアーキテクチ. への光接続技術の適用によるネットワークウォール問題. ャの連携による，トータルな低電力化技術が必要と考え. の軽減という技術方向が見えてきている．電気による信. られている．. 号線 1 本あたりの伝達速度は，伝送路での信号減衰と電. アーキテクチャのレベルでシステムの電力性能比を改. 力の問題で，1m 程度の中距離伝送以上は信号線 1 本あ. 善する基本的なアプローチとして，以下の 5 つが挙げら. たり 10Gb/s 程度が限界と考えられている．現在，中距. れる．. 離伝送は 10Gb/s までは UXPi，10GBASE-KR といった規. （1）並列処理. 格化が図られているが，さらに上の高速伝送には規格化. 多数の演算器を搭載し，並列処理を行う．並列処理に. の動きはない．これに対し，光接続は，信号減衰の問題. よる性能向上を前提に動作周波数を抑えることで，低. が電気に比べて大幅に軽減されることから，20Gb/s を超え，すでに 40Gb/s 程度まではシステム内ネットワークとしての実現性に技術的な目処が立っている．さらに，. 電力に最適化したトランジスタが利用可能になる．（2）必要最低限のハードウェア資源の搭載実行が想定される各種のアプリケーションプログラム. 光接続は信号の同一ファイバ上の波長多重化による大容. に対し，高性能を実現する上で必要最低限のハードウ. 量化技術が確立していることから，将来の発展性も期待. ェア資源のみを搭載する構成とする．. できる（表 -1）．すでに IBM 社や Cray 社，富士通（株）らのシステムでは，. （3）制御方式の簡素化搭載するハードウェア資源の制御方式についても，で. 限定的に光接続をシステム内ネットワークとして活用し. きるだけ簡素化を図る．ただし，実行が想定される各. ており，今後この動きは加速するものと考えられる．公. 種のアプリケーションプログラムにおいて，搭載する. 衆通信網の光接続とは違い，システム内高速ネットワー. ハードウェア資源を有効に利用できる方式でなければ. クでは伝達速度とともに信号の伝達時間（ネットワーク. ならない．. レイテンシ）の短縮が重要になることから，独自のネッ. （4）処理の局所化. トワーク技術を各社とも開発していくものと予想する．. 【パワーウォール問題に対するアプローチ】 IT システムの電力性能比に対してこれまで最も大きく貢献してきた技術は，LSI デバイス技術である．現在も. 処理を行う部位を局所化し，データおよび制御の伝播範囲を最小限にとどめる．これにより，信号伝送距離の短縮による消費電力の削減や，複数部位間の調停という大域的な処理の削減が実現できる．（5）必要なハードウェア資源のみ活性化. シリコン LSI の微細化とともに，新材料（High-K ゲート. 搭載されたハードウェア資源のうち，その時点で必要. 絶縁膜など）や新 LSI 構造（FD-SOI，Fin-FET など）について，. な部位のみを活性化し，不要な部位は不活性状態にす. 多彩な研究が進められている．. る．これにより，処理に不要な部位における電力消費. しかし，これらの技術は，いずれも LSI の極度の微細. を抑える．. 化に伴って深刻化している問題（ばらつき拡大，リーク. ここで，図 -11 にサーバ本体の電力内訳の例を示すが，. 電流の増大など）を軽減・解消することを主目的として. 図の通りプロセッサ系は約 1/2 を占める．電源ロスのう. おり，2010 年頃に期待される次の電力の大変革を単独. ちプロセッサの電力に起因する部分があるので，図の例. で支えることは難しい．他方，カーボンナノチューブな. では全体としてプロセッサ系が約 6 割程度を占めるとい. 1230. 48 巻 11 号情報処理 2007 年 11 月.

(7) 解説. ペタスケール時代に向けたハイパフォーマンスコンピュータの動向. で 10 倍程度の電力あたり性能の改善が見込めるが，アプリケーションの特性より，高並列化が最適なケースと，. 相対性能／電力. 100. 次世代ターゲット. の組合せが最適なケースとに分かれてくる．将来のスパ. 高並列化 10. 1. 0.1. 高性能化）（アクセラレータ（アクセラレータ向け組込み向け組み込み組み込み向けプロセッサ長年蓄積された低消費電力技術. 0.1. コンでは，特に設備許容値の壁にぶつかり，現在以上にアプリケーション特性も考慮した電力あたり性能の改善技術が重要視されてくるものと考える．. サーバ向けプロセッサ長年蓄積された高性能化技術. 1 10 プロセッサ消費電力（Ｗ）. 演算特化型による高性能化が最適なケース，あるいはそ. 100. ●まとめペタスケールに向けた課題は，PC を並べただけでは解決しないため，根本的に問題解決を図るには，要素レ. ●図 -12 プロセッサの進化方向. ベルからの技術開発が必要である．現在，10 ペタフロップスを目指して，文部科学省の. える．もし，プロセッサの性能を変えずに電力を 0 にで. 「最先端・高性能汎用スーパーコンピュータの開発利用」. きたとして，全体の電力は 1/2 ∼ 1/3，電力あたり性能. プロジェクトの一環として，理化学研究所が中心となっ. は 2 ∼ 3 倍にしかならない．実際にはプロセッサの電力. て，次世代スーパーコンピュータの開発が進められてい. は 0 にはできないので，単にプロセッサの低電力化を図. る．本稿では，主にハードウェアから見た課題を解説し. っても電力あたり性能の飛躍的改善は難しいことを示し. たが，電力を抑えたペタスケール HPC コンピュータで. ている．すなわち，電力あたり性能を 10 倍程度改善す. はプロセッサコアが数十万になると予測され，これを使. るには，同じ電力の中でプロセッサの性能を 10 倍にす. いこなすためのアプリケーションプログラムとその開発. るなど，プロセッサ系の性能を上げる工夫が必須になる．. 環境（言語，デバッガなど）などソフトウェアの課題も多. 前記の 5 つのアプローチを組み合わせる中で，ハイパ. く解決していく必要がある．本プロジェクトを通じてハ. フォーマンス・コンピュータのプロセッサのアーキテク. ードウェアだけでなくソフトウェアの課題も解決されて. チャ面での電力性能比改善技術には，図 -12 に示す 2 つ. いくことが期待されている．. の潮流が見られる．1 つは前記のうち，特に（2）（3）を重視し，プロセッサあたりの性能は低いが電力あたり性能が高い組み込み系のプロセッサ技術を導入し，プロセッサの数を増やすことでプロセッサ系全体としての性能を上げ，電力あたり性能を向上させるアプローチである． IBM 社の Blue Gene が，組み込みプロセッサをベースとした専用 LSI を採用した例として挙げられる．もう 1 つは特に（1）（2）を重視し，演算器を中心とした簡易な論理を LSI に詰め込むことでチップを高性. 参考文献 1）Tamaki, Y., Sukegawa, N., Ito, M. et al. : Node Architecture and Performance Evaluation of the Hitachi Super Technical Server SR8000, Proceedings of 12th International Conference on Parallel and Distributed Computing Systems, pp.487-493（1999）． 2）Gibbs, W. W.：A Split at the Core, Scientific American November2004, pp. 96-101（2004）． 3）中村宏 , 大河原英喜 , 近藤正章 , 朴泰祐：ハイパフォーマンスコンピューティング向けアーキテクチャ SCIMA, 情報処理学会論文誌ハイパフォーマンスコンピューティングシステム , Vol.41, No.SIG5(HPS1), pp.15-27 (2000)．（平成 19 年 10 月 5 日受付）. 能化しつつ電力増加を抑えることで，全体で電力あたり性能を改善するアプローチである．同じく IBM 社の Roadrunner が，拡張した Cell Broadband Engine（1LSI 内に少数の従来型プロセッサと多数の演算特化型簡易プロセッサを実装）を採用した例がある．どちらのアプローチであっても，今後突き詰めること. 中川八穂子 [email protected] 日立製作所エンタープライズサーバ事業部．1981 年東京大学理学部情報科学科卒業．同年（株）日立製作所入社．以来，一貫してスーパーコンピュータの開発に従事．. IPSJ Magazine Vol.48 No.11 Nov. 2007. 1231.

(8)