さあ，マルチコアプロセッサの時代です！

全文

(1)解説. さあ，マルチコアプロセッサの時代です！吉瀬謙二東京工業大学. （マルチコアそしてメニーコアへ. つけ出す．このような方式を採用する従来のプロセッサの性能に. ● 高性能化を目指して. ついては，Pollack の法則と呼ばれる経験則が知られて. 1971 年に発表された 4004 プロセッサの誕生から，. いる．これによると，プロセッサの性能はトランジスタ. 半導体製造技術とアーキテクチャの進歩により，マイク. 数の平方根に比例する．すなわち，2 倍のハードウェア. ロプロセッサは劇的な性能向上を達成してきた．. を投入することで，1.4 倍の性能向上しか得られない．. チップに集積されるトランジスタ数は Moore の法則. また，巨大なシングルコアプロセッサでは，2 倍のトラ. として知られるように 18 から 24 カ月で 2 倍というペー. ンジスタを搭載することで発熱が 2 倍になる．このため，. スで増加を続けている．例を挙げると，4004 プロセッ. シングルコアのアプローチが難しくなっている．. サの 2,300 トランジスタに対して，2006 年に登場した. このような状況の中，高性能化を達成するための切り. Itanium 2 プロセッサ（Montecito）では 17.2 億とい. 札の 1 つがマルチコアプロセッサである．. う想像が困難な規模のトランジスタ数に達している．. 混乱を避けるために，ここで，用語の定義をしておこ. 1980 年代に単純な命令を持つ新しいアーキテクチャ. う．物理的に切り離された 1 つの半導体部品のことを. として縮小命令セットコンピュータ（RISC, Reduced. チップと呼ぶ（図 -1）．プログラムに記述された命令に. Instruction Set Computer）が提案され，その技術が成功を収めてから，2000 年代前半までの性能向上は，. 従って演算を行ったり，条件を判断しつつ命令の流れを. 命令レベル並列性の向上およびメモリアクセスの効率化. ンピュータの中枢部がプロセッサである. によって達成されている．. サとしての機能を提供するチップは，プロセッサチッ. Intel や AMD が採用する CISC（Complex Instruc-. プと呼ばれる．1990 年代に入り，それまでのプロセッ. tion Set Computer）についても，複雑な形式の命令をプロセッサ内部で RISC の形式に変換しており，本質的な部分では RISC の恩恵を受けている．. サの機能を持つユニットを 2 つ搭載するチップが製品. 洗練された複数命令の同時実行や投機実行を行うスー. それまでのチップとして提供されるプロセッサと，チッ. パースカラや VLIW（Very Long Instruction Word）. プに含まれるいくつかのプロセッサとを区別するため. と呼ばれる方式のプロセッサがこの時代の主役である．. に，後者はコアと呼ばれることになる．チップに，この. これらは，洗練されたコンパイラ技術およびハードウェ. ようなコアを 2 個以上搭載するチップがマルチコアチッ. アの仕組みを用いて，同時に実行できる複数の命令を見. プである．これらは，単にマルチコアと呼ばれることも. コア. チップ. シングルコアプロセッサ. 変更したり，入出力に信号を送るといった処理を行うコ 1）. ．プロセッ. 化された．製品化された初期のマルチコアプロセッサの. 1 つが，1999 年に発表された IBM の POWER4 である．. コアコア. マルチコアプロセッサマルチプロセッサ. 図 -1 マルチコアプロセッサとは情報処理 Vol.49 No.12 Dec. 2008. 1403.

(2) 解説. さあ，マルチコアプロセッサの時代です！グラムであれば，それらのスレッドをうまくマルチコプログラム. プログラム. …. きる．残念ながら，マルチコアでは，並列性を意識していない既存のソフトウェア資産を活用することは難しい．こ. スレッドシングルスレッドプログラム. アプロセッサに割り当てて性能を向上させることがで. マルチスレッドプログラム. 図 -2 プログラムとスレッドの関係. の点は，マルチコア普及における足かせとなっている．コンピュータの性能向上について述べている. Amdahl の法則. 3）. によると，実行の一定の部分を並列. 化することで得られる性能の利得分は，その並列化をどれだけの時間で使えるかという割合によって制限されある．先のプロセッサの定義は学術的なものである．製. る．たとえば，4 個のコアを用いてプログラムの 80%. 品として出荷される場合には，パッケージ化されたチッ. を 4 倍に高速化できたとしても，全体としてのスピー. プをプロセッサと捉えることがある．たとえば，マルチ. ドアップは 1/(0.2 + 0.8/4) = 2.5 にとどまる．. コアチップはマルチコアプロセッサと呼ばれることがあ. 実際には，さまざまなオーバヘッドがあるために，. る．10 個，場合によっては数十個を超えるコアを搭載. 4 個のコアを用いても並列化の対象となる範囲を 4 倍に. するマルチコアはメニーコアと呼ばれることがある．な. 高速化することは難しい．このため，全体のスピードアッ. お，いくつかのプロセッサチップを搭載するコンピュー. プはさらに低下する．. タはマルチプロセッサと呼ばれて区別されるので注意が. このように，マルチスレッドプログラムを作成するだ. 必要である．. けでなく，プログラムの多くの部分で効率的な並列化が. 現在では，サーバコンピュータ，デスクトップコン. 達成できなければ，全体としての高いスピードアップを. ピュータおよびノートブックコンピュータの領域におい. 得ることができない．. て，マルチコアが主流になっている．. それでは，誰が，並列性を意識しながらマルチスレッ. また，Moore の法則は依然として有効であり，搭載. ドプログラム（並列化プログラム）を作成するのだろう. されるコアの数は増加する傾向にある．Intel のプラッ. か？. トフォーム予測. 2）. によれば，搭載されるコアの数は着. これを自動で行う自動並列化と呼ばれる技術の研究・. 実に増加し，100 個を超えるコアを搭載するプロセッサ. 開発が進められている．これらは，限られたアプリケー. チップが 2012 年頃に登場するとされている．. ションプログラムにおいて成功しているが，広く普及す. 4）. るまでには，もう少し時間を要するようである． ● Amdahl の法則とスレッドレベル並列性. しばらくの間は，プログラマ（人間）がコーディング. 命令レベル並列性を指向するプロセッサの性能向上に. する，あるいはコーディングを支援する必要がある．今. ついて明るい要因が見つからない中，高速化の手段とし. こそが，マルチコアプロセッサのプログラミングを始め. て注目されているのがスレッドレベルの並列性である．. る好機である．. C 言語などで記述される一般的なプログラムは，シングルスレッドである．一方，複数のスレッドを用いるものはマルチスレッドプログラム（図 -2）と呼ばれる．アーキテクチャ的な視点では，それぞれのスレッドはプログ. （マルチコアプロセッサの実例 ● Cell Broadband Engine. ラムカウンタおよびいくつかのレジスタによって構成さ. Cell Broadband Engine は，SONY，東芝，IBM の. れるアーキテクチャステートを持つが，メモリ空間は個. 3 社が共同開発した高性能プロセッサである．高いピー. 別に持たずに多くのスレッドで共有される．. ク性能，独特のアーキテクチャ，将来性などから高い注. スレッドのサイズについてこれといった決まりはな. 目を集めている．PLAYSTATION3 に搭載されており，. い．シングルスレッドプログラムのように 1 つのスレッ. オペレーティングシステムとして Linux を導入するこ. ドがプログラムと同じ規模としてもよいし，C 言語の関. とで，マルチコアのプログラミング環境を安価に構築で. 数やループの処理を 1 つのスレッドとして記述しても. きることも魅力の 1 つである．. よい．. PPE と呼ばれる PowerPC アーキテクチャの汎用の. マルチスレッドプログラムとして記述され，十分なス. コアを 1 個と，SPE（Synergistic Processor Element）. レッドレベルの並列性が利用できる（たくさんのスレッ. と呼ばれる独特の 8 個のコアを Element Interconnect. ドが並列に動作できる）ように注意深く作成されたプロ. Bus（EIB）と呼ばれるリング型のバスで接続する. 1404. 情報処理 Vol.49 No.12 Dec. 2008.

(3) ングが必要となるため，多少，敷居は高いが，最適化によりプログラムが高速化していく過程は SPE. SPE. SPE. PPE (PowerPC Processor Element). SPE (Synergistic Processor Element) LS (Local Store). 爽快である．余談ではあるが，Cell Broadband. Engine のプログラミング知識の蓄積などを目的として，プログラミングコンテスト. 5）. を開催し. ている．過去のコンテストのソースコードやド. EIB (Element Interconnect Bus). キュメントを公開しているので，こちらもぜひと BIC (Bus Interface Controller). SPE. SPE. SPE. SPE. MIC (Memory Interface Controller). も参照していただきたい．また，2009 年度も同コンテストの開催を予定しているので，参加を検討していただけると幸いである． ● Intel Core 2 / AMD Phenom X4. 図 -3 Cell Broadband Engine の構成. Cell Broadband Engine とは異なり，Intel と AMD はホモジニアスマルチコアの構成を採用 Core 1. Core 2. Core 3. Core 4. L1 cache. L1 cache. L1 cache. L1 cache. する． Intel Core 2 Extreme プロセッサの構成を図 -4 に示す．45nm プロセス技術を用いた 4 コア構成のプロセッサで，それぞれのコアは占有す. L2 cache. L2 cache. FSB (Front Side Bus) 図 -4 Intel Core 2 Extreme QX9650 の構成. る L1 キャッシュを持つ．一方で，L2 キャッシュは 2 個のコアによる共有キャッシュという構成である．L1 キャッシュへのアクセスレイテンシは 3 サイクル，L2 キャッシュへのアクセスレイテンシは 15 サイクル程度である．ただし，これらのレイテンシは，アクセスパターンなどにより変化する．. （図 -3）．ただし，製造歩留まりの問題などから，8 個. Intel Advanced Smart Cache の採用により，L2. の SPE がすべて利用できるわけではないので注意が必. キャッシュを用いた共有データの授受が可能である．し. 要である．. かしながら，図 -4 にあるように，L2 キャッシュによ. このように，異なる種類のコアを用いる構成はヘテロ. る Core 1 と Core 3 との間のデータ共有は不可能で，. ジニアスマルチコアと呼ばれる．そうではなく，同一の. この場合にはバス（FSB）を利用する．このように，. 種類のコアを用いる構成はホモジニアスマルチコアと呼. Intel Core 2 Extreme では均一な構成とはなっていな. ばれる．. いので，コアにスレッドを割り当てる際には注意が必要. PPE は，入出力といったオペレーティングシステム. となる．. との協調を必要とする複雑な処理や SPE のためのタス. 当たり前のように聞こえるかもしれないが，図 -4 の. ク管理を担当する． SPE は，SIMD（Single Instruction / Multiple Data）. Intel Core 2 Extreme プロセッサでは 4 個のコアのプロセッサでたかだか 4 つのスレッドしか同時に実行で. 構成を採用しており，マルチメディア系の演算処理に強. きない．. い．Local Store（LS）と呼ばれる 256KB のメモリを. 一方，シングルコアプロセッサであっても，1 つの. 持ち，ロード命令とストア命令を用いてアクセスする．. コアにおいて複数のスレッドの同時実行を可能とする. SPE はキャッシュを持たない．このため，必要とするデータはあらかじめ LS に転送しておく必要がある．メインメモリや他の SPE とのデータの送受信には， DMA（Direct Memory Access）転送を利用する． DMA 転送では，送信すべきデータのアドレス，サイズ，. ハードウェアの仕組みとして同時マルチスレッディン. 受信するコアのアドレスなどを明示的に指定して，デー. 別のスレッドが利用できるように工夫することで，ス. タを送受信する．. ループットの向上を狙う．たとえば，シングルコアの. プログラマにとっては通信を意識した並列プログラミ. Pentium 4 で採用された Hyper-Threading（HT）は，. グ（SMT, simultaneous multithreading）と呼ばれる技術が活用されてきた．コアが持つ実行ユニットなどのハードウェアが常に高い利用率であることは希である．そこで，SMT では，利用されていないハードウェアを. 情報処理 Vol.49 No.12 Dec. 2008. 1405.

(4) 解説. さあ，マルチコアプロセッサの時代です！て，マルチコアのプログラミングも身近なものになりつ. Core 1. Core 2. Core 3. Core 4. L1/L2 cache. L1/L2 cache. L1/L2 cache. L1/L2 cache. つある．今後，搭載されるコアの数は着実に増加すると予測されており，そのようなマルチコアおよびメニーコアへの流れは急激な勢いでこれまでのプログラミング環境を変化させる可能性がある．繰り返しになるが，今こそが，マルチコアのプログラミングを始める好機で. L3 cache. ある．プロセッサアーキテクチャ研究の立場では，メニーコ. Crossbar switch. アの試作や研究開発が進められている．我々の研究グ Memory Controller. 図 -5 AMD Phenom X4 9000 の構成. ループにおいても，ディペンダビリティの向上および高性能化を目指す技術として SmartCore システム. 6）. を提. 唱している．また，次世代のメニーコアアーキテクチャの確立を目指して Feature-Packing. 7）. と呼ばれるアー. キテクチャの開発を行っている．次世代のプロセッサこの SMT の 1 つの実装である．. アーキテクチャ，メニーコアのアーキテクチャについて. 2008 年秋に出荷予定の Intel Nehalem は HT を採用. は研究課題が山積している．これらの課題に取り組む研. するマルチコアである．4 個のコアのチップであっても. 究者・開発者が必要とされている．. 最大で 8 スレッドを同時に実行できる．このため，チップに搭載するコアの数よりも多くのスレッドを前提とするコーディングが必要となる． AMD Phenom X4 9000 プロセッサの構成を図 -5 に示す．Intel Core 2 Extreme と比較すると，コア内部の構成は大きく異なっているが，マルチコアとして見たときの相違はそれほど大きくない．それぞれのコアは占有できる L1 キャッシュと L2 キャッシュを持つ．L3 キャッシュはすべてのコアによって共有され，効率的なデータ共有を支援する．また，すべてのユニットはクロスバースイッチを介して接続されているため，通信によるボトルネックが生じにくい．このように，AMD. Phenom X4 はプログラマにとっては扱いやすい構成になっている．. （おわりに. プロセッサは劇的な性能向上を達成してきたが，依然として，プロセッサの高速化に対する強い要求がある．この要求を満たす切り札の 1 つがマルチコアそしてメニーコアである． 2 から 4 個程度のコアを搭載するマルチコアが普及し. 1406. 情報処理 Vol.49 No.12 Dec. 2008. 参考文献 1）コンピュータの構成と設計ハードウェアとソフトウェアのインタフェース第 3 版，日経 BP 社． 2）Platform 2015 : Intel Processor and Platform Evolution for the. Next Decade. 3）コンピュータアーキテクチャ定量的アプローチ第 4 版，翔泳社 (2008)． 4）宮本孝道，浅香沙織，見神広紀，間瀬正啓，木村啓二，笠原博徳：情. 報家電用マルチコア上におけるマルチメディア処理のコンパイラによる並列化，先進的計算基盤システムシンポジウム SACSIS2008 予稿集 (2008)． 5）津邑公暁，吉見真聡，中田尚，片桐孝洋，吉瀬謙二：「Cell スピードチャレンジ 2008」実施報告，情報処理学会研究報告 2008-ARC-179 (2008)． 6）吉瀬謙二，植原昂，佐藤真平：メニーコアプロセッサのディペンダビリティ向上と高性能を目指す SmartCore システム，情報処理学会研究報告 2008-ARC-180 (2008)． 7）小林良太郎，吉瀬謙二：多機能メニーコアを実現するアーキテクチャ技術 Feature-Packing の構想，情報処理学会研究報告 2007-ARC175 (2007)．（平成 20 年 10 月 30 日受付）. 吉瀬謙二（正会員）. [email protected] 2000 年東京大学大学院情報工学専攻博士課程修了．博士（工学）．同年電気通信大学大学院情報システム学研究科助手．2006 年東京工業大学大学院情報理工学研究科講師．計算機アーキテクチャ，並列処理に関する研究に従事．MieruPC プロジェクトリーダー．.

(5)