• 検索結果がありません。

九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センタ

N/A
N/A
Protected

Academic year: 2021

シェア "九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センタ"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

マッスル・サーバー(汎用PCクラスタ+特定計算向

けハードウェア)の開発 : 分子軌道法を例にして

村上, 和彰 九州大学大学院システム情報科学研究院 | 九州大学情報基盤センター http://hdl.handle.net/2324/9106 出版情報:SLRC プレゼンテーション, 2004-06-10 バージョン:accepted 権利関係:

(2)

マッスル・サーバー

(汎用

PCクラスタ

+特定計算向けハードウェア)

の開発

~分子軌道法を例にして~

村上和彰

九州大学 情報基盤センター

murakami@cc.kyushu-u.ac.jp

(3)

マッスル・サーバー

muscle server)とは?

• 【関連語】ブレード・サー

バー(

blade server)

– 高集積型PCサーバー

• 【定義】汎用PCクラスタ

+特定計算向けハード

ウェア

+

(4)

マッスル・サーバー開発例

• EHPC/Eric (Embedded HPC with Eric)

– 文部科学省・科学技術振興調整費・総合研究「科学

技術計算専用ロジック組込み型シミュレータに関する

研究」(平成

12年度~16年度)

• 研究代表者:村上和彰(九州大学)

• 参加研究機関:九州大学,東京大学,産総研,富士総研,

セイコーエプソン,アプリオリ・マイクロシステムズ

– 構成

• Compact PCI規格シャーシー

– Compact PCI規格PC互換ボード

– Compact PCI規格SH-4マルチプロセッサ・ボード

– Compact PCI規格二電子積分計算加速ボード(SH-4+Eric搭載)

• Eric(二電子積分計算専用プロセッサ)

(5)

Compact PCI規格SH-4 マルチプロセッサ・ボード (SH-4×4) Compact PCIシャーシー×4 Compact PCI規格 PC互換ボード (P-II×1) Compact PCI規格 二電子積分計算加速ボード (SH-4×1 + Eric×4) 1枚/Compact PCIシャーシー 最大7枚/Compact PCIシャーシー (最大7枚/Compact PCIシャーシー)

分子軌道法専用マッスル・サーバー

EHPC/Eric

(6)

EHPC/Ericアーキテクチャ

PCIバス 専用LSIEric) メモリ 専用LSIEric) メモリ メモリ スイッチ 汎用CPU(SH-4) CompactPCI規格二電子積分計算専用ボード CompactPCI 規格ボード CompactPCI 規格ボード

CompactPCI 規格 PC互換ボード CompactPCI 規格 PC互換ボード Gigabit Ethernet プラットフォーム (業界標準の汎用部品で安価に構成) 二電子積分計算 高速化のための 専用化部分 専用LSIEric)

(7)

• Compact PCI規格に

準拠したプリント基板

• Eric(二電子積分計

算専用プロセッサ

LSI)×4

• SDRAM

– 各Eric当り1GB

• 汎用MPU(SH4)×1

• PCIバスI/F,

Ethrenet,等

Compact PCI規格

二電子積分計算加速ボード

(8)

マッスル・サーバー

vs.

他の

HPCアーキテクチャ

• 特定計算 向けハード ウェア • 並列処理 • 高クロック 周波数 • 並列処理 • スレッド並列処 理 • 並列処理 • 高速通信 • 並列処理 • 高速通信 • ベクトル処 理 • 並列処理 • 高速通信 高速化技術 汎用(Compact PCI, Ethernet, etc.) 汎用(Ethernet, etc.) • ローカル:専用 • グローバル:専 用または汎用 専用 専用 ネットワーク 汎用 汎用 専用 専用 専用 メモリ システム 汎用/組込 みマイクロプ ロセッサ+特 定計算向け ハードウェア 汎用高性能 マイクロプロ セッサ 汎用高性能マイ クロプロセッサ 汎用高性能 マイクロプロ セッサ 専用ベクトル プロセッサ プロセッサ マッスル・ サーバー PCクラスタ (ブレード・ サーバー) SMPクラスタ MPP ベクトル プロセッサ

(9)

マッスル・サーバー向きの応用は?

• 汎用PC

– 各種雑多な処理

• 特定計算向けハードウェア

– “Compute Intensive”な処理

を担当

+

(10)

マッスル・サーバーの性能

~アムダールの法則~

• p:並列化可能な処理の割合(0≤p≤1)

• o:特殊演算向けハードウェアにオフロード可能な処理の

割合(

0≤o≤1)

• N:マシン並列度

• H:特定計算向けハードウェアによる性能向上率

• S:マッスル・サーバーの単体PCに対する性能向上率

+

+

=

H

o

o

N

p

p

S

)

1

(

)

1

(

1

(11)

マッスル・サーバーの分子軌道法

への応用

分子軌道法

• 電子が分子(を構成する原子核)の周りでどのような分布状況に

あって,どのようなエネルギーを持っているかを計算により求める

– 創薬

– 材料開発

– etc.

(12)

HIV-1 protease

現在

PCクラスタ(Xeon (2.8GHz)×80,主記憶

512GB/processor)で約2時間(基底関数

STO-3G)

将来

1分以下で計算できるようにしたい!

分子軌道法高速化の必要性

• 創薬,材料開発のためには大規模分子の電子状

態計算を数分のオーダーで実行する必要がある

(13)

非経験的分子軌道計算の計算時間

• 膨大な計算時間

– 低分子量タンパク

10

4

日 ≒

27年

– RNA

10

6

日 ≒

2740年

• ユーザー

1週間~10日は待て

る!」

• 5000基底を10日で!

現実と理想の ギャップ

(14)

非経験的分子軌道法の計算手順

(1)初期データの入力

(2)一電子積分の計算

(3)二電子積分の計算、

フォック行列作成

(4) フォック行列の対角化

(6)全エネルギーの計算

(5)C行列の収束判定

収束している

収束していない

= =

=

N I a aI IJ N I aI IJ

C

S

C

F

1 1

ε

∑∑

+

+

=

K L KL IJ IJ IJ

JL

IK

KL

IJ

P

V

T

F

)

,

(

2

1

)

,

(

(15)

(1)初期データの入力 (2)一電子積分の計算 (3)二電子積分の計算、 フォック行列作成 (4) フォック行列の対角化 (6)全エネルギーの計算 (5)C行列の収束判定 収束している 収束していない 計 算 時 間 ( 秒 ) 75 58 37 20 10 原子数 427 316 207 110 55 基底関数の数 27.5 9.15 2.2 0.3 0.1 全エネルギーの計算 23614.5 8584.9 1892.7 272.9 23.7 Total 211.7 60.9 11.0 1.7 0.2 フォック行列の対角化 23284.3 (98.6%) 8482.1 (98.8%) 1871.0 (98.6%) 269.4 (98.7%) 22.9 (96.6%) 二電子積分の計算 フォック行列作成 10.1 5.0 1.5 0.3 0.1 一電子積分の計算 57.3 18.9 4.4 0.6 0.1 初期データの入力 GAQMY GAQM GAQ GA G 分子(ペプチド分子)

4-31G Basis, GAMESS, PentiumIII500MHz, 512MB

非経験的分子軌道計算

の計算時間

Î 全計算時間の98%は二電子積分計算と

フォック行列生成に費やされる!

(16)

二電子積分計算の特徴

for(I = 0; I < Nshell; I++) for( J = 0; J < I; J++) for (K = 0; K < I; K ++) for( L = 0; L < I; L++) for(i = 0; i < Ni; i++) for(j = 0; j < Nj; j++) for (k = 0; k < Nk; k++) for(l = 0; l < Nl; l++) <sisjsksl> の計算 forend forend forend forend <aIaJaKaL>の計算(漸化計算部分) forend forend forend forend (初 期 積 分 計 算 部 分 )

• 小原法を基に「新小原

法」を開発

• 初期積分計算部分

– 4重ループ構造

– 並列性が低い

– 複雑な倍精度浮動小数点

演算を含む

• 除算

• 開平逆数演算

• 指数関数演算

• 漸化計算部分

– 並列性が高い

– 多数の積和演算からなる

(17)

Eric:二電子積分計算専用LSI

-設計方針-

• 積和演算

漸化計算

• 浮動小数点加減乗除算

• 開平逆数演算

• 指数関数演算

• 誤差関数計算

初期積分

計算

並列度

内在する演算

専用演算器を

用いて高速化

多数の積和演算器を搭載し

並列性を活用して高速化

専用LSIを2種類のエンジンに分割:

• 初期積分計算(IIC)エンジン

• 漸化計算(RC)エンジン

(18)

Eric:二電子積分計算専用LSI

IALU FMUL&ADD &SQRTFDIV &ERFEXP Register File

IIC Program Memory (64KB)

Data Memory (32KB/bank×8banks) ERF Table (128KB) IALU FMUL &ADD Register File RC Microprogram Memory (64KB)

IIC Engine RC Engine 0

IALU FMUL&ADD Register File RC Engine 1 IALU FMUL &ADD Register File RC Engine 2 IALU FMUL &ADD Register File RC Engine 3 64b 64b 64b 64b 64b 64b SDRAM I/F 64b 64b SH-4 I/F 64b 64b 64b 64b 32b 16b 64b 64b 64b 64b 64b

IICエンジン

(汎用RISCプロセッサ +専用演算回路)

RCエンジン

(複数のマイクロエンジンから なるCMPアーキテクチャ)

(19)

二電子積分計算専用

LSI Eric

vs. Intel P4

1演算/クロックサイクル 10演算/クロックサイクル 倍精度浮動小数点演 算性能(ピーク値) • 加算/乗算/除算/開平×1 • 積和演算×(1+4) • 除算/開平逆数×1 • 指数関数/誤差関数×1 実装する倍精度浮動 小数点演算器,および, 同時実行可能な演算 器数 3.2GHz(2003年10月時点最速 モデル) 200MHz(最低達成目標) クロック周波数 • シングルプロセッサ • スーパースカラ・プロセッサ • 非均質CMP(チップ・マルチプ ロセッサ) – 初期積分計算エンジン×1 – 漸化計算エンジン×4 マイクロアーキテク チャ Intel P4 二電子積分計算専用LSI Eric

(20)

0 500 1000 1500 2000 2500 3000 3500

Pentium Ⅲ Eric(200MHz) Eric(250MHz) Eric(300MHz)

総実行時間( s) Pentiumに比べ 640秒(約11分)速い Pentiumに比べ 1100秒(約19分)速い

ペプチド分子

GAQMY分子での漸化

計算にかかる総実行時間

(21)

EricのLSI仕様

• 動作クロック周波数:200MHz

• 消費電力:10W

• ピーク性能:2GFlop/s(倍精度)

• 製造プロセス技術:TSMC

0.13µmシャトルサービス

• 論理規模:3.6Mゲート

• メモリ・サイズ:704KB

• 面積:5mm×10mm

10mm 5mm メモリ (704KB) ロジック (3.6Mゲート)

(22)

• Compact PCI規格に

準拠したプリント基板

• Eric(二電子積分計

算専用プロセッサ

LSI)×4

• SDRAM

– 各Eric当り1GB

• 汎用MPU(SH4)×1

• PCIバスI/F,

Ethrenet,等

Compact PCI規格

二電子積分計算加速ボード

(23)

• 1ノード

– 二電子積分計算加速

ボード×7枚

=Eric×28個

– PCボード

– ハードディスク,等

• システム全体

– 任意数のノードを

Ethernet接続

– 4ノード構成の場合

• Eric112個による並

列計算

分子軌道法専用マッスル・サーバー

EHPC/Eric

(24)

4

4

(

(

見積もり値

見積もり値

) 2

) 2

MO

MO

計算時間

計算時間

(

(

)

)

15

(見積もり値) 0.1

価格(

M$)

212

(見積もり値) 2

消費電力(

KW)

4720×3274×1785

1200×650×1010

体積(

W×D×H:mm)

512

224

ピーク性能(

GFlop/s)

512

112

プロセッサ数

SR8000/64

EHPC/Eric

分子軌道法専用マッスル・サーバー

EHPC/Ericの性能

(25)

新しいマッスル・サーバー・

アーキテクチャの可能性

~動的再構成可能プロセッサの

HPC応用~

外部メモリ PCI インタフェース 高速バス・スイッチ・ユニット 汎用プロセッサ 動的再構成可能 データパス ダイレクト I/O SDRAM インタフェース GPIO、UART、 Interrupt Controller 、他 PCIバス 周辺機器 高速 I/O機器 PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE PE 2次元演算器配列

(26)

Stretch

• 300 MHz, 32-bit Xtensa-based processor • 16- and 24-bit instructions

• FPU

• MMU with TLB

• Stretch Instruction Set Extension Fabric

– Aligned load and store

• 8, 16, 32, 64, and 128 bit

– Unaligned load and store

• Up to 16 bytes variable byte streaming I/O • Up to 32 bits variable bit streaming I/O

• User-defined extensions to the core ISA

– Defined in C/C++

– Fully pipelined and interlocked

• Low power consumption

(27)

CRAY XD1

296 GB Maximum Disk Storage

1152 GB 96 GB Maximum Memory 922 GB/s 77 GB/s Aggregate Memory Bandwidth 1.8 us 1.6 us Interprocessor Latency 1152 GB/s 96 GB/s Aggregate Switching Capacity 633 GFlop/s 53 GFlop/s Performance 144 12 Compute Processors Each Rack Chassis

(28)

マッスル・サーバー

(汎用

PCクラスタ

+特定計算向けハードウェア)

の開発

~分子軌道法を例にして~

村上和彰

九州大学 情報基盤センター

murakami@cc.kyushu-u.ac.jp

参照

関連したドキュメント

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

金沢大学大学院 自然科学研 究科 Graduate School of Natural Science and Technology, Kanazawa University, Kakuma, Kanazawa 920-1192, Japan 金沢大学理学部地球学科 Department

全国の 研究者情報 各大学の.

東京大学 大学院情報理工学系研究科 数理情報学専攻. hirai@mist.i.u-tokyo.ac.jp

情報理工学研究科 情報・通信工学専攻. 2012/7/12

理工学部・情報理工学部・生命科学部・薬学部 AO 英語基準入学試験【4 月入学】 国際関係学部・グローバル教養学部・情報理工学部 AO

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

3月6日, 認知科学研究グループが主催す るシンポジウム「今こそ基礎心理学:視覚 を中心とした情報処理研究の最前線」を 開催しました。同志社大学の竹島康博助 教,