MMXテクノロジによるCAシュミレータの高速化: University of the Ryukyus Repository

(1)

Title

MMXテクノロジによるCAシュミレータの高速化

Author(s)

赤嶺, 有平; 遠藤, 聡志; 山田, 孝治

Citation

琉球大学工学部紀要(60): 119-125

Issue Date

2000-09

URL

http://hdl.handle.net/20.500.12000/13817

Rights

(2)

琉球大学工学部紀要第60号.2000Ll･'･

MMX

テクノロジによる

CA

シミュレータの高速化

赤嶺有平一

,

遠藤聡志州,

山田孝治 *

'

Acceleration ofCellularAutom ata SimulatorUsing

MMX

Technology YulleiAIくAMINE■, SatoshiENDO ' and KojiYAMADAH

Abstract

CellularAutomata(CA)areinherentlysuitedforparallelI)rOCeSSing,andhavebccncharacterizedas easytopal･alleliBe･ThererorctheirsimulationllaSpl･OSPCCLsorspCCdingupusingSIMD (SingleInstruc -t.ionstream.Mult･ipleDatastream).Furthermorealow-costCPU hasbeenhadSIMD suchasMMX technology.MMX technology)sakindoTSIMD whatpermitsoneinstructio】一CyCIctoactonmultiple datapleCeSandisSIMDwhatmaybeoneorthemostfamoustechI10logleS.Inthispaper,weproposea mctl10dofhigh-speedCAsimulationusingMMXtechllOlogywit110utdedicatedpurposehardware.The resultsofsimulationsrCPreSenH hatourmethodisbetterwith7timesthanscalararithmetic.

KeyW ords: MMX,SIMD,CA

1. はじめに

1950年代に,S.Ulam と

J.

VOIINeumanllによって提案されたセルラオートマトン法 (CellutarAutomata,以下 CA と記す)は,簡単なセル間の局所的相互作用から,複雑な現象を再現できる手法である.その後の研究により. 生態 (種の増軌種の住み分け,捕食関係など),反応･拡散現象 (生物の紋様形成,化学反応など),フラクタル自然現象 (結晶成長.凝塊など),災害 (森林火災,地震など),交通 (高速道路の車の流れ) といった,様々な分野に適応できることが分っている [加藤

9

8 】

.

CAは本質的に高度なデータ並列性を持ち.並列処軌二向いているため.CA専用計算機の開発【Margolus931や, 収用記述言語からCA シミュレータを自動生成するソフトウエアの開発【Beck】,また.ネットワークで相互接続された複数の計算機で,CA を高速にシミュレートするソフトウエアの開発が行われている t平林

9

8 ト

これらのシステムは.それぞれ実装レベルの違いはあるが,SlMDlの概念を用いて高速化を行っている.SIMDは,一つの命令の流れが複数のデ-タの流れを処理する並列アーキテクチャの一種である[Patterson96ト CA は全てのセルの更新処理を同時に行う必要があるため,SIMD を用いることで効率的に処理できる. 従来,SIMDをハードウエアで扱うためには.スーパー受理 :2000年6月 5円一大学院理工学研究科梢糾_工学.T*攻 (M.-LStCL･Coust'i‖ColtlPLcxtnLclligentSysccms臥Igin･jCring.G･･払(L -LJatCSchoolorScicnccandEngineering) " 工学部情報工学科 (Dcpl.orlnrorl11at･ionri11ghlCC山1g,FactofEl一g･) )sillglcTnstrucLi川一StrtW一一Mu)tiplcDatastI･canl 119 コンピュータや専用プロセッサが必要であったため,コストが高くなる傾向にあった.ところが,近年の半導体技術の向上により,パーソナルコンピュータ用の廉価なCPU にもSIMD型並列演算命令の実装が一般的になってきた. したがって,これらの技術を用いることで,ローコストで高速なCA シミュレータの開発が可能である. MMX テクノロジは,MMX テクノロジ Pentium プロセッサ,Celcronプロセッサ,Pcnt.iumIIプロセッサ,Pe n-tiumlllプロセッサに搭載されたSIMD型演算命令セットである【インテル99a]llnLOO】.これらのプロセッサは一般的なパーソナルコンピュータに採用されているため,普及率が非常に高くかつローコストである.また,プロセッサを特定することにより,そのプロセッサに特有の放退化も可能である.MMXテクノロジによる並列化と,このような揖適化技術を組み合わせて.ハードウエアのもつポテンシャルを最大限に引き出すことができる. 本研究の巨川勺は,汎用プロセッサ用のSIMD技術であるMMXテクノロジを用いて.高速かつ低コストなCAシミュレータの開発を行うことである.本論文においては, 例題としてライフゲームのシミュレータをMMX テクノロジを用いて作成する際の高速化手法を述べる.

2. MMX

テクノロジと

SI

MD

2.

1

概要 MMXテクノロジは,マルチメディアの処理を高速化するためにr朋邑された技術である.マルチメディアの処理_では.大fLi･のデータに対する単純な操作の繰り返しがその処卵割Juの大半を占めることが多いため.複数のデータをまとめて処理できれば効率的である.MMX テクノロジは, sIMDの概念を用いることで演算を並列化し,処理の尚速化を問っている【小

骨 97

1 .

(3)

1

20 バックド･データ亦嶺･遠藤･山田 :岨ⅨテクノロジによるCAシミュレータの高速化 rT T 358まeedJ.I L

1

- 1- + + + + + +

1 1

⊥ ⊥ 1 1 1

1

Fig.L MMXのバック TL.･7- タ流乾の例各要素16ビ.Jト(W) /人ヽ 4要素(I) Fig.2.4×16バック fZ.データ SIMDとは,1つの命令の流れが複数のデータの流れを並行して処理する機構である[Patterson961.MMXテクノロジは

,6

4

ピットの演算器を命令単位で分割して

,8

組の8ビット演算器,4組の16ビット演算器,2組の32ビット演算器,1組の

6

4

ビット演算器として動作させることが出来る [小

管 9

7 ]

.

そのため.たとえば

8

組の

8

ピット演算器として動作させた場合,逐次演算に対して

8

倍の性能向上の可能性がある.

2.

2

パックド･データ演算パックド･データ演算は,MMXテクノロジの中核となる機能であり,SIMD機構に基づく演算である.パックド･データ演算では,

6

4

ビットの演算器を分割して複数の演算器の集合として動作させる.演算を行う際は,複数の

8

ビツI,16ビット,あるいは32ビットのデータをパックド･データレジスタと呼ばれる

6

4

ピットのレジスタにパック化 (packing)する.パックド･データ演算は,このパック化されたデータに演算を施すことを意味する (1). 定義 1:パックド･データVが

,

Z個の W ビットデータの集合であるとき,パックド･データVの i番目の要素とは

,i

w

ビット日から

(

i

+

1 )

W

-1

ピット目までの部分的なビット列で表される値である. パックド･データ演掛ま,パックド･データ u,Vの各要素叫と V.Jに対して独立した演算を施す.本論文では

.

I 個の W ビットデータからなるパックド･データを

,

Lxw パックド･データと表現する.例えば,

4

つの16ビットのデータをパック化したデータは4×16パック.ド･データである (2).

2.

3

比較演算比較演算は,パックトデータ演算において条件判断を並列に行う命令である. 定義 2:Zxwパックド･データ a,bに対して条件を " 等しい''とする比較演算を適用したとき,結果Cは以下のように定義される (3).

1

1 1 1 1

Fig.3.比較杭解の例 / l ＼ ′

1

いBt岬汀日はptcew ,日は叩けII.叫 W

j

Pis.4.分散メモり型SIMD マシン C 2･-

(

喜

W

(a

z

･

-b

l･の時)

(

a

z

･

≠ biの時) (1) ただし

,i

=

(

0 ,

1

,- ,

I

-

1 )

条件としては,"等しい (=)'',"より大きい (>)''の

2

つを指定できる. 本論文では,式 1を

C

-comp(

a=

b

)

と表記する. カッコ内の等号は条件を表す.

2

.4 データ分割法 2.2節において,パックド･データ演算では各データをパックド･データレジスタにパック化する必要があることを述べた.データ分割法【天野

89 ]

は,分散メモリ塑並列計算機の概念だが,MMXテクノロジのパック化に対しても有効である. パックド･データ演算は,単一の演算命令がパックド･データの各要素に作用する.そのため,8x8パックド･データ演算を行う時,MMXテクノロジの演算器は,8個の8 ビットプロセッサエレメント (以下PEと記す)からなる分散メモリ型SIMDマシン[Patterson96】とみなせる (4).各pEは,8ビットのレジスタと演算器を持ち,並列に動作する. MMXテクノロジにおいて,パックド･データレジスタとメモリ間の8バイト境界をまたぐアクセスは,大きなペナルティ (プロセッサ･ストール)を伴う【インテル

9

9 C

1

ため, メモリアクセスの際は位置合わせ (alignment)を行う (5).8個の8ビットPEからなるSIMDマシンの観点からは,メモリ空間を8つに分割し,それぞれのメモリ空間を各pEのローカルメモリとみなすことが出来る (6). メモリアドレスは,全てのPEに同時に指定され. アクセスも同時に起こる.パックド･データ演算は,PE のロ-カル演算であり,パックド･データレジスタ全体に対するシフト演算は,PE間の通信である. PEは, リモートメモリへのアクセスには,余分なコストがかかる.従って,演算に必要なデータをローカルメモリに配置することが処理を効率化する. 2.5 データ構造の最適化

(4)

琉球大学工学部紀要第60g･,2000年

ペ

ナ

ル

テ

ィ

が

A

生

了ル

仙

"

'

A

L

-

1 二 :

:

二

∴

ニ∴

I

l

I

t

イ

ト

J

A

■

一

バ

イ

ト

J

I

J

I

t

バ

イ

ト

4 J

t

Fig.5.データ .アラインメント Fig.6･ロー *)レメモリ分散メモリ型

SI

MD

マシンでは,出来るだけ

PE

問通信が少なくなるようにデータを分割して各

pE

に割り当てる【天野891.パックド･データ演算においては,データのメモリ上の配置を並び替えることにより処理を効率化する.例えば,n

x8

個の要素を持つ配列

al

i

】を

8×8

パックド･データ演算で隣接する要素間の演算を効率よく行うために配列

b【

i

]

に並び替える操作は,以下の棟に表現できる (7).

fo

r(

i

=0;

i

く

8;

i

+

+)t

fo

r(

j

=0;

jく

n;

j

++)t

b[

j*8

+i

]≡a[

i

*

n+j

];

ナ I 通常の配置 8 0 -n

-m g∼ S ∼ 恥 _■ 1 _▲

_A

0

Om OI0008 01伽10

0

10018 0Z0020 0Z帥28 0zM D Ol0038 Jtl

J

7

I

F

'

レ

ス

a○ ▲ I ー ∴j::ド fl

≡

幸

三. 'Lij●..

1 ○ I

川

lf I l7 jIHJ 7JT輔-1iJH Li叶 20 ZZ Z4 ZS2 〟

3 0 I 1

一I

II

J

7

転換後の

配怒

VLQV上tVuI/JJI

/

I

.

I

V

'

,

.I y 一応 Vl.7 ○ 一〇こlIf

2

0 -

/

オ-1○ 二ip . l 日:iJ.

2

1 こ

,

l

車

.:)IJ f I l一小一.21こ_.:# i 31-.i li

I I一 i,i一

f

I≡

ヰ

!. JJ 三や二

● 川-一事JI●i,.iiT=IN 亨ヰ i. ; >.. a... ; >R 的竹

Fig.7.隣接する'&'･捌IJの油井を効率よく11･う配列 (V.は′i･yクド･データ)

121 この配置法は,配列の隣接する要素が同じローカルメモリに存在するため,プロセッサ間の通信,つまり,パックトデータ演算におけるシフト演算を不要にし

,

演算を大幅に効率化している.

3.

提案手法提案手法は, CA シミュレータにおけるセル状態の更新処世を

MMX

テクノロジを用いて並列化し,プロセッサ特有の放適化を行うことにより,シミューションを高速化するものである.対象とするプロセッサは,

MMX

テクノロジを搭載したPentiumプロセッサである. 提案手法が対象とする CA は,ライフゲームに代表される半合計的な CAである.この種の CA は,セルの新しい状態を隣接するセルの状態と自身の状態とのルールセットに基づいて決定する

【

L

a

d

d9

5 ]

.

本論文では,半合計的な CAのセル状態を更新する処理における,近傍のセルの状態値の合計を求める部分を "状態和の算出", また求めた状態和の値にルールを適用して新しい状態を決定する処理を "次状態の決定"と表現する. 提案手法では,パックド･データ演算を用いて状態和の算出と次状態を決定を行うが,この処理を効率的に行うためにデータ構造を境遇化する.に示したように,パック化の際の配置を工夫する事で,余分なデータの移動をなくすことができる.この配置の転換は最初に一皮行えばよいので.時間的なコストは無視できる. 本論文では,説明のためライフゲーム･シミュレータに対する具体的な最適化手法を述べる.ライフゲームは,状態和の算出,次状態の決定などの処理が一般的であり,セル間のルールが単純2なことから,例題として適当であると考えた. 提案手法の処理の概要を以下に示す. step.1 パックド･データ演算を用いて近傍セルの状態和の算出を並列化する. step.2 比較演算を用いて次状態の決定を並列化する.

3.

1

状態和算出の並列化まず,近傍のセルの状態値を合計する処理をパックド･データ演算で並列化する.

3.

1.

1

状態和算出の定義ライフゲームのセル空間は2次元なので. 〟 ×〃の2 次元格子空間を考える.各セルは,0及び1の2つの状態をとりうる.格子空間上の横方向を 3軸,縦方向を y軸として,セル座標を位置ベクトルであらわす.ただし,左上のセル座標を原点

(

0 ,

0 )

として,右方向と下方向を正とする.3

'-(

C

,

y

)

のとき

,S

(

a,)は,左から

∬+

1番臥上から

y+

1番目のセルの状態値を表す

(

8)

.

ライフゲームにおける状態和の算出は,以下の様に記述される.

∫

S(

a)

-

∑ S

_i

₌

(

訂+

｡･

)

0 (

2 )

2致ステップ程度の械根語で記述可能.

(5)

1

2

赤城･遠藤･山田 :仙ⅨテクノロジによるCAシミュレータの高速化 {…

r

N ーヽ Fig.8. M xNの2次元格子空rlq ■一 eIr/一:一亡■■

-

′

＼

-

l

､

-

.

■

一

■

/

C1

亡

1 一■

一

Fig.9.近傍 8セルただし,

S(

a

;

)

は格子空間上の位置詔における近傍8セルの状態和であり,q は,"i"方向の,各要素が "0'',"1'', "-1"のいずれかである位置ベクトルである.

"

i

"

方向とは, y軸の負の方向を基準として,時計回りに

(

i

*

45)度回転した方向のことである (9). 3.1.2 処理の並列化

式 2

の処理を複数のセルについて並列に行うため,格子空間を分割して各

pE

3に処理を割り当てる.状態値は

1

ピット状態和は

3

ビットのビット帽で表せるので,パックド･データで最も要素のビット幅が小さく,最も要素数の多い

8×8

パックド･データを用いる.この場合

,8

つのデータを並列処理できるため,

1

0

に示すとおり格子空間を

8

分割する. 元のセル空間 -牲て悶分割牡のセル空間轡ふ

ふ

血

ふ

ふ Fig.10.柄+'jillUの分割 (グレー部はPEliIJjdィ.=享が必柴な郎Jh) 3において.′1.7クトデータ演算を分散メモリ型Sn4Dマシンと置き換えて説明したが.本節においでも円滑に説明を進めるために,パックド･データ演算を分散メモリ型SIMDマシンとみなして話を進める. ■I

l

∫

-

i

◆ -

i

J

5

1

I -

I

- l

;

P

.

S

;

I

i

!_{+十十十十+◆+}1:1il三1j.11i!il. ;2誇言2;2'f272ぎ2 Fig.ll. 状脚 Il井LT-の曲列化

s

o(

0,

0 )

s

l

(

0,

0 )

s

o(1

,

0)

s

l

(

1 ,

0 )

s

o

(

m,

0 ) s

l

(

m,

0 )

s

o(

0,

1 ) s

l

(

0 ,

1)

･

･ S

7 (

0 ,

0)

( (a)

･

sT(

1 ,

0)

-

S

7 (

m,

0 )

ー

(

b

)

8

7 (

0,

1 )

ー

(

C

)

s

o

(

m

,

n)

s

l

(

m,

n)

･

- S

T

(

m,

n)

ただし,

m,

n:

各部分空間の最も大きい

x

,y座標 Fig.12.状態値のメモリ上の配置分割した格子空間のセルの状態値は,それぞれの

PE

のローカルメモリに分散して配置する.このとき,各ローカルメモリの状態値の並びを同じにする.各

pE

のメモリアクセス時のアドレッシングは同時に行われるため,ある方向の隣接するセルの状態値のアドレスは,全てのローカルメモリにおいて,同じ方向の隣接するセルの状態値を指し示すことになる. したがって,あるセルに着日して状態和を算出する処理を行うと,ほかの7つの部分空間上のセルの状態和も同時に算出される(ll). 3.1.3 データ並び替え SIMDマシンにおけるローカルメモリへの配置は,パックド･データ演算ではデータの並び方を工夫することによって行う.

1

2

は.8つの各部分空間を

s

D

,

Sl,･･･

,

S

7

として, S.･(a

:

,

y)

はそれぞれの,空間の左上のセルを原点とするローカル座標 x

,

y

上の状態値を表すとしたときの,状態値のメモリ上の配置を示している.図中の各行はパックド･データである.各列が

PE

のローカルメモリに相当する. 3.1.4 境界処理一般に

CA

の格子空間は, トーラス構造であることが多い.そのため,図のように格子空間を

1

セル分大きくとって,境界のセルの状態値を反対側の余分にとった空間にコピーする (13).こうすることで,境界セルに対して特別な処理を行う必要はなくなる. さらに, この操作を行うことで各部分空間は連続的なものとして扱える･例えば

,s

o

(

m,

o

)

の右隣の状態値は

s

l

(

0,

0 )

でなくてはいけないが

,1

2

の並びでは

s

o

(

m

,

0 )

の

(6)

琉球大学工学部紀要第60号,2000年 Fig.13.境界のセルの処理右隣の状態値は so(0,1)である (図中の(b)

,

(

C

)

).

この問題を解決するために境界の処理は,単純なコピー操作だけではなくパックド･データのシフト演算も行う. 各部分空間の状態億を保存するメモリ領域は1セル分大きくとってあるので,国中の

(

a)

の前と

(

a

)

,

(

C

)

の間に

1

パックド･データ分の''空き "がある.

(

可

のパックド･データを

8

ビット左に回転して

(

叫 C

)

聞 (右境界)の空きにコピーし,(b)のパックド･データを

8

ビット右に回転して (α)の前 (左境界)の空きにコピーする. これらのコピー操作は.セル状態が更新するたびに行う必要がある. しかしながら,この操作は,2回のコピーと

1

回の回転のみなので,全体の処理に占める割合は少ない.

3.

2

次状態の決定次に,近傍セルの状態和をもとに新しい状態を決定する処理の並列化を行う.新しい状態を決軍する際の条件判断に,

MMX

テクノロジの比較演算を用いる.比戟演算を用いた場合 ,通常のスカラ演算の条件分岐のように

br

anc

h

命令を伴わないため,制御ハザード押

棒 9

5

1が発生しない.制御ハザードが発生した場合4,

pe

nt

i

umI

I

プロセッサは

1 0-1

5 c

l

oc

kc

yc

l

e

分ストール (停止)する【インテル

9

9 C

】

.

3.

2.

1

次状態の決定の定義本論文で扱う半合計的なCAでは,新しい状態は,処理対象となるセル自身の状態値とその近傍

8

セルの状態和の組み合わせによって決定する. ライフゲームにおいでは, 以下のルールに従って新しい状態を決定する【加藤

9

8

1 .

.生きているセルは,近傍セルの状態和が2または3の時のみ,生き続ける.それ以外は,死ぬ. .死んでいるセルは,近傍セルの状態和が3の時のみ, 生き返る.それ以外は,変化しない. これは,次のように言いかえることができる. .近傍セルの状態和が

3

の時は生きる. .近傍セルの状態和が 2の時は変化しない. .上記以外の時は死ぬ. これを,式で記述すると.

C

叶

1 -

校

(

S

L

=

3のとき)

(

St

=

2

のとき) (それら以外のとき) (3) 4pentium プロセッサには分岐予測機構があるため,必ずしも制御ハザードが号を生するとは限らない.

1

2

3

ただし,Cf :時刻 Lにおけるセルの状態値 St:近傍のセルの状態和

3.

2.

2

比較演算の適用状態和は.

s

t

e

p.

1

の処理が終了した時点で状態値のデータ構造とまったく同じような並びでパック化されている.

S

亡,C

t

を時刻 iにおける状態和,状態値のパックド･データとすると,比牧演算による次状態の決定は以下の棟になる (14). C2

=

C

O

mp

(

St

-

al

1 3S)

&a

ll

ls

(

4)

cl

=

C

Omp

(

St

=

a

l1

25)

&

Cf

(

5 )

C叶 1

=

Cl lc2

(

6 )

ただし,"&'',

"

l

"

はビット単位の論理積,論理和を表し, cl,C2は

8×8

パックド･データである.また

,a

ll

(

n)

Sは. 全ての要素が nである

8×8

パックド･データである. 式4は,式

3

の最初の条件に対応する式である.

c

omp

は,条件を満たす要素をその要素の最大値に設定する.最大値は全てのビットが1である値なので.必要な値と論理積を取ることで求る値になる.この式では,比較演算の結果とa

l

ls

との論理積を取ることで必要な値を求める. 式 5は.式 3の 2番目の条件に対応する.ここでは,求めたい値は

C

fなので,

CC

との論理積をとる. 最後に,式

6

で式

4

と式

5

の結果の論理和をとることで処理が完了する.式

3

の各条件は,排他的であるため式 4と式5は,少なくとも一方の結果が 0になる.従って, 論理和をとることは.条件の成り立つ方の式の結果をとることに等しい.

s

t

e

p.

1

と

s

t

e

p.

2

の並列化のよって

8

つのセルの更新処理が同時に行われるため,逐次演算と比較して8分の 1の処理時間ですむ可能性がある. 1 1 1 1

& & & & I I l 1 a i A 1 1 1 ＼ 1

互

r / Fig.14.比較折井を川いた次状腰の決起

4.

実験 4.1 実験環境提案した手法の有効性を確認するために,評価用に作成したライフ･ゲームシミュレータを用いて実験をおこなった.実験は,提案手法の各ステップを段階的に適用した

3

(7)

124 赤嶺･遠藤･山田 :NNXテクノロジによるCAシミュレータの rF.bj速化つのバージョンとスカラ演算バージョンの比較を行った. また,処理時間を厳密に計測するために,時間をプロセッサのclockcycle数よって計測した. さらに, ビデオメモリへの転送処理によるオーバヘッドを除去するため,CA の更新部分のclockcycle数のみを計測した. 実験環境はWindows98だが, 同

O

Sは.マルチタスク

os

なのでタスク･スイッチングによる結果のばらつきがでる.そのため,セル状態の更新処理を100回おこなうのに必要なclockcycleを計測して,その平均値をとった.実験に用いたプロセッサは,MMXテクノロジPenLiumプロセッサとPentiumIIIプロセッサである.clockcycleの計測には,MMXテクノロジPentiumプロセッサのTime SLampCounterを用いた【小溝 97】. 実験に用いたライフ･ゲームの格子空間は,256×256 である.この大きさは,実験用のシステムにおいて,状態値の全データがプロセッサ (CPU)の

1

次キャッシュには収まらないが

,2

次キャッシュには入りきる大きさである. データの大きさが

2

次キャッシュのサイズを超えると,メモリアクセス速度のボトルネックが急激に増大5し,実験結果がシステムのバス速度に依存してしまうので.前述したサイズが適当である.実験は,以下のようなシミュレータをそれぞれ作成 ,比較した. 1.評価基準となるシミュレータ

(

C

言語によるスカラ演算バージョン) 2.step.1を適用したもの (状態和の算出のみに提琴手法を適用) 3.step.1に加えてstep.2を適用したもの (状態和の算出および次状態の決定に提案手法を適用) C言語によるスカラ演算バージョンは,VisualC++バージョン6.0のコンパイラでPentiumプロセッサを対象とした速度に対する最適化を行うオプションをつけてコンパイルした. このオプションをつけた場合, コンパイラは MMXテクノロジを用いないで,superSCalar実行のためのpairingなどの,速度を高速にするための最適化を行う.

4.

2

実験結果前述した,4種類のシミュレータをMMXテクノロジ Pentiumプロセッサ.PentiumIIIプロセッサの各プロセッサ上で動かして, その実行clockcycleを測定し,それぞれの値を

C

言語によるスカラ演算バージョンのものと比較を行った.実験結果をグラフに示す (15). 実験結果から,MMXテクノロジPentiumプロセッサ上で走らせた場合,

C

言語によるスカラ演算バージョンを基準として,状態和の算出のみに提案手法を適用したものが約 3倍,状態和の算出および次状態の決定に碇案手法を適用したものが約5.5倍の速度で処理が終了することがわかった. また,PentiumIIIプロセッサ上で走らせた場合は,それぞれ,約

3

倍 ,約7.5倍の速度で処理できることがわかった. 5.考察 5-枚的なPCアーキテクチャのシステムでは.2次キャッシュのミスヒット時のペナルティは.数十から百敢 clockc.yc)Cである. ( 触喋小 F F Y 夜 ) 当超せ 2 1 ｣ 6 4 2 団pentiumtII 田MMXPentium Fig.15. 実験柿米 MMXテクノロジのパックド･データ演算は

,8×8

パックド･データを用いた場合 ,最大で

8

倍の高速化の可能性がある. しかしながら,実際にはループ制御やその他のスカラ演算が必要であるため理想値には連しない. 提案手法では,このような並列化を阻害する要因をデータ構造とコーディングの工夫によって排除している.揺案手法のstep.1では, データ構造の最適化により余分なデータ移動を低減することで,演算の並列度を高めている.step.2では,比較演算を用いることで制御ハザードを無くし,結果として並列度が上がっている. 実験結果は,提案手法がより複雑なCAモデルにも適用可能であることを示している.例えば,step.1のみを適用した場合,評価基準である

C

言語バージョンに比べて明らかに高速である. これは,状態和の算出にはパックド･データ演算が適用できるが,次状態の算出には適用が難しい場合,つまり,次状態の決定のルールが複雑すぎて並列化できない場合などでも,ある程度は効果があることを示している.

6.

あわりに本論文では,MMXテクノロジのパックド･データ演乱比較演算による並列演算により, ローコストで高速なセルラ･オートマトン･シミュレータを作成する手法を提案した. 提案した手法を用いてライフゲームのシミュレータを作成し,スカラ演算によるものとの比軟を行ったところ. 良好な結果を得た. 提案手法は,理論的にはライフゲームに限らず一般的なCAに対して適用可能である.今後,様々なCAモデルに対して提案手法を適用し,その効果を検証する必要がある.

P3eck] Beck,M･‥TheCellularAutomataSimulationSys -tem:

(8)

琉球大学工学部紀要第60号,2000年

lBcck94] Beck,M.andCastelJano

S

,A.:VectorProcessing onScalarArchitecture(1994)･

lIntOO】 IntelCeLeronProcessor-Datasheet.IntelCeLeron Processorup to 533MH21(OrderNllmber:243658 -010)(2000).

【Ladd951 Ladd,S.氏.:C十十シミュレーションズ&セルラ･オートマトンE]本給版,株式会社ディー･アート(1995),朝沼美雪 :釈.

lMargolus931 Margo)us,N.: CAM-8:a computer architectul･C

basedoncelluarautomata,Physiscsorcomputa -tionseminar(1993)A

lPatterson96】Patterson.D.A.and Hennessy,J.L.:Computer Arch2'tecttLT･e ノI Qilanlitatt't･c jlppTl0aCh,Morgan KaufmannPublishers,Inc･,secondedition(1996)･

【インテル99al インテル株式会社 :インテル･アーキテクチャソフトウェア･ディベロッパーズ･マニュアル下巻 :システム･プログラミング･ガイド(資料番号2431921日 1999)･【インテル 99b】インテル株式会社 :インテル･アーキテクチャソフトウェア･ディベロッパーズ･マニュアル上巻 :基本アーキテクチャ(資料番号243190J)(1999)･ [インテル99C] インテル株式会社 :インテル･アーキテクチャ殺適化 (資料番号730795J-001)(1999). 【加藤98】加藤,光成,築山 :セルオートマトン軌森北出版(1998). [小食 97】小管英一:MMXテクノロジ優遇化テクニック,アス【中将 951 【天野89】【平林98】キー出版(1997). 中滞喜三郎 :新井機アーキテクチャと柵成方式.朝倉沓店 (1995). 天野 ,高橋,富田,渡辺,渡辺 :並列処理機構,丸尊株式会社 (1989). 平林,石塚 ,横臥伊藤,小前 ,渦度 ,竹岡,安相通晃 : セルラオートマトン･シミュレータ用並列コンパイラの開発 ,情報処理振興事業協会｢創造的ソフトウェア育成事業｣最終成果発表会(1998).

MMXテクノロジによるCAシュミレータの高速化: University of the Ryukyus Repository

Title