スーパースカラ・プロセッサの構成方式に関する研究

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

スーパースカラ・プロセッサの構成方式に関する研究

久我, 守弘

九州大学総合理工学研究科情報システム学専攻

https://doi.org/10.11501/3060381

出版情報：Kyushu University, 1991, 博士（工学）, 課程博士バージョン：

権利関係：

(2)

第9章結論

本章では，本研究の成果についてまとめ，今後の課題を明らかにする.

9.1 研究の成果

本研究では，スーパースカラ方式に基づくプロセッサの構成方式について，体系的に整理し，スーパースカラ・プロセッサのl実現方式を提案・評価を行った. 本研究で得られた成呆を以下にまとめる.

9.1.1 スーパースカラ方式の存在意義

スーパースカラ・プロセッサは，プログラムに内在する命令レベルの並列性を利用した並列処理を行うことで性能向上を図る. スーパースカラ方式は時間並列処理および空間並列処理利用するため，パイプライン方式，VLIW方式および複数機能ユニット(MFU)プロセッサを発展させた方式とみなすことができる. スーパースカラ方式およびVLIW方式は，共に時間および空間並列性を利用するがスーパースカラのVLIWに対する存在意義は，命令セット・アーキテクチャ上の互換性がとれることさらには従来のパイプライン・プロセッサと全く同一の命令を利用することも可能であることに帰着する.

(1) スーパースカラの分類

3つの基本選択肢によりスーパースカラ方式を分類した.

・ハザードの解消時点:静的(S)vs.動的(D)ハザード解消

・命令最適化時点:静的(S)vs動的(D)コード・スケジューリング

-機能ユニットの均質性:均質型(U)vs.非均質型(N)機能ユニット

これらの基本的な分類を組み合わせることにより，

SSU， SSN， DSU， DSN， DDU，

DDNといったの 6つの型に分類できる. 付録Aに示すように現在研究開発されているスーパースカラ・プロセッサの多くはDSN型に分類できることがわかる. これは以下の理由によるところが大きい.

(a)動的ハザード解消スーパースカラであるため，オブジェクト・コードの互換性を碓保できる.

(b)動的コード・スケジューリングは非常にハードウェアコストが大きいにもかかわらず，その性能に寄与する割合が小さい.

(c) 非均質構造であることから，応用分野向きに演算器構成を設定できる. また，現状では均質構造のスーパースカラは時期尚早であるといえる.

このことからも，現状ではDSN型スーパースカラが圧倒的に有力なプロセッサ構成であるといえる.

(2) DD型スーパースカラ・プロセッサの設計および性能評価

DD 型スーパースカラ方式の試作プロセッサである“DDUS プロセッサ"の設計およびシミュレータによる性能評価を行った.

設計に際してはスーパースカラ実現上の課題に対して以下なる対処を施すかが重大な問題である. DDUS プロセッサでは以下のように構成上の選択肢の決定を行った.

(a) パイプライン・スライス・プロセッサ構成方式の提案:命令パイプラインを多重本並べる構成方式を採ることにより，要求される性能に見合うプロセッサを構築する.

このような構成法を採る理由のlつとして，設計開始時点(1987年)においては，シングルチップ・スーパースカラを実現できるほど， VLSI集積度が高くなかったことが挙げられる.

(b)動的コード・スケジ、ユーリングの積極的な利用:命令聞に内在する命令レベル並列性を最大限に引き出すため，動的コード・アルゴリズムを利用した. 動的コード・アルゴリズムとしてはTomasuloのアルゴリズムが有名である. 分岐命令を越えた out-of-order実行を可能にするために，Tomasuloのアルゴリズムに大幅な拡張を施して，先行する複数の命令から受けるフロー依存および制御依存関係に対処可能なア

(3)

ルゴリズムを考案した. 複数の命令からの依存関係を表現できるように，ピットマップを用いた多重依存関係表現法を考案し，自由度の高い動的コード・スケジ、ユーリング・アルゴリズムを実現した.

(c)正確な割込み/分岐をreorder bufferにより保証:動的コード・スケジ、ューリングを導入すると，レジスタ内容なとやの更新がout-of-orde rになる可能性があり，不正雄なマシン状態が発生する恐れがある. 正確な割り込みおよび分岐を保証するために，

reorder buff引・を採用した. reorder bufferによりレジスタなどの更新を in-orderにうことで，正確なマシン状態を保証する.

(d)選択的命令無効化方式の提案:分岐予測が外れた際に行うパイプライン復元処理は，

従来パイプライン・フラッシュによってパイプライン内にフェッチされているすべての命令を無効にしていた. スーパースカラではパイプライン・ステージが多く，分岐予測が外れた場合でも分岐先が既にパイプライン内にフェッチされている可能性がある. そこで，真に無効にすべき命令のみを無効にする選択的命令無効化を考案し提案

した.

シミュレーションによる性能評価の結果以下の事実が判明した.

(a)ノTイプライン・スライス・プロセッサ構成方式の問題点:本方式を実現するには，

パイプライン問のパス，ハードウェア資源のスライス法など考慮すべき点は残されている. 特に，スーパースカラでは命令聞の依存関係によりパイプライン間の結合が密であるため，実現には問題が残る.

(b) reorder bufferの問題:正確なマシン状態を確保するために導入したreorder buffer が，動的コード・スケジ、ユーリングの効果を阻害している事実が判明した. 特に，命令ブロック単位の閃order bufferの解放方法により実行の遅い命令の存在を冗長させパイプライン・インターロックを頻発させる原因となった. また， wait ing buffer で必要な処理にかかる時間がパイプライン・ステージとして必要であった. さらに動的コード・スケジューリングを行うために大量のハードウェア・コストが必要であった.

(c)動的コード・スケジューリング・アルゴリズムにおける問題:動的コード・スケジ、ユーリング・アルゴリズムのうち，演算終了後のコミット条件が，フロー依存関係にある先行命令から後続命令へのデータ・バイパスを阻害し問題となった. さらに，動的

コード・スケジ、ユーリングのみでは，命令レベルの並列性は2--4程度しか得られないことが判明した.

(d)多重依存関係表現法:この方法を用いた動的コード・スケジューリング・アルゴリズムには，プロセッサのハードウェア的な問題点があったために有効には使用できなかった. しかし，この多重依存関係表現法は汎用的に利用できる方式であるといえる.

(e )選択的命令無効化方式の評価:ハードウェア的にも時間的にもコストがかかり，また，これが実行される確率はわずかでしかなく，スーパースカラ皮が4程度では効果が現れないことが判明した. しかしながら，スーパースカラ度がさらに大きくなる場合，その効果への期待は残る.

(f)多重命令供給:命令フェッチにおける並べ替えの問題は“可変バウンダリ・フェッチかつラインクロス有り" の構成ではハードウェア・コストが大きいにもかかわらず，

“可変バウンダリ・フェッチかつラインクロスなし"と性能が変わらないことをが明らかになった.

以上の結果から， DD型スーパースカラの開発に関して改良の余地が残された.

(3) DS型スーパースカラ・プロセッサの設計および性能評価

DDUSプロセッサ開発の結果を踏まえて，ハードウェア的に軽量化を図り， DS君�スーパースカラ方式に基づく試作プロセッサである“DSNSプロセッサ"の設計および性能評価を行った. 設計では特に， DDUSプロセッサにおけるボトルネックの原因をすべて取り払うようにしている.

(a)静的コード・スケジューリングの積極的な利用:動的コード・スケジ、ユーリングのうち，静的コード・スケジ、ユーリングで行えることは静的に行う. これにより，ハードウェアの軽量化を図った. ただし，オブジェクト・コードの互換性を確保するため，

動的ハザード解消は行う. また，アルゴルズムとしてはThorntonスコアボードを用い，データのバイパスを行うことでフロー依存に伴う遅延を最小にを抑えた.

(b)静的分岐予測と分岐先バッファを組み合わせた命令供給方式の提案:分岐頻J!tに偏りがある場合，静的に分岐予測が可能である. また，分岐

2も

がツ7アと組み合わせることで，分岐予測がヒットしている場合遅延なしで命令の供給を行うことができる.

(4)

さらに，分岐予測が外れた場合でも，分岐遅延は最大2サイクルに抑えることが可能である.

(c)先行条件決定方式のl実現方式の提案:先行条件決定方式の具体的導入方法を考察し提案した. 先行条件決定方式は，分岐命令のコストを低く抑えると共に，静的コード・スケジ、ユーリングに対して大きな自由度を与える特長がある. また， ^DSNSプロセッサにおいて，演算命令のコンデイションを各々のレジスタに付加したタグを用い，

従来のコンデイション・コード・レジスタに見られるアクセス競合を回避する方法を提案した.

(d) weakly precise interrupt方式のl実現方式の提案: DDUSでは，正確な分岐機構を保証するために reorder buffeを採用していたが reorder bufferがボトルネックの直接原因であった. これに代わる方式としてweak1y precise inもerruptに着目し， 1実

現方式として IPRS(ImPrecise， but ReStartab1e)割り込み方式を提案した.

(e) futuer五1eの 1実現方式の提案: future fi1eのl実現方式として，2重化レジスタ・

ファイルを提案した. この方式により，投機的実行を行う場合でも ^{分岐予測が外れ} た際のパイプライン復元処理を可能にする. つまり正確な分岐機構を導入できる.

また，2重化レジスタ・ファイルを積極的に利用でき静的コード・スケジ、ユーリングの自由度を大きくできるブーステイングを導入した.

(f)依存解析情報を含むロード/ストア命令の提案:ロード/ストア命令に静的スケジ、ユールの情報を含ませる方法を提案した.

性能評価Iiの結果以下のことが判明した.

(a)最適化なし，および，局所コード・スケジ、ユーリングのみを施したベンチマークを使用した場合，スーパースカラ度を上げても性能は約1.5倍程度しか向上しない. しかし，ループ最適化を施すことにより平均して3倍，最も並列度の抽出できたベンチマークに対しては，約5.8倍の性能が得られた.

(b)今回のシミュレーションでは，DSNSに採用した機能，特にブースティングおよび futurcを十分に使い切っていない. これは，静的最適化の難しさに起因している. スーパースカラ用の高度な最適化コンパイラの必要性が改めて認識させられた.

(c) DSNSプロセッサはスーパースカラ度が4の場合に性能が発揮できるようにパランスを考慮した演算器構成を採用しており，静的コード・スケジ、ユーリングを行うこと

で，最大限に性能を発揮できる，しかしながら，あるベンチマークによってはスケジューリングを行うことにより演算器構成によって性能が抑えられてしまう場合も発生した. このことは，処理するアプリケーションを十分に処理できるように，機能ユニットなどのハードウェア資源を最適に設計しなければならないことを意味している.

9.2

今後の課題

以下に，今後の課題について述べる.

DSNSプロセッサの性能評価を行い，十分な性能が得られることは判明した. しかしながら以下の点について，まだ議論の余地がある.

(a)多様な応用分野での評価: 今回はシミュレーションに採用したベンチマークプログラムの性格上， “数値計算処理向きプロセッサ"に限定した話しといえる. 今後スーパースカラの応用分野の拡大を図るためにも，様々なアプリケーションに関してプロセッサの評価を行わなければならない.

(b) DSNSプロセッサの機能を十分に利用した評価:今回の評価では DSNSに採用した boosも命令および2重化レジスタ・ファイルを十分に生かしていない. 特に2霊化レジスタ・ファイルはブーステイングが十分に活用されてこそ，その存在が発揮されるものだからである.

(c)最適化コンパイラの開発:スーパースカラ・プロセッサの性能を最大に発関するためには最適化コンパイラが不可欠である. 特に，広域コード・スケジ、ユーリングである，広域コード移動およびループ再構成に関する技術を十分に採り入れていく必要がある. また，性能評価を行うに際に必要な最適化されたプログラムを得るためにも強力な最適化コンパイラが早急に望まれる.

(d) VLSI化:プロセツサの開発に際しては，VLSI化は最終目標の一つでもある. しかしながら，手軽にVLSI化が行えるような開発環境がないため，VLSI化に関して十分に議論を行っていない. 今後VLSI化について十分に考慮する必要がある. 将来 VLSI化においてさらに多くのトランジスタを使える状況においては， DSU型スー

パースカラ構成のプロセッサも採用され得ると考えられる.

(5)

謝辞

本研究の機会を与えて頂いた富田真治教授に心から感謝致します. 論文をまとめるに当たって御指導頂いた安浦寛人教授，雨宮真人教授，有川節夫教授，牛島和夫教授に感謝致します. 研究の初期段階で数々の助言を戴いた末吉敏則助教授に感謝致します. 数々の討議の中で熱心に御討議下さった福田晃助教授ならびに村-上和彰助手に感謝致します. 特に，本研究を直接御指導して戴いた村上助手には，筆者の考えを適切な助言によって方向付けて戴き大変感謝致します.

また，本スーパースカラ・プロジェクトにおいて初期設計に携わった五島龍宏氏，筆者と共に試作プロセッサおよび最適化コンパイラの設計・開発・評価に従事して頂いた入江直彦氏，弘中哲夫氏，音成幹氏，原哲也氏，納富昭氏に感謝します.

最後に，日頃から討議に参加し御討論頂く研究室の皆さんに感謝致します.

本研究は，上記の方々の御支援なしには，成し遂げられなかったことを記し，ここに謝意を表します.

参考文献

アーキテクチャ関連文献

[Ditze187] Ditzel， D.R. and McLellan， H.R. : “Brar

processor: Reducing Branch Delay もo Z^e^1'^o，^'うPアoc. 14th Aηη凡.Irη7，tJI. Symηp. Computer Architecture ， pp.2-9， June 1987.

[Fisher83] Fisher， J. A. : “Very Long Instr凶もion Word Aぱ.lÍtectures and ELI-512，"

Proc. 10th Int'l. Symp. Comput. Archit.， pp.140-150， 1983.

[Flynn66] Fly nn， M.J. : “Very High-Speed Computing Systems，" Proc. IEEE， vo1.54，

no.12， pp.1901-1909， Dec. 1966.

[HePa90] Hennessy， J.L.ωd Patもerson， D.A.， Computer Architecture: A Quantitαtive Approαch， Morgan Kaufmann Publishers， Inc.， San Mateo， CA， 1990

[Hennessy89] Hennessy， J. : “Beyond RISC，" Unix Review， vo1.7， no.9， pp.48-54， 1989

[HwangBriggs87] Hwang， K. and Briggs， F.A. : Co仰山r Architecture and Pαγαllel Processing， McGraw-Hill Book Company， 1985.

[Hwu87] Hwu， W.W. and Patも，Y.N. :

of-Order Execution Machines，" IEEE Tr、αns. Comput.， vol.C-36， no.12， pp.1496-1514，

Dec. 1987.

[Johnso 凶9] Johnson， W.M. : “ Supe バcalar Processor Design，" Computer S均yst加伽er印7η附7 orαtory Te白chrη7，Z化Cαal Report No. CSL- TR-89-383， Stanford University， June 1989.

[Johnso凶0] Johnson， M. : S叩erscαlar Processor Desψ7" Prentice Hall， 1991.

[J ouppi89a] J 0叩pi， N .P. : "Availぬ1e Instruction-Leve1 Pa凶1eliism for Superscalar and Superpipelined Machines，" Proc. ASPLOS-III， pp.272-282， Apr. 1989.

(6)

[Jouppi89b] Jouppi， N.P.: "The Nonuniform Dist山凶on of Instrωtion-Level ancl Ma

chine Paralleliism ancl Its Effecも on Performance，" IEEE Trαns. Comput.， vo1.38， no.12，

pp.1645-1658， Dec. 1989.

[Kro此削81] K1'ωofれも，D.:ゾ‘"Locku叩p-イf附 I凶も灯肌川rれ印uctωもtion Fe凶tch

/

Pぱet蛇ch Cache

01'ば.芭g伊伊a剖加n山1

8t仇h Int'l. Symp. Comput. Archii.， pp.81-87， May. 1981.

[Lee84] Lee， J.K.F. and Smith， A.J. :“Brar叫Prediction Strategies and Branch Ta1'get Buffe1' Design，" Computer， vol.17， no.1， pp.6-22， Jan. 1984.

[Lilja88] Lilja， D.J. : “Recluci時the Branch Penalty in Pipelined Processors， " Com

puter， vo1.21， no.7， pp.47-55， July 1988.

[Matick89] Matick， R.E. : "Funcもiona1 Cache Chip for Improved System Performance，"

IBM Journαl 01 Reseα?叫αnd Development， vo1.33， no.1， pp.15-32， Jun. 1989.

[McFarling86] McFarling， S. and Hennessy， J. :“Reducing the Cost of Brωches，" Proc.

13th Int 'l. Symp. Computer A rchitecture， pp.396-403， J une 1986. y

[Patte rso叫Patterson， D.A et. al. : "A VLSI RISC，" IEEE Co仰uer， pp.8-21， Sep.

1982.

[Pleszkun87] Pleszkun， A.R. eも al.: "WISQ: A Restartab1e Architecture Using Q ueues，"

Proc. 14th Ann. IniJl. Symp. Computer Archiieciure， pp.290-299， June 1987.

[Roso cha79] Rosocha， W.G. and LeeうE.S. :“Perfo口nance Enhancement of SISD Pro

cessors，" Proc. 6th Ann. Symp. Computer Archiiecture， pp.216-231， Apr. 1979.

[SmithJ81] Smith， J.E. : “A Study of Branch Prediction Strategies，" Proc. 8th Ann Symp. Computer Architecture， pp.135-148， May 1981.

[SmithJ87] Smith， A.J. : “Line(_Block) Size Choice for CPU Cache Memories，" IEEE Trα11S. Comput.， vol.C-36， no.9， Sep. 1987.

[SmithJ88] Smith， J.E. and Pleszkun， A. R. : “Implementing Precise Interrupts in Pipelined Processors，" IEEE Trans. Comput.， vo1.37， no.5， pp.562-573， May 1988.

[SmithJ89] Smith， J.E. :“Dynamic Inst1'uction Sched uling and もhe Astronau tics ZS-l，"

Computer， vo1.22， no.7， pp.21-35， July 1989.

[SmithM89] Smiもh， M.D.， Johnson， M.， and Horowitz， M.A. : “Limits on M ultiple Insもrucもion Issue，" Proc. ASPLOS-III， pp.290-302， Apr. 1989.

[SmithM90] Smiもh， M.D.， Lam， M.S.， and Horowitz， M.A. : “Boosting Beyond Static Scheduling in a Superscal旬、Processo1'，" Proc. 17th IniJI. Symp. Computer ArchítectU7、町 pp.344-354， May 1990.

[Sohi87] Sohi， G.S. a吋Vajapeyam，S. :“Instruction Issue Logic for High-Performance，

Interrupもable Pipelined Processors，" Proc. 1イth Int 'l. Symp. Computer Al、chitecture，

pp.27-34， June 1987.

[Sohi90] Sohi， G. and FÌ'a耐in，M. “High-Bandwidth Data Memo1'Y System for S叩01'

scalar Processors，" Computer Sciences Depα7・trnent University 01 11'isconsin・Mαdison，

Computer Sciences Technical RepoTt No.968， Sep. 1990.

[Thornton64] Tho川on， J .E. : "Paralle1 Operation in the Co山01 Data 6600，" Proc.

Fall J oint Computel、Conf・， vo1.26， pp.33-40， 1964.

[Tomasulo67] _Tomasulo，_R.M._:_“_A_nE缶cient Algorithm for Exploiting Multiple Arith

meもic Uniもs，" IBM J. Res. Dev.， vo1.11， pp.25-33， Jan. 1967.

[Weiss84] Weiss， S. and Smith， J.E. :“Inst1'uction Issue Logic in P町ipelin凶noωd S臼up閃e臼1'com puters，" IEEE Trans. Comput.， vol.C-33， no.11， pp.1013-1022， Nov. 1984.

コンパイラ関連文献

[Aiken88] Aiken， A. and Nico1凱1， A. : “A Development Environment for Horizontal Microcode，" IEEE Trans. Soβ . _E_η_9・， vol.14， no.5， pp.584-594， May 1988.

[ChowF 84] Chowぅ F. and Hennesy， J， : “Regis剖もe1' Al日loca叫もtion by Plわ町n巾�io印ri山oi比ty-Bas印似似制e虻飢凶cl Coloωr山g，

" Proc. SIGP LAN'84 Symp. Compiler Construction， June 1984.

[ChowP89] Chow， P.: The MIPS-X RISC Microprocessor， Kluwer Academic Publishers，

1989.

[Coffman 76] Coffm ω ， E.G.， Jr. (_Ed.)_: Computer and Job-Shop Sch印附e釘edんu凶』

John Wiley & sons， 1976.

[Colwe1l88] Colwell， R. P. et al“A VLIW Architecture for a Trace Sched凶ng Compiler，

" IEEE Trans・Comput.， vo1.37， no.8， pp.967-979， Aug. 1988.

(7)

[Ellis86] Ellis， J.R. : Bulldog : A Compile1' fo1' VLIW A1'chitectu1'es， MIT Press 1986.

[Fisher81] Fisher， J. A. : "T肌e Scheduling: A Technique for Global Microcode Com

paction，" IEEE Tr刀ns・Comput.， vol. C-30， no. 7， pp.4 78-490， J uly 1981.

[ Golumbic90叫] Goωlum百m巾lbi比c，M.C. and Raね仰i江凶n山l

Block瓜S丸う円 IBM J. _Res.Dev.， vo1.34， no.1， pp.93-97， ^Jan.1990.

[Gross82] Gross， T.R. and Hennessy， J.L. :“Opもimizing Delayed Branches， " P1'oc. 15th Annu. Wo1'kshop on Micr、op1'ogram， pp.114-120， Oct. 1982.

[Hennessy83] Hennessy， J.L. and Gross， T.R.: "Postpass Code Optimization of Pipelined Constraints，" A CA1 T1'αns. Prog1'αmming Lαnguαges and Syst.， vo1.5， no.3，

pp.422-448， July 1983.

[Krishnamurthy90] Krish凶murthy，S. :“A Brief Survey 0ぱf Pa叩pe1'凶s on Sche凶d小ωII凶l Piゆpe叫li凶ncd Pr、ocessoω1's，門SIGPLAN NOTICES， vo1.25， no.7， pp.97-106， July 1990.

[久野90]久野靖:“新しいアーキテクチャとコンパイラ技術3"情報処理， vo1.31ぅno.6，

pp.727-735， 1990年6月.

[Lam88] Lam， M. :“Software Pipelining: An Effective Scheduling Technique for VLIW Machines，" Proc. A CM SIGPLAN'88 Conf. Programming Language Design αnd Imple

mentation， pp.318-328， Jllne 1988.

[中谷90]中谷登志男:“VLIW計算機のためのコンパイラ技術J'情報処理，vo1.31， no.6，

pp.763-772， 1990年6月.

[村上91]村上手口彰:“スーパースカラ・プロセッサの性能を最大限に引き出すコンパイラ技術JF日経エレクトロニクス，no.487， pp.165-185， 1991年3月

[Touzeau84] Touzeau， R. F. : "A Fortran Compiler for もhe FPS-164 Scie凶五c Com

puter， " P1'oc. ACM SIGPLA N '84 Symp. Compiler Consi1'uction， pp.48-57， June 1984.

[Warren90] Warren， H.S.， Jr.もstn川ion Scheduling for the IBM RISC System/6000 Processor，" IBlvI J. Res. Dev.， vo1.34， no.1， pp.85-92， Jan. 1990.

マニュアル類

[AMD87] Advanced Mic1'o Devices， Am29000 Strear叫ned Inst1'uciion Processor User 's Manuα1， Sunnyvale， CA， 1987.

[FUjitsu87] Fuji tsu， lvIB86900 RISC P1'ocesso1' A r、chitectu1'e 1vJ _anual， FU J1TSU Micro

electronics Inc.， ^Nov. 1987.

[IBM90] IBM Corp.， IBlvJ RISC Sysiem/6000 Technology， Austin， TX， 1990.

[Inte189] Intel Corp.， 80960CA Use1"s A1αnual， Santa Cla叫CA，1989.

スーパースカラ・フロジ、ェクト関連

DDUS関連

[五島88]五島龍宏:“『新風j: S1MP方式に基づくプロトタイプ・プロセッサ，n九州大学大学院総合理工学研究科修士論文，1988年2月

[原89]原哲也:“『新風』プロセッサの命令供給機構に関する設計JF九州大学工学部卒業論文ぅ1989年2月

[原90a]原ほか:“S1MP(単ィ命令流/多重命令パイプライン)方式に基づくスーパースカラ・プロセッサf新風Jの命令供給機構f情報処理学会研究会報告，90-ARC-80-7 1990 年1月

[入江88]入江ほか:“SIMP(単一命令流/多重命令パイプライン)方式に基づく『新風jプロセッサの高速化技法および性能予測刊情報処理学会研究会報告，88-ARC-73-11 1988 年11月.

[久我89a]久我ほか:“S1MP(単一命令流/多重命令パイプライン)方式に基づくf新風J プロセッサの低レベル並列処理アルゴリズム?"並列処理シンポジウムJSPP'89論文集，

pp.163-170， 1989年2月;情報処理学会論文誌， vo1.30， no.12， pp.1603-1611， 1989年 12月.

[久我89b]久我守弘: "SIMP(単一命令流/多重命令パイプライン)方式に基づく試作フ。ロセッサf新風Jの設計J?九州大学大学院総合理工学研究科イ疹士論文，1989年2月 [久我90]久我ほか:“SIMP(単寸命令流/多重命令パイプライン)方式に基づくスーパース

カラ・プロセッサ『新風Jの性能評価J'並列処理シンポジウムJSPP'90論文集，pp.337- 344， 1990年5月;情報処理学会論文誌，vo1.32， no.7， pp.， 1991年7月.

[納富90]納富昭:“スーパースカラ・プロセツサ[新風jのデータ供給機構，n九州大学工学部卒業論文，1990年2月.

(8)

[村上88]村上ほか:“SIMP(単一命令流/多重命令パイプライン)方式の構想、J'情報処理学会研究会報告， 88-CA-69-4， 1988年1月.

[Muraka凶89] Murakami， K.， 1巾， N.， Kuga， M.， and Tomita， S. : “S釘IMP(何S臼in時1屯gle Ins剖も紅仙n削ion s剖もream叫jMu叫山ltiple i凶n凶S剖も訂凶r孔1ωもtion Pi切peli凶n凶山inω : A Novel High-Speed Single Processor Architecture，" Proc. 16th Int '1. Symp. Computer Architecture， pp.78-85， May

1989.

付録A

種々のスーパースカラの仕様

DSNS関連

[Kuga91] Kug払 M.， Murakami， K. and Tomita， S : “DSNS(Dyr印凶ca叫11匂y-h凶lazωzar r附e侃ωS印ollved， S仇もatもi比Cωωa叫11匂y-cωodωeか-s飢ched小1山d， NonuばO町r口rm Superscalar) : Yet Another Super

scalar Processor Architecture，" ACM SIGARCH Computer Archiiecture News， Vol.19，

N 0.4， pp.14-29， J une 1991.

(a)研究用試作機(大学)

円bU D D u 'hu nb u vd k

•

• Kyushu DSNS

[原90b]原ほか: “SIMP(単一命令流/多重命令パイプライン)方式に基づく改良版スーパ}スカラ・プロセツサの構成と処理J?電子情報通信学会技術研究報告， CPSY-90-55 1990年7月.

[原91a]原ほか:“DSN型スーパースカラ・プロセッサ・プロトタイプの分岐パイプライン，"情報処理学会研究会報告， ARC-86-3， 1991年l月

[原91b]原哲也:“DSN型スーパースカラ・プロセッサ・プロトタイプの設計f九州大学大学院総合理工学研究科イl多士論文， 1991年2月.

1村上90]村上ほか:“SIMP(単一命令流/多重命令パイプライン)方方式に基づくスーパースカラ・プロセッサの改良方針，n電子情報通信学会技術研究報告， CPSY-90-54， 1990 年7月.

• Stanford TORCH

• Stanford MATCH (b)研究用試作機(企業)

• Mitsubishi OMEGA

• Mitsubishi SARCH

• Hitachi On-chip M ultiple Superscalar Processor

• Me七aflow Lightning (c)商用機

• IBM RISC Sysもemj6000 [納富91a]納富ほか:“DSN型スーパースカラ・プロセツサ・プロトタイプのロード/ス

トア・パイプライン3"情報処理学会研究会報告， ARC-86-4， 1991年1月.

[納富91b]納富ほか:“DSN型スーパースカラ・プロセッサ・プロトタイプーアーキテクチャおよび静的コード・スケジ、ユーリングに関する総合評価一?"情報処理学会並列処理シンポジウムヲ91， 1991年5月.

• Intel i960CA

• N ational Semicond uctor Swordfìsh

• Motorola 88110

(9)

Table

A.1 研究用試作機(大学その1)

^Table

A.2 研究用試作機(大学その2)

I<yushu DDUS

I

Kyushu DSNS Stanford TORCH

I

Stanford MATCH

Category DDU DSN Category SSN DDN

Instruction Degree of Fetch 4 4 Instruction Degree of Fetch 2 2

Fetch Fetch Boundary Variable Fixed Fetch Fetch Boundary Fixed Fixed

Line Crossing Disallowed Line Crossing

Line Size 16 Instructions 16 Instructions Line Size ^? ^ワ

Functional Uniformity Uniform Nonuniform Functional Uniformity Nonuniform Nonuniform

Units TypexNumber a. General-purposex4 a. Integerx4 Units TypexNumber a. Integerx 3 a. Integerx 3

. Integer ALU (include b. Floating-poi n t x 4 b. Floating-pointx4 b. Floating-pointx4

LoadjStore， Branch c. LoadjSto的<2 c. LoadjStorex2 c. Loadx2

. Integer Multiplier d. Branchx1 d. Branch x 1 d. Storex2

. Floating-point ALU e. Controlx2 e. Branchx1

. Floating-point Mul.

Instruction Degree of issue 4 4 Instruction Degree of Íssue 2 2

Issue ClassxNumber a. Anyx4 a. Integerx2 Issue ClassxNumber a. Integerx 2 a. Integerx2

b. Floating-pointx2 b. Floating-pointx 2 b. Floating-pointx2

c. LoadjStorex2 c. LoadjStorex2 c. Loadx2

d. Branchx1 d. Branch x 1 d. Storex2

e. Controlx2 e. Branchx 1

日1hen Hazard Resolved? Dynamic Dynamic When Hazard Resolved? Static Dynamic

Codc When? Dynamic Static Code 日1hen? Static Dynamic

Schedllling Techniques Extended Tomaslllo Scheduling Techniques Tomasulo Algorithm

Algorithm Ordering Execution Order In-order Out-of-order

Ordering Execu tion Order o u t-of-order In-order Completion Order Out-of-order o u t-of-order

Completion Order Ollt-of-order o u t-of-order Branch Policy Static Branch Dynamic Branch

Branch Policy Dynamic Branch Static B ranch Handling Prediction Prediction + BTB

Ilandling Prediction + BTB Prediction + BTB + Delayed B ranch

Speclllative Conditional Mode Conditional Mode Speculative Boosting Conditional Mode

Execution + Reorder Buffer + Dual Rβgister File Execution 十Shadow Structure +R怠order Buffer

Recovery Selective Squashing Pipeline Flush Recovery Pipeline Flush Pipeline Flush

Precise-interrupt Scheme Reorder Bu汀er Weakly Precise Interrllpt Precise-interrupt Scheme Future File Ileorder Bllffer

First Announce 1987 1990 First Announce 1990 1990

�

(10)

Category DSN DSN

Table A.3

研究用試作機(企業その1)

11

Mats凶1ita OMEGA

I

Mitsubishi SARCH Table A.4

研究用試作機(企業その2)

Hitachi On-chip Multiple Mctaflow Lightning Superscalar Proccesors↑

Instruction Degree of Fetch 2 4

Fetch Fetch Boundary ^? Fixed

Line Crossing ^?

Line Size 4 Instructions ^?

Functional Uniformity Nonuniform Nonuniform

Units TypexNumber a. Integer， a. Integer x 3

Load/Storex一l b. Load/Storex1 b. Integer， Storex 1 c. Branchx1 c. Floating-pointx2

d. Branchx1

Instruction Degree of issue 2 4

Issue ClassxNumber a. In teger x 2 a. Integerx3

b. Loadx1 b. Load/Storex 1

c. Storex2 c. Branchx 1

d. Floating-pointx2 e. Branchx1

When lIazard Resolved? Dynamic Dynamic

Code When? Static Static

Scheduling Techniques

Ordering Execution Order Out-of-order In-order

Completion Order o u t-of-order Out-of-order

Branch Policy Static Branch Static Branch

Handling Prediction Prediction

+ Delayed Branch + Delayed Branch

Speculative Boosting

Execution

Rccovery Pipeline Flush

Precise-interrupt Scheme Directly Tag Compare ^?

First Announce 1991 1991

Category DSN DDN

Instruction Degree of Fetch 2 ₄

Fetch Fetch Boundary ^? Variable

Line Crossing ^? Allowed

Line Size ^? 8 Instructions

Functional Uniformity Nonuniform Nonuniform

Units TypexNumber a. Integer， a. Integerx2

Load /Store x 1 b. Floating-pointx 2 b. Integer， Branchx1 c. Load/Storex 1

d. Branchx1

Instrucも10n Degree of issue 2 ^ワ

Issue ClassxNumber a. Integerx2 a. Integerx 2

b. F loating-pointx 2 b. Floating-pointx 2 c. Load/Storex2 c. Load/Storex 1 d. Branchx1 d. Controlx 2

When Hazard Resolved? Dynamic Dynamic

Code When? Static Dynamic

Scheduling Techniques Register n.怠naming

Ordering Execution Order In-order o u t-of-order

Completion Order In-order Out-of-order

Branch Policy Dynamic Branch

Ilandling Prediction + BTB(?)

Speculative Conditional Mode

Execution + Reorder BuITcr

Recovery Pipeline Flush

Precise-interrupt Scheme Reorder BuITer

First Announce 1991 1991

tA chip contains two superscalar processors.

(11)

商用機(その1)

If--Tß

M RISC Systemj6000

I

Intel i960CA

DDN DSN

4 3 _{or 4}

Variable Variable

Allowed Allowed

16 Instructions 8 Instructions

Nonuniform Nonuniform

a. Integer， a.lntegerx1

LoadjStorex 1 b. LoadjStorex 1 b. Floating-pointx1 c. Branchx1 c. Branchx1

d. Controlx1

4 3

a. Integer， a. Integerx 1

LoadjSもorex1 b. LoadjStorex 1 b. Floating-pointx 1 c. Branchx1 c. Branchx1

d. Controlx1

Dynamic Dynamic

Dynamic Static

Register Renaming

In-order In-order

o ut-of-order Out-of-order

Predict-untaken Static Branch Prediction Conditional Mode Conditional Mode

Pipeline Flush Pipeline Flush G uaran tee-not-Înterru pted

1990 1990

商用機(その2)

NS Swordfish

I

DSN 1 or 2

Fixed

1 or 2 Instructions (8 byt白) Nonuniform a. Integer，

LoadjStorex 1 b. Integer，

LoadjStor Floating-point，

Branchx 1 2 a. Integerx 2 b. Floating-pointx1 c. LoadjStorex2 d. Branchx1

Dynamic Static

In-order In-order PredicL-taken

1991

Motorola 88110 DS(D)N↑

2 Variable AlIowed(?) 8 Instructions

Nonuniform a. Intcgcrx4

b. Floating-pointx 2 c. Graphicsx2 d. LoadjStorex 1 e. Branch x 1

2 a. Integerx2 b. Floating-pointx2 c. Graphicsx2 d. LoadjStorex 1 e. Branch x1

Dynamic Static (+ Dynamic)↑

Reservation Stations↑

In-order Out-of-order DynamicjStatic(?) Branch Prediction + BTD

Conditional Mode

+ History ßuffer Pipeline Flush IIistory Bu汀er

1991

↑The order of LoadjStore instructions are scheduled dynamically using store reservation stations.

(12)

付録B

試作プロセッサの命令一覧

凡例

B : boost bit ^* : 0 or 1

OP.codc : Operation code + : add

GR : General Register ^{: Sll}btracも

FR.s : Floating-point Regisもer (single) ^× : mlllもiply FR.d : Floati時point Regisもer (double) : divide TR : 1ì'uejFalse Register & : logical and

TBR : Trap Base Registe1' : logical 01'

PC : P1'og1'am counもe1' ③ : exclusive 01'

Reg. : Regisもer α?b : c : ifαもhen b else c

Imm.η :ηbits Immediate ^-， : complement

Cond. : Condition |η| : absoluもe

.tag : Tag五e1d of Register 《 : 1eft shift

FU : Functional Unit 》 : rgiht shift

d : don't ca1'e 川f : Wrapped Numbers

U : Un1'Ollnded Normalizecl Numbers D : Deno1'ma1ized Numbe1's

B.l

コンディション・フィールドの詳細

GRのコンデイション・フィールド(GRタグ)は4ピット長で，以下のフィールドを持つ.

|

^N

I

^Z

I

^V

I

^C

I

N(negative): Sign Flag Z(ze1'O): Zero Flag V(oVerfiow): Overfiow Flag C(Carry): Carry Flag

FRのコンディション・フィールド(FRタグ)は4ピット長で，以下のフィールドを持つ. なお，

保持される内容は比較命令と算術命令とでは異なり，算術命令では例外情報がセットされる.

|I I I I

AW A叩較レ『UBrir

一意味一時

|

^例外情報

0000 Equal Resulもニ+0 or -0， exact

0001 Less than Result = +infinity or -infinity， exact 0010 Greater than Result日nite and -:j=. 0， exact

0011 Resulも自nite and i= 0， inexact

0100 - not used

0101 Overfiow & inexact

0110 Under自ow

0111 U nderflow & inexact

1000 Operand A is denormalizcd

1001 Operand B is denormalized

1010 Operand A & B are denormalized

1011 Di vide by zero

1100 Operand A is NaN↑

1101 Operand B is NaN

1110 Operand A & B are NaN

1111 Unorderd lnvalid Operation

」一一一

↑Not a Number

(13)

B.2 分岐条件決定における条件一覧

-GRレジスタのテスト条件

r

^Mnemonic

^I

^Con仙

T True 0000

F False 0001

III IIigh 0010

LS Low or Same 0011

NC NoもCarry 0100

C Carry 0101

NZ Not Zero 0110

Z Zero 0111

NV Not Overflow 1000

V Overflow 1001

P Plus 1010

M Minous 1011

GE Greater or Equal 1100

LT Less Than 1101

GT Greater Than 1110

LE Less 01' Equal 1111

. : logical and + : logical or

-FRレジスタのテスト条件

I

^Mnemonic

I

^Condition

T True

F False

U Unordered

G Greate1'

UG Unorde1'ed or G1'eater

L Less

UL U nordered or less

LG Less or G1'eater

NE Not Equal

E Equal

UE U nordered 01' Eq ual GE Greater 01' Equal

。 C'.z C'+z

C C Z Z V V N N N.V+N.V N.V+N・V N.V.Z+N.V.Z

N+N.V+N.V X: not

I

^C

o��J

Test Operation

I

0000

0001 。

0010 U

0011 G

0100 G+U

0101 _L

0110 L十U

0111 L+G

1000 L+G+U

1001 _E

1010 E+U

1011 _E+G

UGE Uno1'dercd or Greater 01' Equal 1100 _E+G+U

LE Less or Equal 1101

ULE Unordered 01' Less 01' Equal 1110

。 Ordered 1111

+ : logical 01'

E : Equal (0000)

U : Unordered (1111)

L : Less (0001) _G:G日ate1' (0010)

E+L E+L+U E+L+G

B.3 DDUSフロセッサの命令一覧

Figure B.l

DDUSプロセッサの命令フォーマット

(14)

Table B.l DDUSプロセッサの命令表 Integer Load/Store Instructions

I ^1DI ÔP I ÎmmI ÔP2 I ^Mnemonic I Ôperation

。。 0000 。 ^Oddddd ^LDBS ^GR⁼Signed memory(GR + GR)

。。 ⁰⁰⁰⁰ ¹ ^Oddddd ^LDBS ^GR⁼Signed memory(GR + Signed Imm.ll)

。。 ⁰⁰⁰¹ 。 ^Oddddd ^LDHS ^GR⁼Signed memory(GR + GR)

。。 ⁰⁰⁰¹ ¹ ^Oddddd ^LDHS ^GR⁼Signed memory(GR + Signed Imm.ll)

。。 0010 。 ^Oddddd ^LDW ^GR⁼^memory(GR⁺^GR)

。。 ⁰⁰¹⁰ ¹ ^Oddddd ^LDW ^GR⁼^memory(GR⁺Signed 1m肌

。。 ⁰⁰¹¹ 。 ^Oddddd ^LDL ^GR⁼^memory(GR+ GR)

。。 0011 Oddddd LDL GR二memory(GR + Signed Imm.ll)

。。 ⁰¹⁰⁰ 。 ^Oddddd ^LDBU ^GR⁼Unsigned memoηr(GR + GR)

。。 ⁰¹⁰⁰ ^l ^Oddddd ^LDBU ^GR⁼Unsigned memory(GR + Signed 1m瓜

。。 ⁰¹⁰¹ 。 Oddddd LDHU GR = Unsigned memory(GR + GR)

。。 0101 Oddddd LDHU GR = Unsigned memory(GR + Signed Imm.11) 00 0110 。 ^Oddddd ^LDSR SRニSigned memory(GR + GR)

。。 0110 1 Oddddd LDSR SR = Signed memory(GR + Sign吋Imm.11)

。。 ⁰¹¹¹ 。 ^Oddddd ^STSR ^memory(GR⁺^GR)

。。 0111 l Oddddd STSR memory(GR + Signed 1m瓜11)

。。 ¹⁰⁰⁰ 。 ^Oddddd ^STB ^memory(GR+ GR)

。。 1000 1 Oddddd STB memory(GR + Signed 1mm.11)

。。 1001 。 Oddddd STH memory(GR + ^GR)

。。 1001 1 Oddddd STH memory(GR + Signed Imm.11)

。。 1010 。 ^Oddddd STW memory(GR + GR)

。。 1010 1 Oddddd STW memory(GR + Signed Imm.ll)

。。 1011 。 Oddddd STL memory(GR + GR)

。。 ¹⁰¹¹ 1 Oddddd STL memory(GR + Signed Imm.ll)

Floating-point Load/Sto閃Instructions

己D

I ÔP I Î�竺 I ÔP2 L ^Mnemonic I Operation

。。 ¹¹⁰⁰ 。 Oddddd LDFS FR.s二memory(GR+ GR)

。。 ¹¹⁰⁰ ^l ^Oddddd ^LDFS FR.sニmcmory(GR + Signed 1rnm.ll)

。。 ¹¹⁰¹ 。 Oddddd LDFD FR.d = mcmo

。。 ¹¹⁰¹ ^Oddddd ^LDFD ^FR.d⁼^memory(GR⁺Signed Tmm.ll)

。。 ¹¹¹⁰ 。 Oddddd STFS memory(GJl + GR) ⁼FR.s

。。 ¹¹¹⁰ ¹ ^Oddddd ^STFS memory(Gll + Signed Imm.ll)ニFR.s

。。 ¹¹¹¹ 。 ^Oddddd STFD memory(Gll + GR)ニFILd

。。 ¹¹¹¹ ¹ ^Oddddd ^STFD memory(GR + Signed 1mm.1l) = FR.d

Shift，乱10nadic Operation， Bit Operation Instructions

P^DI ÔP I ÎmmI ÔP2 ^Mnemonic Ôpe川lon

。。 0000 。 ^1ddddd ^SHA ^GRニGR^�GR or GR = GR � GR

。。 ⁰⁰⁰⁰ ^l ^1ddddd ^SHA ^GR⁼^GR^�Imm.5 or GR = GR � Imm.5

。。 ⁰⁰⁰¹ 。 1ddddd SHL GR = GR � GR or GR = GR � GR

。。 ⁰⁰⁰¹ ¹ ^1ddddd ^SHL ^GR⁼^GR^�Imm.5 or GR = GR � Imrn.5

。。 0010 。 ^1ddddd ^ROT ^GR⁼GR rotate GR

。。 0010 l 1ddddd ROT GR = GR rotate Signed Imm.6

。。 ⁰⁰¹¹ 。 ^1ddddd ^NEG ^GR⁼^(-GR)

。。 0011 1ddddd

。。 ⁰¹⁰⁰ 。 ^1ddddd ^EXTB ^GR⁼^(GR& (1 � GR)) ? 1 :。

。。 0100 l 1ddddd EXTB GR = (GR & (1 � 1mm.5)) ? 1 :。

。。 0101 。 ^1ddddd ^SETB ^GR⁼^{GR I (1}^�^GR)

。。 0101 l 1ddddd SETB GRニGR I (1 � 1mm.5)

。。 0110 。 ^1ddddd ^RESB ^GR二GR & ，(1 � GR)

。。 0110 1ddddd RESB GR = GR & ，(1 � Imm.5)

。。 0111 。 1ddddd PRIOR GR = priority(GR)

。。 0111 l 1ddddd

」ー

スーパースカラ・プロセッサの構成方式に関する研 究

九州大学学術情報リポジトリ

Kyushu University Institutional Repository