PALS シミュレータの実装方法 - システムシミュレータの開発 - 3.2 2 パス限定投機システムのハードウェア設計

3.2 2 パス限定投機システムのハードウェア設計

3.3 システムシミュレータの開発

3.3.5 PALS シミュレータの実装方法

図3.16にシミュレータの構成を示す．図中の丸はクラスを表している．太矢印はクラス間のインクルード関係を表しており，細矢印はクラスの継承関係を表している．ISIS-SimpleScalarにおいて中心となるのは，SimpleScalarをもとにしたプロセッサクラスであり，ISISにより提供されるキャッシュやメモリ，ポート等のユニットを内部にインクルードしている．このうち，ポートクラスはポート間での通信内容を定義したパケットクラスをインクルードしている．プロセッサやメモリといった通信を行いたいユニットクラスで同一のポートクラスをインクルードすることにより，ユニット間での通信が実現できる．

既存プロセッサへの変更を極力抑えつつ，TUにおけるマルチスレッド実行に関する独自の機能を実装するため，TUはISIS-SimpleScalarのプロセッサクラスで

ISIS-SimpleScalar’s libraries

source codes for hardware units of PALS

palsim

link

processor core

port

packet

cache memory top

module

TU-TU port

TU-TU packet

TU-MB port

TU-MB packet

TMU

2-level path predictor

compile and link

include inheritance

図 3.16: シミュレータの構成

ある isim processorクラスを継承して構築する．また，TMUやMBはPALS独自のハードウェア機構であるため新規に実装した．

PALSの各ハードウェア機構間での通信を実現するためには，それぞれの通信に対してポートとパケットクラスを用意する必要がある．図中では，TU-TU間通信とTU-MB間を一例として記載している．まず，ISIS-SimpleScalarに包含された ISISのパケットクラス (packetクラス) を継承して，どのようなデータ・通知を通信するかを定義したパケットクラスを作成する．同様にポートクラス (portクラス) も継承し，作成したパケットクラスをインクルードする．

このように各ハードウェアクラスと通信ごとにポートクラスを作成する．それらは，トップモジュールクラスにより接続される．トップモジュールクラスはシミュレータ実行時に各ハードウェアの初期化やクロックの入力を行う．これらのプログラムをコンパイル・リンクしpalsimを構築することができる．

既存プロセッサ内部に対する大きな変更点としては，プロセッサのメモリアクセスに関する処理がある．TUでは全てのメモリアクセスをMBに対して行う必要があるが，ISIS-SimpleScalarでは各プロセッサが独自に利用するデータは全てプロセッサ内部のローカルメモリに格納される．このため，既存プロセッサにおけ

るローカルメモリへのアクセスを行うか否かを判定する条件分岐の結果が必ず偽となるよう変更し，この分岐先においてMBへのポートにメモリアクセスを発行することで，投機的なメモリアクセスを実現した．

3.3.6 システムシミュレータを中心とした評価環境

システムシミュレータpalsimでプログラムをマルチスレッド実行するためには，

投機スレッドコードを含んだバイナリファイルを作成する必要がある．投機スレッドコードには，マルチスレッド実行を制御するためのPALS固有の命令が含まれているため，一般に使用されているコンパイラではバイナリファイルを作ることができない．図3.17にマルチスレッド化対象プログラムのソースコードをpalsim で実行するまでの流れを示す．図中の四角は入力したファイルに応じて処理を行うプログラムである．

まず，対象プログラムのソースコードをクロスコンパイラに入力し，バイナリファイルを得る．クロスコンパイラは，PALSにおいてISAのベースとしている PISA用クロスコンパイラであり，GCC (GNU Compiler Collection)をベースとしている．ここで出力されるバイナリファイルは，PALS固有の命令を含んでおらず，命令がPISA形式になっているだけである．

そして，このバイナリファイルとデータセットを入力として，パスプロファイラを実行する．パスプロファイラからは，実行したバイナリファイルのプロファイリング情報が出力される．プロファイリング情報には，プログラム全体を通して頻繁に実行されたループ，そのループに存在するパスの分岐履歴，プログラム全体を通したループごとのパスの実行割合等が含まれている．入力データセットを変えることによって，複数のプロファイリング情報を取得することもできる．

次に，プロファイリング情報と元のソースコードを入力として，投機コード生成処理系[22]を実行する．投機コード生成処理系はプロファイリング情報をもとに，ソースコードから#1パスおよび#2パスを抽出し，それぞれの投機スレッドコードを作成する．このとき，レジスタの依存関係を解析し，レジスタの同期通信を行うためのforward bitの付加を行う．また，マルチスレッド実行を制御するためのstart2path命令やstop2path命令，パス予測失敗を判定するための分岐命令のassert命令への置き換え等も行う．

source code

cross-compiler

executable binary

path profiler

profiling result

speculative code generator

parallelized source code

PALS simulator data

sets

data sets cross-compiler

parallelized binary

program data profiling

result source

code

(a) !"#$%&'()*

+,-./01234

(b) !"#$%&'()*

+,-./012345678

図 3.17: プログラムをpalsimで実行するまでの流れ

そして，出力した並列化ソースコードを再度クロスコンパイラに入力し，並列化バイナリファイルを作成する．並列化バイナリファイルをpalsimでマルチスレッド実行すると，実行終了後にサイクル数や投機成功率等の統計情報が出力される．

この統計情報を用いて，PALSによる性能向上の評価を行うことができる．

シミュレーションパラメータを表3.2 に示す．スレッドを実行していないTU に対するTMUからのスレッド生成は，TMUにおけるパス予測に1サイクルと，

TUへの送信に1サイクルかかるものとし，2サイクルかかるものとする．TUが

start2path命令を実行し，TMUがマルチスレッド実行モードになってから最初

にスレッド生成を行うまでには，TMUの初期化等が必要になるためさらに多くのサイクルがかかる．TMUにおけるパス予測のためのカウンタテーブルのビット長は2とする．初期値および閾値は 10 とする．

表 3.2: シミュレーションパラメータスレッド生成 1サイクル

TMU 2レベル分岐予測を基にした2レベルパス予測カウンタテーブルのビット長2

TU 4命令同時実行アウトオブオーダ TU-TU間同時通信可能レジスタ数 4 MAU レイテンシ1サイクル

MB，LS各エントリ数32 4ウェイセットアソシアティブ

LRU 1次キャッシュサイズ16Kバイト

命令・データ分離レイテンシ2サイクルメインメモリレイテンシ100サイクルハードウェア機構間通信単方向送信レイテンシ 1サイクル

ドキュメント内プログラムの実行挙動に基づく投機的並列実行方式に関する研究 (ページ 58-62)