性能に関するそのほかの要素に関する議論

第 4 章改良 FUNCTION 方式によるエミュレータの速度性能の評価

4.7. 性能に関するそのほかの要素に関する議論

これより前の章節では，コアループ処理，その中でも逐次多段分岐を中心に性能改善の評価を行ってきた．それは，そのほかの要素の影響が小さいからである．結論としては，

CISCの条件コード生成のオーバヘッドは比較的小さく，またそれ以外に取り上げた項目の影響度は極めて小さく無視可能である．本節ではそれを確認する意味で敢えて取り上げる．

まず，4.7.1で一括分岐方式，4.7.2で分岐のオーバヘッド，4.7.3でキャッシュミス，4.7.4

でエンディアン，4.7.5でCISCレガシーへの適用，4.7.6でOS性能への影響について論じる．

4.7.1. 一括分岐方式の有効性

今までの議論では定量的に触れなかった一括分岐方式の速度性能に関して述べる．

一括分岐方式では，opcodeの値によりsubopフィールドの有無判定とフィールド位置を選択する必要があるが，その選択に分岐命令を用いると，逐次多段分岐に性能面で劣ってしまう．これは，実際のプログラムでは2.3.5.2の図19（41ページ）に命令のデコード回数を示したように，逐次多段分岐では 1 回の間接分岐で済んでしまう確率が高いこと，一括分岐方式ではその判定・選択処理で投機実行の分岐予測がはずれる確率が高いことによる．

レガシーISAがPowerPC，ホストに2ビットの分岐予測機構を持つMPC7450，評価プロ

グラム 099.go を用いて，分岐命令と予測ミス回数をシミュレーションした．その結果，1

回デコードの命令（実行頻度 65.6%）と2回デコードの命令（実行頻度34.4%）を判定する処理で発生する分岐予測ミス率は 42.6%と非常に大きく投機実行ミスのペナルティが効いてくることを確認した．

また，分岐を使わず，opcode値より表引きにより関数ポインタ位置の計算を，

((opcode >> optbl[opcode].shift)&optbl[opcode].mask) + optbl[opcode].offset

のようにシフト値，マスク値とオフセット値を使う方法がある．この方法では表の構造体メンバをアクセスする際のキャッシュメモリアクセス時間が増加し，更にレジスタ本数が不足しやすくなるため，分岐を使った方法より実行が遅くなる．別の改善例としては，シ

フト値とマスク値とオフセット値を32ビットの1つのデータにまとめてキャッシュメモリ参照を3回から1回に減らしopcodeとsubop1までの2フィールドまで一括分岐する方法がある．このように改良された一括分岐方式では，2回以上デコードを行う確率が高い，分岐パイプラインが深い，ホストの汎用レジスタ本数が多い，という条件が重なると逐次多段分岐方式より一括分岐方式が有利となりうる．func-opt にこの改善を施した一括分岐方式を適用して099.go （30，11）実行した．その各レガシーISAのCPI値の結果を表13に示す．括弧内は func-opt を基準とした CPI 増加値である．レガシーISA が MIPSlike や

PowerPCのようにopcodeが6ビットのものではCPIが増加し効果がない．一方SH4や

M32Rではopcodeが4ビットと短く2回以上のデコードがそれぞれ79.4%，86.5%と大き

いため CPI が減り効果が出ている．MPC7450 よりパイプライン段数が深く使用可能レジスタ本数が多いSparcIIIiでは，opcodeが6ビットではCPI増はより少なく，4ビットでのCPI削減効果はより大きくなっている．SparcIIIiでは，一括分岐方式は逐次多段分岐方式に比べてSH4は6.8%，M32Rが10.6%高速になっている．

表13 一括分岐方式のCPI

Host MIPSlike PowerPC SH4 M32R SparcIIIi 33.1 (+2.1) 46.2 (+3.9) 39.4 (-2.7) 40.4 (-4.3) MPC7450 33.1 (+6.3) 43.5 (+5.2) 35.6 (-0.7) 36.2 (-1.1)

このように一括分岐方式は，定性的には有効な領域が存在するが，レガシーの命令語長が32ビットでは逐次多段分岐に劣り，16ビットでは4.6で述べたように一括冗長分岐が可能となるため，性能面での効果は見られない．

4.7.2. 分岐のオーバヘッド

インタプリタ方式のエミュレータでは，分岐予測ミスが多くオーバヘッドになるといわれている．次に，分岐予測ミスについて検討する．

例外条件検出処理においては，通常，分岐予測ミスが発生することはないが，データ値の判定やレガシー命令の条件付分岐命令の処理では予測ミスが発生する．図9（2.2.1.2）に

示す IMM（符号付定数）や TARGET（分岐オフセット）の生成において，命令語のビッ

ト48 により判定し負ならば0xFFFF0000をORする実装では値が正のときの速度性能は向上するが，分岐予測ミスによるオーバヘッドが増大し平均性能は低下してしまう．このような処理は，算術シフトと cast の記述により符号拡張演算を行うことで回避でき，

sim-safeでも実施されている．

一方，sim-safeのように64ビットの結果を得る32ビット乗算を，シフト，判定，加算を乗数ビット分繰り返す実装法を採ると，乗数のビット値により分岐予測ミスが発生する．

この場合はlong long宣言を用い倍精度乗算に相当するコードを生成する方法や，16 ビット乗算 4 回と加算による方法などが有効となり，これによる分岐オーバヘッドは削減可能である．

インタプリタの実装において原理的に削減できない分岐予測ミスの要因には，レガシー ISAの条件付分岐命令がある．PISAではSPEC CPU95（13種）全命令中1～18%が条件付分岐命令の可能性がある分岐命令であり，各々の分岐確率を 50%とし平均をとると，レ

ガシー命令あたり 1 個あたり4.5%の分岐予測ミスが発生することになる．CPI換算では，

SparcIIIi では0.27，MPC7450では0.15のオーバヘッドとなる．func-optの場合のCPI 値はSparcIIIi が28.6，MPC7450が24.6であり，それらへの影響は0.9%と0.6%と無視できる範囲である．

4.7.3. キャッシュミスの影響

インタプリタ方式のエミュレータでは，命令キャッシュは通常ヒットする．データキャッシュでは，エミュレータ変数はヒットするが，レガシーのデータとともにレガシーの命令もデータキャッシュを使用するためそのミス率は増加する．実在するレガシーISA の

PowerPC（MPC7450）の実行例として099.go（5, 6）のキャッシュシミュレーションした

結果を表14に示す．MPC7450でのネイティブ動作ではデータ一次キャッシュのミスが165

×10³回であり，エミュレーション動作では 5.4倍の 888×10³回のミスに増大した．しかし，エミュレーションにより命令数が 68 倍に増大したのにキャッシュミスは 5.4 倍に留まったためその影響は大幅に薄まっている．この影響をCPI換算にすると0.2以下でCPI

値33.9の0.5%以下となり，これも無視可能な範囲である．

表14 MPC7450ネイティブとエミュレーション動作のキャッシュミス回数命令数命令1次キャッシュミス回数データ1次キャッシュミス回数

Native(N) 25,331,926 307,163 165,420

Emulation(E) 1,721,410,099 308 888,293

E/N 68.0(IPI) 0.0010 5.37

4.7.4. レガシーとホストのエンディアンの差異

レガシーISAとホストのエンディアンが異なる場合は，アドレスに対し16ビットアクセスならば0x2を，8ビットアクセスならば0x3との排他論理和を取る命令1個の追加により補正が可能である．この命令によるオーバヘッドは，SPEC CPU95 13本でCPI増加が

平均0.06，最大0.12である．なおemu-PISAとemu-MIPSlikeはリトルレンデイアンの

レガシーをビッグエンディアンのホストで実装した結果である．またPowerPCのようにレガシー命令にアドレス境界制約がない場合には境界を跨ぐ場合に 1 バイトずつ処理することで実現しているが，境界を跨ぐ確率自体が低いため，性能低下に対する影響はほとんど無い．したがってエンディアンの違いも無視可能な範囲である．

4.7.5. CISCレガシー命令セットへの適用効果

レガシー命令セットがCISCのときの速度性能を考察する．同一のプログラムで比較するとCISCはRISCに比べて命令数が少なくて済むため，インタプリタの処理時間の支配項であるコアループの実行回数が減りその分，処理は高速になる．一方，CISCでは一般的に条件コード生成（フラグのセット）が必要なためそのオーバヘッドの増加が懸念される．

オーバフローやキャリーなどの条件コードの生成は，C 言語で実装すると 4～10 命令程度を要する煩雑な操作に変換されるため，エミュレーション性能上の課題と考えられがちである．RISC系のレガシーISAには条件コードを使わない比較・分岐命令を備えたものが

多く，条件コードを使用しているPowerPCでも性能への影響は大きくない．その評価例 [6]

のデータを表15に示す．

表15フラグ生成を伴う命令の実行頻度 099.go 129.compress 130.li 算術演算 0.058% 0.429% 0%

論理演算 0.013% 0% 1.684%

シフト演算 0% 0% 0%

CISC系レガシーISAのインタプリタ性能を議論する．実在するCISC命令セットによる評価は，開発環境と動作可能な汎用ベンチマークプログラムの入手が困難である．そこで，

MIPSlike に IBM System370 の条件コード [22]に相当する条件コード生成を実装して

SPEC CPU95による評価を行った．条件コードは0～3の値であり命令により生成方法を，

論理演算ではゼロと非ゼロの ZN，オーバフローの無い演算では正負符号を含めた ZMP，

オーバフローやキャリーを含む CO，浮動演算結果の FLTに分類した．各々の実装ではホスト固有の条件コードレジスタを参照した実装は行わずに，単純に比較分岐，シフト，論理演算を行う C 言語記述をした．MIPSlike ではもともとオーバフロー検出する ADD と ADDUを区別しているが，CISCでは一般にそのような区別が無いことが多いためADDU,

ADDIUなどはすべてCOと定義した．図25に各条件コードの生成頻度（左軸，縦棒）と，

生成による CPI 増加オーバヘッド（右軸，折れ線）を示す．オーバヘッドはエミュレータ

func-optを基準とし，それに条件コード生成を追加したことによるCPI増分をfunc-optの

CPIで割った値である．CPI増オーバヘッドは，MPC7450ではCINTが11%，CFPが19%，

SparcIIIiではCINTが13%とCFPが14%と比較的小さい．CINTではSparcIIIiはパイプライン段数が深く分岐オーバヘッドが多い分 MPC7450 よりオーバヘッドが大きいが，

CFPではプログラムにより傾向が異なっている．生成頻度の平均は43%でCOが30%占めている．これはアドレス加算によく使用されているADDU命令とADDIU命令の頻度が併

せて 26%あり，System370/XA の条件コード生成しないLA命令相当のものも多く含まれ

ていると考えられる．この命令種の統計では，演算がないロード命令とレジスタ間のムーブ命令なども 25%を占め，仮に CISC化によりそれらが一切なくなり命令数がその分減ったとしてもオーバヘッドが1.3倍程度に増えるに過ぎない．以上のように，レガシーがCISC で条件コードの生成確率は高いが，オーバヘッドはそれほど大きくないと予想され，コアループが支配項であることには変わりない．

ドキュメント内命令レベルシミュレーションの高速実行に関する研究 (ページ 74-78)

第 4 章 改良 FUNCTION 方式によるエミュレータの速度性能の評価

4.7. 性能に関するそのほかの要素に関する議論

第 4 章改良 FUNCTION 方式によるエミュレータの速度性能の評価