割り当てるスレッドの決定 - 再利用オーバヘッド削減スレッドによる自動メモ化プロセッサの高速化手法

図16: スレッド性能見積もり用ハードウェア

例4：スレッドを動的に切り替えるモデルの説明用プログラム

¶ ³

1: int weight = 1;

2: int array_mul(int num, int a[], int b[]) { 3: int i, v = 0;

4: for(i = 0; i < num; i++) 5: v += a[i] * b[i];

6: return (v / weight);

7: }

8: int main(void) {

9: int x, y, z, i, a[3] = {1, 2, 3}, b[3] = {4, 5, 6};

10: x = array_mul(3, a, b);

11: x = array_mul(1, a, b);

12: y = array_mul(3, a, b);

13: ...

14: z = array_mul(3, a, b);

15: ...

16: for(i = 0; i <= 1023; i++) 17: z += (int)sqrt(i);

18: return (0);

19: }

µ ´

た領域に設ける．そのため，スレッド性能の見積もりに使用するシフトレジスタは，命令区間によって区別されない．これは各命令区間毎の投機スレッドや並列事前実行スレッドによる高速化効果を把握したいわけではなく，プログラム全体としてのスレッドの有効性を把握したいためである．

続いて例4のプログラムを例に，プログラム実行中の図16に示したシフトレジスタの具体的な動作を，図17のシフトレジスタの状態図を用いて述べる．なお，図17中の記号(a)から(f)は時系列順に割り振られている．例4のプログラムを実行し，11行目までの命令実行を終えた時点で，MemoTblには関数array mul(3, a, b)及びarray mul(1, a, b)に対応する入出力セットが登録されている．その後，12行目で関数array mul(3,

a, b)に対する入力値検索に成功したとする．入力値検索に成功した時点で，シフトレ

図17: シフトレジスタの動作説明図

ジスタP及びSを1ビット右シフトする(a)．その後，当該関数に対して投機的再利用にも成功したとすると，シフトレジスタPの最上位ビットに1をセットする．また，

12行目の関数の入出力セットは並列事前実行スレッドによって登録されたエントリではなかったとすると，シフトレジスタSの最上位ビットに0をセットする(b)．14行目の関数array mul(3, a, b)に対しても投機的再利用が成功したとすると，12行目の場合と同様の操作を行う(c)(d)．以上より14行目の関数array mulに対する入力値検索が終了した時点では，Pの上位2ビットに1が格納されており，Sの全ビットは0である．

引き続き命令を実行し，16行目から17行目までで構成されるループ区間に到達したとする．このとき，並列事前実行スレッドが登録したエントリを用いて当該ループに対する入力値検索が成功したとすると，シフトレジスタP及びSの各ビットを1ビット右シフト(e)した後，1回の入力値検索成功につきシフトレジスタSの最上位ビットに，1が登録される(f)．

提案モデルではシフトレジスタP及びSの有効ビットの数を比較する事により，各スレッドの有効性を判断し，スレッドの切り替えを行う．各スレッドの有効性の判断には以下の計算式を用いる．

N^P > a (3)

N^S−N^P > b (4)

なお，N^P 及びN^SはそれぞれシフトレジスタP及びS中の有効ビットの数であり，a 及びbは定数である．式(3)の条件を満たし，なおかつどのコアにも投機スレッドが割り当てられていない場合，投機スレッドが有効であると判断し，並列事前実行スレッドの1つを投機スレッドに切り替える．一方，式(4)の条件のみを満たし，いずれかの

コアに投機スレッドが割り当てられている場合，投機スレッドより並列事前実行スレッドの方が有効性が高いと判断し，投機スレッドを並列事前実行スレッドに切り替える．

投機スレッドの切り替えはシフトレジスタS中の有効ビット数に依存せず，シフトレジスタP中の有効ビットの数のみを切り替えの基準に用いる．式(3)及び(4)の両方の条件を満たさない場合，各コアに割り当てるスレッドの切り替えは行われない．現在の実装では，並列事前実行スレッドは複数のコアに割り当てることができるが，投機スレッドは1スレッドしか割り当てることができない．そのため，投機スレッドが有効であると判断した場合は，並列事前実行スレッドよりも投機スレッドを優先して割り当てる実装とした．

ドキュメント内再利用オーバヘッド削減スレッドによる自動メモ化プロセッサの高速化手法 (ページ 34-37)