性能評価 - ベクトル化向け高位プログラム変換方式 - 高位プログラム変換により対象メモリアーキテクチャに適合した並列プログラムが生成可

2. 高位プログラム変換により対象メモリアーキテクチャに適合した並列プログラムが生成可

2.3 ベクトル化向け高位プログラム変換方式

2.3.3 性能評価

る。ここでは、#pragma loop count (16) などと SIMD レジスタサイズより大きくすればよい。

最後に、型変換が自動ベクトル化できない制約を解決するための処理をおこなう。画像処理では、入力画像の符合なし 8 ビット整数で表現される画素を入力とし、符合付き 16 ビット整数などで計算をおこない、計算結果を再び出力画像の符合なし 8 ビット整数の画素に戻す型変換が必要となる。この後半の型変換が、想定したコンパイラでは自動ベクトル化できないという制約がある。そこで、計算結果を一時保存する 16 ビット整数型の型変換解決用の配列を用意し、そこへ代入するようにする。これにより、その代入の処理までは自動ベクトル化できない型変換が入らなくなるため、自動ベクトル化が可能となる。型変換解決用の配列から出力画像にデータをコピーする後続の処理のみが自動ベクトル化されないようになる。

30 function img = prewitt(M)

Type({[1080,1920],'uint8'},M); % input image type Type({[1080,1920],'uint8'}); % output image type base = [-1, -1]; step = [1, 1]; size = Size(M); esize = [3, 3];

img = Map(@f, MExtract(M, base, step, size, esize));

end

function ret = f(m) v = [ 1, 1, 1;

0, 0, 0;

-1, -1, -1];

h = [1, 0, -1;

1, 0, -1;

1, 0, -1];

p = abs(Sum(h .* m)) / 2 + abs(Sum(v .* m)) / 2;

if p > 255

ret = 255; % saturated at largest possible value else

ret = p;

end end

図 2.10. MExtract2Extract 変換前の Prewitt フィルタプログラム

P = (abs(Extract(M, [-1, -1], Size(M)) + Extract(M, [-1, 0], Size(M)) + Extract(M, [-1, 1], Size(M)) - Extract(M, [1, -1], Size(M)) – Extract(M, [1, 0], Size(M)) - Extract(M, [1, 1], Size(M))) ./ 2) + (abs(Extract(M, [-1, -1], Size(M)) + Extract(M, [0, -1], Size(M)) +

Extract(M, [1, -1], Size(M)) - Extract(M, [-1, 1], Size(M)) – Extract(M, [0, 1], Size(M)) - Extract(M, [1, 1], Size(M))) ./ 2);

図 2.11. MExtract2Extract 変換後の Prewitt フィルタプログラム

評価環境は、表 2.1 の Core 2 Quad を用いた。また、C コンパイラには、Intel C++ コンパイラ 10.0 を用いた。コンパイルオプションは、-ipo –xT -O3 を用いた。-O3 は、高速なコードを生成する-O2 の最適化に加えて、スカラー置換、ループのアンロール、ループブロッキングなど強力なループの最適化およびメモリアクセスの最適化をおこなう[126]。また、対象のプロセッサを指定する-xT はベクトル化のためのオプションで、SSSE3 命令、SSE3 命令、SSE2 命令、SSE 命令を生成する。

ベクトル化およびマルチコア並列化の効果を図 2.12 で確認する。速度向上は、Extract() への変換を行わない場合の実行時間(図中の MExtract(AutoVec)) を基準としている。

Extract()への変換までをおこなった場合を Extract(AutoVec)、同変換後にコンパイラヒントを挿入した場合を Extract + CH(AutoVec)、さらに 4 コアで並列化した場合を 4core で示す。また、比較のために、Intel C++コンパイラのイントリンシックを使ってベクトル化をした場合を Extract(Intrinsics) と示す。

Extract()への変換を行わない場合、ループの最適化やベクトル化のコンパイラオプションを使用しても自動ベクトル化はできなかった。最内ループの回転数が短いため自動ベクトル化がでなかったのためループの展開ができなかったと考えられる。Extract()への変換までをおこなった場合でも自動ベクトル化はできなかったが、ループオーバヘッドが減ったことやフィルタ定数との必要のない演算が減ったことで、それぞれ 3.3 倍、5.8 倍、8.9 倍の速度向上を得ることができた。

同変換後にコンパイラヒントを挿入して自動ベクトル化することで、それぞれさらに 1.4 倍、2.4 倍、2.6 倍の速度向上が得られることが確認できた。自動ベクトル化しない場合は、1 画素単位で処理が行われる。これに対して、自動ベクトル化した場合では、4 画素単位で処理されるようになる。ラプラシアンフィルタの例では、4 バイトのロードが 9 回実行され、それぞれがパックドダブルワードに変換された後、パックドダブルワード同士の演算が行われる、4 並列のベクトル化がなされる。

一方で、イントリンシックを使った場合との比較では、それぞれさらに 1.4 倍、1.3 倍、

2.0 倍速度向上できる余地を残していることがわかる。イントリンシックを使ったものでは、パックドワードでの 8 並列のベクトル化を行っている。自動ベクトル化の場合に 4 並列になっているのは、現状の処理系で、プログラムの処理過程で必要な中間値の型を C++

のデフォルト型変換ルールに従って素直に決定しているためである。そのため、本来は 16 ビット整数でビット長が足りるところを 32 ビット整数を利用している。また、データ転送は、16 バイトで転送をおこなった方が効率がよい。このため、イントリンシックを使ったものでは、16 画素分に相当する 16 バイトのロードを 9 回おこない、レジスタ上で上位ビットと下位ビットに分けて計算し、結果を合成してから再び 16 バイトでストアしている。

このような細やかなベクトル化が、自動ベクトル化では難しいことも性能差に影響している。

最後に、4 コアでの実行では、それぞれ、3.4 倍、3.0 倍、2.5 倍の速度向上が得られることが確認できた。

図 2.12. ベクトル化および並列化による速度向上

本配列処理言語のアルゴリズムレベル情報を利用した簡単なプログラム変換と、C コンパイラの自動ベクトル化を組み合わせることで、近傍処理アプリケーションが SIMD 命令を直接記述することなくベクトル化できた。これは、本配列処理言語がアルゴリズムレベル情報が取得しやすくなっているために、複雑なデータ依存解析などが不要になり、処理系で容易に最適化ができるという本開発方式の有効性の一端を示すものであると考えられる。

配列処理言語の処理系と C コンパイラの役割分担という観点では、ベクトル化は C コンパイラに任せることができるようになるのが望ましい。今後 C コンパイラの解析能力やベクトル化機能が強力になりそれが可能になれば、配列処理言語の処理系の開発コストを軽くでき、その分、C 言語のような低レベル言語が入力となる C コンパイラの解析能力では手が届かない高位プログラム変換機能の開発に注力することができる。

その一方で、コンパイラの自動ベクトル化は不連続アクセスに未対応など未だに制約が多い。今後は、さらにベクトル化できる範囲を拡大することも必要であるため、コンパイラの自動ベクトル化の進歩にも期待しつつ、処理系で SIMD 命令の一部生成もおこなっている[110]。その際には、ベクトル化の並列度を上げるためにビット長推論をおこないさらに

33 効率の良いベクトル化をすることが重要である。

2.4 高位プログラム変換を利用した自動チューニングによる並列 C

ドキュメント内メモリ階層制御により高性能・低消費電力を実現する (ページ 45-49)