xy n n n- n n n n n xn n n nn n O n n n n n n n n

全文

(1)RISTニュース No．５７（２０１４）. 高速フリエ変換におけるキャッシュ最適化 .

(2) . . . . . 筑波大学システム情報系（計算科学研究センター）高橋大介高速フーリエ変換（ .

(3). . . 、）は、科学技術計算において今日広く用いられているアルゴリズムである。本稿ではにおけるキャッシュ最適化について述べる。まず、離散フーリエ変換（ .

(4) . . 、）の定義を示した後にの基本的な考え方について説明する。さらに、 . アルゴリズムについて説明した後、キャッシュブロッキングが . に対して適用できることを示す。１．はじめに. が重要になる。ここで、キャッシュミスの回. 高速フーリエ変換（ .

(5). . 数を減らすことができれば、主記憶のアクセ. 、）は、離散フーリエ変換. ス回数を減らすうえで非常に効果があるとい. （ .

(6) . . 、）を高速. える。. に計算するアルゴリズムとして知られてい. 本稿では、におけるキャッシュ最適化. る。. について述べる。. は１９６５年のと［１］の論文によって一般に広く知られるようになった. ２．離散フーリエ変換. が、１８０５年頃にが同様のアルゴリズム. n点のデータに対するは次式で定義さ. を独自に発見していた［２］。. れる。. 多くのアルゴリズムは処理するデータがキャッシュメモリに載っている場合には高. （１）. い性能を示す。しかし、問題サイズがキャッシュメモリのサイズより大きくなった場合においては著しい性能の低下をきたす。ア. また、n点のデータに対する離散フーリエ. ルゴリズムにおける１つの目標は、いかにし. 変換（ . . .

(7) . . 、. てキャッシュミスの回数を減らすかというこ. 逆）は次式で定義される。. とにある。近年のプロセッサの演算速度に対する主記憶のアクセス速度は相対的に遅くなってきて. （２）. おり、主記憶のアクセス回数を減らすことは、より重要になっている。したがって、キャッシュメモリを搭載したプロセッサにお. ここで、x （）およびy （）は複素数の値であ. けるアルゴリズムでは、演算回数だけで. り、 . はなく、主記憶のアクセス回数も減らすこと. 式（１）において、例えばn=４のとき、 −−. である。.

(8) RISTニュース No．５７（２０１４）. は以下のように計算できる。. （３）. （７）. 式（３）は行列を用いれば、より簡単に. （４）（８）と行列ベクトル積の形で表すことができる。式（１）において、x （）、（ y ）およびωは複素数の値であることから、この式の行列ベクトル積を計算するためには、n回の複素数乗. 式（７）、（８）におけるn ２点は、直接. 算とn （n-１）回の複素数加算が必要となるこ. 計算するとn ４回の複素数乗算と（n ２）（n. とが分かる。. ２１）回の複素数加算で計算できることから、この分解により計算量が約１２になること. ３．高速フーリエ変換. が分かる。さらに、nが２のべきである場合. ３．１基本的な考え方. には、この分解を再帰的に行うことで、最終. 式（１）においてnが２で割り切れる場合に. 的には２点に帰着させることができ、そ. は、n点のデータをn ２点の前半部分とn ２. n）に削減することがの結果演算量をO （n. 点の後半部分に分解することにより、n点. 可能になる。. は以下のように表すことができる。. の分解には、式（５）のようにn点のデータをn ２点の前半部分とn ２点の後半部分に分解する周波数間引き（ . . ）と、n点のデータを偶数番目と奇. （５）. 数番目に分解する時間間引き（ . ）の方法があるが、どちらの方法でも演算量は同じになる。式（７）、（８）の考え方を素直にコーディン. 式（５）において、x （ n ２）に掛かっている . は、. グすると、図１のような再帰呼び出しによる周波数間引きルーチンが書ける。. より、（６）. となる。したがって、が偶数の場合と奇数の場合に分けると、n点は以下のように２つの n ２点に分解できる。 −−.

(9) RISTニュース No．５７（２０１４）. 図１再帰呼び出しによる周波数間引きルーチン. このルーチンでは、nが２のべきである場合 n回の再帰呼び出しが行われるが、１回の呼び出し毎にn ２回の複素数乗算とn 回の複素数加減算が行われるので、結局O （n n）回の演算量になることが分かる。また、このルーチンでは最内側ループにおいて毎回、関数を呼び出して三角関数の値を計算しているが、高速化のためにはあらかじめこれらの値を計算しておきテーブル. 図２周波数間引きルーチン. にするなどの工夫を行うことが多い。なお、逆を求めるには .

(10). と計算している部分の符号を反転させ. ３．１節で示したルーチンにおける再帰. .

(11). として計算を行い、計算結果. 呼び出しをループに書き換えることにより、. を１ n倍すればよい。. アルゴリズム［１］としてよく知られているアルゴリズムが導かれる。. ３．２ . アルゴリズムと . 図２に周波数間引き

(12)

(13) ルー. アルゴリズム. アルゴリズムでチンを示す。は、入力データは出力データに上書きされる −−.

(14) RISTニュース No．５７（２０１４）. （ . ）という特徴がある。. 算することにより、キャッシュミスを少なく. その一方でアルゴリズムで. できるのが特徴である。. は、出力データの順序がビット反転（ . n点を計算する際にnn×nと分解で. ）して得られた順序になる。出力デ. きるものとすると、式（１）におけるおよび. ータの順序を入力データと同じにするために. は、. は、ビット反転して得られた順序を元通りに. （９）. 並べ替えることが必要になるが、この並び替えはメモリアクセスの局所性が低いことから. と書くことができる。そのとき、式（１）のx. キャッシュミスが多発する。さらに、. とyは次のような二次元配列（ . ）. アルゴリズムの最内側ループ. で表すことができる。. では２のべき乗飛びのストライドアクセスになっていることから、キャッシュラインコンフリクトも多発する。したがって、階層型メ. （１０）. モリを意識した場合、アルゴリズムは必ずしも好ましいアルゴリズムではない。. したがって式（１）は式（１１）のように変. のアルゴリズムは、入力デ. 形できる。. ータは出力データに上書きされる、いわゆる . アルゴリズムであったが、入力データと出力データを別の配列にする . （１１）. アルゴリズムを構成することもできる。 . アルゴリズムとしてよく知られ７］ているのは、アルゴリズム［３. 式（１１）から次に示されるような、 . である。. アルゴリズム［４５］が導かれる。１：転置. アルゴリズムでは、入力データが出力データに上書きできないため、アルゴリズムに比べて必要と. ２：n組のn点 . . なるメモリ容量が２倍になる。しかし、最内側ループが連続アクセスになっており、またビット反転順に並べ替える処理が不要になっている。したがって、階層型メモリへの適合性という観点からは、アルゴリズムがアルゴリズムに比べて有. ３：ひねり係数の乗算. 利であるといえる。４． . アルゴリズム. ４：転置. キャッシュメモリを有効に活用することのできる、 . アルゴリズム［４５］について説明する。 . アルゴリズムでは、一次元を二次元表現で表して計 −−.

(15) RISTニュース No．５７（２０１４）. ５：n組のn点 . . ６：転置. ３における. は、ひねり係数. ［６］と呼ばれる１の原始根であり、複素数である。図３に . アルゴリズムを示す。１および４において行列の転置を行っているが、これは２および５における .

(16) のメモリアクセスを連続にするためである。さらに、６の行列の転置は入力データと出力データの順序を同じにするために必要になる。 . において、１、４、６の行列の転置および、３のひねり係数の乗算をブロック化した . アルゴリズムが文献［５］に示されている。しかし、このアルゴリズムではの部分と行列の転置の部分が分離されているため、 .

(17) においてキャッシュメモリに載っていたデータが行列の転置の際に有効に再利用されないという問題点が図３ . アルゴリズム. ある。ここで、３回の行列の転置がキャッシュメモリを搭載した計算機においてボトル. アルゴリズムは以下のようになる。. ネックとなる。. １： nn×nの大きさの複素数配列５．ブロック . アルゴリズム. に入力データが入っているとする。このと. . において、さらにキャッシュ. き、n×nの大きさの配列からn列ずつデ. 内のデータを有効に再利用し、キャッシュミ. ータを転置しながら、n×nの大きさの作業. スの回数を少なくするため、 . で. 用配列に転送する。ここでブロックサ. は分離されていた .

(18) と行列. イズnは配列が２キャッシュに載るよ. の転置を統合した、ブロック . ア. うに定める。. ルゴリズムを構成することができる。４章で. ２： n組のn点 .

(19) を. 説明した . において、nn×nと. ２キャッシュに載っているn×n配列 . し、nをブロックサイズとする。ここで、プ. の上で行う。ここで各は、ほぼ. ロセッサはキャッシュメモリを. １キャッシュ内で行えるものとする。. 搭載しているものと仮定する。ブロック . ３： .

(20) を行った後２. −−.

(21) RISTニュース No．５７（２０１４）. ブロック . アルゴリズムのプログラムは図４のようになる。このプログラムにおいて、はブロックサイズ、はパディングサイズ、は作業用の配列である。図５にブロック . アルゴリズムのメモリ配置を示す。なお、図５において、配列、、の中の１から１６の数字は、配列のアクセス順序を示している。また、作業用の配列にパディングを施すことにより、配列から配列にデータを転送する際や、配列上で .

(22) を行う際にキャッシュラインコンフリクトの発生を極力防ぐことができる。このパディングは、配列の先導次元

(23) ）が２のべき乗となって（ . いる場合、これが２のべき乗にならないようにすることで、行列の転置において２のべき乗飛びのストライドアクセスになることを防ぐために用いられる。ブロック . アルゴリズムは、いわゆるアルゴリズム［４］となる。つまり、ブロック . アルゴリズムではn点の演算回数はO （n n）であるのに対し、主記憶のアクセス回数は理想的にはO （n）で済む。なお、本稿では２および４の各. 図４ブロック . アルゴリズム. は１キャッシュに載ると想定しているが、問題サイズが非常に大きい場. キャッシュに残っているn×n配列の. 合には各が１キャッシュに載. 各要素にひねり係数の乗算を行う。そして. らないことも十分予想される。このような場. このn×n配列のデータをn列ずつ転. 合は二次元表現ではなく、多次元表現［８， . 置しながら元のn×n配列の同じ場所に再. ９］を用いて、各の問題サイズを. び格納する。. 小さくすることにより、１キャッシュ内で. ４：n組のn点 .

(24) を. 各を計算することができる。た. の上で行う。ここでも各 n×n配列. だし、三次元以上の多次元表現を用いた場合. は、ほぼキャッシュ内で行え. にはアルゴリズムとすることはで. る。. きず、例えば三次元表現を用いた場合には. ５：最後にこのn×n配列をn列ず. . アルゴリズムになる。このよう. つ転置して、n×n配列に格納する。. に、多次元表現の次元数を大きくするに従っ −−.

(25) RISTニュース No．５７（２０１４）. 図５ブロック . アルゴリズムのメモリ配置. て、より大きな問題サイズのに対応する. の結果主記憶のアクセス回数も少なくするこ. ことが可能になるが、その一方で主記憶のア. とができる。データがキャッシュに入り切ら. クセス回数が増加する。これは、ブロック. ないような大きな問題サイズのでは、ブ. . においても性能はキャッシュメ. ロック . は効果的である。. モリの容量に依存することを示している。. 本稿で述べたブロック化の手法は、他のア. なお、 . アルゴリズム（例えば. プリケーションの高速化にも適用できると考. アルゴリズム）を２、４の. えられる。. .

(26) に用いたとしても、余分に必要となる配列の大きさは. 参考文献. で済む。. また、一次元の結果が転置された出力. ［１］ .

(27) . . で構わなければ、５の行列の転置は省. .

(28) . . 略することができる。この場合、作業用の配. .

(29)

(30) .

(31) . 列は. の大きさの配列だけで済む. ことが分かる。. . . .

(32) . .

(33)

(34) ［２］

(35)

(36)

(37) . .

(38) . ６．まとめ. .

(39).

(40)

(41) .

(42) . 本稿では、におけるキャッシュ最適化. .

(43). . について述べた。ブロック . で. . は、キャッシュメモリの再利用率を高くする. .

(44) . ［３］ .

(45) .

(46) . ことにより、キャッシュミスを少なくし、そ −−.

(47) RISTニュース No．５７（２０１４）. .

(48)

(49). .

(50) . . ［４］ .

(51) . . .

(52) . . . . . . .

(53) . . . . .

(54) . .

(55) . .

(56) . .

(57)

(58) . . .

(59) . . ［５］ .

(60) . . ［８］ .

(61) . . .

(62) .

(63) . .

(64)

(65) . .

(66) .

(67)

(68) . .

(69) . . . .

(70) . . . ［６］ .

(71) . .

(72). . .

(73). .

(74)

(75) .

(76)

(77).

(78)

(79) . . ［９］ .

(80) . . . . .

(81) . ［７］ .

(82) . . .

(83). . .

(84)

(85). . . −−. .

(86). .

(87) . .

(88)

(89) .

(90)