マルチコア CPU 環境における低レイテンシデータストリーム処理 *

(1)

マルチコア _CPU 環境における低レイテンシデータストリーム処理 _*

上田高徳

^†^a)

秋岡明香

^†

山名早人

^†,††

Low Latency Data Stream Processing on Multi-Core CPU Environments

^∗

Takanori UEDA

^†a)

, Sayaka AKIOKA

^†

, and Hayato YAMANA

^†,††

あらましデータストリーム処理のアプリケーションには，アルゴリズム取引やネットワークパケット監視のように，大容量データストリームを低レイテンシで処理することが必要なものがある．マルチコアCPUを用いた並列処理により大容量ストリームの処理が可能であるが，オペレータごとにスレッドを割り当てると，CPU コア間通信やスレッド待機のオーバヘッドによりレイテンシが増大する．逆にスレッド数が少なすぎては並列性を生かせず，処理できるデータ量に限界が生じる．本論文では，CPUアーキテクチャやスレッド待機のオーバヘッドを考慮し，処理レイテンシを短縮するスレッド割当手法を提案する．マルチコア環境におけるデータストリーム処理のレイテンシ定義を与え，モデル上で最適なスレッド割当が求まることを示す．更に，入力ストリームのデータレート変化に応じてオペレータを再配置する際，ストリーム処理を止めずにタプル適用順序を守ってオペレータを再配置する方法を提案する．

キーワードレイテンシ，データストリーム，スケジューリング，マルチコア，ccNUMA

1.

^{まえがき}

センサ情報やネットワークトラフィックといった，

永続的かつ大量に生成されるデータストリームに対するリアルタイム処理の需要が高まっている．リアルタイム性の高いデータは処理結果を得るまでのレイテンシが短いほど情報を有効に活用できる．例えば，アルゴリズム取引でのレイテンシ競争はマイクロ秒単位になっており，東京証券取引所の

arrownet

では片道

32 μs

程度のレイテンシでデータを提供できることを謳っている

[12]

．また，海外のアルゴリズム取引では

5 μs

の差が勝敗を分けるともいわれている

[10]

．

こうしたデータストリームに対するリアルタイム処理を実現するために

DSMS

（

Data Stream Manage- ment System

）が発展してきた

[1], [4]

．

DSMS

はデータが到着すると同時にオンメモリでクエリ処理を実行

†早稲田大学，東京都

Waseda University, 3–4–1 Okubo, Shinjuku-ku, Tokyo, 169–

8555 Japan

††国立情報学研究所，東京都

National Institute of Informatics, 2–1–2 Hitotsubashi, Chiyoda-ku, Tokyo, 101–8430 Japan

a) E-mail: [email protected]

*本論文はデータ工学研究専門委員会推薦論文である．

し，リアルタイムに結果を生成する．データストリームは永続的に到着するが，演算の対象範囲をウィンドウにより限定すれば，選択演算や結合演算といった関係代数演算をサポートすることができ，

SQL

の拡張言語によってクエリを表現することもできる．

DSMS

は与えられたクエリをプラン木に変換して実行する．プラン木の各ノードはオペレータを表し，入力キューと出力キューをもつ．これらオペレータにどのように計算リソースを割り当てて実行するかで，処理できるストリーム量やレイテンシが決まる．

冒頭に述べたような低レイテンシ処理の要求を考慮すると，マイクロ秒単位の処理レイテンシ変化を考慮して計算リソースを割り当てる必要がある．そして，

大量のデータストリームに対応するためには，マルチコア

CPU

を活用することが必要になる．しかし，ストリーム処理の並列化に関する既存研究は処理レイテンシの考慮が不十分であると考えられている

[11]

．事実，レイテンシ最小化手法として代表的な

Chain [3]

は単一コアによる処理を仮定しており，並列処理環境を対象にしたものでない．マルチコア環境においてはコア間通信やスレッド起床のオーバヘッドによるレイテンシの考慮が必要である．

本論文はまず，

CPU

アーキテクチャやスレッド起床

(2)

のオーバヘッドを考慮し，マルチコア環境における処理レイテンシの発生原因について議論する．コア間通信によって発生するレイテンシを削減するために，可能な限り少数のコアで処理を実行し，通信経路を制御すべきであることを示す．そして，データストリーム処理のレイテンシ定義を与え，動的計画法によりモデル上の最適解が求まることを示す．更に，ストリームの入力データレート変化に応じてオペレータを再配置する際，ストリーム処理を停止せずに，オペレータへのタプル適用順を守ってオペレータを再配置する方法を提案する．

本論文は以下の構成をとる．

2.

^{で実機アーキテク} チャをもとにレイテンシの発生原因を考察する．

3.

^においてデータストリーム処理のレイテンシモデルを与え，モデル上の最適解が動的計画法で求まることを示す．

4.

においてデータレート変化に応じたオペレータ再配置方法を述べる．

5.

^{で実験結果を示し，}

6.

^で本手法が効果を得られる条件について議論する．

7.

^で関連研究について述べ，

8.

^{でまとめる．}

2.

処理レイテンシ発生原因の考察

本章では処理レイテンシの発生原因について

CPU

コア間の通信と，処理スレッドのタプル到着待機方法の二つの面から議論し，処理レイテンシを削減するために注意すべき点について述べる．そして，実機における実験によって議論を検証する．

2. 1

コア間通信を原因とするレイテンシ

マルチプロセッサ環境では

ccNUMA

（

cache- coherent Non-Uniform Memory Access

）アーキテクチャが一般的になっている．

Intel Xeon 7500

シリーズのアーキテクチャダイアグラムを図

1

に示した．

CPU

一つは

CPU

コアを

8

個もち，

HT

（

Hyper- Threading

）により計

16

論理コアとなる．

CPU

コアのそれぞれは専用の一次，二次キャッシュをもつ．同一

CPU

内のコアは

24 MByte

の三次キャッシュを共有している．異なる

CPU

間はマザーボード上を経由する

QPI

（

QuickPath Interconnect

）で接続されている．したがって，同一

CPU

内のコア間通信が三次キャッシュ内で完結した場合の通信レイテンシは，異なる

CPU

間で

QPI

を経由して通信した場合のレイテンシより短い．

データストリーム処理においてナノ秒やマイクロ秒単位のレイテンシが問題となる場合，

1 CPU

内で通信を完結させ，処理能力を超えない範囲で使用コア数を

図1 Intel Xeon 7500シリーズダイアグラム[13]を参考に作成

Fig. 1 Intel Xeon 7500 series diagram [13].

図2 1スレッドで1オペレータを実行 Fig. 2 A thread executes an operator.

図3 1スレッドで複数のオペレータを実行 Fig. 3 A thread executes multiple operators.

削減し，コア間の通信回数も抑えるべきと考えられる．

例えば，図

2

のように

1

オペレータに

1

スレッドを割り当てて実行するとパイプライン効果により大きな入力データレートに対応できると期待できるが，スレッドが別々のコアで動作した場合コア間通信の回数が増え，コア間通信を原因とするレイテンシが多く発生する．逆に図

3

のように

1

スレッドが多くのオペレータを担当すると，コア間の通信回数が減少し，通信レイテンシを削減できるものの，単位時間当りのストリームの入力量，すなわちデータレートが大きくなって計算負荷が高まった際に，タプルが処理待ちになり，よりレイテンシが大きくなる可能性がある．このトレードオフを鑑み，処理待ちタプルが発生しない範囲でコア間の通信レイテンシを最小化することが本論文の目標の一つである．

2. 2

スレッド待機を原因とするレイテンシコア間通信に加えて，スレッド待機方法もレイテンシに大きな影響を与える．今，毎秒

10

万タプルが等間隔で到着する場合を考えると，

10 μs

ごとに

1

タプルが到着することになる．

2 GHz

の

CPU

では，

10 μs

(3)

の間に

2

万クロックに相当する演算が可能であり，タプルが到着してから次のタプルが到着するまでに処理が完了した場合，処理スレッドはタプル到着を待たなければならない．

スレッドがタプル到着を待つ場合，スレッドを休止する方法と，無限ループによりビジーウェイトする方法がある．休止する場合，タプル到着後に処理を再開できるよう

OS

のシステムコールを呼び出して待機する．

CPU

時間を節約できることが利点であるが，タプルが到着した際のスレッド起床によるオーバヘッドでレイテンシが大きくなることが欠点である．一方，

OS

に頼らずにソフトウェア側で無限ループによりビジーウェイトする方法は，スレッド再開のオーバヘッドがないためレイテンシを短縮できる．欠点としては

CPU

リソースを消費すること，消費電力が増加することが挙げられる．システムの要求に応じて，スレッド休止とビジーウェイトを使い分けることになる．また，ビジーウェイトであっても

OS

のスケジューラによりプリエンプションされ，他のプログラムが動作してしまう可能性があるが本論文では考慮しない．

なお

CPU

キャッシュのコヒーレンスプロトコルにより，ビジーウェイト中は読込み対象のメモリ領域が更新されない限りバス帯域を消費しない．したがって，

メモリ読込みのみを行うようにビジーウェイトを設計すれば他

CPU

コアの処理に影響を与えない．

2. 3

実機による検証

ここで，実機での実験結果により，本節での議論を検証する．

1

タプル当り単純な乗算・加算演算を計

10

回実行する仮想的なオペレータ

12

個を連結し，タプルが通過するまでに，

120

回の計算を行う処理を表

1

の環境において実行した．オペレータを，図

2

や図

3

のように各スレッドに割り当て，

1

スレッドが担当するオペレータ数を変化させた．図中の

Data Source

がタプルを生成してから

Sink

に到着するまでの時間をレイテンシとしてタプルごとに測定し，

20

秒間の平均値を求

表1 本論文での実験環境 Table 1 Experimental environment.

めた．

Data Source

が生成するタプル量は毎秒

10

万タプルであり，

10 μs

ごとに図中の

Thread 1

へ送られ，順次スレッドを通過して

Sink

まで届く．

CPU

速度と入力データレートを考えると，各スレッドにタプルが到着してから，次のタプルが到着する前に演算が完了すると期待でき，スレッド待機が多く発生する．

スレッド間通信に用いる

FIFO

キューとして

Java

の

java.util.concurrent

パッケージで提供される

LinkedBlockingQueue

を用いた．ビジーウェイトには

poll()

を用い，休止して待機する場合には

take()

を用いた．

poll()

はキューのサイズを確認して，空であれば

null

を返す実装となっており，他のコアに影響を与えないビジーループを実現できる．なお，

OS

はオペレータの接続関係を知らないので，単にスレッドを生成しただけでは，オペレータが動作するコアを制御できない．これは通信経路を制御できないことと同義である．そこで，

Linux

のシステムコールである

sched setaﬃnity

を

JNI

により呼び出し，スレッドが動作する

CPU

コアを固定して通信経路の制御を行った．

実験結果を図

4

に示した．図

4

において

CPU

コア非固定の場合は

OS

にスレッドスケジューリングを完全に任せており，どの

CPU

コアでスレッドを実行するか制御していない．一方

CPU

コア固定の場合は

Data Source

，

Sink

，全スレッドを同一

CPU

内で動作させ，各スレッドが動作するコアを固定している．

使用スレッド数が

6

スレッドまでは

1

コアごとに

1

スレッドを動作させた．

12

スレッドの場合は

HT

機能の動作に期待し，

1

コアで

2

スレッドずつを動作させている．また，全ての実験で

Data Source

と

Sink

はそれぞれ単一のコア上で動作させている．

図

4

から，最も安定的にレイテンシを短くするに

図4 処理レイテンシ実験結果 Fig. 4 Processing latency evaluation.

(4)

はビジーウェイトを行った上で，スレッドが動作する

CPU

コアを固定して通信経路を制御するとよいことが分かる．

CPU

コアを固定せずに

12

スレッド用いた場合は処理あふれを起こした．消費電力削減や他のアプリケーションと共存する必要があり，ビジーウェイトを許容できない場合でも通信経路の制御は必要といえる．また，通過するスレッド数が増えるほどレイテンシが延びていることが分かる．したがって，同じ処理を適用するならば，使用するスレッド数は少ないほど低レイテンシで処理をすることができる．しかし，

少なすぎると

1

プロセッサ当りの負荷が高まった際に処理が間に合わずデータ損失が起きることになる．このトレードオフを調整してレイテンシを削減することが本論文の目標である．

3.

データストリーム処理におけるレイテンシ定義と平均レイテンシ最小化問題本章では，ここまでの議論をもとにデータストリーム処理のレイテンシを定義し，本論文の目標の一つである平均レイテンシ最小化問題を与える．本論文では一つの

CPU

内に存在するコアへのオペレータ割当とその

CPU

内での通信を議論の対象とし，複数の

CPU

への割当や

QPI

を経由した通信は対象としない．またコア数は十分に存在するものとする．なお，目標とする問題は，

Diwan

らの論文

[6]

における

Average Path Length Minimization

を拡張した問題であり，

NP

困難であることが容易にいえる．

Diwan

らの論文

[6]

は，

木構造インデックスのノードをディスクページに配置する場合に，ディスク

I/O

回数を最小化する配置方法について議論したものである．

3. 1

処理レイテンシの定義と本論文の目標クエリは図

5

のようなプラン木

G = (V, E)

で表現されるとする．ノード

v ∈ V

はオペレータを表し，

エッジ

e ∈ E

はオペレータの接続関係を表す．各オペレータは一つ以上の入力エッジとただ一つの出力エッジをもつ．オペレータ

v

はタプルを一つ受け取るとプロセッサリソースを

c

_v消費して確率

θ

^out_v でタプルあるいはタプル集合を出力する．

θ

_v^out はオペレータ

v

の選択率である．プラン木

G

は一つ以上の入力オペレータからなる集合

V

_in と，ただ一つの出力オペレータ

v

_out をもつ．入力オペレータとはデータソース集合

S

内のデータソース一つからタプルを受け取るオペレータであり，出力オペレータはクエリの出力タプルを生成するオペレータである．

図5 プラン木と平均レイテンシの計算例 Fig. 5 A plan tree and an example of calculation of

average latency.

次に，

CPU

コア集合

U

に対して，「各オペレータをどのコア

u ∈ U

で実行するか」を決定するコア割当戦略

π: v → u

を考える．

CPU 1

コアがもつ単位時間当りの処理能力を

C

，単位時間当りにオペレータ

v

が処理するタプル数を

λ

_v とすれば，

CPU 1

コアが単位時間当りに処理するタプル数と処理能力の必要条件として

∀ u ∈ U

，

{v|π(v)=u}

c

_v

λ

_v

≤ C

が得られる．また，異なる

CPU

コアで動作するオペレータに対してタプルを送信すると，コア間通信によるレイテンシ

w

が等しくかかるとする．コア数は十分にあり，

QPI

を経由した

CPU

間の通信はしないとする．

また，本論文ではデータ分割による並列化手法

[11]

は扱わず，一つのオペレータは必ずただ一つのコアに配置されるとする．

ここで，出力タプルのレイテンシを定義する．今，

あるデータソース

s ∈ S

からの入力タプル

α

が入力オペレータに到着した時刻を

t

_in

(α)

とする．また，出力オペレータがクエリの出力タプル

β

を生成した時刻を

t

_out

(β)

とし，タプル

β

の生成に寄与した入力タプルの集合を

e(β)

と書く．ここで，タプル

β

の生成レイテンシ

l(β)

を次の式で定義する．

l(β) = t

out

(β) − max

∀i∈e(β)

t

in

(i) (1)

つまり式

(1)

は，入力タプルが入力オペレータに到

(5)

着した後，プラン木を伝搬し，出力オペレータから結果が出力されるまでの時間を示す．言い換えると，タプル出力に必要な全データがそろってからタプルを出力するまでの時間ということになり，システムの即応性を示す指標になる．同一の計算を行うシステムであれば，式

(1)

の値が小さいほどレイテンシ性能が良いことになる．

ここで，入力タプルが入力オペレータ

v

in に到着し，

出力オペレータ

v

_outまでに通過する，

L

個のオペレータからなるパス

P (v

_in

) = v

₁

, v

₂

, . . . , v

_L

^，^（

v

₁

= v

_in，

v

_L

= v

_out）を考える．

P (v

_in

)

は，プラン木が木構造である限りただ一つに定まる．ここでオペレータは，

タプルが到着するとすぐに動作を開始し，処理に専念できるとする．また，二つ以上の入力キューをもつオペレータは，それぞれの入力を独立に処理するとし，異なる入力キュー間の待合せはしないとすれば，

パス

P (v

in

)

を通って出力されるタプルのレイテンシ

l(P (v

in

))

は次のように書くことができる．

l(P (v

_in

)) =w × _{ i | π(v

_i

) =π(v

_i+1

), 1 ≤ i ≤ L − 1 }

+

v∈P(vin)

c

_v

C (2)

また，

v

_inにタプルが到着した際に

P (v

_in

)

を通って出力タプルが生成される確率は

θ

_P^out_(v

in)

=

v∈P(vin)

θ

^out_v で求まる．

v

in に到着するタプルの全到着タプルに対する割合を

f (v

_in

)

として，クエリ

Q

の平均レイテンシ

l(Q)

を次のように定義する．

l(Q) =

vin∈Vin

f(v

in

)θ

_P^out_(v

in)

v∈Vin

f(v

)θ

^out_P(v₎

l(P (v

in

)) (3)

例えば図

5

において考えると，

l(Q) = (0.125 × 0.08 × 0.185 + 0.25 × 0.06 × 0.185 + 0.625 × 0.12 × 0.035)/0.1 = 0.0725

となる．以上の平均レイテンシの定義を用いて本論文が扱う問題を定義できる．

平均レイテンシ最小化

CPU

コア割当問題

平均レイテンシ

l(Q)

が最小になるような

CPU

コア割当戦略

π

_OPT を求める．ただし，

∀ u ∈ U

，

{v|π(v)=u}

c

_v

λ

_v

≤ C

で，コア数は十分にあるとする．

［定理］

平均レイテンシ最小化

CPU

コア割当問題は

NP

困難である．

図6 ナップザック問題からのリダクション Fig. 6 Reduction from knapsack problem.

（証明）

容量

C

のナップザック問題を考える．

I

個のアイテムがあり，大きさが

S = {s

1

, s

2

, . . . , s

_I

}

で価値が

L = { l

₁

, l

₂

, . . . , l

_I

}

^{で与えられるとき，図}

6

のように

c

_v_i

= s

_i

/l

_i，

λ

_v_i

= l

_i，

f(v

_i

) = l

_i

j

l

_jである

I

個の入力オペレータと，

c

_v_out

= 0

の仮想的な出力オペレータを置いたプラン木を構成する．ここで

CPU

の処理能力を

C

，

∀v ∈ V

，

θ

_v^out

= 1

として，平均レイテンシ最小化

CPU

コア割当問題を解くと，出力オペレータと同一コアに割り当てられた入力オペレータが明らかにナップザック問題の解を求めている．

NP

困難であるナップザック問題からのリダクションが示せたから本問題も

NP

困難である． ■

なお，

∀ v ∈ V (θ

^out_v

= 1, c

_v

λ

_v

= 1)

及び

w = 1

の場合，

CPU

の処理能力

C

をページサイズに置き換えれば，木構造インデックスに対する平均

I/O

回数を最小化するノードマッピング方法を求める

Average Path Length Minimization

問題

[6]

と等価になる．

3. 2

動的計画法による求解

式

(3)

を最小化するためには式

(2)

の第

1

項を最小化すればよい．

Average Path Length Minimization

問題

[6]

を解くための動的計画法を，

∀u ∈ U

，

{v|π(v)=u}

c

_v

λ

_v

≤ C

の制約を考慮するように初期値を修正すれば

π

_OPTを効率良く求めることができる．

あるオペレータ

v

にタプルを送信する

n

個のオペレータ

(vp

₁

, vp

₂

, . . . , vp

_n

)

のうち，

i

番目までのオペレータを根とする部分木

i

個を考える．この部分木

i

個までに含まれるオペレータを考えて，

v

と同一の

CPU

コアに割り当てられるオペレータが利用する

CPU

リソースの合計が

j

の場合に実現できる，

v

を出力オペレータと仮定した場合の平均レイテンシの最小値を

S [v, i, j]

とする（図

7

）．また

S

1

[v, j] = S[v, n, j]

，

S

₂

[v] = min

_1≤j≤C

S

₁

[v, j]

とおく．

v

を根とする部分木がもつ入力オペレータを通って

v

から出力されるタプルを考えたとき，

v

_out からの全出力タプルに対

(6)

図7 S[v, i, j]の定義 Fig. 7 Definition ofS[v, i, j].

するその割合を

F[v]

とする．入力オペレータ以外のオペレータ

V

mid

= {v | v ∈ V, v / ∈ V

in

}

に関しては

F [v] =

1≤i≤n

F[vp

_i

]

と再帰的に計算できる．初期

値として入力オペレータ

v ∈ V

_in に対して

S[v, 0, c

_v

λ

_v

] = S

₁

[v, c

_v

λ

_v

] = S

₂

[v] = F [v]

= f(v)θ

^out_P(v)

v∈Vin

f(v

)θ

^out_P(v₎

S[v, 0, j] = S

₁

[v, j] = ∞ (j = c

_v

λ

_v

)

入力オペレータ以外のオペレータ

v ∈ V

mid に対して

S[v, 0, c

_v

λ

_v

] = 0

S[v, 0, j] = ∞ (j = c

_v

λ

_v

)

として以下のように再帰的に定義する．

S[v, i, j] = min(A, B)

A = S

₂

[vp

_i

] + F [vp

_i

] + S [v, i − 1, j]

B = min

1≤m<j

(S

1

[vp

_i

, m] + S [v, i − 1, j − m])

すると

π

_OPT の平均レイテンシ

l(Q)

_OPT は次の式で計算できる．

l(Q)

OPT

= w × (S

2

[v

out

] − 1)

+

vin∈Vin

f(v

in

)θ

^out_P(v

in)

v∈Vin

f(v

)θ

^out_P(v₎

v∈P(vin)

c

_v

C

(4) c

_v

λ

_v と

C

を共に整数で扱うとし，オペレータ数を

N

とすれば時間計算量は

O(C

²

N)

，空間計算量は

O(CN)

となる．一般的な動的計画法と同様に，計算

結果の表を逆にたどれば，最適なオペレータごとの

CPU

コア割当

π

_OPTを求めることができる

[6]

．以上で静的なオペレータ配置方法が分かった．次章で動的

なオペレータ再配置方法について議論していく．

4.

オペレータ再配置方法と統計情報の取得本章ではオペレータ再配置方法を検討する．

3.

^の方法で静的な最適解が求まるが，実環境でデータストリーム処理を行う場合には入力ストリームのデータレート変化や，データ内容変化によってオペレータの計算負荷が変化する．よって，計算負荷に応じて適応的に

CPU

コアへのオペレータ割当を調整する必要がある．また，結合演算など内部状態をもつオペレータにおいては，タプルの到着順にオペレータを適用することが求められる．いかにタプル順序を守りながら低オーバヘッドでオペレータを

CPU

コア間で移動するかが課題となる．なお本研究では，

3.

^{でのコア割当問} 題の定義のとおり，

CPU

コア数は十分にあるとする．

4. 1 Thread Unit

と統計情報の収集

動的なオペレータ再配置を実現するためには，統計情報の取得とオペレータの実行を担うスレッドの確保が必要である．今，各

CPU

コアにオペレータ実行用のスレッドを一つずつ固定で割り当てるとし，各スレッドを

Thread Unit

と呼ぶ．以下，

Thread Unit

を

TU

と略す．

TU

は通信用

FIFO

キューをただ一つもち，

TU

間の通信はこの通信キューを介して行う．

TU

が動作するコアは固定であり，キューの入出力のみで通信すればタプルの通信経路を制御することができる．

キューの入力待機にはビジーウェイトを用いる方がよいが，本論文の手法はスレッドの待機方法によらないため休止させてもよい．

また，

TU

へのオペレータ割当を決定するスケジューラを

TU

とは別のコアで動作させる．各

TU

はオペレータを実行してタプルに適用するたびに，オペレータが使用した合計

CPU

時間，入出力タプル数を統計情報として記録しておく^（注1）．入出力タプル数からオペレータごとの選択率も計算できる．各

TU

は収集した統計情報を一定時間ごとにスケジューラに送信する．

送信間隔は，

3. 2

の動的計画法の計算時間の間隔で送信すれば十分であり，タプルの到着に比べて低頻度であるから，統計情報送信のオーバヘッドは小さい．動的計画法の計算時間は

5.

で示す．スケジューラは統計情報に基づいて

3. 2

の方法で各オペレータの割当を計算する．配置が変わった場合には，

TU

に指示を出

（注1）：rdtsc命令を用いることで現在のCPUクロックを低オーバヘッドで取得可能であり，オペレータ実行前後のクロック差から，オペレータ適用に要したCPUクロック数が分かる．

(7)

図8 オペレータの移動操作 Fig. 8 Operator movement operation.

し再配置する．なお，クエリの実行初期は統計情報がないため，十分な数の

TU

を用いて均等にオペレータを割り当て，統計情報が集まってからオペレータを再配置する．

4. 2

オペレータ再配置方法

結合演算など内部状態をもつオペレータにおいては，

タプルの到着順にオペレータを適用することが求められる．提案手法では，オペレータ移動の方向に制約を設けることで，処理を止めずにタプル順序を守って低オーバヘッドでの再割当を実現する．図

8

を例に

TU1

に配置されているオペレータ

v

を右の

TU2

で実行するように移動する場合を考える．

TU2

のキューの中には

v

が出力したタプルがオペレータ

d

の適用を待っている．今，

TU1

において

v

の適用を止め，

TU2

で実行するよう

v

を移動する際に，提案手法では

v

の移動命令を

TU2

のキューに追加する．

FIFO

キューであるから，キューの中にあるタプルは

v

が適用済みで，移動命令以降に到着するタプルは

v

が未適用であることが保証される．一方，

TU2

から

TU1

にオペレータ

d

を移動する場合にはこのような保証がなく，

TU2

のキュー内のタプル全てに

d

を適用したあとキューにタプルが追加されないようロックしてから

d

を移動するといった，よりコストの高い同期手順を実施する必要があり，レイテンシが大きくなる．このため，提案手法では，オペレータ移動方向をデータ転送方向に限定することで，オペレータ移動を簡単化している．なお，移動するオペレータの内部状態は，移動先の

Thread Unit

から共有メモリを介して参照できる．

次に，

4.

のモデルのとおり，オペレータ間の通信回数を

1

回に維持する場合のタプル適用順序の保持を考える．図

9

の

(1)

の状態からオペレータ

v

を

TU3

に移動する場合を考える．

1

ホップの通信を維持するためには，

(3

)

のように

s

の出力を

TU3

に直接送る必

図9 タプル転送が必要な状況 Fig. 9 Tuple transferring.

要がある．送信先を切り換えたとき，

TU2

の

FIFO

キューには

s

の出力が残っているため，

TU2

は

(2)

のようにこれらを

TU3

に転送する必要がある．ここで，

TU3

には

TU1

からと

TU2

からのタプルが混在して到着するため，タプル順序が入れ換わる可能性がある．そこで

TU3

はタプル

ID

をもとにタプルを並べ換えて，

v

を適用する必要がある．なお，図

9

の

(2)

や

(3

)

の状態で，

TU1

が

s

の移動命令を

TU2

のキューに追加したとしても特別な操作は必要ない．なぜならば，

TU2

が

s

の移動命令を認識した段階で，

TU2

はタプルの転送を終了していることが保証されるからである．

また，図

9

の

(2)

の状態で，更に

s

が

TU3

に移動した

(3

)

の場合を考える．この場合，

s

の出力タプルが

TU2

の入力キューに残っている．したがって，

TU3

が

s

への入力タプルを処理して

s

がタプルを生成したとしても，直ちには

v

に入力できない．

TU2

に残っているタプルが転送されるのを待って，転送されたタプルを先に

v

に入力する必要がある．

以上の議論は木構造の場合にも適用でき，操作のパターンを全て網羅すると，図

10

のような状態遷移図が得られる．この状態遷移図は，ある

TU

において，

オペレータ

src

からオペレータ

dest

へ向かう通信路がどのような状態にあるかを表している．初期状態は

TU

が

src

も

dest

も動作させていない

NONE

状態であり，

dest

をその

TU

が実行することになるとタプル順序を並べ換える

SORT

状態になる．ソートが完了すると受け取ったタプルに

dest

を適用する

RECV

状態になり，

src

が

TU

に到着すると

src

と

dest

の両方

(8)

図10 状態遷移図 Fig. 10 Sate transition diagram.

を一つの

TU

が実行する

RUN

状態になる．続いて，

dest

が

TU

から去ると，他の

TU

にタプルを転送する

SEND

状態になる．このほか，

TRANSFER

はタプルを転送する図

9

の

(2)

〜

(3

)

における

TU2

の状態であり，

RUN WAIT

は図

9

の

(3

)

における

TU3

の状態であり，転送を待っている間，実行待機している状態である．

以上のようにオペレータの移動方向を限定することで，同期を排除したオペレータ移動と送信先変更を実現することができる．

5.

評価実験

本章では提案手法の評価実験について述べる．評価環境は既に示した表

1

のとおりである．

5. 1

動的計画法の計算時間

ここで

3. 2

において与えたアルゴリズムの計算時間について検証する．図

11

はオペレータ数を変化させたときに，

4.

^{で説明した各}

Thread Unit

から統計情報を取得し，

3. 2

のアルゴリズムで最適配置の計算が完了するまでに経過した時間である．図

11

よりオペレータ数に対して線形であることが分かる．

100

オペレータで

3 ms

程度であり，

1

秒間に

300

回以上の計算が可能である．この実験結果から

Thread Unit

の統計情報の送信間隔を決定することができる．

6.

^で議論するとおり，動的計画法の計算時間より短い間隔でのオペレータ再配置はできないことになるから，図

11

を

Thread Unit

の統計情報送信間隔の目安とすればよいことが分かる．

5. 2

クエリプラン木

次に，関係代数オペレータで構成されるプラン木を用いて実験を行った．図

12

に実験に用いるクエリプ

図11 オペレータ数とスケジューリング時間 Fig. 11 Scheduling time and the number of operators.

図12 実験用クエリプラン木とコアマッピング（図中のマッピングはパターンAの場合）

Fig. 12 A query plan tree and CPU core mapping.

ラン木を示す．八つのデータストリームから入力を受け付け，結合結果を出力する．結合演算のウィンドウサイズは

10

秒間である．タプルは整数四つの組からなり，それぞれ属性名を

A

，

B

，

C

，

D

とする．ストリームは毎秒

5,000

タプルのデータソースが四つ，毎秒

1,250

タプルのデータソースが四つの計八つである．

入力レートのパターン

A

とパターン

B

を

5

秒ごとに入れ換えて，レイテンシの変化を確認した．また図

12

にはパターン

A

のときの最適割当を示している．このパターン

A

のときのマッピングを変化させずに用いた場合と提案手法の性能を比較した．レイテンシは

100 ms

ごとの平均値を計測した．スレッド待機方法はビジーウェイトとした．本実験では実験の

5

秒〜

10

秒においてパターン

A

とし，以降

5

秒ごとにパターン

A

と

B

を変化させた．

実験結果を図

13

に示した．

10

秒までは定常状態になく，ウィンドウも埋まっていないため省略している．

図中の

Static

はパターン

A

に適した状態のスレッド

(9)

図13 平均レイテンシの変化（10秒〜15秒，20秒〜25 秒，30秒〜35秒はパターンB）

Fig. 13 Experimental result of average latency.

割当を実験中に変化させなかった場合であり，データレートがパターン

B

になるとレイテンシ性能が悪化していることが分かる．提案手法はパターン

B

になるとオペレータを再配置するため，レイテンシを削減できていることが分かる．

10

秒から

15

秒，

20

秒から

25

秒，

30

秒から

35

秒の間である．提案手法は入力レートが変化してからオペレータを再配置するため，

レイテンシ性能が一時的に悪化する．これは，図

13

においてもオペレータ再配置時の性能変化から確認できる．しかし，再配置を行った場合でも，再配置しない場合のレイテンシを超えていないことから，再配置手法が有効に機能し，再配置のオーバヘッドが少ないことを確認できる．なお，

10

秒において提案手法のレイテンシ性能が特に悪いのは，初回のオペレータ再配置なため，

JIT

コンパイラの影響によりレイテンシが悪化していると考えられる．

6.

本手法の適用条件に関する議論

本章では本手法が有効になる，オペレータの計算時間と通信レイテンシの関係やストリーム変化速度の条件について議論する．まず，与えられたプラン木において，通信レイテンシが最も多く発生する最悪の

CPU

コア割当を考える．最悪の割当は，各オペレータに

1

コアずつ割り当てた場合であることは明らかであり，その際のレイテンシ

l(Q)

worst は

l(Q)

_worst

=

vin∈Vin

f (v

_in

)θ

_P^out_(v

in)

v∈Vin

f(v

)θ

_P^out_(v₎

w( | P (v

_in

) | − 1) +

v∈P(vin)

c

_v

C

となる．ここで，

A(g(v

in

)) =

vin∈Vin

f (v

in

)θ

_P^out_(v

in)

v∈Vin

f(v

)θ

_P^out_(v₎

g(v

in

)

とおき，本手法で得られる最適解

l(Q)

_OPT との比

R

を考えると，

R = l(Q)

_OPT

l(Q)

worst

=

w(S

2

[v

out

] − 1) + A

_v∈P(v

in)

c

_v

C A(w( | P (v

_in

) | − 1)) + A

_v∈P(v

in)

c

_v

C

≥ A

_v∈P_(v

in)

c

_v

C A(w( | P (v

_in

) | − 1)) + A

_v∈P(v

in)

c

_v

C

= 1

A(w( | P (v

_in

) | − 1)) A

_v∈P_(v

in)

c

_v

C

^{+ 1}

(5)

とできる．ここで

R

は本手法による最適解が，

l(Q)

worst に対してどの程度の割合になるか示して

いる．上式最後の式

(5)

は

R

の楽観的な見積り，つまり通信レイテンシが完全に排除され，最も性能が向上した場合を表している．本手法がどの程度の貢献をし得るかが，オペレータの計算時間

c

_vとコア間の通信レイテンシ

w

の関係で表現されていることが分かる．

c

_v が小さくなるほど，クエリレイテンシ

l(Q)

のうち通信レイテンシが占める割合が増し，本手法による通信レイテンシ削減の効果が大きくなる．

次に，再配置のコストについて，動的計画法の計算時間から検討する．本手法では入力ストリームレートやオペレータの

CPU

使用量の統計に基づいて動的計画法の計算を行い，最適配置が変わった場合は再配置する．動的計画法の計算時間は図

11

にあるとおりオペレータ数に対して線形である．このため，オペレータ数が多くなるに従い，解を得るまでに時間が掛かる．

計算時間が長くなると十分な頻度での再配置ができず，

頻繁な入力レートの変化に適応できなくなる．これは本手法の弱点であることは事実であるが，最適解を求めるという目標のもとではやむを得ないコストと考えられる．計算が間に合う限りで適応的な再配置をできると考えれば，入力レートの変化に伴う再配置の発生間隔より動的計画法の計算時間の方が短いことが本手法を適用する条件となる．

(10)

本研究の対象は関係代数演算で構成されたプラン木であり，各オペレータはオンメモリで短時間な処理を実行する．しかし，本手法の目標は

CPU

コア間の通信レイテンシ削減であり，前式の

w

は数マイクロ秒単位の小さな値である．最も重要な基本演算である選択演算や結合演算であっても，

c

_vの値によっては効果が生まれるか明らかではない．

前章の実験は，実際に選択演算や結合演算を用いた場合に，通信レイテンシ削減の効果が発生することを示している．更に，図

13

においての比較対象は，入力レートがパターン

A

のときの最適配置であり，前述の楽観的な見積りで用いた

1

オペレータに

1

コアを割り当てる方法よりはるかに厳しい比較対象である．その場合でも図

13

の結果のように，レイテンシを

10 μs

程度から

8 μs

程度に削減できている．

どの程度の入力レートの変化頻度に耐えられるかは，スケジューリング計算の間隔やタイミング，移動すべきオペレータ数など様々な要素で決まってくると考えられ，現時点では

Open Question

である．本論文の実験の意義は，これまで議論されてこなかったオペレータ再配置によるレイテンシ短縮が可能であることを示した点にある．

7.

^{関連研究}

これまで

DSMS

のオペレータスケジューリングに関する研究は数多くされてきた．

Chain [3]

はキューに溜まったタプルサイズを抑えることでメモリ使用量を最小化するとともに，レイテンシの最小化も目標にした手法であるが，単一コアによる処理を仮定しており，マルチコア環境に適用できない．

Eddies [2]

はオペレータのリオーダリングを許す手法で，データが準備できておりかつ処理に余裕があるオペレータから適用していくものである．複数のタプルをバッチ型にしてスケジューリングすることでオーバヘッドを抑えた

Teddies [5]

がある．しかし，いずれも提案手法のようなコア間通信のレイテンシを考慮したものではない．

分散データストリーム処理のスケジューラも研究が行われており，

IBM System S

のスケジューラである

COLA [8]

は，計算機の

CPU

リソースを超えないようにオペレータを配置した上で，通信に使用する

CPU

時間を最小化する．スループットの向上に寄与することは確認されているが，レイテンシに関する評価がされていない．

RASC [7]

は，データの処理が間に合わず破棄されるデータ量を最小化するよう最小コスト流

を用いてスケジューリングしている．しかし，データの破棄が発生してから，発生した計算機に対する流量を減らす戦略であるため，データの損失が発生する．

コンパイラや

HPC

の分野において，

DAG

に対するプロセッサの割付けが行われてきた

[9]

．これらは

DAG

の辺をデータ依存と考えて，全ノードの実行が完了するまでの時間を最小化するものである．しかし，

データストリーム処理では，タプルはプラン木に存在するオペレータのうちの一部を通過して処理が行われるため，問題の性質が異なる．

本論文では，単一計算機におけるストリーム処理のレイテンシ問題を扱った．

CPU

アーキテクチャやスレッド起床のオーバヘッドを考慮し，マルチコア環境において処理レイテンシを短縮する．データ分割による並列化手法

[11]

は扱っていないが，並列化後のプラン木を考えれば同じ議論が成り立つから，提案手法の一般性を損なわないと考えられる．

8.

^{むすび}

本論文では，マルチコア

CPU

を対象としたデータストリーム処理のレイテンシ問題を扱った．データストリーム処理のレイテンシ定義を与え，動的計画法により最適解が求まることを示し，計算リソースの統計情報取得方法とデータストリーム処理を停止せずにオペレータ再配置を実現する方法について述べた．

今後の課題として，高頻度なデータレート変化時における評価や，同一

CPU

内ではなく

QPI

を経由した，異なる

CPU

間での通信を考慮することがある．

QPI

を経由する場合，

3.

でのコア間通信レイテンシ

w

が

2

種類以上になり，より難しい問題となる．また，

数百〜数千という多数のコアを考えた場合に，中央集権的なスケジューラを用いるのではなく，各

CPU

が自律的にスケジューリングすることも考えられる．ほか，現実の環境に近づけるために，ネットワーク経由でデータが到着した場合の評価も検討する必要がある．

例えば，

InﬁniBand

の

RDMA

を用いれば数マイクロ秒のレイテンシでのデータ送受信が可能になるため，

本提案手法が有効に機能すると考えられる．本論文のアルゴリズムは我々が開発している分散型

DSMS

である

QueueLinker

に実装した上で，オープンソース化を予定している．

謝辞本研究に関して，筑波大学の北川博之先生，

川島英之先生より有益な御助言を頂いたことに感謝する．本研究の一部は，文部科学省「

Web

社会分析基盤

(11)

ソフトウェアの研究開発」及び科学研究費（挑戦的萌芽研究

No.23650053

）によるものである．

文献

[1] D.J. Abadi, Y. Ahmad, M. Balazinska, U.

C¸ etintemel, M. Cherniack, J.H. Hwang, W. Lindner, A.S. Maskey, A. Rasin, E. Ryvkina, N. Tatbul, Y. Xing, and S. Zdonik, “The design of the Borealis stream processing engine,” Proc. CIDR 2005, pp.277–289, 2005.

[2] R. Avnur and J.M. Hellerstein, “Eddies: Contin- uously adaptive query processing,” Proc. SIGMOD 2000, pp.261–272, 2000.

[3] B. Babcock, S. Babu, M. Datar, R. Motwani, and D.

Thomas, “Operator scheduling in data stream sys- tems,” The VLDB Journal, vol.13, pp.333–353, 2004.

[4] D. Carney, U. C¸ etintemel, M. Cherniack, C. Convey, S. Lee, G. Seidman, M. Stonebraker, N. Tatbul, and S. Zdonik, “Monitoring streams - A new class of data management applications,” Proc. VLDB 2002, pp.215–226, 2002.

[5] K. Claypool and M. Claypool, “Teddies: Trained eddies for reactive stream processing,” Proc. DASFAA 2008, pp.220–234, 2008.

[6] A.A. Diwan, S. Rane, S. Seshadri, and S. Sudarshan,

“Clustering techniques for minimizing external path length,” Proc. VLDB 1996.

[7] Y. Drougas and V. Kalogeraki, “RASC: Dynamic rate allocation for distributed stream processing applications,” Proc. IPDPS 2007, pp.1–10, 2007.

[8] R. Khandekar, K. Hildrum, S. Parekh, D. Rajan, J.

Wolf, K.-L. Wu, H. Andrade, and B. Gedik, “COLA:

Optimizing stream processing applications via graph partitioning,” Proc. Middleware 2009, pp.16:1–16:20, 2009.

[9] Y.-K. Kwok and I. Ahmad, “Static scheduling algorithms for allocating directed task graphs to mul- tiprocessors,” ACM Comput. Surv. (CSUR), vol.31, no.4, pp.406–471, Dec. 1999.

[10] K. Slavin, “How algorithms shape our world,”

http://www.ted.com/talks/lang/en/

kevin slavin how algorithms shape our world.html,

（2012/7/2訪問）．

[11] 渡辺陽介，横田治夫，“マルチコア環境における可換演算群の並列評価による低遅延ストリーム処理方式，” WebDB Forum 2011.

[12] 東京証券取引所：ネットワークサービス概要，

http://www.tse.or.jp/system/network/index.html,

（2012/7/2訪問）．

[13] Intel Xeon Processor 7500 Series, Datasheet, Vol- ume 2: http://www.intel.com/Assets/PDF/

datasheet/323341.pdf,（2012/7/2訪問）．

（平成24年7月3日受付，10月29日再受付）

上田高徳（学生員）

早稲田大学IT研究機構研究助手．同大大学院基幹理工学研究科博士後期課程（在学中）．DSMS，並列分散処理，ストレージシステムに関する研究に従事．IEEE，

ACM，IPSJ，DBSJ各会員．

秋岡明香（正員）

2004博士（情報科学，早稲田大学）．

2004〜2005国立情報学研究所プロジェク

ト研究員．2005〜2007ペンシルバニア州立大学ポスドク研究員．2007〜2010電気通信大学大学院助教．2010〜早稲田大学IT 研究機構主任研究員．IEEE，ACM，IPSJ 各会員．

山名早人（正員：シニア会員）

1993早稲田大学大学院理工学研究科博士後期課程了．博士（工学）．1993〜2000電子技術総合研究所．2000早稲田大学理工学部助教授．2005同大理工学術院教授，NII 客員教授．IEEE，ACM，AAAI，IPSJ，

DBSJ各会員．

マルチコア CPU 環境における低レイテンシデータストリーム処理 *