クエリへ適応的に構築される木構造によるデータ集約処理の高速化

(1)

DEIM Forum 2016 D3-5

クエリへ適応的に構築される木構造によるデータ集約処理の高速化

小山田昌史

†

中台

慎二

†

† 日本電気株式会社情報・ナレッジ研究所〒 211-8666 神奈川県川崎市中原区下沼部 1753

E-mail:

†[email protected], ††[email protected]

あらまし本稿は，RDBMS におけるデータ集約処理の高速化方式である部分集約法のさらなる高速化方式を提案す

る．部分集約法は，テーブルからレコード集合のグループを取り出して各グループで集約値を事前に計算し，その後

の集約処理では各グループで事前に計算した集約結果を再利用する方式群である [9, 13, 19] ．本稿は，実際のデータ分

析でよく見られる「ユーザがアクセスするデータ領域に偏りがある場合」に部分集約法が高い性能を示すグループ作

成方法である APA

木 (Adaptive Partial-Aggregation Tree) を提案する．APA 木はセグメント木をユーザのクエリに対し

て適応的に成長・縮退させることにより，ユーザが頻繁にアクセスするデータ領域については細かく，あまりアクセ

スされないデータ領域については粗く，グループを作成して集約値を計算し保持する．本稿は APA 木の管理方法と，

APA

木と部分集約法を利用した集約処理について述べる．そして実験により，APA 木が水平分割方式と比べ高性能で

あることを見せる．

キーワード集約処理，マテリアライズドビュー，適応的，セグメント木，キャッシュ置換アルゴリズム

1. 背

景

Min: 3 Max: 50 1 3 6 50 32 24 8 3 9 15 10 4 10 2 10 9 10 4 11 30 11 15 11 19 11 22 11 30 11 15 11 19 11 22 12 26 13 43 13 30 15 60 15 45 15 22 attribute 1 (key) attribute 2 a record (tuple) Data (in-disk) SMA (in-memory) a group Min: 2 Max: 30 Min: 30 Max: 15 Min: 19 Max: 43 Min: 22 Max: 60 図 1 水平分割方式 [9, 13, 19] データの最大値や標準偏差などの集約値を計算するデータ集約処理は，データベースシステムにおける重要な処理である．データ集約処理は古典的なOLAPにおける基礎的な処理であるが，近年では機械学習処理の入力データ整形処理にも多用されるなど，複雑なデータ分析処理に必須の処理となっている．特に，機械学習処理を含むようなデータ分析処理では，分析処理は一度の集約処理で終了することはなく，データ分析者はインタラクティブに集約処理やその後の分析結果を吟味しながら，何度もデータの集約処理を繰り返す．効率的にデータ分析のサイクルを回すためにはデータ集約処理で瞬時に結果を得られることが望ましく，データ集約処理の高速化は重要な課題といえる． RDBMSにおいてデータ集約処理を高速化する方針のひとつは，テーブルからレコード集合のグループを取り出して各グループで集約値を事前に計算し，その後の集約処理では各グループで事前に計算した集約結果を可能な限り再利用するもので Min: 24 Max: 50 Count: 3 Min: 3 Max: 15 Count: 2 Min: 22 Max: 60 Count: 6 Min: 2 Max: 9 Count: 4 Min: 15 Max: 30 Count: 8 [0, 15] [0, 7] [8, 15] [12, 15] [8, 11] [8, 9] [10, 11] [11, 11] [10, 10] 1 3 6 50 32 24 8 3 9 15 10 4 10 2 10 9 10 4 11 30 11 15 11 19 11 22 11 30 11 15 11 19 11 22 12 26 13 43 13 30 15 60 15 45 15 22 attribute 1 (key) attribute 2 a record (tuple) Data (in-disk) APA-Tree (in-memory) a group

frequently accessed range rarely accessed range

図 2 APA木 (提案方式)

ある[9, 13, 19]．代表的なものに，MoerkotteによるSMA(Small

Materialized Aggregates) [13]や，GraefeらによるZone Filter [9] がある．本稿では，この方針にもとづく手法群を部分集約法 (Partial-Aggregation Method)と呼ぶ．これまで提案されてきた部分集約法[9, 13, 19]は，グループを作成する際，図1のように，テーブル内のレコード群をキー属性でソートするなど特定の順序で並べ，一定数のレコードを先頭から順に取り出してグループとしてきた（注 1）_{．本稿はこのグループ作成方法を水平分} 割方式(Horizontal-Partitioning Approach)と呼ぶ．本稿は実際のデータ分析でよく見られる「ユーザがアクセスするデータ領域に偏りがある場合」に水平分割方式よりも高（注 1）：RDBMS ではテーブルをパーティションへと水平分割し，各パーティションで各属性毎に集計値を計算することに対応する．

(2)

い性能を示すグループ作成方法であるAPA木(Adaptive Partial-Aggregation Tree)を提案する．APA木はセグメント木をユーザのクエリに対して適応的に成長・縮退させることにより，ユーザが頻繁にアクセスするデータ領域については細かく，あまりアクセスされないデータ領域については粗く，グループを作成して集約値を計算し保持する（図2）．この場合，頻繁にアクセスされる領域については水平分割方式と比べ細粒度のグループを作成することができ，その結果として集約結果の再利用性が向上する．本稿はAPA木の管理方法と，APA木と部分集約法を利用した集約処理についても述べ，ユーザがアクセスするデータ領域に偏りがある場合にAPA木が水平分割方式と比べ効率的となることを見せる．本稿の構成は次のとおりである．2.節で部分集約法について述べる．3.節でAPA木について述べる．4.節で実験結果について述べる．5.節で関連研究について紹介したあと，6.節でまとめる．

2. 部分集約法

はじめに，本稿で高速化に取り組む部分集約法の基本アイディアについて述べる．部分集約法の基本的な発想は，二次記憶やリモートノード（クラウド）などのアクセスコストの高い領域に格納されているテーブルについて事前に集約計算をおこない，その集約結果のみをアクセスコストの低い主記憶などに保持し，その後の集約処理では事前計算結果を可能な限り使い回すことで，アクセスコストの高いテーブルへのアクセスを削減しようというものである[9, 13, 19]．この際，より多くのクエリで結果が使いまわせるように，データ全体に対して集約値を計算するのではなく，図1のようにテーブルを複数のグループに水平分割し，各グループで属性の最大値や最小値などの集約値を計算する．そして，以降の集約処理では集約演算が持つ性質を利用し，各グループ毎に計算した集約値を組み合わせて再利用することで，最終的な集約結果を算出する．本節の以降では，部分集約法の高速化対象となる集約演算とクエリについて説明する． 2. 1 部分集約法により高速化できる処理まず，部分集約法が高速化できる集約演算の持つ性質を以下で定義する．定義2.1 (部分計算可能) 集約演算 f : R(A1, ..., An) → D，リレーションB=∪mi=1Bi∈ R(A1, ..., An)について， f (B)= g( f (B1), ..., f (Bm)) となるg : Dm _{→ D}_{が存在するとき，集約演算} _f _{は部分計算} 可能(partially computable)であるという．また，このときgを f のコンバイナ(combiner)と呼ぶ．なお，R(A1, ..., An)は属性 A1, ..., Anを持つリレーションRのスキーマである．すなわち，部分集約可能な演算とは，Max(Maxage(B1)∪

Maxage(B2)) = Maxage(B1∪ B2)のように，リレーションを複

数のグループに分割して別々に算出した集約値から，元々のリレーションに対する集約値を算出できる演算をいう．部分集約 Algorithm 1:部分集約法での水平分割方式による選択演算と集約演算の実行アルゴリズム Input: B グループ (リレーション R の被覆であり B= {Bi}i∈I, R =∪i∈IBi) Input:σC 選択演算 Input: f 集約演算 Input: g 集約演算 f のコンバイナ Data: a1, . . . , a|B| 事前に計算された集約結果 (ai= f (σC(Bi))) Data: p1, . . . , p|B| コンバイナに渡すためにつかわれる，グループごとの集約結果を格納する変数 Output: f (σC(R)) 集約結果 1 foreach Bi∈ B do 2 ifσC(Bi)= ∅ then 3 （Skip）グループ Bi内のタプルはひとつも集計対象にならないため処理をスキップ 4 pi← 0 5 else ifσC(Bi)= Bithen 6 （Reuse）グループ Bi内の全てのタプルが集計対象となる ため，事前にグループ Biについて計算した集約結果を再利用することができる 7 pi← ai 8 else 9 （Read）グループ Bi内のいくつかのタプルが集計対象に なるため，グループ Bi内のデータを読み込んで集約結果を算出する必要がある 10 pi← f (σC(Bi)) 11 集約結果 f (σC(R))を各グループの集約値 p1, . . . , p|B|から計算（再 集約にコンバイナ g を利用） 12 return g(p1, . . . , p|B|) 可能な演算の例としては，リレーションの属性に関する最大値・最小値，和，標準偏差，平均，ヒストグラム，の計算があげられる．他方，部分計算可能でない演算の例としてはリレーションの属性のカーディナリティ計算（一意な値の数）がある．部分集約法は，上記の部分計算可能な集約演算に選択演算が加わったクエリを高速化する．例えば，以下のレンジ集約クエリが部分集約法により高速化可能である．

Sumincome(σ20<=R.age<=40(R))

2. 2 水平分割方式のアルゴリズム次に，部分集約法での水平分割方式による集約値計算の具体的なアルゴリズムについて述べる．アルゴリズム1は部分集約法での水平分割方式による選択演算と集約演算の実行アルゴリズムをあらわす．水平分割方式はリレーションRの各グループBiについて，下記の三つのパター

ン（Skip, Reuse, Read）で部分的な集約結果p1, . . . , p|B|を取得

する．

（1） Skip:σC(Bi)= ∅ならば，グループBi内のタプルはひ

とつも集計対象にならないため処理をスキップできる．（2） Reuse:σC(Bi)= Biならば，グループBi内の全てのタ

(3)

した集約結果を再利用できる．（3） Read: それ以外ならば，グループBi内のいくつかのタプルのみ集計対象になるため，事前に集約した結果が使いまわせず，グループBi 内のデータを実際に読み込んで集約結果を算出する必要がある．そして，水平分割方式はこれらの部分的な集約結果をコンバイナgによって再集約することで，最終的な集約結果 f (σC(R))を算出する．

部分集約法の中では各グループBiがSkip, Reuse, Readのど

れになるかを，グループの中に含まれているデータにアクセスすることなく，判定する必要がある．[19]はこの問題に取り組み，グループの持つ集約値のみを用いて効率的にSkip, Reuse, Readの判定をおこなう方式を提案している．

3. APA

木

前節で，部分集約法の概要と，そのグループ作成方式のひとつである水平分割方式について述べた．本節は，ユーザのアクセスするデータ領域に偏りがあった場合に水平分割方式よりも効率的となるグループ作成方式APA木(Adaptive Partial-Aggregation Tree)を提案する．（注 2） APA木は水平分割方式と同様に，部分集約法におけるデータの集約単位であるグループを作成し，集約値を管理する方式である．APA木は水平分割方式と比較すると，（1）水平分割方式がデータを均等のサイズでグループ化するのに対し，APA木は頻繁にアクセスされるデータ領域ほど細かなグループ（=再利用できる可能性が高い）を作成するため，ユーザのアクセスするデータ領域に偏りがあった場合に集約値の再利用性が高く効率的である．（2）水平分割方式が集約計算時に全てのグループの集約値を集計し再集約しなければならないのに対し，APA木はグループを木構造で管理するため，再集約計算時に計算に影響しないグループの枝刈りがおこなえ，再集約計算が効率的である．という違いを持つ． 3. 1 APA木の構造 APA木はデータのキー属性を用いてデータをグループ化し，グループ内での集約値をインメモリで管理する木構造である．図3にAPA木の例を示す．APA木はセグメント木と同様，ノードがキー属性の値域を再帰的に二分割してゆき（各ノードがキー属性のある範囲を担当し），葉となるノードがその範囲に属すデータ（グループ）へのポインタと，グループ内のデータについて計算した集約値（属性の最大値，最小値，グループ内のデータ数）を保有するような二分木である．図3ではキー属性の値域[0, 15]が再帰的に分割されてグループが作成され，集約値が各グループについて計算されている様子が確認できる．（注 2）：なお，APA 木は，リレーションがある属性についてソートされており，ユーザのクエリがその属性に対するレンジクエリである場合に特に有用である．近年のデータ分析で一般的なタイムスタンプ付き実績データの分析が，これに該当する．例えばクラウド型 DWH のひとつである Treasure Data [2] では，データは時刻情報によりパーティショニングされており，ユーザのクエリには基本的に時刻属性に対するレンジ条件が含まれることが想定されている． Min: 24 Max: 50 Count: 3 Min: 3 Max: 15 Count: 2 Min: 22 Max: 60 Count: 6 Min: 2 Max: 9 Count: 4 Min: 15 Max: 30 Count: 8 [0, 15] [0, 7] [8, 15] [12, 15] [8, 11] [8, 9] [10, 11] [11, 11] [10, 10] 1 3 6 50 32 24 8 3 9 15 10 4 10 2 10 9 10 4 11 30 11 15 11 19 11 22 11 30 11 15 11 19 11 22 12 26 13 43 13 30 15 60 15 45 15 22 attribute 1 (key) attribute 2 a record (tuple) Data (in-disk) APA-Tree (in-memory) a group 図 3 APA木の構造 APA木はセグメント木とは異なり，バランスされた完全二分木ではない．セグメント木が値域をまんべんなく再帰的に二分割してゆくのに対し，APA木はユーザに頻繁にアクセスされる領域をより細かく分割し（その範囲のリーフノードは深くなり），あまりアクセスされない領域は粗く分割する（その範囲のリーフノードは浅くなる）．このアクセス頻度に応じた分割は，ユーザのクエリに応じて適応的に木が成長・縮小することで実現される．図3のAPA木は，[0, 7]の領域にあまりアクセスせず，[8, 15]の領域，中でも[10, 11]の領域に頻繁にアクセスした結果となっている．APA木は細分化する領域を頻繁にアクセスされる領域に限定するため，セグメント木と比べてノード数が少なくなり，消費メモリ量も少なく済む． 3. 2 APA木と部分集約法によるレンジ集約クエリの評価 Algorithm 2:evalRangeAggregationQuery(query): 部分集約法でのAPA木によるレンジ集約クエリの評価アルゴリズム Input: query:レンジクエリ Output:レンジクエリ query の対象となるデータに対する集約結果 Data: rootNode: APA木のルートノード

Data: TREE SIZE LIMIT: APA木のノード数上限値 1 // 集約値を計算

2 aggregations← computeAggregationForNode(rootNode, query) 3 while rootNode.treeSize> TREE SIZE LIMIT do

4 // （木の縮小）最もアクセスされていないノードを探し，その兄弟ノードとマージ 5 leastAccessedLeaf← rootNode.findLeastAccessedLeaf() 6 leastAccessedLeaf.parent.mergeChildren() 7 return aggregations 値の追加や削除によって成長・縮小する木構造と異なり，APA 木はレンジ集約クエリを評価するたびに成長・縮小する．以下， APA木と部分集約法によるレンジ集約クエリの評価の流れを説明し，APA木が処理のなかでいかに成長・縮小してゆくかについて述べる．

(4)

Algorithm 3:computeAggregationForNode(node, query):ノー

ドnode以下のデータに対する部分集約法でのAPA木によ

るレンジ集約クエリの評価アルゴリズム

Input: node:集約値の計算対象ノード Input: query:レンジクエリ

Output: node下の query 対象となるデータについての集約結果 1 // この node 下のデータが query の範囲内 / 範囲外にあるのかを

compare関数をつかって確認する 2 answer← compare(node.range, query) 3 if answer= OUTSIDE QUERY then

4 // node 下のデータは query の範囲外なので，それ以上の探索はしない

5 return null

6 if answer= ALL DATA IN QUERY then

7 // node 下のすべてのデータが query の範囲内なので，事前に計算した集約値を再利用

8 return node.getPrecomputedAggregations() 9 if answer= PART DATA IN QUERY then

10 // node 下のいくつかのデータが query の範囲内のとき 11 if node.isLeafNode() then 12 （木の成長）リーフノードまで探索したが，再利用はできなかった．今後，この区間で再利用ができるように，ノードを分割してより細かな粒度で集約値を計算 13 node.split(query) 14 // 自身の子の集約値を再利用するため，再帰的に探索 15 leftAggregations= computeAggregationForNode(node.leftChild, query) 16 rightAggregations= computeAggregationForNode(node.rightChild, query) 17 // 両方の子から得た集約値を部分集約法で併合して返却 18 return leftAggregations.merge(rightAggregations) APA木と部分集約法をつかったレンジ集約クエリの評価アルゴリズムをアルゴリズム2とアルゴリズム3に示す．アルゴリズム2は，APA木をルートノードから再帰的に探索し，レンジ集約クエリを評価する．あるノード以下のデータに対する集約値の計算は，アルゴリズム3がおこなう．アルゴリズム3は，ノードが • 「すべてのデータがレンジ集約クエリの範囲外 (OUT-SIDE QUERY)」 • 「いくつかのデータがレンジ集約クエリの範囲内 (PART DATA IN QUERY)」

• 「すべてのデータがレンジ集約クエリの範囲内 (ALL DATA IN QUERY)」

のどれになるかを判定し（注 3）_{，そのノードに対する集約値を下} 記のように取得する．（1）もし「すべてのデータがクエリの範囲外 (OUT-SIDE QUERY)」であれば，そのノード以下のノードはクエリの対象外であり，探索しても無駄であるため，そのノードよ（注 3）：単純なレンジのオーバーラップ判定である．りも下位のノードの探索を打ち切る（Skip）（2）もし「いくつかのデータがクエリの範囲内

(PART DATA IN QUERY)」であれば，そのノードの粒度では

集約値の再利用はできない．このとき(a)そのノードが子ノードを持つならば，下位のノードはより細粒度に統計値を計算しており再利用できる場合があるため，下位ノードについて再帰的に探索を続ける．(b)それ以外のとき（そのノードがリーフノードである場合）は，集約値の再利用ができないため，将来同様のクエリが来た場合に集約値が再利用できるようにそのノードを分割し，各ノードの集約値を二次記憶のデータを読み込んで計算する（Read）（3）もし「すべてのデータがクエリの範囲内

(ALL DATA IN QUERY)」であれば，そのノードの関するデー

タはすべてクエリの対象となっているため，ノード下のグルー

プに対して事前に計算した集約値を使いまわす（Reuse）

以上のように，APA木は木を再帰的にたどりながら部分集約

法のSkip，Reuse，Readをおこなうため，クエリに関係のない

ノード（グループ）の探索を枝刈りすることができ，全てのグループを走査する水平分割方式と比べ効率的である．また，あるクエリでReadが発生した場合，APA木は次にそのクエリが来た場合にReadが発生しないよう，木を成長させる．そのため，ユーザがアクセスするデータ領域に偏りがある場合，Read が発生せず，水平分割方式と比べ効率的となる． 3. 3 キャッシュ置換アルゴリズムによるAPA木の肥大化防止木を成長させるとReadが発生する確率は減るが，ノード数が増え，ストレージコストと探索コストが肥大する（注 4）_．そこ

で，APA木は最大のノード数TREE SIZE LIMITを設け，その制限下で最適な木を構築しようとする．ここでの最適な木とは，「最もアクセスされる領域が最も深く，最もアクセスされない領域が最も浅い木」をいう．このため，APA木は木を成長させたあとにノード数が制限を超えた場合，キャッシュ置換アルゴリズムにもとづいて「最もアクセスされていないリーフノード」を探し，その葉ノードを兄弟ノードとマージする（アルゴリズム2）．これは近年提案されたレンジクエリ向けBloom Filterで

あるARF (Adaptive Range Filter) [5]と同じ発想である．具体的

なキャッシュ置換アルゴリズムとしては，例えば軽量で管理情報の少ないCLOCK [17]の利用が考えられる[5]． 3. 4 APA木の成長と縮小処理上で，APA木ではクエリの実行時に木の成長・縮小を必要に応じておこなうと述べた．ここでは，具体的なAPA木の成長・縮小処理にいて説明する． a ) リーフノードの分割処理(木の成長) リーフノードの分割処理は，あるリーフノードの担当するキー属性値の領域を二つに分割し，元のリーフノードの配下にあったデータをキー属性の値に応じて両領域に分配した上で，それらの統計値を再計算し，新たなリーフノードを作成する．例えば図4のAPA木において，[0, 49]の年齢を担当するリー（注 4）：あらゆるクエリで Read が発生しないような APA 木の構築にはデータ数 nに対し O(n log n) の空間が必要となり，これを主記憶に置くことは困難である．

(5)

age (key): [0, 100]

age (key): [0, 49]

weight: {max: 92.0, min: 45.0, mean: 66.3, sum: 398.0, count: 6.0} height: {max: 185.0, min: 162.0, mean: 171.7, sum: 1030.0, count: 6.0}

[0, 50)

age (key): [50, 100]

[50, 100] age (key): 10,18,20,25,30,38 weight: 78,92,64,45,51,68 height: 165,163,162,185,179,176 age (key): 50,65,70,75 weight: 45,86,93,62 height: 145,160,149,140 図 4 深さが 1 の APA 木の例 age (key): [0, 100] age (key): [0, 49] [0, 50) age (key): [50, 100]

[50, 100]

age (key): [0, 24]

[0, 25)

age (key): [25, 49]

[25, 49] age (key): 10,18,20 weight: 78,92,64 height: 165,163,162 age (key): 25,30,38 weight: 45,51,68 height: 185,179,176 age (key): 50,65,70,75 weight: 45,86,93,62 height: 145,160,149,140 図 5 図 4 の APA 木で左のリーフノードを分割した後の APA 木フノードを分割すると，図5のように[0, 24]の年齢を担当するリーフノードと，[25, 49]の年齢を担当するリーフノードの二つが生成される． b ) リーフノードの併合処理(木の縮小) リーフノードの併合処理は，二つの隣接する（同じ親ノードを持つ）リーフノードの担当する領域を併合して新たなリーフノードを作成し，親ノードを新たなリーフノードで置き換える．この際，新たなリーフノードの集約値を計算する必要があるが，これは元々のリーフノード二つの持つ集約値を部分集約法によって集約することで計算できる．すなわち，実際のデータをスキャンして集約値を再計算する必要はない．

4. 実

験

本節では，実験によってAPA木と水平分割方式を比較する． 4. 1 実装実験ではAPA木と水平分割方式をそれぞれ実装し用いた． APA木でマージ対象のリーフを選ぶアルゴリズムとしてはLRU ポリシーの効率的な近似アルゴリズムであるCLOCK [17]を用いた． 4. 2 データセット実験では

Members(age INT, height DOUBLE, weight DOUBLE) なる，３つの属性を持つ人工データを生成して用いた．このうちage属性をクラスタ索引として用いた．各属性の値は一様分布から生成した．全ての実験を通して，データセットのレコード数は100Kとした． 4. 3 ワークロード本稿で提案するグループ方式APA木は「ユーザがアクセスするデータ領域に偏りがある」場合に効果的となる．このことを確認するため，実験では以下の二種類のワークロードを人工的に生成し用いた．（1）ワークロード(a)は，まんべんなくデータがアクセスされるケースを再現する．このワークロードは，次の手順で一様分布から生成されたキー属性ageに対するレンジ集約クエリ [l, l + w]群からなる:まず，レンジの左端lを一様分布から生成する．次に，レンジクエリのレンジ幅wを，正規分布N(µ, σ2₎ から生成する．（2）ワークロード(b)∼(d)は，アクセスされるデータが偏っているケースを再現する．このワークロードは，次の手順でZiphianに従うよう生成されたキー属性ageに対するレンジ集約クエリ[l, l + w]群からなる:まず，レンジの左端lを，Ziphian に従うよう生成する．次に，レンジクエリのレンジ幅wを，正規分布N(µ, σ2₎_{から生成する．アクセスするデータの偏りの強} さをコントロールするZiphianのパラメータsについては，偏りの強さが結果に与える影響を見るため，s= 2, s = 3, s = 4の三通りを選び，異なるワークロードとする．それぞれのワークロードは，上記の手順で生成された100個のクエリから構成した．なお，上記のワークロード生成において，レンジ幅を生成する正規分布のパラメータはµ = 5, σ2_{= 10}_に固定した．図6は，上記の手順で生成された各ワークロードのアクセスするデータ領域の分布をあらわした図である．図6から，一様分布がまんべんなくデータ領域全体へアクセスすることと， Ziphianがパラメータsの値が大きくなるほど特定のキー領域へ集中的にアクセスすることが確認できる．本節の以降では，これらのワークロードを提案方式であるAPA木と従来方式で

(6)

ある水平分割方式で処理し，クエリのアクセスするデータ領域の偏りがこれら方式に与える影響を見る． 4. 4 I/O量の比較提案方式APA木の有効性を確認するため，上述の100Kのレコードからなるデータセットについて，グループ作成方式としてAPA木と水平分割方式を選んで上述のワークロードを実行した際の，部分集約法のI/O量（注 5）_{を計測した．}_APA_木はデータをクエリに応じて定められたグループ数の制限のなかで動的にグループ分けし，水平分割方式はデータを指定されたグループ数で静的に分割する．水平分割方式はグループ数が大きくなるほどI/O量が減るため[18]，APA木との比較のために，実験ではグループ数（APA木ではグループ数の上限）が，32, 64, 128, 256であるときの四通りについてワークロード実行時のI/O量を計測した．図7，図8，図9，図10の各図は，グループ数が32, 64, 128, 256であるときに，前述のワークロード内のクエリを順に実行した際の累積I/O量をあらわしている．図中，APA-Treeは提案方式，SMAは従来方式[9, 13, 19]に対応する．図の横軸は順に実行されたワークロード内のクエリをあらわし，縦軸はクエリ実行時のI/O量の積み上げ値をあらわす．すなわち，右端における縦軸の値は，ワークロード内のクエリを全て実行し終えた時点での，トータルのI/O量をあらわす．この値が小さいほど，方式は有効であるといえる． 4. 4. 1 データ領域の偏りが与える影響はじめに，ユーザのアクセスするデータ領域の偏りが提案方式と従来方式に与える影響を見る．図7は，グループ数が32 であるときの実験結果をあらわしている．図7から，全てのワークロードで，提案方式APA木が従来方式である水平分割方式よりも少ないI/O量でワークロードを実行できたことがわかる．また，(a)∼(d)を比較することで，アクセス領域の偏りが強くなる（Zipfianのパラメータsの値が大きくなる）ほど，そのI/O量の差が大きくなることが分かる．以上から，提案方式APA木が水平分割方式と比べ高性能であり，その性能差がユーザのアクセスするデータ領域に偏りがあるほど大きくなることがいえる． 4. 4. 2 グループ数が与える影響つぎに，グループ数が提案方式と従来方式に与える影響を見る．図7∼図10を比較すると，グループ数を増やすほど両方式での総I/O量が小さくなることが分かる．また，グループ数を増やすほどAPA木と水平分割方式の性能差は縮まり，グループ数が256の場合では全てのワークロードでAPA木よりも水平分割方式の方が有効となることが分かる．これは前述のとおり，水平分割方式ではグループ数がグループ分けの基準となる属性の一意な値の数に近づくほど，I/O量が減るためである[18]（注 6）_．しかし，水平分割方式ではグループ数Nに対して集約値の再集約の計算量がO(N)であるため（注 7）_{，グループ数を大きくする} （注 5）：本稿では I/O 量として，参照されたレコード数を用いる．（注 6）：究極的には，グループ分けの基準となる属性値で Group-by し，グループごとに集約値を持つことで，I/O 量は最小となる．

（注 7）：APA 木の計算量は最良 O(log N)，最悪 O(N) であり，水平分割方式より

ことがそのまま性能向上に繋がるわけではない．また，グループ作成数を増やすと管理すべき集約値の数も増え，主記憶を圧迫する．以上から，グループ作成につかわれる属性の一意な属性値が小さい場合は従来方式水平分割方式が有効であるということがいえる．

5. Uniform

(a)一様分布 0 20 40 60 80 100 120 140 Accessed key 0 100 200 300 400 500 Fr eq ue nc y Zipf (s = 2) (b) Zipfian (s=2) 0 20 40 60 80 100 120 140 Accessed key 0 100 200 300 400 500 Fr eq ue nc y Zipf (s = 3) (c) Zipfian (s=3) 0 20 40 60 80 100 120 140 Accessed key 0 100 200 300 400 500 Fr eq ue nc y Zipf (s = 4) (d) Zipfian (s=4) 図 6 各ワークロードでの，クエリのアクセスするレコードのキー値のヒストグラムを算出したもの．Zipfian からクエリを生成した場合，パラメータ s の値が大きくなるほど，アクセスする領域に偏りが生まれることが確認できる． 0 20 40 60 80 Queries 0 100000 200000 300000 400000 500000 # of rea d ( cu mu lat ive ) APA-Tree SMA (a)一様分布 0 20 40 60 80 Queries 0 100000 200000300000 400000500000 600000 # of rea d ( cu mu lat ive ) APA-Tree SMA (b) Zipfian (s=2) 0 20 40 60 80 Queries 0 100000 200000 300000 400000 500000 600000 # of rea d ( cu mu lat ive ) APA-Tree SMA (c) Zipfian (s=3) 0 20 40 60 80 Queries 0 100000 200000 300000 400000500000 600000 # of rea d ( cu mu lat ive ) APA-Tree SMA (d) Zipfian (s=4) 図 7 APA木と水平分割方式で 100K のレコードに対して 32 個のグループを作成し，各ワークロード内のクエリを順に実行した際の累積 I/O 量． 0 20 40 60 80 Queries 0 50000 100000 150000 200000 250000 300000 # of rea d ( cu mu lat ive ) APA-Tree SMA (a)一様分布 0 20 40 60 80 Queries 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 # of rea d ( cu mu lat ive ) APA-Tree SMA (b) Zipfian (s₌₂₎ 0 20 40 60 80 Queries 0 20000 40000 60000 80000 100000 120000 140000 160000 # of rea d ( cu mu lat ive ) APA-Tree SMA (c) Zipfian (s₌₃₎ 0 20 40 60 80 Queries 0 50000 100000 150000 200000 250000 300000 350000 # of rea d ( cu mu lat ive ) APA-Tree SMA (d) Zipfian (s₌₄₎ 図 8 APA木と水平分割方式で 100K のレコードに対して 64 個のグループを作成し，各ワークロード内のクエリを順に実行した際の累積 I/O 量． 0 20 40 60 80_Queries 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 # of rea d ( cu mu lat ive ) APA-Tree SMA (a)一様分布 0 20 40 60 80_Queries 0 10000 2000030000 4000050000 6000070000 80000 # of rea d ( cu mu lat ive ) APA-Tree SMA (b) Zipfian (s=2) 0 20 40 60 80_Queries 0 10000 20000 30000 40000 50000 60000 # of rea d ( cu mu lat ive ) APA-Tree SMA (c) Zipfian (s=3) 0 20 40 60 80_Queries 5000 10000 15000 20000 25000 30000 35000 40000 # of rea d ( cu mu lat ive ) APA-Tree SMA (d) Zipfian (s=4) 図 9 APA木と水平分割方式で 100K のレコードに対して 128 個のグループを作成し，各ワークロード内のクエリを順に実行した際の累積 I/O 量．とつも存在しないにも関わらず，存在すると判定してしまう False-positive性を持つのが特徴である．なお，[8]はARFの対象とした問題を理論的に解析し，指定したFalse-positive率を得るためのデータ構造の理論的最小サイズなどについて議論している． 5. 4 OLAP Hoらは多次元OLAPキューブにおけるレンジ集約計算の高速化のため，レンジ上のPrefix-SumやPrefix-Maxを計算して保持するデータ構造を提案している[11]．彼らの提案するデータ構造はアクセス頻度を考慮せず，全領域について均等に事前計算をおこなうという点で，本研究とはコンセプトが異なる．本研究と彼らの提案するデータ構造は相互補完的な関係にあり，彼らの提案するデータ構造に本研究で用いたアクセス頻度に応じた成長と併合処理を組み合わせることで，多次元OLAPにおける集計値データのサイズを縮小できると考えられる．

(8)

0 20 40 60 80 Queries 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 # of rea d ( cu mu lat ive ) APA-Tree SMA (a)一様分布 0 20 40 60 80 Queries 0 10000 2000030000 4000050000 6000070000 80000 # of rea d ( cu mu lat ive ) APA-Tree SMA (b) Zipfian (s=2) 0 20 40 60 80 Queries 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 # of rea d ( cu mu lat ive ) APA-Tree SMA (c) Zipfian (s=3) 0 20 40 60 80 Queries 5000 10000 15000 20000 25000 30000 35000 # of rea d ( cu mu lat ive ) APA-Tree SMA (d) Zipfian (s=4) 図 10 APA木と水平分割方式で 100K のレコードに対して 256 個のグループを作成し，各ワークロード内のクエリを順に実行した際の累積 I/O 量． 5. 5 サンプリングによる集約処理の高速化集約演算の高速化アプローチのひとつは，データのサンプリングである．BlinkDB [3]はHiveを拡張し，HDFS上の処理対象データをサンプリングし近似結果を算出することで，集約演算を含んだ問合せへの応答時間を短縮している．BlinkDBは問合せへの応答時間と近似による誤差のトレードオフ関係をシステマティックに扱い，ユーザの要求する応答時間から，結果に生じる最大誤差を算出することができる．[14]にも同様の試みがある．

6. 結

論

本稿は，実際のデータ分析でよく見られる「ユーザがアクセスするデータ領域に偏りがある場合」に部分集約法が高い性能を示すためのグループ作成方法として，APA木(Adaptive

Partial-Aggregation Tree)を提案した．APA木はセグメント木をユーザのクエリに対して適応的に成長・縮退させることにより，ユーザが頻繁にアクセスするデータ領域については細かく，あまりアクセスされないデータ領域については粗く，グループを作成して集約値を計算し保持する．本稿はAPA木の管理方法と，APA木と部分集約法を利用した集約処理について述べた．そして，実験により，ユーザがアクセスするデータ領域に偏りがある場合APA木が水平分割方式と比べ効率的となることを見せた．文献 [1] Parquet. http://parquet.io/.

[2] Treasure Data. https://www.treasuredata.com/.

[3] S. Agarwal et al. BlinkDB: queries with bounded errors and bounded response times on very large data. In EuroSys, pages 29–42. ACM, 2013.

[4] A. Ailamaki et al. Weaving Relations for Cache Performance. In

VLDB, pages 169–180, 2001.

[5] K. Alexiou, D. Kossmann, P. Larson. Adaptive Range Filters for Cold Data: Avoiding Trips to Siberia. PVLDB, 6(14):1714–1725, 2013. [6] A. Eldawy, J. J. Levandoski, P. Larson. Trekking Through Siberia:

Managing Cold Data in a Memory-Optimized Database. PVLDB, 7(11):931–942, 2014.

[7] A. Floratou, U. F. Minhas, F. ¨Ozcan. SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures. PVLDB,

7(12):1295–1306, 2014.

[8] M. Goswami et al. Approximate Range Emptiness in Constant Time and Optimal Space. In SODA, pages 769–775, 2015.

[9] G. Graefe, H. A. Kuno. Fast Loads and Queries. TLDKS, 2:31–72, 2010.

[10] Y. He et al. RCFile: A fast and space-eﬃcient data placement struc-ture in MapReduce-based warehouse systems. In ICDE, pages 1199–

1208, 2011.

[11] C. Ho et al. Range Queries in OLAP Data Cubes. In SIGMOD, pages 73–88, 1997.

[12] Y. Huai et al. Major technical advancements in apache hive. In

SIG-MOD, pages 1235–1246. ACM, 2014.

[13] G. Moerkotte. Small Materialized Aggregates: A Light Weight Index Structure for Data Warehousing. In VLDB, pages 476–487, 1998. [14] S. Nirkhiwale, A. Dobra, C. M. Jermaine. A Sampling Algebra for

Aggregate Estimation. PVLDB, 6(14):1798–1809, 2013.

[15] V. Raman et al. DB2 with BLU Acceleration: So Much More than Just a Column Store. PVLDB, 6(11):1080–1091, 2013.

[16] L. Sun et al. Fine-grained partitioning for aggressive data skipping. In SIGMOD, pages 1115–1126, 2014.

[17] A. S. Tanenbaum. Modern Operating Systems. Prentice Hall Press, Upper Saddle River, NJ, USA, 3rd edition, 2007.

[18] 小山田昌史 et al. データの部分集約による高速かつ正確なデータ 集計処理の実現. Technical Report 19, nov 2014.

[19] 小山田昌史 et al. PA-Proxy: SQL-on-Hadoop におけるデータ集 計処理を精度の劣化なく高速化するフレームワーク. In DEIM, 2015.

クエリへ適応的に構築される木構造によるデータ集約処理の高速化

DEIM Forum 2016 D3-5