Key Sorting Bufferを用いた時系列データのデータベース処理高速化

(1)

DEIM Forum 2016 G8-1

Key Sorting Buﬀer

を用いた時系列データのデータベース処理高速化

曽我

樹大

†

華井

雅俊

††

高塚

康成

††

首藤

一幸

††

†

東京工業大学理学部情報科学科

††

東京工業大学大学院情報理工学研究科数理・計算科学専攻

〒 152-8552 東京都目黒区大岡山 2-12-1-W8-43

E-mail: [email protected], [email protected], [email protected], [email protected]

あらましメッセージングや SNS でのメッセージや投稿といった時系列データは，多くの場合データベース上では

キーの一部に実時間を含む形で表現する．Google Bigtable，Apache HBase，Apache Cassandra など多くの NoSQL

型データベースで用いられているインデックス構造である LSM-Tree においては，キー順に従ってデータを処理する

とランダムである場合よりも高速に処理できる．我々はその点に着目し，サーバ・クライアント毎の遅延の差やクロッ

クのずれなどによって崩れた時系列データのキー順を Key Sorting Buﬀer を用いてソートし直すことでデータベース

処理の高速化を実現する．また，既存のデータベース管理システムを用いて設計及び実装したミドルウェアの評価を

行い，実際に Key Sorting Buﬀer によってデータベース処理の高速化が可能であることを確認した．

キーワードデータベース，インデックス，時系列データ，高速化

1. はじめに

モバイル端末の普及と発達に伴って，LINE, Skypeなどのメッセージングアプリケーションや，Twitter, Facebook, In-stagramなどのSNSを利用する機会が増えている．メッセージングアプリケーションやSNS上の投稿など，時間経過に従って生成されるデータを時系列データといい，多くのユーザによる投稿・閲覧が行われる．そのような多くのリクエストに対応するためには，分散環境で高い処理性能を発揮できるデータベースを用いることが必要になる．そのために用いられているのが

NoSQL型データベースである．Google Bigtable [1]，Apache Cassandra [2], [3]，Apache HBase [4]などのNoSQL型データベースでは，データの索引として利用するインデックス構造に LSM-Tree [5]を主に採用している．LSM-Treeの内部で利用されているアルゴリズムを解析した結果，データをキー順に従って処理するとランダムである場合よりも高速に処理することが可能であると我々は考えた．今回研究対象とする時系列データは，多くの場合データベース上ではキーの一部に実時間を含む形で表現される．しかし，複数クライアントで生成された時系列データをサーバ（データベース）に送る際に発生する遅延時間の差や，各クライアント毎のクロックのずれが原因となり，サーバにはキー順ではなく少し順序が崩れた状態でデータが到着してしまう．

そこで我々は，サーバ・クライアント間にKey Sorting Buﬀer

を配置し，クライアントから送られてくるデータを一時的にバッファリングし，ソートし直した状態でサーバへデータを渡す仕組みを提案する．提案手法はリバースプロキシに実装することで，データベース管理システムに手を加えないミドルウェアとして機能させることが可能である．我々は既存のデータベース管理システムを用いてミドルウェアを設計及び実装し，提案手法の評価を行う．本論文の構成は以下のとおりである．2章では本研究の背景を述べ，3章では我々の提案手法について述べる．4章では予備実験及び提案手法に基づいて実装したミドルウェアの性能評価を行う．5章では関連研究について述べる．6章では本研究についてまとめ，また今後の課題を述べる．

2. 背

景

本章では，本研究の背景を述べる．特に研究対象としている時系列データと，提案手法の有効性を述べるにあたって必要となるLSM-Treeに対するデータの読み書きについて述べる． 2. 1 時系列データ 1章で述べたように，時間経過に従って生成される時系列データはキーの一部に実時間を含む形で表現されることが多い．例えば，次のような形である． Key = "（実時間のタイムスタンプ）" + "（その他）" このようなキーを採用する理由は，時系列データに対するリクエストは「データを時系列で読み出す」ことが多いからである．実時間のタイムスタンプをキーの頭に持つデータを利用するとき，データを時系列に読み出す際には近いキーを順々に読み出せば良い．近いキーを順々に読み出す操作はディスクシークを抑えることが可能であり，読み出し効率が良くなる．我々は，このような時系列データに対する処理について高速化を実現する． 2. 2 LSM-Treeとコンパクション 1章で述べた通り，NoSQL型データベースではインデックス構造としてLSM-Tree を用いる場合が多い．MySQL [6],PostgreSQL [7]などのデータの読み出し性能に特化したデータベースとは異なり，LSM-Treeを用いたデータベースは書き込み性能に特化している． LSM-Treeは図1に示すような構造をとっている．書き込み

(2)

図 1 LSM-Treeの構造はメモリ上で行うため高速であるが，読み出し時はディスクから複数のC1 treeを読む必要があるため比較的遅く，書き込みが行われC1 treeの数が増えるにつれて読み出し性能は徐々に落ちていく．この読み出し性能の過度な低下を抑えるために複数のC1treeをまとめて整理する処理がコンパクションである．図１に見られるようにC1 treeは木構造になっていて，各Tree はデータがキー順にソートされている．データを読みだす際，目的のキーを範囲に含むC1treeの数が少ないほど読み出しのコストが小さくなる．コンパクション処理によって，複数のC1 treeをまとめて数を減らすことや，各Treeのキー範囲の被りが少なくなるように整理することができる． 2. 3 コンパクション手法コンパクションの対象となるC1 treeをどのように選択するかはデータベース管理システム毎に異なっており，様々なコンパクション手法がとられている．本節では，広く用いられている2つのコンパクション手法について述べる． 2. 3. 1 Google Bigtable型コンパクション

Apache Cassandra [2], [3] のデフォルト設定や Google Bigtable [1] などにおいて用いられているのが，この手法である．CassandraにおいてはSize Tiered Compaction Strat-egyと呼ばれている．これは最も単純な方法であり，同程度の大きさのC1 treeがある程度集まってきたらコンパクションを

行い1つにまとめることを繰り返し行う．

2. 3. 2 Google LevelDB型コンパクション

Google LeveleDB [8]やRiak [9]などにおいて用いられているのが，この手法である．Cassandraでも使用可能であり Lev-eled Compaction Strategyと呼ばれている．これは，各Tree

のキー範囲の被りをなるべく減らすことに主眼を置いた手法である．この手法によってディスク内がどのような構造になるかを図2に示す．小さなTree複数を用いて，階層構造で管理を行う．各レベルの容量は1つ下のレベルの容量の10倍となるようになっている．コンパクションが行われるのは，あるレベルnの容量が一杯になった時であり，まずレベルn内のtree が1つ選択される．その選択されたtreeとキー範囲が被るtree がレベルn + 1内から全て選択され，そのレベルn内の1つの treeとレベルn + 1内の複数のtreeがコンパクションの対象となる．これらのtreeを一度まとめたら，レベルn + 1内にキー順に新たな小さなtreeを出力する．これによってレベルnからレベルn + 1へのコンパクションが完了したことになり，結果図 2 LevelDB型コンパクションによる構造的に同レベル内であればキー範囲が被るtreeが存在しないようにすることができる．従って，データの読み出しの際に調べる treeの数は高々レベル数分だけである．各レベルの容量は指数関数的に増えていくので，レベル数が増加し過ぎることもない． 2. 3. 3 Bigtable型とLevelDB型の比較 LevelDB型はBigtable型と比べてコンパクションの処理が重いため，コンパクション処理に長い時間がかかる．コンパクション処理の最中はデータベースの読み書き性能に悪影響を及ぼすため，これは好ましくない．よって，コンパクションが起こる原因となるデータの書き込みが非常に沢山行われる場合は LevelDB型はBigtable型に比べて不利である．一方，LevelDB型は各Treeのキー範囲の被りを減らす工夫をしているのに対して，Bigtable型はそれを行っていない．よって，データの読み出しにおいてはLevelDB型がBigtable 型に比べて有利となる．

3. 提案手法

本章では，コンパクション処理の負荷を減らす方法を述べ，これを複数クライアントが存在する状況において実現できる手法を提案する． 3. 1 キー順に従ったデータの書き込み現時点ではBigtable型コンパクションとLevelDB型コンパクションは書き込み性能と読み出し性能のトレードオフにある．しかし，データの書き込みをキー順に従った形で行うことで二者に差が生まれるのではないかと我々は考える．Bigtable型はキー範囲を考慮したコンパクションを行わないため特に変化は無いと考えられる．しかし，LevelDB型のアルゴリズムを考慮すると，データの書き込みをキー順にすることで古いTreeと新しいTreeのキー範囲の被りをなくすことが可能であり，これによってコンパクション処理時間を大きく削減できると考えられる．また，コンパクション処理の負荷が軽くなることで，データベースの処理性能が向上すると考えられる．我々の考えを検証する実験については，次章の予備実験の節（4.1節）で述べる． 3. 2 提案手法前節にて，キー順に従ってデータを書き込むことによってコンパクション時間を短くし，処理性能を上げられることを述べた．しかし，時系列データを生成するアプリケーションを考えると，複数クライアントで生成された時系列データをサーバに送る際に発生する遅延時間の差や，各クライアント毎のクロック

(3)

図 3 Key Sorting Buﬀer（KSB）

のずれが原因となり，サーバにはキー順ではなく少し順序が崩れた状態でデータが到着してしまう．この状況では，キー順に従ってデータを書き込むと高速に処理ができるというLevelDB

型の特性を活かすことができない．

そこで我々は，Key Sorting Buﬀer（以下KSBとする）を用いた仕組みを提案する．KSBは図3に示すように複数クライアントとサーバ（データベース）の間に配置する．KSBではクライアントから来る時系列データを適切な時間バッファリングし，時系列データをキー順にソートし直した状態でサーバへ送る．これによりサーバではキー順にデータが書き込まれることになり，処理性能の向上が期待できる．

4. 実

験

本章では，3.1節で述べた我々の考えを検証するために行った予備実験と，既存のデータベース管理システムを用いて設計及び実装したKSBに対する評価実験について述べる． 4. 1 予備実験本節では，3.1節で述べた我々の考え，すなわちキー順に従ったデータの書き込みによってコンパクション時間が削減でき，データベース処理高速化が可能であるという考えを検証するために行った予備実験について述べる．図4はキー順（ or-dered）とランダム（random）で1KBのデータを5,000,000件（合計5GB）を書き込んだ際のコンパクションにかかった合計時間を，Bigtable型とLevelDB型それぞれについて示したものである．サーバは両方のコンパクション手法を採用している Apache Cassandra [2], [3]を用いて計測した．また，サーバにデータを書き込むクライアントとしてYahoo! Cloud Serving Benchmark（YCSB）[10]を使用した．YCSBはNoSQLに対して利用できるベンチマークツールであり，読み出し及び書き込みの比率や，サーバへのアクセス分布，1秒あたりに発行する処理要求数の目標値（スループット）などの項目を指定できる．本項の実験では，データを書き込む順番を示すパラメータである”insertorder”を変更することでキー順に従った（ordered）書き込みとランダム（random）な書き込みを実現した．また，利用したマシンの構成は表1の通りである．図4のグラフから，LevelDB型であってもデータの書き込みがキー順に行われるのであれば，Bigtable型よりもコンパクション時間が短くなることが確認できる．従って，LevelDB型に対してキー順に書き込みを行うのであれば，Bigtable型と比表 1 利用したマシンの構成 OS Linux 3.16.0-51-generic，Ubuntu 14.04.2 LTS CPU 2.40 GHz Xeon（R） E5620 × 2

メモリ 8 GB RAM

Java Java SE 8 Update 45

図 4 コンパクション時間の比較図 5 読み出し遅延の比較べて書き込み性能と読み出し性能の両方において有利になると考えられる．図5は，実際にコンパクション時間の差が読み出し遅延に与える影響を示したものである．図4において最もコンパクション時間に差のあったLevelDB型のキー順とランダムで比較を行っている．両者ともデータの書き込みが行われている最中に読み出しを開始し，書き込みが終了した後もしばらく読み出しを続けている．なお，遅延測定にはYCSBを用いている．読み出し遅延が不安定になっている箇所がコンパクション処理の最中だと考えられ，キー順の方がランダムである場合よりも早くコンパクション処理が終わっていることを確認できる．さらに，全体を通して，特にコンパクション処理の最中はキー順の方がランダムである場合よりも読み出し遅延が小さいことを確認できる．従って，コンパクション処理の負荷の大小がデータベースの処理性能に影響していると考えられる．

4. 2 Key Sorting Buﬀerを用いた実験

本節では，実際にKSBを用いて行った評価実験について述べる．

(4)

表 2 各クライアントのタイムスタンプ生成タイムスタンプの生成クライアント 1 基準（± 0 [ms]）クライアント 2 クライアント 1 のタイムスタンプ + 1000 [ms] クライアント 3 クライアント 1 のタイムスタンプ + 2000 [ms] クライアント 4 クライアント 1 のタイムスタンプ + 3000 [ms]

4. 2. 1 Key Sorting Buﬀerの実装と実験環境

提案手法を評価するために，3章で述べた手法に基づきKSB をリバースプロキシとして実装した．リバースプロキシに実装することで，DBMSに手を加えないミドルウェアとして機能させることが可能である．この設計には以下のような利点がある． • 様々なDBMSに対応することが可能である • DBMS側に手を加えないため，開発・改良が容易である • KSBが故障したとしても，元々のDBMSに影響を与えることがない KSBは起動時にデータをバッファリングする時間をミリ秒単位で指定できるようにしている． KSBの評価の際，前節と同様にDBMSにはCassandraを用いて，クライアントにはYCSBを用いた．Cassandraでは LevelDB型コンパクションを利用する．また，利用したマシンの構成も前節と同様に表1の通りである． 4. 2. 2 実験まず，次のようなキーを生成するように，YCSBに対して改造を行った． Key = "（実時間のタイムスタンプ）-" + "（ランダムな5桁の数字）-" + "（クライアントの番号）" 例えば以下の様なキーが生成される． 1453890479952-75034-user1 1453890480025-82028-user2 また，今回はクライアントを4台利用したが，サーバ・クライアント間の遅延の差がほとんど無いため，YCSBでキーを生成する際にタイムスタンプの数字を調節することで，擬似的に遅延の差が発生している状況を作り出して実験を行った．各クライアントによるタイムスタンプ生成は表2のようにした．このような状況のもとで，KSBを利用しないデータの書き込みと，バッファリング時間を3,000ミリ秒に設定したKSB を用いたデータの書き込みそれぞれについて，コンパクション時間を比較した．また，スループットを2,000∼14,000 [opera-tions/sec]の範囲で変更することによる結果の変化についても記録した．実験は次のような条件で行った． • クライアント（YCSB）の数は4 • サーバ（Cassandra）のノード数は1 • 1クライアントあたり，1,000,000件のデータの書き込み • 1件あたりのデータの大きさは1KB すなわち，データベースが受け取るデータの合計量は1KB ×1,000,000×4 = 4GBとなる．実験結果は図6の通りである．この結果から，以下の様なことが言える．図 6 コンパクション時間の比較（KSB） • KSBを利用しない書き込みに着目すると，スループットを12,000に指定した時に最もコンパクション時間がかかっている．12,000よりスループットが小さい時にコンパクション時間が短い理由は，データの書き込み処理の負荷が小さいからだと考えられる．12,000よりスループットが大きい時にコンパクション時間が短い理由は，データを全て書き込み終わるまでの時間が短くなることにより，コンパクション処理とデータの書き込み処理を並行しなければならない時間が短くなり，コンパクションの負荷が全体的には低くなるからだと考えられる． • KSBを利用することによって必ずコンパクション時間が短くなっている訳ではない．しかし，KSBを利用しない時に最もコンパクション時間が長かったスループット12,000の時， KSBを利用すると最も高い割合（約15.8%）でコンパクション時間を削減できている．このことから，比較的コンパクション負荷の高い条件下においてKSBは効率よく働くといえる． • スループット14,000の時は，KSBを利用した書き込みの方がコンパクション時間が長くなっている．これは，KSBにバッファリングして一気にデータを書き込むことでできるC1 treeの大きさが大きくなってしまい，それが高負荷の原因になってしまっていることが理由の一つとして考えられる． • 前節の予備実験の図4におけるLevelDB型コンパクションのキー順とランダムの差のように，コンパクション時間が大きな割合で削減されている結果は現れなかった．予備実験ほど大きな差がでなかった理由は，崩れた順で来る時系列データは短期的に見ればランダムであるが，長期的に見れば大体キー順に従っているからだと考えられる．実際に時系列データを生成するようなアプリケーションでは，大量のデータの書き込みが絶えず行われている．このようなワークロードではコンパクションの負荷が大きくなることが予測される．今回の結果から，データ書き込みのスループットが一定の値を超えなければ，KSBを利用することでコンパクションの負荷を高い割合で削減することが可能であると考えられる．したがって，実際のデータの読み書きなどのデータベース処理を高速化することも可能であると考えられる．

(5)

5.

6. まとめと今後の課題

データベースに対してキー順にデータを書き込むことの有効性について述べ，時系列データをキー順に処理するためのKSB を用いた仕組みを提案し，提案手法に基づいて実装したミドルウェアの性能評価を行った．実験により，データベースの処理性能に影響を及ぼすコンパクション処理について，一定の条件下でKSBを用いることでコンパクション処理の負荷を削減できることを確認し，実際のデータベース処理を高速化することが可能であると結論づけた．今後の課題としては，以下の様なことが挙げられる． • 現状ではKSBはデータをバッファリングする機能しか提供していないため，バッファリング中のデータに対する読み出し命令を処理することができない．KSBをより実用的にするために，バッファリング中のデータに対するデータ読み出しの機能を実装し，KSBを利用したデータの読み出し性能と利用しない場合のデータの読み出し性能を実際のワークロードの中で比較測定すること． • 時間のみでなくデータ量による制限の機能をつけることなどを行い，より高いスループットにも対応できるようにKSB の改良を行うこと． • 今回はデータベースノード1台のみを想定していた．より実用的に利用できるようにするために，KSBの配備方法を検討すること． • 時系列ではなく一般のデータに対しても処理の高速化ができる仕組みを考えること． • KSBによる効果を十分検証し，データベース内でもKSB と同様の効果を得られるようにデータベース自体の改良方法を考えること．謝辞本研究はJSPS科研費25700008，26540161の助成を受けたものです．文献

[1] Fay Chang, Jeﬀrey Dean, Sanjay Ghemawat, Wilson C Hsieh, Deborah A Wallach, Mike Burrows, Tushar Chan-dra, Andrew Fikes, and Robert E Gruber. Bigtable: A dis-tributed storage system for structured data. ACM

Trans-actions on Computer Systems (TOCS), Vol. 26, No. 2, pp.

4:1–4:26, 2008.

[2] The Apache Software Foundation. Apache Cassandra. http://cassandra.apache.org/.

[3] Avinash Lakshman and Prashant Malik. Cassandra: a de-centralized structured storage system. ACM SIGOPS

Op-erating Systems Review, Vol. 44, No. 2, pp. 35–40, 2010.

[4] The Apache Software Foundation. Apache HBase. http: //hbase.apache.org/.

[5] PatrickO’Neil, Edward Cheng, Dieter Gawlick, ElizabethO’ Neil. The log-structured merge-tree (LSM-tree). Acta

In-formatica, Vol. 33, No. 4, pp. 351–385, 1996.

[6] Oracle Corporation. MySQL. http://www.mysql.com/. [7] The PostgreSQL Global Development Group. PostgreSQL.

http://www.postgresql.org/.

[8] Google Inc. LevelDB. http://leveldb.org/.

[9] Basho Technologies. Riak. http://basho.com/products/. [10] Brian F Cooper, Adam Silberstein, Erwin Tam, Raghu

Ra-makrishnan, and Russell Sears. Benchmarking cloud serving systems with ycsb. In Proceedings of the 1st ACM

sympo-sium on Cloud computing, pp. 143–154. ACM, 2010.

[11] Muhammad Yousuf Ahmad and Bettina Kemme. Com-paction management in distributed key-value datastores.

Proceedings of the VLDB Endowment, Vol. 8, No. 8, pp.

850–861, 2015.

[12] Mainak Ghosh, Indranil Gupta, Shalmoli Gupta, and Nir-man Kumar. Fast compaction algorithms for NoSQL databases. In Distributed Computing Systems (ICDCS),

2015 IEEE 35th International Conference on, pp. 452–461.

IEEE, 2015.

[13] Russell Sears and Raghu Ramakrishnan. bLSM: a general purpose log structured merge tree. In Proceedings of the

2012 ACM SIGMOD International Conference on Manage-ment of Data, pp. 217–228. ACM, 2012.

[14] Jin Wang, Yong Zhang, Yang Gao, and Chunxiao Xing. pLSM: A Highly Eﬃcient LSM-Tree Index Supporting Real-Time Big Data Analysis. In Computer Software and

Appli-cations Conference (COMPSAC), 2013 IEEE 37th Annual,

pp. 240–245. IEEE, 2013.

(6)

Linux journal, Vol. 2004, No. 124, pp. 5–, 2004. [16] 高塚康成, 長尾洋也, 矢口尭, 華井雅俊, 首藤一幸. 読み出しデータの新鮮度を考慮するキャッシュ機構. 第 6 回データ工学と情報マネジメントに関するフォーラム, 2014. [17] 矢口尭, 首藤一幸. 広域分散データストアに因果整合性を付加するミドルウェア. 第 7 回データ工学と情報マネジメントに関するフォーラム, 2015.

Key Sorting Bufferを用いた時系列データのデータベース処理高速化

DEIM Forum 2016 G8-1

Key Sorting Buﬀer

を用いた時系列データのデータベース処理高速化

曽我

樹大

華井

雅俊

高塚

康成

首藤

一幸

†

東京工業大学 理学部 情報科学科

††

東京工業大学 大学院情報理工学研究科 数理・計算科学専攻

〒 152-8552 東京都目黒区大岡山 2-12-1-W8-43

E-mail: [email protected], [email protected], [email protected], [email protected]

あらまし メッセージングや SNS でのメッセージや投稿といった時系列データは，多くの場合データベース上では

キーの一部に実時間を含む形で表現する．Google Bigtable，Apache HBase，Apache Cassandra など多くの NoSQL

型データベースで用いられているインデックス構造である LSM-Tree においては，キー順に従ってデータを処理する

とランダムである場合よりも高速に処理できる．我々はその点に着目し，サーバ・クライアント毎の遅延の差やクロッ

クのずれなどによって崩れた時系列データのキー順を Key Sorting Buﬀer を用いてソートし直すことでデータベース

処理の高速化を実現する．また，既存のデータベース管理システムを用いて設計及び実装したミドルウェアの評価を

行い，実際に Key Sorting Buﬀer によってデータベース処理の高速化が可能であることを確認した．

キーワード データベース，インデックス，時系列データ，高速化

1.

は じ め に

2.

背

景

3.

提 案 手 法

4.

実

験

5.

関 連 研 究

6.

まとめと今後の課題

東京工業大学理学部情報科学科

東京工業大学大学院情報理工学研究科数理・計算科学専攻

あらましメッセージングや SNS でのメッセージや投稿といった時系列データは，多くの場合データベース上では

キーワードデータベース，インデックス，時系列データ，高速化

はじめに

提案手法

関連研究