Raftに基づく分散データベースにおけるデータ分割
6
0
0
全文
(2) Vol.2017-OS-141 No.20 2017/7/27. 情報処理学会研究報告 IPSJ SIG Technical Report. 2. 準備 2.1 Raft 2.1.1 Replicated State Machines 耐障害性のある分散環境を構築する際,しばしば Repli-. cated State Machines [7](以後 RSM と記す)という手法 が用いられる.各ノードがそれぞれステートマシンとして 機能し,合意によってステートマシンを複製する.以下の. 図 1 ノードの状態遷移図([1] より引用). 順で複数ノードが同期される.. ( 1 ) クライアントがクラスタ内の 1 ノードに命令を送る. ( 2 ) 命令を受け取ったノードはローカルのストレージに ログとして書き込み,他のノードに命令を送る.他の ノードは受け取った命令をローカルのストレージにロ グとして書き込む.. ( 3 ) ログが他ノードに書き込まれたことを確認し,ログか ら命令を読み,ステートマシンに適用する.他ノード にも適用命令を送り,他ノードにも命令を適用させる.. ( 4 ) 命令を受け取ったノードがクライアントに結果を返す. RSM ではまず,クライアントの命令を受け取った順にス トレージに保存する.このログを他ノードに複製し,ログ の順番通りに実行させることで,全ノードの状態を一意に. ( 1 ) Leader ノードはクライアントから更新要求を受信すると,ログ エントリを生成する. ( 2 ) Leader ノードがログエントリをストレージに保存する. ( 3 ) Leader ノードがログエントリを Follower ノードへ転送する. ( 4 ) Follower ノードは受信したログエントリをストレージに保存 する. ( 5 ) Follower ノードが ACK を Leader ノードへ送信する. ( 6 ) Leader ノードを含め,Raft クラスタの過半数が命令を受け取 り,ログに書き込んだことを Leader ノードが確認し,Leader ノードが命令を自分自身のステートマシンに適用する. ( 7 ) クライアントに COMMIT を通知する. 図 2 コミットの流れ. ある RKVS について述べる. プロトタイプとして RKVS Server と Client を作成した.. 定めることができる.一般に利活用されている RSM の例. 表 1 の環境で実装を行った.図 3 に RKVS のシステム構. として,Chubby [3] や ZooKeeper [4] などが挙げられる.. 成を示す.RKVS ノードは相互に接続を開始可能である.. 同様に,Raft においても RSM に従ってノードの状態管理. クライアントノードは RKVS ノードに対してのみ接続開. を行う.. 始可能である.クライアントノードは命令のリストを持. 2.1.2 Raft のアーキテクチャ. つ.RKVS ノードでは Raft モジュールが全ての動作を制. Raft クラスタのノードには,Leader, Candidate, Fol-. 御している.Log や KVS も Raft モジュールが管理するモ. lower という 3 種類の状態がある.Raft の状態遷移図を図. ジュールの一つである.以後の節で RKVS のモジュール. 1 に示す.状態は以下の条件で遷移する.. について解説する.. • プロセス起動時は Follower である. • 現在の状態が Follower もしくは Candidate で,予め決 められたタイムアウト時間が経過した場合は Candidate に遷移する,. 表 1 開発環境 言語 Java コンパイラ. javac 1.6.0 45. • 現在の状態が Candidate で,クラスタのノード数の過 半数の票を獲得した場合,Leader に遷移する.. • 現在の状態が Candidate もしくは Leader で,自分の ターム(後述)より大きなタームを持つノードから メッセージを受け取った場合,Follower に遷移する.. Leader ノードはクラスタ内に 1 台しか存在しない.ク ライアントは Leader ノードとのみインタラクションする. クライアントが Follower ノードにアクセスしてきた場合は. Leader ノードにリダイレクトされる. Follower ノードは Leader ノードに従う.Follower ノー ドと Leader ノードはクライアントから命令を受け取り,コ ミットするまでを図 2 のように振舞う.. 2.2 Raft に基づく分散 Key-Value Store. 図 3 RKVS の構成. 本節では Raft を用いて実装した分散 Key-Value Store で ⓒ 2017 Information Processing Society of Japan. 2.
(3) Vol.2017-OS-141 No.20 2017/7/27. 情報処理学会研究報告 IPSJ SIG Technical Report. 2.2.1 Raft. い回すようにした.実際の通信には高い RAS(Reliability. 本モジュールは第 2.1 章で述べた分散合意プロトコル. Availability Serviceability)を持つ高速インターコネクト. Raft としての処理を管理する.Communicator を呼び出し. である InfiniBand を用いた.本モジュールは複数のスレッ. ての Send/Recv,受け取ったメッセージに応じてログの書. ドからアクセスされる場合があるので,ロックを取ってか. き込みや,コミット済みのログエントリの KVS への適用,. ら使用するよう実装した.. 得票数による Leader への昇格など Raft の全ての機能を行. 2.2.3 Log. う.また,AppendEntries RPC の送信,RequestVote RPC. 本モジュールではログの管理を行う.各ログエントリに. の送信,時間経過によるタイムアウト処理も本モジュール. は Leader がクライアントから命令を受け取った時のター. で管理している.. ムと命令が格納されている.本モジュールは複数のスレッ. 本モジュールには currentTerm,votedFor,commitIn-. dex,lastApplied というフィールドを持たせている.currentTerm は自分の現在のタームを表す.0 に初期化され,. ドからアクセスされる場合があるので Java の標準ライブ ラリで提供される同期リストを用いた. また,ボトルネックであるストレージアクセスによる遅. 他ノードのタームが currentTerm よりも大きい場合にそ. 延を緩和するために,グループコミットを実装した.具体. のノードと同じタームを currentTerm に代入する.また,. 的には,前回の書き込み後から数えてログエントリが一定. タイムアウトして Candidate になる時にはインクリメン. 数溜まったところでストレージへの書き込みを行うことで. トされる.votedFor は自分がどのノードに投票したかを. ストレージアクセスの回数を減らした.しかし,この手法. 保持する.どのノードにも投票していない場合は null を. だと前回の書き込み後からのログエントリが一定数に満た. 持つ.commitIndex は 0 に初期化され,コミット可能な. ない場合に書き込まれないログエントリの存在を許してし. 最後のログエントリの index を保持する.AppendEntries. まう.そこで,一定時間毎にストレージに書き込むことで. RPC には Leader ノードの commitIndex (leaderCommit). 対応した.. が付与されている.leaderCommit が自分の commitIndex. 2.2.4 KVS. より大きかった場合,commitIndex に leaderCommit を代. 本モジュールでは Key-Value の情報を木構造を用いてメ. 入する.lastApplied は 0 に初期化され,最後に KVS に. モリ上で管理する.実装には Java の標準ライブラリである. 適用したログエントリの index を保持する.commitIndex. TreeMap を使用した.TreeMap は赤黒木 [8] を元にして実. ≥ lastIndex ならば (lastIndex+1) 番目のログエントリを. 装されている.赤黒木への探索,削除,挿入は O(log(n)). KVS に適用し,lastIndex をインクリメントする.. で計算されるので,データ量が大きくなり木が大きくなっ. RaftNode. たとしてもスループットへの影響はほとんど無いと言え. 本モジュールは Raft クラスタの他ノードの情報を管理. る.また,KVS のインターフェースとして GET,PUT,. するモジュールである.ノードのアドレス,ポート番号,. DELETE を実装した.. 前章で解説した nextIndex,自分のログと同じログをどこ まで持っているかの情報 (matchIndex),自分に投票した かどうかの情報を持たせている.. 2.3 データ分割 データベースにおける性能向上の一手段にデータ分割が. matchIndex について解説する.matchIndex は Leader. ある.これはデータ D を N 個部分データ D1 · · · DN に分. に選ばれた時に 0 に初期化され,AppendEntries RPC が. 割する.ワークロードが READ のみである場合,計算処. 成功した時に送ったログエントリの最後の index を代入. 理の並列化が得られるため,データ分割は自明な高性能化. する.ある index N があり,自分が Leader で過半数の. を与える.ワークロードにおける WRITE の割合が多い場. Follower の matchIndex ≥ N かつ N 番目のログのターム. 合,Leader から Follower へのログ通信処理量が増大する.. = currentTerm ならば matchIndex に N を代入する.. そのため,性能が劣化する可能性がある.. ClientNode 本モジュールはクライアントの情報を管理するモジュー ルである.クライアントノードのアドレス,ポート番号,. commit 待ちのログの index (waitIndex) を持たせている.. 3. 分割方式 3.1 データの分割 本研究では 5 台のノードでクラスタを組んで RKVS を. commitIndex ≥ waitIndex ならばクライアントにコミット. 構築している.Raft に基づく分散システムではクライア. を返す.. ントの命令は全て Leader が対応するので,Leader にアク. 2.2.2 Communicator. セスが集中してしまう.このような分散システムではデー. 本モジュールでは RKVS の他ノード及びクライアントと. タの分割を行って各ノードに異なるデータを処理させるこ. の通信を管理する.通信が発生する度にコネクションを張. とで,1 ノードの負荷を軽減するのが一般的である.Raft. り直すのは時間がかかるので,1度張ったコネクションは使. に基づく分散システムは 1 クラスタ内に有効な Leader が. ⓒ 2017 Information Processing Society of Japan. 3.
(4) Vol.2017-OS-141 No.20 2017/7/27. 情報処理学会研究報告 IPSJ SIG Technical Report. 1 プロセスしか存在できない.クラスタ内に RKVS を複 数構築し(クラスタ内の RKVS を以後サブクラスタと記 述する) ,異なるノードに Leader プロセスがいるような状. 4. 評価 4.1 実験環境. 況を設定した.各サブクラスタが処理する key の範囲を定. データ分割を行なった際の RKVS のスループットを実. め,クライアントはアクセスしたい key からどのサブクラ. 際に測定した.表 2 に実験環境を示す.クラスタのノード. スタにアクセスするか判別してアクセスするように設計す. は 5 台で,全て InfiniBand で接続されている.. れば,ボトルネックが緩和されてシステムのスループット が向上することが期待される。RKVS におけるパーティ ション化の概念図を図 4 に示す.図のノードの中の長方形. 表 2 実験環境. # Nodes. 5. OS. サブクラスタに属している.各ノードに Leader プロセス. CPU. CentOS release 6.8 (Final) Intel(R) Xeon(R) CPU E5-2665 0 @ 2.40GHz × 2. が 1 プロセスずつ配置されている.. # CPU cores. 8×2. Memory. 64GB. Network. InfiniBand. が 1 つの Raft プロセスであり,同じ色のプロセスが同じ. 4.2 実験内容 実験パラメータを表 3 に示す.本実験では分割数を変え てスループットを測定した.クライアントノードは 4 台 で,クラスタノードとは全て InfiniBand で接続されてい 図 4. RKVS のデータ分割におけるノード,プロセス,サブクラス タの関係. る.クライアントは key ごとに通信する RKVS のサブク ラスタを判別するのではなく,最初に設定したサブクラス タとのみ通信することにした.. 3.2 より細かいデータ分割 クラスタ内のノード数を n とすると 3.1 節におけるサブ. 表 3 実験パラメータ 1 # Clients 4 nodes × 30. クラスタ数は 1∼n となるが,1 サブクラスタは 1 つのロ. # Partitions. Variable. グと KVS しか持っていないので,複数のクライアントが. Commands. Only PUT. 同じサブクラスタにアクセスすると,ログへの書き込みと. Key. 8 Bytes All different. KVS の更新の際にロックが取られてボトルネックになる. Value. 8 Bytes. ことが考えられる.そこで,さらにサブクラスタ数を増や してクライアントのアクセスのさらなる分散を検討する. 具体的にはサブクラスタの数を n,2n,3n,... と増やす. サブクラスタ数をさらに増やす時の概念図を図 5 に示す.. 4.3 実験結果 分割数を 1 から 5 まで変えたときのスループットを図 6. 図 4 と同様に,図のノードの中の長方形が 1 つの Raft プ. に示す.また,分割数を 5 から 15 まで変えたときのスルー. ロセスであり,同じ色のプロセスが同じサブクラスタに属. プットを図 7 に示す.分割数を 1 から 5 まで増やした場合. している.この図の場合,各ノードに Leader プロセスが 2. はスループットが向上しているのに対し,5 から 15 まで増. プロセスずつ配置されている.. やした場合は逆にスループットが落ちている.これは通信 量の増大が招いた結果だと考えられる.. 5. 関連研究 本章では,Raft 及び他の分散合意プロトコルを高性能化 することを課題とした研究を紹介する.. 5.1 Leader 決定の最適化 Raft において,Follower はランダマイズされたタイムア 図 5 1 ノード内に Leader プロセスが複数存在するようなデータ分 割の例. ウト時間が経過すると Candidate になり Leader 選出を始 めると述べた.Candidate もまた,過半数の投票を得られ ない場合にはタイムアウトする.そのタイムアウト時間を. ⓒ 2017 Information Processing Society of Japan. 4.
(5) Vol.2017-OS-141 No.20 2017/7/27. 情報処理学会研究報告. ���������������������������. IPSJ SIG Technical Report. 向上に成功している.. ����� ������ ������ ������ ������ ����� ����� ����� ����� �� �. 5.3 分散データベースシステム Spanner [11] は Paxos に基づいてデータ複製を行う分散 データベースシステムである.Paxos や Raft は Chubby. [3] などで見られるようにサイズの小さな構成情報(所謂 etc)の管理に使われることが多いが,Spanner ではデー タ本体の複製管理に Paxos が使われている点が興味深い. � 図 6. �. � � ������������. �. Spanner のオープンソース実装として CockroachDB [12] があり,これには Raft が用いられている.. 分割数 1∼5 の場合のスループット. 分散データベースシステムにおいて複製オブジェクトの. ���������������������������. 一貫性を取る手法には分散トランザクションがある.Farm ����� ������ ������ ������ ������ ����� ����� ����� ����� ��. [13],DrTM [14] や RamCloud [15] においてはそのような. �. 図 7. 手法が用いられている.. 6. 結論 現代の情報社会においてデータの高信頼化は最重要事項 の一つである.これを達成する有効な手法の一つに分散シ ステムにおけるデータ複製がある.データ複製のプロトコ �. �� ������������. ��. 分割数 5∼15 の場合のスループット. ルとして著名な手法に Raft がある.Raft は分散システム における様々な障害に対応できるよう設計された分散合意 手法である.. Raft を巨大なデータの管理に用いる際,データ分割が効 決める際には上限と下限が予め設定されており,限られた. 率化のために用いられる.扱うデータサイズが巨大である. 範囲の中でランダマイズされる.. 場合,競合回避のために分割数は大きくすることが好まし. 元論文 [1] では Follower と Candidate のタイムアウト. い.一方,Raft の動作原理から鑑みるに,分割数の増加は. 時間を同じものとして測定していた.この論文 [9] では. Leader と Follower の間の通信量の増大を招き得る.本研. Candidate のタイムアウト時間について,あるルールを定. 究では Raft に基づく分散データベースを設計・実装し,分. めることによって Leader 決定を高速化する手法を提案し. 割数の増加に伴う性能の変動を評価した.その結果,ノー. ている.一つの例として,Leader になることが許されな. ド中の Leader 数の増加が性能劣化を招く知見を得た.. かった Candidate は次回のタイムアウト時間を数倍にする. 謝辞. 本研究の一部は,JST CREST JPMJCR1413,. といったルールがある.Raft では新しいログを持ってい. JST CREST JPMJCR1303,科研費 #16K00150,科研費. ないと投票してもらえないので,このルールが適用された. #JP17H01748 による.. Candidate は一度新しいログを貰わなければリーダーにな ることができない.従ってこのルールは合理的であると言. 参考文献. える.. [1]. 5.2 DARE. [2]. DARE(Direct Access REplication) [10] は,従来の TCP プロトコルや UDP プロトコルを用いた通信ではなく,. RDMA(Remote Direct Memory Access) を用いてステー. [3]. トマシンを複製することで高速化を図っている.RDMA とは,あるノードからリモートノードの CPU を介せずに 直接メモリを読むことで高速通信を可能にする技術である.. [4]. 一般に,ステートマシンの複製には通信に起因する遅延 がボトルネックになっていることが大半であるので,この手. [5]. 法は有効なアプローチであると言える.実際に DARE[10] では RDMA を用いることで最大 35 倍のスループットの ⓒ 2017 Information Processing Society of Japan. [6]. Ongaro, D. and Ousterhout, J.: In Search of an Understandable Consensus Algorithm, USENIX Annual Technical Conference, pp. 305–320 (2014). Lamport, L.: Time, Clocks, and the Ordering of Events in a Distributed System, Communications of the ACM, Vol. 21, No. 7, pp. 558–565 (1978). Burrows, M.: The Chubby lock service for looselycoupled distributed systems, OSDI’06, Symposium on Operating Systems Design and Implementation(2006), USENIX,pp. 335–350 (2006). Hunt, P., Konar, M., Junqueira, F. P. and Reed, B.: ZooKeeper: Wait-free Coordination for Internet-scale Systems, Proceedings of the USENIX Annual Technical Conference, pp. 145–158 (2010). The Raft Consensus Algorithm: Raft Implementations (2017). [Accessed 2017-01-28]. Philips, B.: etcd 2.3.7 Documentation (2016). [Accessed. 5.
(6) 情報処理学会研究報告 IPSJ SIG Technical Report. [7]. [8] [9]. [10]. [11] [12] [13] [14]. [15]. Vol.2017-OS-141 No.20 2017/7/27. 2016-10-25]. Schneider, F. B.: Implementing fault-tolerant services using the state machine approach: a tutorial, ACM Computing Surveys 22, 4 (Dec. 1990), pp. 299–319 (1990). 鴨 浩 靖:http://taurus.ics.narawu.ac.jp/algo/rbtree.pdf (2013). [Accessed 2017-01-24]. Howard, H., Schwarzkopf, M., Madhavapeddy, A. and Crowcroft, J.: Raft Refloated: Do We Have Consensus?, ACM SIGOPS Operating Systems Review - Special Issue on Repeatability and Sharing of Experimental Artifacts, Vol. 49, No. 1, pp. 12–21 (2015). Poke, M. and Hoefler, T.: DARE: High-Performance State Machine Replication on RDMA Networks, Proceedings of the 24th International Symposium on High-Performance Parallel and Distributed Computing (HPDC’15), ACM, pp. 107–118 (2015). Spanner: Google’s Globally-Distributed Database (2012). CockroachDB: CockroachDB (2017). [Accessed 2017-0128]. No Compromises: Distributed Transactions with Consistency, Availability, and Performance, ACM (2015). Wei, X., Shi, J., Chen, Y., Chen, R. and Chen, H.: Fast In-memory Transaction Processing Using RDMA and HTM, Proceedings of the 25th Symposium on Operating Systems Principles, SOSP ’15, New York, NY, USA, ACM, pp. 87–104 (online), DOI: 10.1145/2815400.2815419 (2015). Lee, C., Park, S. J., Kejriwal, A., Matsushita, S. and Ousterhout, J.: Implementing Linearizability at Large Scale and Low Latency, Proceedings of the 25th Symposium on Operating Systems Principles, SOSP ’15, New York, NY, USA, ACM, pp. 71–86 (online), DOI: 10.1145/2815400.2815416 (2015).. ⓒ 2017 Information Processing Society of Japan. 6.
(7)
図
関連したドキュメント
このように,先行研究において日・中両母語話
の変化は空間的に滑らかである」という仮定に基づいて おり,任意の画素と隣接する画素のフローの差分が小さ くなるまで推定を何回も繰り返す必要がある
の資料には、「分割払の約定がある主債務について期限の利益を喪失させる
このように資本主義経済における競争の作用を二つに分けたうえで, 『資本
法制執務支援システム(データベース)のコンテンツの充実 平成 13
ご使用になるアプリケーションに応じて、お客様の専門技術者において十分検証されるようお願い致します。ON
ご使用になるアプリケーションに応じて、お客様の専門技術者において十分検証されるようお願い致します。ON
ご使用になるアプリケーションに応じて、お客様の専門技術者において十分検証されるようお願い致します。ON