• 検索結果がありません。

並列分散処理基盤Apache Sparkにおける系譜つき中間データに対する効果的なメモリ内キャッシュ指示の検討

N/A
N/A
Protected

Academic year: 2021

シェア "並列分散処理基盤Apache Sparkにおける系譜つき中間データに対する効果的なメモリ内キャッシュ指示の検討"

Copied!
1
0
0

読み込み中.... (全文を見る)

全文

(1)HPCS2016 2016/6/6. 2016年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2016. 並列分散処理基盤 Apache Spark における系譜つき中間データに対する 効果的なメモリ内キャッシュ指示の検討 米尾 謙史 †. 1. 置田 真生 †. † 大阪大学 大学院情報科学研究科. はじめに. 近年,ビッグデータ分析を目的とした並列分散処理基盤と して Apache Spark [1] が用いられている.Spark では RDD (Resilient Distributed Dataset)[2] という抽象化された分散 データセットを介して並列処理を行う. RDD はデータの実体を持たず,中間処理の系譜情報のみ を持つ.データは終端処理で実際に使用される時に中間処理 の系譜を辿り計算される.計算されたデータは終端処理終了 時にすぐに破棄されるため,データを再利用するためにはプ ログラマがソースコード中にキャッシュ指示を記述する必 要がある.しかしキャッシュの効果は実行環境や入力データ により変化するため,どのアプリケーションでも最適となる キャッシュ指示は難しい. 本研究では効果的なキャッシュ指示方針の発見を目的に. 公開ライブラリを改変し実行時間を比較し,既存のライブラ リにおけるキャッシュ指示の適切さを確認する.. 2. RDD. RDD に対する操作は次の 3 つである.RDD から系譜を派 生させる変換および,RDD の系譜を辿って結果値を返すアク ション,RDD に対して計算された実体データをメモリに格納. する指示を与えるキャッシュ指示である.アクションが実行 された際に変換の系譜が辿られ,まとめて計算される. キャッシュ指示のない RDD を再計算するペナルティは 再計算に必要な変換のコストの総和で決定する.そのため キャッシュ指示を与える RDD を選ぶ一般的な基準として系 譜中の変換のコストおよび使用回数,系譜の長さに注目する. 系譜の例として Spark の機械学習ライブラリ MLlib [3] に含 まれる K 平均法の RDD の系譜を図 1 に挙げる.. 3. 実験. 本研究の目的は公開ライブラリにおけるキャッシュ指示の 適切さの確認および効果的なキャッシュ指示方針の分析であ る.1つ目の実験では,公開ライブラリに対しキャッシュ指 示パターンを変えた改造ライブラリを用意し,メモリ上限と 入力データサイズを変えながら実行時間を比較した.2つ目 の実験では,キャッシュ指示を与えることで実行時間削減に 効果のある RDD を予測し,その中からキャッシュ指示を与 える RDD の組み合わせを変えて実行時間を比較する.実験 環境として,16 台のノードから成るクラスタ,各ノードの主 記憶は 24GB,公開ライブラリとして MLlib を用いた. 1つ目の実験では,入力データに対しメモリ上限が十分に 大きい場合,単純に 2 回以上使用する RDD 全てに対しキャッ シュ指示を行ったパターンでも実行時間を最大で 46 % 削減 できた.すなわち最適なキャッシュ指示をしていない公開ラ イブラリを確認できた. ⓒ 2016 Information Processing Society of Japan. 萩原 兼一 † 凡例. textFile. or. RDD1* RDD2. RDD5 RDD3**. output. 1. output n. output output. RDD4*** output. output. 図 1 K 平均法における RDD の系譜 表 1 K 平均法において各 RDD に対しキャッシュ指示を 行った場合の実行時間(5 回の平均値,オリジナルとは公開 ライブラリの意味,単位:秒). キャッシュ指示を行った RDD. RDD1,RDD3,RDD4 RDD1,RDD3 RDD1,RDD4 RDD1 RDD1,RDD2,RDD4(オリジナル) RDD3,RDD4 RDD3. 実行時間. 78.8 80.6 80.7 83.8 118.5 152.4 160.0. 2つ目の実験では公開ライブラリのうち K 平均法の結果 を示す.K 平均法において組み合わせを変えてキャッシュ指 示を行った場合の実行時間を表 1 に示す.RDD1 を含む組 み合わせにおいて実行時間を削減できた.本実験では,他の MLlib ライブラリに含まれる線形回帰,協調フィルタリング でも同様にコストの高い変換のみに着目してキャッシュ指示 を与えることで実行時間を効率的に削減できた. 謝辞 本研究の一部は科学研究費補助金(15H01687, 26730035)の支援による.. 参考文献 [1] Apache Spark. http://spark.apache.org. [2] M. Zaharia, M. Chowdhury, and T. Das et al. Resilient distributed datasets: A fault-tolerant abstraction for inmemory cluster computing. In Proceedings of the NSDI 2012, San Jose, CA, US, April 2012. 14 pages. [3] Machine Learning Library. https://github.com/ apache/spark/tree/master/mllib/src/main/ scala/org/apache/spark. 55.

(2)

参照

関連したドキュメント

 TABLE I~Iv, Fig.2,3に今回検討した試料についての

このように資本主義経済における競争の作用を二つに分けたうえで, 『資本

FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの

・本計画は都市計画に関する基本的な方 針を定めるもので、各事業の具体的な

本案における複数の放送対象地域における放送番組の

レーネンは続ける。オランダにおける沢山の反対論はその宗教的確信に

外声の前述した譜諺的なパセージをより効果的 に表出せんがための考えによるものと解釈でき

このように,先行研究において日・中両母語話