本資料は、日本OSS推進フォーラム ビッグデータ部会 技術調査チームにて、
ビッグデータ基盤を実現するオープンソースソフトウェアの動向を調査したものです。
本調査は、Webなどから一般的に収集可能な情報を元に最近の傾向を把握する 為に実施しています。
本調査結果のみを元に各ソフトウェアの良し悪しを論じるものではありません。
本調査は以下のメンバで実施しています。
中島 武史(日本電気株式会社)主査
井上 不二雄(日本アイ・ビー・エム株式会社)
小川 研之(WANdisco, plc.)
本多 洋司(株式会社PFU)
倉知 陽一(富士通株式会社)
野山 孝太郎(富士通株式会社)
はじめに
主に、様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」
する機能、蓄積・貯蔵したデータを「分析」する機能から構成される
ビッグデータ基盤を構成する機能
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール Apache Hadoop MapReduce
Apache Hadoop YARN Apache Mesos
Apache Spark Apache Tez
並列分散処理
Apache Drill Apache Hive Apache Spark SQL Impala
準リアルタイムクエリ
Apache ManifoldCFApache Nutch
クローラ
Apache Sqoop Talend
データロード
Apache Flume Fluentd
収集
Apache S4 Apache Spark
Streaming Apache Storm Esper
Drools Fusion Jubatus
CEP
Apache Hadoop HDFS Ceph
GlusterFS Lustre
データ蓄積ファイルシステム
MIT Kerberos OpenLDAP
セキュリティ/認証
MLib
機械学習
R言語
統計解析
Hinemos Zabbix
運用管理/監視
Webデータ売上情報など
センサデータ
システムログ 音声 画像 構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak
運用管理/監視 クローラ
データロード
収集
CEP Complex Event
Processing
データ蓄積 ファイルシステム
並列分散処理
データロード
機械学習
統計解析
BI/BAツール
定型業務DB
インメモリDB
DWH/マートレスDB インメモリDG/分散KVS
セキュリティ/認証
準リアルタイムクエリ 全文検索エンジン
ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能
ただし、個々のソフトウェアにおいて品質や成熟度が異なる為、見極めが必要
ビッグデータ基盤を構成する機能へのソフトウェアマッピング
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール Apache Hadoop MapReduce
Apache Hadoop YARN Apache Mesos
Apache Spark Apache Tez
並列分散処理
Apache ManifoldCFApache Nutch
クローラ
Apache Sqoop Talend
データロード
Apache Flume Apache Kafka Fluentd
収集
Apache S4 Apache Spark
Streaming Apache Storm Esper
Drools Fusion Jubatus
CEP
Apache Hadoop HDFS Ceph
GlusterFS Lustre
データ蓄積ファイルシステム
MLib機械学習
R言語
統計解析
Pentaho JasperReports SAS
MicroStorategy
BI/BAツール
Hinemos Zabbix
運用管理/監視
MySQL PostgreSQL
定型業務RDB
※OSSで著名なもの はない
DWH/マートレスDB
Webデータ売上情報など
センサデータ
システムログ 音声 画像 構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
VoltDB
インメモリDB
Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak
インメモリDG/分散KVS
ElasticSearch
全文検索エンジン
MIT Kerberos OpenLDAP
セキュリティ/認証
Apache Drill Apache Hive Apache Spark SQL Impala
準リアルタイムクエリ
該当ソフトウェアの3/4はApache License 2.0を採用
Apache Software Foundation管理のソフトウェアが多い事も理由の一つ
今後オープンソースベースの有償製品も拡大?(Apache Hadoopでは既に拡大)
採用しているオープンソースライセンス
Apache License 2.0 73.7%
GNU
General Public License 13.2%
GNU
Lesser General Public License 7.9%
その他
5.3%
最も利用されている言語は「Java」(55.2%)。
次いで「C/C++」(23.1%)、スクリプトでは「Python」(3.4%)がトップ。
どの様なプログラミング言語で開発されているか?
Java 55.2%
C/C++
23.1%
XML 10.0%
Web 3.7%
Python 3.4%
JavaScript 2.8%
CSS
0.8% Ruby
0.8% PHP
0.4%
開発の活性度
そのソフトウェアは活発に開発されていますか?
Apache Sparkが2014年頃から急成長
コミッター数の推移(月ごと)
0 20 40 60 80 100 120 140 160
Sep-97 Jan-98 May-98 Sep-98 Jan-99 May-99 Sep-99 Jan-00 May-00 Sep-00 Jan-01 May-01 Sep-01 Jan-02 May-02 Sep-02 Jan-03 May-03 Sep-03 Jan-04 May-04 Sep-04 Jan-05 May-05 Sep-05 Jan-06 May-06 Sep-06 Jan-07 May-07 Sep-07 Jan-08 May-08 Sep-08 Jan-09 May-09 Sep-09 Jan-10 May-10 Sep-10 Jan-11 May-11 Sep-11 Jan-12 May-12 Sep-12 Jan-13 May-13 Sep-13 Jan-14 May-14 Sep-14 Jan-15 May-15 Sep-15
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos Apache Nutch
Apache S4 Apache Spark Apache Sqoop Apache Storm Ceph
Drools Fusion Elasticsearch Esper Fluentd GlusterFS
Impala Infinispan JasperReports Lustre MongoDB
Pentaho R Redis Riak Talend
VoltDB
Apache Spark
Talend
Apache Sparkが2014年から急成長
13年:27.8 → 14年:72.1 → 15年:114.7
月平均コミッター数(2015年)
0.0 0.0 0.5
2.0 2.6
3.0 3.8
4.7 5.3 5.7 5.8 6.2 6.9
8.3 15.1
17.3 21.4 21.5
25.5 26.2
27.8 28.1
31.3 35.3
38.0 38.3 39.7
48.7
114.7
0.0 20.0 40.0 60.0 80.0 100.0 120.0 140.0
Apache S4 Impala Esper Apache Flume Apache ManifoldCF Apache Sqoop JasperReports Apache Nutch Redis Fluentd Apache Hive Talend Riak R Infinispan Apache Drill Apache Kafka Apache Storm Apache HBase Drools Fusion Apache Mesos VoltDB Apache Cassandra Elasticsearch MongoDB Apache Hadoop GlusterFS Ceph Apache Spark
年平均成長率ではApache Drillがトップ
Apache Sparkの他、Apache Mesosも急激に増加
コミッター数の年平均成長率(2011年から2015年)
-52.6%
-40.2%
-17.4%
-14.1%
-11.1%
-1.7%
0.0%
2.4%
4.5%
5.6%
6.9%
9.3%
11.7%
15.9%
18.7%
25.6%
28.2%
29.3%
31.3%
40.3%
45.9%
49.9%
52.8%
53.0%
60.8%
63.6%
144.4%
150.4%
184.4%
-100.0% -50.0% 0.0% 50.0% 100.0% 150.0% 200.0%
Apache S4 Talend Riak Esper Apache Flume Apache Hive JasperReports R Apache ManifoldCF Apache Sqoop Redis Infinispan Drools Fusion Apache Nutch Fluentd GlusterFS Apache Hadoop MongoDB Apache HBase VoltDB Ceph Elasticsearch Apache Cassandra Impala Apache Kafka Apache Storm Apache Mesos Apache Spark Apache Drill
Apache Cassandra Apache Drill
Apache Flume
Apache Hadoop Apache HBase
Apache Hive Apache Kafka
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
Elasticsearch
Esper
Fluentd
GlusterFS Impala
Infinispan
JasperReports MongoDB R
Redis
Riak Talend
VoltDB
-200.0%
-150.0%
-100.0%
-50.0%
0.0%
50.0%
100.0%
150.0%
200.0%
250.0%
0.0 20.0 40.0 60.0 80.0 100.0 120.0
月平均コミッター数(横軸)と年平均成長率(縦軸)
開発者の数も多く ますます増加中 開発者の数は
まだまだ少ないが
急増中
Elasticsearchの開発が活性化
コミッター数の増加に比例してApache Sparkの開発も活発
コミット数の推移
0 200 400 600 800 1000 1200 1400 1600 1800
Sep-97 Jan-98 May-98 Sep-98 Jan-99 May-99 Sep-99 Jan-00 May-00 Sep-00 Jan-01 May-01 Sep-01 Jan-02 May-02 Sep-02 Jan-03 May-03 Sep-03 Jan-04 May-04 Sep-04 Jan-05 May-05 Sep-05 Jan-06 May-06 Sep-06 Jan-07 May-07 Sep-07 Jan-08 May-08 Sep-08 Jan-09 May-09 Sep-09 Jan-10 May-10 Sep-10 Jan-11 May-11 Sep-11 Jan-12 May-12 Sep-12 Jan-13 May-13 Sep-13 Jan-14 May-14 Sep-14 Jan-15 May-15 Sep-15
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos Apache Nutch
Apache S4 Apache Spark Apache Sqoop Apache Storm Ceph
Drools Fusion Elasticsearch Esper Fluentd GlusterFS
Impala Infinispan JasperReports Lustre MongoDB
Pentaho R Redis Riak Talend
VoltDB
Apache Spark
Elasticsearch
Elasticsearchの開発が活性化
コミッター数の増加に比例してApache Sparkの開発も活発
月平均コミット数(2015年)
0.0 0.0 3.8 6.3 7.7
16.9 18.9 25.2
28.5 37.7 38.5 43.8
51.1 63.4
72.3 75.6
139.0 152.4
182.3 182.7
212.6 244.1 246.7
323.8 351.2
354.8
705.1
838.3
1167.5
0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0
Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF Apache Nutch Talend Riak Fluentd Apache Hive JasperReports Redis Apache Kafka Apache Drill Infinispan Apache HBase R Drools Fusion Apache Storm Apache Mesos VoltDB Apache Hadoop Apache Cassandra MongoDB GlusterFS Ceph Apache Spark Elasticsearch
コミッター数(縦軸)とコミット数(横軸)の相関
Apache Cassandra
Apache Drill
Apache Flume Apache Hadoop
Apache HBase
Apache Hive Apache Kafka
Apache ManifoldCF Apache Mesos
Apache Nutch Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
Elasticsearch
Esper Fluentd
GlusterFS
Impala
Infinispan
JasperReports
MongoDB
Redis R TalendRiak
VoltDB
0.0 20.0 40.0 60.0 80.0 100.0 120.0 140.0
0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0
開発者の数は 比較的少ないが 開発は非常に活性
(頑張ってますね!)
開発者の数も多く
開発も活発
Gitにコミットされた日の割合(稼働率)ではElasticsearchがトップ
週休1日以下で頑張っている模様
開発のアクティビティ
21.03%
21.05%
21.47%
25.00%
26.33%
27.62%
31.22%
34.06%
38.90%
41.69%
48.74%
52.91%
53.77%
54.81%
54.98%
56.68%
56.85%
57.22%
62.90%
66.54%
67.20%
67.65%
69.74%
69.92%
70.16%
75.17%
78.27%
78.53%
81.81%
85.60%
85.77%
86.45%
91.19%
0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00%
Apache Sqoop JasperReports Esper Apache Nutch Talend Apache S4 Apache Flume Riak Fluentd Jubatus Apache Kafka Apache ManifoldCF Apache Hadoop MapReduce Apache Mesos Apache Drill Ceph Redis Apache Hadoop HDFS Apache Tez Apache Storm Pentaho Impala Apache Hive Drools Fusion Apache Spark Infinispan Apache HBase GlusterFS VoltDB Apache Hadoop Common Apache Cassandra MongoDB Elasticsearch
月平均コミット数(横軸)と稼働率(縦軸)の関係
Apache Cassandra
Apache Drill
Apache Flume Apache Hadoop
Apache HBase
Apache Hive
Apache Kafka
Apache ManifoldCFApache Mesos
Apache Nutch Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Ceph Drools Fusion
Elasticsearch
Esper Fluentd
GlusterFS
Impala
Infinispan
JasperReports
MongoDB
Redis
Riak
Talend
VoltDB
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
0 200 400 600 800 1000 1200 1400
稼働率はあまり高くないが 開発は活発
(一気にやるタイプ)
稼働率が高く 開発も活発
(コツコツやるタイプ)
2006年~2009年にかけてApache Hadoopの議論が活性化
最近はApache HiveやApache Storm、Apache Kafkaの議論が活発
開発者向けメーリングリストの流量推移
0 1000 2000 3000 4000 5000 6000 7000
Apr-97 Sep-97 Feb-98 Jul-98 Dec-98 May-99 Oct-99 Mar-00 Aug-00 Jan-01 Jun-01 Nov-01 Apr-02 Sep-02 Feb-03 Jul-03 Dec-03 May-04 Oct-04 Mar-05 Aug-05 Jan-06 Jun-06 Nov-06 Apr-07 Sep-07 Feb-08 Jul-08 Dec-08 May-09 Oct-09 Mar-10 Aug-10 Jan-11 Jun-11 Nov-11 Apr-12 Sep-12 Feb-13 Jul-13 Dec-13 May-14 Oct-14 Mar-15 Aug-15
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Common
Apache Hadoop HDFS Apache Hadoop MapReduce Apache Hadoop YARN Apache HBase
Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos
Apache Nutch Apache S4 Apache Spark Apache Sqoop
Apache Storm Apache Tez GlusterFS Lustre
R
Apache Hive
Apache Hadoop
Apache Storm
Apache
Kafka
Apache KafkaやApache Stormの議論が活性化
Apache Hiveは2014年をピークとして2015年は落ち着いている模様
開発者向けメーリングリストの月平均流量(2015年)
0.8 73.3
88.4 152.8
187.3 208.0
221.9 343.5
350.5 350.7
473.8 500.0 501.3
692.8 725.3
787.3 833.9
1118.7
1568.1
1764.3
0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 1600.0 1800.0 2000.0
Apache S4 Apache Cassandra Apache Tez R Apache ManifoldCF Apache Hadoop MapReduce Apache Flume GlusterFS Apache Hadoop Common Apache Nutch Apache Spark Apache Hadoop HDFS Apache HBase Apache Hadoop YARN Apache Mesos Apache Drill Apache Sqoop Apache Hive Apache Storm Apache Kafka
開発は活性化しているが メーリングリストベースの議論は
あまり多くない
コミット数(横軸)とメールでの議論量(縦軸)の関係
Apache Drill
Apache Flume
Apache Hadoop Apache HBase
Apache Hive Apache Kafka
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache S4
Apache Spark Apache Sqoop
Apache Storm
GlusterFS
R
0 200 400 600 800 1,000 1,200 1,400 1,600 1,800 2,000
0 100 200 300 400 500 600 700 800 900
議論よりも実践 実践よりも
まずは議論
この割合が高いほど特定開発者の影響力が強いコミュニティと言える(かも)
最も開発している人のコミット割合
8.07%
8.69%
9.31%
9.45%
10.56%
11.04%
13.46%
14.36%
15.79%
16.43%
16.56%
16.75%
16.79%
17.90%
18.40%
19.29%
21.11%
24.32%
24.34%
26.62%
27.05%
27.43%
30.52%
33.88%
34.39%
34.55%
43.88%
45.15%
62.65%
65.78%
75.38%
75.64%
90.63%
0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00%
GlusterFS Apache Hadoop Common Pentaho Riak VoltDB Apache Spark Elasticsearch Apache Nutch Impala Infinispan Apache Hadoop MapReduce Apache Hadoop HDFS Apache Drill Jubatus Apache Hive Apache Kafka MongoDB Apache Flume Apache Storm Drools Fusion Apache Tez Apache Mesos Apache Cassandra Apache Sqoop Fluentd Apache HBase Ceph Apache S4 Talend JasperReports Redis Esper Apache ManifoldCF
この割合が高いほど少人数の開発者の影響力が強いコミュニティと言える(かも)
コミット数1位から5位のコミット割合
30.57%
33.01%
33.37%
34.64%
39.34%
44.61%
46.18%
47.44%
47.59%
50.08%
51.46%
52.31%
52.55%
55.20%
55.64%
57.44%
58.27%
58.80%
61.06%
63.57%
65.67%
65.80%
67.29%
72.30%
78.72%
82.65%
88.49%
92.07%
92.19%
96.39%
98.31%
99.99%
100.00%
0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00%
Apache Spark Apache Hadoop Common GlusterFS Pentaho Riak Apache Kafka Apache Hive VoltDB Elasticsearch MongoDB Apache Hadoop MapReduce Apache Drill Infinispan Apache Hadoop HDFS Apache HBase Impala Apache Mesos Apache Storm Apache Nutch Jubatus Apache Cassandra Ceph Drools Fusion Fluentd Apache Flume Apache Sqoop Apache Tez Talend Redis Apache ManifoldCF Apache S4 JasperReports Esper
Top1(横軸)とTop1~5(縦軸)の関係
Apache Cassandra
Apache Drill
Apache Flume
Apache Hadoop Common Apache Hadoop HDFS
Apache Hadoop MapReduce
Apache HBase
Apache Hive Apache Kafka
Apache ManifoldCF
Apache Mesos Apache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm Apache Tez
Drools Fusion Ceph
Elasticsearch
Esper
Fluentd
GlusterFS
Impala Infinispan
JasperReports
Jubatus
MongoDB
Pentaho
Redis
Riak
Talend
VoltDB
0.00%
50.00%
100.00%
0.00% 50.00% 100.00%
主導型開発 少人数先導型開発
コミュニティ型開発
開発が活性化しているプロジェクトは コミュニティ型開発が多い
(やはりコミュニティは大事!)
利用の活性度
そのソフトウェアは皆に利用されていますか?
利用者メーリングリストでもApache Sparkが圧倒的に活発
利用者向けメーリングリストの流量推移
0 500 1000 1500 2000 2500 3000
Mar-05 Jun-05 Sep-05 Dec-05 Mar-06 Jun-06 Sep-06 Dec-06 Mar-07 Jun-07 Sep-07 Dec-07 Mar-08 Jun-08 Sep-08 Dec-08 Mar-09 Jun-09 Sep-09 Dec-09 Mar-10 Jun-10 Sep-10 Dec-10 Mar-11 Jun-11 Sep-11 Dec-11 Mar-12 Jun-12 Sep-12 Dec-12 Mar-13 Jun-13 Sep-13 Dec-13 Mar-14 Jun-14 Sep-14 Dec-14 Mar-15 Jun-15 Sep-15 Dec-15
Apache Cassandra Apache Drill Apache Flume Apache Hadoop
Apache Hadoop Common Apache Hadoop HDFS Apache Hadoop MapReduce Apache HBase
Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos
Apache Nutch Apache S4 Apache Spark Apache Sqoop
Apache Storm Apache Tez GlusterFS Lustre
Riak
Apache Spark
Apache Casandra Apache Hadoop
Common
利用者メーリングリストでもApache Sparkが圧倒的に活発
利用者向けメーリングリストの月平均流量(2015年)
0.8 54.9
64.7 67.5 70.3 77.3 98.1
130.7 279.4 281.6 290.6
320.9 321.2 321.8 321.9 325.2 334.7
416.1 453.9
519.4
836.5
2,192.2
0.0 500.0 1,000.0 1,500.0 2,000.0 2,500.0
Apache S4 Apache ManifoldCF Apache Sqoop Apache Tez Lustre Apache Flume Apache Nutch Riak Apache Drill Apache Hive Apache Mesos Apache Hadoop Apache Hadoop MapReduce Apache Hadoop Common Apache Hadoop HDFS Apache HBase Apache Storm GlusterFS Apache Cassandra Apache Kafka Ceph Apache Spark
開発者(横軸)/利用者(縦軸)メール流量の関係
Apache Cassandra
Apache Drill Apache Flume
Apache Hadoop Common
Apache Hadoop HDFS Apache Hadoop MapReduce
Apache HBase
Apache Hive
Apache ManifoldCF
Apache Mesos
Apache Nutch Apache S4
Apache Spark
Apache Sqoop
Apache Storm Apache Tez
Ceph
GlusterFS
Lustre
Apache Kafka
0 500 1000 1500 2000 2500
0 200 400 600 800 1000 1200 1400 1600 1800 2000
開発者の議論が活発 利用者の議論が活発
※Apache Sparkの場合 開発自体は非常に活発だが
メールベースの議論は少なめ
Rは言語系や統計系の観点で書籍多数(450冊、グラフからは削除)
次いでApache Hadoop、MongoDBなどメジャーなソフトウェアが続く
書籍数(日本語)
0 0 0 0 0 0 0 0 0 0
1 1 1 1 1 1
2 2
3 3 3
4 5
9 10
15 15
17
25
35
0 5 10 15 20 25 30 35 40
Apache Drill Apache Flume Apache S4 Apache Sqoop Apache Storm Drools Fusion Esper Impala Lustre Talend Apache Tez Ceph GlusterFS Infinispan JasperReports VoltDB Apache Nutch Jubatus Apache Mesos Pentaho Riak Apache Hive Apache Spark Apache ManifoldCF Fluentd Apache Cassandra Apache HBase Redis MongoDB Apache Hadoop
日本語書籍と大きく傾向は変わらず(Rは6,613冊、グラフからは削除)
Fluentd、Jubatusなど日本人が中心となって開発しているソフトウェアは順位を落とす
書籍数(英語)
0 1 2 7
14 15 15 16 16 17 17 17 17 20 21 24
26 28
47 49 50 58 59 64
99
162 170 170
274
635
0 100 200 300 400 500 600 700
Jubatus Fluentd VoltDB Apache ManifoldCF Ceph GlusterFS Infinispan Apache Tez Esper Apache Drill Apache Mesos Apache S4 Riak Lustre JasperReports Talend Impala Drools Fusion Pentaho Apache Flume Apache Nutch Apache Storm Apache Sqoop Apache Spark Redis Apache Hive Apache Cassandra Apache HBase MongoDB Apache Hadoop
Redisが圧倒的に好評価
商用展開されているソフトウェアに関しては組織票があるのかも(?)
GitHubのスター数
4 13 21 22 30 65 78 139 150 417 449 457 460 476 489 503 625 654 716
1,189 1,416
1,625 1,799
2,312 2,369 2,482
3,491
5,967
15,320
0 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000
Apache Hadoop Common Apache Hadoop MapReduce Apache Hadoop HDFS Apache ManifoldCF Apache S4 Esper Apache Tez Apache Sqoop Pentaho Infinispan Apache HBase Apache Nutch Apache Flume Drools Fusion Jubatus Apache Drill GlusterFS VoltDB Apache Hive Apache Hadoop Impala Ceph Apache Mesos Riak Apache Cassandra Apache Storm Fluentd Apache Spark Redis
Twitterアカウントの開設時期にも寄るがMongoDBが圧倒的に多数
次いでApache Cassandra、Apache Hadoopが人気
Twitterのフォロアー数
3 21 32 32 144 145 262 609 827 945 990
2,122 3,956
5,263 5,995
10,379 11,605 11,899 13,427
15,012 25,263
32,934
204,787
0 50,000 100,000 150,000 200,000 250,000
Apache Sqoop GlusterFS Apache ManifoldCF JasperReports Apache Tez Apache Storm Apache Nutch Apache Hive Fluentd Jubatus Infinispan Apache Drill Ceph VoltDB Apache HBase Apache Spark Talend Redis Pentaho Apache Mesos Apache Hadoop Apache Cassandra MongoDB
国内で有償版または有償サポートが提供されているソフトウェアは赤字
ビッグデータ基盤を有償サポート付きOSSで実現することは充分に可能
Jubatusなどクラウドでサービス提供されているソフトウェアもあり
有償サポートの有無
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール Apache Hadoop MapReduce
Apache Hadoop YARN Apache Mesos
Apache Spark Apache Tez
並列分散処理
Apache ManifoldCFApache Nutch
クローラ
Apache Sqoop Talend
データロード
Apache Flume Apache Kafka Fluentd
収集
Apache S4 Apache Spark
Streaming Apache Storm Esper
Drools Fusion Jubatus
CEP
Apache Hadoop HDFS Ceph
GlusterFS Lustre
データ蓄積ファイルシステム
MLib機械学習
R言語
統計解析
Pentaho JasperReports SAS
MicroStorategy
BI/BAツール
Hinemos Zabbix
運用管理/監視
MySQL PostgreSQL
定型業務RDB
※OSSで著名なもの はない
DWH/マートレスDB
Webデータ売上情報など
センサデータ
システムログ 音声 画像 構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
VoltDB
インメモリDB
Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak
インメモリDG/分散KVS
ElasticSearch
全文検索エンジン
MIT Kerberos OpenLDAP
セキュリティ/認証
Apache Drill Apache Hive Apache Spark SQL Impala
準リアルタイムクエリ
The Linux Foundation SI Forumの2015年度活用動向調査より
全体的に拡大傾向にはあるが、本格的な導入はまだまだこれからという印象
利用実績
導入実績多数 Apache Hadoop, GlusterFS, MongoDB, JasperReports
導入実績あり Talend, Fluentd, Jubatus, Apache Spark, Ceph, R, Lustre, Apache Cassandra, Apache Hbase, Redis, Elasticsearch, Pentaho
検証実績あり VoltDB 導入/検証
実績なし
上記以外(という少し残念な結果)
ソフトウェアの品質
そのソフトウェアは安心して利用できますか?
Apache ManifoldCF、GlusterFS、Rなどでバグの解決率が高い
もっとも低いApache Stormにおいても6割のバグは解決済み
バグ解決率(全体)
60.4%
65.8%
67.8%
71.6%
71.9%
72.0%
72.1%
72.1%
73.6%
73.8%
73.9%
74.1%
74.3%
75.5%
76.0%
77.9%
79.5%
80.8%
81.6%
81.8%
83.0%
84.4%
86.7%
86.9%
88.1%
89.2%
93.1%
94.0%
95.7%
0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0%
Apache Storm Apache Mesos Apache Drill Apache Hadoop YARN Lustre VoltDB Riak Apache Flume Apache Kafka Apache Tez Apache Hive Drools Fusion Apache Hadoop HDFS Impala Apache Hadoop MapReduce Apache Sqoop Pentaho Apache Spark MongoDB Ceph Apache Nutch Apache Hadoop Common Apache HBase Jubatus Fluentd Apache Cassandra R GlusterFS Apache ManifoldCF
重要バグの解決率に限定すると約8割以上は解決済み
こちらもApache ManifoldCFは解決率が非常に高い
バグ解決率(重要※Blocker/Criticalレベル)
77.2%
79.3%
79.8%
83.6%
84.4%
84.4%
85.7%
86.7%
86.8%
86.9%
88.2%
88.3%
88.4%
90.8%
91.5%
91.8%
92.8%
93.0%
94.6%
94.9%
96.3%
96.4%
96.9%
97.1%
97.4%
99.1%
0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0%
Apache Storm Apache Sqoop Drools Fusion Apache Drill Apache Hive Impala Apache Flume Apache Hadoop YARN Apache Mesos Pentaho Apache Tez Apache Hadoop HDFS Lustre Apache Spark VoltDB Apache Kafka Apache HBase Apache Nutch MongoDB Apache Hadoop Common Ceph Apache Cassandra GlusterFS Apache Hadoop MapReduce R Apache ManifoldCF
コミット数(横軸)と重要バグ解決率(縦軸)の関係
Apache Cassandra
Apache Drill Apache Flume
Apache Hadoop
Apache HBase
Apache Hive Apache Kafka Apache ManifoldCF
Apache Mesos Apache Nutch
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
GlusterFS
MongoDB R
VoltDB
70.00%
80.00%
90.00%
100.00%
0 100 200 300 400 500 600 700 800 900
開発も活発に行われており 重要バグ解決率も高め 開発も活発ではないが
重要バグ解決率は高め
(≒安定)
重要バグ解決率がやや低く 開発も非活性
(要ウォッチ)
全体的に脆弱性の検出は少ない
一番多いJasperReportsでも11年トータルで10件、次いでMongoDBの7件
脆弱性(2006年から2016年)
0 1 2 3 4
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase Apache Hive Apache ManifoldCF Apache Mesos Apache Nutch Apache S4
Apache Spark Apache Sqoop Apache Storm Apache Tez Ceph
Drools Fusion Esper Fluentd GlusterFS Impala
Infinispan JasperReports Jubatus Lustre MongoDB
Pentaho R Redis Riak Talend
VoltDB VoltDB
MongoDB
JasperReports
Pentaho
SonarQubeのソースコード解析機能で抽出した重複率
Apache S4、Redisなどは重複が少なく良いソースコードの模様
ソースコード品質:重複率
69.0%
27.7%
22.6%
21.1%
20.8%
20.2%
19.7%
19.2%
18.4%
14.5%
11.9%
9.0%
9.0%
7.7%
7.7%
7.4%
6.1%
5.6%
4.9%
4.5%
4.4%
4.3%
3.8%
3.0%
2.7%
2.7%
2.3%
1.7%
0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0%
Riak Apache Nutch Apache Hive MongoDB Drools Apache ManifoldCF Apache Hbase Pentaho Impala Apache Hadoop YARN Apache Cassandra Apache Flume Apache Mesos Apache Sqoop Esper Apache Tez Apache Drill GlusterFS Jubatus R Apache Hadoop HDFS Apache Hadoop MapReduce Ceph Apache Spark Apache Storm Lustre Redis Apache S4
ソースコードの 重複が少ない
(≒高品質)
SonarQubeのソースコード解析機能で抽出したソースコード全体の複雑度
Apache Hadoop YARN、Apache S4、Jubatusは比較的簡易なロジック
ソースコード品質:複雑度
251,416 216,460
206,185 160,555
128,728 113,628 75,733
66,009 60,045 59,487 49,430 46,337 44,387 42,705 25,197 19,617 16,867 13,274 12,923 12,190 11,105 10,728 9,185 8,956 8,044 2,793 1,919 1,807
0 50,000 100,000 150,000 200,000 250,000 300,000
Impala Apache Hive Apache Hbase MongoDB Pentaho Drools Esper Apache Cassandra Apache Drill Ceph R Apache Spark Apache ManifoldCF Riak Apache Mesos Apache Tez Apache Hadoop HDFS Apache Flume Apache Sqoop Redis Apache Hadoop MapReduce GlusterFS Lustre Apache Nutch Apache Storm Jubatus Apache S4 Apache Hadoop YARN
ソースコードの 複雑度が少ない
(≒高品質)
重複率と複雑度(全体)の間には軽い相関関係がある模様
ただし、Apache Nutchなどを始め、重複は多いが複雑ではないソフトウェアも複数
重複率(横軸)と複雑度(縦軸)の関係
Apache Cassandra Apache Drill
Apache Flume Apache Hadoop HDFS
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Hbase
Apache Hive
Apache ManifoldCF Apache Mesos
Apache Nutch Apache S4
Apache Spark
Apache Sqoop Apache Storm
Apache Tez Ceph
Drools
Esper
GlusterFS
Impala
Jubatus Lustre
MongoDB
Pentaho
R Redis
0 50,000 100,000 150,000 200,000 250,000 300,000
0.0% 5.0% 10.0% 15.0% 20.0% 25.0% 30.0%
Riakは外れ値とみなした
まとめ
この様な感じでした
ちなみに昨年のまとめは…
昨年と同じ軸でまとめてみると…
Apache Cassandra
Apache Drill Apache Flume
Apache Hadoop
Apache HBase
Apache Hive
Apache Kafka
Apache ManifoldCF
Apache Mesos Apache Nutch
Apache Spark
Apache Sqoop
Apache Storm Ceph
Drools Fusion
Elasticsearch
Esper
Fluentd
GlusterFS
Infinispan JasperReports
MongoDB
Redis R
Riak Talend
VoltDB
導入実績多数
導入実績あり
検証実績多数
検証実績あり
ランク外
エンタープライズ適用領域
新技術
ウォッチ領域 先行検討/アーリーアダプト領域
昨年「新技術ウォッチ領域」であったVoltDB、
Apache Sparkは順調に成長
Apache Sparkは一気に「エンタープライズ適用領域へ」
ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている
有償サービスも揃いつつある
ただし、機能や品質の見極めは当然必要
Apache Sparkとそのエコシステムは来ている(開発も利用も)
Elasticsearchはとても頑張り屋さん
MongoDBやCephはこの領域では比較的安定期に入りつつある
ただし、状況は変化しており今後も継続的なウォッチが必要
所感
ご興味を持って頂けた方がいらっしゃいましたら
ぜひ一緒にやりましょう!
付録
公式サイト
区分 ソフトウェア 公式サイト
クローラ Apache ManifoldCF http://manifoldcf.apache.org/
Apache Nutch http://nutch.apache.org/
データロード Apache Sqoop http://sqoop.apache.org/
Talend https://www.talend.com/
収集 Apache Flume https://flume.apache.org/
Apache Kafka http://kafka.apache.org/
Fluentd http://www.fluentd.org/
CEP Apache Storm http://storm.apache.org/
Apache S4 http://incubator.apache.org/s4/
Jubatus http://jubat.us/
Esper http://www.espertech.com/products/esper.php
Drools Fusion http://www.drools.org/
Apache Spark Streaming http://spark.apache.org/streaming/
並列分散処理 Apache Hadoop Commons http://hadoop.apache.org/
Apache Hadoop MapReduce http://hadoop.apache.org/
Apache Hadoop YARN http://hadoop.apache.org/
Apache Mesos http://mesos.apache.org/
Apache Spark http://spark.apache.org/
Apache Tez https://tez.apache.org/
データ蓄積 ファイルシステム
Apache Hadoop HDFS http://hadoop.apache.org/
Ceph http://ceph.com/
GlusterFS http://www.gluster.org/
Lustre http://lustre.org/
準リアルタイムクエリ Apache Drill https://drill.apache.org/
Apache Hive https://hive.apache.org/
Apache Spark SQL http://spark.apache.org/sql/
Impala http://impala.io/
インメモリDG/分散KVS Apache Cassandra http://cassandra.apache.org/
Apache HBase http://hbase.apache.org/
Infinispan http://infinispan.org/
MongoDB https://www.mongodb.org/
Redis http://redis.io/
Riak http://docs.basho.com/
全文検索エンジン Elasticsearch https://www.elastic.co/products/elasticsearch
機械学習 Apache Spark MLib http://spark.apache.org/mllib/
統計解析 R https://www.r-project.org/
BI・BAツール JasperReports http://community.jaspersoft.com/
Pentaho http://community.pentaho.com/
インメモリDB VoltDB https://voltdb.com/
区分 ソフトウェア オープンソースライセンス
クローラ Apache ManifoldCF Apache License 2.0
Apache Nutch Apache License 2.0
データロード Apache Sqoop Apache License 2.0
Talend Apache License 2.0
収集 Apache Flume Apache License 2.0
Apache Kafka Apache License 2.0
Fluentd Apache License 2.0
CEP Apache Storm Apache License 2.0
Apache S4 Apache License 2.0
Jubatus GNU Lesser General Public License v2.1
Esper GNU General Public License v2
Drools Fusion Apache License 2.0
Apache Spark Streaming Apache License 2.0
並列分散処理 Apache Hadoop Common Apache License 2.0
Apache Hadoop MapReduce Apache License 2.0 Apache Hadoop YARN Apache License 2.0
Apache Mesos Apache License 2.0
Apache Spark Apache License 2.0
Apache Tez Apache License 2.0
データ蓄積 ファイルシステム
Apache Hadoop HDFS Apache License 2.0
Ceph GNU Lesser General Public License v2.1
GlusterFS GNU General Public License v3
Lustre GNU General Public License v2
準リアルタイムクエリ Apache Drill Apache License 2.0
Apache Hive Apache License 2.0
Apache Spark SQL Apache License 2.0
Impala Apache License 2.0
インメモリDG/分散KVS Apache Cassandra Apache License 2.0
Apache HBase Apache License 2.0
Infinispan Apache License 2.0
MongoDB GNU Affero General Public License v3
Redis BSD License
Riak Apache License 2.0
全文検索エンジン Elasticsearch Apache License 2.0
機械学習 Apache Spark MLib Apache License 2.0
統計解析 R GNU General Public License
BI・BAツール JasperReports GNU Lesser General Public License
Pentaho Apache License 2.0
インメモリDB VoltDB GNU General Public License v3
オープンソースライセンス
区分 ソフトウェア 開発者向けメーリングリスト
クローラ Apache ManifoldCF [email protected]
Apache Nutch [email protected]
データロード Apache Sqoop [email protected]
Talend -
収集 Apache Flume [email protected]
Apache Kafka [email protected]
Fluentd ※Google groupsを利用
CEP Apache Storm [email protected]
Apache S4 [email protected]
Jubatus ※Google groupsを利用
Esper [email protected](未集計)
Drools Fusion ※Google groupsを利用
Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ
並列分散処理 Apache Hadoop Common [email protected]
Apache Hadoop MapReduce [email protected] Apache Hadoop YARN [email protected]
Apache Mesos [email protected]
Apache Spark [email protected]
Apache Tez [email protected]
データ蓄積 ファイルシステム
Apache Hadoop HDFS [email protected]
Ceph [email protected]
GlusterFS [email protected]
Lustre [email protected]
準リアルタイムクエリ Apache Drill [email protected]
Apache Hive [email protected]
Apache Spark SQL ※Apache Sparkのメーリングリストと同じ
Impala ※Google groupsを利用
インメモリDG/分散KVS Apache Cassandra [email protected]
Apache HBase [email protected]
Infinispan [email protected]
MongoDB ※Google groupsを利用
Redis ※Google groupsを利用
Riak ※利用者向けメーリングリストのみ
全文検索エンジン Elasticsearch ※Google groupsを利用
機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ
統計解析 R [email protected]
BI・BAツール JasperReports -
Pentaho -
インメモリDB VoltDB -
開発者向けメーリングリスト
区分 ソフトウェア 利用者向けメーリングリスト
クローラ Apache ManifoldCF [email protected]
Apache Nutch [email protected]
データロード Apache Sqoop [email protected]
Talend -
収集 Apache Flume [email protected]
Apache Kafka [email protected]
Fluentd ※Google groupsを利用
CEP Apache Storm [email protected]
Apache S4 [email protected]
Jubatus ※Google groupsを利用
Esper [email protected](未集計)
Drools Fusion ※Google groupsを利用
Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ
並列分散処理 Apache Hadoop Common [email protected]
Apache Hadoop MapReduce ※Apache Hadoop Commonのメーリングリストと同じ
Apache Hadoop YARN ※Apache Hadoop Commonのメーリングリストと同じ
Apache Mesos [email protected]
Apache Spark [email protected]
Apache Tez [email protected]
データ蓄積 ファイルシステム
Apache Hadoop HDFS ※Apache Hadoop Commonのメーリングリストと同じ
Ceph [email protected]
GlusterFS [email protected]
Lustre [email protected]
準リアルタイムクエリ Apache Drill [email protected]
Apache Hive [email protected]
Apache Spark SQL ※Apache Sparkのメーリングリストと同じ
Impala ※Google groupsを利用
インメモリDG/分散KVS Apache Cassandra [email protected]
Apache HBase [email protected]
Infinispan ※開発者向けメーリングリストのみ
MongoDB ※Google groupsを利用
Redis ※Google groupsを利用
Riak [email protected]
全文検索エンジン Elasticsearch ※Google groupsを利用
機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ
統計解析 R ?([email protected]と考える?)
BI・BAツール JasperReports -
Pentaho ※Google groupsを利用
インメモリDB VoltDB -
利用者向けメーリングリスト
区分 ソフトウェア 利用しているソースコードリポジトリサービス
クローラ Apache ManifoldCF GitHub(apache/manifoldcf)
Apache Nutch GitHub(apache/nutch)
データロード Apache Sqoop GitHub(apache/sqoop)
Apache Kafka GitHub(apache/kafka)
Talend -
収集 Apache Flume GitHub(apache/flume)
Fluentd GitHub(fluent/fluentd)
CEP Apache Storm GitHub(apache/storm)
Apache S4 GitHub(apache/incubator-s4)
Jubatus GitHub(jubatus/jubatus)
Esper GitHub(espertechnic/esper)
Drools Fusion GitHub(droolsjbpm/drools)
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common GitHub(apache/hadoop-common)
Apache Hadoop MapReduce GitHub(apache/hadoop-mapreduce)
Apache Hadoop YARN -
Apache Mesos GitHub(apache/mesos)
Apache Spark GitHub(apache/spark)
Apache Tez GitHub(apache/tez)
データ蓄積
ファイルシステム Apache Hadoop HDFS GitHub(apache/hadoop-hdfs)
Ceph GitHub(ceph/ceph)
GlusterFS GitHub(gluster/glusterfs)
Lustre -
準リアルタイムクエリ Apache Drill GitHub(apache/drill)
Apache Hive GitHub(apache/hive)
Apache Spark SQL ※Apache Sparkと同じ
Impala GitHub(cloudera/impala)
インメモリDG/分散KVS Apache Cassandra GitHub(apache/cassandra)
Apache HBase GitHub(apache/hbase)
Infinispan GitHub(infinispan/infinispan)
MongoDB -
Redis GitHub(antirez/redis)
Riak GitHub(basho/riak)
全文検索エンジン Elasticsearch GitHub(elastic/elasticsearch)
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R -
BI・BAツール JasperReports -
Pentaho GitHub(pentaho/pentaho-platform)
インメモリDB VoltDB GitHub(VoltDB/voltdb)
ソースコードリポジトリサービス
Twitterアカウント
区分 ソフトウェア Twitterアカウント
クローラ Apache ManifoldCF @ApacheManifold
Apache Nutch @ApacheNutch
データロード Apache Sqoop @sqoopit
Talend @Talend
収集 Apache Flume -
Apache Kafka @apachekafka
Fluentd @fluentd
CEP Apache Storm @ApacheStorm
Apache S4 -
Jubatus @JubatusOfficial
Esper -
Drools Fusion -
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common @hadoop
Apache Hadoop MapReduce ※Apache Hadoopと同じ
Apache Hadoop YARN ※Apache Hadoopと同じ
Apache Mesos @Apache Mesos
Apache Spark @ApacheSpark
Apache Tez @ApacheTez
データ蓄積 ファイルシステム
Apache Hadoop HDFS ※Apache Hadoopと同じ
Ceph @Ceph
GlusterFS @glusterfs
Lustre -
準リアルタイムクエリ Apache Drill @ApacheDrill
Apache Hive @ApacheHive
Apache Spark SQL ※Apache Sparkと同じ
Impala -
インメモリDG/分散KVS Apache Cassandra @Cassandra
Apache HBase @Hbase
Infinispan @infinispan
MongoDB @MongoDB
Redis @redisfeed
Riak -
全文検索エンジン Elasticsearch @Elasticsearch
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R -
BI・BAツール JasperReports @jasperreports
Pentaho @Pentaho
インメモリDB VoltDB @VoltDB
区分 ソフトウェア Issue Tracker
クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS)
Apache Nutch JIRA(https://issues.apache.org/jira/browse/NUTCH)
データロード Apache Sqoop JIRA(https://issues.apache.org/jira/browse/SQOOP)
Talend -
収集 Apache Flume JIRA(https://issues.apache.org/jira/browse/FLUME)
Apache Kafka JIRA(https://issues.apache.org/jira/browse/KAFKA)
Fluentd GitHub(https://github.com/fluent/fluentd/issues)
CEP Apache Storm JIRA(https://issues.apache.org/jira/browse/STORM)
Apache S4 -
Jubatus GitHub(https://github.com/jubatus/jubatus/issues)
Esper -
Drools Fusion JIRA(https://issues.jboss.org/projects/DROOLS)
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common JIRA(https://issues.apache.org/jira/browse/HADOOP)
Apache Hadoop MapReduce JIRA(https://issues.apache.org/jira/browse/MAPREDUCE)
Apache Hadoop YARN JIRA(https://issues.apache.org/jira/browse/YARN)
Apache Mesos JIRA(https://issues.apache.org/jira/browse/MESOS)
Apache Spark JIRA(https://issues.apache.org/jira/browse/spark)
Apache Tez JIRA(https://issues.apache.org/jira/browse/TEZ)
データ蓄積 ファイルシステム
Apache Hadoop HDFS JIRA(https://issues.apache.org/jira/browse/HDFS)
Ceph Redmine(http://tracker.ceph.com/projects/ceph)
GlusterFS Bugzilla(https://bugzilla.redhat.com/)
Lustre JIRA(https://jira.hpdd.intel.com/secure/Dashboard.jspa)
準リアルタイムクエリ Apache Drill JIRA(https://issues.apache.org/jira/browse/DRILL)
Apache Hive JIRA(https://issues.apache.org/jira/browse/HIVE)
Apache Spark SQL ※Apache Sparkと同じ
Impala JIRA(https://issues.cloudera.org/secure/Dashboard.jspa)
インメモリDG/分散KVS Apache Cassandra JIRA(https://issues.apache.org/jira/browse/CASSANDRA)
Apache HBase JIRA(https://issues.apache.org/jira/browse/HBASE)
Infinispan JIRA(https://issues.jboss.org/secure/Dashboard.jspa)
MongoDB JIRA(https://jira.mongodb.org/secure/Dashboard.jspa)
Redis Google Project Hosting(https://code.google.com/p/redis/issues/list)
Riak GitHub(https://github.com/basho/riak/issues)
全文検索エンジン Elasticsearch -
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R Bugzilla(https://bugs.r-project.org/bugzilla3/)
BI・BAツール JasperReports -
Pentaho JIRA(http://jira.pentaho.com/secure/Dashboard.jspa)
インメモリDB VoltDB JIRA(https://issues.voltdb.com/browse/VDM)
Issue Tracker
区分 ソフトウェア 有償ライセンス 保守支援サービス 研修サービス クラウドでの提供
クローラ Apache ManifoldCF - ○ ○ -
Apache Nutch - - - -
データロード Apache Sqoop - ○ △ △
Talend ○ - ○ ○
収集 Apache Flume - ○ △ △
Apache Kafka - ○ - ○
Fluentd - ○ - -
CEP Apache Storm - ○ - △
Apache S4 - - - -
Jubatus - - - ○
Esper ○ - - -
Drools Fusion ○ - - -
Apache Spark Streaming - ○ △ △
並列分散処理 Apache Hadoop Common ○ ○ ○ ○
Apache Hadoop MapReduce ○ ○ △ ○
Apache Hadoop YARN ○ ○ △ △
Apache Mesos - - - ○
Apache Spark - ○ ○ ○
Apache Tez - ○ - -
データ蓄積 ファイルシステム
Apache Hadoop HDFS ○ ○ △ △
Ceph ○ ○ △ -
GlusterFS ○ ○ ○ -
Lustre - - - ○
準リアルタイムクエリ Apache Drill ○ ○ - △
Apache Hive - ○ ○ △
Apache Spark SQL - ○ △ △
Impala - ○ ○ △
インメモリDG/分散KVS Apache Cassandra ○ ○ ○ ○
Apache HBase - ○ ○ ○
Infinispan ○ - - -
MongoDB ○ ○ ○ ○
Redis - - ○ ○
Riak ○ - - ○
全文検索エンジン Elasticsearch - ○ ○ ○
機械学習 Apache Spark MLib - ○ - △
統計解析 R ○ ○ ○ ○
BI・BAツール JasperReports ○ ○ ○ ○
Pentaho ○ ○ ○ ○
インメモリDB VoltDB - - - -