徹底解説!
Hortonworksが提供する次世代
データプラットフォーム
蒋 逸峰 & 河村 康爾
Hortonworks
2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
DATA AT REST
蓄積されたデータ
DATA IN MOTION
流れているデータ
のための情 報
判断 ・ 行動
リアルタイム
データ基盤
Hortonworks
DataFlow (HDF)
ビッグデータ基盤
Hortonworks Data
Platform (HDP)
EDGE
CLOUD
総合的な管理、セキュリティやガバナンス
ON-PREMISES
4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
–
–
ELT
–
–
–
–
–
6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
YARNはOSとしてリソース管理を行い、
柔軟なAPIにより様々なアプリケーション
が共存できるようになる
HDFSは構成・非構造化データを
蓄積する巨大なデータストア
これにより、様々な組織や部署のひとが
共用Hadoop/Sparkクラスタを使う
Division A
Division B
HDFS –
Hadoop Distributed File System
•
構造・非構造化データ
•
非常に高いスケーラビリティ
•
高い可用性と耐久性 (No SPOF)
•
スナップショット
8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hive 2 –
SQL
SQL
BI
Hive
DWH
JSON,
CSV
HDFS &
YARN
Hive 2
BIツール
データ導入
蓄積/計算
ETL/SQL
BI
Hive LLAP
Hive 2
10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
蓄積されたデータから、次に何が起こるかを予測する
精度の高い予測を得るために必要なもの
大量のデータ
高度な機械学習アルゴリズム
大量の計算
–
Spark
豊富な言語サポート:Scala, Java, Python, R
使いやすいMLlibライブラリ:誰でもできる機械学習
スケールアウト実行エンジンやインメモリキャッシュによる高速モデル作成
Zeppelin:ブラウザでをモデル作成、検証および共有
DWH
JSON,
CSV
HDFS &
YARN
Hive 2
BIツール
予測モデル
非構造
データ
Ambari –
–
–
–
–
– HDP
– File View
– Hive View
14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
AD/LDAP
Ranger
–
HDFS
Hive
YARN
– Audit
–
DEMO:
Ambari
HDP
Ambari View
Zeppelin
16 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
18 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
: 3
Real-Time
Prescriptive
Analytics
リアルタイム分析
Real-Time
Predictive
Analytics
Real-Time
Descriptive
Analytics
今何をすべきか?
何が起こり得るか?
今、もうすぐ
今何が起きているか?
: 3
Real-Time
Prescriptive
Analytics
リアルタイム分析
Real-Time
Predictive
Analytics
Real-Time
Descriptive
Analytics
今何をすべきか?
何が起こり得るか?
今、もうすぐ
今何が起きているか?
20 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
Descriptive Analytics
/
BI
HDF
Descriptive Analytics
–
:
-> RDBMS -> ETL (
) -> DWH -> BI
– HDF:
->
-> HDF
https://en.wikipedia.org/wiki/Prescriptive_analytics
30
22 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
HDP
クラスタ
データ分析
どうやってデータを集めてくればよい?
Web App, Logs, RDBMS, NoSQL
TCP, HTTP, WebSocket,
JMS, Syslog, Email, Image
JSON, CSV, XML, Avro, Parquet
Apache NiFi
MiNiFi
Web App, Logs, RDBMS, NoSQL
TCP, HTTP, WebSocket,
JMS, Syslog, Email, Image
JSON, CSV, XML, Avro, Parquet
… etc. 多種多様な入力
エッジ、オンプレ、クラウド間
セキュアなデータ転送
HDP
クラスタ
24
© Hortonworks Inc. 2011 – 2016. All Rights Reserved
DEMO:
Apache NiFi
: 3
Real-Time
Prescriptive
Analytics
リアルタイム分析
Real-Time
Predictive
Analytics
Real-Time
Descriptive
Analytics
今何をすべきか?
何が起こり得るか?
今、もうすぐ
今何が起きているか?
26 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
Predictive Analytics
HDF
https://en.wikipedia.org/wiki/Prescriptive_analytics
Real-Time Predictive Analytics
Question:
?
–
–
–
–
28 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
MiNiFi
Web App, Logs, RDBMS, NoSQL
TCP, HTTP, WebSocket,
JMS, Syslog, Email, Image
JSON, CSV, XML, Avro, Parquet
… etc. 多種多様な入力
エッジ、オンプレ、クラウド間
セキュアなデータ転送
HDP
クラスタ
Storm
MiNiFi
Web App, Logs, RDBMS, NoSQL
TCP, HTTP, WebSocket,
JMS, Syslog, Email, Image
JSON, CSV, XML, Avro, Parquet
… etc. 多種多様な入力
エッジ、オンプレ、クラウド間
セキュアなデータ転送
HDP
クラスタ
HDF
クラスタ
ストリーミング
アプリケーション開発
データ分析
PMML
30 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
SAM, Schema/Model Registry
SAM
Storm
MiNiFi
Web App, Logs, RDBMS, NoSQL
TCP, HTTP, WebSocket,
JMS, Syslog, Email, Image
JSON, CSV, XML, Avro, Parquet
… etc. 多種多様な入力
エッジ、オンプレ、クラウド間
セキュアなデータ転送
HDP
クラスタ
HDF
クラスタ
ストリーミング
アプリケーション開発
データ分析
PMML
DEMO:
SAM (Streaming Analytics Manager)
GUI
Schema Registry
Model Registry
32 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
: 3
Real-Time
Prescriptive
Analytics
リアルタイム分析
Real-Time
Predictive
Analytics
Real-Time
Descriptive
Analytics
今何をすべきか?
何が起こり得るか?
今、もうすぐ
今何が起きているか?
Prescriptive Analytics
Descriptive
Predictive Analytics
Descriptive/Predictive Analytics
HDF
34 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
Real-Time Prescriptive Analytics
Question:
?
Context:
12
2
3
30
36 © Hortonworks Inc. 2011 – 2017 All Rights Reserved
OSS
SAM
Storm
MiNiFi
Web App, Logs, RDBMS, NoSQL
TCP, HTTP, WebSocket,
JMS, Syslog, Email, Image
JSON, CSV, XML, Avro, Parquet
… etc. 多種多様な入力
エッジ、オンプレ、クラウド間
セキュアなデータ転送
HDP
クラスタ
HDF
クラスタ
ストリーミング
アプリケーション開発
インフラ運用管理
データ分析
PMML
認可(AuthN)ポリシー管理
39 © Hortonworks Inc. 2011 – 2017 All Rights Reserved