1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
今改めて知るHadoop / Sparkの活⽤法と
国内外のビッグデータ活⽤事例
ホートンワークスジャパン株式会社
マーケティングディレクター
北瀬 公彦
アジェンダ
Ã
ビッグデータ活⽤に必要なプラットフォーム
Ã
事例紹介
Ã
ユースケース紹介
3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
出所:第27回産業競争⼒会議 2016.5
新たな有望成⻑市場の創
出では、IoT・ビッグデー
タ・AI・ロボットなどに
よる第4次産業⾰命の実
現で2020年には30兆円の
付加価値創出を⽬指して
います。
⽇本再興戦略2016 〜第4次産業⾰命の実現〜
5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
現⾏のシステムで受け⽌められますか?
ビジネスの価値
クリックストリーム
Webデータ
Internet of Things
ドキュメント、メール
サーバーログ
⾳声・画像
2013年
4 Zettabytes
2020年
40 Zeta bytes
ERP CRM SCM新しいデータ
既存データ
新しいデータ
新たなデータの多くは、
Internet of Anythingとして
システムとデバイス間の
やり取りとして誕⽣
課題
•
データがアプリに固定化
•
新しいデータの受け⼊れが困難
•
スケールするとコスト⾼
ビッグデータの活⽤には新しいプラットフォームが必要
Data in Motion
流れているデータ
蓄積されるデータ
Data at Rest
データ駆動型ビジネス
u
⼤量・多種類データに対応する拡張性
u
静的・動的データの⼀元管理
u
リアルタイム・エッジ実装
u
ガバナンス・セキュリティ
u
オープンテクノロジー
7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
企業のIT投資動向
9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データ活⽤による新規ビジネスの展開
運転傾向・⾞の使⽤環境に基づ
いた柔軟な保険提案の実現
Ã
Snapshot plug-in デバイスは運転の
詳細を収集
Ã
Progressive
は、1000万マイル以上の
運転データを保存 (約1600万Km)
Ã
Webアプリ経由で、顧客は⾃⾝の運
転詳細を⾒ることができ、安全向上
に努めることが可能
Ã
Snapshotとusage-based insurance
は2014年には、Progressiveに2.6 億
ドルの貢献(約273億円)
Innovate
Renovate
Claims Notes
Mining
Individual
Driving
Histories
Usage-Based
Insurance (UBI)
Web Log
Analysis
Online Ad
Placement
Sensor Data
Ingest
PREDICTIVE
ANALYTICS
A C T I V E A R C H I V E D A T A D I S C O V E R Y D A T A D I S C O V E R Y D A T A D I S C O V E R Y E T L O N B O A R DSafe Roads
既存データの
可視化
データ拡充
新規基盤構築
新規モデル作成
新規サービス提供
11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
スマートメーター活⽤による
新しいマーケティング・顧客サービスの導⼊
1.3 Million
Smart Meters
EDW
Offload
Mobile App for
Customer Sites
Ingest 300
GB per Day
Product
Cross-Sell
データ活⽤による新しい
電⼒提供サービス
スマートメーターによるデータ
量増加に対応した環境構築
年数回の顧客訪問(検針)
→13
万個のスマートメーター
数億円のデータウェアハウスの
コスト最適化
11
時間かかっていたETL処理を
45
分に削減
個客に応じた新たなサービス
⾰新的サービスを主体としたビ
ジネモデルに変⾰
Innovate
Renovate
Smart,
Efficient
Homes
D A T A D I S C O V E R Y D A T A E N R I C H M E N T P R E D I C T I V E A N A L Y T I C S S I N G L E V I E W A C T I V E A R C H I V E O N B O A R DE T LSINGLE
VIEW
S I N G L E V I E W P R E D I C T I V E A N A L Y T I C SOn-site customer
data capture
Optimized
engineering
schedule
Tailored
servicing
Customer
sentiment
既存環境の最
適化・可視化
データ拡充
予測分析
Data Discovery
新規サービス提供
システム統合プロジェクトに伴うデータ分析基盤の刷新
Hadoop
の活⽤で住環境の「安⼼・安全・快適」を⽬指す
Ã
5
社システムの統合
Ã
基幹システムと情報システムの連携
Ã
住宅IoTデータへの対応
導⼊背景
Ã
低コストで⼤容量システムを構築
Ã
IT
ガバナンスの管理実⾏
Ã
情報分析データ活⽤の検証
導⼊効果
13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
グループ全体のデータを横断的に活⽤する
新たなエコシステムを構築
Hadoop
環境を刷新したことでパフォーマンス向上を実現
Ã
データ増⼤、処理数増加によるパ
フォーマンスの劣化
Ã
オープンソースの最新テクノロ
ジーを有効活⽤できてない
導⼊背景
Ã
分散処理によりフォーマンスが向上
Ã
運⽤⼯数・コストの低減
Ã
オープン・プラットフォームを活⽤
した⼈材の開発・育成
導⼊効果
「Yahoo!JAPAN」のデータ分析システムに
Hortonworks Data Platformを採⽤
ビッグデータをビジネスで安定的に活⽤できる基盤の構築へ
Ã
加速度的に増え続ける膨⼤なデータ
Ã
⼤規模クラスタの運⽤が不安定
Ã
技術レベル向上の必要性
導⼊背景
Ã
パフォーマンスの向上
Ã
3,000
台を超えるクラスタの安定運⽤
Ã
社内技術者のレベル向上
導⼊効果
15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
分析ツール
構造化データ
ERP, CRM, SFA
⾮構造化データ
ソーシャルデータ、
アクセスログ、セン
サーデータ、画像、
⾳声、動画
データの収集、変換、
ロード
データの蓄積、加⼯、変換
データの収集、変換、
ロード
構造化
データ
⾮構造化
データ
データウェアハウス領域
データウェアハウス(DWH)とは、意思決定のために、基幹系などの複数システムから、
必要なデータを収集し、⽬的別に再構成して時系列に蓄積した統合データベース
Solution #1a
データウェアハウス最適化ソリューション
17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
分析ツール
ETLツール
Hadoopを利⽤したデータウェアハウス最適化
構造化データ
ERP, CRM, SFA
⾮構造化データ
ソーシャルデータ、
アクセスログ、セン
サーデータ、画像、
⾳声、動画
データの収集、変換、
ロード
使⽤頻度が⾼いデータ
の蓄積
⼤量のデータの蓄積、
加⼯、変換
データの収集、変換、
ロード
負荷軽減
バイト単価、
拡張コストの削減
アクティブ
アーカイブ
構造化
データ
⾮構造化
データ
データウェアハウス
Hadoop
古いデータ
構造化
データ
⾮構造化
データ
2億〜3億のコスト削減効果
例)データウェアハウスの最適化による効果
DataBaseName
TableName
TotalSpace
% of Total
POS_stg_t
WKLYSTDSLS_CY_TODTSLSM_WRK
986,852,299,264.00
20%
POS_stg_t
WKLYSTDSLS_PY_TODTSLSM_WRK
906,358,553,600.00
18%
POS_stg_t
RTLRLCTNUPC_PY_TODTSLSSUM_WRK
558,447,764,480.00
11%
POS_stg_t
WKLYSTDINV_CY_TODTIVSM_WRK
540,368,327,168.00
11%
POS_stg_t
WKLYSTDINV_PY_TODTINVM_WRK
484,821,922,816.00
10%
POS_stg_t
RTLRLCTNUPC_CY_TODTINVSUM_WRK
101,472,976,896.00
2%
POS_stg_t
RTLRLCTNUPC_PY_TODTINVSUM_WRK
91,157,211,648.00
2%
POS_stg_t
GC_RTLCTUPC_CY_TODTSLSM_WRK
85,373,838,848.00
2%
POS stg t
GC DLYSTDSLS CY TODTSLSM WRK
72,633,830,400.00
1%
Data Usage Assessment
Workload Assessment
Activity by Statement Type
Type of Query
Number
% of Total
CPU-Seconds % of CPU Time
INSERT
2,163,136,131
92.1%
240,812,253.82
19.3%
UPDATE
52,344,296
2.2%
42,413,219.89
3.4%
SELECT
38,665,660
1.6%
729,062,676.19
58.5%
DELETE
1,305,055
0.1%
50,298,641.10
4.0%
COMMIT
3,439,167
0.1%
138,764.37
0.0%
BEGIN TRANSACTION
1,915,768
0.1%
0.00
0.0%
END TRANSACTION
5 210 204
0 2%
237 921 86
0 0%
更新、インサート系のワークロードが
90%
以上、20%以上のCPU利⽤率
利⽤していないテーブルが5TB以上
• ETL
バッチ処理をHadoopにオフロード
•
利⽤していないテーブルをHadoopに移動
19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Inbound
HDFS
(Based Data and Aggregates
Stored in ORC)
HIVE
(Batch and Interactive SQL)
MULTITENANT PROCESSING:
YARN
(syncsort, llap, spark, tez)
AtScale
virtual cube
DMX Data
Funnel
DMX-h
Engine
EDW/
Legacy
Solution #1b
データウェアハウス最適化ソリューション
ETL
ツール、Hadoop、 Virtual Cubeの全てをパッケージした次世代ソリューショ
ン
Solution #2
21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Solution #3
クラウドでの利⽤
Data Prep and SQL Query
(Pig, Hive)
Iterative In-Memory
(Spark)
Real-Time Event Processing
(Storm)
Advanced Machine Learning
(R Server on Spark)
NoSQL Big Tables
(HBase)
Microsofot Azure HDInsight
Data Science & Exploration
(Spark, Zeppelin)
ETL & Data Preparation
(Hive, Spark)
Analytics & Reporting
(Hive2 w/LLAP, Zeppelin)
Hortonworks Data Cloud for AWS
25 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
組み合わせ例
ストリーミン
グデータ
(クラウド)
エッジ
データ
ストリーミングデータの分析
データレイク
(オンプレミス)
蓄積データの分析
Hadoop
環境にて
全データを格納
データ
収集
① 定期的にデータをアップロード(例:Weekly / Monthly etc)
② 過去データを使⽤したパター
ン・分類・予測モデルの作成
③ 予測モデル・閾値の⽣成・実装
④ 流れてくるデータを
予測モデルでスコアリング
警告・アクションを出す
⑤ 緊急性の⾼いデータを
リアルタイムに加⼯・格納
EDW
Hadoop
⾼頻度データは
EDW
に格納
データの収集
データの蓄積、分析
27 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
O
N
LY
100
open source
Apache Community Technology
%
Founded in 2011
HADOOP
1
ST
provider to go public
IPO Fall 2014 (NASDAQ: HDP)
subscription
customers
1000+
employees across
1000+
countries
technology partners
1800+
17
TMホートンワークスはオープンテクノロジーをベースとした
ビッグデータ関連ソリューションを提供します
Fastest Growing Software Company in History*
*Revenues of $100m within in 4 years (Barrows Research )
■
Hortonworks
Apache Hadoop エコシステムへの貢献
出典: http://ajisakaa.blogspot.jp/2016/01/the-activities-of-apache-hadoop.html
Hortonworks
Cloudera
Yahoo!
Microsoft
Intel
Huawei
uber
InMobi
NTT DATA
出典: http://hadoop.apache.org/who.html を元に作成(2017/03/02)
約30%
コミッター数
コントリビュートしたコード数
29 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ホートンワークスジャパン株式会社
Ã
設⽴
– 2014 Q3
Ã
オフィス
–
東京都千代⽥区永⽥町2-11-1
⼭王パークタワー3F
Ã
社員数
– 14
名 (as of 2016/09)
– Apache Spark
、HBaseの書籍執筆者も在籍
–
⽇本初のApache NiFi コミッタも在籍
Ã
ビジネスモデル
–
サブスクリプション(サポート)
–
プロフェッショナルサービス
–
トレーニング
Ã
パートナー
–
拡⼤するエコシステムパートナー
Ã
お客様
–
⾦融、保険、⾃動⾞、⼩売・卸売、通信、
サービスをはじめとした先進的なお客様
31 © Hortonworks Inc. 2011 – 2016. All Rights Reserved