アジェンダ Ã ビッグデータ活に必要なプラットフォーム Ã 事例紹介 Ã ユースケース紹介 Ã Hortonworks の紹介 2 Hortonworks Inc All Rights Reserved

(1)

今改めて知るHadoop / Sparkの活⽤法と

国内外のビッグデータ活⽤事例

ホートンワークスジャパン株式会社

マーケティングディレクター

北瀬公彦

(2)

アジェンダ

Ã

ビッグデータ活⽤に必要なプラットフォーム

Ã

事例紹介

Ã

ユースケース紹介

(3)

(4)

出所：第27回産業競争⼒会議 2016.5

新たな有望成⻑市場の創

出では、IoT・ビッグデー

タ・AI・ロボットなどに

よる第４次産業⾰命の実

現で2020年には30兆円の

付加価値創出を⽬指して

います。

⽇本再興戦略2016 〜第４次産業⾰命の実現〜

(5)

現⾏のシステムで受け⽌められますか？

ビジネスの価値

クリックストリーム

Webデータ

Internet of Things

ドキュメント、メール

サーバーログ

⾳声・画像

2013年

4 Zettabytes

2020年

40 Zeta bytes

ERP CRM SCM

新しいデータ

既存データ

新しいデータ

新たなデータの多くは、

Internet of Anythingとして

システムとデバイス間の

やり取りとして誕⽣

課題

• データがアプリに固定化

• 新しいデータの受け⼊れが困難

• スケールするとコスト⾼

(6)

ビッグデータの活⽤には新しいプラットフォームが必要

Data in Motion

流れているデータ

蓄積されるデータ

Data at Rest

データ駆動型ビジネス

u

⼤量・多種類データに対応する拡張性

u

静的・動的データの⼀元管理

u

リアルタイム・エッジ実装

u

ガバナンス・セキュリティ

u

オープンテクノロジー

(7)

企業のIT投資動向

(8)

(9)

(10)

データ活⽤による新規ビジネスの展開

運転傾向・⾞の使⽤環境に基づ

いた柔軟な保険提案の実現

Ã

Snapshot plug-in デバイスは運転の

詳細を収集

Ã

Progressive

は、1000万マイル以上の

運転データを保存 (約1600万Km）

Ã

Webアプリ経由で、顧客は⾃⾝の運

転詳細を⾒ることができ、安全向上

に努めることが可能

Ã

Snapshotとusage-based insurance

は2014年には、Progressiveに2.6 億

ドルの貢献（約273億円）

Innovate

Renovate

Claims Notes

Mining

Individual

Driving

Histories

Usage-Based

Insurance (UBI)

Web Log

Analysis

Online Ad

Placement

Sensor Data

Ingest

PREDICTIVE

ANALYTICS

A C T I V E A R C H I V E D A T A D I S C O V E R Y D A T A D I S C O V E R Y D A T A D I S C O V E R Y E T L O N B O A R D

Safe Roads

既存データの

可視化

データ拡充

新規基盤構築

新規モデル作成

新規サービス提供

(11)

スマートメーター活⽤による

新しいマーケティング・顧客サービスの導⼊

1.3 Million

Smart Meters

EDW

Offload

Mobile App for

Customer Sites

Ingest 300

GB per Day

Product

Cross-Sell

データ活⽤による新しい

電⼒提供サービス

スマートメーターによるデータ

量増加に対応した環境構築

年数回の顧客訪問（検針）

→13

万個のスマートメーター

数億円のデータウェアハウスの

コスト最適化

11 時間かかっていたETL処理を

45 分に削減

個客に応じた新たなサービス

⾰新的サービスを主体としたビ

ジネモデルに変⾰

Innovate

Renovate

Smart,

Efficient

Homes

D A T A D I S C O V E R Y D A T A E N R I C H M E N T P R E D I C T I V E A N A L Y T I C S S I N G L E V I E W A C T I V E A R C H I V E O N B O A R DE T L

SINGLE

VIEW

S I N G L E V I E W P R E D I C T I V E A N A L Y T I C S

On-site customer

data capture

Optimized

engineering

schedule

Tailored

servicing

Customer

sentiment

既存環境の最

適化・可視化

データ拡充

予測分析

_{Data Discovery}

新規サービス提供

(12)

システム統合プロジェクトに伴うデータ分析基盤の刷新

Hadoop

の活⽤で住環境の「安⼼・安全・快適」を⽬指す

Ã

5 社システムの統合

Ã

基幹システムと情報システムの連携

Ã

住宅IoTデータへの対応

導⼊背景

Ã

低コストで⼤容量システムを構築

Ã

IT

ガバナンスの管理実⾏

Ã

情報分析データ活⽤の検証

導⼊効果

(13)

グループ全体のデータを横断的に活⽤する

新たなエコシステムを構築

Hadoop

環境を刷新したことでパフォーマンス向上を実現

Ã

データ増⼤、処理数増加によるパ

フォーマンスの劣化

Ã

オープンソースの最新テクノロ

ジーを有効活⽤できてない

導⼊背景

Ã

分散処理によりフォーマンスが向上

Ã

運⽤⼯数・コストの低減

Ã

オープン・プラットフォームを活⽤

した⼈材の開発・育成

導⼊効果

(14)

「Yahoo!JAPAN」のデータ分析システムに

Hortonworks Data Platformを採⽤

ビッグデータをビジネスで安定的に活⽤できる基盤の構築へ

Ã

加速度的に増え続ける膨⼤なデータ

Ã

⼤規模クラスタの運⽤が不安定

Ã

技術レベル向上の必要性

導⼊背景

Ã

パフォーマンスの向上

Ã

3,000

台を超えるクラスタの安定運⽤

Ã

社内技術者のレベル向上

導⼊効果

(15)

(16)

分析ツール

構造化データ

ERP, CRM, SFA

⾮構造化データ

ソーシャルデータ、

アクセスログ、セン

サーデータ、画像、

⾳声、動画

データの収集、変換、

ロード

データの蓄積、加⼯、変換

データの収集、変換、

ロード

構造化

データ

⾮構造化

データ

データウェアハウス領域

データウェアハウス（DWH）とは、意思決定のために、基幹系などの複数システムから、

必要なデータを収集し、⽬的別に再構成して時系列に蓄積した統合データベース

Solution #1a

データウェアハウス最適化ソリューション

(17)

分析ツール

ETLツール

Hadoopを利⽤したデータウェアハウス最適化

構造化データ

ERP, CRM, SFA

⾮構造化データ

ソーシャルデータ、

アクセスログ、セン

サーデータ、画像、

⾳声、動画

データの収集、変換、

ロード

使⽤頻度が⾼いデータ

の蓄積

⼤量のデータの蓄積、

加⼯、変換

データの収集、変換、

ロード

負荷軽減

バイト単価、

拡張コストの削減

アクティブ

アーカイブ

構造化

データ

⾮構造化

データ

データウェアハウス

Hadoop

古いデータ

構造化

データ

⾮構造化

データ

(18)

2億〜3億のコスト削減効果

例）データウェアハウスの最適化による効果

DataBaseName

TableName

TotalSpace

% of Total

POS_stg_t

WKLYSTDSLS_CY_TODTSLSM_WRK

986,852,299,264.00

20%

POS_stg_t

WKLYSTDSLS_PY_TODTSLSM_WRK

906,358,553,600.00

18%

POS_stg_t

RTLRLCTNUPC_PY_TODTSLSSUM_WRK

558,447,764,480.00

11%

POS_stg_t

WKLYSTDINV_CY_TODTIVSM_WRK

540,368,327,168.00

11%

POS_stg_t

WKLYSTDINV_PY_TODTINVM_WRK

484,821,922,816.00

10%

POS_stg_t

RTLRLCTNUPC_CY_TODTINVSUM_WRK

101,472,976,896.00

2%

POS_stg_t

RTLRLCTNUPC_PY_TODTINVSUM_WRK

91,157,211,648.00

2%

POS_stg_t

GC_RTLCTUPC_CY_TODTSLSM_WRK

85,373,838,848.00

2%

POS stg t

GC DLYSTDSLS CY TODTSLSM WRK

72,633,830,400.00

1%

Data Usage Assessment

Workload Assessment

Activity by Statement Type

Type of Query

Number

% of Total

CPU-Seconds % of CPU Time

INSERT

2,163,136,131

92.1%

240,812,253.82

19.3%

UPDATE

52,344,296

2.2%

42,413,219.89

3.4%

SELECT

38,665,660

1.6%

729,062,676.19

58.5%

DELETE

1,305,055

0.1%

50,298,641.10

4.0%

COMMIT

3,439,167

0.1%

138,764.37

0.0%

BEGIN TRANSACTION

1,915,768

0.1%

0.00 0.0%

END TRANSACTION

5 210 204

0 2%

237 921 86

0 0%

更新、インサート系のワークロードが

90%

以上、20%以上のCPU利⽤率

利⽤していないテーブルが5TB以上

• ETL

バッチ処理をHadoopにオフロード

• 利⽤していないテーブルをHadoopに移動

(19)

Inbound

HDFS

(Based Data and Aggregates

Stored in ORC)

HIVE

(Batch and Interactive SQL)

MULTITENANT PROCESSING:

YARN

(syncsort, llap, spark, tez)

AtScale

virtual cube

DMX Data

Funnel

DMX-h

Engine

EDW/

Legacy

Solution #1b

データウェアハウス最適化ソリューション

ETL

_{ツール、Hadoop、 Virtual Cubeの全てをパッケージした次世代ソリューショ}

ン

(20)

Solution #2

(21)

Solution #3

(22)

(23)

(24)

クラウドでの利⽤

Data Prep and SQL Query

(Pig, Hive)

Iterative In-Memory

(Spark)

Real-Time Event Processing

(Storm)

Advanced Machine Learning

(R Server on Spark)

NoSQL Big Tables

(HBase)

Microsofot Azure HDInsight

Data Science & Exploration

(Spark, Zeppelin)

ETL & Data Preparation

(Hive, Spark)

Analytics & Reporting

(Hive2 w/LLAP, Zeppelin)

Hortonworks Data Cloud for AWS

(25)

組み合わせ例

ストリーミン

グデータ

（クラウド）

エッジ

データ

ストリーミングデータの分析

データレイク

（オンプレミス）

蓄積データの分析

Hadoop

_環境にて

全データを格納

データ

収集

① 定期的にデータをアップロード（例：Weekly / Monthly etc)

② 過去データを使⽤したパター

ン・分類・予測モデルの作成

③ 予測モデル・閾値の⽣成・実装

④ 流れてくるデータを

予測モデルでスコアリング

警告・アクションを出す

⑤ 緊急性の⾼いデータを

リアルタイムに加⼯・格納

EDW

Hadoop

⾼頻度データは

EDW

に格納

データの収集

データの蓄積、分析

(26)

(27)

O

N

LY

100

open source

Apache Community Technology

%

Founded in 2011

HADOOP

1 ST

provider to go public

IPO Fall 2014 (NASDAQ: HDP)

subscription

customers

1000+

employees across

1000+

countries

technology partners

1800+

17

TM

ホートンワークスはオープンテクノロジーをベースとした

ビッグデータ関連ソリューションを提供します

Fastest Growing Software Company in History*

*Revenues of $100m within in 4 years (Barrows Research )

(28)

■

Hortonworks

Apache Hadoop エコシステムへの貢献

出典: http://ajisakaa.blogspot.jp/2016/01/the-activities-of-apache-hadoop.html

アジェンダ Ã ビッグデータ活 に必要なプラットフォーム Ã 事例紹介 Ã ユースケース紹介 Ã Hortonworks の紹介 2 Hortonworks Inc All Rights Reserved

今改めて知るHadoop / Sparkの活⽤法と

国内外のビッグデータ活⽤事例

ホートンワークスジャパン株式会社

マーケティングディレクター

北瀬 公彦

アジェンダ

Ã

ビッグデータ活⽤に必要なプラットフォーム

Ã

事例紹介

Ã

ユースケース紹介

出所：第27回産業競争⼒会議 2016.5

新たな有望成⻑市場の創

出では、IoT・ビッグデー

タ・AI・ロボットなどに

よる第４次産業⾰命の実

現で2020年には30兆円の

付加価値創出を⽬指して

います。

⽇本再興戦略2016 〜第４次産業⾰命の実現〜

現⾏のシステムで受け⽌められますか？

ビジネスの価値

クリックストリーム

Webデータ

Internet of Things

ドキュメント、メール

サーバーログ

⾳声・画像

2013年

4 Zettabytes

2020年

40 Zeta bytes

新しいデータ

既存データ

新しいデータ

新たなデータの多くは、

Internet of Anythingとして

システムとデバイス間の

やり取りとして誕⽣

課題

•

データがアプリに固定化

•

新しいデータの受け⼊れが困難

•

スケールするとコスト⾼

ビッグデータの活⽤には新しいプラットフォームが必要

Data in Motion

流れているデータ

蓄積されるデータ

Data at Rest

データ駆動型ビジネス

u

⼤量・多種類データに対応する拡張性

u

静的・動的データの⼀元管理

u

リアルタイム・エッジ実装

u

ガバナンス・セキュリティ

u

オープンテクノロジー

企業のIT投資動向

データ活⽤による新規ビジネスの展開

運転傾向・⾞の使⽤環境に基づ

いた柔軟な保険提案の実現

Ã

Snapshot plug-in デバイスは運転の

詳細を収集

Ã

Progressive

は、1000万マイル以上の

運転データを保存 (約1600万Km）

Ã

Webアプリ経由で、顧客は⾃⾝の運

転詳細を⾒ることができ、安全向上

に努めることが可能

Ã

アジェンダ Ã ビッグデータ活に必要なプラットフォーム Ã 事例紹介 Ã ユースケース紹介 Ã Hortonworks の紹介 2 Hortonworks Inc All Rights Reserved

北瀬公彦