MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案

(1)

マップアール・テクノロジーズ株式会社

アライアンス&プロダクトマーケティング

三原茂

「MapR on UCS：Hadoopはこう売ろう。

難しくないHadoopの提案」

(2)

MapR企業概要

ビッグデータ

のコアに

お客様の成長

と共に

2X Revenue ‘13 – ‘14 80% of accounts expand 3X 90% software licenses < 1% lifetime churn

> $1B in incremental revenue _{generated by 1 customer}

700+ Customers

Apache Open Source

+ Innovation

日本のパートナー様

MapR Technologies Inc.

【Founder】 John Schroeder & M.C. Srivas 【設立】2009年【本社】カリフォルニア州サンノゼ【従業員】約 300 人【拠点】 13カ所（日本含）

(3)

• ビッグデータ時代のデータストア

– ファイル、データに関係なくあらゆるデータを蓄積

可能

– ただし、単に溜めるだけではなく、データを加工す

るフレームワークや分析や検索するアプリが含まれ

る

– もちろん、分散処理、スケールアウト可能

• OSS

Hadoop（ハドゥープ）とは（１）？

(4)

HDFS

(Hadoop Distributed File System)

分散ファイルシステム

大規模分散処理フレームワーク

MapReduce

大きく

2つ

のコンポーネントで構成：

データをブロックに分割して複数のサー

バに分散配置／3つのレプリカを作成

Map/Reduceというシンプルな処理の組

み合わせで、HDFS上にあるデータの分

散処理を行う汎用的なフレームワーク

データをためる

データを加工する

Hadoopとは（２）？



処理の近くにデータを置く：データ（保管）と処理能力（加工・分析）をデータのある場所で！



設計当初から大規模、大容量、増加し続けるデータに対応（分散処理＆スケールアウト）

(5)

Hadoopの概要図

HDFS

MapReduce

Java API

Hadoop Ecosystem

管理

シス

テム

データ/ファイルを溜めるデータ/ファイルを加工するデータ/ファイルを活用する

(6)

Hadoop（MapR）のパッケージ全体図

～エコシステムも含めて提供～

MapR Data Platform

(ランダム Read/Write)

MapR-FS

(POSIX)

MapR-DB

(Hbase互換高運用性 NoSQL) セキュリテ ィ YARN Pig Cascadin g Spark バッチ Spark Streaming Storm* ストリーミ ング HBase Solr NoSQL ・検索 Juju プロビジョニ ング・コーディ ネーション Savanna h* Mahout MLLib 機械学習 ・グラフ GraphX MapReduc e v1 & v2

APACHE HADOOP および OSS エコシステム

実行エンジン データガバナンス・オペレーション ワークフロー ・データ ガバナンス Tez* Accumul o* Hive Impala Spark SQL Drill* SQL

Sentry* Oozie ZooKeep_er Sqoop

Knox* Falcon* Whirr Flume データ 統合・ アクセス HttpFS Hue

NFS HDFS _API HBase _API JSON _API

MapR

Con

trol

S

y

st

em

(運用管理・監視 ) * ディストリビューションに統合／認証予定 C LI GU I RES T API 商用ソフトウェア

分析アプリ（OSSベース）

分

析

ア

プ

リ

（

商

用

製

品

）

データストアとデータ処理

（HDFS/MapReduce）

管

理

ツ

ー

ル

(7)

MapR 製品

 _{管理ツール}  _{NFS アクセス}  _{パフォーマンス}  _HA  _{スナップショット}  _{ミラーリング}  _{24 X 7 サポート}  _{サブスクリプション}  _{Hadoop (M5) ＆} NoSQL (M7)  _{管理ツール}  _{NFS アクセス}  _{パフォーマンス}  _{ノード数の制限なし}  _無料 Compute Engine

Also Available through:

 _{Hbase互換のNoSQL DB}  _{M5の機能＋}  _{HBaseの運用を簡素化}  _{HBaseの高速化}  _{安定したレスポンスタイム}  _{ファイル/テーブルの統合ス} ナップショット

M3

COMMUNITY EDITION

M5

ENTERPRISE EDITION

M7

（MapR-DB）

(8)

• Gartner, "Forecast Analysis: Enterprise IT Spending by Vertical Industry Market, Worldwide,

2010-2016, 3Q12 Update.“

• Wall Street Journal, “Financial Services Companies Firms See Results from Big Data Push”,

Jan. 27, 2014

$9,000

$40,000

<$1,000

2013 2014 2015 2016 2017

IT予算の伸び率 2.5% データの増加率 40% テラバイトあたりの コスト

登場の背景：データの増大とコスト削減の

ギャップ

ストレージ

DWH

ギャップ

(9)

HadoopとNoSQLのプレイヤー

Forrester Wave™_{Big Data Hadoop Solutions, Q1‘14}

NoSQL: M7 (MapR-DB)

Hadoop

(10)

Hadoop/NoSQLの主な用途

セールス/マーケティング

（売上/収益向上/顧客動向）

情報系IT

（ストレージとDWH最適化）

リスク回避

（予防保守/不正検知/余剰在庫）

基幹系IT

（バッチ高速化）

5 IoT/M2M

（リアルタイム、ストリーミング対応）

基本はデータレイク（エンタープライズデータハブ）によるデータのサイロの解消

(11)

MapRと他のHadoopとの違い（要約）

• データの出し入れがしやすい

– POSIX準拠のNFSを利用し、他システムとデータ連係が容易

– ソフトウェアデファインドストレージ（スケールアウトNAS）として利用

• データ保護機能が充実

– バックアップ / スナップショット機能

– DR

– データアクセスの制御（セキュリティ）

• 高パフォーマンス

– ネームノードの分散化

– ファイルシステムのネイティブ化

• より容易な運用

– マルチテナント

– 高パフォーマンスと管理ノードが無いことによる台数削減

– 単一障害点の排除

• NoSQLがある

– Hbase互換（高運用性、高信頼性）

– ライセンスキーの入れ替えで利用可能

Webサーバーログデータ最新データリアルタイムダイレクトローカル

(12)

ビッグデータストレージ（分析ready）

としてのMapR

DWH

ETL + Long Term Storage

DWH

データ

ファイル

or

NAS

SAN

MapR

＋

IA Server

• 膨大、かつ増え続けるログデータ等をどこに保管？ • スケールアウト型のNASは種類が少なく高価 • 分析のためには、分析環境にデータ移行が必要で、想定以上に高コスト • MapR上に置くことで、コスト効率良く保管 • 分析や活用のために他にデータ移動することなく、いつでも Hadoopを使ってデータ処理 • バックアップやスナップショットが取れるのはMapRだけ

＜従来＞

＜これから＞

x86サーバ

ログ

Big Data Storage Enterprise Storage

(13)

Zions Bank:

ビッグデータストレージと不正検知

データプラットフォームを統合することでコスト効果高く、セキュリティ分析と不正検知を行う

不正を発見するチームとセキュリティ分析のチームが共同で利用するデータストアのプラットフォームを構築し、その上に統計モデリングを載せ、不正や不正につながる怪しい行動を発見する “Zions Bankでは初めてセキュリティ分析のために全データを中央集権的に集め、利用したが、不正検知にもそのデータが使えることが分かっただけではなく、不正検知に非常に役に立つことがわかった

Michael Fowkes - SVP Fraud Operations and Security Analytics

• 既存のインフラはスケールしない • この数年レポート作成に時間がより掛かるようになっていた • データストレージコストを50%削減 • 1.2PBのデータからのクエリが24時間から30分に削減 • 限界の無いスケーラビリティにより、より多くのデータを使え、より正確なモデルと洞察を得られた目的 チャレンジ MapR利用のメリット Business Impact

(14)

ETL

DM

BI(ビジネス・インテリジェンス) DWH/DMのデータを分析ニーズに合った表、グラフ、レポートとして表示通常Webベース(ブラウザ） マイニング 大量データから未来を予測推測統計、パターン発見、検定などの数理を活用 ソースシステム 基幹系、多数の業務系システム様々な見るべき情報を保有配置やデータ品質はバラバラ（従来はこれを一つづつ見ていた） ETL ETL

DWH

Mining

ETL（データ統合） 複数のソースシステムから、一箇所（DWH）にデータを集める抽出、変換、クレンジングを行う DMの切り出しにもETLを活用 DWH（データウェアハウス） 各種データを一元的に格納大量の明細や長期間の履歴を保有多数のソースデータを高速で格納し、日々更新するために最適化 DM（データマート） 特定のユーザーや特定用途のために抽出した一部のデータ多数のユーザーが必要なデータを高速に検索・分析するために最適化

既存分析（DWH）環境のどこに位置付くか？

Hadoop 大量データを溜め、処理、分析が 1カ所でできる新技術 BI

(15)

既存DWHビジネスにクロスセル！

Hadoop

（NoSQL）

データ

統合

（ESB）

BI

DWH

• より多いデータを限られたコストで蓄積 • 非/準構造化データの取扱い • 機械学習やデータマイニングの基盤 • DWHからETL処理をオフロードし並列処理 • キューブに依存しないセルフサービス化 • IoTやストリーミングデータの活用 • データストリームの最適化 • データの前処理 • リアルタイムへの対応 • Drill経由でHadoopにアクセス • セルフサービス化（アジャイルBI）

(16)

DWH環境のニーズと現状のまとめ

1. コストを下げたい

2. データ量は増やしたい

3. データ種（構造化データ以外）も増やし、

様々なニーズを拾いたい（ログデータに代表される）

4. 既存SQLをそのまま活かしたい

– BI等の既存ツールを継続利用したい

新テクノロジー「Hadoop」を活用し、ビッグデータ時代に合ったDWH環境に

(17)

マーケティング 在庫管理者 ストア マネージャ 分析官 経営層 アプリユーザ マイニング（機械学習）エンジン データウェアハウス データ プラットフォーム NFS

ビッグデータ時代の新DWH基盤概念図

活用分析収集・蓄積・加工売上 画像・映像 位置情報 POSデータ SNSや 口コミ Webログ データソース

SQL on Hadoop / Hive

NFS 在庫全データを格納（データのサイロを解消） ETL処理を並列実行（DWHからETLをオフロード） Hadoop上のデータはスーパーセットとしてエコシステムから活用 Hadoopで抽出された DWHで処理すべき構造化データを活用しレポート（例：直近3ヶ月分） Hadoop上の全データを用い、傾向分析等（例：レコメンデーション、顧客動向） NFS BI ビジネスニーズ • 在庫把握と機会損失防止 • 配送状況把握＆ルート最適化 • 売上と利益向上 • 顧客動向把握 • 適正生産と在庫のコスト削減 • 企業運営、計画

(18)

© 2015 MapR Technologies Hadoop（MapR）導入のメリット：  DWHに入れるべきデータを選別でき、データ量とコストのバランスを取れる  DWH単独増設より圧倒的に低コストなため、現実解となる（1/2に削減）  どこまでもスケールするパフォーマンス（ETLが3倍）  あらゆるデータを格納・処理・活用  ソースから分析までの一環したデータフローを実現  機械学習等のHadoopアプリの利用により、傾向をつかみ、解約率の削減対策お客様のDWHの課題：  増大するデータにDWHのみでは対応できない  コスト  パフォーマンス  非構造化データ（ログ等）への対応

VerizonのDWHモダン化事例

アクセスログ顧客データ

Extract Clean Conform Transform

構造化データ

Data Warehouse and Analytics

構造化＆非構造化データ N1 N1 N1 N1

_…

N1 Hadoop：データレイク NFS NFS データソース ETL処理 1.

ベライゾンのユーザが日々どういう使い方をしているか、

ユーザプロファイルや営業/請求についての詳細を知る

2.

サービス品質とサービス向上への修理や増設の元データが欲

しい

1.

解約率を下げる

2.

DWH（ETL）関連コスト

削減

機械学習

BI

(19)

Hadoopを既存DWHに使うメリット

1. 既存DWHには手を入れる必要が無い

2. BIやSQLといった資産をそのまま有効活用でき、ユーザビリテ

ィも変わらない

3. より多くのデータを活用可能

4. 構造化データ以外のログ等の多構造化データを活用可能

5. データ量に対してのコストが従来より非常に低い

6. 本格的なデータ活用時代における新テクノロジーにも対応可能

な柔軟性（IoTやM2M等）

(20)

© 2015 MapR Technologies リアルタイム検索・分析テキスト/画像データ解析処理機能利用状況データ集計処理機能データ蓄積機能 IoT デバイスモニタリング視聴データリアルタイムなデータストリーミング処理利用データ集計機能利用予測機能業務系情報提供（レポートや業務系）データ収集データ蓄積・分析データ活用 MapR-DB フィードバック（レコメンデーション）サンプル画像/動画表示 ESB BI Tableau Erastic Search

リアルタイム

でビッグデータを収集・分析

IoT時代のあらゆるデータをリアルタイムで分析・検索

従来からのDB、ERP、 CRM等の基幹系からの DWHやデータマートユーザーへリアルタイムでフィードバック（営業・マーケティング） Apache Drill Mahout Spark 傾向分析（予防保守、不正検知） DWH フィナンシャルレポート

モダン化された

DWH

SNS等ネットのデータ

(21)

エンタープライズ用Hadoopのために！

Apache Hadoopをエンタープライズで利用する際に問題となる点を1つ1つ解消

Apache Hadoop

HDFS

MapReduce

MapR FS

MapReduce

Java API

100%互換

Java API

強化・改善（ネイティブ化）ランダムR/W NFSアクセス分散NameNode ミラーリングスナップショットボリューム JobTracker HA Direct Shuffle 様々な機能強化パフォーマンスや運用性を上げるためのアーキテクチャ設計・再実装 • ロックの排除による並列処理の最適化 • ビルトイン圧縮によるI/O削減 • 分散NameNode • RPC経由のShuffle転送 • Java GCの影響の排除 • オープンスタンダードなAPI 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 1000 2000 3000 4000 5000 6000 Fi le crea tes/s Files (M) 0 100 200 400 600 800 1000 MapR

Benchmark: File creates (100B) Hardware: 10 nodes, 2 x 4 cores, 24 GB RAM, 12 x 1 TB 7200 RPM ベンチマーク例 0 100 200 300 400 0 0.5 1 1.5 Fil e cr e a te s/s Files (M) 他のディストリビューション

(22)

MapRの最小構成（推奨）



2U



2p/12c



12本のデータディスク



2本のOSディスク



最小サーバ数：4

他ディストリビューションの最小構成（推奨）



1U（管理）& 2U（スレーブ）



2p/8c（管理） & 2p/12c（スレーブ）



OSディスク



4本のディスク（管理）



12本のディスク（スレーブ）



最小サーバ数：7

(23)

まとめ

• Hadoopは技術用語が先行したため、難しく思えるが、分析用DB（

RDBではない）と理解して構いません

• ポストRDBの時代にトランザクションDB以外のDWH（オペレーショ

ナル）や分析DB、さらにはIoTデータの受け皿としてビジネスチャン

スが大きい

• まずは、ストレージコストの削減やDWHのコスト削減がターゲット

• Hadoopにもいくつかディストリビューションがあるが、全てが同じで

はなく、MapRが最もエンタープライズ向き

• スケールアウト可能なシステムは、プロビジョニングの仕組みが必要

なため、UCSとの組合せはさらに運用性を向上させる

• 是非ご覧ください！

https://www.youtube.com/watch?v=SMTzoa8LUwQ

(24)

MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案

マップアール・テクノロジーズ株式会社

アライアンス&プロダクトマーケティング

三原 茂

「MapR on UCS：Hadoopはこう売ろう。

難しくないHadoopの提案」

MapR企業概要

ビッグデータ

のコアに

お客様の成長

と共に

700+ Customers

日本のパートナー様

• ビッグデータ時代のデータストア

– ファイル、データに関係なくあらゆるデータを蓄積

可能

– ただし、単に溜めるだけではなく、データを加工す

るフレームワークや分析や検索するアプリが含まれ

る

– もちろん、分散処理、スケールアウト可能

• OSS

Hadoop（ハドゥープ）とは（１）？

HDFS

分散ファイルシステム

大規模分散処理フレームワーク

MapReduce

大きく

2つ

のコンポーネントで構成：

データをブロックに分割して複数のサー

バに分散配置／3つのレプリカを作成

Map/Reduceというシンプルな処理の組

み合わせで、HDFS上にあるデータの分

散処理を行う汎用的なフレームワーク

データをためる

データを加工する

Hadoopとは（２）？

処理の近くにデータを置く：データ（保管）と処理能力（加工・分析）をデータのある場所で！

設計当初から大規模、大容量、増加し続けるデータに対応（分散処理＆スケールアウト）

Hadoopの概要図

HDFS

MapReduce

Java API

Hadoop Ecosystem

管理

シス

テム

Hadoop（MapR）のパッケージ全体図

～エコシステムも含めて提供～

MapR Data Platform

MapR-FS

MapR-DB

MapR

Con

trol

S

y

st

em

分析アプリ（OSSベース）

分

析

ア

プ

リ

（

商

用

製

品

）

データストアとデータ処理

（HDFS/MapReduce）

管

理

ツ

ー

ル

MapR 製品

Also Available through:

三原茂