© 2015 MapR Technologies © 2015 MapR Technologies
マップアール・テクノロジーズ株式会社
アライアンス&プロダクトマーケティング
三原 茂
「MapR on UCS:Hadoopはこう売ろう。
難しくないHadoopの提案」
© 2015 MapR Technologies
MapR企業概要
ビッグデータ
のコアに
お客様の成長
と共に
2X Revenue ‘13 – ‘14 80% of accounts expand 3X 90% software licenses < 1% lifetime churn> $1B in incremental revenue generated by 1 customer
700+ Customers
Apache Open Source
+ Innovation
日本のパートナー様
MapR Technologies Inc.【Founder】 John Schroeder & M.C. Srivas 【設立】2009年 【本社】カリフォルニア州 サンノゼ 【従業員】約 300 人 【拠点】 13カ所(日本含)
© 2015 MapR Technologies
• ビッグデータ時代のデータストア
– ファイル、データに関係なくあらゆるデータを蓄積
可能
– ただし、単に溜めるだけではなく、データを加工す
るフレームワークや分析や検索するアプリが含まれ
る
– もちろん、分散処理、スケールアウト可能
• OSS
Hadoop(ハドゥープ)とは(1)?
© 2015 MapR Technologies
HDFS
(Hadoop Distributed File System)分散ファイルシステム
大規模分散処理フレームワーク
MapReduce
大きく
2つ
のコンポーネントで構成:
データをブロックに分割して複数のサー
バに分散配置/3つのレプリカを作成
Map/Reduceというシンプルな処理の組
み合わせで、HDFS上にあるデータの分
散処理を行う汎用的なフレームワーク
データをためる
データを加工する
Hadoopとは(2)?
処理の近くにデータを置く:データ(保管)と処理能力(加工・分析)をデータのある場所で!
設計当初から大規模、大容量、増加し続けるデータに対応(分散処理&スケールアウト)
© 2015 MapR Technologies
Hadoopの概要図
HDFS
MapReduce
Java API
Hadoop Ecosystem
管理
シス
テム
データ/ファイルを溜める データ/ファイルを加工する データ/ファイルを活用する© 2015 MapR Technologies
Hadoop(MapR)のパッケージ全体図
~エコシステムも含めて提供~
MapR Data Platform
(ランダム Read/Write)
MapR-FS
(POSIX)MapR-DB
(Hbase互換高運用性 NoSQL) セキュリテ ィ YARN Pig Cascadin g Spark バッチ Spark Streaming Storm* ストリーミ ング HBase Solr NoSQL ・検索 Juju プロビジョニ ング・コーディ ネーション Savanna h* Mahout MLLib 機械学習 ・グラフ GraphX MapReduc e v1 & v2APACHE HADOOP および OSS エコシステム
実行エンジン データガバナンス・オペレーション ワークフロー ・データ ガバナンス Tez* Accumul o* Hive Impala Spark SQL Drill* SQL
Sentry* Oozie ZooKeeper Sqoop
Knox* Falcon* Whirr Flume データ 統合・ アクセス HttpFS Hue
NFS HDFS API HBase API JSON API
MapR
Con
trol
S
y
st
em
(運用管理・監視 ) * ディストリビューションに統合/認証予定 C LI GU I RES T API 商用ソフトウェア分析アプリ(OSSベース)
分
析
ア
プ
リ
(
商
用
製
品
)
データストアとデータ処理
(HDFS/MapReduce)
管
理
ツ
ー
ル
© 2015 MapR Technologies
MapR 製品
管理ツール NFS アクセス パフォーマンス HA スナップショット ミラーリング 24 X 7 サポート サブスクリプション Hadoop (M5) & NoSQL (M7) 管理ツール NFS アクセス パフォーマンス ノード数の制限なし 無料 Compute EngineAlso Available through:
Hbase互換のNoSQL DB M5の機能+ HBaseの運用を簡素化 HBaseの高速化 安定したレスポンスタイム ファイル/テーブルの統合ス ナップショット
M3
COMMUNITY EDITIONM5
ENTERPRISE EDITIONM7
(MapR-DB)
© 2015 MapR Technologies Data
• Gartner, "Forecast Analysis: Enterprise IT Spending by Vertical Industry Market, Worldwide,
2010-2016, 3Q12 Update.“
• Wall Street Journal, “Financial Services Companies Firms See Results from Big Data Push”,
Jan. 27, 2014
$9,000
$40,000
<$1,000
2013 2014 2015 2016 2017
IT予算の伸び率 2.5% データの増加率 40% テラバイトあたりの コスト登場の背景:データの増大とコスト削減の
ギャップ
ストレージ
DWH
ギャップ© 2015 MapR Technologies
HadoopとNoSQLのプレイヤー
Forrester Wave™Big Data Hadoop Solutions, Q1‘14
NoSQL: M7 (MapR-DB)
Hadoop
© 2015 MapR Technologies
Hadoop/NoSQLの主な用途
セールス/マーケティング
(売上/収益向上/顧客動向)
情報系IT
(ストレージとDWH最適化)
リスク回避
(予防保守/不正検知/余剰在庫)
基幹系IT
(バッチ高速化)
5
IoT/M2M
(リアルタイム、ストリーミング対応)
基本はデータレイク(エンタープライズデータハブ)によるデータのサイロの解消
© 2015 MapR Technologies
MapRと他のHadoopとの違い(要約)
•
データの出し入れがしやすい
– POSIX準拠のNFSを利用し、他システムとデータ連係が容易
– ソフトウェアデファインドストレージ(スケールアウトNAS)として利用
•
データ保護機能が充実
– バックアップ / スナップショット機能
– DR
– データアクセスの制御(セキュリティ)
•
高パフォーマンス
– ネームノードの分散化
– ファイルシステムのネイティブ化
•
より容易な運用
– マルチテナント
– 高パフォーマンスと管理ノードが無いことによる台数削減
– 単一障害点の排除
•
NoSQLがある
– Hbase互換(高運用性、高信頼性)
– ライセンスキーの入れ替えで利用可能
Webサーバー ログ データ 最新データ リアルタイム ダイレクト ローカル© 2015 MapR Technologies
ビッグデータストレージ(分析ready)
としてのMapR
DWH
ETL + Long Term Storage
DWH
データ
ファイル
or
NAS
SAN
MapR
+
IA Server
• 膨大、かつ増え続けるログデータ等 をどこに保管? • スケールアウト型のNASは種類が少なく 高価 • 分析のためには、分析環境にデータ移行が必要で、 想定以上に高コスト • MapR上に置くことで、 コスト効率良く保管 • 分析や活用のために他にデータ 移動することなく、いつでも Hadoopを使ってデータ処理 • バックアップやスナップショッ トが取れるのはMapRだけ<従来>
<これから>
x86サーバログ
ログ
Big Data Storage Enterprise Storage© 2015 MapR Technologies
Zions Bank:
ビッグデータストレージと不正検知
データプラットフォームを統合することでコスト効果高く、セキュリティ分析と不正検知を行う
不正を発見するチームとセキュリティ分析のチームが共同で利用するデー タストアのプラットフォームを構築し、その上に統計モデリングを載せ、 不正や不正につながる怪しい行動を発見する “Zions Bankでは初めてセキュリティ分析のために全データを中央集権的に集め、利用 したが、不正検知にもそのデータが使えることが分かっただけではなく、不正検知に非 常に役に立つことがわかったMichael Fowkes - SVP Fraud Operations and Security Analytics
• 既存のインフラはスケールしない • この数年レポート作成に時間がより掛かるようになっていた • データストレージコストを50%削減 • 1.2PBのデータからのクエリが24時間から30分に削減 • 限界の無いスケーラビリティにより、より多くのデータを使え、より正 確なモデルと洞察を得られた 目的 チャレンジ MapR利用のメリット Business Impact
© 2015 MapR Technologies 13 ソースシステム 基幹系、業務系
ETL
DM
BI(ビジネス・インテリジェンス) DWH/DMのデータを分析ニーズに 合った表、グラフ、レポートとして 表示 通常Webベース(ブラウザ) マイニング 大量データから未来を予測 推測統計、パターン発見、検定な どの数理を活用 ソースシステム 基幹系、多数の業務系システム 様々な見るべき情報を保有 配置やデータ品質はバラバラ (従来はこれを一つづつ見てい た) ETL ETLDWH
Mining
ETL(データ統合) 複数のソースシステムから、一箇所 (DWH)にデータを集める 抽出、変換、クレンジングを行う DMの切り出しにもETLを活用 DWH(データウェアハウス) 各種データを一元的に格納 大量の明細や長期間の履歴を保有 多数のソースデータを高速で格納し、 日々更新するために最適化 DM(データマート) 特定のユーザーや特定用途のため に抽出した一部のデータ 多数のユーザーが必要なデータを 高速に検索・分析するために最適 化既存分析(DWH)環境のどこに位置付くか?
Hadoop 大量データを溜め、処理、分析が 1カ所でできる新技術 BI© 2014 MapR Technologies 14
既存DWHビジネスにクロスセル!
Hadoop
(NoSQL)
データ
統合
(ESB)
BI
DWH
• より多いデータを限られたコストで蓄積 • 非/準構造化データの取扱い • 機械学習やデータマイニングの基盤 • DWHからETL処理をオフロードし並列処理 • キューブに依存しないセルフサービス化 • IoTやストリーミングデータ の活用 • データストリームの最適化 • データの前処理 • リアルタイムへの対応 • Drill経由でHadoopにアクセス • セルフサービス化(アジャイルBI)© MapR Technologies © MapR Technologies
DWH環境のニーズと現状のまとめ
1. コストを下げたい
2. データ量は増やしたい
3. データ種(構造化データ以外)も増やし、
様々なニーズを拾いたい(ログデータに代表される)
4. 既存SQLをそのまま活かしたい
– BI等の既存ツールを継続利用したい
新テクノロジー「Hadoop」を活用し、ビッグデータ時代に合ったDWH環境に
マーケティング 在庫管理者 ストア マネージャ 分析官 経営層 アプリ ユーザ マイニング(機械学習)エンジン データウェアハウス データ プラットフォーム NFS
ビッグデータ時代の新DWH基盤概念図
活用 分析 収集・蓄積・加工 売上 画像・映像 位置情報 POSデータ SNSや 口コミ Webログ データ ソースSQL on Hadoop / Hive
NFS 在庫 全データを格納 (データのサイロを解消) ETL処理を並列実行 (DWHからETLを オフロード) Hadoop上のデータはスー パーセットとしてエコシス テムから活用 Hadoopで抽出された DWHで処理すべき構造化データ を活用しレポート (例:直近3ヶ月分) Hadoop上の全データを用い、 傾向分析等 (例:レコメンデーション、 顧客動向) NFS BI ビジネスニーズ • 在庫把握と機会損失防止 • 配送状況把握&ルート最適化 • 売上と利益向上 • 顧客動向把握 • 適正生産と在庫のコスト削減 • 企業運営、計画© 2015 MapR Technologies Hadoop(MapR)導入のメリット: DWHに入れるべきデータを選別でき、 データ量とコストのバランスを取れる DWH単独増設より圧倒的に低コストなた め、現実解となる(1/2に削減) どこまでもスケールするパフォーマンス (ETLが3倍) あらゆるデータを格納・処理・活用 ソースから分析までの一環した データフローを実現 機械学習等のHadoopアプリの利用により、傾向 をつかみ、解約率の削減対策 お客様のDWHの課題: 増大するデータにDWHのみでは対応できない コスト パフォーマンス 非構造化データ(ログ等)への対応
VerizonのDWHモダン化事例
アクセス ログ 顧客データExtract Clean Conform Transform
構造化データ
Data Warehouse and Analytics
構造化 & 非構造化 データ N1 N1 N1 N1
…
N1 Hadoop: データレイク NFS NFS データソース ETL処理 1.ベライゾンのユーザが日々どういう使い方をしているか、
ユーザプロファイルや営業/請求についての詳細を知る
2.サービス品質とサービス向上への修理や増設の元データが欲
しい
1.解約率を下げる
2.DWH(ETL)関連コスト
削減
機械学習
BI
© 2015 MapR Technologies
Hadoopを既存DWHに使うメリット
1. 既存DWHには手を入れる必要が無い
2. BIやSQLといった資産をそのまま有効活用でき、ユーザビリテ
ィも変わらない
3. より多くのデータを活用可能
4. 構造化データ以外のログ等の多構造化データを活用可能
5. データ量に対してのコストが従来より非常に低い
6. 本格的なデータ活用時代における新テクノロジーにも対応可能
な柔軟性(IoTやM2M等)
© 2015 MapR Technologies リアルタイム 検索・分析 テキスト/画像デー タ 解析処理機能 利用状況データ 集計処理機能 データ蓄積機能 IoT デバイス モニタリング 視聴データ リアルタイムな データストリーミング処理 利用データ 集計機能 利用 予測機能 業務系情報提供 (レポートや業務 系) データ収集 データ蓄積・分析 データ活用 MapR-DB フィードバック (レコメンデーション) サンプル画像/動画 表示 ESB BI Tableau Erastic Search
リアルタイム
でビッグデータを収集・分析
IoT時代のあらゆるデータをリアルタイムで分析・検索
従来からのDB、ERP、 CRM等の基幹系からの DWHやデータマート ユーザーへ リアルタイムで フィードバック (営業・マーケティ ング) Apache Drill Mahout Spark 傾向分析 (予防保守、不正検知) DWH フィナンシャル レポートモダン化された
DWH
SNS等ネットのデータ© 2015 MapR Technologies
エンタープライズ用Hadoopのために!
Apache Hadoopをエンタープライズで利用する際に問題となる点を1つ1つ解消
Apache Hadoop
HDFS
MapReduce
MapR FS
MapReduce
Java API
100%互換
Java API
強化・改善 (ネイティブ化) ランダムR/W NFSアクセス 分散NameNode ミラーリング スナップショット ボリューム JobTracker HA Direct Shuffle 様々な機能強化 パフォーマンスや運用性を上げるための アーキテクチャ設計・再実装 • ロックの排除による並列処理の最適化 • ビルトイン圧縮によるI/O削減 • 分散NameNode • RPC経由のShuffle転送 • Java GCの影響の排除 • オープンスタンダードなAPI 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 1000 2000 3000 4000 5000 6000 Fi le crea tes/s Files (M) 0 100 200 400 600 800 1000 MapR
Benchmark: File creates (100B) Hardware: 10 nodes, 2 x 4 cores, 24 GB RAM, 12 x 1 TB 7200 RPM ベンチマーク例 0 100 200 300 400 0 0.5 1 1.5 Fil e cr e a te s/s Files (M) 他のディストリビューション
© 2015 MapR Technologies
MapRの最小構成(推奨)
2U
2p/12c
12本のデータディスク
2本のOSディスク
最小サーバ数:4
他ディストリビューションの最小構成(推奨)
1U(管理)& 2U(スレーブ)
2p/8c(管理) & 2p/12c(スレーブ)
OSディスク
4本のディスク(管理)
12本のディスク(スレーブ)
最小サーバ数:7
© 2015 MapR Technologies