• 検索結果がありません。

MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案

N/A
N/A
Protected

Academic year: 2021

シェア "MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

© 2015 MapR Technologies © 2015 MapR Technologies

マップアール・テクノロジーズ株式会社

アライアンス&プロダクトマーケティング

三原 茂

「MapR on UCS:Hadoopはこう売ろう。

難しくないHadoopの提案」

(2)

© 2015 MapR Technologies

MapR企業概要

ビッグデータ

のコアに

お客様の成長

と共に

2X Revenue ‘13 – ‘14 80% of accounts expand 3X 90% software licenses < 1% lifetime churn

> $1B in incremental revenue generated by 1 customer

700+ Customers

Apache Open Source

+ Innovation

日本のパートナー様

MapR Technologies Inc.

【Founder】 John Schroeder & M.C. Srivas 【設立】2009年 【本社】カリフォルニア州 サンノゼ 【従業員】約 300 人 【拠点】 13カ所(日本含)

(3)

© 2015 MapR Technologies

• ビッグデータ時代のデータストア

– ファイル、データに関係なくあらゆるデータを蓄積

可能

– ただし、単に溜めるだけではなく、データを加工す

るフレームワークや分析や検索するアプリが含まれ

– もちろん、分散処理、スケールアウト可能

• OSS

Hadoop(ハドゥープ)とは(1)?

(4)

© 2015 MapR Technologies

HDFS

(Hadoop Distributed File System)

分散ファイルシステム

大規模分散処理フレームワーク

MapReduce

大きく

2つ

のコンポーネントで構成:

データをブロックに分割して複数のサー

バに分散配置/3つのレプリカを作成

Map/Reduceというシンプルな処理の組

み合わせで、HDFS上にあるデータの分

散処理を行う汎用的なフレームワーク

データをためる

データを加工する

Hadoopとは(2)?

処理の近くにデータを置く:データ(保管)と処理能力(加工・分析)をデータのある場所で!

設計当初から大規模、大容量、増加し続けるデータに対応(分散処理&スケールアウト)

(5)

© 2015 MapR Technologies

Hadoopの概要図

HDFS

MapReduce

Java API

Hadoop Ecosystem

管理

シス

テム

データ/ファイルを溜める データ/ファイルを加工する データ/ファイルを活用する

(6)

© 2015 MapR Technologies

Hadoop(MapR)のパッケージ全体図

~エコシステムも含めて提供~

MapR Data Platform

(ランダム Read/Write)

MapR-FS

(POSIX)

MapR-DB

(Hbase互換高運用性 NoSQL) セキュリテ YARN Pig Cascadin g Spark バッチ Spark Streaming Storm* ストリーミ ング HBase Solr NoSQL ・検索 Juju プロビジョニ ング・コーディ ネーション Savanna h* Mahout MLLib 機械学習 ・グラフ GraphX MapReduc e v1 & v2

APACHE HADOOP および OSS エコシステム

実行エンジン データガバナンス・オペレーション ワークフロー ・データ ガバナンス Tez* Accumul o* Hive Impala Spark SQL Drill* SQL

Sentry* Oozie ZooKeeper Sqoop

Knox* Falcon* Whirr Flume データ 統合・ アクセス HttpFS Hue

NFS HDFS API HBase API JSON API

MapR

Con

trol

S

y

st

em

(運用管理・監視 ) * ディストリビューションに統合/認証予定 C LI GU I RES T API 商用ソフトウェア

分析アプリ(OSSベース)

データストアとデータ処理

(HDFS/MapReduce)

(7)

© 2015 MapR Technologies

MapR 製品

管理ツール NFS アクセス パフォーマンス HA スナップショット ミラーリング 24 X 7 サポート サブスクリプション Hadoop (M5) & NoSQL (M7)  管理ツール NFS アクセス パフォーマンス ノード数の制限なし 無料 Compute Engine

Also Available through:

Hbase互換のNoSQL DB M5の機能+ HBaseの運用を簡素化 HBaseの高速化 安定したレスポンスタイム ファイル/テーブルの統合ス ナップショット

M3

COMMUNITY EDITION

M5

ENTERPRISE EDITION

M7

(MapR-DB)

(8)

© 2015 MapR Technologies Data

• Gartner, "Forecast Analysis: Enterprise IT Spending by Vertical Industry Market, Worldwide,

2010-2016, 3Q12 Update.“

• Wall Street Journal, “Financial Services Companies Firms See Results from Big Data Push”,

Jan. 27, 2014

$9,000

$40,000

<$1,000

2013 2014 2015 2016 2017

IT予算の伸び率 2.5% データの増加率 40% テラバイトあたりの コスト

登場の背景:データの増大とコスト削減の

ギャップ

ストレージ

DWH

ギャップ

(9)

© 2015 MapR Technologies

HadoopとNoSQLのプレイヤー

Forrester Wave™Big Data Hadoop Solutions, Q1‘14

NoSQL: M7 (MapR-DB)

Hadoop

(10)

© 2015 MapR Technologies

Hadoop/NoSQLの主な用途

セールス/マーケティング

(売上/収益向上/顧客動向)

情報系IT

(ストレージとDWH最適化)

リスク回避

(予防保守/不正検知/余剰在庫)

基幹系IT

(バッチ高速化)

5

IoT/M2M

(リアルタイム、ストリーミング対応)

基本はデータレイク(エンタープライズデータハブ)によるデータのサイロの解消

(11)

© 2015 MapR Technologies

MapRと他のHadoopとの違い(要約)

データの出し入れがしやすい

– POSIX準拠のNFSを利用し、他システムとデータ連係が容易

– ソフトウェアデファインドストレージ(スケールアウトNAS)として利用

データ保護機能が充実

– バックアップ / スナップショット機能

– DR

– データアクセスの制御(セキュリティ)

高パフォーマンス

– ネームノードの分散化

– ファイルシステムのネイティブ化

より容易な運用

– マルチテナント

– 高パフォーマンスと管理ノードが無いことによる台数削減

– 単一障害点の排除

NoSQLがある

– Hbase互換(高運用性、高信頼性)

– ライセンスキーの入れ替えで利用可能

Webサーバー ログ データ 最新データ リアルタイム ダイレクト ローカル

(12)

© 2015 MapR Technologies

ビッグデータストレージ(分析ready)

としてのMapR

DWH

ETL + Long Term Storage

DWH

データ

ファイル

or

NAS

SAN

MapR

IA Server

• 膨大、かつ増え続けるログデータ等 をどこに保管? • スケールアウト型のNASは種類が少なく 高価 • 分析のためには、分析環境にデータ移行が必要で、 想定以上に高コスト • MapR上に置くことで、 コスト効率良く保管 • 分析や活用のために他にデータ 移動することなく、いつでも Hadoopを使ってデータ処理 • バックアップやスナップショッ トが取れるのはMapRだけ

<従来>

<これから>

x86サーバ

ログ

ログ

Big Data Storage Enterprise Storage

(13)

© 2015 MapR Technologies

Zions Bank:

ビッグデータストレージと不正検知

データプラットフォームを統合することでコスト効果高く、セキュリティ分析と不正検知を行う

不正を発見するチームとセキュリティ分析のチームが共同で利用するデー タストアのプラットフォームを構築し、その上に統計モデリングを載せ、 不正や不正につながる怪しい行動を発見する “Zions Bankでは初めてセキュリティ分析のために全データを中央集権的に集め、利用 したが、不正検知にもそのデータが使えることが分かっただけではなく、不正検知に非 常に役に立つことがわかった

Michael Fowkes - SVP Fraud Operations and Security Analytics

• 既存のインフラはスケールしない • この数年レポート作成に時間がより掛かるようになっていた • データストレージコストを50%削減 • 1.2PBのデータからのクエリが24時間から30分に削減 • 限界の無いスケーラビリティにより、より多くのデータを使え、より正 確なモデルと洞察を得られた 目的 チャレンジ MapR利用のメリット Business Impact

(14)

© 2015 MapR Technologies 13 ソースシステム 基幹系、業務系

ETL

DM

BI(ビジネス・インテリジェンス) DWH/DMのデータを分析ニーズに 合った表、グラフ、レポートとして 表示 通常Webベース(ブラウザ) マイニング 大量データから未来を予測 推測統計、パターン発見、検定な どの数理を活用 ソースシステム 基幹系、多数の業務系システム 様々な見るべき情報を保有 配置やデータ品質はバラバラ (従来はこれを一つづつ見てい た) ETL ETL

DWH

Mining

ETL(データ統合) 複数のソースシステムから、一箇所 (DWH)にデータを集める 抽出、変換、クレンジングを行う DMの切り出しにもETLを活用 DWH(データウェアハウス) 各種データを一元的に格納 大量の明細や長期間の履歴を保有 多数のソースデータを高速で格納し、 日々更新するために最適化 DM(データマート) 特定のユーザーや特定用途のため に抽出した一部のデータ 多数のユーザーが必要なデータを 高速に検索・分析するために最適 化

既存分析(DWH)環境のどこに位置付くか?

Hadoop 大量データを溜め、処理、分析が 1カ所でできる新技術 BI

(15)

© 2014 MapR Technologies 14

既存DWHビジネスにクロスセル!

Hadoop

(NoSQL)

データ

統合

(ESB)

BI

DWH

• より多いデータを限られたコストで蓄積 • 非/準構造化データの取扱い • 機械学習やデータマイニングの基盤 • DWHからETL処理をオフロードし並列処理 • キューブに依存しないセルフサービス化 • IoTやストリーミングデータ の活用 • データストリームの最適化 • データの前処理 • リアルタイムへの対応 • Drill経由でHadoopにアクセス • セルフサービス化(アジャイルBI)

(16)

© MapR Technologies © MapR Technologies

DWH環境のニーズと現状のまとめ

1. コストを下げたい

2. データ量は増やしたい

3. データ種(構造化データ以外)も増やし、

様々なニーズを拾いたい(ログデータに代表される)

4. 既存SQLをそのまま活かしたい

– BI等の既存ツールを継続利用したい

新テクノロジー「Hadoop」を活用し、ビッグデータ時代に合ったDWH環境に

(17)

マーケティング 在庫管理者 ストア マネージャ 分析官 経営層 アプリ ユーザ マイニング(機械学習)エンジン データウェアハウス データ プラットフォーム NFS

ビッグデータ時代の新DWH基盤概念図

活用 分析 収集・蓄積・加工 売上 画像・映像 位置情報 POSデータ SNSや 口コミ Webログ データ ソース

SQL on Hadoop / Hive

NFS 在庫 全データを格納 (データのサイロを解消) ETL処理を並列実行 (DWHからETLを オフロード) Hadoop上のデータはスー パーセットとしてエコシス テムから活用 Hadoopで抽出された DWHで処理すべき構造化データ を活用しレポート (例:直近3ヶ月分) Hadoop上の全データを用い、 傾向分析等 (例:レコメンデーション、 顧客動向) NFS BI ビジネスニーズ • 在庫把握と機会損失防止 • 配送状況把握&ルート最適化 • 売上と利益向上 • 顧客動向把握 • 適正生産と在庫のコスト削減 • 企業運営、計画

(18)

© 2015 MapR Technologies Hadoop(MapR)導入のメリット:  DWHに入れるべきデータを選別でき、 データ量とコストのバランスを取れる  DWH単独増設より圧倒的に低コストなた め、現実解となる(1/2に削減)  どこまでもスケールするパフォーマンス (ETLが3倍)  あらゆるデータを格納・処理・活用  ソースから分析までの一環した データフローを実現  機械学習等のHadoopアプリの利用により、傾向 をつかみ、解約率の削減対策 お客様のDWHの課題:  増大するデータにDWHのみでは対応できない  コスト  パフォーマンス  非構造化データ(ログ等)への対応

VerizonのDWHモダン化事例

アクセス ログ 顧客データ

Extract Clean Conform Transform

構造化データ

Data Warehouse and Analytics

構造化 & 非構造化 データ N1 N1 N1 N1

N1 Hadoop: データレイク NFS NFS データソース ETL処理 1.

ベライゾンのユーザが日々どういう使い方をしているか、

ユーザプロファイルや営業/請求についての詳細を知る

2.

サービス品質とサービス向上への修理や増設の元データが欲

しい

1.

解約率を下げる

2.

DWH(ETL)関連コスト

削減

機械学習

BI

(19)

© 2015 MapR Technologies

Hadoopを既存DWHに使うメリット

1. 既存DWHには手を入れる必要が無い

2. BIやSQLといった資産をそのまま有効活用でき、ユーザビリテ

ィも変わらない

3. より多くのデータを活用可能

4. 構造化データ以外のログ等の多構造化データを活用可能

5. データ量に対してのコストが従来より非常に低い

6. 本格的なデータ活用時代における新テクノロジーにも対応可能

な柔軟性(IoTやM2M等)

(20)

© 2015 MapR Technologies リアルタイム 検索・分析 テキスト/画像デー タ 解析処理機能 利用状況データ 集計処理機能 データ蓄積機能 IoT デバイス モニタリング 視聴データ リアルタイムな データストリーミング処理 利用データ 集計機能 利用 予測機能 業務系情報提供 (レポートや業務 系) データ収集 データ蓄積・分析 データ活用 MapR-DB フィードバック (レコメンデーション) サンプル画像/動画 表示 ESB BI Tableau Erastic Search

リアルタイム

でビッグデータを収集・分析

IoT時代のあらゆるデータをリアルタイムで分析・検索

従来からのDB、ERP、 CRM等の基幹系からの DWHやデータマート ユーザーへ リアルタイムで フィードバック (営業・マーケティ ング) Apache Drill Mahout Spark 傾向分析 (予防保守、不正検知) DWH フィナンシャル レポート

モダン化された

DWH

SNS等ネットのデータ

(21)

© 2015 MapR Technologies

エンタープライズ用Hadoopのために!

Apache Hadoopをエンタープライズで利用する際に問題となる点を1つ1つ解消

Apache Hadoop

HDFS

MapReduce

MapR FS

MapReduce

Java API

100%互換

Java API

強化・改善 (ネイティブ化) ランダムR/W NFSアクセス 分散NameNode ミラーリング スナップショット ボリューム JobTracker HA Direct Shuffle 様々な機能強化 パフォーマンスや運用性を上げるための アーキテクチャ設計・再実装 • ロックの排除による並列処理の最適化 • ビルトイン圧縮によるI/O削減 • 分散NameNode • RPC経由のShuffle転送 • Java GCの影響の排除 • オープンスタンダードなAPI 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 1000 2000 3000 4000 5000 6000 Fi le crea tes/s Files (M) 0 100 200 400 600 800 1000 MapR

Benchmark: File creates (100B) Hardware: 10 nodes, 2 x 4 cores, 24 GB RAM, 12 x 1 TB 7200 RPM ベンチマーク例 0 100 200 300 400 0 0.5 1 1.5 Fil e cr e a te s/s Files (M) 他のディストリビューション

(22)

© 2015 MapR Technologies

MapRの最小構成(推奨)

2U

2p/12c

12本のデータディスク

2本のOSディスク

最小サーバ数:4

他ディストリビューションの最小構成(推奨)

1U(管理)& 2U(スレーブ)

2p/8c(管理) & 2p/12c(スレーブ)

OSディスク

4本のディスク(管理)

12本のディスク(スレーブ)

最小サーバ数:7

(23)

© 2015 MapR Technologies

まとめ

• Hadoopは技術用語が先行したため、難しく思えるが、分析用DB(

RDBではない)と理解して構いません

• ポストRDBの時代にトランザクションDB以外のDWH(オペレーショ

ナル)や分析DB、さらにはIoTデータの受け皿としてビジネスチャン

スが大きい

• まずは、ストレージコストの削減やDWHのコスト削減がターゲット

• Hadoopにもいくつかディストリビューションがあるが、全てが同じで

はなく、MapRが最もエンタープライズ向き

• スケールアウト可能なシステムは、プロビジョニングの仕組みが必要

なため、UCSとの組合せはさらに運用性を向上させる

• 是非ご覧ください!

https://www.youtube.com/watch?v=SMTzoa8LUwQ

(24)

参照

関連したドキュメント

エネルギー 86.4kcal たんぱく質 7.38g.

処理水 バッファ タンク ろ過水 タンク 3号機 原子炉圧力容器. 処理水より 補給用 補給用

過水タンク並びに Sr 処理水貯槽のうち Sr 処理水貯槽(K2 エリア)及び Sr 処理水貯槽(K1 南エリア)の放射能濃度は,水分析結果を基に線源条件を設定する。RO

過水タンク並びに Sr 処理水貯槽のうち Sr 処理水貯槽(K2 エリア)及び Sr 処理水貯槽(K1 南エリア)の放射能濃度は,水分析結果を基に線源条件を設定する。RO

○齋藤第一部会長 もう一度確認なのですが、現存の施設は 1 時間当たり 60t の処理能力と いう理解でよろしいですよね。. 〇事業者

Should Buyer purchase or use SCILLC products for any such unintended or unauthorized application, Buyer shall indemnify and hold SCILLC and its officers, employees,

処理処分の流れ図(図 1-1 及び図 1-2)の各項目の処理量は、産業廃棄物・特別管理産業廃 棄物処理計画実施状況報告書(平成

過水タンク並びに Sr 処理水貯槽のうち Sr 処理水貯槽(K2 エリア)及び Sr 処理水貯槽(K1 南エリア)の放射能濃度は,水分析結果を基に線源条件を設定する。RO