改めて理解する「データレイク」
その意味と役割、そしてテクノロジー
データレイクとは (出典:ITpro「今日のキーワード」(C)日経BP社): 米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。
非構造化データの管理・分析に適し、
IoT (モノのインターネット)のニーズが高まる製造業で特に注目を集める。 特徴:非構造データをOSSで管理 データレイクはセンサーのログやGPS(全地球測位システム)、ソーシャルメディア、画像・映像、音声といった非構造化データを管理するのに適 したアーキテクチャーだ。具体的には、あらゆるデータ
をネットワーク経由で収集し、オープンソースソフト(OSS)の分散処理基盤であ る「Hadoop(ハドゥープ)」に蓄積する。非定型分析
はデータサイエンティストなどの専門家がHadoop上で実行する一方で、定型分析
については一般の利用者が使いやすいデータ ウエアハウス(DWH)を別途用意する。使用頻度の高いデータはDWHのメモリー上に展開し、データの「アクセシビリティー(使いやすさ)」を 確保しているのだ。 従来のDWHは分析の目的をはっきりさせたうえで、収集するデータを必要なものだけに絞り込んでいた。あらゆるデータをアクセシビリティーが 確保された状態で保存しようとすると、コストがかかり過ぎる
ためである。Data Lake(データレイク) (出典:Wikipedia)
A data lake is
a method of storing data
within a system or repository, inits natural format
, that facilitates thecollocation of data in various schemata and structural forms
, usually object blobs or files.提唱:
James Dixon, then chief technology officer at Pentaho coined the term
to contrast it with data mart
, which is a smaller repository of interesting attributes extracted from raw data. He argued that data marts have several inherent problems, and that data lakes are the optimal solution. Theseproblems are often referred to as information siloing
.PricewaterhouseCoopers said that data lakes could "put an end to data silos. In their study on data lakes they noted that enterprises were "starting to extract and place data for analytics into a single, Hadoop-based repository.“
特徴:
The idea of data lake is to have
a single store of all data
in the enterprise ranging from raw data (which implies exact copy of source system data) to transformed data which is used for various tasks including reporting, visualization, analytics and machine learning.全米最大小売チェーンの例
既存データはデータベースに関連無く広範囲に存在 システムにロックされた状態を簡単に解除することは困難 (統合顧客視点では無く、システム視点) 効果的なロイヤルティプログラムを打ちたい (ロイヤル顧客へのプロモーション) 消費者の購買行動を部分的に理解したい 競合は顧客実装が進んでる : 小売戦略中心 オンライン及びオフラインの行動を関連付ける 売れ筋商品の捕捉と理解 どんな人(性別、年齢)が何時に何人来店してるのか 動線・陳列最適化による商品クロスセリング – レジ到達時間等の顧客のより包括的な視点活用 クロスセリングからアップセリングを加速Financial & Logistics Data(構造化データ)
SNS, On-Line, POS, ポイント,位置情報ログ(非構造化データ) 分析 ✓ O2O ✓ レポート ✓ ターゲティング ✓ レコメンデーション
データレイク
データレイクイメージ
•
データのサイロ化を解消したセントラルレポジトリ
✓ クロス分析
✓ ローデータ
•
あらゆるデータを蓄積、活用(プロセッシングと分析)
✓ ローデータから目的毎のデータへ
•
コスト
✓ 量も種類も増えるため
•
スケーラビリティと応じたパフォーマンスの確保
“データレイク“のポイント
第3のプラットフォーム登場の背景
•
ビジネスニーズが変わった
✓ 売上を倍にしたい、利益を30%増やしたい
✓ 品質チェックを機械化したい、歩留まりを上げたい
• データが変わった
–
従来型の売上データ(構造化データ)だけではダメだ!
–
デジタルにはできないものは画像や音声も使う!
• システムが変わる
–
RDBでは、ビジネスニーズを満たすデータを処理できない
–
コストが合わない
–
スケールしない
–
単なるストレージだとプロセッシングできない
データ量(増加し続ける)
データ件数
既存システムでは処理できないデータ
データの種類
コスト
ビッグデータの要素
データレイクに関するテクノロジーと特長
収集
蓄積
プロセッ
シング
コスト
スケール
モデル
アプライアンス型
ストレージ
NFS等で
バッチ的
に取り込み
可能
(Hadoop連携)
不可
高価
スケールアップ
ソフトウェア
デファインド型
ストレージ
同上
可能
同上
安価
スケールアウト
RDBMS(DWH)
ストレージ
からロード
可能
可能
高価
スケールアップ
Hadoop
(NoSQL)
NFSやMQ
で取込
(MapR-DBのみ)
可能
可能
安価
スケールアウト
×
×
×
×
×
×
Hadoopとは(1)?
•
ビッグデータ時代のデータストア
✓ 構造化、非構造化に関係なく
あらゆるデータ
を蓄積可能
✓ 単に溜めるだけではなく、溜めたデータを
加工するフレームワーク
や分析や検索するアプリが含まれる
✓ 並列分散処理、スケールアウト可能
✓ 複数のサーバを束ねて、1つのインスタンスとして提供
✓ ノードの一部が故障しても、データ損失の回避可能
•
オープンソースベース
•
高いコスト効率
N1
N2
N3
スケールアウト&分散処理
分散ファイルシステム
HDFS (Hadoop Distributed File System)
大規模分散処理フレームワーク
MapReduce
大きく
2つ
のコンポーネントで構成:
データをブロックに分割して複数のサーバに分
散配置/3つのレプリカを作成し、データの可用
性を高め、かつ並列分散処理を可能とする
MapRはこのFSを改変し、より使い易く高速に
Map/Reduceというシンプルな処理の組み合わ
せで、HDFS上にあるデータの分散処理を行う
汎用的なフレームワーク、集計や検索、クレン
ジングが可能
データをためる
データを加工する
データを移動しない:データ(保管)と処理能力(加工・分析)が同じところにある
設計当初から大規模、大容量、増加し続けるデータに対応(分散処理&スケールアウト)
Hadoopとは(2)?
某自動車部品製造業での活用法
工場A
工場D
工場C
工場B
製造データ
(予実データ)
データレイク
• 工場毎にDBがあり、包括的にKPI分析できない
• 各DBのテーブル設計が異なるため、集計等にも時間が掛かる
• 集計等のオペレーションに必要なIT知識が十分ではない
• 各工場のデータをセンターで統合
• スキーマの違いもMapR内で解決
• GUIのETLツールを使うことで、専門知識無しで運用
• コスト効果高く、今後のIoT化にも柔軟に対応可能
本社
IoT化によって、
リアルタイム
トレーサビリティへ
今後の展開
ソースシステム
基幹系、業務系
ETL
DM
BI(ビジネス・インテリジェンス) DWH/DMのデータを分析ニーズに合った表、 グラフ、レポートとして表示 通常Webベース(ブラウザ) マイニング 大量データから未来を予測 推測統計、パターン発見、検定などの 数理を活用ソースシステム
基幹系、多数の業務系システム 様々な見るべき情報を保有 配置やデータ品質はバラバラ (従来はこれを一つづつ見ていた)ETL
ETLDWH
Mining
ETL(データ統合)
複数のソースシステムから、一箇所 (DWH)にデータを集める 抽出、変換、クレンジングを行う DMの切り出しにもETLを活用DWH
(データウェアハウス) 各種データを一元的に格納 大量の明細や長期間の履歴を保有 多数のソースデータを高速で格納し、 日々更新するために最適化 DM(データマート) 特定のユーザーや特定用途のために抽出 した一部のデータ 多数のユーザーが必要なデータを高速に 検索・分析するために最適化 データレイク バラバラだった大量データを1箇所に溜 め、処理、分析が1カ所でできる新技術BI
既存分析システム(DWH)と併用
HANA & HANA Vora on MapRの
主なメリット:
• MapRがSDSとしても稼働し、ビッグデータをコス
ト効率良く格納
• MapRがHadoopとして稼働し、ビッグデータを
パフォーマンス効率良くクレンジング
• 単一障害点もパフォーマンスボトルネックも無い
唯一の分散環境を提供
• POSIXクライアントにより超高速データロード
• Voraにより透過的に全データを検索(Sparkは
2017年1月31日:
リファレンス・アーキテクチャ発表
DWHベンダーの動向:SAP HANAの例
NetApp NFS Connector for Hadoop
~既存FASをデータレイク化~
NetApp NFS Connector for
Hadoop
(既存データ用)
NetApp Big Data Solution for MapR
(新たなIoTデータ)
既存FAS Storage Controller (ログや業務データ保管済)