AI/IoTの導入に適したビッグデータ分析プラットフォーム
(Data Platform for Hadoop)とサービス
2017/10/10
講演者紹介
▌
辻 篤史 <[email protected]>
製品企画・ビッグデータプラットフォーム開発チーム
専門:オペレーティングシステム、インフラ運用
▌
山川 聡 <[email protected]>
製品アーキテクト・ビッグデータプラットフォーム開発チームリーダー
専門:分散コンピューティング、ストレージシステム
目次
1.
ビッグデータ分析の課題
2.
AI/IoTに適した分析プラットフォーム
3.
活動事例紹介
6 © NEC Corporation 2017
デジタルデータの拡大
4.4
ZB
2013
44
ZB
2020
Global Data
volume
CAGR
40
%
Hadoopを利用したビッグデータ分析
社会価値
実世界
サイバー世界
分析
対処
連携
人
モノ
環境
AI
Hadoop活用
IoT連携
AI活用
8 © NEC Corporation 2017
Hadoopの特長
柔軟なデータフロー設計が可能
•
多様なデータの取り込み、データフローに応じた加工処理に柔軟に対応可能
高いスケーラビリティ
•
ノード追加によりリニアにスケールアウト可能
多様な製品・技術と親和性を持つエコシステム
•
様々な製品やデータ分析、データ処理、セキュリティ、ガバナンスなどに対応
した新技術との親和性を確保
様々なデータに対応した統合プラットフォーム
•
構造化データ、セミ構造化データ、非構造化データを一つのプラットフォーム
で蓄積、処理可能
多様なデータ処理が可能な標準プラットフォーム
•
ビッグデータの一括処理と分析のための繰り返し処理、バッチ処理とリアルタ
イム処理など多様な処理が可能
Hadoopエコシステム
・多様なコンポーネント
・多様なデータ処理
ビッグデータ活用の難しさ
ビッグデータ分析の要件(例)
• 非構造データに対応した
データ蓄積
• IoTと連携したリアルタイ
ムのデータ取り込み
• AIを活用した高度分析
Hadoopシステムの設計要素
• HWアーキテクチャ選択/
HWサイジング
• Hadoopコンポーネント/
パラメータの組み合わせ
• 外部システムとの連携
X
複雑な設計
複雑な要件
複雑なシステムとなるため、
要件の達成ステップを決める必要あり
10 © NEC Corporation 2017
データドリブン企業への段階的変革
3 Year
Start
Timeline
• 組織間
Data Lake
•
Deep Learning
デジタルトランス
フォーメーション
• リアルタイム分析
リスク管理
• 予測分析
• 不正検知
顧客管理
• 既存処理のオフロード
•
BI /
可視化
• カスタマー
360
度分析
• クロスセル/アップセル
Enterprise Data
Warehouse (EDW)
Optimazion
Predictive
Analytics
Real-Time Streaming
Analytics
Data-Driven
Transformation
Data Volume
32 TB 1 PB見える化/コスト削減
データドリブン
意思決定
Bigdata Journey
Bigdata Journey 実現に必要な要素:ビッグデータ基盤観点
データの見える化 顧客満足度向上(コンタクトセンター) 360度分析 クロスセル/アップセルデータレイク
分析プラットフォー ム ストレージ分析処理基盤
分析プラットフォー ム ストレージ分析処理基盤
拡張
分析プラットフォー ム ストレージ分析処理基盤
拡張
分析プラットフォー ム ストレージ分析処理基盤
拡張
顧客 サーベイ 顧客行動 データ キャンペーン 結果データ 顧客属性 データ 顧客対応 データ 顧客購入 データ 製品データ 販売データ 顧客ID12 © NEC Corporation 2017
Bigdata Journey 実現に必要な要素:運用観点
データの見える化
顧客満足度向上
(コンタクトセンター)360度分析
クロスセル/アップセル
運用オペレーション
分析プラット フォーム ストレージ分析処理基盤
分析プラット フォーム ストレージ分析処理基盤
分析プラット フォーム ストレージ分析処理基盤
分析プラット フォーム ストレージ分析処理基盤
拡張
拡張
拡張
システム導入:
・設計
・構築
システム拡張#1:
・設計
・構築
・運用(拡張)
システム拡張#2:
・設計
・構築
・運用(拡張)
システム拡張#3:
・設計
・構築
・運用(拡張)
・運用(SW更新)
ビッグデータ分析導入・運用のハードル
Governance
Integration
Tools
Security
Data Access
Data Management
HDFS: Hadoop Distributed File System
YARN: Data Operating System
Falcon Atlas Sqoop Flume Kafka NFS (HDFS) WebHDFS (HDFS)Data Lifecycle & Governance
Data Workflow
Operations
Mahout Ambari User Views
Ranger Knox Atlas HDFS Encryption Ambari ZooKeeper Cloudbreak Oozie Administration Authentication Authorization Auditing Data Protection Provisioning, Managing, & Monitoring Scheduling Map Reduce Batch Pig Script Hive SQL Hbase Accumulo Phoenix NoSQL Storm Stream Solr Search Spark In-Mem Zeppelin
導入(設計・構築)
運用
多様な
コンポーネント
Hadoopを扱える専門技術者が不足
継続的な運用で必要になる拡張・アップグレードが困難
最適なコンポーネント構成がわからない
ビッグデータ分析を活用したビジネスケースの経験が不足
Hadoopを利用するための3つのポイント
Hadoopを扱える専門技術者が不足
継続的な運用で必要になる拡張・
アップグレードが困難
最適なコンポーネント構成がわから
ない
ビッグデータ分析を活用したビジネ
スケースの経験が不足
標準オペレーション
ソリューションモデル
標準プラットフォーム
16 © NEC Corporation 2017
NECの提案
“Data Platform for Hadoop” として
アプライアンス/サービスを提供
標準オペレーション
ソリューションモデル
標準プラットフォーム
データ活用の段階に合わせたHWアーキテ
クチャ選択
顧客の用途に最適なHadoopシステム構成
標準オペレーションを実現する3つの要素
事前検証済みビッグデータ分析基盤 Data Platform for Hadoop
すぐに分析を開始できるビッグデータ分析基盤と関連サービス
構造化データ
業務システム ERP/CRM SCM…非構造化データ
SNS センサーLog
システムログ準構造化データ
XML JSON 時系列 XML JSON設計・最適化済みのHDP基盤の提供
取り込み 加工 蓄積 関連付け統合 分析 可視化分析ツール
との連携
データフロー
連携
Red Hat
SAS
Tableau
etc.
18 © NEC Corporation 2017
データ活用の段階に合わせたHWアーキテクチャ選択
スモールスタート可
能なデータレイクソ
リューションを導入
蓄積データの容量/種
別の増加に合わせ、
Express5800を追加
しシステム拡張
AIを活用した高度分析のた
め、DX2000を追加し高いコ
ンピューティング性能を確保
コンピュート/
ストレージ拡張
コンピュート強化
Express5800
Express5800
Express5800
DX2000
既存データの
見える化
多様なデータに
基づく予測分析
AIを活用した
データドリブン
顧客の用途に最適なHadoopシステム構成
Data Platform for Hadoop
既存データ
RDBMS
Mainframe
EDW(*)
Application
IoT連携
Data System
Data Sources
RDBMS
EDW
MPP
SNS Sensors System Log Geospatial dataBI/BA
EDW 連携ツール
HDF
ソリューションモデルを設計/検証
データフロー
制御
既存データの見える化
20 © NEC Corporation 2017
標準オペレーションを実現する3つの要素
標準オペレーション
従来オペレーション
発生する
問題
事前検証
事前トレーニング
ツール
ドキュメント
実行者スキル
設計
構築
テスト
受入
作業期間を短縮
実行者
スキル
ドキュ
メント ツール
設計
構築
受入
事前検証
済み範囲
運用ライフサイクル全体をカバーするサービス
データの見える化
顧客満足度向上
(コンタクトセンター)360度分析
クロスセル/アップセル
分析プラット フォーム ストレージ分析処理基盤
分析プラット フォーム ストレージ分析処理基盤
分析プラット フォーム ストレージ分析処理基盤
分析プラット フォーム ストレージ分析処理基盤
拡張
拡張
拡張
システム導入:
・設計サービス
・構築サービス
システム拡張#1:
・設計サービス
・構築サービス
・拡張サービス
システム拡張#2:
・設計サービス
・構築サービス
・拡張サービス
システム拡張#3:
・設計サービス
・構築サービス
・拡張サービス
・SW更新サービス
システム運用ライフサイクル全体をカバーするサービス
活動事例紹介
Data Platform for Hadoopの開発における活動事例
▌
標準プラットフォーム開発
▌
ソリューションモデル開発
24 © NEC Corporation 2017
標準プラットフォーム開発の考え方
▌
構築・運用プロセスにおける課題の露払い
▌
安定性と性能の両立
▌
最新のHadoopディストリビューションへの早期対応
標準PF
標準プラットフォームのライフサイクル管理
ライフサイクルを考慮したサポート体制の構築
Life cycle 1
Life cycle 2
continuous support and keep improving
keep improving
Hadoop結合ツール
Hadoop
OS
HW
複数のライフサイクル
バージョン管理、ライフサイクル管理
アップグレード検証
標準PF
26 © NEC Corporation 2017
プラットフォーム最適化への取り組み
H/W, OS, Hadoopの各層、統合スタックとしての最適化設計・検証の実施
サーバ
OS
HDFS,YARN, MR2, Spark, etc.
Hive, Pig, etc.
安定稼動・性能改善を
目的としたチューニング
性能・機能観点
での検証の実施
設計
検証
ベンチマークツール
機能テストツール
カーネルチューニング
ハードウェアサイジング
パラメータチューニング
コンポーネントデザイン
標準PF
Hortonworks認定済みのプラットフォーム
プラットフォーム上で動作する機能と性能を事前に検証済み
Data Platform for Hadoop
28 © NEC Corporation 2017
性能検証:TPC-DSを使ったクエリ処理性能比較
▌
TCP-DS
大規模データを対象とした意思決定支援システムを実現するデータベースにおけ
るクエリ処理性能の計測
▌
使用ツール
https://github.com/hortonworks/hive-testbench
▌
実施概要
標準プラットフォーム構成(DX2000+RHEL+HDP2.6)における性能を検証
TPC-DSで規定された99種類のクエリのうち、ツールで対応している66種類の
クエリを実行
事例
Hive-tezエンジンでのクエリ応答性能 ORC vs Parquet
列指向データ構造の形式の違いによるクエリ応答性能を比較検証
0
0.5
1
1.5
2
ORC
Parquet
ORC
Parquet
1.6
1.0
5TBのデータに対するクエリ応答時間の平均時間差
応答性能
が高い
事例
30 © NEC Corporation 2017
Hive-tezエンジンでのクエリ応答性能比較 チューニング(1)
Hive-tezのパラメータチューニング(ORC - 5TBデータセット)
応答時間に影響を与えるパラメータ(A~E)を選定し、効果を検証
0
5
10
15
20
25
Config A Config B Config C Config D Config E
最短応答時間をたたき
出したクエリ数
Config Aが優勢
0
10000
20000
30000
Config A Config B Config C Config D Config E
全クエリの実行にかかった時間(秒)
Config Dが優勢
Hive-tezエンジンでのクエリ処理性能比較 チューニング(2)
0.9
0.95
1
1.05
1.1
1.15
1.2
Config A
Config B
Config C
Config D
Config E
応答性能
が高い
5TBのデータセット対するクエリ応答時間の平均時間差
(ORCのケースを1とした場合のクエリ処理時間の比率の平均値)
Config Aが最もパフォーマンスを出しやすい設定
1.0
1.07
1.16
1.06
1.01
事例
32 © NEC Corporation 2017
ソリューションモデル開発の考え方
提供価値の実現手段となる機能群の連携手法・運用方法をモデルとして確立
▌
Bigdata Journeyを実現するソリューションモデル
▌
機能要件・非機能要件を規定し設計と検証を実施
▌
パートナーソリューション連携
ソリューション
Bigdata Journey
3 Year
Start
Timeline
• 組織間
Data Lake
•
Deep Learning
デジタルトランス
フォーメーション
• リアルタイム分析
リスク管理
• 予測分析
• 不正検知
顧客管理
• 既存処理のオフロード
•
BI /
可視化
• カスタマー
360
度分析
• クロスセル/アップセル
Enterprise Data
Warehouse (EDW)
Optimazion
Predictive
Analytics
Real-Time Streaming
Analytics
Data-Driven
Transformation
Data Volume
32 TB 1 PB見える化/コスト削減
データドリブン
意思決定
ソリューション
34 © NEC Corporation 2017
各ステップで実現すべき要件と手段
EDW Optimization
(既存のEnterprise Data
Warehouseの強化)
テクノロジ
• 既存の
ETL
処理の
Haoop
基
盤へのオフロード
ビジネス
•
Hadoop
による
Data Lake
の
構築
• コスト削減
Predictive / Optimization
(Advanced Analyticsによるシ
ステムの強化)
テクノロジ
• 構造化データ、
SNS
等の
非構造かデータのシング
ルプラットフォームへの
取り込みと分析
ビジネス
• 高い洞察に富んだ事業予
測を行うための
Data
Lake
の強化
Real-Time Streaming
Analytics Model
(Stream Analyticsによるシステ
ムの強化)
テクノロジ
• センサーデータの取り込
みによるリアルタイムイ
ベントの分析
ビジネス
• リアルタイムに適切な意
思決定を行うことによる
事業機会損失の回避
Data-Driven
Transformation Model
( “Hub & Spoke” Analytics
による新たなビジネス機会
の発見)
• 構造データ、非構造
データを対象とした
バッチ、リアルタイム
処理機能の組織横断で
のシングルプラット
フォーム化
• 新たな事業機会の発見
と競争力の強化
ソリューション
EDW Optimizationからのスタート
3
4
2
1
EDW Optimization
(既存のEnterprise Data
Warehouseの強化)
Predictive / Optimization
(Advanced Analyticsによるシ
ステムの強化)
Real-Time Streaming
Analytics Model
(Stream Analyticsによるシステ
ムの強化)
Data-Driven
Transformation Model
( “Hub & Spoke” Analytics
による新たなビジネス機会
の発見)
36 © NEC Corporation 2017
DPHの導入 Step1:既存のETL処理のオフロード
Export
38 © NEC Corporation 2017
DPHの導入 Step2 リアルタイムデータの処理への組み込み
Export
New Insight
DPHの導入 Step3 蓄積データを価値化する分析・学習機構の導入
Export
事例
Analytic&
Learning Logic
Analytic
Tool
40 © NEC Corporation 2017
パートナーソリューション連携: VUPICO社、SAP HANA/Vora
ヒストリカルデータとリアルタイムデータをシームレスに関連付けて高
速分析できる End-to-End ソリューションを実現
パートナーソリューション連携: Syncsort社 DMX-h
Hadoopと連携する高速ETLエンジンを活用し、従来の構造化データと
IoTなど新しいソースの非構造化データをコスト効率よく蓄積・分析
EDW
RDBMS EDW MPPSyncsort
DMX-h
SNS センサー データ システム ログ 位置データETL
データソース
ホットデータ の高速処理
可視化
分析
業務データ メインフレームData Platform for Hadoop
MS Excel
Tableau
SAS
など長期データ蓄積
ソリューション
42 © NEC Corporation 2017
パートナーソリューション連携: IBMデータ分析ソリューション
IBM・Hortonworks とのパートナーシップに基づき、IBM社の
Hadoop向けデータ分析ミドルウェアを評価
標準オペレーション開発の考え方
プラットフォームと同様に運用におけるプロセスを標準化
▌
サービスに利用するドキュメント/プロセス/ツールを標準開発
▌
短期間で安定した成果を挙げるサービスとして提供
44 © NEC Corporation 2017
DPHサービス:構築サービス
標準化された構築サービスで導入期間を短縮
データ活用設計
HW・SWの
選定
構築サービスを利用した場合
チューニング
サイジング
アプリケーションの
開発と運用
データ活用設計
拡張性の設計
データ活用設計
アプリケーションの
開発と運用
プラットフォームの
の導入
プ
ラ
ッ
ト
フ
ォ
ー
ム
品
質
の
安
定
導
入
期
間
の
短
縮
個別SIの場合
プラットフォームの
テスト
プ
ラ
ッ
ト
フ
ォ
ー
ム
の
設
計
と
導
入
標準オペレーション
46 © NEC Corporation 2017