• 検索結果がありません。

PowerPoint プレゼンテーション

N/A
N/A
Protected

Academic year: 2021

シェア "PowerPoint プレゼンテーション"

Copied!
48
0
0

読み込み中.... (全文を見る)

全文

(1)

AI/IoTの導入に適したビッグデータ分析プラットフォーム

(Data Platform for Hadoop)とサービス

2017/10/10

(2)
(3)

講演者紹介

辻 篤史 <[email protected]>

製品企画・ビッグデータプラットフォーム開発チーム

専門:オペレーティングシステム、インフラ運用

山川 聡 <[email protected]>

製品アーキテクト・ビッグデータプラットフォーム開発チームリーダー

専門:分散コンピューティング、ストレージシステム

(4)

目次

1.

ビッグデータ分析の課題

2.

AI/IoTに適した分析プラットフォーム

3.

活動事例紹介

(5)
(6)

6 © NEC Corporation 2017

デジタルデータの拡大

4.4

ZB

2013

44

ZB

2020

Global Data

volume

CAGR

40

(7)

Hadoopを利用したビッグデータ分析

社会価値

実世界

サイバー世界

分析

対処

連携

モノ

環境

AI

Hadoop活用

IoT連携

AI活用

(8)

8 © NEC Corporation 2017

Hadoopの特長

 柔軟なデータフロー設計が可能

多様なデータの取り込み、データフローに応じた加工処理に柔軟に対応可能

 高いスケーラビリティ

ノード追加によりリニアにスケールアウト可能

 多様な製品・技術と親和性を持つエコシステム

様々な製品やデータ分析、データ処理、セキュリティ、ガバナンスなどに対応

した新技術との親和性を確保

 様々なデータに対応した統合プラットフォーム

構造化データ、セミ構造化データ、非構造化データを一つのプラットフォーム

で蓄積、処理可能

 多様なデータ処理が可能な標準プラットフォーム

ビッグデータの一括処理と分析のための繰り返し処理、バッチ処理とリアルタ

イム処理など多様な処理が可能

Hadoopエコシステム

・多様なコンポーネント

・多様なデータ処理

(9)

ビッグデータ活用の難しさ

ビッグデータ分析の要件(例)

• 非構造データに対応した

データ蓄積

• IoTと連携したリアルタイ

ムのデータ取り込み

• AIを活用した高度分析

Hadoopシステムの設計要素

• HWアーキテクチャ選択/

HWサイジング

• Hadoopコンポーネント/

パラメータの組み合わせ

• 外部システムとの連携

複雑な設計

複雑な要件

複雑なシステムとなるため、

要件の達成ステップを決める必要あり

(10)

10 © NEC Corporation 2017

データドリブン企業への段階的変革

3 Year

Start

Timeline

• 組織間

Data Lake

Deep Learning

デジタルトランス

フォーメーション

• リアルタイム分析

リスク管理

• 予測分析

• 不正検知

顧客管理

• 既存処理のオフロード

BI /

可視化

• カスタマー

360

度分析

• クロスセル/アップセル

Enterprise Data

Warehouse (EDW)

Optimazion

Predictive

Analytics

Real-Time Streaming

Analytics

Data-Driven

Transformation

Data Volume

32 TB 1 PB

見える化/コスト削減

データドリブン

意思決定

Bigdata Journey

(11)

Bigdata Journey 実現に必要な要素:ビッグデータ基盤観点

データの見える化 顧客満足度向上(コンタクトセンター) 360度分析 クロスセル/アップセル

データレイク

分析プラットフォー ストレージ

分析処理基盤

分析プラットフォー ストレージ

分析処理基盤

拡張

分析プラットフォー ストレージ

分析処理基盤

拡張

分析プラットフォー ストレージ

分析処理基盤

拡張

顧客 サーベイ 顧客行動 データ キャンペーン 結果データ 顧客属性 データ 顧客対応 データ 顧客購入 データ 製品データ 販売データ 顧客ID

(12)

12 © NEC Corporation 2017

Bigdata Journey 実現に必要な要素:運用観点

データの見える化

顧客満足度向上

(コンタクトセンター)

360度分析

クロスセル/アップセル

運用オペレーション

分析プラット フォーム ストレージ

分析処理基盤

分析プラット フォーム ストレージ

分析処理基盤

分析プラット フォーム ストレージ

分析処理基盤

分析プラット フォーム ストレージ

分析処理基盤

拡張

拡張

拡張

システム導入:

・設計

・構築

システム拡張#1:

・設計

・構築

・運用(拡張)

システム拡張#2:

・設計

・構築

・運用(拡張)

システム拡張#3:

・設計

・構築

・運用(拡張)

・運用(SW更新)

(13)

ビッグデータ分析導入・運用のハードル

Governance

Integration

Tools

Security

Data Access

Data Management

HDFS: Hadoop Distributed File System

YARN: Data Operating System

Falcon Atlas Sqoop Flume Kafka NFS (HDFS) WebHDFS (HDFS)

Data Lifecycle & Governance

Data Workflow

Operations

Mahout Ambari User Views

Ranger Knox Atlas HDFS Encryption Ambari ZooKeeper Cloudbreak Oozie Administration Authentication Authorization Auditing Data Protection Provisioning, Managing, & Monitoring Scheduling Map Reduce Batch Pig Script Hive SQL Hbase Accumulo Phoenix NoSQL Storm Stream Solr Search Spark In-Mem Zeppelin

導入(設計・構築)

運用

多様な

コンポーネント

Hadoopを扱える専門技術者が不足

継続的な運用で必要になる拡張・アップグレードが困難

最適なコンポーネント構成がわからない

ビッグデータ分析を活用したビジネスケースの経験が不足

(14)
(15)

Hadoopを利用するための3つのポイント

Hadoopを扱える専門技術者が不足

継続的な運用で必要になる拡張・

アップグレードが困難

最適なコンポーネント構成がわから

ない

ビッグデータ分析を活用したビジネ

スケースの経験が不足

標準オペレーション

ソリューションモデル

標準プラットフォーム

(16)

16 © NEC Corporation 2017

NECの提案

“Data Platform for Hadoop” として

アプライアンス/サービスを提供

標準オペレーション

ソリューションモデル

標準プラットフォーム

データ活用の段階に合わせたHWアーキテ

クチャ選択

顧客の用途に最適なHadoopシステム構成

標準オペレーションを実現する3つの要素

(17)

事前検証済みビッグデータ分析基盤 Data Platform for Hadoop

すぐに分析を開始できるビッグデータ分析基盤と関連サービス

構造化データ

業務システム ERP/CRM SCM…

非構造化データ

SNS センサー

Log

システムログ

準構造化データ

XML JSON 時系列 XML JSON

設計・最適化済みのHDP基盤の提供

取り込み 加工 蓄積 関連付け統合 分析 可視化

分析ツール

との連携

データフロー

連携

Red Hat

SAS

Tableau

etc.

(18)

18 © NEC Corporation 2017

データ活用の段階に合わせたHWアーキテクチャ選択

スモールスタート可

能なデータレイクソ

リューションを導入

蓄積データの容量/種

別の増加に合わせ、

Express5800を追加

しシステム拡張

AIを活用した高度分析のた

め、DX2000を追加し高いコ

ンピューティング性能を確保

コンピュート/

ストレージ拡張

コンピュート強化

Express5800

Express5800

Express5800

DX2000

既存データの

見える化

多様なデータに

基づく予測分析

AIを活用した

データドリブン

(19)

顧客の用途に最適なHadoopシステム構成

Data Platform for Hadoop

既存データ

RDBMS

Mainframe

EDW(*)

Application

IoT連携

Data System

Data Sources

RDBMS

EDW

MPP

SNS Sensors System Log Geospatial data

BI/BA

EDW 連携ツール

HDF

ソリューションモデルを設計/検証

データフロー

制御

既存データの見える化

(20)

20 © NEC Corporation 2017

標準オペレーションを実現する3つの要素

標準オペレーション

従来オペレーション

発生する

問題

事前検証

事前トレーニング

ツール

ドキュメント

実行者スキル

設計

構築

テスト

受入

作業期間を短縮

実行者

スキル

ドキュ

メント ツール

設計

構築

受入

事前検証

済み範囲

(21)

運用ライフサイクル全体をカバーするサービス

データの見える化

顧客満足度向上

(コンタクトセンター)

360度分析

クロスセル/アップセル

分析プラット フォーム ストレージ

分析処理基盤

分析プラット フォーム ストレージ

分析処理基盤

分析プラット フォーム ストレージ

分析処理基盤

分析プラット フォーム ストレージ

分析処理基盤

拡張

拡張

拡張

システム導入:

・設計サービス

・構築サービス

システム拡張#1:

・設計サービス

・構築サービス

・拡張サービス

システム拡張#2:

・設計サービス

・構築サービス

・拡張サービス

システム拡張#3:

・設計サービス

・構築サービス

・拡張サービス

・SW更新サービス

システム運用ライフサイクル全体をカバーするサービス

(22)
(23)

活動事例紹介

Data Platform for Hadoopの開発における活動事例

標準プラットフォーム開発

ソリューションモデル開発

(24)

24 © NEC Corporation 2017

標準プラットフォーム開発の考え方

構築・運用プロセスにおける課題の露払い

安定性と性能の両立

最新のHadoopディストリビューションへの早期対応

標準PF

(25)

標準プラットフォームのライフサイクル管理

ライフサイクルを考慮したサポート体制の構築

Life cycle 1

Life cycle 2

continuous support and keep improving

keep improving

Hadoop結合ツール

Hadoop

OS

HW

複数のライフサイクル

バージョン管理、ライフサイクル管理

アップグレード検証

標準PF

(26)

26 © NEC Corporation 2017

プラットフォーム最適化への取り組み

H/W, OS, Hadoopの各層、統合スタックとしての最適化設計・検証の実施

サーバ

OS

HDFS,YARN, MR2, Spark, etc.

Hive, Pig, etc.

安定稼動・性能改善を

目的としたチューニング

性能・機能観点

での検証の実施

設計

検証

ベンチマークツール

機能テストツール

カーネルチューニング

ハードウェアサイジング

パラメータチューニング

コンポーネントデザイン

標準PF

(27)

Hortonworks認定済みのプラットフォーム

プラットフォーム上で動作する機能と性能を事前に検証済み

Data Platform for Hadoop

(28)

28 © NEC Corporation 2017

性能検証:TPC-DSを使ったクエリ処理性能比較

TCP-DS

大規模データを対象とした意思決定支援システムを実現するデータベースにおけ

るクエリ処理性能の計測

使用ツール

https://github.com/hortonworks/hive-testbench

実施概要

標準プラットフォーム構成(DX2000+RHEL+HDP2.6)における性能を検証

TPC-DSで規定された99種類のクエリのうち、ツールで対応している66種類の

クエリを実行

事例

(29)

Hive-tezエンジンでのクエリ応答性能 ORC vs Parquet

列指向データ構造の形式の違いによるクエリ応答性能を比較検証

0

0.5

1

1.5

2

ORC

Parquet

ORC

Parquet

1.6

1.0

5TBのデータに対するクエリ応答時間の平均時間差

応答性能

が高い

事例

(30)

30 © NEC Corporation 2017

Hive-tezエンジンでのクエリ応答性能比較 チューニング(1)

Hive-tezのパラメータチューニング(ORC - 5TBデータセット)

応答時間に影響を与えるパラメータ(A~E)を選定し、効果を検証

0

5

10

15

20

25

Config A Config B Config C Config D Config E

最短応答時間をたたき

出したクエリ数

Config Aが優勢

0

10000

20000

30000

Config A Config B Config C Config D Config E

全クエリの実行にかかった時間(秒)

Config Dが優勢

(31)

Hive-tezエンジンでのクエリ処理性能比較 チューニング(2)

0.9

0.95

1

1.05

1.1

1.15

1.2

Config A

Config B

Config C

Config D

Config E

応答性能

が高い

5TBのデータセット対するクエリ応答時間の平均時間差

(ORCのケースを1とした場合のクエリ処理時間の比率の平均値)

Config Aが最もパフォーマンスを出しやすい設定

1.0

1.07

1.16

1.06

1.01

事例

(32)

32 © NEC Corporation 2017

ソリューションモデル開発の考え方

提供価値の実現手段となる機能群の連携手法・運用方法をモデルとして確立

Bigdata Journeyを実現するソリューションモデル

機能要件・非機能要件を規定し設計と検証を実施

パートナーソリューション連携

ソリューション

(33)

Bigdata Journey

3 Year

Start

Timeline

• 組織間

Data Lake

Deep Learning

デジタルトランス

フォーメーション

• リアルタイム分析

リスク管理

• 予測分析

• 不正検知

顧客管理

• 既存処理のオフロード

BI /

可視化

• カスタマー

360

度分析

• クロスセル/アップセル

Enterprise Data

Warehouse (EDW)

Optimazion

Predictive

Analytics

Real-Time Streaming

Analytics

Data-Driven

Transformation

Data Volume

32 TB 1 PB

見える化/コスト削減

データドリブン

意思決定

ソリューション

(34)

34 © NEC Corporation 2017

各ステップで実現すべき要件と手段

EDW Optimization

(既存のEnterprise Data

Warehouseの強化)

テクノロジ

• 既存の

ETL

処理の

Haoop

盤へのオフロード

ビジネス

Hadoop

による

Data Lake

構築

• コスト削減

Predictive / Optimization

(Advanced Analyticsによるシ

ステムの強化)

テクノロジ

• 構造化データ、

SNS

等の

非構造かデータのシング

ルプラットフォームへの

取り込みと分析

ビジネス

• 高い洞察に富んだ事業予

測を行うための

Data

Lake

の強化

Real-Time Streaming

Analytics Model

(Stream Analyticsによるシステ

ムの強化)

テクノロジ

• センサーデータの取り込

みによるリアルタイムイ

ベントの分析

ビジネス

• リアルタイムに適切な意

思決定を行うことによる

事業機会損失の回避

Data-Driven

Transformation Model

( “Hub & Spoke” Analytics

による新たなビジネス機会

の発見)

• 構造データ、非構造

データを対象とした

バッチ、リアルタイム

処理機能の組織横断で

のシングルプラット

フォーム化

• 新たな事業機会の発見

と競争力の強化

ソリューション

(35)

EDW Optimizationからのスタート

3

4

2

1

EDW Optimization

(既存のEnterprise Data

Warehouseの強化)

Predictive / Optimization

(Advanced Analyticsによるシ

ステムの強化)

Real-Time Streaming

Analytics Model

(Stream Analyticsによるシステ

ムの強化)

Data-Driven

Transformation Model

( “Hub & Spoke” Analytics

による新たなビジネス機会

の発見)

(36)

36 © NEC Corporation 2017

(37)

DPHの導入 Step1:既存のETL処理のオフロード

Export

(38)

38 © NEC Corporation 2017

DPHの導入 Step2 リアルタイムデータの処理への組み込み

Export

New Insight

(39)

DPHの導入 Step3 蓄積データを価値化する分析・学習機構の導入

Export

事例

Analytic&

Learning Logic

Analytic

Tool

(40)

40 © NEC Corporation 2017

パートナーソリューション連携: VUPICO社、SAP HANA/Vora

 ヒストリカルデータとリアルタイムデータをシームレスに関連付けて高

速分析できる End-to-End ソリューションを実現

(41)

パートナーソリューション連携: Syncsort社 DMX-h

Hadoopと連携する高速ETLエンジンを活用し、従来の構造化データと

IoTなど新しいソースの非構造化データをコスト効率よく蓄積・分析

EDW

RDBMS EDW MPP

Syncsort

DMX-h

SNS センサー データ システム ログ 位置データ

ETL

データソース

ホットデータ の高速処理

可視化

分析

業務データ メインフレーム

Data Platform for Hadoop

MS Excel

Tableau

SAS

など

長期データ蓄積

ソリューション

(42)

42 © NEC Corporation 2017

パートナーソリューション連携: IBMデータ分析ソリューション

 IBM・Hortonworks とのパートナーシップに基づき、IBM社の

Hadoop向けデータ分析ミドルウェアを評価

(43)

標準オペレーション開発の考え方

プラットフォームと同様に運用におけるプロセスを標準化

サービスに利用するドキュメント/プロセス/ツールを標準開発

短期間で安定した成果を挙げるサービスとして提供

(44)

44 © NEC Corporation 2017

DPHサービス:構築サービス

標準化された構築サービスで導入期間を短縮

データ活用設計

HW・SWの

選定

構築サービスを利用した場合

チューニング

サイジング

アプリケーションの

開発と運用

データ活用設計

拡張性の設計

データ活用設計

アプリケーションの

開発と運用

プラットフォームの

の導入

個別SIの場合

プラットフォームの

テスト

標準オペレーション

(45)
(46)

46 © NEC Corporation 2017

Center of Excellence for Analytics Platforms and Solutions

インドにビッグデータ分析ソリューションの専門組織を設立

DPH関連ビジネスの客先提案

データ分析、運用サポート、技術支援

グローバル市場に対して一元的なサー

ビスを提供

プレスリリース(2017年6月)

CoE : Center of Excellence

(47)

NEC Global Serviceの展開

プラットフォームの導入~運用において発生するイベントに対する支援を

End to Endで提供

Business Consulting

Data Engineering and

Analytics Modeling

Market Research

GTM Strategies

Business

Product Design

and

Development

Customization

Business

Consulting

Data Engineering

and Analytics

Solution Design

System Integration

Solution

Identification and

Design

(48)

参照

関連したドキュメント

実験の概要(100字程度)

論点 概要 見直しの方向性(案) ご意見等.

今回、新たな制度ができることをきっかけに、ステークホルダー別に寄せられている声を分析

このような環境要素は一っの土地の構成要素になるが︑同時に他の上地をも流動し︑又は他の上地にあるそれらと

(5)財務基盤強化 ④需給と収支の見通し ⅱ)料金改定 【値上げの必要性】.

内容」

開発途上国では女性、妊産婦を中心とした地域住民の命と健康を守るための SRHR

解析実行からの流れで遷移した場合、直前の解析を元に全ての必要なパスがセットされた状態になりま