IoTを⾒据えたデータ活⽤はDataLakeから始める
〜Pivotal+Isilonで実現するDataLakeの世界〜
2015年10月15日
東京エレクトロンデバイス(株)
CNカンパニー CN第二営業本部
コーポレートアカウント営業部
住友 義典
当社のあゆみ
1965年
東京エレクトロンで電子部品ビジネスを開始
1998年
東京エレクトロンの電⼦部品事業(現:半導体及び電⼦デバイス事業)が分離・独⽴
2003年
東京証券取引所 市場第2部上場
2006年
東京エレクトロン からコンピュータネットワーク事業(現:コンピュータシステム関連事業)を承継
2010年
東京証券取引所 市場第1部上場
約半世紀にわたる歴史と経験を有する専門商社
東京エレクトロングループから分離・独⽴
半導体製造装置メーカー
東京エレクトロン
専門商社
東京エレクトロン デバイス
コンピュータシステム関連 (CN)事業半導体及び電子デバイス
(EC)事業
EC事業
CN 事業
1998年独⽴
2005 2008 2009 2010 2012 2013 2014 取扱開始: 2004年10月 導入実績: 80社以上 取扱開始: 2004年10月 導入実績: 150社以上 取扱開始: 2008年10月 導入実績: 20社
EMC ISILON
EMC DATA DOMAIN
EMC GREENPLUM
2010年9月EMC社製品に 2010年1月EMC社製品に 2010年12月EMC社製品に
EMC社DataDomain、Isilon、Greenplum製品をEMC社買収前より国内販
売・サポート提供を実施(ノウハウ蓄積歴国内最⻑)
日本全国のサポート拠点
4製品を軸にした複合ソリューションの提供
EMC社と東京エレクトロンデバイス(株)
EMC VNX
取扱開始: 2012年4月 導入実績: 10社以上データ活用の変化
1990年代
2000年前半
2000年後半
2010年〜
データ活用
対象データ
プラットフォーム 帳票・レポートを目的としたデータ集計 傾向把握を目的とした集計・分析 予測のためのデータ分析・マイニング 基幹システム上のデータの活用 (構造化データ) 基幹系・情報系システム上のデータの活用(構造化データ) 基幹系・情報系システム上+ログ・SNS・センサーなどのデータの活用 (構造化+非構造化データ) 環境 CPU H/W: MEM HDD NIC データ処理 オンプレミス クラウドSingle Socket/Core Multi Socket/Core(2Core・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・10Core) xMB xxMB xxxMB xGB xxGB xxxGB xTB
xxGB xxxGB x TB
Kbps Mbps Gbps xxGbps
変化要因
テクノロジー革新
H/W: 性能・容量の向上、規模を伴わないデータ処理基盤の構築が容易に データ処理ソフト: RDMBSを中⼼としたデータ処理から新しいテクノロジーの登場により、データ処理の柔軟性が向上 実装環境: インターネット進化と仮想化技術により、利⽤環境の選択が可能に 分析手法: 学術的な研究が中心となっていたものをベースに、ビジネス活用する取組みが強化サービスの多様化
・デジタル化によるデータ種類が豊富に ・第三者による既存ビジネスを利⽤したビジネスの登場データ活用ニーズ
・データ分析を基にしたビジネスチャンスの発掘 (Webサービスを中心とした成功者の登場)相互
影響
テクノロジー革新
CPU: • マルチコア化 • クロック周波数アップ • 帯域幅の増加 ストレージ ・⼤容量化 ・Flashの登場 パ フ ォ ー マ ン ス 1990 1995 2000 2005 2010 メモリ: • ⼤容量化 • 帯域幅の増加 Hadoop 並列分散 処理 スケール アウト KVS RDBテクノロジー革新
H/W: 性能・容量の向上、規模を伴わないデータ処理基盤の構築が容易に データ処理ソフト: RDMBSを中⼼としたデータ処理から新しいテクノロジーの登場により、データ処理の柔軟性が向上 実装環境: インターネット進化と仮想化技術により、利⽤環境の選択が可能に 分析手法: 学術的な研究が中心となっていたものをベースに、ビジネス活用する取組みが強化 仮想化 クラウド クラウドデータ活用基盤への考え方の変化
DWHの定義: 履歴データを蓄積し過去データから傾向等を⾒える化するための基盤
基幹系
情報系
基幹システム上で稼動するアプリケー ションが利⽤しやすいDB (必ずしも時系列・単⼀TBLではない) 複数のデータを一元集約し、時間・人・もの など軸を変えて分析を⾏う <DWH・データ分析Keyword時代> ・基幹システムに存在するデータだけでは、大規模データ化(TB 超え)するケースは少ない ・DWHシステムへの投資判断が難しく大規模環境の用意を するケースが少ない といった点から、DWH本来の定義を持つDWHを利⽤している企 業は少ない <ビッグデータ・非構造化・IoTといったKeywordの登場> ・テクノロジー革新とデータ活用によるビジネス成功ケースの登 場より、履歴データの蓄積への注⽬ ・⾮構造化データの利⽤への注⽬ により、データ活用基盤の大規模化がスタート
クラウドかオンプレミスか
・共通項はSmall Start: 履歴の蓄積や活⽤対象データ選択は、製品選定タイミングだけでは判断が付かないため
・環境選定時の注意ポイント
‐ 環境: クラウド or オンプレミス >分析基盤サービス料のみならず、通信費⽤+蓄積(i/o)との課⾦ >想定されるシステム規模(データ容量) ‐ オンプレミス: アプライアンス or IAサーバー+ソフトウェア >想定されるシステム規模(データ容量) >システムの可搬性 ‐ クラウド: SaaS or IaaS+ソフトウェア >分析基盤すべてをクラウド化 >インフラのみをクラウド化<弊社⾒解>
クラウド・オンプレミスでも、
・データ量増加、データタイプ増
・処理要件の多様化
・性能要件
・HWテクノロジー革新
といったシステムとしての柔軟性を求められる事が
多いため、柔軟性を意識した製品選定が必要
テクノロジーに対する要求
構造化
データ 非構造化データ
SQL MapReduce,Hive,Pig etc
ETL, CEP(SQL) Flume, Fluentd, Sqoop, Storm, S4 etc
DWH Hadoop等
ビッグデータの構成要素である非構造化
データへの注目が高まる中で、様々なアプ
ローチのオープンソースベーステクノロ
ジーが登場
構造化 データ 非構造化データ SQL,(MapReduce, Hive, Pig etc)
SQL
Flume, Fluentd, Sqoop, Storm, S4 etc Hadoop等
オープンソーステクノロジーを活かしながら枯
れた技術であるSQLインターフェースを持つ、
データの⼀元管理が可能な基盤ソリューション
の登場
データ活⽤のニーズが⾼まるに伴い、データ量とユーザー数が増加
最新テクノロジーでの活用のみならず、多くのユーザーが活用できる基盤が求められる
DataLake x DWH
DataLake= より⾃由に、柔軟に、迅速にビジネスで利⽤可能なデータ分析基盤
(DWHはDataLakeの一部)
Hadoopとは?
HDFS
(Hadoop Distributed File System)
分散ファイルシステム
MapReduce
⼤規模分散処理フレームワーク
データをブロックに分割して複数のサーバに分
散配置/3つのレプリカを作成
Map/Reduceというシンプルな処理の組み合
わせで、HDFS上にあるデータの分散処理を⾏
う汎用的なフレームワーク
データをためる
データを加工する
2つの分散アーキテクチャーを持つコンポーネントで構成させる
Hadoopはみんなで使えるか?
非構造化データ アクセスログ メール Webコンテンツ M2M 音声 画像・映像 SNS 売上情報 顧客情報 生産情報 データソース データ蓄積・処理基盤HDFS
Analytics Apps Mobile Apps BI/BA File Access Map Reduce アプリケーション Flume, Fluentd, Sqoop, Storm, S4 etc MapReduce, Hive, Pig Drill 構造化データ
Hadoopを全社データ活用基盤とする場合の壁
‐ データ取り込み ・テクノロジー: 様々な技術が存在 (ただし、技術スキルが必要) ・取り込み: 取り込み対象データの選定、取り込みと格納方法の検討 ‐ データ活用 ・テクノロジー: HDFSへアクセス可能なインターフェースの増加 (ただし、技術スキルが必要) ・汎用アプリケーション: SQLを利⽤する製品が多いHadoop≠DataLake
DataLakeの要素である、非構造化データを含めた データ蓄積・処理基盤の構築は可能だか、 ・インターフェースの汎用性 ・あらゆるデータの蓄積 という観点で利便性にかける要素が出てくるPivotalとIsilonのDataLake
Data Lake
データ処理基盤の基盤要素となHDFSにデータを蓄積 あらゆるデータ・要件に応じて処理エンジンを使い分けるData Lake
インターフェースを多く持ち。データ活用対象となるデータを一元管 理を実現するOneFSにデータ蓄積 集約したデータをHDFS利⽤可能とし分析対象データにすること が可能 非構造化データ アクセスログ メール Webコンテンツ M2M 音声 画像・映像 SNS 売上情報 顧客情報 生産情報 データソース データ蓄積・処理基盤 HDFS Analytics Apps Apps Mobile Apps BI/BA File Access ReduceMap Reduce アプリケーション Flume, Fluentd, Sqoop, Storm, S4 etc MapReduce, Hive, Pig Drill 構造化データPivotal社(2013年4月1⽇設⽴)
~次世代エンタープライズPaaSの提供~
2013年3億ドル
2017年10億ドル
出資⽐率
CEO ポール・マリッツ
従業員数
1,600人
売り上げ規模(計画)
Pivotal HD+HAWQ
Pivotal HD
–
Apache Hadoop ベース
–
処理全体のデータスループット効率化:YARN
–
運⽤・管理性: スナップショット/HDFS Federation/NFS v3によるデータアクセス
–
Advanced Database Services(HAWQ)
–
性能:HDFSに対する標準SQLによる⾼速クエリ処理
–
連携:Hive, Hbase, Avro等 Hadoop データとの連携
–
仮想化・エンタープライズストレージ対応
–
Hadoop構成の VMWare 上での最適化や Isilonとの連携
HDFS
HBase
Pig, Hive, Mahout
Map Reduce Sqoop Flume リソース管理 & ワークフロー Yarn Zookeeper Apache Oozie Pivotal HD 追加機能 Command Center コンフィグ デプロイ モニター 管理 HVE Pivotal HD Enterprise Xtension フレームワーク サービスカタログ オプティマイザクエリ ダイナミック・パイプライニング ANSI SQL + アナリティクス HAWQ アドバンスド データベースサービス
HAWQ≒GreenplumDB
標準 SQL 対応
堅牢なクエリオプティマイザ
ローストア・カラムストア両方への対応
圧縮
分散格納
マルチレベルパーティショニング
パラレルーロード・アンロード
高速データ再分散
SELECT
INSERT
JOIN
統計解析関数(MADlib)
ビュー
外部表
リソースマネジメント
セキュリティ
認証
管理・監視
ODBC/JDBC対応
HAWQ: Pivotal社が10年にわたり開発をしてきたGreenplumDBをHadoop⽤に改良
GreenplumDBの⼤半の機能が利⽤可能
SQLonHadoop/PivotalHD+HAWQの必要性
BI Report Mining Map Reduce Hive/ Drill SQL SQL SQL Map ReduceHive/Drill HDFS HBase Hive Map Reduce Sqoop Flume リソース管理 & ワークフ ロー Yarn Zookeep er Zookeep er Oozie Drill Apache Hadoop Apache Hadoop
BI Report Mining Map Reduce Hive/ Drill SQL SQL SQL Map ReduceHive/Drill HDFS HBase Hive Map Reduce Sqoop Flume リソース管理 & ワークフ ロー Yarn Zookeep er Zookeep er Oozie Drill Pivotal HD+HAWQ Pivotal HD+HAWQ HAWQ
SQLonHadoop/PivotalHD+HAWQにより、
アプリケーションやユーザーのスキルセットによりデータ活用に制限が発生しない、
データ分析基盤の構築が可能
EMC Isilon
高い拡張性と可用性を持つスケールアウトNAS
全ノードアクティブで稼働するコントローラーと独自FSのOneFSにより複数ノードを
ワンボリュームで管理により、性能・容量双⽅のスケールアウトが可能
・・・
・・・
OneFS
コントローラー コントローラー コントローラー コントローラー コントローラー コントローラー コントローラー コントローラー最大20PBまで拡張可能
最大N+4の保護レベルを実現
1つのファイルを分割配備する機構により、高い性能と保護レベルを提供
最大20PBをもN+4で保護
Isilon スケールアウトNAS機能
InsightIQ 性能監視とファイルシステム分析 SmartPools 単一ボリューム内でプール化 単一ボリューム内の ファイル単位で プールに配置 SyncIQ 高速リプリケーション SnapshotIQ フレキシブルなスナップショット サブディレクトリ単位で スナップショット SmartConnect 負荷分散&フェイルオーバ SmartQuotas クオータ管理 ポリシーベースの負荷分散 NFSフェイルオーバ N:M ノードで 非同期のファイル複製 ユーザ、グループ、サブ ディレクトリ単位でクォータ パフォーマンスの監視と ファイルシステム分析 SmartLockWORM(Write Once – Read Many)機能
SmartDedupe データの重複排除 データの重複排除による 容量とコストの効果 WORMデータ保護により、 過失やデータ変更や削除を防⽌
Isilon DataLake
FILE
FILE
FILE
Data Lake : データ活⽤対象となるデータを⼀元管理を実現するOneFSにデータを蓄積
通常のHadoopアーキテクチャー
Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node
Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node
Name Node
R(RHIPE)
NameNode
2
ndNameNode
Job Tracker
Task Tracker
DataNode
Pig
Mahout
Hive
HBase
多くの処理プロセスと実データが分散配置
Isilon+Hadoopアーキテクチャー
Compute Node Compute Node Compute Node
Compute Node Compute Node Compute Node
R(RHIPE)
NameNode
Job Tracker
Task Tracker
DataNode
Pig
Mahout
Hive
HBase
Name Node Name Node Name Node Name Node D at a N od e
処理プロセス(Compute)とデータ領域(Name+DataNode)を別配置
Hadoop関連すべてのコンポーネントの冗⻑化
Pivotal HD&HAWQ+Isilon
HAWQ HAWQ HAWQ
HAWQ HAWQ HAWQ
Name Node Name Node Name Node Name Node D at a N od e
EMC ISILON
R(RHIPE)
NameNode
Job Tracker
Task Tracker
DataNode
Pig
Mahout
Hive
HAWQ
分散処理データベース
分散ファイルシステム
Pivotal+Isilonはみんなで使える!
非構造化データ アクセスログ メール Webコンテンツ M2M 音声 画像・映像 SNS 売上情報 顧客情報 生産情報 データソース データ蓄積・処理基盤 Analytics Apps Mobile Apps BI/BA File Access Map Reduce アプリケーション 構造化データHDFS
HDFS CIFS NFS FTP HTTP REST Object SQL MapReduce Hive Pig Drill
Pivotal+Isilon=DataLakeで全社データ活用基盤とする場合の壁
‐ データ取り込み ・テクノロジー: 従来から利⽤されているファイルアクセス⽅法の利⽤が可能 ・取り込み対象データ: 単純なファイル格納なため、とりあえずの格納が可能 ‐ データ活用 ・テクノロジー: HDFSアクセス用言語のみならず、SQLインターフェースの利⽤が可能 ・汎用アプリケーション: そのまま利⽤可能Pivotal+Isilon=DataLake
DataLakeの要素である、非構造化データを含めた データ蓄積・処理基盤であり、 ・インターフェースの汎用性 ・あらゆるデータの蓄積 を兼ね備えた環境を実現Hadoop活用を始める2つアプローチ
BI Report DB/DWHSQL on Hadoopスタートのアプローチ
売上情報 顧客情報 生産情報EMC ISILON
Mining Map Reduce Hive/Drill AccessFile
アクセスログ メール Webコンテンツ M2M 音声 SNS
ビジネス・アプリケーション
In
-M
em
o
ry
HBase・Drill etc Step1 既存DB/DWHの一部もしくは新規分析要件用にSQL on Hadoopを構築 Step2 非構造化データの取り込み、活用のTry&Error開始 Step3 将来予測分析の開始 Step4 非構造化データの効率的なデータ処理フレームワーク の活用 Step5 データ容量増、性能向上の観点から効率的な拡張 とより多くの種類を用意に取り込みでき、ファイルアク セスも可能な環境を構築 Step6 発生したデータをリアルタイムにビジネス活用をできる 基盤の導入Hadoop活用を始める2つアプローチ
ファイルストレージスタートのアプローチ
BI Report DB/DWH 売上情報 顧客情報 生産情報EMC ISILON
Mining Map Reduce Hive/Drill AccessFile
アクセスログ メール Webコンテンツ M2M 音声 SNS
ビジネス・アプリケーション
In
-M
em
o
ry
HBase・Drill etc Step1 分析活用対象となり得るデータを格納できるファイルサー バーの導入 構造化データ・非構造化データの投入 Step2 SQL on Hadoopの導入、データ活用の開始 Step3 将来予測分析の開始 Step4 非構造化データの効率的なデータ処理フレームワーク の活用 Step5 発生したデータをリアルタイムにビジネス活用をできる 基盤の導入何から始めるか?
データ活⽤は、ビジネス貢献を実現するために⾏う
情報の共有・⾒えるかだけで不⼗分
ビジネスにつながるアプリケーションや業務への連携が必要
と、良く聞くけど、いったいどこから始めれば
いいんだろう。。。
データ分析して、業務生かすといわれて
も。。。
実はやっているデータ活用
~課題が多く運用に乗せにくい~
例えば、 「新ソリューションの展開のため、プロモーションを実施し案件創出を⾏ないたい」 「A業界のB社に採用された製品を同業他社に展開したい」 「新しい製品のプロモーションに最適なイベントを開催したい」 etcセールスプロモーション
マーケティング
社内の顧客DB 取引実績 過去に実施したセミナー 出席者リスト 過去に出展したイベント 集客リスト 過去に実施したWeb マーケティングリスト 業界企業情報 CRM 受発注システム ファイルサーバー ファイルサーバー 個人PC⾒るデータ
所在
入手データ形式
1つのExcelにデータを集約し、データの整 形を⾏い、 ・傾向把握 ・ターゲッティング を⾏う 課題点 ・データ存在箇所が散在しているため、デー タ収集時点で負荷が高い ・システムによってはデータ⼊⼿不可 ・集約したExcelのアウトプットの共有は簡 単だが、関連データの共有が難しいファイルシステムの利⽤
複数システムのデータを集約するのに便利な機構は、ファイルサーバー ファイルサーバーにデータを集約する仕組みにすることで、 ・最新データへの更新 ・データの追加 ・データの共有 が容易にファイルサーバー
社内の顧客DB 取引実績 過去に実施したセミナー 出席者リスト 過去に出展したイベント 集客リスト 過去に実施したWeb マーケティングリスト 業界企業情報 CRM 受発注システム ファイルサーバー ファイルサーバー 個人PC Web⾒るデータ
所在
入手データ形式
ファイルサーバー
課題点 ・データ存在箇所が散在しているため、デー タ収集時点で負荷が高い ・システムによってはデータ⼊⼿不可 ・集約したExcelのアウトプットの共有は簡 単だが、関連データの共有が難しい ・データの最新化、追加が難しい これらのデータを集計・ 分析できれば、 運用のしやすい基盤にIsilonを利⽤するとHadoopが使える
ファイルサーバーとしての利⽤に加えて、HDFS(Hadoop)連携が可能
Isilon
社内の顧客DB 取引実績 過去に実施したセミナー 出席者リスト 過去に出展したイベント 集客リスト 過去に実施したWeb マーケティングリスト 業界企業情報 CRM 受発注システム ファイルサーバー ファイルサーバー 個人PC⾒るデータ
所在
入手データ形式
N FS /C IF S /F TP / H TT P HDFS BI/レポーティング ツールからアクセスで きればさらに利便性 の高い基盤にPivotalHD/HAWQの導入
みんなで使えるDataLake基盤を実現
PivotalHD/HAWQ+Isilon
社内の顧客DB 取引実績 過去に実施したセミナー 出席者リスト 過去に出展したイベント 集客リスト 過去に実施したWeb マーケティングリスト 業界企業情報 CRM 受発注システム ファイルサーバー ファイルサーバー 個人PC Web⾒るデータ
所在
入手データ形式
慣れ親しんだ、汎用性の高い インターフェースを備えたDataLake N FS /C IF S /F TP / H TT P HDFSPivotal+Isilon=DataLakeは
データ活用への近道
データ活用基盤構築までのStep比較
DWH、Hadoop基盤の構築
DataLake(Pivotal+Isilon)の構築
データ活用基盤の 要件を定義 ビジネスメリット、 採算性の検討 要件整理 システム化検討 方式・運用検討 製品調査・検討 ベンダー・業者調査・選定 要件に⾒合うシ ステムの実現方 法検討 利⽤・運⽤間tね からシステム化 の方式を検討 要件に⾒合った製 品・サービスの調査 構築・サポート可能なベンダー・業 者の選定 導入 システム構築、 実運用の監視 運用観点での実現性のレビュー・変更等 要件整理 システム化検討 製品調査・検討 導入 ファイルサーバー 導入としてスター ト可能 同時/将来 SQLonHadoop の実装によりデー タ活用環境に。 ファイルサーバー: EMC Isilon SQL on Hadoop: PivotalHD+HAWQEMC ISILON
PivotalHD・HAWQ+EMC Isilon取扱い
東京エレクトロンデバイス製品取扱い経歴
Pivotal製品
EMC Isilon製品
Pivotal GreenplumDB製品で培ったH/Wとセットでご提供しサポート提 供(パッケージ)ノウハウをベースに、PivotalHD製品でも提供。 概歴 ・GreenplumDB製品: 2008年10月~ ・GreenplumDBパッケージ: 2010年4月~ ・PivotaHD製品: 2014年4月~ ・PivotalHDパッケージ: 2014年4月~ Pivotal社連携 ・共同提案 ・サポート連携 Pivotal社のリモートサポートも含めた連携スキームあり EMC社買収前のIsilon Systems社製品時より、取扱い 日本全国にオンサイト対応拠点有 概歴 ・2004年10月より取扱い開始 ・2010年12月EMC社による買収後、EMC社パートナーとして販 売・サポート継続中 ・2014年4月~: Hadoop連携ソリューション強化 EMC社連携 ・共同提案 ・サポート連携 EMC社のリモートサポートを含めた連携スキームあり
PivotalHD・HAWQ(ソフトウェア+HW)+Isilonのワンストップサポートをご提供致します
ワンストップサポートスキーム+ノウハウ Pivotal社とのサポート連携スキーム 10年におよぶ製品・サポートノウハウEMC社とのサポート連携スキーム 33TED DataLake パッケージ
TED Pivotal HAWQパッケージ
・・・ 性能・ユーザー数の面で拡張性も考慮した バランスの取れたH/Wを選定 EMC Isilon 性能・容量の観点からモデルを選択可能 スタンダード X410 スモールスタートX210 パフォーマンスS210