シスコシステムズ合同会社
Big Data
ウェビナー
シリーズ
ビッグデータの中心的技術Hadoopを知る
期間: 2015年3月11日〜7月15日 毎週水曜日 時間:基本 夕方30分間(16:00〜17:00の間) 対象:シスコ パートナー様、シスコ製品ユーザ様 スピーカー:シスコ社員、エコ パートナー様 目的:ビッグデータ初心者に対してビッグデータの一般知識、 製品知識をお伝えする。 また、シスコの製品とシスコ エコ パートナー の組み合わせで実現できる ビッグデータ&IoEソリューションについて言及する。
Big Data ウェビナー シリーズ
ビッグデータ ウェビナー シリーズ予定
*現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます。 3/11 ビッグデータ を取り巻く ビジネスとは シスコ パートナー様にとってビッグデータってなに? 3/18 ビッグデータってどういう技術で成り立っているの? 3/25 シスコ ビッグデータ ポートフォーリオ 4/8 ビッグデータ の中心的技術 Hadoopを知る Hadoopベーシック 4/15 シスコのHadoopリセールについて 4/22 Hadoopサイジング ガイドライン 5/13 シスコのビッグデータ用統合インフラ CPA 5/20 ゲストスピーカー MapR社の製品概要とシスコとの協業 5/27 ゲストスピーカー Cloudera社の製品概要とシスコとの協業 6/3 ゲストスピーカー Hortonworks社の製品概要とシスコとの協業 6/10 Hadoopと ネットワーク Hadoop環境で考慮すべきネットワークの設計IoE/ビッグデータを加速するポートフォーリオ
ルータ 産業用ルーター CGR 1120 IOx シスコ産業用スイッチ IE2K,4K Wi-Fi 工場サーバ ルーム 車両 店舗 Cisco ISR Cisco CGR Cisco UCS データセンター 次世代データ処理基盤 構造化データをより高速に処理 大量の非構造化データを分散処理 屋外、室内、キャンパス 様々なものをつなぎ、情報収集 できるものは現場で処理 Connected Analytics (将来) 様々な集めた情報を分析、 解析、表示。 ソフトウェアおよびサービス Cisco Nexus & ACIビックデータ:Hadoop基盤としてのCisco UCS ソリューション パック名 スターター パック ハイ パフォーマンス パック パフォーマンス 最適化 パック キャパシティ 最適化 パック 大規模 キャパ シティパック サーバ UCS C220 M4 (8台) UCS C220 M4(8台) UCS C240 M4(16台) UCS C240 M4(16台
) UCS C3160(2台) プロセッサ 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2695 v2 メモリ 256G 384G 256G 128G 256G ストレージ容 量 8 x1.2-TB 10K SAS SFF HDD 2 x 1.2-TB 10K SAS SFF HDD,, 6 x400-GB SAS SSD 2 x120-GB SATA SSD, 24 x 1.2-TB 10K SAS SFF HDD 2 x120-GB SATA SSD. 12 x 4-TB 7.2K SAS LFF HDD 2 x 120-GB SATA SSD, 60 x 4-TB 7.2K SAS LFF HDD IO 帯域 UCS VIC 1227 2 10GE UCS VIC 1227 2
10GE UCS VIC 1227 2 10GE
UCS VIC 1227 2
10GE 2 UCS VIC 1227 2 10GE
型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D
用途 アナリティクス、NoSQL, エントリーレベル Hadoop 非常にパフォーマンス と密度を要求されるア ナリティクス Hadoop, NoSQL, MPP等 スケールアウト アプリでパフォーマンス重 視 ディスク容量が必要 なHadoopやスケール アウトストレージ 大容量ディスク。 テラバイト単価がお得&高 密度 Webで 簡単アクセス UCS Director Express UCS Manager OS/ Hadoop インストール Hadoop Manager アプリ モニター
検証済ソリューションパック (CPA: Common Platform Architecture) v3
スモール スタート可能で100台超への拡張も容易 労力削減!物理サーバ、Hadoopクラスタの展開は、テンプレートを コピーして適用するだけ。数10台の 環境セットアップも数10分で完了。 Big Dataに最適な性能を提供(大容量メモリと広帯域接続) 集中的なHadoopクラスタと物理インフラストラクチャの可視化、インベン トリ、トラブルシューティングも容易に! 大量のデータを保管するストレージとしても! ビッグデータのスタンダードHWとしての豊富な実績
Why Cisco UCS?
シスコからCloudera, Hortonworks, MapRのHadoop ソフトウェアサブスクリプションも購入できます。 UCS Director Express for Big Data
UCS Director Expressによる一元的な、ラック サーバ, ネットワーク、Hadoopソフトの展開、管理
検証済ソリューション パックで、Hadoop基盤をシンプル&迅速に構築
Cloudera MapR
Agenda
• Hadoopの誕生と進化
いろいろなデータソース(構造と非構造)
どのようなときに使うのか
Hadoopのエコシステム
商用ディストリビューション
• 活用事例
いろいろなデータソース
クラウド データ
ソース Big Data / IOE
ソース トラディショナル データ ソース これらのデータをどのように活用しますか? SAP HANA MongoDB Hadoop Teradata Oracle Database
ビックデータの活用イメージ
総務省 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html (出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料 • Cisco IE Series • Wireless AP • Firewalll • ISR + UCS-E • UCS • Nexus • UCS Invicta • UCS DirectorExpress for BigData
• 品質を高める
• 収益を上げる
• データを取り出す • データを解析する • データを処理する • データから価値を引き出す • データを視覚化する • データを人に伝えるビッグデータの課題
事業効率性分析 Web サービス Excel ファイル 課金 DB 顧客DB 人材管理 ソフト アクセス履歴 Web 顧客の360度分析 収益の分析 リソース分析 財務会計 DB Hadoop 安価なストレージ Data warehouse 安定した分析環境 接続できない データソース 必要なデータを抽出してコピー ロケーションの集約 増える一方の分析手法とアプリケーション 様々な課題 • データ量と種類の課題 DWHに入りきらない・方式で接続不可な ど • セキュリティの課題 データ複製によるコンプライアンス低下 • 時間の課題 新しい分析をするには、DWHのストレー ジ増設、抽出のためのスクリプト・分析手 法開発などで数か月以上かかる • コストの課題 データ ウェアハウスのストレージ、上記 開発などの費用がかさむ 現在のデータ環境 • データの増加 データそのものだけでなく、ソースのシス テムやバリエーションも増加 • 分析に対するデマンド データ解析手法も増加し、経営支援に 利用同じ値段で得られるストレージの容量
SAN ストレージ $2 - $10/Gigabyte $1Mで: 0.5Petabytes 200,000 IOPS 1Gbyte/sec NAS ファイラー $1 - $5/Gigabyte $1Mで: 1 Petabyte 400,000 IOPS 2Gbyte/sec ローカル ストレージ $0.10/Gigabyte $1Mで: 10 Petabytes 800,000 IOPS 800 Gbytes/secビックデータ処理への適用領域
ビッグデータの3大特性 • Volume(量) • Variety (多様性) • Velocity(頻度) アーキテクチャは スケール アップから スケール アウトへ 出所:NRI『ITソリューションフロンティア』 2012年4月号の記事に基づき作成 主なベンダー • Cloudera • Hortonworks • MapR • PivotalCisco Public 12 © 2015 Cisco and/or its affiliates. All rights reserved.
何故Hadoopなのか?
Big Dataの問題
Hadoopソリューション
• HDDのパフォーマンスがCPU の処理能力、コア密度の急速な 発展に追いつけず、処理に対し て十分早くデータの提供ができ ない • 非構造化データの爆発的増加 の処理においてはトランザクショ ン重視の、スキーマに凝り固 まったRDBMSは適切ではない • 水平型のスケール アウトが必 須 • データ オリエンテッドな環境に 移行。SAN/NASに起因するボ トルネックを解消 • ソフトウェア コードに拡張性を 実装, コモディティ ハードウェ アを有効活用 • 頻繁な部分故障を考慮に入れ たリカバリ メカニズム • 分散コンピューティングの開発 を容易に
Cisco Public 13 © 2015 Cisco and/or its affiliates. All rights reserved.
• Apache HadoopはGoogle File Systemをもとにしたオープンソース フレームワーク
• GFSとMapReduceによってクラスタにおける大量のデータを(100TBからPB級のデータま で)保持及び処理方法を規定
2002 2004 2006 2008 2010
Google File System 論文
Google MapReduce 論文
Nutch uses MapReduce
NutchからHadoopプロジェクト独立
Apache Hadoopプロジェクト
Cisco Public 14 © 2015 Cisco and/or its affiliates. All rights reserved.
• 非構造化データの格納(HDFS)と分散処理処理(MapReduce)
Hadoop Distributed File System (HDFS)
分散ファイル システム
Map-Reduce
分散データ処理
PIG Hive Sqoop
エコシステム 各種インターフェース ETL Tools BI Reporting RDBMS HBASE
主なHadoopの構成要素
• バッチ処理 (MapReduce / Spark) • 全文検索エンジン (Solr) • ストリーミング処理 (Spark Streaming) • SQL (Hive / Impala) • NoSQL (HBase)Cisco Public 15 © 2015 Cisco and/or its affiliates. All rights reserved.
例: サーチエンジン インデクシング (すべ てのin-linksを見つける)
Map: 各サイトのtoURL (outlink)の リストを作成 (各サイトへinlink) Reduce: 同種のtoURLを統合
基本概念
ジョブの複雑さ(MapとReduce)はジョブの利用方法に依存し
ており、またネットワーク負荷に対して大きな影響を与える
例: 過去の気象データ(各年ごとの最大気温) Maps: 気温と年を巨大な過去のデー タから取り出す Reducers: 各年の最大気温を計算Source: O’Reilly Hadoop A definitive Guide
Cisco Public 16 © 2015 Cisco and/or its affiliates. All rights reserved.
1 Switch Name Node Data Nodeのマッピング情 報をメモリー上に格納 /usr/sean/foo.txt:blk_1,blk_2 /usr/jacob/bar.txt:blk_3,blk_4 Data node 1:blk_1 Data node 2:blk_2, blk_3 Data node 3:blk_4 1 1 2 2 2 3 3 3 4 4 4 4
HDFSアーキテクチャ
Cisco Public 17 © 2015 Cisco and/or its affiliates. All rights reserved.
Switch Job Tracker MapとReduceタスクを Task Trackerが割り当て Job1:TT1:Mapper1,Mapper2 Job1:TT5:Mapper3,Reducer1 Job2:TT6:Reducer2 Job2:TT7:Mapper1,Mapper3 M1 M2 M3 R1 M1 M3 R2 M1
MapReduceアーキテクチャ
Hadoop パートナー
2008年からApatch Hadoop(CDH)をリリースし
Enterprise機能(セキュリティ、管理性、信頼性)に対応。 管理ツールのCloudera Managerにより管理が容易。 2014/3にIntelが$740M投資。
Apache Hadoop 100% open source distributionを提供。 Yahooからのスピン アウト。主な顧客はYahoo! 2013/7 HPがHortonworksと戦略提携。 2014/6/24 HPが$50M投資 Hadoopに様々な最適化を実施し配布。バックアップやスナップ ショッ ト、NFSやSMBでのアクセスが可能なため運用性が優れている。 Open Source Open Source M A N A GEM E N T Open Source M A N A GEM E N T ARCHITECTURAL INNOVATIONS Hortonworks Cloudera MapR Hadoop Hadoop Hadoop
どこにどう使われているか
ウェブ企業 通信 ビッグデータ ストレージ DWH/ETL最適化 Webアクセス、ネットワーク分析 IoT/BI/アナリティックス 難 易 度 製造/小売/公共/金融•
各事業部 -> IT
•
HaaS (Hadoop as a Service)
Hadoopの活用場所
(参考)http://itpro.nikkeibp.co.jp/atcl/news/14/111301899/
Hadoop構成
Cisco UCS C220/240 Nexus 9372PX Hadoopクラスタ BI Client TableauMapR+NetApp+Ciscoによる共同検証構成
NetApp Eシリーズ
UCS Cシリーズ
SAS 6Gb
「NetApp ビッグデータ ソリューション for MapR」は、ネット アップのストレージ「NetApp Eシリーズ」と、MapRのHadoop ディストリビューション「MapR M5」、シスコの「Cisco UCS」 サーバー、ノーチラス・テクノロジーズの分散処理フレーム ワーク「Asakusa Framework」を組み合わせたソリューショ ン。
Databases
Data Platforms Reference Architecture
Docs, Cases, Content, Social Media, Clicksteam
Operational Intelligence
Index & Search (ELK+)
IT App & System Logs & Config.
Internet of Everything (IoE) Self Service Dashboard Rapid Business Intell. Data Exploration Mission Critical Operational Reports Financial Reporting & Extract Operational Intelligence(Splu nk UI) Real time Predictive Data Analysis, Text Analytics Machine Learning,, Statistical Analysis (R) Machine Data Insights (e.g. In supply chain) SFDC
Data Sources Data Consumption
Big Data Platform Hadoop on UCS • Machine Learning • Data Archiving • Data Science Mission Critical Reporting Teradata • Financial SSOTs • Stable core • Controlled Change Agile Analytics SAP HANA on UCS • Predictive Engine • Real time BI Network of Truth
(Mobile / Browser / Data Service)
Experience Toolkit
Data Virtualization (Composite) Rapid Prototyping
/ Light Integration
SAS Hadoop
Data Storage and Processing
HANA
Analytics & Modeling
IBM SPSS
Data Security, Infra
Customer Network, Product Usage Database N ERP Databases ALL other Sources SAP Tableau Oracle
Cisco ITのHadoopプラットフォーム
コンポーネント
C240 M3 x 16台
コンポーネント 概要
Cisco UCS 6248UP ファブリック インターコネクト
サーバに高速で低遅延のネットワーク接続を提供し、すべ ての接続デバイスをUCS Managerにて統合統一管理でき るようにします Cisco Nexus 2232PP ファブリック エクステンダー 拡張性が高く非常にコスト効率のよいサーバ収容接続を 実現します Cisco UCS C240 M3
Intel Xeon E5-2600 256 GB の RAM 24 TB のローカルストレージ (HDFS 22 TB 、 2 TB オペレーティングシステム) ラックマウント サーバ コンピュー ティング、I/O、ストレージ容量に関するさまざ ま な要求に対応するために設計された 2RU サーバです。
MapR Apache Hadoop
Cisco Tidal Enterprise Scheduler(TES)
リクルート社
Webアクセスのログ処理 従来、1週間分が限界 8万人の会員にしか レコメンドメールが送信 できない 1年半分のログの処理が 可能に 全会員20万人の会員 に レコメンド メールが送信 が可能に Hadoopに よる処理の 高速化 広告のクリックされた割合、および、Webサイトにアクセス数のうち 購入に至った割合が約1.6倍
に上昇 他のHadoopの利用例: バナー広告、自然検索、有料検索エンジン登録などのうちどの集客施作が 実際に購入に至ったか分析し、広告の費用対効果結果より予算配分 Webのアクセス履歴を分析し会員にオススメのお店を紹介 出展:http://www.amazon.co.jp/ビッグデータの衝撃――巨大なデータが戦略を決める-城田-真琴/dp/4492580964 HOT PEPPER グルメ事例:大手クレジット会社
26大手クレジット会社
• 18ヶ月で$25Mの投資(25億円 $1=100) • 1000台以上のサーバインストール。 18ヶ月で2000台インストール予定。 • HPが競合。数ヶ月におよぶパフォーマンス ベンチマーク争いの結果、UCSを選定 • 複数のサーバドメインがあり、Nexus 7000を 使用してドメイン間を接続• 使用例
• 1億400万のカード メンバーに対する サービス • パーソナライズ サービス提供によるユー ザ体験、満足度の向上 • 不正利用検知Cisco Hadoop PoC環境@東京ミッドタウン
10GE UCS Manager による サーバ全体管理 Baremetal Agent• Red Hat ISO - RHEL6.4 • MapRディストリビューション
連携 UCS Director Express for BigData
PoCメニュー例 データはお客様に持ち込んでいただできます • 導入、運用管理性 • SQLやBIでのアクセス • Hadoopへのデータの出し入れ • バックアップ UCS C220 M3 CPU E5-2620 v2 6C/2.10 GHz x 2 Memory 64GB (16GB x 4) HDD 300GB SAS 10K RPM x 8 MegaRAID 9271CV x 1 Cisco VIC 1225 x 1