• 検索結果がありません。

Big Data ウェビナー シリーズ Hadoopベーシック

N/A
N/A
Protected

Academic year: 2021

シェア "Big Data ウェビナー シリーズ Hadoopベーシック"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

シスコシステムズ合同会社

Big Data

ウェビナー

シリーズ

ビッグデータの中心的技術Hadoopを知る

(2)

期間: 2015年3月11日〜7月15日 毎週水曜日 時間:基本 夕方30分間(16:00〜17:00の間) 対象:シスコ パートナー様、シスコ製品ユーザ様 スピーカー:シスコ社員、エコ パートナー様 目的:ビッグデータ初心者に対してビッグデータの一般知識、 製品知識をお伝えする。 また、シスコの製品とシスコ エコ パートナー の組み合わせで実現できる ビッグデータ&IoEソリューションについて言及する。

Big Data ウェビナー シリーズ

(3)

ビッグデータ ウェビナー シリーズ予定

*現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます。 3/11 ビッグデータ を取り巻く ビジネスとは シスコ パートナー様にとってビッグデータってなに? 3/18 ビッグデータってどういう技術で成り立っているの? 3/25 シスコ ビッグデータ ポートフォーリオ 4/8 ビッグデータ の中心的技術 Hadoopを知る Hadoopベーシック 4/15 シスコのHadoopリセールについて 4/22 Hadoopサイジング ガイドライン 5/13 シスコのビッグデータ用統合インフラ CPA 5/20 ゲストスピーカー MapR社の製品概要とシスコとの協業 5/27 ゲストスピーカー Cloudera社の製品概要とシスコとの協業 6/3 ゲストスピーカー Hortonworks社の製品概要とシスコとの協業 6/10 Hadoopと ネットワーク Hadoop環境で考慮すべきネットワークの設計

(4)

IoE/ビッグデータを加速するポートフォーリオ

ルータ 産業用ルーター CGR 1120 IOx シスコ産業用スイッチ IE2K,4K Wi-Fi 工場サーバ ルーム 車両 店舗 Cisco ISR Cisco CGR Cisco UCS データセンター 次世代データ処理基盤 構造化データをより高速に処理 大量の非構造化データを分散処理 屋外、室内、キャンパス 様々なものをつなぎ、情報収集 できるものは現場で処理 Connected Analytics (将来) 様々な集めた情報を分析、 解析、表示。 ソフトウェアおよびサービス Cisco Nexus & ACI

(5)

ビックデータ:Hadoop基盤としてのCisco UCS ソリューション パック名 スターター パック ハイ パフォーマンス パック パフォーマンス 最適化 パック キャパシティ 最適化 パック 大規模 キャパ シティパック サーバ UCS C220 M4 (8台) UCS C220 M4(8台) UCS C240 M4(16台) UCS C240 M4(16台

) UCS C3160(2台) プロセッサ 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2695 v2 メモリ 256G 384G 256G 128G 256G ストレージ容 量 8 x1.2-TB 10K SAS SFF HDD 2 x 1.2-TB 10K SAS SFF HDD,, 6 x400-GB SAS SSD 2 x120-GB SATA SSD, 24 x 1.2-TB 10K SAS SFF HDD 2 x120-GB SATA SSD. 12 x 4-TB 7.2K SAS LFF HDD 2 x 120-GB SATA SSD, 60 x 4-TB 7.2K SAS LFF HDD IO 帯域 UCS VIC 1227 2 10GE UCS VIC 1227 2

10GE UCS VIC 1227 2 10GE

UCS VIC 1227 2

10GE 2 UCS VIC 1227 2 10GE

型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D

用途 アナリティクス、NoSQL, エントリーレベル Hadoop 非常にパフォーマンス と密度を要求されるア ナリティクス Hadoop, NoSQL, MPP等 スケールアウト アプリでパフォーマンス重 視 ディスク容量が必要 なHadoopやスケール アウトストレージ 大容量ディスク。 テラバイト単価がお得&高 密度 Webで 簡単アクセス UCS Director Express UCS Manager OS/ Hadoop インストール Hadoop Manager アプリ モニター

検証済ソリューションパック (CPA: Common Platform Architecture) v3

 スモール スタート可能で100台超への拡張も容易  労力削減!物理サーバ、Hadoopクラスタの展開は、テンプレートを コピーして適用するだけ。数10台の 環境セットアップも数10分で完了。  Big Dataに最適な性能を提供(大容量メモリと広帯域接続)  集中的なHadoopクラスタと物理インフラストラクチャの可視化、インベン トリ、トラブルシューティングも容易に!  大量のデータを保管するストレージとしても!  ビッグデータのスタンダードHWとしての豊富な実績

Why Cisco UCS?

シスコからCloudera, Hortonworks, MapRのHadoop ソフトウェアサブスクリプションも購入できます。 UCS Director Express for Big Data

UCS Director Expressによる一元的な、ラック サーバ, ネットワーク、Hadoopソフトの展開、管理

検証済ソリューション パックで、Hadoop基盤をシンプル&迅速に構築

Cloudera MapR

(6)

Agenda

• Hadoopの誕生と進化

いろいろなデータソース(構造と非構造)

どのようなときに使うのか

Hadoopのエコシステム

商用ディストリビューション

• 活用事例

(7)

いろいろなデータソース

クラウド データ

ソース Big Data / IOE

ソース トラディショナル データ ソース これらのデータをどのように活用しますか? SAP HANA MongoDB Hadoop Teradata Oracle Database

(8)

ビックデータの活用イメージ

総務省 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html (出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料 • Cisco IE Series • Wireless AP • Firewalll • ISR + UCS-E • UCS • Nexus • UCS Invicta • UCS Director

Express for BigData

• 品質を高める

• 収益を上げる

• データを取り出す • データを解析する • データを処理する • データから価値を引き出す • データを視覚化する • データを人に伝える

(9)

ビッグデータの課題

事業効率性分析 Web サービス Excel ファイル 課金 DB 顧客DB 人材管理 ソフト アクセス履歴 Web 顧客の360度分析 収益の分析 リソース分析 財務会計 DB Hadoop 安価なストレージ Data warehouse 安定した分析環境 接続できない データソース 必要なデータを抽出してコピー ロケーションの集約 増える一方の分析手法とアプリケーション 様々な課題 • データ量と種類の課題 DWHに入りきらない・方式で接続不可な ど • セキュリティの課題 データ複製によるコンプライアンス低下 • 時間の課題 新しい分析をするには、DWHのストレー ジ増設、抽出のためのスクリプト・分析手 法開発などで数か月以上かかる • コストの課題 データ ウェアハウスのストレージ、上記 開発などの費用がかさむ 現在のデータ環境 • データの増加 データそのものだけでなく、ソースのシス テムやバリエーションも増加 • 分析に対するデマンド データ解析手法も増加し、経営支援に 利用

(10)

同じ値段で得られるストレージの容量

SAN ストレージ $2 - $10/Gigabyte $1Mで: 0.5Petabytes 200,000 IOPS 1Gbyte/sec NAS ファイラー $1 - $5/Gigabyte $1Mで: 1 Petabyte 400,000 IOPS 2Gbyte/sec ローカル ストレージ $0.10/Gigabyte $1Mで: 10 Petabytes 800,000 IOPS 800 Gbytes/sec

(11)

ビックデータ処理への適用領域

ビッグデータの3大特性 • Volume(量) • Variety (多様性) • Velocity(頻度) アーキテクチャは スケール アップから スケール アウトへ 出所:NRI『ITソリューションフロンティア』 2012年4月号の記事に基づき作成 主なベンダー • Cloudera • Hortonworks • MapR • Pivotal

(12)

Cisco Public 12 © 2015 Cisco and/or its affiliates. All rights reserved.

何故Hadoopなのか?

Big Dataの問題

Hadoopソリューション

• HDDのパフォーマンスがCPU の処理能力、コア密度の急速な 発展に追いつけず、処理に対し て十分早くデータの提供ができ ない • 非構造化データの爆発的増加 の処理においてはトランザクショ ン重視の、スキーマに凝り固 まったRDBMSは適切ではない • 水平型のスケール アウトが必 須 • データ オリエンテッドな環境に 移行。SAN/NASに起因するボ トルネックを解消 • ソフトウェア コードに拡張性を 実装, コモディティ ハードウェ アを有効活用 • 頻繁な部分故障を考慮に入れ たリカバリ メカニズム • 分散コンピューティングの開発 を容易に

(13)

Cisco Public 13 © 2015 Cisco and/or its affiliates. All rights reserved.

• Apache HadoopはGoogle File Systemをもとにしたオープンソース フレームワーク

• GFSとMapReduceによってクラスタにおける大量のデータを(100TBからPB級のデータま で)保持及び処理方法を規定

2002 2004 2006 2008 2010

Google File System 論文

Google MapReduce 論文

Nutch uses MapReduce

NutchからHadoopプロジェクト独立

Apache Hadoopプロジェクト

(14)

Cisco Public 14 © 2015 Cisco and/or its affiliates. All rights reserved.

• 非構造化データの格納(HDFS)と分散処理処理(MapReduce)

Hadoop Distributed File System (HDFS)

分散ファイル システム

Map-Reduce

分散データ処理

PIG Hive Sqoop

エコシステム 各種インターフェース ETL Tools BI Reporting RDBMS HBASE

主なHadoopの構成要素

• バッチ処理 (MapReduce / Spark) • 全文検索エンジン (Solr) • ストリーミング処理 (Spark Streaming) • SQL (Hive / Impala) • NoSQL (HBase)

(15)

Cisco Public 15 © 2015 Cisco and/or its affiliates. All rights reserved.

例: サーチエンジン インデクシング (すべ てのin-linksを見つける)

 Map: 各サイトのtoURL (outlink)の リストを作成 (各サイトへinlink)  Reduce: 同種のtoURLを統合

基本概念

ジョブの複雑さ(MapとReduce)はジョブの利用方法に依存し

ており、またネットワーク負荷に対して大きな影響を与える

例: 過去の気象データ(各年ごとの最大気温)  Maps: 気温と年を巨大な過去のデー タから取り出す  Reducers: 各年の最大気温を計算

Source: O’Reilly Hadoop A definitive Guide

(16)

Cisco Public 16 © 2015 Cisco and/or its affiliates. All rights reserved.

1 Switch Name Node Data Nodeのマッピング情 報をメモリー上に格納 /usr/sean/foo.txt:blk_1,blk_2 /usr/jacob/bar.txt:blk_3,blk_4 Data node 1:blk_1 Data node 2:blk_2, blk_3 Data node 3:blk_4 1 1 2 2 2 3 3 3 4 4 4 4

HDFSアーキテクチャ

(17)

Cisco Public 17 © 2015 Cisco and/or its affiliates. All rights reserved.

Switch Job Tracker MapとReduceタスクを Task Trackerが割り当て Job1:TT1:Mapper1,Mapper2 Job1:TT5:Mapper3,Reducer1 Job2:TT6:Reducer2 Job2:TT7:Mapper1,Mapper3 M1 M2 M3 R1 M1 M3 R2 M1

MapReduceアーキテクチャ

(18)

Hadoop パートナー

2008年からApatch Hadoop(CDH)をリリースし

Enterprise機能(セキュリティ、管理性、信頼性)に対応。 管理ツールのCloudera Managerにより管理が容易。 2014/3にIntelが$740M投資。

Apache Hadoop 100% open source distributionを提供。 Yahooからのスピン アウト。主な顧客はYahoo! 2013/7 HPがHortonworksと戦略提携。 2014/6/24 HPが$50M投資 Hadoopに様々な最適化を実施し配布。バックアップやスナップ ショッ ト、NFSやSMBでのアクセスが可能なため運用性が優れている。 Open Source Open Source M A N A GEM E N T Open Source M A N A GEM E N T ARCHITECTURAL INNOVATIONS Hortonworks Cloudera MapR Hadoop Hadoop Hadoop

(19)

どこにどう使われているか

ウェブ企業 通信 ビッグデータ ストレージ DWH/ETL最適化 Webアクセス、ネットワーク分析 IoT/BI/アナリティックス 難 易 度 製造/小売/公共/金融

(20)

各事業部 -> IT

HaaS (Hadoop as a Service)

Hadoopの活用場所

(参考)http://itpro.nikkeibp.co.jp/atcl/news/14/111301899/

(21)

Hadoop構成

Cisco UCS C220/240 Nexus 9372PX Hadoopクラスタ BI Client Tableau

(22)

MapR+NetApp+Ciscoによる共同検証構成

NetApp Eシリーズ

UCS Cシリーズ

SAS 6Gb

「NetApp ビッグデータ ソリューション for MapR」は、ネット アップのストレージ「NetApp Eシリーズ」と、MapRのHadoop ディストリビューション「MapR M5」、シスコの「Cisco UCS」 サーバー、ノーチラス・テクノロジーズの分散処理フレーム ワーク「Asakusa Framework」を組み合わせたソリューショ ン。

(23)

Databases

Data Platforms Reference Architecture

Docs, Cases, Content, Social Media, Clicksteam

Operational Intelligence

Index & Search (ELK+)

IT App & System Logs & Config.

Internet of Everything (IoE) Self Service Dashboard Rapid Business Intell. Data Exploration Mission Critical Operational Reports Financial Reporting & Extract Operational Intelligence(Splu nk UI) Real time Predictive Data Analysis, Text Analytics Machine Learning,, Statistical Analysis (R) Machine Data Insights (e.g. In supply chain) SFDC

Data Sources Data Consumption

Big Data Platform Hadoop on UCS • Machine Learning • Data Archiving • Data Science Mission Critical Reporting Teradata • Financial SSOTs • Stable core • Controlled Change Agile Analytics SAP HANA on UCS • Predictive Engine • Real time BI Network of Truth

(Mobile / Browser / Data Service)

Experience Toolkit

Data Virtualization (Composite) Rapid Prototyping

/ Light Integration

SAS Hadoop

Data Storage and Processing

HANA

Analytics & Modeling

IBM SPSS

Data Security, Infra

Customer Network, Product Usage Database N ERP Databases ALL other Sources SAP Tableau Oracle

(24)

Cisco ITのHadoopプラットフォーム

コンポーネント

C240 M3 x 16台

コンポーネント 概要

Cisco UCS 6248UP ファブリック インターコネクト

サーバに高速で低遅延のネットワーク接続を提供し、すべ ての接続デバイスをUCS Managerにて統合統一管理でき るようにします Cisco Nexus 2232PP ファブリック エクステンダー 拡張性が高く非常にコスト効率のよいサーバ収容接続を 実現します Cisco UCS C240 M3

Intel Xeon E5-2600 256 GB の RAM 24 TB のローカルストレージ (HDFS 22 TB 、 2 TB オペレーティングシステム) ラックマウント サーバ コンピュー ティング、I/O、ストレージ容量に関するさまざ ま な要求に対応するために設計された 2RU サーバです。

MapR Apache Hadoop

Cisco Tidal Enterprise Scheduler(TES)

(25)

リクルート社

Webアクセスのログ処理 従来、1週間分が限界 8万人の会員にしか レコメンドメールが送信 できない 1年半分のログの処理が 可能に 全会員20万人の会員 に レコメンド メールが送信 が可能に Hadoopに よる処理の 高速化 広告のクリックされた割合、および、Webサイトにアクセス数のうち 購入に至った割合が

約1.6倍

に上昇 他のHadoopの利用例: バナー広告、自然検索、有料検索エンジン登録などのうちどの集客施作が 実際に購入に至ったか分析し、広告の費用対効果結果より予算配分 Webのアクセス履歴を分析し会員にオススメのお店を紹介 出展:http://www.amazon.co.jp/ビッグデータの衝撃――巨大なデータが戦略を決める-城田-真琴/dp/4492580964 HOT PEPPER グルメ

(26)

事例:大手クレジット会社

26

大手クレジット会社

• 18ヶ月で$25Mの投資(25億円 $1=100) • 1000台以上のサーバインストール。 18ヶ月で2000台インストール予定。 • HPが競合。数ヶ月におよぶパフォーマンス ベンチマーク争いの結果、UCSを選定 • 複数のサーバドメインがあり、Nexus 7000を 使用してドメイン間を接続

• 使用例

• 1億400万のカード メンバーに対する サービス • パーソナライズ サービス提供によるユー ザ体験、満足度の向上 • 不正利用検知

(27)

Cisco Hadoop PoC環境@東京ミッドタウン

10GE UCS Manager による サーバ全体管理 Baremetal Agent

• Red Hat ISO - RHEL6.4 • MapRディストリビューション

連携 UCS Director Express for BigData

PoCメニュー例 データはお客様に持ち込んでいただできます • 導入、運用管理性 • SQLやBIでのアクセス • Hadoopへのデータの出し入れ • バックアップ UCS C220 M3 CPU E5-2620 v2 6C/2.10 GHz x 2 Memory 64GB (16GB x 4) HDD 300GB SAS 10K RPM x 8 MegaRAID 9271CV x 1 Cisco VIC 1225 x 1

(28)

参照

関連したドキュメント

Central Data Center vRAN (Group Center) Regional Data Center. Mobile Edge Computing NW Core

REC DATA MASTER L to SD CARD REC DATA MASTER R to SD CARD VOLUME SOUND

Data are thus submitted to exploratory data analysis, to recover as much synthesized information as possible, in order to reveal any existing data structure and, in particular, to

Roughly speaking, the combinatorial anabelian geometry is a kind of anabelian theory of curves over algebraically closed fields which focus on reconstructions of geometric data

The Mixmaster (Bianchi IX) model of the early history of the universe is neatly explained in this picture by postulating that the reverse Wick rotation follows a hyperbolic

May cause temporary itching, tingling, burning or numbness of exposed skin, called paresthesia.. Other

The output of the sensor core is a 12-bit parallel pixel data stream qualified by an output data clock (PIXCLK), together with LINE_VALID (LV) and FRAME_VALID (FV) signals or a

Users of a pesticidal product should refer to the product label for personal protective equipment requirements.. No occupational exposure