Big Data ウェビナーシリーズ Hadoopサイジングガイドライン

(1)

シスコシステムズ合同会社

Big Data

ウェビナー

シリーズ

ビッグデータの中心的技術Hadoopを知る

「Hadoopサイジングガイドライン」

(2)

期間： 2015年3月11日〜7月15日毎週水曜日

時間：基本夕方30分間（16:00〜17:00の間）

対象：シスコパートナー様、シスコ製品ユーザ様

スピーカー：シスコ社員、エコパートナー様

目的：ビッグデータ初心者に対してビッグデータの一般知識、

製品知識をお伝えする。

また、シスコの製品とシスコエコパートナー

の組み合わせで実現できる

ビッグデータ＆IoEソリューションについて言及する。

Big Data ウェビナーシリーズ

(3)

ビッグデータウェビナーシリーズ予定

＊現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます。

3/11

ビッグデータ

を取り巻く

ビジネスとは

シスコパートナー様にとってビッグデータってなに？

3/18

ビッグデータってどういう技術で成り立っているの？

3/25

シスコビッグデータポートフォーリオ

4/8

ビッグデータ

の中心的技術

Hadoopを知る

Hadoopベーシック

4/15

シスコのHadoopリセールについて

4/22

Hadoopサイジングガイドライン

5/13

シスコのビッグデータ用統合インフラ CPA

5/20

ゲストスピーカー

MapR社の製品概要とシスコとの協業

5/27

ゲストスピーカー

Cloudera社の製品概要とシスコとの協業

6/3

ゲストスピーカー

Hortonworks社の製品概要とシスコとの協業

6/10

Hadoopと

ネットワーク

Hadoop環境で考慮すべきネットワークの設計

(4)

ルータ 産業用ルーター CGR 1120 IOx シスコ産業用スイッチ IE2K,4K Wi-Fi 工場サーバ ルーム 車両店舗

Cisco ISR

Cisco CGR

Cisco UCS

データセンター

次世代データ処理基盤

ソフトウェアデファインドコンピュート

屋外、室内、キャンパス

様々なものをつなぎ、情報収集

できるものは現場で処理

Cisco Analytics Framework for the Internet of Everything

Nexus

& ACI

エコパートナー

Platfora

Elasticsearch

Informatica

Qlik

SAS

MicroStrategy

Splunk

Tableau

(5)

ビックデータ：Hadoop基盤としてのCisco UCS

ソリューションパック名スターターパックハイパフォーマンスパックパフォーマンス最適化パックキャパシティ最適化パック大規模キャパシティパックサーバ UCS C220 M4 (8

台) UCS C220 M4(8台) UCS C240 M4(16台) UCS C240 M4(16台) UCS C3160(2台)

プロセッサ 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2695 v2 メモリ 256G 384G 256G 128G 256G ストレージ容量 8 x1.2-TB 10K SAS SFF HDD 2 x 1.2-TB 10K SAS SFF HDD,, 6 x400-GB SAS SSD 2 x120-GB SATA SSD, 24 x 1.2-TB 10K SAS SFF HDD 2 x120-GB SATA SSD. 12 x 4-TB 7.2K SAS LFF HDD 2 x 120-GB SATA SSD, 60 x 4-TB 7.2K SAS LFF HDD IO 帯域 UCS VIC 1227 2 10GE UCS VIC 1227 2

10GE UCS VIC 1227 2 10GE

UCS VIC 1227 2

10GE 2 UCS VIC 1227 2 10GE

型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D

用途アナリティクス、 NoSQL, エントリーレベルHadoop 非常にパフォーマンスと密度を要求されるアナリティクス Hadoop, NoSQL, MPP等スケールアウトアプリでパフォーマンス重視ディスク容量が必要な Hadoopやスケールアウトストレージ大容量ディスク。テラバイト単価がお得＆高密度 Webで簡単アクセス UCS Director Express UCS Manager OS/ Hadoop インストール Hadoop Manager アプリモニター

検証済ソリューションパック (CPA: Common Platform Architecture) v3

 スモールスタート可能で100台超への拡張も容易  労力削減！物理サーバ、Hadoopクラスタの展開は、テンプレートをコピーして適用するだけ。数10台の環境セットアップも数１0分で完了。  Big Dataに最適な性能を提供（大容量メモリと広帯域接続）  集中的なHadoopクラスタと物理インフラストラクチャの可視化、インベントリ、トラブルシューティングも容易に！  大量のデータを保管するストレージとしても！  ビッグデータのスタンダードHWとしての豊富な実績

Why Cisco UCS?

シスコからCloudera, Hortonworks, MapRのHadoop

ソフトウェアサブスクリプションも購入できます。

UCS Director Express for Big Data

UCS Director Expressによる一元的な、ラックサー

バネットワーク、Hadoopソフトの展開、管理

検証済ソリューションパックで、Hadoop基盤をシンプル&迅速に構築

Cloudera

MapR

(6)

Agenda

• Hadoopサイジングの考慮点

-サーバサイジング（HDD/Memory/NIC)

-ネットワークスイッチ

(7)

大量のデータを分割して複数のコンピュータで並列に処理するためのオー

プンソースフレームワーク

耐障害性を重視して設計されており、処理中に一部の構成ノードが故障して

も、別ノードへ処理を振り分けられる

• ファイルシステム

HDFS (Hadoop Distributed File System)

読み書きを高速化するため、ファイルを一定の大きさ

（デフォルト64MB）に分割

• 分散処理アルゴリズム

MapReduce

Map データ抽出

Reduce 抽出してデータを集約

Hadoop

(8)

MapR

4 Server (N+1)

Hadoop ノードの役割

NN

DN

Cloudera/Hortonwworks

7 Server = (2NN+RM+DN Server(N+1))

Master

Node

Slave

Node

DN

Node Manager

Resource

Manager

HDFS

MapReduce

DN

各ブロックは複製され、異なる3サーバ（スレーブサーバ）

に格納される

冗長を考慮してN+1でDataNode=4台

NN

_SNN

DN

Node Manager

データ管理、

分散処理ジョブの管理

分散処理の実行、

データの実態を保存

Hadoop2系

(9)

1 Switch

Name Node

Data Nodeのマッピング情

報をメモリー上に格納

/usr/sean/foo.txt:blk_1,blk_2

/usr/jacob/bar.txt:blk_3,blk_4

Data node 1:

blk_1

Data node 2:

blk_2

,

blk_3

Data node 3:

blk_4

1

2

3

4

4 HDFSアーキテクチャ

(10)

例: サーチエンジンインデクシング (すべての

in-linksを見つける)

 Map: 各サイトのtoURL (outlink)のリス

トを作成（各サイトへinlink）

 Reduce: 同種のtoURLを統合

基本概念

ジョブの複雑さ（MapとReduce)はジョブの利用方法に依存しており、また

ネットワーク負荷に対して大きな影響を与える

例: 過去の気象データ(各年ごとの最大気温）

 Maps: 気温と年を巨大な過去のデータから

取り出す

 Reducers: 各年の最大気温を計算

Source: O’Reilly Hadoop A definitive Guide

(11)

ネットワークトラフィックパターンを理解する事は重要

Hadoop Map and Reduce トラフィック

Many-to-Many トラフィックパターン

Map 1

Map 2

Map 3

Map N

Reducer 1

Reducer 2

Reducer 3

Reducer N

HDFS

シャッフル

アウトプット

レプリケーション

NameNode

JobTracker

ZooKeeper

HadoopクラスタのKeep-Alive等（マウス）のトラフィックが、

エレファントトラフィックに影響を受ける可能性がある

(12)

サーバサイジング

• データ量

• メモリ (Hadoopエコシステム)

• ネットワークI/O

(13)

Cloudera推奨スペック

（参考）http://www.cloudera.co.jp/blog/how-to-select-the-right-hardware-for-your-new-hadoop-cluster.html

ネームノード、ジョブトラッカー、スタンバイネームノードに対して推奨スペック

(ドライブ

数は冗長性に応じて変動)

・1TB のハードディスクを JBOD 構成で 4-6台

(1つはOS用, 2つをRAID1でfsimage用に, 1つをApache ZooKeeper, そして1つを

Journal nodeに使用する)

・最低でも 2-2.5GHz の 2つの 4コア/6コア/8コア CPU

・64-128GBのRAM

・ボンディングされたギガビットあるいは10ギガビットイーサネット

データノード／タスクトラッカー用に推奨スペック

・1-4TBのハードディスクを JBOD(Just a Bunch Of Disks) 構成で 12-24 台

・最低でも 2-2.5GHz の 2つの 4コア/6コア/8コア CPU

・64-512GBのRAM

・ボンディングされたギガビットあるいは10ギガビットイーサネット

・バランスがとれた構成(1U/machine):

2つの 4コアCPU, メモリ 48-128GB,

12台から16台のディスクドライブ(1TB あるいは 2TB)が、

マザーボードコントローラに直接アタッチしていること。

ひとつの 2U キャビネットに、2つのマザーボードと 24台のディ

スクドライブを対にして利用できることも多い

・計算処理インテンシブな構成(2U/machine):

2つのヘキサコアCPU, メモリ 64-512GB,

4台から8台のディスクドライブ(1TB or 2TB)

（注： Cloudera は初期構築では、2×8、2×10、および2×12のコア構成適用を想定しています。）

・ストレージインテンシブな構成(2U/machine):

2つの 4コアCPU, メモリ 48-96GB,

16台から24台のディスクドライブ(2TB – 4TB)。

この構成は複数のノード/ラック障害時に激しいトラフィックが生じ

る

・軽い処理用の構成(1U/machine):

2つの 4コアCPU, メモリ 24-64GB,

8台のディスクドライブ(1TB あるいは 2TB)

(14)

2年間で必要なデータ容量

• 格納データ量＝毎日100GB増加

100GB x 365日 x 2年 = 73TB

• 必要なストレージ容量＝ 73TB x 3コピー x

1/3圧縮 / 0.75格納率 = 97.3TB

• 必要なサーバ台数 = 97.3TB / 24TB ≒ 5台

MapR サイジング

10GE

Nexus 9372PX

構成例：

• 2RU,(6コア x 2ソケット合計12コア/24ス

レッド）

• 96GB(1コアあたり8GB)

• 24TB(2TB 3.5inch 7.2Krpm x 12)

• Linux OS (SSD SATA 120GB x 2)

• 10G SFP+ x 2

UCS C240 M4 LLF

DataNode内にNameNodeが存在するため、

全台同じ構成で良い

(15)

• OS用

2台 RAID 1

• DataNode用

1 コアあたり、1 HDDがお薦め

HDFSのRAID設定（JBOD or RAID0）

HDDの設定例

(16)

• エコシステムとの組合せにより、必要なメモリー要件はかわる

Hadoop Distributed File System

(HDFS)

分散ファイルシステム

Map-Reduce

分散データ処理

PIG

Hive

Sqoop

エコシステム

各種インターフェース

ETL Tools

BI

Reporting

RDBMS

HBASE

Hadoop 構成要素

• バッチ処理 (MapReduce /

Spark

)

• 全文検索エンジン (Solr)

• ストリーミング処理 (Spark Streaming)

• SQL (Hive /

Impala

)

• NoSQL (HBase)

Impala はほとんどの動作にメモリを使用します。デフォルトで、使用可能

な RAM リソースの最大 80% を消費するため、

ノードあたり少なくとも 96GB の RAM が推奨されます。

（参照）http://www.cloudera.co.jp/blog/how-to-select-the-right-hardware-for-your-new-hadoop-cluster.html

(17)

トラフィックの負荷

• クライアントからデータを投入

• データリプリケーション（3回）

• Map Reduce処理

• HDD/Node障害時に、他のNode間でコピー

インターフェース

• 1GB x 2〜4 or 10G x 2

VLAN数 2〜4

• HDFS, Mgmt, Data (SAN/NAS, ETL), PXE

(18)

CPA v3 (Common Platform Architecture)

ビッグデータのための統合基盤

ソリューションパック名

スターター

パック

ハイパフォーマ

ンスパック

パフォーマンス

最適化パック

キャパシティ

最適化パック

大規模キャパ

シティパック

サーバ

UCS C220 M4 (8台) UCS C220 M4 (8台) UCS C240 M4 (16台) UCS C240 M4 (16台) UCS C3160(2台)

プロセッサ

2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2695 v2

メモリ

256GB 384GB 256GB 128GB 256GB

ストレージ

コントローラ

Cisco 12-Gbps SAS Raid コントローラ Cisco 12-Gbps SAS Raid コントローラ Cisco 12-Gbps SAS Raid コントローラ Cisco 12-Gbps SAS Raid コントローラ Cisco 12-Gbps SAS Raid コントローラ

ストレージ

容量

8 x1.2-TB 10K SAS SFF HDD 2 x 1.2-TB 10K SAS SFF HDD, 6 x400-GB SAS SSD 2 x120-GB SATA SSD, 24 x 1.2-TB 10K SAS SFF HDD 2 x120-GB SATA SSD. 12 x 4-TB 7.2K SAS SFF HDD 2 x 120-GB SATA SSD, 60 x 4-TB 7.2K SAS SFF HDD

IO 帯域

UCS VIC 1227 2 10GE UCS VIC 1227 2 10GE UCS VIC 1227 2 10GE UCS VIC 1227 2 10GE 2 UCS VIC 1227 2 10GE

ファブリック/

ネットワーク

2xUCS 6248UP ファブリックインターコネクト 2xUCS 6248UP ファブリックインターコネクト 2 x UCS 6296UP ファブリックインターコネクト 2 x UCS 6296UP ファブリックインターコネクト既存または新規の UCSとNexus のインフラに統合

型番

UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D

用途

アナリティクス、 NoSQL, エントリーレベルHadoop 非常にパフォーマンスと密度を要求されるアナリティクス Hadoop, NoSQL, MPP等スケールアウトアプリでパフォーマンス重視ディスク容量が必要なHadoopやスケールアウトストレージ大容量ディスク。テラバイト単価がお得＆高密度

• 用途に合わせてパッケージを用意

• 検証済みでCisco Validated Designで構成ガイドを

公開

• なるべくチューニング無しで使えるよう考慮

• 既存の仮想基盤との運用統合可能

リスクの削減:

テストと検証が済んでいるアーキテク

チャは、短期間で価値を実現し、リス

クや導入に関する問題を軽減します。

集中統合管理:

Cisco UCS Manager と Cisco UCS

Central Software による統合統一管

理を実現し、最大 10,000 台のサー

バと関連インフラストラクチャを管理

できるようにします。この機能により、

導入と運用のタスクが大幅に簡易化

されます。

サイジングを考えるスタートポイント

(19)

• CPU：12/24コア

• HDD：1 コアあたり、1 HDD

• メモリー：1 コアあたり、８GBメモリー

（In memory エコシステムに対応）

• NIC: 10G x 2

• 但し、C3160は除く

CPAサイジングの考え方

サイジングを考えるスタートポイント

(20)

Hadoopクラスタ構成

Cisco UCS C220/240

Nexus 9372PX

Hadoopクラスタ

Client

Tableau

SAS

MicroStrategy

Splunk

Qlik

(21)

選べるSwitch Nexus

N3172PQ

N9372PX

Form factor

1RU

40GE ports

6

6 10GE ports

72

72 1/10 GE ports

48

48 L2 Switching Capacity

All are Line Rate

1.4 Tbps

1.44 Tbps

Buffer Size

12MB共有

52MB共有

L2 Latency

550-650nsec

600nsec ～

サイズ

4.4 x 43.9 x 50.5 cm

Power (Typical/Max)

360/440W

228W/508W

(22)

N7K/N5K+N2Kトポロジー

N9K/N3Kトポロジー

L2/L3 ToR構成

N9k

N7K

N5k

N2k

UCS

…

BigData テストネットワークトポロジー

Note:

この２つのトポロジーはBigData以外の要件を統合的に満た

すことができるデータセンターネットワークとしてデザインさ

れ、実際のテストで使用されています。

N2k

N9k

・・・

N9k

• ユニファイドファブリック構成

Nexus2000は1G/10Gサーバの収

容が可能

Nexusの特徴:

• ノンブロッキングスイッチ

• 大容量のバッファ領域

• マルチプロトコルストレージの収容

FabricPath

vPC

(23)

ACIファブリックで

の解決

(24)

稼働状況の見える化と最適化

アクション： • 新規物理サーバの追加 • 既存仮想サーバのライブマイグレーション • 負荷分散の再設定

システムの

イベント発生

開発環境 • Leaf 1 and 2 • Spine 1 – 3 • Atomic counters 本番環境 • Leaf 2 and 3 • Spine 1 – 2 • Atomic counters 検証環境 • Leaf 3 and 4 • Spine 2 – 3 • Atomic counters

ホップごとの

見える化

物理環境と

仮想環境の

統合管理

ACIは今までにない分析機能を提供

アプリケーション、テナント、インフラ毎の情報を

提供:

• ヘルススコア

• 遅延

• アトミックカウンタ

• リソースの利用状況

ワークロードの配置、移動にも柔軟に対応

イベントやクエリーをトリガー

APIC

(25)

Dynamic Load Balancing

ECMP

DLB

50% Usage

Congested Link

66% Usage

33% Usage

従来のネットワークでは:

Leaf 1 は、Spine 2 と Leaf 2の間に発生している

混雑を知らない

ダイレクトI/Fではない部分のネットワークの混雑を

知る事は最適なトラフィック転送に必須

Leaf 1 Leaf 2 Spine 2 Spine 1 Leaf 1 Leaf 2 Spine 2 Spine 1

(26)

Dynamic Packet Prioritization

Prioritize Flows with higher SLAs

Small Flows

Large Flows

Impact of large flows

on small flows

Without

Dynamic Packet

Prioritization

ラージフローはリソースを多く消

費する:

• Bandwidth

• Buffer

スモールフローに優先度を付けら

れなければ、ラージフローは潜在

的にスモールフローへ影響を与

える可能性がある

(27)

Dynamic Packet Prioritization

(制御パケット等の救済)

NoSQL Perfromance (Using Memcached)

Tests with Memcached

•

Dynamic Packet Prioritization

helps improve memcached

performance

•

Note: These tests were disk

bound – Will be testing with

servers containing higher number

of drives

(28)

Cisco Hadoop PoC環境@東京ミッドタウン

10GE

UCS Manager

による

サーバ全体管理

Baremetal Agent

• Red Hat ISO - RHEL6.x/7.x

• Hadoopディストリビューション

（Cloudera / MapR / Hortonworks)

連携

UCS Director Express for BigData

PoCメニュー例

データはお客様に持ち込んでいただできます

• 導入、運用管理性

• SQLやBIでのアクセス

• Hadoopへのデータの出し入れ

• バックアップ

UCS C220 M3 CPU E5-2620 v2 6C/2.10 GHz x 2 Memory 64GB (16GB x 4) HDD 300GB SAS 10K RPM x 8 MegaRAID 9271CV x 1 Cisco VIC 1225 x 1

(29)

Big Data ウェビナー シリーズ Hadoopサイジング ガイドライン

シスコシステムズ合同会社

Big Data

ウェビナー

シリーズ

ビッグデータの中心的技術Hadoopを知る

「Hadoopサイジング ガイドライン」

期間： 2015年3月11日〜7月15日 毎週水曜日

時間：基本 夕方30分間（16:00〜17:00の間）

対象：シスコ パートナー様、シスコ製品ユーザ様

スピーカー：シスコ社員、エコ パートナー様

目的：ビッグデータ初心者に対してビッグデータの一般知識、

製品知識をお伝えする。

また、シスコの製品とシスコ エコ パートナー

の組み合わせで実現できる

ビッグデータ＆IoEソリューションについて言及する。

Big Data ウェビナー シリーズ

ビッグデータウェビナーシリーズ予定

＊現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます。

3/11

ビッグデータ

を取り巻く

ビジネスとは

シスコ パートナー様にとってビッグデータってなに？

3/18

ビッグデータってどういう技術で成り立っているの？

3/25

シスコ ビッグデータ ポートフォーリオ

4/8

ビッグデータ

の中心的技術

Hadoopを知る

Hadoopベーシック

4/15

シスコのHadoopリセールについて

4/22

Hadoopサイジング ガイドライン

5/13

シスコのビッグデータ用統合インフラ CPA

5/20

ゲスト スピーカー

MapR社の製品概要とシスコとの協業

5/27

ゲスト スピーカー

Cloudera社の製品概要とシスコとの協業

6/3

ゲスト スピーカー

Hortonworks社の製品概要とシスコとの協業

6/10

Hadoopと

ネットワーク

Hadoop環境で考慮すべきネットワークの設計

Cisco ISR

Cisco CGR

Cisco UCS

データセンター

次世代データ処理基盤

ソフトウェア デファインド コンピュート

屋外、室内、キャンパス

様々なものをつなぎ、情報収集

できるものは現場で処理

Cisco Analytics Framework for the Internet of Everything

Nexus

& ACI

エコパートナー

Platfora

Elasticsearch

Informatica

Qlik

SAS

MicroStrategy

Splunk

Tableau

ビックデータ：Hadoop基盤としてのCisco UCS

検証済ソリューションパック (CPA: Common Platform Architecture) v3

UCS Director Express for Big Data

UCS Director Expressによる一元的な、ラッ クサー

バ ネットワーク、Hadoopソフトの展開、管理

検証済ソリューションパックで、Hadoop基盤をシンプル&迅速に構築

Cloudera

Big Data ウェビナーシリーズ Hadoopサイジングガイドライン

「Hadoopサイジングガイドライン」

期間： 2015年3月11日〜7月15日毎週水曜日

時間：基本夕方30分間（16:00〜17:00の間）

対象：シスコパートナー様、シスコ製品ユーザ様

スピーカー：シスコ社員、エコパートナー様

また、シスコの製品とシスコエコパートナー

Big Data ウェビナーシリーズ

シスコパートナー様にとってビッグデータってなに？

シスコビッグデータポートフォーリオ

Hadoopサイジングガイドライン

ゲストスピーカー

ゲストスピーカー

ゲストスピーカー

ソフトウェアデファインドコンピュート

UCS Director Expressによる一元的な、ラックサー

バネットワーク、Hadoopソフトの展開、管理

-サーバサイジング（HDD/Memory/NIC)

-ネットワークスイッチ

プンソースフレームワーク

各ブロックは複製され、異なる3サーバ（スレーブサーバ）

_SNN