OSS 体験セミナー Hadoop の概要高スケーラブルな分散管理基盤 2 つのコア機能分散ファイルシステム (HDFS) 分散処理フレームワーク (Map/Reduce) BigData の管理基盤として注目分散処理基盤 (Map/Reduce) Hadoop 分散ファイルシステム (HDF

(1)

Hadoopスタートアップセミナー

NECラーニングテクノロジー研修事業部土井正宏

(2)

Hadoopの概要

▌

高スケーラブルな分散管理基盤

▌

２つのコア機能

▌分散ファイルシステム（HDFS） ▌分散処理フレームワーク（Map/Reduce）

▌

BigDataの管理基盤として注目

NEC Group Internal Use Only

OS OS

Hadoop分散ファイルシステム（HDFS） OS 分散処理基盤（Map/Reduce）

Apache Hadoop（以下 Hadoop）は高い拡張性を持つ分散処理基盤ソフトウェアで、 BigData の管理基盤として注目されています。Hadoop は以下の機能を提供します。

 分散ファイルシステム（HDFS）

複数サーバーの HDD を束ねて仮想的なファイルシステムを構成する機能

 分散処理フレームワーク（Map/Reduce）

(3)

BigData概要

▌

無尽蔵に増え続ける非構造データ（表で管理できない）

例：メール本文、つぶやき、アクセスログ・・・

▌

更新は発生しない

一度送ったメール本文はあとから修正できない

▌

解析→構造化が必要

そのままだとゴミデータの山

Page 3 © NEC Corporation 2010

社員の情報（表構造）メール本文（非構造データ） BigData とは無尽蔵に増え続けるデータのことです。BigData には以下の特徴があります。  非構造データ（例：電子メール、つぶやき、画像データなど）非構造データとは、データ項目に分類できないデータのことです。例えば、社員の情報は社員番号や社員名といった、全社員に共通する項目に分類できますが、社員が送付したメールの本文は決まった項目に分類できません。  更新がない BigData は一度送付した電子メールの内容は変更することができないように、基本的には更新処理は発生しません。メール以外にも、ブログ、つぶやき、画像データ、映像データ、GPS の位置情報、アクセスログといったデータも BigData に分類されます。 BigData はそのままの状態では情報がまとまっていないため、ビジネスに活用できません。よって、共通する項目を見つけ出してデータを構造化する必要があります。

(4)

なぜBigDataが注目されているのか？

▌

今まではBigDataをビジネスに活用できなかった

長期的に保存できない（大容量のストレージが必要） 解析処理に大量のCPUリソースを食う

▌

古いデータは削除

▌

Hadoopの登場によりBigDataを活用しやすくなった

▌

BigDataの中にビジネスに有益な情報が眠っている

業績UP 新しいサービスの創出

今まで企業は保有リソースの問題から、BigData をビジネスに活用することができませんでしたが、現在では Hadoop の登場によって、BigData を扱いやすくなりました。

一部の企業で BigData が活用され、その結果業績アップにつながった事例が報告されており、現在注目を集めています。

(5)

Hadoopの活用場面

BigData解析 DWH/BI 基幹系バッチ処理の高速化センサーネットワーク

Hadoop の活用場面は現在様々な企業で模索されておりますが、現状では主に以下の４つの用途で活用できると考えられます。  BigData 解析  DWH/BI  基幹バッチ処理の高速化  センサーネットワーク

(6)

BigData解析

▌

テキストマイニング

▌

ソーシャルメディア分析

つぶやき、ブログの解析

▌

思いもよらなかった製品・サービスの強み、弱みを発見

BigData 収集分析結果好評・丌評若者に人気・・・etc 分析つぶやきブログ BigData を分散処理により解析します。解析結果は DWH にロードし、従来の BI ツールで分析することができます。また、BigData は自社内だけにとどまらず、ソーシャルメディアの中にも存在しています。例えば、ブログやつぶやきの文字列からキーワードを抜き出して整理、集計すると企業や製品の好感度を把握することができます。

(7)

DWH/BI

▌

レコメンドシステム（おすすめ）

RDBよりも高速に処理

▌

エコシステムの活用

Hive、Pig→構造データの解析

購入履歴分析 _分析結果

ECサイト

アクセスログあなたへのおすすめ商品は… DWH/BI 用途での活用例として、EC サイトの商品ページへのアクセスや購入履歴の分析結果を「おすすめ商品」として提示する、レコメンドシステムが挙げられます。このような処理は RDB でも実現できますが、Hadoop により、分析時間が格段に短縮された事例が報告されています。また、この用途では明確な構造をもったデータを扱うことが多いので、Hive や Pig といった関連プロダクトを活用することで、より効率よく分析できます。

(8)

センサーネットワーク

▌

GPSや各種センサーが収集した情報を解析

▌

渋滞予測、気象予報、電力予測・・・etc

車載GPS 温度・湿度センサー電力計各種センサーが収集する情報の管理もまた、Hadoop が得意とする場面です。Hadoop のスケーラビリティにより、センサーが送り続けるデータを効率よく管理できます。車載 GPS から渋滞を予測したり、スマートフォンの GPS からショッピングモール内の人の流れを解析したり、電力計の情報から必要な電力量を予測するなどの用途で活用できると考えられます。

(9)

基幹系バッチ処理の高速化

▌

Hadoopのスケーラビリティを活用して、一時的に超高性能な処理基盤を

構築

▌

月次、日次バッチ処理の高速化

▌

Iaasの活用

平常時バッチ処理実行時バッチ処理終了 Hadoop のスケーラビリティを利用し、Hadoop クラスタを一時的なスーパーコンピューターとして利用することも考えられます。また、IaaS のサービスを活用すれば、自社内にリソースを所有する必要がなく、費用削減につながります。

(10)

Hadoopクラスタの構成

▌

マスタースレーブ方式

▌

マスター

メタデータを管理（NameNode） ジョブを監視（JobTracker）

▌

スレーブ

データを保存（DataNode） タスクを実行（TaskTracker）

マスターノード群スレーブノード群 NameNode Hadoopクラスタ JobTracker Secondary NameNode TaskTracker

DataNode TaskTracker_DataNode

TaskTracker DataNode Hadoop クラスタは構成するサーバー間に親子関係があり、親をマスターノード、子をスレーブノードと言います（マスタースレーブ方式）。マスターノードとスレーブノードの役割は以下の通りです。  マスターノード  NameNode：HDFS のメタデータを管理  JobTracker：Map/Reduce のタスクを監視  スレーブノード  DataNode：データブロックを保存  TaskTracker：Map/Reduce のタスクを実行各プロセスは別々の物理サーバーで起動することもできますが、一般的に NameNode と JobTracker、DataNode と TaskTracker をそれぞれ共存させます。

(11)

分散ファイルシステム（HDFS）

▌

スレーブノード（DataNode）のディスクを仮想的に一台に見せる

▌

マシンを追加するだけで簡単に拡張可能

▌

データブロックに分割

▌

レプリカを保持

１００G １００G １００G

３００G

ブロックA データB ブロックC ブロックA データB ブロックC ファイル

Hadoop のコア機能の一つである HDFS（Hadoop 分散ファイルシステム：Hadoop Distributed File System）は、スレーブノードの HDD を束ねて、大容量の仮想ストレージを構成します。空き容量が減ってきた際は、新規スレーブノードを立ち上げることで簡単に容量を増やすことができます。ファイルを HDFS 上に配置すると、データブロックという単位に分割されて、スレーブに配置されます。各データブロックは障害に備え、別ノードにコピー（レプリカ）を持っています。マスターノードがスレーブノードの死活監視を行っており、スレーブが停止すると該当するデータブロックのレプリカを作成します。この仕組みにより、常に一定数のレプリカが保障されます。

(12)

ハンズオン

▌

HDFS上にローカルのファイルをアップロードします

▌

WebUI ( http://master:50070 )でクラスタの構成を確認

▌

HDFS上にディレクトリを作成

▌

HDFSにファイルをロード

▌

WebUI ( http://master:50070 )でファイルを確認

本セミナーでは、講師マシンをマスターとする Hadoop クラスタを操作します。

(13)

2. HDFS 上にディレクトリを作成します。端末を開き、以下のコマンドを実行します。 [hadoop@localhost ~]$ hadoop dfs -mkdir foo

[hadoop@localhost ~]$ hadoop dfs –ls ・・・

drwxr-xr-x - hadoop supergroup 0 2012-02-05 14:22 /user/hadoop/foo ・・・

3. ”data”ファイルを HDFS 上に配置します。 [hadoop@localhost ~]$ hadoop dfs -put data ./foo

※大きなサイズのファイルを配置するため、時間がかかります。 [hadoop@localhost ~]$ hadoop dfs -ls ./foo

Found 1 items

-rw-r--r-- 3 hadoop supergroup 256900332 2012-02-05 14:23 /user/hadoop/foo/data

4. アップロードしたファイルを WebUI から確認します。

「Brouse File System」→「user」→「hadoop」→「foo」→「data」の順にクリックします。

4 ブロック×3 レプリカに分割されていることを確認します。

(14)

Map/Reduce

▌

分散処理のフレームワーク

▌

Jobの自動管理

▌

データローカリティの実現

プログラム（Job） Job

Task Task Task

Task Task Task JobをTaskに分解 Taskを実行 Map/Reduce は、Hadoop が提供する分散処理のフレームワークです。ユーザーは実行したい処理をジョブとして渡すと、JobTracker がタスクに分解し、各 TaskTracker に割り当てます。TaskTracker は割り当てられたタスクを実行します。なお、従来の分散処理と違い、ユーザーはタスク割り当てを意識する必要がありません。また、JobTracker がタスクの進行を監視し、エラーが起きたタスクは再実行します。そのため、プログラムにエラー処理を記述する必要がありません。スレーブノードは可能な限り、自分が管理するデータブロックを処理します。そのため、ノード間のデータの通信が発生しにくく、ネットワークトラフィックを抑制できます。このことをデータローカリティといいます1_。

(15)

Map/Reduceのしくみ

▌

Map

分析の対象となる<Key,Value>ペアを作成

▌

Shuffle&Sort

Keyの値でソートし集約

▌

Reduce

各<Key,Value>ペアに対し、処理を行う（例：Valueの値の合計値を求める）

Map/Reduce の処理は以下の３つのフェーズで構成されています。ただし、Job を定義する際に、ユーザーが指定するのは Map と Reduce の処理内容のみで、Shuffle&Sort については定義する必要はありません。  Map 分析の対象になる<Key,Value>のペアを作成します。例えば、Hadoop のサンプルプログラムに含まれる wordcount（文章中の英単語を数える）では、<単語,1>のペア作ります（例：<To,1>）  Shuffle&Sort

Map の実行結果を Key の値で集約し、<Key,Values>のペアを作ります。この処理は自動的に行われます2_{（例：<To,1,1>）}

 Reduce

Values に対し、集計などの処理を行います。wordcount では、Values の値の合計値を算出します（例：<To,2>）

(16)

ハンズオン

▌

Map/Reduceサンプルプログラムを実行（WordCount）

▌

事前に用意されたプログラムでdataを解析

▌

WebUI ( http://master:50030 )でM/Rの進行を確認

▌

WebUI ( http://master:50070 )で出力ファイルを確認

1. プログラムを実行します。HDFS 上の”data”ファイルに出現する単語をカウントします。

(17)

2. JobTracker の WebUI ( http://master:50030 )から Map/Reduce の進行を確認します。画面に表示された job_id をチェックします。

…

12/02/05 14:54:44 INFO mapred.JobClient: Running job: job_201202051408_0002 12/02/05 14:54:45 INFO mapred.JobClient: map 0% reduce 0%

12/02/05 14:55:28 INFO mapred.JobClient: map 11% reduce 0% 12/02/05 14:55:29 INFO mapred.JobClient: map 19% reduce 0% 12/02/05 14:55:30 INFO mapred.JobClient: map 30% reduce 0% 12/02/05 14:55:31 INFO mapred.JobClient: map 43% reduce 0%

(18)

3. NameNode の WebUI ( http://master:50070 )から作成されたファイルの中身を確認します。

(19)

Hadoop注意点（よくある誤解）

▌

Hadoopはデータベースではない（データベースの下のレイヤーに相当）

▌

従来のデータベースに置き換わる技術ではない

▌

共有ストレージとしての利用はできない

小さなファイルの管理には向かない ファイルの中身の編集ができない

▌

内容の変更がなく無尽蔵に増加していくBigDataの管理に特化

OS OS Hadoop SQL Server Oracle OS OS HBase Hadoop はデータベースのソフトウェアではありません。HDFS はデータベースの下のレイヤーに位置します。現在 HDFS 上にデータを格納するデータベースのソフトウェアとして、 NoSQL データベースの HBase が提供されています。また、HDFS は共有ストレージとしての利用はできません。HDFS はシステム上、小さなファイルの格納には向きません。ファイル数が増えるとメタデータが増大し、NameNode を圧迫するからです。また、Hadoop は IO 分散による高スループットを目的として設計されており、低レイテンシな特性が求められる操作には向いていません。さらに、HDFS 上のファイルは、メモ帳などで中身を変更することができません。以上のことから、Hadoop は共有ストレージの代わりではなく、BigData の管理に特化した基盤ソフトウェアと言えます。

(20)

Page 17

NECラーニングの研修サービス

▌

Hadoop基礎[コースコード：DB081]

１日コース：42,000円（税込） マシン実習付き 今回のセミナー内容に加え、インストール、パラメーターの設定、データ書き込み・読み込み時の動作、Hadoopの関連プロダクトなどについて学習します これからHadoopの導入を検討している技術者の方、営業部門の方、新入社員の方におすすめのコースです

▌

より実践的な後続コースも近日提供予定

提供開始時はHP、およびメールマガジンでアナウンスします

(21)

近日提供予定コース

▌

Cloudera Apache Hadoop 管理者向けトレーニング

[コースコード：DB090]

▌

Cloudera Apache Hadoop 開発者向けトレーニング

[コースコード：DB091]

▌

提供開始のアナウンスは弊社HPまたはメールマガジンで行います。この

機会に是非、RSSおよびメルマガ登録をお願いします！！！

(22)

(23)