処理結果
処理プログラム
データを自動的 に分割し、
分散配置を行う
マスター
サーバ HDFS
Map Reduce
Map Reduce
Map Reduce
処理結果 並列分散処理を 行うプログラム データ
ディスク I/Oが ボトル ネックと なる
ディスクI/O が分散される
複数のサーバで 1つの論理FSを
構成
大量データを全件走査するバッチ処理
数値に加え、文字列の処理や、マルチメディア処理まで対応可能 テラバイト/ペタバイト クラスの大量データの分析処理
大量データの情報系システム(レポート業務が基幹業務の場合は除く)
データ量が増大するシステム(サーバ追加でスケールアウト可能)
大量データから価値情報を見つけるBI的な使い方(Hive/Pigの利用)
小さいサイズ/件数のデータ処理(実行する前処理のオーバーヘッドがある)
トランザクション処理(RDBのようなトランザクション処理機能はない)
データを分割し個々処理した場合に結果が同じにならない分析処理 データへランダムアクセスする処理
リアルタイム処理やクイックレスポンスが求められるもの
基幹システムや情報系システムの信頼性を求められるバッチ
データ規模だけでなく、システム要件/業務要件も考慮が必要
◎ Hadoopに適しているもの
× Hadoopに適さないもの
2.Hadoopとパラダイムシフト
2.1 Apache™ Hadoop™概要
2.2 Hadoopがもたらすパラダイムシフト
●エンタープライズ向け サーバ、ストレージ
■高価なシステム
大量データの取り扱いには、高価な システム環境構築が必須
■高度な技術
専用ソフトウェアと高度な分析手法 などスペシャリストが必須
エンタープライズ向け 専用ソフトウェア
ハードウェア ソフトウェア
汎用ソフトウェア
オープンソース ソフトウェア
従来
Hadoopにより、これまで敷居の高かった大量データの分析が どこでも、誰でも、どんな規模からでも実現可能になります
●ミッドレンジ向け サーバ、ストレージ
●コモディティサーバ、
ストレージ
商用ソフトウェア
CPUやHDDの性能が飛躍的に 向上し、高機能なPCが廉価で 容易に手に入れられる時代
OSS利用のノウハウの高まりに よって、敬遠傾向から、積極的 な活用傾向へ転換している
■コモディティ化システム
高価な機器、大規模な設備が無くと も、PB級のデータが取り扱える
■オープンでグローバルな技術
世界中の誰でも入手、利用できる技 術やノウハウで、高度な分析も大量 データの取り扱いも可能
Hadoopによる
パラダイムシフト
6時間間隔
情報配信
より大量なデータを対象に…
Hadoopを利用することで、より大量なデータを短時間で 処理可能となり、新しい価値が生まれます
15分間隔
12時間
レポート作成 処理
2.2 Hadoopがもたらすパラダイムシフト
2.2.2 Hadoop利用により得られる価値
よりリアルタイムに… より多様なデータを対象に…
BtoC/ネット、センサ等の 社外情報への利用拡大
分析対象データ 範囲の拡大
1年分 10年分
グラフ
動画 文書
月次⇒日次作成へ