Hadoopの今とこれから
Yifeng Jiang
Solutions Engineer, Hortonworks
Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋 逸峰
(Yifeng Jiang)
•
Solutions Engineer, Hortonworks
•
Apache HBase本の作者
•
⽇本に来て10年経ちました…
•
趣味は⼭登り
Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopコミュニティのアクティビティ
コード⾏数の増加
Hortoworksのオープンリーダーシップ
組織毎のコード貢献(2014年)
Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HortonworksのApache
コミュニティに対する影響力
コミッターの多くが
Hortonworks社員
-- Apache
®
Hadoop™プロジェクトの
全コミッターの1/3、および他の重要プロジェクト
のコミッターの大多数を占める
Hortonworksコミッターの役割
Open Enterprise Hadoopの革新と拡張
Hadoopロードマップに対する影響力
リーダーを通じて
、
重要な要件をコミュニティに
伝達
About Hortonworks
顧客
•
556 のお客様 (2015年8月5日時点)
•
2015年2期に119 新規お客様追加
•
NASDAQに上場(HDP)
Hortonworks Data Platform
•
完全にオープンなマルチテナント
プラット
フォーム
。
あらゆるデータ
、
あらゆるアプリ
。
•
一貫したエンタプライズ
サービス:セキュリ
ティ
、
オペレーション
、
ガバナンス
お客様のためのパートナー
•
オープンソース
コミュニティのリーダー
、
エン
タプライズ要件を満たすための革新に注力
•
比類のない
Hadoopのサポートサブスクリプ
ション
Founded in 2011
Original 24 architects, developers,
operators of Hadoop from Yahoo!
740+
E M P L O Y E E S
1350+
E C O S Y S T E M
P A R T N E R S
Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
お客様は、
Hortonworks
®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や
コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま
れている。
Social Mapping Payment Tracking FactoryYields Detection Defect Call Analysis Machine Data Product Design M & A Due Diligence Next Product Recs Store Design Risk Modeling Ad Placement Proactive Repair Disaster Mitigation Investment Planning Inventory Predictions Customer Support Sentiment Analysis Supply Chain Ad Placement Basket Analysis Segments Cross-
Sell Customer Retention Scorecards Vendor Optimize Inventories OPEX Reduction Mainframe Offloads Historical Records Data as a Service Public Data Capture Fraud Prevention Device Data Ingest Rapid
Page 9 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Symantec
Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
ストリーム中の脅威データを分析することで、
攻撃を事前に阻止
Symantec
Symantec™ Global Intelligence Network は、157 を超える
国々に設置された
5,700万台以上の攻撃センサーで構成される
1億2,000万台のデバイスで作業する7,500万人のユーザーから
のデータストリーム
レガシープラットフォームでは、脅威検出のためのログファイル分
析処理で
3~4時間の遅延が発生
この処理時間が攻撃者の標的になる可能性があった
Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
数十億件のログのリアルタイム処理により
すばやい対応が可能に
Symantec
新しいクラウドプラットフォームに顧客を移管
1日あたり400億件のログに対し脅威データのストリーム処理を
実行することで、企業顧客を確実に保護
数十ペタバイトの脅威ログデータを対象とした長期ストレージと
機械学習により、攻撃の予防的検出が可能に
Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
かつてない規模の統合、コスト削減、
迅速な保護を実現
Symantec
脅威検出に要する時間が
4時間から2秒に
脅威検出時間を
5000分の1に短縮
Symantecクラウドチームは、プロアクティブで動的なクラウドの
生成・拡張に向けて
AmbariとCloudbreakを利用
「これらの機能を
取り上げ、できるだ
け多くの開発者やア
ナリストに届ける必
要があります」
クラウドプラット
フォームリーダー
デビッド “DTL” リン
(
David “DTL” Lin
)
Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Open Enterprise Hadoopでの
カスタマージャーニー
Symantec
デバイス
データ取り込み
メタデータ
収集
脅威
記録アーカイブ
セキュリティログ
分析
脅威検出
攻撃者
IP検出
統合
セキュリティ
脅威予測
プロアクティブな
防御
Greenplum
オフロード
Hortonworks Data Platform (HDP)
Open
Enterprise
Hadoop
オープン
相互運用性
一元化
万全の対応
Open
Enterprise
Hadoop
Page 16 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
一元化
万全の対応
Page 17 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
完全にオープンな
Hortonworks Data Platform
リスクの解消
完全なオープンソースである
Apache技術を提
供することで
、
ベンダー固定化のリスクを解消
コミュニティイノベーションの最大化
数百社の企業の数百人の開発者により
、
コミュニティイノベーションを最大化
シームレスな統合
共同エンジニアリングの取り組みを通して
、
他の先進技術を統合
コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化
イ ノ ベ ー シ ョ ン の
優 位 性
独自の HADOOP 時間 イ ノベ ー シ ョ ン オープンコミュニティOpen
Enterprise
Hadoop
Page 18 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
万全な対応
オープン
YA R N
データオペレーティングシステム
オペレーション セキュリティ ガバナンス ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索プラットフォーム一元化
オペレーション
、
ガバナンス
、
セキュリティ
多様なアプリケーション
単一クラスタで同時実行
データ取り込みの最大化
ローフォーマットかどうかに関係なく
、
新旧の
ソースに対応
ビッグデータ資産の共有
すべての事業部門
、
機能部門
、
ユーザー間で
の共有
YARN ベースのアーキテクチャによるプラットフォーム一元化
Open
Enterprise
Hadoop
万全な対応
オープン
相互運用性
一元化
最大限の柔軟性を提供
あ ら ゆ る デ ー タ
新旧のデータセット
あ ら ゆ る ア プ リ ケ ー シ ョ ン
複数のデータ分析エンジン
あ ら ゆ る 場 所
あらゆる環境に対応
バッチ
インタラクティブ
検索
ストリーミング
機械学習
クリック
ストリーム
センサー
ソーシャル
モバイル
ジオ
ロケーション
サーバ
ログ
Linux
Windows
クラウド
オンプレミス
業界標準との同期
エコシステム相互運用性の向上
Hortonworksが立ち上げたOpen Data
Platform(ODP)イニシアティブの一環
選択肢の開放
HDPと統合された複数のベンダーのコンポーネ
ントを選択可能
無駄な当て推量の解消
システムバージョンの調整を行う必要がある
アーキテクトに対するメリット
HDP Apache Hadoop対応 オープン プラットフォーム Pivotal HD IIP Apache Hadoop Apache AmbariO D P
コ ア
エコシステムとの統合
Open
Enterprise
Hadoop
Page 24 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
オープン
一元化
相互運用性
信頼できるガバナンス
データ管理
データライフサイクル全般における管理
メタデータによるモデリング
ハイブリッドアプローチにより総合的なデータリ
ネージが実現
相互運用ソリューション
共通のメタデータストアにより
、
Hadoopエコシス
テム全体で相互運用が可能
オペレーション セキュリティ GOVERNANCE ガバナンスYA R N
データオペレーティングシステム
ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索Apache Atlas – データガバナンスのための基盤
Rest API
Atlasサービス
、
HDPコンポーネント
、
外部ツールへ
の柔軟なアクセスが可能
SQLのようなドメイン特化型言語を使った検索
キーワード
、
ファセット
、
フルテキストによる検索
データリネージとスキーマ
HiveServer2上のすべてのSQLランタイムアクティビ
ティを取得
エクスチェンジ
既存のメタデータのインポートと
、
ダウンストリームシ
ステムへのメタデータのエクスポート
Apache Atlas
ナレッジストア
監査ストア
モデル 型システム ポリシールール 分類タグベースのポリシー
データライフサイクル
管理
リアルタイムのタグベースアクセス制御
REST API
サービス
検索
リネージ
エクスチェンジ
ヘルスケア HIPAA HL7 l金融 SOX Dodd-Frank エネルギー PPDM 小売業 PCI PII その他 CWMYA R N
データオペレーティングシステム
OPERATIONS セキュリティ ガバナンス ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索安定した運用
一元化
Hadoopクラスタの管理・監視
自動プロビジョニング
Cloudbreak APIにより
、
オンプレミスかクラウド
のいずれかの環境に数分でクラスタをプロビ
ジョニング
マネージドサービス
ダッシュボードとアラート機能により
、
高可用性
と一貫したライフサイクル管理を提供
オペレーション包括的なセキュリティ
包括的なセキュリティ
プラットフォームアプローチによるセキュリティ
暗号化
保存データと移動中のデータの暗号化
管理の一元化
セキュリティポリシーとユーザー認証の管理
きめ細かな承認
データアクセスを管理
オペレーション SECURITY ガバナンス セキュリティYA R N
データオペレーティングシステム
ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索安定した運用と包括的なセキュリティ
安定した運用
容易なセットアップと設定
リアルタイムのカスタマイズが可能なダッシュ
ボード
包括的なセキュリティ
すべてのコンポーネントの承認と監査
HDFSの透過的なデータ暗号化
© Hortonworks Inc. 2015. All Rights Reserved
ビッグデータの技術革新
~ Hadoop Core ~
Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSとYARN – イノベーションの基盤
Hadoop / YARNを用いたデータオペレーティングシステム
あらゆるアプリケーション
、
データセット
、
環境に対応する
、
100%
オープンソースのマルチテナント型データプラットフォーム
共有エンタープライズサービスの集中型アーキテクチャをベース
に構築
拡張可能な階層型ストレージ
リソース
/
ワークロード管理
信頼性に優れたデータガバナンスとメタデータ管理
安定した運用
包括的なセキュリティ
開発者向け
API
とツール
YARN
ガバナンス
セキュリティ
オペレーション
リソース管理
ストレージ コモディティ アプライアンス クラウド データアクセス:バッチ、インタラクティブ、リアルタイムPage 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS
:拡張性、信頼性、安全性に優れたストレージプラットフォーム
拡張性
データの増加にあわせて
水平方向
に
拡張
し
、
1つ以上の
ノードを
1度に追加
信頼性
高可用性(
HA)とフォルトトレラント性により
、
データの
損失と破損を防止
コスト効率
階層型ストレージで汎用ハードウェアを採用
クロスワークロードアクセス
安全性
強力なアクセス制御と認証メカニズムの統合
すべてのユーザー
/グループのデータセットへのアクセス
を細かく制御
移動中のデータ
/保存データを保護
HDFS
YARN:データオペレーティングシステム
C
A B C
B
B
A
C
B
A B
A
C
A
標準ベースの データインターフェイス NFS 発信元/ 発信先 REST RPC 発信元/ 発信先 発信元/ 発信先 あらゆるフォーマットのあらゆるデータを取り込み、保管 柔軟なリードアクセスにより多様なワークロードに対応Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSのエンタプライズ機能
エンタプライズ機能
•
Namenode HA(冗⻑化)
•
単⼀障害点がない
•
ファイル システム スナップショット
•
HDFS NFS Gateway
•
HDFSをNFSマウント
、
データを簡単にHadoopに
•
データ暗号化 (HDFS TDE)
•
データを置くだけで⾃動暗号化
Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS -- 大規模向け更に効率アップ
⼤規模向け
•
ティア・ストレージ
•
HDD, SSD, アーカイブ, RAM Disk
•
アーカイブ・ティア:コストが最⼤1/6までダウン
•
Erasure Code
•
⽇本のエンジニアからの貢献が⼤きい
•
3レプリケーションと⽐べ
、
ストレージ効率が2倍
Cluster Storage and Compute Capacity
Cluster Storage Utilization
Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP 2.3内のApache Spark 1.4.1
完璧な組み合わせ
セキュリティ
、
プラットフォーム統合
、
Zepplinによる可視化など
リソース管理
– Spark on YARN
マルチテナントワークロードと予測可能な
SLA
SparkR*
RデータサイエンティストはSpark機械学習を活用
可能
アプリケーション
ガ
バナ
ン
ス
と
統合
セキュ
リティ
オペ
レーシ
ョン
YARN
HDFS
Scala Java Python API Sparkコアエンジン Sparkコアエンジン Spark SQL Spark Streaming MLlib GraphXPage 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN - エコシステムの拡大
YARN:データオペレーティングシステム データアクセス 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File Systemデータ管理 環境の選択肢 Linux Windows オンプレミス クラウド バッチ MapReduce スクリプト Pig 検索 Solr SQL Hive NoSQL HBase Accumulo Phoenix ストリーム Storm インメモリ Spark その他 ISVエンジン
Tez Tez Slider Slider
SAS統合
SASで、Hadoopからのデータの取り出し、
Hadoopを利用したインメモリ処理、 Hadoop
クラスタ内での直接動作が可能に
Slider
Hbase、Accumolo、StormなどのSlider経由で
YARN上のDocker化アプリケーションを実行
Solr
HDP 2.3を利用して Solr検索エンジンをYARN
上で実行できるように
YARNとDocker
セキュアなクラスタおよびアンセキュアなクラス
タでコンテナを実行するための透過的な方法
Page 39 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Data Operating System
Enable all data and applications
TO BE
accessible and shared
BY
Page 42 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 42 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Data Discovery and Predic1ve Analy1cs
Elefante Wine Inc.
Use Case & Demo
Hortonworksブースに
お越しください
Page 43 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 43 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
サンドボックスをダウンロードし、試し
てみてください:
Page 44 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 44 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow