• 検索結果がありません。

蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者 本に来て10 年経ちました 趣味は 登り Page 2

N/A
N/A
Protected

Academic year: 2021

シェア "蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者 本に来て10 年経ちました 趣味は 登り Page 2"

Copied!
44
0
0

読み込み中.... (全文を見る)

全文

(1)

Hadoopの今とこれから

Yifeng Jiang

Solutions Engineer, Hortonworks

(2)

Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

自己紹介

蒋 逸峰

(Yifeng Jiang)

Solutions Engineer, Hortonworks

Apache HBase本の作者

⽇本に来て10年経ちました…

趣味は⼭登り

(3)
(4)

Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Hadoopコミュニティのアクティビティ

コード⾏数の増加

(5)

Hortoworksのオープンリーダーシップ

組織毎のコード貢献(2014年)

(6)

Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HortonworksのApache

コミュニティに対する影響力

コミッターの多くが

Hortonworks社員

-- Apache

®

Hadoop™プロジェクトの

全コミッターの1/3、および他の重要プロジェクト

のコミッターの大多数を占める

Hortonworksコミッターの役割

Open Enterprise Hadoopの革新と拡張

Hadoopロードマップに対する影響力

リーダーを通じて

重要な要件をコミュニティに

伝達

(7)

About Hortonworks

顧客

556 のお客様 (2015年8月5日時点)

2015年2期に119 新規お客様追加

NASDAQに上場(HDP)

Hortonworks Data Platform

完全にオープンなマルチテナント

プラット

フォーム

あらゆるデータ

あらゆるアプリ

一貫したエンタプライズ

サービス:セキュリ

ティ

オペレーション

ガバナンス

お客様のためのパートナー

オープンソース

コミュニティのリーダー

エン

タプライズ要件を満たすための革新に注力

比類のない

Hadoopのサポートサブスクリプ

ション

Founded in 2011

Original 24 architects, developers,

operators of Hadoop from Yahoo!

740+

E M P L O Y E E S

1350+

E C O S Y S T E M

P A R T N E R S

(8)

Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

お客様は、

Hortonworks

®

のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や

コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま

れている。

Social Mapping Payment Tracking Factory

Yields Detection Defect Call Analysis Machine Data Product Design M & A Due Diligence Next Product Recs Store Design Risk Modeling Ad Placement Proactive Repair Disaster Mitigation Investment Planning Inventory Predictions Customer Support Sentiment Analysis Supply Chain Ad Placement Basket Analysis Segments Cross-

Sell Customer Retention Scorecards Vendor Optimize Inventories OPEX Reduction Mainframe Offloads Historical Records Data as a Service Public Data Capture Fraud Prevention Device Data Ingest Rapid

(9)

Page 9 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Symantec

(10)

Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

ストリーム中の脅威データを分析することで、

攻撃を事前に阻止

Symantec

Symantec™ Global Intelligence Network は、157 を超える

国々に設置された

5,700万台以上の攻撃センサーで構成される

1億2,000万台のデバイスで作業する7,500万人のユーザーから

のデータストリーム

レガシープラットフォームでは、脅威検出のためのログファイル分

析処理で

3~4時間の遅延が発生

この処理時間が攻撃者の標的になる可能性があった

(11)

Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

数十億件のログのリアルタイム処理により

すばやい対応が可能に

Symantec

新しいクラウドプラットフォームに顧客を移管

1日あたり400億件のログに対し脅威データのストリーム処理を

実行することで、企業顧客を確実に保護

数十ペタバイトの脅威ログデータを対象とした長期ストレージと

機械学習により、攻撃の予防的検出が可能に

(12)

Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

かつてない規模の統合、コスト削減、

迅速な保護を実現

Symantec

脅威検出に要する時間が

4時間から2秒に

脅威検出時間を

5000分の1に短縮

Symantecクラウドチームは、プロアクティブで動的なクラウドの

生成・拡張に向けて

AmbariとCloudbreakを利用

「これらの機能を

取り上げ、できるだ

け多くの開発者やア

ナリストに届ける必

要があります」

クラウドプラット

フォームリーダー

デビッド “DTL” リン

David “DTL” Lin

(13)

Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Open Enterprise Hadoopでの

カスタマージャーニー

Symantec

デバイス


データ取り込み

メタデータ

収集

脅威

記録アーカイブ

セキュリティログ

分析

脅威検出

攻撃者

IP検出

統合

セキュリティ

脅威予測

プロアクティブな

防御

Greenplum

オフロード

(14)

Hortonworks Data Platform (HDP)

(15)

Open

Enterprise

Hadoop

オープン

相互運用性

一元化

万全の対応

(16)

Open

Enterprise

Hadoop

Page 16 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

相互運用性

一元化

万全の対応

(17)

Page 17 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

完全にオープンな

Hortonworks Data Platform

リスクの解消

完全なオープンソースである

Apache技術を提

供することで

ベンダー固定化のリスクを解消

コミュニティイノベーションの最大化

数百社の企業の数百人の開発者により

コミュニティイノベーションを最大化

シームレスな統合

共同エンジニアリングの取り組みを通して

他の先進技術を統合

コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化

イ ノ ベ ー シ ョ ン の

優 位 性

独自の HADOOP 時間 イ ノベ ー シ ョ ン オープンコミュニティ

(18)

Open

Enterprise

Hadoop

Page 18 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

相互運用性

万全な対応

オープン

(19)

YA R N

データオペレーティングシステム

オペレーション セキュリティ ガバナンス ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索

プラットフォーム一元化

オペレーション

ガバナンス

セキュリティ

多様なアプリケーション

単一クラスタで同時実行

データ取り込みの最大化

ローフォーマットかどうかに関係なく

新旧の

ソースに対応

ビッグデータ資産の共有

すべての事業部門

機能部門

ユーザー間で

の共有

YARN ベースのアーキテクチャによるプラットフォーム一元化

(20)

Open

Enterprise

Hadoop

万全な対応

オープン

相互運用性

一元化

(21)

最大限の柔軟性を提供

あ ら ゆ る デ ー タ

新旧のデータセット

あ ら ゆ る ア プ リ ケ ー シ ョ ン

複数のデータ分析エンジン

あ ら ゆ る 場 所

あらゆる環境に対応

バッチ

インタラクティブ

検索

ストリーミング

機械学習

クリック

ストリーム

センサー

ソーシャル

モバイル

ジオ

ロケーション

サーバ

ログ

Linux

Windows

クラウド

オンプレミス

(22)

業界標準との同期

エコシステム相互運用性の向上

Hortonworksが立ち上げたOpen Data

Platform(ODP)イニシアティブの一環

選択肢の開放

HDPと統合された複数のベンダーのコンポーネ

ントを選択可能

無駄な当て推量の解消

システムバージョンの調整を行う必要がある

アーキテクトに対するメリット

HDP Apache Hadoop対応 オープン プラットフォーム Pivotal HD IIP Apache Hadoop Apache Ambari

O D P

コ ア

(23)

エコシステムとの統合

(24)

Open

Enterprise

Hadoop

Page 24 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

オープン

一元化

相互運用性

(25)

信頼できるガバナンス

データ管理

データライフサイクル全般における管理

メタデータによるモデリング

ハイブリッドアプローチにより総合的なデータリ

ネージが実現

相互運用ソリューション

共通のメタデータストアにより

Hadoopエコシス

テム全体で相互運用が可能

オペレーション セキュリティ GOVERNANCE ガバナンス

YA R N

データオペレーティングシステム

ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索

(26)

Apache Atlas – データガバナンスのための基盤

Rest API

Atlasサービス

HDPコンポーネント

外部ツールへ

の柔軟なアクセスが可能

SQLのようなドメイン特化型言語を使った検索

キーワード

ファセット

フルテキストによる検索

データリネージとスキーマ

HiveServer2上のすべてのSQLランタイムアクティビ

ティを取得

エクスチェンジ

既存のメタデータのインポートと

ダウンストリームシ

ステムへのメタデータのエクスポート

Apache Atlas

ナレッジストア

監査ストア

モデル 型システム ポリシールール 分類

タグベースのポリシー

データライフサイクル

管理

リアルタイムのタグベースアクセス制御

REST API

サービス

検索

リネージ

エクスチェンジ

ヘルスケア HIPAA HL7 l金融 SOX Dodd-Frank エネルギー PPDM 小売業 PCI PII その他 CWM

(27)

YA R N

データオペレーティングシステム

OPERATIONS セキュリティ ガバナンス ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索

安定した運用

一元化

Hadoopクラスタの管理・監視

自動プロビジョニング

Cloudbreak APIにより

オンプレミスかクラウド

のいずれかの環境に数分でクラスタをプロビ

ジョニング

マネージドサービス

ダッシュボードとアラート機能により

高可用性

と一貫したライフサイクル管理を提供

オペレーション

(28)

包括的なセキュリティ

包括的なセキュリティ

プラットフォームアプローチによるセキュリティ

暗号化

保存データと移動中のデータの暗号化

管理の一元化

セキュリティポリシーとユーザー認証の管理

きめ細かな承認

データアクセスを管理

オペレーション SECURITY ガバナンス セキュリティ

YA R N

データオペレーティングシステム

ストレ ージ ストレ ージ 機械学習 バッチ ストリーミン グ インタラクティ ブ 検索

(29)

安定した運用と包括的なセキュリティ

安定した運用

容易なセットアップと設定

リアルタイムのカスタマイズが可能なダッシュ

ボード

包括的なセキュリティ

すべてのコンポーネントの承認と監査

HDFSの透過的なデータ暗号化

(30)

© Hortonworks Inc. 2015. All Rights Reserved

ビッグデータの技術革新

~ Hadoop Core ~

(31)

Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFSとYARN – イノベーションの基盤

Hadoop / YARNを用いたデータオペレーティングシステム

あらゆるアプリケーション

データセット

環境に対応する

100%

オープンソースのマルチテナント型データプラットフォーム

共有エンタープライズサービスの集中型アーキテクチャをベース

に構築

拡張可能な階層型ストレージ

リソース

/

ワークロード管理

信頼性に優れたデータガバナンスとメタデータ管理

安定した運用

包括的なセキュリティ

開発者向け

API

とツール

YARN

ガバナンス

セキュリティ

オペレーション

リソース管理

ストレージ コモディティ アプライアンス クラウド データアクセス:バッチ、インタラクティブ、リアルタイム

(32)

Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFS

:拡張性、信頼性、安全性に優れたストレージプラットフォーム

拡張性

データの増加にあわせて

水平方向

拡張

1つ以上の

ノードを

1度に追加

信頼性

高可用性(

HA)とフォルトトレラント性により

データの

損失と破損を防止

コスト効率

階層型ストレージで汎用ハードウェアを採用

クロスワークロードアクセス

安全性

強力なアクセス制御と認証メカニズムの統合

すべてのユーザー

/グループのデータセットへのアクセス

を細かく制御

移動中のデータ

/保存データを保護

HDFS

YARN:データオペレーティングシステム

C

A B C

B

B

A

C

B

A B

A

C

A

標準ベースの データインターフェイス NFS 発信元/ 発信先 REST RPC 発信元/ 発信先 発信元/ 発信先 あらゆるフォーマットのあらゆるデータを取り込み、保管 柔軟なリードアクセスにより多様なワークロードに対応

(33)

Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFSのエンタプライズ機能

エンタプライズ機能

Namenode HA(冗⻑化)

単⼀障害点がない

ファイル システム スナップショット

HDFS NFS Gateway

HDFSをNFSマウント

データを簡単にHadoopに

データ暗号化 (HDFS TDE)

データを置くだけで⾃動暗号化

(34)

Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFS -- 大規模向け更に効率アップ

⼤規模向け

ティア・ストレージ

HDD, SSD, アーカイブ, RAM Disk

アーカイブ・ティア:コストが最⼤1/6までダウン

Erasure Code

⽇本のエンジニアからの貢献が⼤きい

3レプリケーションと⽐べ

ストレージ効率が2倍

Cluster Storage and Compute Capacity

Cluster Storage Utilization

(35)

Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

(36)

Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

(37)

Page 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDP 2.3内のApache Spark 1.4.1

完璧な組み合わせ

セキュリティ

プラットフォーム統合

Zepplinによる可視化など

リソース管理

– Spark on YARN

マルチテナントワークロードと予測可能な

SLA

SparkR*

RデータサイエンティストはSpark機械学習を活用

可能

アプリケーション

バナ

統合

セキュ

リティ

オペ

レーシ

ョン

YARN

HDFS

Scala Java Python API Sparkコアエンジン Sparkコアエンジン Spark SQL Spark Streaming MLlib GraphX

(38)

Page 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

YARN - エコシステムの拡大

YARN:データオペレーティングシステム データアクセス 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System

データ管理 環境の選択肢 Linux Windows オンプレミス クラウド バッチ MapReduce スクリプト Pig 検索 Solr SQL Hive NoSQL HBase Accumulo Phoenix ストリーム Storm インメモリ Spark その他 ISVエンジン

Tez Tez Slider Slider

SAS統合

SASで、Hadoopからのデータの取り出し、

Hadoopを利用したインメモリ処理、 Hadoop

クラスタ内での直接動作が可能に

Slider

Hbase、Accumolo、StormなどのSlider経由で

YARN上のDocker化アプリケーションを実行

Solr

HDP 2.3を利用して Solr検索エンジンをYARN

上で実行できるように

YARNとDocker

セキュアなクラスタおよびアンセキュアなクラス

タでコンテナを実行するための透過的な方法

(39)

Page 39 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Data Operating System

Enable all data and applications

TO BE

accessible and shared

BY

(40)
(41)
(42)

Page 42 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 42 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Data Discovery and Predic1ve Analy1cs

Elefante Wine Inc.

Use Case & Demo

Hortonworksブースに

お越しください

(43)

Page 43 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 43 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

サンドボックスをダウンロードし、試し

てみてください:

(44)

Page 44 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Page 44 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

参照

関連したドキュメント

これに対して、台湾人日本語学習者の依頼の手紙 100 編では、Ⅱ−

少し息抜きをしたい時や趣味に没頭したい時はもちろん、在宅勤務やちょっとした作業をする際のワーキング

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

2020 年 9 月に開設した、当事業の LINE 公式アカウント の友だち登録者数は 2022 年 3 月 31 日現在で 77 名となり ました。. LINE

創業当時、日本では機械のオイル漏れを 防ぐために革製パッキンが使われていま

子どもたちは、全5回のプログラムで学習したこと を思い出しながら、 「昔の人は霧ヶ峰に何をしにきてい

支援級在籍、または学習への支援が必要な中学 1 年〜 3

経済学研究科は、経済学の高等教育機関として研究者を