• 検索結果がありません。

本当に必要なビッグデータ活用インフラはこれだ!! PivotalHD + Isilon が作り出すデータレイク構想 東京エレクトロンデバイス株式会社 CN 事業統括本部 2014 年 8 月 本掲載内容に関するお問合せはこちらにお願いします 東京エレクトロンデバイス株式会社 CN 事業統括本部 TE

N/A
N/A
Protected

Academic year: 2021

シェア "本当に必要なビッグデータ活用インフラはこれだ!! PivotalHD + Isilon が作り出すデータレイク構想 東京エレクトロンデバイス株式会社 CN 事業統括本部 2014 年 8 月 本掲載内容に関するお問合せはこちらにお願いします 東京エレクトロンデバイス株式会社 CN 事業統括本部 TE"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

本当に必要なビッグデータ活用インフラはこれだ!!

〜Pivotal HD + Isilonが作り出すデータレイク構想〜

東京エレクトロン デバイス株式会社

CN事業統括本部

2014年8月

本掲載内容に関するお問合せはこちらにお願いします。 東京エレクトロン デバイス株式会社 CN事業統括本部TEL:03-5908-1977

(2)

昨今、ビッグデータ活用に関する話題は、テレビ・新聞・各種メディアなどでも取り上げられ、大きな期待とともに 注目されています。その一方で、ビッグデータ活用を実現するために、人・データ・システムの3つの観点で実現し なければならない要素に対する取り組みが必要となってきているのも事実です。本資料では、その中でもシステムに フォーカスを当て「データレイク」と呼ばれるアプローチにより実現するビッグデータインフラについて解説します。 <ビッグデータとは?> ビッグデータというと、単に大規模なデータを「扱う」という意味に捉えられがちです。ですが、本当の意味での ビッグデータとは、これまでデータ活⽤の対象としなかったデータをも活⽤対象とし、そのデータの蓄積・処理・分 析を可能にするシステムとそれを使いこなす人材、これらの要素全てを包括したものを指します。これらの要素が 揃って初めて本来の意味を成し、それを実現した企業がビジネスチャンスを⾒出したことから、ビッグデータという ⾔葉が注⽬され始めたといわれています。つまり、様々なデータを「活⽤」していくことこそが、ビッグデータの本 当の意味となります。 ビッグデータの「活用」という観点では、従来から 基幹システム等で管理・利⽤される顧客データや売 上データなどの構造化データに加えて、今まで活用 対象として⾒られていなかったログデータやセン サーなどの非構造化データも活用対象データとなり ます。加えて、そのデータを使いこなすためのシス テムと人材、計4つの要素がビッグデータには含まれ ます(図1)が、このシステムの部分には、多くの技 術が登場しており、どの技術が最適なシステムを実 現してくれるのか判断が難しくなってきているとい う課題があります。 では、多くの企業ではどういったデータ活⽤が⾏わ れているのかを考えてみます。 <データ活用現場における、よく聞く声> データ活⽤そのものは、規模の⼤⼩や深さを問わず多くの企業で少なからず⾏われています。全社レベルのデータ活 用を実現するまでには、小規模なワーキンググループでデータ活用方法とKPIを設定し、PDCAサイクルを繰り返し、 他の部⾨へと範囲・規模を拡⼤しながら全社展開していくというアプローチが⼀般的な流れとなっています。しかし、 この流れの中でシステムを構築していくため、現場レベルではそれぞれが担当する業務に則した使い勝⼿の良い部⾨ 専⽤のシステムを構築したり、新しいプロジェクトのための専⽤システムが構築されたりすることも事実です。例え ば、マーケティング部⾨⽤・商品管理⽤・経営分析⽤といった部⾨や⽤途に合わせて個別にデータウェアハウスが⽴ ち上がっている状態が典型です。まさにデータウェアハウスのサイロ化です。さらに、そのサイロ化されたシステム からデータを抽出し、加工された情報が、個人PCにだけ保存されており、有益な情報であるにもかかわらず共有され ていないという事もあります。 現在、データ活⽤への注⽬が⾼まる中で新しい気づきが得られるようなデータ分析を⾏う取り組みを開始している企 業では、このサイロ化したシステムが実は大きな問題となっています。 データ活⽤の現場では、⼤きく経営層、パワーユーザー、管理職・⼀般社員の3つのプレイヤーに分けられます。 データ活⽤への意識が⾼まれば⾼まるほど、各プレイヤーにより活⽤⽅法のバリエーションは増えますが(図2)、 サイロ化によりデータが点在するため、各⾃が必要なデータが⾒えない・活⽤できないという状況が⽣まれ、結果と してビックデータ活用の大きな課題となっています。(図3)。 人材、組織 データサイエンティストなど データ処理・蓄積・分析技術 Hadoop、NoSQL、機械学習、東経解析など 非構造化データ テキスト、動画、音声、センサー、GPSなど 構造化データ 顧客データ、売上データなど 図1:ビッグデータの構成要素 管理職 一般社員 パワー ユーザー 経営層 モニタリングツール モニタリングツール(ダッ シュボード)にて計画に対 する達成度の検証 戦略修正⽅針の決定 分析ツール データを使い分析や シュミレーションを⾏ い、KPI/計画値の⽴案 レポーティングツールで KPI/計画値を確認しなが ら日常業務を実施 レポーティングツール  一面的なデータだけでなく、社外や過去履歴を含めた多 面的なデータを使った傾向分析結果が欲しい  新しい気づきが得られるような分析データが欲しい  オンデマンドで⾒たい観点の分析結果が欲しい  様々な分析手法を試したいが、分析対象データが乏しい  分析対象データを⼀元管理できていないため、理想的な 分析が⾏えない  閲覧可能なデータが限られている環境しかない  個々人で好きな観点でデータを使った傾向把握をしたい が、元になるデータが散在しているため実現ができない 図2:データ活用者の課題

経営層

パワーユーザー

管理職・⼀般社員

(3)

<Pivotalのデータレイクの考え方> Pivotal社は、EMC社、VMware社とGE社 (General Electric社)から共同出資され設⽴ されたEMCグループ会社の1社です。EMC、 VMware社が開発提供を⾏っていたミドルウエ ア製品群を集約し、EMCグループの第三の柱 としてビジネス展開が⾏われています。 そのPivotal社が手掛ける製品群の中に、エン タープライズ向けHadoop製品のPivotal HDが データレイクを実現するソリューションとして 提供されています(図4)。

Pivotal HDはApache Hadoopをベースにした Hadoop製品ではありますが、そのファイルシ ステムのHDFSが持つ高い拡張性に加えて、 HDFS内に格納されたデータを活用の要件に応 じてデータ処理エンジンを使い分けることを可 能にし、データレイクを実現しています。 そのデータ処理エンジンには、ApacheHadoopで提供されるMapReduce、Hive、Pigなどはさることながら、スト リーミングやインメモリ処理も可能とする機構を備えています。中でもビッグデータの活⽤においてSQLインター フェースが提供されることは、多くの企業にHadoopを使ったデータ活用の実現ハードルを下げる要素の一つとなり ますが、Pivotal HDはまさにそのハードルを下げる製品で、業界標準SQLをサポートしたHAWQと呼ばれるSQLエン ジン活⽤ができるという特⻑を持っています。 他のエンタープライズHadoop製品の中にもSQLインターフェースを持った製品はありますが、このHAWQは、 Pivotal社が⻑年GreenplumDBというDWH用DB製品の開発で培ったDBエンジンを実装しており、性能はもちろん利 用可能なSQL・関数も豊富であるため、BI/BAツールや既存のSQL資産の有効活用を実現します(図5)。 この点在されたデータの一元管 理を実現させ、さらなる拡張を 実現するのが「データレイク」 構想です。データレイクとは、 文字通りデータの湖を作るイ メージでデータの⼀元管理を実 現する構想です。サイロ化して いるデータウェアハスの統合と データ活用における最適なシス テムを実現するという観点で、 今回Pivotal社が提供する Hadoop製品のPivotal HDと、 EMC社が提供するスケールアウ トNASのIsilon製品が提唱する データレイク構想を組み合わせ たアプローチをご紹介します。 図3:データ活⽤がうまく⾏えないシステム典型例 分析対象データ 売上 情報 顧客 情報 在庫情報 アクセスログ メール・ Webコンテンツ M2M SNS 音声 画像・映像 役員・マネージャー 経営戦略 経理・財務 営業 マーケティング 外部向け DWH 部門用 DWH 経営分析 DWH 商品管理DWH ファイルサーバーA ファイルサーバーB ファイルサーバーC ファイルサーバーD マーケティング 部門DHW  DWHのサイロ化により横断的なデータ分析ができない  DWH外のデータとの連携活用ができない  過去履歴を含めた⼤規模データ蓄積環境がない  サマリーデータしか扱えない  個人PCに蓄積されているデータが多い  分析資産の共有ができない HDFS Pivotal データプラットフォーム DataLake インメモリオブジェクトサービス アナリティック ワークロード SQLサービス オペレーショナル インテリジェンス インメモリサービス ランタイム アプリケーション ストリーム インジェスチョン ストリーミングサービス GemFireXD Software-Defined Datacenter New Data-fabrics ...ETC GemFireXD  Data Lake : データ処理基盤の基盤要素となるHDFSにデータを蓄積  あらゆるデータ・要件に応じて処理エンジンを使い分ける 図4: Pivotal DataLake HDFS HBase Pig, Hive, Mahout Pig, Hive, Mahout Map Reduce Sqoop

Sqoop FlumeFlume

リソース管理 & ワークフロー Yarn Yarn Zookeeper Zookeeper Apache Oozie Oozie Pivotal HD 追加機能 Command Center コンフィグ デプロイ モニター 管理 HVE Pivotal HD Enterprise Pivotal HD Enterprise Xtension フレームワーク サービスカタログ オプティマイザクエリ ダイナミック・パイプライニング ANSI SQL + アナリティクス HAWQ アドバンスドデータベースサービス 図5: PivotalHD+HAWQ

(4)

<EMC Isilon(アイシロン)のデータレイクの考え方> EMC Isilon(以下Isilon)は、スモールスタートからリニアに拡張が可能なスケールアウト型NAS製品です。 昨今、テクノロジーの進化に伴い様々なプロトコルでデータの取り扱いが可能となる中で、Isilonは CIFS/NFS/FTP/HTTP/REST/HDFSなど多種多様なプロトコルをサポートし、あらゆるプロトコルからのファイルア クセスを可能にするデータレイクを提供しています。ビッグデータ活用という観点では、多種多様なデータを取り込 み活用することが求められますが、Isilonが備える幅広いインターフェースによりデータの収集とHadoopを利⽤した データ分析処理をも可能にします(図6)。 1)Isilonが持つ高い拡張性 最小構成は3ノードからスタートでき、最大で144ノー ド、物理容量20PB(実効容量は約15PB)を1つのボ リュームとして使うことができます。 全てのノードには、HDD以外にコントローラとネットワー クインターフェースが搭載されており、全てのコントロー ラ(全てのノード)がActiveで稼働できるため、ノード増 設とともに全体パフォーマンスが向上していきます。 必要な時に必要な容量を増設できるスケールアウト型スト レージです。 2)Isilonが持つ高い可用性 書き込まれるデータは、ファイル分割され、あらかじめ 設定された保護レベルに従った数量のパリティデータとと もに各ノードに分散書き込みされます。Hadoopでは1つ のデータに対して、3つのレプリカを作成し冗⻑構成を 実現していますが、Isilonの場合はパリティデータとともに並列分散書き込みをする事で、データ利⽤効率を⾼めな がら高い可用性を実現します。また、最大4ノード同時障害でも耐えうる保護レベル(N+4)や、一般的なNASでサ ポートされているようなその他の機能(SnapShot、Replication、他)が使えるメリットがあります。 <PivotalとIsilonのデータレイクを融合> これら2つのデータレイクの共通項は「HDFS」にあります。Pivotal HDはHDFS上のデータへのアクセスエンジン の利便性を⾼めることで、Isilonは HDFS上のデータのイン/アウト および⼀元管理と拡張を可能にする ことで、データレイクを実現します。 すなわち、汎用ハードウェアで構築 するHadoopシステムでは実現が難 しかった点を克服するだけではなく、 さらに使いやすいHadoopシステム を実現するビッグデータプラット フォームを構築できることになりま す。 (図8 ) 加えて、このHadoopの利⽤を可能にするイン ターフェースはデータ活用のみならず、Hadoop システムのシステム効率と可⽤性を⾼めることを 可能にします。具体的には、Hadoopシステムを 構築する場合、⼤きくファイルシステムと並列処 理機構の2つの観点からサイジングを⾏いますが、 このファイルシステム領域をIsilon側で構築する ことが可能となるため、サイジングが容易になり ます。加えてIsilonが持つ拡張性と可用性により、 HDFSが持つ拡張メリットを維持しながら可用性 の高いHDFSの構築を実現します(図7)。 高い拡張性 高い可用性

20PB

 全ノードActiveで動作するコント ローラー  複数ノード構成での1ボリューム NASに  最小ノード数: 3台  最大20PBまで拡張可能 Down Down Down Down 100% 稼働中 100% 稼働中 100% 稼働中 100% 稼働中 100% 稼働中  ファイル分割による分散配置  選択可能な保護レベル 最大4ノード同時障害まで対応 HDFS 分散ファイルシステム MapReduce⼤規模分散処理フレームワーク 1、3つレプリカを作成することにより、1ノードにおける データ搭載効率が悪くなる 2、容量要件・性能要件を満たすためのサイジングが難 しいことがある ・ 容量vs性能の観点で必要ノード数がマッチしない etc 1、データ処理⾔語(MapReduce)がHDFS専用 言語であるため、 ・ 分析ツールからのアクセスが難しい ・ MapReduceエンジニアが少ない 2、枯れたデータ処理⾔語の⼀つであるSQLライクな処理 言語(Hive、Pig等)も存在するが、 ・ 汎用SQLと同等レベルでない ・ 性能を含めた処理安定性に不安あり etc 分散アーキテクチャメリットを残しつつ、データ搭載 効率を⾼め、更に可用性も担保するシステム

分散アーキテクチャメリットを使いこなし、業界標準SQLに準拠したSQLインターフェース EMC ISILON 図6:Isilon DataLake 図7:Isilonの高い拡張性と可用性 図8:より使いやすいビッグデータプラットフォーム

(5)

<PivotalHD/HAWQ+Isilon利⽤イメージ> PivotalとIsilonのデータレイクを使ったビッグデータプラットフォームの利⽤イメージを2つご紹介します。 1つ目はIsilonが持つ豊富なインターフェースを利⽤した柔軟なデータ取り込みと活⽤を実現するプラットフォームで す(図9)。 活用対象のデータの取り込みにはCIFS/NFSなどのプロトコルを利⽤し、ファイルサーバー感覚でIsilonにデータを取 り込みます。取り込まれたデータをIsilonのHDFSゲートウェイを利⽤し、Pivotal HD+HAWQからアクセスすること により、既存のSQL資産やBI/BAツールを用いたデータ活用が可能となります。 Hadoop活⽤において⼤きな課題であるデータの取り込みと活⽤を解決し、データの⼀元管理と柔軟な分析活⽤を可 能にするプラットフォームを実現します。 2つ⽬の利⽤イメージは、低スペックマシンにて構築をしてきたHadoop環境のシステム効率化を図るイメージです。 Hadoopのサイジングにおいては、性能(Computeノード)とデータ容量(Dataノード)の2つの軸で検討を⾏いま す。データ量の増加や⾼くなる性能要件、分析要件の多様化などに対しても、サーバー増設により対応ができること がHadoopのメリットではありますが、例えば、性能観点では50台のサーバーで構成可能であるものの、容量の観点 では100台のサーバーが必要となるケースもあり、結局サーバー100台で構成をする事も珍しくはありません。100 台のサーバーでHadoopシステムを稼働させた場合、運⽤管理の観点での負荷は⾼くなりがちです。そこで、 Computeノード・Dataノードを担保するシステムを分け、Isilonに容量管理の役割を担わせることで、効率的なシス テムの実現が可能となります。加えて、Isilonが持つ高い保護機能および高い拡張性により、通常のHadoopシステム が持つ拡張性を担保しながらより⾼い可⽤性でデータの運⽤管理が可能となります(図10)。さらに、Compute ノード側にPivotal HD+HAWQを活用することにより、既存のMapReduce/Hive等の資産を有効活用しつつ汎用性の 高いSQLを利⽤した新しいデータ活⽤が可能となります。 OneFS CIFS/NFS/etc. HDFS アクセスログ 顧客情報 購買情報

・・・

・・・

アクセスログ

・・・

顧客情報

・・・

購買情報 SQLアクセス 各種システム 図10: PivotalHD/HAWQ+Isilon利⽤イメージ2 図9: PivotalHD/HAWQ+Isilon利⽤イメージ1  Before 低SpecマシンでSmall StartしたHadoop環境の大規模化 - 分析データの⼤容量化に伴い、性能要件以上のサーバ台数に - システム効率化の観点で、オーバーヘッドが多数存在 - MapReduce、Hiveが使えるエンジニアが必ず必要  After

Pivotal HD/HAWQ + Isilonにて、効率化の図られた利便性の 高いHadoop環境を実現 - Compute Nodeとデータ領域の役割分担で、システム効率化を実現 - 要件に合わせた拡張が可能 - 汎用SQLの活用が可能なため、BI/BAツールにてアクセスも可能

EMC ISILON

Name Node Name Node Name Node Name Node D a ta N od e 性能増設 容量増設

(6)

<もっと使えるHadoopを!>

まとめになりますが、これまでご紹介した通り、ビッグデータ活用において重要な要素は「データレイク」というア プローチとそれを実現するHadoopであるということがご理解頂けたかと思います。そのHadoopを使いこなすにはい くつかの越えなければならないハードルがありますが、Pivotal HD+HAWQ x Isilonがそれを実現します。この2つが 実現するHadoopこそが、ビッグデータの活用につなげるシステムであり、まさに「もっと使えるHadoop」となりま す。

図11: スモールスタート可能なビッグデータプラットフォーム

弊社 東京エレクトロンデバイスでは、10年以上と6年以上に渡る、Isilon製品の販売・サポートと、Pivotal製品の 販売・サポートの経験をもとに、今後の皆様のビッグデータ活用基盤のご提案・構築サポートを提供して参ります。

Hadoop Pivotal HD+HAWQ x Isilon

HDFS

(Hadoop Distributed File System) 分散ファイルシステム 1)最小3つのレプリカを作成することにより、 1ノードにおけるデータ搭載効率が悪くなる 2)容量・性能要件を満たすためのサイジングが 難しい - 容量vs性能の観点で必要ノード数がマッチ しない etc IsilonのHDFSインターフェースを活用する ことにより、Isilonが持つスケールアウト NASとしての特⻑を活⽤が可能となり、 データ搭載効率の向上とさらに⾼い可⽤性 の担保を実現 MapReduce ⼤規模分散処理フレームワーク 1)データ処理⾔語(MapReduce)がHDFS専用 言語であるため、 - 分析ツールからのアクセスが難しい - MapReduceエンジニアが少ない 2)枯れたデータ処理⾔語の⼀つであるSQLライ クな処理減(Hive、Pig等)も存在するが、 - 汎用SQLと同等レベルでない - 性能を含めた処理安定性に不安あり etc Pivotal HD+HAWQが持つ分散処理DB用 SQLエンジンを機能を使うことにより、分 散アーキテクチャーであるHadoopシステム 上で、業界標準SQLに準拠したSQLにて HDFS内データへのアクセスを可能に

(7)

参照

関連したドキュメント

731 部隊とはということで,簡単にお話しします。そこに載せてありますのは,

医学部附属病院は1月10日,医療事故防止に 関する研修会の一環として,東京電力株式会社

本プライバシーポリシーは、日本国 〒130-8602

事業セグメントごとの資本コスト(WACC)を算定するためには、BS を作成後、まず株

この資料には、当社または当社グループ(以下、TDKグループといいます。)に関する業績見通し、計

「必要性を感じない」も大企業と比べ 4.8 ポイント高い。中小企業からは、 「事業のほぼ 7 割が下

① 新株予約権行使時にお いて、当社または当社 子会社の取締役または 従業員その他これに準 ずる地位にあることを

弊社または関係会社は本製品および関連情報につき、明示または黙示を問わず、いかなる権利を許諾するものでもなく、またそれらの市場適応性