1 The information contained in this document is proprietary.
©2016 Antuit. All rights reserved.
www.antuit.co.jp
キーポイント
世界的電子部品メーカー、データレイクソリューションで膨大なビックデータを最適化
電子部品やコネクター・センサーの世界的なメーカー は、自社の膨大なデータを生かして企業価値を高めよ うと計画し、Hadoop 上に様々なデータソースからな る構造化データと非構造化データを収集してデータレ イク環境を構築しました。ところが、Hadoop の実装 段階でパフォーマンスに問題が発生したため、これを 活用してビジネス戦略のインサイトを導き出すことが できませんでした。
そこで、Antuit のビッグデータ設計者や技術者が協力 し、本来の性能を引き出すための、スケーラブルなデー タ駆動型プラットフォームの構築に着手したのです。
既存のプロセスを監査したクライアントと Antuit の 合同チームは、スケーラブルで確固とした基盤を構築 し直すことになりました。この段階では、多くの課題 が明らかになりました。既存の技術では、販売やマー ケティングデータを 10 年分しか扱うことができず、 拡張性に欠けるため、近い将来に予想されるデータの 増加や処理スピードに対応する準備を整えていませ ん。また一部のパワーユーザーはシステム制限を超え て途方もなく複雑なクエリを実行していました。デー タシステムは自社内に設置され、最小限の調整しかさ れておらず、管理は各事業部門に任されていました。
Hadoop 上で大きな投資をしたインフラについて、 Antuit は数々の変革を推奨し実装しました。具体的に は、データの分割や圧縮、分割可能なファイル形式の 利用、正しいデータ型への変更など、データレイク環 境を再構築しデータプロセスを改善。クライアントに システム全体を経験してもらうため、アプローチの検 証用に複数のテスト環境を用意し、関連する技術を準 備して最初のシステムが完成しました。
以降は、円滑で効率的な運用のため、継続的にメンテ ナンスを行うようにしています。
また、データレイクを立ち上げ運用し始めると同時 に、利用者がどんなクエリを実行するのか、その使い 方やマナーの刷新についても重視しました。内部ユー ザーのために新しいガイドラインを設定し、いかにし てシステム全体に影響することなくデータレイクから 必要なデータを取り出すかという啓蒙活動を実施しま した。
課題
世界的な電子部品メーカーは、販売およびマーケ ティングのデータハブを立ち上げましたが、テラ バイト規模のシステムは、ボリュームとスピード の両面でコントロールできず収穫は何もありませ んでした。より速く、シンプルで、信頼性の高い インフラの確立が急務でした。
ソリューション
データタイプの見直し、データの分割や圧縮、新 たなファイル形式などを導入。Hadoop 上で新規に 設計・構築し、安定的かつ拡張性の高いデータレ イク環境が完成しました。
成果
2 The information contained in this document is proprietary.
©2016 Antuit. All rights reserved.
www.antuit.co.jp
Antuit について
Antuit は世界でも数少ないビッグデータ分析専門のグローバル企業です。
2013年設立。米国、日本、イギリス、オランダ、シンガポール、香港、オーストラリア、ニュージーラ ンド、インドに拠点を持 ち、経営コンサルタントや各業界出身のエキスパート、分析専門家から成るチームが、最先端のビッグデータ分析と活用 で有名企業の抱える問題を解決し、利益改善を継続的にサポートしています。
確かなデータ設計と技術の効用で、現在では 誰でもごく簡単に必要なデータにアクセスで きます。拡張性のあるデータレイクアーキテ クチャや販売およびマーケティングのデータ モデルなど、高度なアナリティクスをベース にした情報活用は、ビジネス変革に欠かせな い戦略的な資産となりました。
Antuit は拡大し続けるビッグデータから、ビ ジネス課題を解決する情報を引き出す新たな 分析モデルを提供していきます。
Hadoop 性能を上げるための4つのステップ
1. 有効キーを用いて大きなデータを切り分け 2. Sequence、Avro、RC などの分割可能なファイル
フォーマットを実装
3. Snappy、bzip2 といったデータ圧縮方法を活用 4. Hive テーブルで正しいデータ型を採用
構造化データ
ERP
CRM
企業の データウェアハウス
半構造化&
非構造化データ Hot
マシンデータ
リアルタイム
サードパーティ
ソーシャルメディア、 地理空間情報 など
Warm
エンタープライズデータハブ (Hadoop)
ランディング ゾーン
Spark ETL、 データ処理、
DQ
ステージング
Guided Analytics
標準レポート
データ ディスカバリ/可視化
予測分析
機械学習
パブリッシュ • 在庫 • 支払 • 販売 • 購入