単なるETLでは限界
ビッグデータ活用の最初の難関「データ統合」をどうする?
真のデータドリブン経営の実現には、レガシーシステムを含めたデータ統合が必要になる。 だが品質を確保するには従来のETLツールでは限界がある。どうするか。 ビ ッ グ デ ー タ 活 用 が 叫 ば れ て 久 し い が、デ ー タ ウ ェ ア ハ ウ ス(以 下、DWH)構 築 や デ ー タ 統 合 を考 え ると き、 置き去りにされがちなのが、レガシーシステムやメインフレームが管理しているデータだ。データ統合を支える技術にはETL(Extract Transform Load)がある。ETLは企業内にある複数のシステムから データを抽出し、変換、加工といった処理を加えてDWHやビジネスインテリジェンス(BI)ツールに受け渡す役割を担う。 しかしETLツールでデータを統合するとなった場合、出力するファイル数に応じてバッチ処理が必要になり、その都度 開発が必要になる。またバッチ処理をするための時間がかかり、スピードが求められるケースでは実用性が下がってしまう。 企業が保有する全てのデータから有用な情報を得て、迅速な意思決定を実現するための基盤作りが求められる今日、 最初にして最大級の課題となる「データ統合」について考える。 単なるETLでは限界
ビッグデータ活用の最初の難関「データ統合」をどうする?
真のデータドリブン経営の実現には、レガシーシステムを含めたデータ統合が必要になる。 だが品質を確保するには従来のETLツールでは限界がある。どうするか。レガシーな技術と最新技術の融合を実現する会社
Syncsortの創業は1968年。ほぼ半世紀前、ソフトウェアといえばデータベースと運用管理系のソフトが中心で、 「パッケージソフト」という言葉が一般的に使われるようになる以前の時代である。IBMが本格的な商用データベースとして 「Information Management System(IMS)」を送り出したのが1960年代後半であるから、Syncsortはほぼ 同時期に創業したことになる。以来、一貫してメインフレームをターゲットとしたビジネスを展開してきた。スタートは、データ の並べ替え技術の開発であった。1971年に発表した並べ替えのアルゴリズムを「SyncSort」と呼んでいたが、後日これが 社名となったのである。 同社が主力製品ともいえるETLツールである「Syncsort DMExpress」を発売したの は2004年。このころからデータ統合の世界へと業務領域を拡大することになる。 Syncsortゼネラルマネージャーのジェフ・クック氏は、「企業にオープンシステムが導入さ れ始めたころから、ソート(データの並べ替え)技術に加えてビッグデータ領域へとター ゲットを拡大してきた」と語る。 同社がソート技術に求めたものは「速く安く」だった。データ統合に関してもテーマは変 わらないとクック氏は語る。 ジェフ・クック氏ビッグデータ時代に求められるデータアーキテクチャ
DWHからビッグデータ、さらにビジネスインテリジェンス(BI)というように、データ活用のステージが変化してきている。 この流れの中で求められているデータアーキテクチャの方向性として、Syncsortの日本法人であるシンクソート・ジャパン 代表の北川 晋(すすむ)氏は以下の4項目を挙げる。最適化と効率を追求するSyncsort
長い歴史の中でSyncsortは、買収や協業といった手法でマーケットの拡大を図ってきた。中でも近年、同社の方向性 に大きな影響を与えたのが2016年のTrillium Software買収だ。 Trillium Softwareはデータクレンジングや名寄せツールとして高い評価を得ている製品「Trillium」を提供している。 メインフレームのデータをオープン系システムに移行するとき、単純にデータを移し替えるだけでなく、Trilliumを利用して 移行時にデータプロファイリング(可視化)とデータクレンジングを実施することで、移行後のデータ活用までのリードタイム を大幅に短縮できる。 Trilliumは日本語対応が完了しているので、漢字、かななど2バイト文字と欧文用文字が混在したデータであっても、 住所、姓名、法人名キーワードなど各種辞書を用いたデータクレンジング機能により、名寄せの際に問題となる表記 違いを効果的に解消し、顧客情報整備を短時間で実現できる。 ◆ データを集中したい ◆ 保有データを意思決定力に変えたい ◆ ガバナンス、コンプライアンス、セキュリティ標準を維持したい ◆ ITという複雑さを取り除きたい ブライアン・アシュレー氏 北川 晋氏 Syncsort シニアバイスプレジデントのブライアン・アシュレー氏は、「Syncsortが提供す る価値は『最適化(Optimization)』と『効率(Efficiency)』の2語に集約できる」 と語る。この2つの特徴を生かすことで、企業がコスト削減を実現する環境を提供する 役割を担うのだ。データ統合、Hadoop連携、データオフロードの3分野でビジネス展開
これまで登場しているETLツールでは、データ移行のプロセスで、場合によっては利用者がプログラムを記述し、 バッチ処理でDWHにデータを送り込むといった方法を採用してきた。しかしトランザクションが膨大なシステムでは、 前日のデータのバッチ処理をして翌朝までに分析系のシステムに受け渡すことが難しくなっている。極端な場合、 翌朝のシステム稼働までにバッチ処理が終わらないといったことも発生し得る。 「最近のBIではスピードが求められる。しかし従来の方法ではデータ加工、移行、分析といったプロセスに時間がかかり、 どうしてもリアルタイム性が犠牲になる側面がある。その点、Syncsortが提供するツール群は、データ統合からデータ加工、 データ移行までのプロセスをスピーディーに、しかもリソースに掛かる負荷が最低になるよう最適化した環境を提供できる」。 北川氏は同社製品群の優位性をこう強調する。 同社の主要製品群を見ていこう。1. DMExpressを代表とするデータ統合
「DMExpress(以 下、DMX)」は 高 速 デ ー タ 処 理 を 実 現 す る ツ ー ル で あ り、GUI(グ ラ フ ィ カ ル ユ ー ザ ー インタフェース)ベースでジョブの設定が簡単に完了する。一般的にはBIツールを利用する際、DWH内に、分析用に 加工したデータを用意しておく必要がある。しかし、この作業には多大な工数がかかり、また高度な技術レベルが 要求される。DMXを活用することで、多少ITリテラシーが高いエンドユーザーであれば、自分でジョブを設定し、必要な未 加工データを自由に入手できるようになる。このユーザーフレンドリーな設計思想は、他のETLツールにはない特徴だとクッ ク氏は言う。 DMXの処理フロー「Syncsort DMX-h」はDMXの「Apache Hadoop」版ということになる。Hadoop上のデータ処理のジョブ作成は DMX-hを利用することで、DMX同様にGUI環境で作成することが可能だ。これにより、Hadoop上でも高度な技術 レベルを必要とすることなく簡単に最適な分散処理環境を実装できる。しかもWindows版のDMXで作成し実行した ジョブは、そのままDMX-h上で動作が可能だという。つまり、Windows環境の最小構成からHadoop上のエンター プライズ構成に簡単にスケールアウトすることを可能にしたのだ。
2. DMX-hによるHadoop連携
Syncsort DMX-hこ の た び 新 た に リ リ ー ス し た「DMX Change Data Capture(以 下、CDC)」は、メ イ ン フ レ ー ム OS「IBM z/OS」用のデータベース管理システム「IBM DB2」とHadoopのデータ同期を実現した。CDCは全データを DB2からHadoopに転送後、データの変更、追加、削除などの情報をキャプチャーし、変更のあったデータのみを定期的に Hadoopに転送する仕組みだ。これにより、既存のメインフレームのデータとオープンシステムのデータをHadoop上に 集結させることを可能にする。特に大手金融機関では、FinTechやInsTech(注)などの新たな取り組みにおいて、 メインフレームとオープンシステムのデータ融合が大きな課題となっている。CDCはこの課題を解決する上で、非常に有望な ソリューションの1つといえるだろう。