プロダクトシート Syncsort DMX-h ビッグデータの統合をシンプルにモダンデータアーキテクチャの目標データウェアハウスおよびメインフレームは従来のデータアーキテクチャにおける中核であり現在でも重要な役割を担っていますしかしデータ量の急増に対処したり企業で分析が必要な多くの新しい

(1)

プロダクトシート

Syncsort DMX-h

データウェアハウスおよびメインフレームは従来のデータアーキテクチャにおける中核であり、現在でも重要な役割を担っています。しかし、データ量の急増に対処したり、企業で分析が必要な多くの新しい種類のデータソースを扱うために、コストを抑えつつスケーリングできるようには設計されていません。そのため、企業は自社環境をモダンデータアーキテクチャへと進化させることで、従来のソースと新しいソース両方からのデータを含むあらゆる企業データの価値を最大化し、意味のある見識をできるだけ迅速にビジネス上の意思決定者に提供しようとしています。モダンデータアーキテクチャは、次のような核となる原則に従います。

あらゆるデータの一元管理

シンプルかつ大容量のデータアクセスと、ビッグデータリポジトリ への収集。どんなに複雑でも、企業内のあらゆるソースからローデー タを集めます。 モダンデータアーキテクチャの中心にあるのは、データレイクまたはエンタープライズデータハブです。これにより企業は、非常にスケーラブルかつコスト効率に優れた方法で、より多くのソースから、より多くのデータを入手し、保持することが可能になります。メインフレームなどの従来のデータソースは複雑であるため、一部の企業では見過ごされています。これらのレガシーシステムは、企業全体を通じて多くのミッションクリティカルなアプリケーションを支えており、メインフレームは、増え続けるモバイルデータや IoT データを含む、企業の取引データ全体の70%を保存しています。あらゆるデータソース（バッチおよびストリーミング）の有用なデータにアクセスし、分析環境に移行させることは、運用上または経営分析の両方に不可欠です。

モダンデータアーキテクチャの

目標

ローデータを見識に変える

高度な分析と機械学習のために、あらゆるデータ資産を統合します。 データのコンテキストと意味を明らかにすることで、意思決定者がこのデータを活用して大きなビジネス上の見識を得られるようにします。意思決定者が最善の決定を下すためには、企業のあらゆるデータをすぐに利用できる必要があります。とはいえ、ローデータからは何も分かりません。データ分析を担当するチームはこれまでになく、大量のデータを管理し、有用かつ実用的な見識へと変換し、活用するという難題に直面しています。最新のデータ統合により、データサイエンティストはデータをクレンジング、ブレンド、変換し、データパイプラインに追加可能な新しい情報を発見できるようになっています。分析用フォーマットのデータを、行動につながる見識へと変えることができます。

ガバナンスとセキュリティ基準の維持

Eデータリネージ、セキュリティ、効率を確保します。データを保護し、 当局による規制や内部規定を順守します。 ビッグデータリポジトリで大量の（構造化および非構造化）データの保存と処理が可能になり、ますます多くのユーザーやツールがそのデータにアクセスするようになっています。優れた見識を活用できる、非常に大きなチャンスが存在しています。一方で、データ、ユーザー、ツールの増加に伴い、データガバナンスに関する大きな課題も生じています。プラットフォームをまたいであらゆる企業データとメタデータリネージへのセキュアなアクセスを提供することは、次世代のデータアーキテクチャに不可欠です。

IT オペレーションの簡略化と最適化

データパイプラインを自動化および最適化し、技術の進歩を取り入 れ、プラットフォームとインフラを標準化します。 モダンデータアーキテクチャは、データパイプラインを自動化、最適化し、リスクと人的負担を減らすよう設計されています。このアーキテクチャは、開発プロセスを合理化し、エコシステムで成熟する新しい技術を採用しつつ、メンテナンスコストを削減します。ビッグデータの統合をシンプルに

(2)

Hadoop: モダンデータアーキテクチャの中核

Apache™ Hadoop はモダンデータアーキテクチャの中心的存在であり、 Apache™ Spark はさまざまな種類のワークロードに対応する単一のコンピューティングフレームワークになる可能性を秘めています。ワークロードには、ディープラーニング、高度な分析、バッチデータやストリーミングデータのパイプラインが含まれます。こうした複雑なデータ処理や統合の作業は、現代のビジネスインテリジェンスや運用上の分析に欠かせないものです。その結果、ビッグデータに関する課題に対処するために Hadoop を採用する企業が急増しています。しかし、 Hadoop エコシステムでは、複雑なデータソース、特殊なスキルセット、長い開発サイクル、変化の速い一連の技術など、新たな課題が生じています。

複雑さを排除したモダンデータ管理

Syncsort DMX-h は、単一のインターフェイスからあらゆる企業データソース（バッチおよびストリーミング）にアクセスして統合し、ローデータを見識へ変換するという、現代のデータ管理の目的を達成できるよう設計されています。この革新的なアーキテクチャが実現する柔軟性により、ジョブを一度設計するだけで、あらゆる場所（Hadoop 、 Spark 、単一サーバーシステム）に、オンプレミスでもクラウドでも展開することが可能になります。このアーキテクチャを Hadoop とネイティブに統合することで、 DMX-h はエコシステムと共に進化します。そのため、ジョブを書き直したり新しいスキルを習得したりしなくても、最新の技術をいつでも活用できるのです。さらに、 DMX-h ではプロセス全体を管理、保護、統制するための包括的なサポートがパッケージに含まれているため、安心して最も重要なデータを処理できます。

あらゆる企業データにアクセス

業界トップクラスの Hadoop 向けデータ収集機能を提供。メインフ レーム、 RDBMS 、 MPP 、 JSON 、 Avro/Parquet 、 NoSQLなどに 対応。 メインフレームなどの複雑なデータソースを見過ごして、重要な見識を得損なうことのないようにしましょう。DMX-h を使用するなら、ほぼすべてのソースにセキュアに接続し、最適なスピードと効率が保証されたネイティブドライバーによってデータを抽出できます。 • あらゆるソースから、ほぼすべてのデータを収集できます。例えば、 • JSON • Kafka • メインフレーム • MPP • NoSQL • RDBMS • S3 • その他 • 数百ものテーブル（データベーススキーマ全体を含む）を、ボタンを押すだけでデータレイクに瞬時に移動できます。 • 共通のインターフェイスから、バッチデータとストリーミングデータの両方にアクセスできます。 • データにアクセスしてフォーマットを変更し、Avro と Parquet に直接読み込みます。ステージングは不要です。 • 短い時間で、より多くのデータを Hadoop に読み込みます。 DMX-h にデータを動的に分割させ、同時に HDFS に読み込みます。

インテリジェントエクセキューション機能

により、ユーザーは、基盤となるプラット

フォームや実行フレームワークを意識すること

なく、ビジネスルールだけに集中して、高度な

データ変換を設計できます。

(3)

統合により、

ローデータから見識への最速の変換を実現

単一のインターフェイスで、ストリーミングデータとバッチデータの 処理を設計する DMX-h により、データを素早くクレンジング、ブレンド、変換し、コンテキストと意味を明らかにすることで、企業は業務を加速できます。 • データをHadoopに読み込む前に、超高速でそのままエンリッチ化 • ビッグデータと、Cassandra、HBase、MongoDBなどのNoSQL データベースへの高性能の接続性

• Amazon Redshift、 Greenplum、 Netezza、 Oracle、 Terada、 Verticaへの最速の並列読み込み • Tableau ファイルと Qlikview ファイルをワンクリックで作成 • 企業全体のデータを、リアルタイムのソースと統合 DMX-h のグラフィカルインターフェイスを使用して、 Kafka のリアルタイムキューからのデータをサブスクライブ、変換、エンリッチ化します。DMX-h では、これらのエンリッチ化されたデータベースを Kafka にパブリッシュすることもでき、移動中のデータをクレンジング、前処理、変換することで、リアルタイムの分析アプリケーションを容易に作成できます。

メインフレームへのアクセスと

統合に最適なSyncsort DMX-h

Syncsort は最先端の技術と、メインフレームとビッグデータ両方のプラットフォームにおける数十年にわたる経験を集結し、メインフレームデータのアクセスとHadoopへの統合を行うための、最高のソリューションを提供します。経験はSycsortが提供しますので、お客様に必要ありません。 メインフレームのデータを（メインフレームのフォーマットのまま） Hadoop に取り込むと、他のデータソースと同じように活用できます • メインフレーム上のデータをそのまま維持するため、ガバナンスとコンプライアンスの規定を順守できます。 • メインフレームの開発経験がなくても、クラスター上のメインフレー ムのネイティブデータを扱えるようにします。 メインフレームのデータを、新しい種類のデータソースと統合します • VSAMファイル、メインフレームの固定長および可変長ファイル、 DB2データに直接アクセスします。 • メインフレームのデータに直接マッピングされたCOBOLコピーブックにより、データに意味をもたせます。 • データを理解するためだけに、開発の時間を何週間も費やす必要はありません。

(4)

セキュリティ、マネージメント、ガバナンスに関する

手順への準拠

シームレスなHadoop統合により、セキュリティとガバナンスを実現。 メタデータ管理を向上し、データリネージを追跡します

Syncsort は継続的に Apache™ Hadoop プロジェクトに貢献しているため、 DMX-h は Hadoop データパイプラインとネイティブに統合され、相互運用性とスケーラビリティを実現します。 DMX-h は次のものを提供します：

マネージメント： Cloudera Manager および Apache™ Ambari と

の完全統合により、数百のノード全体の監視、メンテナンス、展開を可能にします。

セキュリティ :

• LDAP と Kerberos のネイティブサポート

• Apache™ Ranger および Apache™ Sentry の認定

• FTPS と Connect：Direct による、メインフレームデータへのセキュ アなアクセス ガバナンス : • Cloudera Navigator の認定 • メタデータ管理とデータリネージのための、 HCatalog との緊密 な統合 • メインフレームのデータを、ネイティブフォーマットのまま直接処理 し、プラットフォームをまたいでデータリネージを保持

簡略化 – 設計は一度だけ

オンプレミスでも、クラウドでも、どこでも実行可能

根底にある複雑さと、変化し続けるスキルの要求からチームを保護 適応性があり、シンプルであることは、モダンデータアーキテクチャの成功に欠かせません。 DMX-hには、オペレーティングシステムや実行プラットフォームを越えたインテリジェントエクセキューション機能（IX）が備わっており、データ管理を容易にし、アプリケーションの将来性を保証します。 DMX-hにより、次のことが可能になります： • ジョブを一度だけ設計すれば、オンプレミスでもクラウドでも、あら

ゆる場所（Hadoop 、 Spark 、 Linux 、 Unix 、 Windows）で展開できます。変更やチューニングは不要です。 • ドロップダウンメニューをクリックするだけで、スタンドアロンサー バー環境や、MapReduceからSparkへ、アプリケーションを簡単に移行できます。 • 新たに登場するコンピューティングフレームワークに対応でき、ア プリケーションの将来性を保証します。 • チューニングを回避。インテリジェントエクセキューション機能が、 選択されたコンピューティングフレームワークに基づいて実行時に動的にアプリケーションの計画を立てます。 • ユーザーは、Hadoopの複雑さに煩わされることなく、ETLスキルの活用に専念できます。 • アプリケーションを、オンプレミスでもクラウドでも、スケーリングできます。 • 開発時間を半分に短縮します。

(5)

モダンデータアーキテクチャをサポートする DMX-h の機能

一般的な機能は以下のとおりです。下記にない機能のサポートについては、 [email protected] までお問い合わせください。

アクセス

• データベース： Amazon Redshift、 DB2/UDB、 Greenplum、 Netezza 、 Oracle 、 SQLサーバー、Sybase ASE/IQ 、 Teradata 、 Vertica、 IBM Websphere MQ、 Salesforce.com、 SAP Netweaver、 SAP Hana

• Hadoop： Apache Avro、 Apache Parquet、 Apache Hive/ HDFS、 HCatalog

• メインフレーム : メインフレーム固定長、メインフレーム可変長

（Hadoop分配可能）、ブロック記述子を含むメインフレーム可変長、メインフレーム VSAM 、 DB2/z 、 IMS

• Kafka トピックのソースとターゲット

• データ可視化： QlikView data eXchange 、 Tableau TDE

• ODBC/JDBCドライバー経由の、NoSQLデータベース

（Cassandra 、 HBase 、 Mongo DB など）

• ODBC/JDBC 経由の他のすべてのデータストア（準拠している 場合） • 他のデータソースで利用可能な C/Java データコネクターAPI 統合 • 複雑なフィルタリング、圧縮、フォーマット変換、データクレンジング（文字列操作、算術計算） • インテリジェントエクセキューション機能と、ダイナミックオプ ティマイザーを活用し、データエンリッチ化のための結合と検索により、あらゆるデータと環境でパフォーマンスを保証 • セットレベル : 高性能なソート、集約、結合、マージ • フィールドレベル : 包括的な文字列、数値、日付の関数 • 条件付き変換（正規表現を含む） • 組み込みのハッシュアルゴリズム（CRC32 および MD5） 準拠

• 管理： Cloudera Manager と Apache™ Ambari

• セキュリティ： Apache Ranger および、 Cloudera Sentryの

認定、 Kerberos

• メタデータ： HCatalog 、 Cloudera Navigator 、ファイルベース

のオープンメタデータ

簡略化

• 単一のインターフェイスでジョブを設計し、次で実行 :

• シングルノード、クラスター

• MapReduce 、 Spark 、 Storm など、将来のプラット

フォーム

• Windows 、 Unix 、 Linux

• オンプレミス、クラウド • バッチ、ストリーミング • 急速に変化するビッグデータで、一連の技術を意識する必要の ない、インテリジェントエクセキューション機能 • 実行フレームワークを変更する場合でも、変更やチューニング は不要 • Sparkなど、新たなコンピューティングフレームワークにも対応 する、将来が保証されたジョブ設計 主要なディストリビューションすべてをサポート • Cloudera, Hortonworks,

• MapR, Big Insights,

• Apache™ Hadoop and

• Apache™ Spark

(6)

Syncsort DMX-h

www.syncsort.com