• 検索結果がありません。

Informatica Data Discovery Guide - (Japanese)

N/A
N/A
Protected

Academic year: 2021

シェア "Informatica Data Discovery Guide - (Japanese)"

Copied!
196
0
0

読み込み中.... (全文を見る)

全文

(1)

Informatica

®

10.0

(2)

Informatica Data Discovery Guide 10.0 2015 年 11 月 © 著作権 Informatica LLC 1998, 2018 本ソフトウェアおよびマニュアルには、Informatica LLC の所有権下にある情報が収められています。これらは使用および開示の制限等を定めた使用許諾契約のもとに 提供され、著作権法により保護されています。本ソフトウェアのリバースエンジニアリングは禁じられています。本マニュアルのいかなる部分も、いかなる手段(電 子的複写、写真複写、録音など)によっても、Informatica LLC の事前の承諾なしに複製または転載することは禁じられています。このソフトウェアは、米国および/ または国際的な特許、およびその他の出願中の特許によって保護されています。

合衆国政府によるソフトウェアの使用、複製または開示は、DFARS 227.7202-1(a)および 227.7702-3(a)(1995 年)、DFARS 252.227-7013(C)(1)(ii)(1988 年 10 月)、FAR 12.212(a)(1995 年)、FAR 52.227-19、または FAR 52.227-14(ALT III)に記載されているとおりに、当該ソフトウェア使用許諾契約に定められた制限 によって規制されます。

本製品または本書の情報は、予告なしに変更されることがあります。お客様が本製品または本書内に問題を発見された場合は、書面にて当社までお知らせください。 Informatica、Informatica Platform、Informatica Data Services、PowerCenter、PowerCenterRT、PowerCenter Connect、PowerCenter Data Analyzer、 PowerExchange、PowerMart、Metadata Manager、Informatica Data Quality、Informatica Data Explorer、Informatica B2B Data Transformation、Informatica B2B Data Exchange、Informatica On Demand、Informatica Identity Resolution、Informatica Application Information Lifecycle Management、Informatica Complex Event Processing、Ultra Messaging、および Informatica Master Data Management は、Informatica LLC の米国および世界中の管轄地での商標または登録商標です。 その他のすべての企業名および製品名は、それぞれの企業の商標または登録商標です。

本ソフトウェアまたはドキュメントの一部は、次のサードパーティが有する著作権に従います(ただし、これらに限定されません)。Copyright DataDirect Technologies.コンテンツの無断複写・転載を禁じます。Copyright (C) Sun Microsystems.コンテンツの無断複写・転載を禁じます。Copyright (C) RSA Security Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) Ordinal Technology Corp. コンテンツの無断複写・転載を禁じます。Copyright (C) Aandacht c.v. コンテンツ の無断複写・転載を禁じます。 Copyright Genivia, Inc. コンテンツの無断複写・転載を禁じます。 Copyright Isomorphic Software. コンテンツの無断複写・転載を禁 じます。Copyright (C) Meta Integration Technology, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) Intalio. コンテンツの無断複写・転載を禁じます。 Copyright (C) Oracle. コンテンツの無断複写・転載を禁じます。Copyright (C) Adobe Systems Incorporated. コンテンツの無断複写・転載を禁じます。Copyright (C) DataArt, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) ComponentSource. コンテンツの無断複写・転載を禁じます。Copyright (C) Microsoft Corporation. コンテンツの無断複写・転載を禁じます。Copyright (C) Rogue Wave Software, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) Teradata Corporation. コンテンツの無断複写・転載を禁じます。Copyright (C) Yahoo! Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) Glyph & Cog, LLC. コンテン ツの無断複写・転載を禁じます。Copyright (C) Thinkmap, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) Clearpace Software Limited. コンテンツの無 断複写・転載を禁じます。Copyright (C) Information Builders, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) OSS Nokalva, Inc. コンテンツの無断複 写・転載を禁じます。 Copyright Edifecs, Inc. コンテンツの無断複写・転載を禁じます。 Copyright Cleo Communications, Inc. コンテンツの無断複写・転載を禁じま す。 Copyright (C) International Organization for Standardization 1986. コンテンツの無断複写・転載を禁じます。Copyright (C) ej-technologies GmbH. コンテンツ の無断複写・転載を禁じます。Copyright (C) Jaspersoft Corporation. コンテンツの無断複写・転載を禁じます。Copyright (C) International Business Machines Corporation.コンテンツの無断複写・転載を禁じます。Copyright (C) yWorks GmbH. コンテンツの無断複写・転載を禁じます。Copyright (C) Lucent Technologies. コンテンツの無断複写・転載を禁じます。Copyright (C) University of Toronto. コンテンツの無断複写・転載を禁じます。Copyright (C) Daniel Veillard. コンテンツの 無断複写・転載を禁じます。Copyright (C) Unicode, Inc. Copyright IBM Corp. コンテンツの無断複写・転載を禁じます。 Copyright (C) MicroQuill Software Publishing, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) PassMark Software Pty Ltd. コンテンツの無断複写・転載を禁じます。 Copyright (C) LogiXML, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) 2003-2010 Lorenzi Davide, コンテンツの無断複写・転載を禁じます。 Copyright (C) Red Hat, Inc. コンテンツの無断複写・転載を禁じます。 Copyright (C) The Board of Trustees of the Leland Stanford Junior University. コンテンツの無断複写・転載を禁じま す。Copyright (C) EMC Corporation. コンテンツの無断複写・転載を禁じます。Copyright (C) Flexera Software. コンテンツの無断複写・転載を禁じます。Copyright (C) Jinfonet Software. コンテンツの無断複写・転載を禁じます。Copyright (C) Apple Inc. コンテンツの無断複写・転載を禁じます。Copyright (C) Telerik Inc. コンテ ンツの無断複写・転載を禁じます。Copyright (C) BEA Systems. コンテンツの無断複写・転載を禁じます。Copyright (C) PDFlib GmbH. コンテンツの無断複写・転載 を禁じます。Copyright (C) Orientation in Objects GmbH. コンテンツの無断複写・転載を禁じます。Copyright (C) Tanuki Software, Ltd. コンテンツの無断複写・転載 を禁じます。 Copyright (C) Ricebridge. コンテンツの無断複写・転載を禁じます。Copyright (C) Sencha, Inc. コンテンツの無断複写・転載を禁じます。Copyright (C) Scalable Systems, Inc. コンテンツの無断複写・転載を禁じます。Copyright (C) jQWidgets. コンテンツの無断複写・転載を禁じます。Copyright (C) Tableau Software, Inc. コンテンツの無断複写・転載を禁じます。Copyright (C) MaxMind, Inc. コンテンツの無断複写・転載を禁じます。Copyright (C) TMate Software s.r.o. コンテンツ の無断複写・転載を禁じます。Copyright (C) MapR Technologies Inc. コンテンツの無断複写・転載を禁じます。Copyright (C) Amazon Corporate LLC. コンテンツの 無断複写・転載を禁じます。Copyright (C) Highsoft. コンテンツの無断複写・転載を禁じます。Copyright (C) Python Software Foundation. コンテンツの無断複写・ 転載を禁じます。Copyright (C) BeOpen.com. コンテンツの無断複写・転載を禁じます。Copyright (C) CNRI. コンテンツの無断複写・転載を禁じます。

本製品には、Apache Software Foundation(http://www.apache.org/)によって開発されたソフトウェア、およびさまざまなバージョンの Apache License(まとめ て「License」と呼んでいます)の下に許諾された他のソフトウェアが含まれます。これらのライセンスのコピーは、http://www.apache.org/licenses/で入手できま す。適用法にて要求されないか書面にて合意されない限り、ライセンスの下に配布されるソフトウェアは「現状のまま」で配布され、明示的あるいは黙示的かを問わ ず、いかなる種類の保証や条件も付帯することはありません。ライセンス下での許諾および制限を定める具体的文言については、ライセンスを参照してください。 本製品には、Mozilla(http://www.mozilla.org/)によって開発されたソフトウェア、ソフトウェア copyright The JBoss Group, LLC, コンテンツの無断複写・転載を 禁じます、ソフトウェア copyright, Red Hat Middleware, LLC, コンテンツの無断複写・転載を禁じます、Copyright (C) 1999-2006 by Bruno Lowagie and Paulo Soares および GNU Lesser General Public License Agreement(http://www.gnu.org/licenses/lgpl.html を参照)に基づいて許諾されたその他のソフトウェアが含まれてい ます。資料は、Informatica が無料で提供しており、一切の保証を伴わない「現状渡し」で提供されるものとし、Informatica Corporation は市場性および特定の目的 の適合性の黙示の保証などを含めて、一切の明示的及び黙示的保証の責任を負いません。

製品には、ワシントン大学、カリフォルニア大学アーバイン校、およびバンダービルト大学の Douglas C.Schmidt および同氏のリサーチグループが著作権を持つ ACE (TM)および TAO(TM)ソフトウェアが含まれています。Copyright (C) 1993-2006, コンテンツの無断複写・転載を禁じます。

本製品には、OpenSSL Toolkit を使用するために OpenSSL Project が開発したソフトウェア(copyright The OpenSSL Project.コンテンツの無断複写・転載を禁じま す)が含まれています。また、このソフトウェアの再配布は、http://www.openssl.org および http://www.openssl.org/source/license.html にある使用条件に従いま す。

本製品には、Curl ソフトウェア Copyright 1996-2013, Daniel Stenberg, <daniel@haxx.se>が含まれます。コンテンツの無断複写・転載を禁じます。本ソフトウェア に関する許諾および制限は、http://curl.haxx.se/docs/copyright.html にある使用条件に従います。すべてのコピーに上記の著作権情報とこの許諾情報が記載されてい る場合、目的に応じて、本ソフトウェアの使用、コピー、変更、ならびに配布が有償または無償で許可されます。

本製品には、ソフトウェア copyright 2001-2005 (C) MetaStuff, Ltd. コンテンツの無断複写・転載を禁じます。が含まれます。本ソフトウェアに関する許諾および制限 は、http://www.dom4j.org/license.html にある使用条件に従います。

製品には、ソフトウェア copyright (C) 2004-2007, The Dojo Foundation が含まれます。コンテンツの無断複写・転載を禁じます。本ソフトウェアに関する許諾およ び制限は、http://dojotoolkit.org/license にある使用条件に従います。

本製品には、ICU ソフトウェア copyright International Business Machines Corporation および他のソフトウェアが含まれます。コンテンツの無断複写・転載を禁じ ます。本ソフトウェアに関する許諾および制限は、http://source.icu-project.org/repos/icu/icu/trunk/license.html にある使用条件に従います。

本製品には、ソフトウェア copyright (C) 1996-2006 Per Bothner が含まれます。コンテンツの無断複写・転載を禁じます。お客様がこのようなソフトウェアを使用す るための権利は、ライセンスで規定されています。http://www.gnu.org/software/kawa/Software-License.html を参照してください。

(3)

本製品には、Boost(http://www.boost.org/)によって開発されたソフトウェア、または Boost ソフトウェアライセンスの下で開発されたソフトウェアが含まれま す。本ソフトウェアに関する許諾および制限は、http://www.boost.org/LICENSE_1_0.txt にある使用条件に従います。

本製品には、ソフトウェア copyright (C) 1997-2007 University of Cambridge が含まれます。本ソフトウェアに関する許諾および制限は、http://www.pcre.org/ license.txt にある使用条件に従います。

本製品には、ソフトウェア copyright (C) 2007 The Eclipse Foundation が含まれます。コンテンツの無断複写・転載を禁じます。本ソフトウェアに関する許諾および 制限は、http://www.eclipse.org/org/documents/epl-v10.php および http://www.eclipse.org/org/documents/edl-v10.php にある使用条件に従います。 本製品には、http://www.tcl.tk/software/tcltk/license.html、http://www.bosrup.com/web/overlib/?License、http://www.stlport.org/doc/license.html、http:// www.asm.ow2.org/license.html、http://www.cryptix.org/LICENSE.TXT、http://hsqldb.org/web/hsqlLicense.html、http://httpunit.sourceforge.net/doc/ license.html、http://jung.sourceforge.net/license.txt、http://www.gzip.org/zlib/zlib_license.html、http://www.openldap.org/software/release/license.html、 http://www.libssh2.org、http://slf4j.org/license.html、http://www.sente.ch/software/OpenSourceLicense.html、http://fusesource.com/downloads/license-agreements/fuse-message-broker-v-5-3-license-agreement、http://antlr.org/license.html、http://aopalliance.sourceforge.net/、http://www.bouncycastle.org/ licence.html、http://www.jgraph.com/jgraphdownload.html、http://www.jcraft.com/jsch/LICENSE.txt、http://jotm.objectweb.org/bsd_license.html に基づいて 許諾されたソフトウェアが含まれています。http://www.w3.org/Consortium/Legal/2002/copyright-software-20021231、http://www.slf4j.org/license.html、http:// nanoxml.sourceforge.net/orig/copyright.html、http://www.json.org/license.html、http://forge.ow2.org/projects/javaservice/、http://www.postgresql.org/about/ licence.html、http://www.sqlite.org/copyright.html、http://www.tcl.tk/software/tcltk/license.html、http://www.jaxen.org/faq.html、http://www.jdom.org/docs/ faq.html、http://www.slf4j.org/license.html、http://www.iodbc.org/dataspace/iodbc/wiki/iODBC/License、http://www.keplerproject.org/md5/license.html、 http://www.toedter.com/en/jcalendar/license.html、http://www.edankert.com/bounce/index.html、http://www.net-snmp.org/about/license.html、http:// www.openmdx.org/#FAQ、http://www.php.net/license/3_01.txt、http://srp.stanford.edu/license.txt、http://www.schneier.com/blowfish.html、http:// www.jmock.org/license.html、http://xsom.java.net、http://benalman.com/about/license/、https://github.com/CreateJS/EaselJS/blob/master/src/easeljs/ display/Bitmap.js、http://www.h2database.com/html/license.html#summary、http://jsoncpp.sourceforge.net/LICENSE、http://jdbc.postgresql.org/ license.html、http://protobuf.googlecode.com/svn/trunk/src/google/protobuf/descriptor.proto、https://github.com/rantav/hector/blob/master/LICENSE、http:// web.mit.edu/Kerberos/krb5-current/doc/mitK5license.html、http://jibx.sourceforge.net/jibx-license.html、https://github.com/lyokato/libgeohash/blob/master/ LICENSE、https://github.com/hjiang/jsonxx/blob/master/LICENSE、https://code.google.com/p/lz4/、https://github.com/jedisct1/libsodium/blob/master/ LICENSE、http://one-jar.sourceforge.net/index.php?page=documents&file=license、https://github.com/EsotericSoftware/kryo/blob/master/license.txt、http:// www.scala-lang.org/license.html、https://github.com/tinkerpop/blueprints/blob/master/LICENSE.txt、http://gee.cs.oswego.edu/dl/classes/EDU/oswego/cs/dl/ util/concurrent/intro.html、https://aws.amazon.com/asl/、https://github.com/twbs/bootstrap/blob/master/LICENSE、および https://sourceforge.net/p/xmlunit/ code/HEAD/tree/trunk/LICENSE.txt。

本製品には、Academic Free License(http://www.opensource.org/licenses/afl-3.0.php)、Common Development and Distribution License(http://

www.opensource.org/licenses/cddl1.php)、Common Public License(http://www.opensource.org/licenses/cpl1.0.php)、Sun Binary Code License Agreement Supplemental License Terms、BSD License(http:// www.opensource.org/licenses/bsd-license.php)、BSD License(http://opensource.org/licenses/BSD-3-Clause)、MIT License(http://www.opensource.org/licenses/mit-license.php)、Artistic License(http://www.opensource.org/licenses/artistic-license-1.0)、Initial Developer’s Public License Version 1.0(http://www.firebirdsql.org/en/initial-developer-s-public-license-version-1-0/)に基づいて許諾されたソフトウェアが含ま れています。

本製品には、ソフトウェア copyright (C) 2003-2006 Joe WaInes, 2006-2007 XStream Committers が含まれています。コンテンツの無断複写・転載を禁じます。本ソ フトウェアに関する許諾および制限は、http://j.org/license.html にある使用条件に従います。本製品には、Indiana University Extreme! Lab によって開発されたソフ トウェアが含まれています。詳細については、http://www.extreme.indiana.edu/を参照してください。

本製品には、ソフトウェア Copyright (C) 2013 Frank Balluffi and Markus Moeller が含まれています。コンテンツの無断複写・転載を禁じます。本ソフトウェアに関す る許諾および制限は、MIT ライセンスの使用条件に従います。 特許については、https://www.informatica.com/legal/patents.htmlを参照してください。 免責: 本文書は、一切の保証を伴わない「現状渡し」で提供されるものとし、Informatica LLC は他社の権利の非侵害、市場性および特定の目的への適合性の黙示の保 証などを含めて、一切の明示的および黙示的保証の責任を負いません。Informatica LLC では、本ソフトウェアまたはドキュメントに誤りのないことを保証していませ ん。本ソフトウェアまたはドキュメントに記載されている情報には、技術的に不正確な記述や誤植が含まれる場合があります。本ソフトウェアまたはドキュメントの 情報は、予告なしに変更されることがあります。 NOTICES

この Informatica 製品(以下「ソフトウェア」)には、Progress Software Corporation(以下「DataDirect」)の事業子会社である DataDirect Technologies からの特 定のドライバ(以下「DataDirect ドライバ」)が含まれています。DataDirect ドライバには、次の用語および条件が適用されます。 1. DataDirect ドライバは、特定物として現存するままの状態で提供され、商品性の保証、特定目的適合性の保証および法律上の瑕疵担保責任を含むすべての明示 もしくは黙示の保証責任を負わないものとします。国または地域によっては、法律の強行規定により、保証責任の制限が禁じられる場合、強行規定の制限を受 けるものとします。 2. DataDirect または第三者は、予見の有無を問わず発生した ODBC ドライバの使用に関するいかなる直接的、間接的、偶発的、特別、あるいは結果的損害に対し て責任を負わないものとします。本制限事項は、すべての訴訟原因に適用されます。訴訟原因には、契約違反、保証違反、過失、厳格責任、詐称、その他の不 法行為を含みますが、これらに限るものではありません。 発行日: 2018-07-03

(4)

目次

序文. . . 13

Informatica のリソース. . . 13 Informatica マイサポートポータル. . . 13 Informatica マニュアル. . . 13 Informatica 製品可用性マトリックス. . . 14 Informatica の Web サイト. . . 14 Informatica How-To ライブラリ. . . 14 Informatica ナレッジベース. . . 14 Informatica サポートの YouTube チャンネル. . . 14 Informatica Marketplace. . . 14 Informatica Velocity. . . 14 Informatica グローバルカスタマサポート. . . 15

第 I 部 : データ検出の概要. . . 16

第 1 章 : プロファイリングの概要. . . 17

プロファイリングの概要. . . 17 プロファイリングアーキテクチャ. . . 18 データ検出プロセス. . . 20

第 2 章 : データ検出. . . 22

データ検出の概要. . . 22 プロファイルおよび分析タイプ. . . 22 プロファイリングのコンポーネント. . . 23 プロファイル結果. . . 24

第 3 章 : カラムプロファイルの概念. . . 26

Column Profile Concepts OverviewProfiles Overview. . . 26

カラムプロファイルオプション. . . 27 ルール. . . 28 スコアカード. . . 29 リポジトリプロファイルのロックおよびバージョン管理されたプロファイルの管理. . . 29

第 4 章 : データドメイン検出の概念. . . 30

データドメイン検出の概念の概要. . . 30 データドメイン. . . 31 データドメイングループ. . . 31 データドメイングロッサリ. . . 31 データドメイン検出のプロセス. . . 32

(5)

第 5 章 : キュレーションの概念. . . 33

キュレーションの概念の概要. . . 33 解析者と開発者のキュレーション. . . 33 キュレーションタスク. . . 34

第 II 部 : Informatica Analyst を使用したデータ検出. . . 36

第 6 章 : Informatica Analyst のカラムプロファイル. . . 37

Informatica Analyst のカラムプロファイルの概要. . . 37 カラムプロファイリングプロセス. . . 38 プロファイルオプション. . . 38 サンプリングのオプション. . . 39 ドリルダウンのオプション. . . 39 リポジトリアセットのロックとチームベース開発の概要. . . 39 Analyst ツールでのカラムプロファイルの作成. . . 40 カラムプロファイルの編集. . . 41 プロファイルの実行. . . 42 フラットファイルデータオブジェクトの同期. . . 43 リレーショナルデータオブジェクトの同期. . . 43

第 7 章 : Informatica Analyst のルール. . . 45

Informatica Analyst のルールの概要. . . 45 カラムプロファイルのルール. . . 45 定義済みルール. . . 46 定義済みルールのプロセス. . . 46 定義済みルールの適用. . . 46 式ルール. . . 47 式ルールのプロセス. . . 47 式ルールの作成. . . 48

第 8 章 : Informatica Analyst のフィルタ. . . 50

Informatica Analyst のフィルタの概要. . . 50 フィルタの作成. . . 50 簡易フィルタの作成. . . 51 詳細フィルタの作成. . . 52 SQL フィルタの作成. . . 53 フィルタの管理. . . 53

第 9 章 : Informatica Analyst のカラムプロファイル結果. . . 55

Informatica Analyst のカラムプロファイル結果の概要. . . 55 サマリビュー. . . 56 サマリビューのプロパティ. . . 57 目次 5

(6)

サマリビューのデフォルトフィルタ. . . 57 詳細ビュー. . . 58 [詳細ビュー]ペイン. . . 59 統計. . . 60 値. . . 60 パターン. . . 63 データ型. . . 64 異常値. . . 65 プロファイル実行のタイプ. . . 66 最新のプロファイル実行. . . 66 履歴プロファイル実行. . . 66 統合済みプロファイル実行の概要. . . 66 プロファイル実行の選択. . . 67 複数のプロファイル結果の比較の概要. . . 68 複数のプロファイル結果の比較. . . 68 プロファイル結果の比較のサマリビュー . . . 68 プロファイル結果の比較の詳細ビュー . . . 71 カラムプロファイルのドリルダウン. . . 72 行データのドリルダウン. . . 72 ドリルダウンデータへのフィルタの適用. . . 72 Analyst ツールでのキュレーション. . . 73 データ型とデータドメインの承認. . . 73 データ型とデータドメインの拒否. . . 73 Informatica Analyst のカラムプロファイルのエクスポートファイル. . . 74 CSV ファイルのプロファイルエクスポート結果. . . 74 Microsoft Excel のプロファイルエクスポート結果. . . 74 Informatica Analyst からのプロファイル結果のエクスポート. . . 75

第 10 章 : Informatica Analyst のビジネス用語、コメント、タグ. . . 76

Informatica Analyst でのビジネス用語、コメント、タグの概要. . . 76 ビジネス用語. . . 76 ビジネス用語のカラムへの割り当て. . . 77 コメント. . . 77 プロファイルまたはカラムへのコメントの追加. . . 77 タグ. . . 78 プロファイルまたはカラムへのタグの追加. . . 78

第 11 章 : Informatica Analyst のスコアカード. . . 79

Informatica Analyst のスコアカードの概要. . . 79 Informatica Analyst のスコアカードのプロセス. . . 80 Analyst ツールでのスコアカードの作成. . . 81 既存のスコアカードへカラムの追加. . . 82

(7)

スコアカードの表示. . . 83 スコアカードの編集. . . 84 メトリック. . . 85 メトリックウェイト. . . 85 データ品質の値. . . 85 しきい値の定義. . . 85 [メトリックグループ]. . . 86 メトリックグループの作成. . . 86 メトリックグループへのスコアの移動. . . 87 メトリックグループの編集. . . 87 メトリックグループの削除. . . 87 カラムのドリルダウン. . . 88 傾向グラフ. . . 88 スコアの傾向グラフ. . . 89 コストの傾向グラフ. . . 89 傾向グラフの表示. . . 90 傾向グラフのエクスポート. . . 91 Informatica Analyst のスコアカードエクスポートファイル. . . 91 Microsoft Excel のスコアカードエクスポート結果. . . 91 Informatica Analyst からのスコアカード結果のエクスポート. . . 92 スコアカード通知. . . 92 通知電子メールメッセージテンプレート. . . 93 スコアカード通知の設定. . . 94 スコアカード通知のグローバルグ設定の実行. . . 94 スコアカードリネージュ. . . 95 Informatica Analyst でのスコアカードリネージュの表示. . . 95

第 12 章 : Informatica Analyst でのデータドメイン検出. . . 96

Informatica Analyst でのデータドメイン検出の概要. . . 96 Informatica Analyst のデータドメイングロッサリ. . . 96 Informatica Analyst でのデータドメイングループの作成. . . 97 Informatica Analyst でのデータドメインの作成. . . 97 Informatica Analyst でのプロファイル結果からのデータドメインの作成. . . 98 Informatica Analyst でのデータドメインとデータドメイングループの検索. . . 98 Informatica Analyst のデータドメイン検出オプション. . . 99 Informatica Analyst でのデータドメインカラムの選択. . . 99 Informatica Analyst でのデータドメインの選択. . . 100 Informatica Analyst のデータドメイン推測オプション. . . 100 Informatica Analyst でのデータドメイン検出実行プロファイルの作成. . . 101 Informatica Analyst でのプロファイルの編集. . . 102 データドメイン検出実行プロファイルの実行. . . 102 Informatica Analyst のデータドメイン検出結果. . . 103 データドメインの承認. . . 103 目次 7

(8)

データドメインの却下. . . 103 Informatica Analyst のデータドメイン検出エクスポートファイル. . . 104 Microsoft Excel でのデータドメイン検出結果. . . 104 Informatica Analyst からのデータドメイン検出結果のエクスポート. . . 104

第 13 章 : Informatica Analyst でのエンタープライズ検出. . . 105

Informatica Analyst でのエンタープライズ検出の概要. . . 105 Analyst ツールでのエンタープライズ検出のプロセス. . . 106 エンタープライズ検出の設定オプション. . . 106 データドメイン検出の設定. . . 106 カラムプロファイルのサンプリングオプション. . . 107 Analyst ツールでのエンタープライズ検出プロファイルの作成. . . 107 エンタープライズ検出のオプションの編集. . . 108

第 14 章 : Informatica Analyst でのエンタープライズ検出の結果. . . 110

Analyst ツールでのエンタープライズ検出結果の概要. . . 110 サマリビュー. . . 110 サマリビューのプロファイル結果. . . 111 Analyst ツールでのデータドメイン検出の結果の確認. . . 111 カラムプロファイルの結果の表示. . . 112 データ型の競合. . . 112 データ型の競合の表示. . . 112 プロファイルビュー. . . 113 プロファイルプロパティの確認. . . 113

第 15 章 : Informatica Analyst での検出検索. . . 114

Informatica Analyst の概要での検出検索. . . 114 検出検索の前提条件. . . 115 Informatica Analyst での検出検索プロセス. . . 115 検出検索オプション. . . 115 検出検索基準. . . 116 アセットの選択. . . 117 Informatica Analyst での検出検索結果. . . 117 [検出検索結果]パネル. . . 117 検出検索結果のフィルタリング. . . 118 一致タイプ. . . 119 直接一致. . . 119 間接一致. . . 119 一致情報の表示. . . 119 検出検索結果からアセットを開く. . . 120 関連するアセット. . . 120 各アセットタイプの関連アセット. . . 120 関連アセットの表示. . . 121

(9)

FAQ(よくある質問). . . 121

第 16 章 : Informatica Analyst での Business Glossary Desktop. . . 123

ビジネス用語. . . 123

Metadata Manager ビジネス用語集でビジネス用語を管理. . . 124

ビジネス用語集デスクトップでのビジネス用語のルックアップ. . . 124

第 III 部 : Informatica Developer を使用したデータ検出. . . 125

第 17 章 : Informatica Developer のプロファイル. . . 126

Informatica Developer のプロファイルの概要. . . 126 Informatica Developer のプロファイルのビュープロファイルのビュー. . . 128 リポジトリオブジェクトのロックおよびバージョン管理されたオブジェクトを使用したチームベ ース開発. . . 129

第 18 章 : データオブジェクトプロファイル. . . 130

データオブジェクトプロファイルの概要. . . 130 Informatica Developer のカラムプロファイル. . . 131 フィルタリングオプション. . . 132 サンプリングのプロパティ. . . 132 JSON または XML データソースを使用したカラムプロファイル. . . 132 JSON または XML フラットファイルに対するカラムプロファイル. . . 133 複合ファイルリーダーによるカラムプロファイル. . . 133 HDFS 内の JSON または XML ファイルに対するカラムプロファイル. . . 134 フォルダ内の JSON または XML ファイルを使用したカラムプロファイル. . . 135

Running a Column Profile on JSON or XML Data Sources. . . 135

プライマリキー検出. . . 137 プライマリキー推測のプロパティ. . . 137 推測されるプライマリキーのプロパティ. . . 137 キー違反のプロパティ. . . 138 機能依存性検出. . . 138 機能依存性推測のプロパティ. . . 138 推測される機能依存性のプロパティ. . . 139 機能依存性違反のプロパティ. . . 139 単一のデータオブジェクトプロファイルの作成プロファイルの作成. . . 140 複数のデータオブジェクトプロファイルの作成. . . 141 プロファイルの編集. . . 141 フラットファイルデータオブジェクトの同期. . . 141 リレーショナルデータオブジェクトの同期. . . 142 コメント. . . 142 Informatica Developer でのコメントの追加. . . 142 目次 9

(10)

第 19 章 : Informatica Developer のカラムプロファイル結果. . . 143

Informatica Developer でのカラムプロファイル結果カラムプロファイル結果. . . 143 カラム値のプロパティ. . . 144 カラムパターンのプロパティ. . . 145 カラム統計のプロパティ. . . 145 カラムデータ型のプロパティ. . . 146

Developer ツールでのキュレーション Informatica Developer でのキュレーション. . . 147

Developer ツールでのデータ型の承認 Informatica Developer でのデータ型の承認. . . 147

Developer tool でのデータ型の拒否 Informatica Developer でのデータ型の拒否. . . 147

Informatica Developer からのプロファイル結果のエクスポート. . . 148

第 20 章 : Informatica Developer のルール. . . 149

Informatica Developer でのルールの概要ルールのガイドライン. . . 149 Informatica Developer でのルールの作成. . . 150 Informatica Developer でのルールの適用ルールの適用. . . 150

第 21 章 : Informatica Developer のスコアカード. . . 151

Informatica Developer のスコアカードの概要. . . 151 スコアカードの作成. . . 151 スコアカードリネージュのリソースファイルのエクスポート. . . 152 Informatica Developer からのスコアカードリネージュの表示. . . 152

第 22 章 : マプレットとマッピングのプロファイリング. . . 154

マップレットとマッピングのプロファイリングの概要マップレットとマッピングのプロファイル. . 154 マップレットまたはマッピングオブジェクトに対するプロファイルの実行. . . 154 マッピングまたはマップレットオブジェクトのプロファイルの比較. . . 155 プロファイルからのマッピングの生成. . . 156

第 23 章 : Informatica Developer でのデータドメイン検出. . . 157

Informatica Developer でのデータドメイン検出の概要. . . 157 Informatica Developer のデータドメイングロッサリ. . . 157 Informatica Developer でのデータドメイングループの作成. . . 158 Informatica Developer でのデータドメインの作成. . . 158 Informatica Developer でのプロファイル結果からのデータドメインの作成. . . 159 Informatica Developer でのデータドメインの検出. . . 159 データドメインのインポート. . . 160 データドメインのエクスポート. . . 161 Informatica Developer のデータドメイン検出オプション. . . 161 Informatica Developer でのデータドメインの選択. . . 162 Informatica Developer でのデータドメインカラムの選択. . . 162 Informatica Developer のデータドメイン推測オプション. . . 163 Informatica Developer でのデータドメイン検出実行プロファイルの作成. . . 163

(11)

Informatica Developer でのプロファイルの編集. . . 164 Informatica Developer でのデータドメイン検出実行プロファイルの実行. . . 164 Informatica Developer のデータドメイン検出結果. . . 164 Informatica Developer でのデータドメイングループ別の表示. . . 165 Informatica Developer でのカラム別の表示. . . 165 Informatica Developer での結果の検証. . . 166 Developer ツールでのデータドメインの承認. . . 166 Developer ツールでのデータドメインの却下. . . 167 Informatica Developer からのデータドメイン検出結果のエクスポート. . . 167

第 24 章 : Informatica Developer でのエンタープライズ検出. . . 168

Informatica Developer でのエンタープライズ検出の概要. . . 168 エンタープライズ検出プロセス. . . 169 エンタープライズ検出のプロファイルオプション. . . 169 エンタープライズ検出でのデータドメインの選択. . . 170 エンタープライズ検出のカラムプロファイルサンプリングオプション. . . 170 エンタープライズ検出のプライマリキー推測オプション. . . 171 エンタープライズ検出の外部キー推測オプション. . . 171 Informatica Developer でのエンタープライズ検出プロファイルの作成. . . 172 プロファイルの編集. . . 173 エンタープライズ検出プロファイルの実行. . . 174 外部キー検出. . . 175 オブジェクトの親子関係の定義. . . 175 データオブジェクト間の外部キー関係の検出. . . 175 外部キー分析結果. . . 176 結合分析. . . 176 結合プロファイルの作成. . . 176 結合分析結果. . . 177 結合プロファイル結果のファイルへのエクスポート. . . 178 重複検出. . . 178 重複検出の結果. . . 178 重複データの検出. . . 179 DDL スクリプトファイル. . . 180 エンタープライズ検出プロファイルからの DDL スクリプトの作成. . . 180

第 25 章 : エンタープライズ検出結果. . . 181

エンタープライズ検出結果の概要. . . 181 [リレーション]ビュー. . . 182 データオブジェクトの検索. . . 183 [外部キープロファイリング]ビューへの移動. . . 183 外部キープロファイリングビュー. . . 183 データオブジェクトリレーションの表示. . . 183 ビューのズームインとズームアウト. . . 184 目次 11

(12)

データオブジェクトの検索. . . 184 カラムリレーションの表示. . . 184 イメージとしてのエンティティリレーションダイアグラムの保存. . . 185 [外部キープロファイリング]ビューからのデータオブジェクトプロファイル結果の表示. . . . 185 テーブルビュー. . . 185 [テーブル詳細]ペイン. . . 186 エンタープライズ検出結果の検証. . . 186 Developer tool におけるカラムのリレーションのキュレーション. . . 186 モデルリポジトリへの結果のコミット. . . 187 [データドメイン]ビュー. . . 187 データドメイン検出結果の表示. . . 187 データドメイン検出結果の検証. . . 188 行のドリルダウン. . . 188 [データドメイン]ビューからのデータオブジェクトプロファイル結果の表示. . . 188 [カラムプロファイル]ビュー. . . 189 データオブジェクトプロファイル結果の表示. . . 189 エンタープライズ検出の実行中のカラムプロファイル結果の表示. . . 189 エンタープライズ検出の実行中のデータドメイン検出結果の表示. . . 189 エンタープライズ検出のランタイムステータスの表示. . . 190 エンタープライズ検出エクスポートファイル. . . 190 エンタープライズ検出結果のエクスポート. . . 190

第 26 章 : Informatica Developer での Business Glossary Desktop. . . 192

ビジネス用語集の検索. . . 192

ビジネス用語のルックアップ. . . 192

ビジネス用語のルックアップ用にホットキーをカスタマイズ. . . 193

(13)

序文

『Informatica Data Explorer ガイド』は、Informatica Analyst および Informatica Developer のユーザーを 対象としています。このガイドでは、プロファイルを使用してデータの内容および構造を、検出および分析す る方法について説明しています。 プロファイルを使用して、データセットのデータ品質に関する問題を検出したり、1 つ以上のデータセットの カラムの関係を把握したりします。

Informatica のリソース

Informatica マイサポートポータル

Informatica のユーザーは、最初に Informatica マイサポートポータル (https://mysupport.informatica.com)から Informatica にアクセスします。マイサポートポータルは、大規 模なオンラインデータ統合コラボレーションプラットフォームであり、全世界で 10 万人を超える Informatica の顧客およびパートナーが利用しています。 メンバーは以下の操作を行うことができます。 1 つの場所からすべての Informatica のリソースにアクセスできます。 自分のサポート事例を確認できます。 ナレッジベースや製品マニュアルを検索したり、入門ドキュメントを参照したり、サポートビデオを視聴し たりできます。 最寄りの Informatica ユーザーグループネットワークを検索して、他のユーザーと共同作業を行えます。 メンバーは以下の操作を行うことができます。 1 つの場所からすべての Informatica のリソースにアクセスできます。 ナレッジベースや製品マニュアルを検索したり、入門ドキュメントを参照したり、サポートビデオを視聴し たりできます。 最寄りの Informatica ユーザーグループネットワークを検索して、他のユーザーと共同作業を行えます。

Informatica マニュアル

Informatica マニュアルチームは、正確で役に立つマニュアルの作成に努めています。このマニュアルに関す る質問、コメント、ご意見の電子メールの送付先は、Informatica マニュアルチーム (infa_documentation@informatica.com)です。 お客様のフィードバックは、マニュアルの改良に利用させ ていただきます。コメントに返信をご希望のお客様は、その旨をお知らせください。 13

(14)

マニュアルチームは、必要に応じてマニュアルを更新します。製品の最新のマニュアルを入手するには、

https://mysupport.informatica.comから製品マニュアルにアクセスします。

Informatica 製品可用性マトリックス

製品可用性マトリックス(PAM)には、製品リリースでサポートされるオペレーティングシステム、データベ ースなどのデータソースおよびターゲットが示されています。PAM は、Informatica My Support ポータル (https://mysupport.informatica.com)でアクセスできます。

Informatica の Web サイト

Informatica 社の Web サイトは、 https://www.informatica.com からアクセスできます。このサイトでは、 Informatica 社の概要と沿革、今後のイベント、営業拠点などの情報を提供しています。また、製品情報やパ ートナー情報も提供しています。サービス関連のページには、テクニカルサポート、トレーニングと教育、お よび実装に関するサービスの重要な情報を掲載しています。

Informatica How-To ライブラリ

Informatica のユーザーとして、Informatica How-To ライブラリ(https://mysupport.informatica.com)に アクセスできます。How-To Library は、Informatica の製品および機能についての詳細を確認できるリソース のコレクションです。一般的な問題に対するソリューションを提供したり、機能や動作を比較したり、特定の 実際のタスクを実行するための方法を示したりする記事やインタラクティブなデモンストレーションが含まれ ています。

Informatica ナレッジベース

Informatica のユーザーとして、Informatica ナレッジベース(https://mysupport.informatica.com)にアク セスできます。この Knowledge Base を利用して、Informatica 製品に関する既知の技術的問題の解決策を検 索することができます。また、FAQ(よくある質問)の答え、技術的ホワイトペーパー、技術的なヒントも得 られます。Knowledge Base に関する質問、コメント、ご意見の電子メールの送付先は、Informatica ナレッ ジベースチーム(KB_Feedback@informatica.com)です。

Informatica サポートの YouTube チャンネル

http://www.youtube.com/user/INFASupportで Informatica サポートの YouTube チャンネルにアクセスで きます。Informatica サポートの YouTube チャンネルでは、特定のタスクを実行するソリューションについて のビデオを用意しています。Informatica サポートの YouTube チャンネルに関する質問、コメント、またはア イデアがある場合は、サポート YouTube チームに電子メール(supportvideos@informatica.com)を送信す るか、または@INFASupport でツイートしてください。

Informatica Marketplace

情報マーケットプレースは、開発者とパートナーがデータ統合実装を増幅、拡張、強化するソリューションを 共有するためのフォーラムです。マーケットプレースにある何百ものソリューションを利用して、プロジェク トで実装にかかる時間を短縮したり、生産性を向上させたりできます。Informatica Marketplace には、 http://www.informaticamarketplace.comからアクセスできます。

Informatica Velocity

https://mysupport.informatica.comで Informatica Velocity にアクセスできます。数多くのデータ管理プロ ジェクトの実世界での経験から開発された Informatica Velocity は、世界中の組織と協力して優れたデータ管

(15)

います。Informatica Velocity についての質問、コメント、またはアイデアがある場合は、 ips@informatica.comから Informatica プロフェッショナルサービスにお問い合わせください。

Informatica グローバルカスタマサポート

電話またはオンラインサポートからカスタマサポートセンターに連絡できます。 オンラインサポートのご利用には、ユーザー名とパスワードが必要です。http://mysupport.informatica.com から、ユーザー名とパスワードが入手できます。

Informatica グローバルカスタマサポートの電話番号は、Informatica の Web サイト

http://www.informatica.com/us/services-and-training/support-services/global-support-centers/に掲載 されています。

(16)

パート I: データ検出の概要

この部には、以下の章があります。 プロファイリングの概要, 17 ページ データ検出, 22 ページ カラムプロファイルの概念, 26 ページ データドメイン検出の概念, 30 ページ キュレーションの概念, 33 ページ

(17)

1

プロファイリングの概要

この章では、以下の項目について説明します。 プロファイリングの概要, 17 ページ プロファイリングアーキテクチャ, 18 ページ データ検出プロセス, 20 ページ

プロファイリングの概要

プロファイリングは、アプリケーション、スキーマ、またはエンタープライズのデータソースの内容、品質、 および構造を検出するために使用します。データソースの内容には、値の頻度やデータ型が含まれます。デー タソースの構造には、キーや機能依存性が含まれます。 検出プロセスの一環として、プロファイルを作成して実行できます。プロファイルは、エンタープライズのデ ータソース間のデータの不整合や、データオブジェクトを危険にさらす隠れたデータの問題を検出および分析 するリポジトリオブジェクトです。企業内のデータソースに対してプロファイルを実行すると、エンタープラ イズのデータおよびメタデータの強みと弱みについて把握することができます。

Analyst ツールと Developer tool を使用して、ソースデータやメタデータを分析できます。アナリストと開発 者は、これらのツールを使用して、連携しながらデータ品質の問題を特定し、データのリレーションを分析す ることができます。職務に基づいて、Analyst ツールまたは Developer tool のいずれかの機能を使用できま す。実行できるプロファイリングのレベルは、使用するツールによって異なります。

Developer tool と Analyst ツールのどちらでも実行できる作業は次のとおりです。

カラムプロファイリングを実行する。これには、カラム内の一意の値と NULL 値の数やデータパターンの検 出が含まれます。 データドメイン検出を実行します。エンタープライズ内の重要なデータ特性を検出できます。 データ型、データドメイン、プライマリキー、外部キーを含むプロファイル結果をキュレーションします。 スコアカードを作成してデータ品質を監視します。 リポジトリアセットのロックを使用して、他のユーザーが作業を上書きしないようにします。 バージョン管理システムを使用して、複数のバージョンのプロファイルを保存します。 タグを作成してデータオブジェクトに割り当てる。

Business Glossary Desktop のビジネス用語としてオブジェクト名の意味を調べる。例えば、カラムやプロ

ファイルの名前の意味を参照してビジネス要件や現在の実装を調べることができます。

(18)

Developer tool で実行できる作業は次のとおりです。 データソース内の 2 つのデータカラム間に見込まれる結合度を検出する。 1 つまたは複数のデータソース内のカラムのペア間で発生している重複データの割合を特定する。 カラムプロファイリングの結果を比較する。 プロファイルからマッピングオブジェクトを生成する。 データソース内のプライマリキーを検出する。 1 つ以上のデータソースのセット内の外部キーを検出する。 データソース内のカラム間の機能依存性を検出する。 複数の接続にまたがる大量のデータソース上でデータ検出作業を実行する。データ検出作業には、カラムプ ロファイル、プライマリキーのリレーションと外部キーのリレーションの推測、データドメイン検出、およ びデータリレーションをグラフィックにまとめたサマリの生成が含まれます。 Analyst ツールで実行できる作業は次のとおりです。 複数の接続にまたがる大量のデータソース上でエンタープライズ検出を実行する。カラムメタデータとデー タドメインの検出結果をまとめたサマリを表示できます。 企業内のデータとメタデータの場所を検索するために、検出検索を実行する。データオブジェクト、ルー ル、プロファイルなどの特定のアセットを検索できます。検出検索はアセットを検索し、エンタープライズ 内のデータベースおよびスキーマにある他のアセットとのリレーションを識別します。 履歴プロファイル実行のプロファイル結果を表示します。 2 つのプロファイルのプロファイル結果を比較します。 スコアカードのメトリックまたはメトリックグループごとにスコアカードリネージュを表示する。 プロファイルまたはプロファイル内のカラムにコメントを追加します。 プロファイルまたはプロファイル内のカラムにタグを割り当てます。 プロファイル内のカラムにビジネス用語を割り当てます。

プロファイリングアーキテクチャ

プロファイリングアーキテクチャは、ツール、サービス、およびデータベースで構成されます。ツールコンポ ーネントは、クライアントアプリケーションで構成されます。サービスコンポーネントには、ツールの管理、 データ統合作業の実行、およびプロファイルオブジェクトのメタデータの管理に必要なアプリケーションサー

(19)

ビスが含まれます。データベースコンポーネントは、モデルリポジトリとプロファイリングウェアハウスで構 成されます。 次の図は、プロファイリングのアーキテクチャコンポーネントを示しています。 プロファイルを実行すると、モデルリポジトリサービスからアナリストサービスまたは Developer tool にプロ ファイル定義が渡されます。次に、アナリストサービスまたは Developer tool からデータ統合サービスのプロ ファイリングプラグインが呼び出され、このプロファイリングプラグインによって、プロファイルジョブが処 理されてデータ統合サービスにサブミットされます。その後、データ統合サービスでプロファイリング結果が 生成され、データ統合サービスにより、プロファイリング結果がプロファイリングウェアハウスに書き込まれ ます。 検出検索では、検索サービスが使用されます。検索サービスは、モデルリポジトリまたはプロファイリングウ ェアハウスの代わりに、検索インデックスで各検索を実行します。検索サービスは、モデルリポジトリおよび プロファイリングウェアハウスのコンテンツに基づいて検索インデックスを生成します。検索サービスには、 各リポジトリからコンテンツを抽出するためのエクストラクタが含まれています。 以下の表では、アーキテクチャコンポーネントについて説明します。 コンポーネント 説明 Informatica Analyst データソースのデータやメタデータの検出、分析、およびレポートに使用できる Web ベースのクライアントアプリケーション。 Informatica Developer プライマリキーの検出、外部キーの検出、およびエンタープライズ検出など、高 度なデータ検出を実行する場合に使用するクライアントアプリケーション。 アナリストサービス Analyst ツールを実行し、サービスコンポーネントと Analyst ツールユーザー間 の接続を管理するアプリケーションサービス。 検索サービス Analyst ツールで検索を管理するアプリケーションサービス。デフォルトでは、 検索サービスはデータオブジェクト、プロファイル、マッピング仕様、参照テー ブル、ルール、スコアカードなどのモデルリポジトリから検索結果を返します。 プロファイリングアーキテクチャ 19

(20)

コンポーネント 説明 検索インデックス 検索サービスがモデルリポジトリおよびプロファイリングウェアハウスから抽出 するインデックス付きコンテンツを格納する、カスタムディレクトリ内のファイ ルシステム。 モデルリポジトリサー ビス モデルリポジトリを管理するアプリケーションサービス。

データ統合サービス Analyst ツール、Developer tool、および外部クライアントに対するデータ統合作

業を実行するアプリケーションサービス。

モデルリポジトリ Analyst ツールや Developer tool で作成されるプロジェクトのメタデータを格納

するリレーショナルデータベース。 プロファイリングウェ アハウス プロファイル結果やスコアカードの結果など、プロファイリング情報を格納するデータベース。

データ検出プロセス

データ統合プロジェクトでは、多くの場合、最初にプロファイリングを行います。プロファイルを作成するこ とで、データソースの内容、品質、および構造を分析できるようになります。プロファイリングプロセスの一 環として、データソースのメタデータを検出します。 使用するプロファイルは、データ分析のタイプ(カラムプロファイル、プライマリキー検出、外部キー検出、 データドメイン検出など)によって異なります。 データ品質の問題を検出し、文書化します。データ検出を実 行するには、以下のタスクを実行します。 1. データソースからデータの内容を検出して分析します。これには、データ型、値の頻度、パターンの頻度、 データの統計(最小値や最大値など)が含まれます。 2. データの構造を検出します。これには、キー、機能依存性、外部キーが含まれます。 3. プロファイル結果を確認、検証します。 4. プロファイル結果をドリルダウンします。 5. プロファイル結果をキュレーションします。 6. 参照データを作成します。 7. データの問題を文書化します。 8. ルールを作成して実行します。 9. スコアカードを作成してデータ品質を監視します。 検出プロセスの管理には、次のツールを使用できます。 Informatica Administrator ユーザー、グループ、特権、およびロールを管理します。 アナリストサービスを管理したり、

Informatica Analyst のプロジェクトやオブジェクトに対する権限を管理したりできます。Informatica Developer のアクセス権限もこのツールで制御できます。

Informatica Developer

1 つ以上のデータソースのメタデータを検出して分析するには(カラムの関係の検出など)、このツールで プロファイルを作成して実行します。プロファイルはウィザードを使用して作成します。

(21)

Informatica Analyst

Analyst ツールでは、カラムプロファイルの実行、データドメイン検出の実行、およびデータオブジェク トへのエンタープライズ検出の実行を行うことができます。 プロファイルの実行後、データソースのデー タ行をドリルダウンすることができます。

(22)

2

データ検出

この章では、以下の項目について説明します。 データ検出の概要, 22 ページ プロファイルおよび分析タイプ, 22 ページ プロファイリングのコンポーネント, 23 ページ プロファイル結果, 24 ページ

データ検出の概要

データ検出は、ソースシステムのメタデータ(内容と構造)を検出するプロセスです。コンテンツは、データ 値、頻度、データ型を参照します。構造には、候補キー、プライマリキー、外部キー、および機能依存性が含 まれます。プロファイルを作成して実行することで、データソースの内容と構造を検出することができます。 単一のデータオブジェクト内で、または複数のデータオブジェクト全体でデータを分析するようにプロファイ ルを定義できます。プロファイルにコメントを追加すると、プロファイリングプロセスを効果的に追跡するこ とができます。 データ構造を評価し、データカラムに必要なタイプの情報が含まれていることを確認するには、プロファイル を実行します。プロファイリングしたデータのデータ行をドリルダウンできます。プロファイル結果でデータ に問題が見つかった場合は、ルールを適用して結果セットを修正できます。ルールの適用前と適用後にスコア カードを作成して、データ品質を追跡および測定することができます。プロファイルまたはスコアカードの外 部ソースメタデータに変更が発生する場合は、変更をそのデータオブジェクトに同期させることができます。

プロファイルおよび分析タイプ

プロファイルは、実行する必要がある分析のタイプに基づいて作成します。作成するプロファイルのタイプは、 実行する分析のタイプに対応しています。例えば、プライマリキー分析を実行する場合は、プライマリキープ ロファイルを作成します。 以下のプロファイルを作成して、データの分析および検出を実行できます。 カラムプロファイル テーブルまたはファイル内の選択したカラムのデータ品質を分析します。カラム分析用のプロファイルは、 Analyst ツールおよび Developer ツールで定義できます。

(23)

データドメイン検出 エンタープライズ内の重要なデータ特性を検出します。データドメイン検出では、カラム値またはカラム 名に基づいて、カラムに関連付けられているすべてのデータドメインが特定されます。検出プロセスの一 環として、データルールやカラム名ルールを手動で作成して、値やカラム名がデータドメインに属するか どうかを確認できます。データドメインを作成する際に、これらのルールを関連付けることができます。 また、データドメインは、カラムプロファイル結果の値およびパターンから作成することもできます。 プライマリキープロファイル テーブルまたはファイル内のカラム間のプライマリキー関係を検出します。プライマリキー分析用のプロ ファイルは、Developer ツールで定義できます。 機能依存性プロファイル テーブルまたはファイル内のカラム間の機能依存性を検出します。機能依存性分析用のプロファイルは、 Developer ツールで定義できます。 外部キープロファイル 複数のテーブルまたはファイル全体のカラム間の外部キー関係を検出します。外部キー分析用のプロファ イルは、Developer ツールで定義できます。 結合プロファイル 単一のデータソース内、または複数のデータソース全体のカラム間に見込まれる結合度を特定します。結 合分析用のプロファイルは、Developer ツールで定義できます。結果はベン図に表示されます。 重複検出 1 つまたは複数のデータソース内のカラムのペア間で発生している重複データの割合を特定します。重複 検出タスクは、Developer ツール内のエディタから実行できます。 結果の検証と表示は、ベン図で行うこ とができます。 エンタープライズ検出 大量のデータソースに対して複数のデータ検出タスクを実行し、プロファイル結果の統合サマリを生成し ます。 カラムプロファイルの実行、データドメイン検出の実行、およびプライマリキー関係と外部キー関 係の検出が含まれます。 エンタープライズ検出は、大量のデータソースのプロファイルプロセスを自動化 します。

注: Analyst ツールでプロファイルに加えた変更は、Developer tool のモデルリポジトリへの接続を更新するま

で Developer tool には反映されません。

プロファイリングのコンポーネント

プロファイルには複数のコンポーネントがあり、それらを使用することでデータソースの内容と構造を効果的 に分析することができます。 プロファイルのコンポーネントを次に示します。 フィルタ 元のデータソースから特定の条件を満たすサブセットを作成します。その後、このサンプルデータに対し てプロファイルを実行できます。 ルール プロファイルの実行時にデータに適用される条件を定義するビジネスロジック。データを検証するには、 プロファイルにルールを追加します。 プロファイリングのコンポーネント 23

(24)

タグ ビジネス上の用途に基づいてモデルリポジトリ内のオブジェクトを定義するメタデータ。タグを作成する と、ビジネス用途に従ってオブジェクトをグループ化できます。タグは、Analyst ツールで、プロファイ ルまたはプロファイル内のカラムに割り当てます。 コメント プロファイルに関する説明。コメントは、プロファイルに関する情報を Analyst ツールおよび Developer tool の他のユーザーと共有する場合に使用します。コメントは、Analyst ツールで、プロファイルまたは プロファイル内のカラムに追加します。 スコアカード カラムの有効値またはプロファイル結果内のルールの出力を視覚的に表したもの。データ品質の進捗を測 定するには、スコアカードを使用します。

プロファイル結果

プロファイル結果はプロファイルの実行後に表示できます。プロファイルのカラムとルールについて、概要、 値、パターン、および統計を確認できます。プロファイルのカラムとルールのプロパティが表示され、プロフ ァイルデータをプレビューできます。 以下の表に、各プロファイルタイプに対するプロファイル結果を示します。 プロファイルタ イプ 結果 カラムプロファ イル - カラム内の NULL 値、一意の値および非一意の値の数とパーセンテージ、カラム値の推測されたデータ型。 - 選択したカラム内のデータ値の頻度と文字パターン、そのカラムの統計の概要。 - 値の頻度およびパターンの頻度を表す水平棒グラフ。 - カラムデータを分析して推測するデータタイプ。 - 文書化された、データのデータタイプ。 - 最大値と最小値。 - プロファイルの実行日時。 - パターンと値頻度の異常値。 プライマリキー プロファイル -- 推測されるプライマリキー候補の一意の値、重複する値、および NULL 値の数と割合。推測されるプライマリキー候補内のキー違反の数。 機能依存性プロ ファイル -- 推測される機能依存性。機能依存性違反の数。 外部キープロフ ァイル - 定義したプライマリキーと外部キーの推測条件を満たすプライマリキーカラムと外部キーカラム。 - プライマリキーと外部キーの間で一致するデータ値の数(割合で表される)。 - プロファイルの実行前にプライマリキーカラムと外部キーカラムに対して定義したリ レーションのタイプ。 結合プロファイ ル -- カラム間のリレーションを示すベン図。カラム内の孤立値、NULL 値、および結合値の数と割合。 重複検出 - 2 つのカラム間の重複の割合。 - カラム間の重複を示すベン図。

(25)

プロファイルタ イプ 結果 データドメイン 検出 -- 定義済みデータドメインに一致するカラム名とデータがパーセントで表示されます。カラムが所属するデータドメイングループとそのデータタイプ。 エンタープライ ズ検出 -- カラムプロファイル結果。データドメイン検出結果。 - プライマリキー検出結果。 - 外部キープロファイル結果のグラフィカルビューとテーブルビュー。 サードパーティのレポートツールを使用して、プロファイルウェアハウスからプロファイル結果を読み取るこ とができます。 Informatica が用意したプロファイルビューのセットで、読み取るプロファイル統計に合わせ てカスタマイズできます。これらのビューは、一般的なタイプのプロファイル統計とプロファイル結果分析に 基づいています。 プロファイル結果 25

(26)

3

カラムプロファイルの概念

この章では、以下の項目について説明します。

Column Profile Concepts OverviewProfiles Overview, 26 ページ カラムプロファイルオプション, 27 ページ

ルール, 28 ページ スコアカード, 29 ページ

リポジトリプロファイルのロックおよびバージョン管理されたプロファイルの管理, 29 ページ

Column Profile Concepts OverviewProfiles

Overview

A column profile determines the characteristics of columns in a data source, such as value frequency, percentages, and patterns.

Column profiling discovers the following facts about data:

The number of null, distinct, and non-distinct values in each column, expressed as a number and a percentage.

The patterns of data in each column and the frequencies with which these values occur.

Statistics about the column values, such as the maximum and minimum lengths of values and the first and last values in each column.

Documented data types, inferred data types, and possible conflicts between the documented and inferred data types.

Pattern and value frequency outliers.

You can configure the following options when you create or edit a profile:

Column profile options. You can select the columns on which you want to run a profile, choose a sampling option, and drill-down option.

Add, edit, or delete filters and rules.

In the profile results, you can add comments and tags to a profile and to the columns in a profile. You can assign business terms to columns.

The Model repository locks profiles to prevent users from overwriting work with the repository profile locks. The version control system saves multiple versions of a profile and assigns a version number to each version. You can check out a profile and then check the profile in after making changes. You can undo the action of checking out a profile before you check the profile back in.

(27)

Create scorecards to periodically review data quality. You create scorecards before and after you apply rules to profiles so that you can view a graphical representation of the valid values for columns. Use the Scheduler Service to schedule profiles and scorecards to run at a specific time or intervals. The Scheduler Service manages schedules for profiles, scorecards, deployed mappings and deployed workflows. You can create, manage, and run schedules in Informatica Administrator.

You can configure the Data Integration Service to use operating system profiles. After you configure, the Data Integration Service runs the profiles and scorecards with the permission of the operating system user you define in the operating system profile. You can select the operating system profile in the Analyst tool and the Developer tool.

カラムプロファイルオプション

プロファイルを作成する際には、プロファイルウィザードを使用して、フィルタ、ルール、サンプリングオプ ションを定義できます。これらのオプションでは、プロファイルがデータセットから行を読み取る方法を決定 します。 次の図は、プロファイル内のフィルタ定義の例を示しています。 このルールにビジネスロジックを含めることで、カラムプロファイリングの前にデータに対してデータトラン スフォーメーション操作を実行することができます。 カラムプロファイルオプション 27

参照

関連したドキュメント

うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、

2.1で指摘した通り、過去形の導入に当たって は「過去の出来事」における「過去」の概念は

「第 3 章 SAS/ACCESS Interface to R/3 のインストール」では、SAS/ACCESS Interface to R/3 のインストールについて順を追って説明します。SAS Data Surveyor for

第一章 ブッダの涅槃と葬儀 第二章 舎利八分伝説の検証 第三章 仏塔の原語 第四章 仏塔の起源 第五章 仏塔の構造と供養法 第六章 仏舎利塔以前の仏塔 第二部

 この論文の構成は次のようになっている。第2章では銅酸化物超伝導体に対する今までの研

で得られたものである。第5章の結果は E £vÞG+ÞH 、 第6章の結果は E £ÉH による。また、 ,7°²­›Ç›¦ には熱核の

なお︑本稿では︑これらの立法論について具体的に検討するまでには至らなかった︒

1 行目は User’s Guide の 26 章、 Overview of Stata estimation commands を参照しています。2 行目 は Base Reference Manual の regress を、3 行目は Data