デジタル変革を支える!
データガバナンスフレームワークとは
SAS Institute Japan株式会社
ソリューション統括本部
Data Management & Technologyグループ
川上 智史
Copyright © SAS Institute Inc. All rights reserved.
アジェンダ
1.
データガバナンスとは?
2.
データガバナンスフレームワークとその要素
3.
データガバナンスを実現する技術
4.
AI Driven Data Management
5.
まとめ
Copy rig ht © SA S Institute Inc. A ll rig hts re served.
Chandana Gopal, IDC, December 2017
アナリティクスはデジタルトランスフォーメーションのコアテクノロ
ジーであり、”データ”と”アナリティクス”を主導とした企業は成
功し、その他の企業は置いていかれるであろう。
McKinsey April 2016
86%のエグゼクティブは、自分の組織は、データや分析プログ
ラムの利用により、思ったほど効果が出ていないと考えている。
Copyright © SAS Institute Inc. All rights reserved.
データガバナンスの定義
企業のデータ活用戦略、目標、ポリシーを確立するための
組織的な枠組み
ジル・ディシェイ(Jill Dyché)・エヴァン・レヴィ(Evan Levy)
『Customer Data Integration: Reaching a Single Version of the Truth』(John Wiley & Sons 社)より
データガバナンスの失敗要因
効果
リソース
組織・体制
認識
失敗要因
Copyright © SAS Institute Inc. All rights reserved.
データガバナンスに求められる要件
Holistic
≒網羅性
Pragmatic
≒実用性
Copyright © SAS Institute Inc. All rights reserved.
データガバナンスフレームワーク
10
10
ビジネス要件
データ
ス
チ
ュワード
シ
ップ
役割&タスク
顧客志向
法令遵守
企業統合
リスク対応
意思決定
運用効率化
目標定義
指導原則
意思決定組織・体制
権限委譲
方法論
人
プロセス
テクノロジー
データ品質
データ
プロファイリング
データ統合
データ探索
データ可視化
データ
モニタリング
リファレンス
データ管理
メタデータ
管理
マスタデータ
管理
ビジネス用語
管理
データ
アーキテクチャ
DWH & BI /
アナリティクス
リファレンスおよび
マスタデータ
データセキュリティ
メタデータ
データ品質
データ運用管理
データライフサイクル
データガバナンス
データマネジメント
適用ソリューション
要素:
• ビジネス課題との連携
• 法令遵守
• 企業統合
• 運用効率化
Etc.
• トップダウン
or
ボトムアップ
ビジネス
要件
• 何のためにやる?
• 効果はあるのか?
• 成功するのか?
組織全体での
推進目的の明確化
Copyright © SAS Institute Inc. All rights reserved.
要素:
• 目標定義
• 指導原則
• 意思決定組織・体制
• 権限委譲
データ
ガバナンス
• 企業文化
• 組織の壁
• 人員配置
一元化された
推進ポリシー
データ
マネジメント
• どうやって一元管理?
• セキュリティは?
• 利用終了データは?
ポリシーの導入・
実行機能
要素:
• データアーキテクチャ
• メタデータ
• データ品質
• データ運用管理
• DWH&BI/アナリティクス
• リファレンス・マスタデータ
• データセキュリティ
• データライフサイクル
Copyright © SAS Institute Inc. All rights reserved.
データ
スチュワード
• データに矛盾が!
• 部門間に軋轢が!
データ管理責任者兼
ビジネスリーダー
要素:
• 明確なデータ定義
• ポリシーの適用実施
• データ品質モニタリング
• 問題の原因調査
• データポリシー定義・改訂
• データ利用用途の理解
• 問題の報告
方法論
要素:
• 人員
• プロセス
• テクノロジー
• どのようなスキル?
• 具体的にどうやる?
データガバナンス
実行の必須要素
Copyright © SAS Institute Inc. All rights reserved.
ソリューション
要素:
• データ品質
• データ統合
• データ可視化
• リファレンスデータ管理
• マスタデータ管理
• データプロファイリング
• データ探索
• データモニタリング
• メタデータ管理
• ビジネス用語管理
• 実データの品質は?
• データ活用状況は?
データガバナンス
導入・自動化を促進
Copyright © SAS Institute Inc. All rights reserved.
データガバナンスの実装
管理方法・対象の見直し
状況のモニタリング
どのデータをどのように
管理すべきか?
ルール・ポリシーの適用
A
P
C
D
Plan
Do
Check
Act
• データの流れ(どこで発
生し、どこで利用されて
いるのか)を把握したい
• データの在りかを可視
化し、活用を促進した
い
データガバナンスを支える技術
SAS Data Management
データアクセス、収集・統合から、品質向上まで、「アナリティクスライフサイクルの準備
フェーズ≒分析データ準備」に必要な全ての要素をカバーします。
• データソース接続
• リアルタイムデータ処理
• データ仮想統合
• データ収集・変換・統合
• ETLプロセス一元管理
• プロファイル
• クレンジング
• 名寄せ
• データ一貫性確認
• データ辞書整備
• ビジネスルール整備
ソリューション
• Hadoopデータ処理
• In-Database処理
• データ移動最適化
データ連携
データ統合
データ品質
データガバナンス
ビッグデータ/In-DB
• 様々な種類のデータ
ベースやファイルにアクセ
スしたい
• リアルタイムデータを活用
したい
よくある
課題
• 各システムで保持して
いるデータを統合したい
• データ統合プロセスの
開発・運用をシンプル
にしたい
• システム毎にバラバラ
な表記を統一したい
• 個人・法人データの
名寄せをしたい
• HadoopやDWHに蓄
積された巨大データを、
効率的に処理したい
• 異なるシステムのデータ
を効率的に結合したい
Copyright © SAS Institute Inc. All rights reserved.
データのプロファイリング(現状把握とプランニング)
データの基本的な項目に対して、一般的な統計手法や設定したビジネスルール基準を用いて検証したり、外れ値の検出、
パターン分析などを行うことができます。また、メタデータ分析によってさまざまなデータベースを横断したデータ品質にかかわる
情報を体系的に整理し、データ品質を見直すための情報リポジトリを作成することができます。
値の分布リスト
パターン分析
テーブルプロファイリングとビジュアライゼーション
20
Plan
データクレンジング(管理ポリシーに準じた補正)
あらかじめ定義されている標準化定義を使用して表記を統一
パース後のデータ
入力データを意味のあるトークン(都道府県、市区町村、苗字などの単位)に分割
入力データ
パース後のデータ
不完全な住所データ
パース(データ分割)
データ標準化
(表記ゆれの補正)
データの結合、加工、標準化、マッチング処理など、標準で搭載しているプロセスを柔軟に組み合わせて最適なクレンジン
グ処理を迅速に開発できます。
Do
Copyright © SAS Institute Inc. All rights reserved.
ビジネス用語管理 & 活用範囲のモニタリング
ビジネス観点から用語を定義・分類
桁数などのデータ要件を管理
システム上の項目を紐付け
項目やテーブルの関連性を自動的に表示
データ辞書によるデータの活用促進 & トレーサビリティ・ガバナンスを担保
Check
詳しくは…
@15:45
データ品質改善状況モニタリング
Check
Copyright © SAS Institute Inc. All rights reserved.
<配置・業務適用>
スコアリング
モデル管理
モニタリング
意思決定
<データ>
データアクセス
データ品質
データ準備
SASプラットフォーム
基盤システム (クラウドでもオンプレミスでも)
アナリティクス
データ
マネジメント
ビジュアライ
ゼーション
全体を同一基盤でご提供できるのがSASプラットフォーム
多様な要件への対応
信頼性と実績
高い
拡張性
セキュリティ/ガバナンス
Hadoop
Database
PCファイル
IoT
<発見・モデル化>
データ探索
分析
モデル作成
多様な
インターフェイス
SAS, API,
Python, R,
Lua, Java
業務・業種別ソリューション
データソース
プラットフォーム共通機能
Risk
Customer
Intelligence
Fraud and
Security
Intelligence
Supply
Chain
24
Copyright © SAS Institute Inc. All rights reserved.
AI Driven Data Management
『AI技術を活用したデータマネージメントの効率化』
探索
開発・運用
リコメンデーション
AI Driven Data Management
なぜ今必要か?
データ
≒ ビッグデータ
自動化&効率化
AI=SAS
Copyright © SAS Institute Inc. All rights reserved.
データ分類の効率化
項目への自動タグ付け
この項目は・・・
・個人/法人
・住所
・日付
AI Driven Data Management
適用検討中のユースケース
AI Driven
Data
Management
データ分類の
効率化
データ
クレンジング
リコメンド
ベストなデータ
ソースの
自動選択
ビジネスルール
自動生成
データ
マスキング
自動化
データ
マッピング
自動化
データ
プライバシー
評価
最適ルールの
自動選択
Copyright © SAS Institute Inc. All rights reserved.
データ分類の効率化
機械学習モデルの適用による精度の改善
最適なデータ
補完方法は?
最適な標準化
手法は?
データクレンジングのリコメンド
次のステップのリコメンデーション/サジェスチョン
次のステップに
最適なのは・・
・標準化
・パース
・名寄せ
Copyright © SAS Institute Inc. All rights reserved.
まとめ
データガバナンスには組織全体での取組みが必須
小さな成功体験も重要
データガバナンスで効果を得るには、
活用まで見据えたプラットフォームの選択が重要
SASはAIのリーディングカンパニーとして
Copyright © SAS Institute Inc. All rights reserved.